Data mining: data verzamelen met web scraping & API’s

Data mining: data verzamelen met web scraping & API’s Data is in steeds grotere getale beschikbaar door de komst van het internet. In verschillende branches begint data een belangrijke rol te spelen. In de marketing worden advertenties, die waarschijnlijk relevant zijn, aan mensen voorgesteld aan de hand van data. In de financiële sector worden aandelen gekocht en verkocht op basis van data. Maar hoe krijg je die data eigenlijk in bezit? Door web scraping (met programma’s als Python) of met API’s is het mogelijk om zelf data te verzamelen die voor jou interessant is.

Data mining

Data mining is een Engelse term waarmee het zoeken naar data wordt bedoeld. Graven is het Nederlandse woord voor het woord mining. Data mining is dus eigenlijk het graven naar data. Door de komst van het internet is er steeds meer data aanwezig. Het wordt daarom steeds moeilijk om de juiste informatie te vinden in die hele grote berg informatie. Echter is het hebben van de juiste informatie vaak juist essentieel bij het maken van beslissingen. Met behulp van data mining wordt het eenvoudiger om de juiste informatie te verzamelen. Dit wordt veelal gedaan door middel van computerprogramma’s. Het doel hierbij is om uit een logge berg informatie bruikbare informatie te verkrijgen en dit gestructureerd te verwerken zodat deze informatie later voor andere doeleinden kan worden gebruikt.

Web scraping: data verzamelen van een website

Web scraping is data van het internet te verzamelen door middel van software. Vaak wordt dit gedaan met een programmeerprogramma zoals bijvoorbeeld Python. Met dit programma wordt een script geschreven waarin staat welke informatie het programma moet opslaan. Een zoekmachine zoals Google werkt op dezelfde manier. Deze gaat alle pagina’s van het internet af en indexeert ze allemaal. Hierdoor kan Google de juiste websites tonen wanneer er een zoekopdracht wordt gedaan. Ook prijsvergelijkwebsites werken op deze manier. Deze slaan van een bepaalde productcategorie steeds de naam, prijs en webshop op en geven de consument hiermee in één oogopslag een overzicht van alle mogelijke aanbieders van het betreffende product.

Door middel van web scraping kun je precies de data vinden en opslaan die voor jou relevant is. Het is hiervoor echter wel een vereiste om een programmeertaal te kennen of een script ter beschikking hebben dat geschikt is voor jouw doel.

Voorbeeld
De data die wordt verzameld komt uit de ‘back end’ van de website. Om de stijging in het aantal likes van een Facebook-pagina te weten, ga je naar deze pagina en druk je op F12. Hiermee open je de ‘back end’ van de website. Je zoekt de informatie die je wil hebben, in dit voorbeeld het aantal likes, op in de ‘back end’ en verwerkt deze in het (Python) script. Stel het script zo in dat het elke dag deze Facebook-pagina bezoekt en de informatie opslaat en je hebt na een tijdje het verloop van de likes van de Facebook-pagina.

Web scraping legaal?

Het is nog altijd discutabel of web scraping legaal is. Het is in principe niet illegaal om informatie op te slaan die openbaar op het internet staat, maar met web scraping wordt dit op zulke gestructureerde wijze gedaan dat de eigenaren van websites er af en toe niet helemaal blij mee zijn. Aan het opslaan van data zit natuurlijk ook een morele kant. Het mag in principe wel, het is een grijs gebied, maar het is de vraag of het gewenst is dat dit wordt gedaan. Daarnaast is de kans groot dat je tijdelijk van een website wordt geblokkeerd als er te veel aanvragen vanuit jou binnenkomen. Het is een verschil of je jouw script één keer per dag laat kijken hoeveel likes een Facebook-pagina heeft of dat je jouw script elke seconde beurskoersen laat vastleggen. Bij het tweede wordt de website waarop de beurskoersen te vinden zijn zoveel keer per uur door jouw script belast dat het mogelijk is dat het script tijdelijk van deze website wordt geweerd.

API’s: informatie verkrijgen van een website

API staat voor ‘application programming interface’. Dit is een verzameling van definities waardoor een computerprogramma kan communiceren met een ander programma. Dit wordt bijvoorbeeld gebruikt door sociale netwerken zoals Facebook en Twitter. Het is mogelijk om bepaalde data te verzamelen via deze API’s. De websites maken dan een deel van hun data toegankelijk voor iedereen met een API. Bij Twitter bijvoorbeeld is het mogelijk om via een API alle tweets die binnenkomen met een bepaalde hashtag te identificeren en automatisch op te slaan. Websites doen dit zodat ze ook weer data terug krijgen vanuit andere websites. Zo wordt data als het ware geruild. Een groot voordeel van API’s is dat de data die je krijgt geen ‘raw data’ meer is zoals bij web scraping, maar dat het al redelijk gestructureerd is in bijvoorbeeld een JSON-format.

Voordelen en nadelen web scraping en API´s

Zowel web scraping als API’s hebben verschillende voor- en nadelen. Welke manier het beste bij een persoon past hangt af van verschillende factoren zoals bijvoorbeeld kennis en tijd.

Voordelen web scraping

  • Je kunt precies die informatie verzamelen die je nodig hebt.
  • Het is goedkoop.
  • Je bent niet afhankelijk van overige partijen.
  • Je kunt alle data die er op het internet is verzamelen.

Nadelen web scraping

  • De data is van niet gestructureerd.
  • Je kunt geweerd worden van websites door de vele aanvragen.
  • Kennis van een programmeerprogramma is een vereiste.
  • Het kost erg veel tijd.

Voordelen API´s

  • De data is vaak (gedeeltelijk) gestructureerd.
  • Het kost relatief weinig tijd.
  • Het is een laagdrempelige manier om informatie te verzamelen.

Nadelen API´s

  • Gelimiteerde informatie: je krijgt alleen wat de website beschikbaar stelt.
  • Het kost geld of je moet data ‘ruilen’.
  • De overige partijen bepalen hoeveel informatie je kunt krijgen.
© 2016 - 2024 Schrijversblock, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.
Gerelateerde artikelen
Data Mining binnen een informatieomgevingEen begrip dat heel vaak genoemd wordt wanneer men het over Business Intelligence heeft is Data Mining. Het gaat gepaard…
Bitcoins minen: wat heeft u nodig?Bitcoins minen: wat heeft u nodig?De bitcoin is een nieuwe virtuele munteenheid die snel in waarde is gestegen. De munt wordt niet gemaakt door overheden…
Marketing onderzoekMarketing onderzoekHoe zit een marketing onderzoek in elkaar? In dit artikel zal ik de zes stappen van een effectief marketing onderzoek be…
Snel en eenvoudig een infographic makenSnel en eenvoudig een infographic makenDe laatste tijd zie je ze steeds meer: infographics. Het is een handige manier om data op een visueel aantrekkelijke man…

Viva Forum - grootste online vrouwencommunity van NederlandViva Forum - grootste online vrouwencommunity van NederlandVan stille meelezer tot forumfossiel, welke vrouw kent het Viva Forum niet? Met anno 2016 een slordige 3,2 miljoen bezoe…
YouTube-carrière: David Harms - DDG - DDCYouTube-carrière: David Harms - DDG - DDCDavid Harms is zeker weten een succesvolle Nederlandstalige YouTuber te noemen. In totaal heeft hij anno 2016 drie YouTu…
Bronnen en referenties
  • Inleidingsfoto: Geralt, Pixabay
  • https://nl.wikipedia.org/wiki/Datamining
  • https://nl.wikipedia.org/wiki/Application_programming_interface
Schrijversblock (55 artikelen)
Laatste update: 20-06-2019
Rubriek: Pc en Internet
Subrubriek: Diversen
Bronnen en referenties: 3
Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.