InfoNu.nl > Pc en Internet > Diversen > Data mining: data verzamelen met web scraping & APIís

Data mining: data verzamelen met web scraping & APIís

Data mining: data verzamelen met web scraping & APIís Data is in steeds grotere getale beschikbaar door de komst van het internet. In verschillende branches begint data een belangrijke rol te spelen. In de marketing worden advertenties, die waarschijnlijk relevant zijn, aan mensen voorgesteld aan de hand van data. In de financiële sector worden aandelen gekocht en verkocht op basis van data. Maar hoe krijg je die data eigenlijk in bezit? Door web scraping (met programmaís als Python) of met APIís is het mogelijk om zelf data te verzamelen die voor jou interessant is.

Data mining

Data mining is een Engelse term waarmee het zoeken naar data wordt bedoeld. Graven is het Nederlandse woord voor het woord mining. Data mining is dus eigenlijk het graven naar data. Door de komst van het internet is er steeds meer data aanwezig. Het wordt daarom steeds moeilijk om de juiste informatie te vinden in die hele grote berg informatie. Echter is het hebben van de juiste informatie vaak juist essentieel bij het maken van beslissingen. Met behulp van data mining wordt het eenvoudiger om de juiste informatie te verzamelen. Dit wordt veelal gedaan door middel van computerprogrammaís. Het doel hierbij is om uit een logge berg informatie bruikbare informatie te verkrijgen en dit gestructureerd te verwerken zodat deze informatie later voor andere doeleinden kan worden gebruikt.

Web scraping: data verzamelen van een website

Web scraping is data van het internet te verzamelen door middel van software. Vaak wordt dit gedaan met een programmeerprogramma zoals bijvoorbeeld Python. Met dit programma wordt een script geschreven waarin staat welke informatie het programma moet opslaan. Een zoekmachine zoals Google werkt op dezelfde manier. Deze gaat alle paginaís van het internet af en indexeert ze allemaal. Hierdoor kan Google de juiste websites tonen wanneer er een zoekopdracht wordt gedaan. Ook prijsvergelijkwebsites werken op deze manier. Deze slaan van een bepaalde productcategorie steeds de naam, prijs en webshop op en geven de consument hiermee in één oogopslag een overzicht van alle mogelijke aanbieders van het betreffende product.

Door middel van web scraping kun je precies de data vinden en opslaan die voor jou relevant is. Het is hiervoor echter wel een vereiste om een programmeertaal te kennen of een script ter beschikking hebben dat geschikt is voor jouw doel.

Voorbeeld
De data die wordt verzameld komt uit de Ďback endí van de website. Om de stijging in het aantal likes van een Facebook-pagina te weten, ga je naar deze pagina en druk je op F12. Hiermee open je de Ďback endí van de website. Je zoekt de informatie die je wil hebben, in dit voorbeeld het aantal likes, op in de Ďback endí en verwerkt deze in het (Python) script. Stel het script zo in dat het elke dag deze Facebook-pagina bezoekt en de informatie opslaat en je hebt na een tijdje het verloop van de likes van de Facebook-pagina.

Web scraping legaal?

Het is nog altijd discutabel of web scraping legaal is. Het is in principe niet illegaal om informatie op te slaan die openbaar op het internet staat, maar met web scraping wordt dit op zulke gestructureerde wijze gedaan dat de eigenaren van websites er af en toe niet helemaal blij mee zijn. Aan het opslaan van data zit natuurlijk ook een morele kant. Het mag in principe wel, het is een grijs gebied, maar het is de vraag of het gewenst is dat dit wordt gedaan. Daarnaast is de kans groot dat je tijdelijk van een website wordt geblokkeerd als er te veel aanvragen vanuit jou binnenkomen. Het is een verschil of je jouw script één keer per dag laat kijken hoeveel likes een Facebook-pagina heeft of dat je jouw script elke seconde beurskoersen laat vastleggen. Bij het tweede wordt de website waarop de beurskoersen te vinden zijn zoveel keer per uur door jouw script belast dat het mogelijk is dat het script tijdelijk van deze website wordt geweerd.

APIís: informatie verkrijgen van een website

API staat voor Ďapplication programming interfaceí. Dit is een verzameling van definities waardoor een computerprogramma kan communiceren met een ander programma. Dit wordt bijvoorbeeld gebruikt door sociale netwerken zoals Facebook en Twitter. Het is mogelijk om bepaalde data te verzamelen via deze APIís. De websites maken dan een deel van hun data toegankelijk voor iedereen met een API. Bij Twitter bijvoorbeeld is het mogelijk om via een API alle tweets die binnenkomen met een bepaalde hashtag te identificeren en automatisch op te slaan. Websites doen dit zodat ze ook weer data terug krijgen vanuit andere websites. Zo wordt data als het ware geruild. Een groot voordeel van APIís is dat de data die je krijgt geen Ďraw dataí meer is zoals bij web scraping, maar dat het al redelijk gestructureerd is in bijvoorbeeld een JSON-format.

Voordelen en nadelen web scraping en API´s

Zowel web scraping als APIís hebben verschillende voor- en nadelen. Welke manier het beste bij een persoon past hangt af van verschillende factoren zoals bijvoorbeeld kennis en tijd.

Voordelen web scraping

  • Je kunt precies die informatie verzamelen die je nodig hebt.
  • Het is goedkoop.
  • Je bent niet afhankelijk van overige partijen.
  • Je kunt alle data die er op het internet is verzamelen.

Nadelen web scraping

  • De data is van niet gestructureerd.
  • Je kunt geweerd worden van websites door de vele aanvragen.
  • Kennis van een programmeerprogramma is een vereiste.
  • Het kost erg veel tijd.

Voordelen API´s

  • De data is vaak (gedeeltelijk) gestructureerd.
  • Het kost relatief weinig tijd.
  • Het is een makkelijke en laagdrempelige manier om informatie te verzamelen.

Nadelen API´s

  • Gelimiteerde informatie: je krijgt alleen wat de website beschikbaar stelt.
  • Het kost geld of je moet data Ďruilení.
  • De overige partijen bepalen hoeveel informatie je kunt krijgen.

Lees verder

© 2016 - 2017 Schrijversblock, het auteursrecht (tenzij anders vermeld) van dit artikel ligt bij de infoteur. Zonder toestemming van de infoteur is vermenigvuldiging verboden.
Gerelateerde artikelen
Data Mining binnen een informatieomgevingEen begrip dat heel vaak genoemd wordt wanneer men het over Business Intelligence heeft is Data Mining. Het gaat gepaard…
Runescape Skill: MiningRunescape is een massive online 3D spel wat beheert wordt door Jagex Ltd. In Runescape kun je allemaal vaardigheden beoe…
Bitcoins minen: wat heeft u nodig?Bitcoins minen: wat heeft u nodig?De bitcoin is een nieuwe virtuele munteenheid die snel in waarde is gestegen. De munt wordt niet gemaakt door overheden…
Cloud mining: Makkelijk Bitcoins minen?2013 was hét jaar van de Bitcoin. Veel mensen zijn rijker geworden door Bitcoin mining, ofwel het zelf 'maken' van Bitco…
Informatie vanuit Data, So What (Nou en)?Informatie vanuit Data, So What (Nou en)?Het hedendaagse management wordt overstelpt met data. Maar hoe maakt een hedendaagse manager daar nu informatie van? Een…
Bronnen en referenties
  • Inleidingsfoto: Geralt, Pixabay
  • https://nl.wikipedia.org/wiki/Datamining
  • https://nl.wikipedia.org/wiki/Application_programming_interface

Reageer op het artikel "Data mining: data verzamelen met web scraping & APIís"

Plaats als eerste een reactie, vraag of opmerking bij dit artikel. Reacties moeten voldoen aan de huisregels van InfoNu.
Meld mij aan voor de tweewekelijkse InfoNu nieuwsbrief
Infoteur: Schrijversblock
Laatste update: 17-03-2017
Rubriek: Pc en Internet
Subrubriek: Diversen
Special: Moderne marketing
Bronnen en referenties: 3
Schrijf mee!