InfoNu.nl > Pc en Internet > Zoekmachines > Zoekmachines en hun ontwikkeling

Zoekmachines en hun ontwikkeling

Zoekmachines en hun ontwikkeling Midden jaren negentig ontstonden de eerste zoekmachines van Lycos en Alta Vista. In 1998 ontwikkelden Larry Page en Sergey Brin een zoekmachine met een uiterst sobere gebruikersinterface en een niet eerder vertoonde zoeksnelheid, die de basis vormde voor het toekomstige succes van zoekmachine Google.

Definitie zoekmachine

Een zoekmachine is een softwaretoepassing voor het doorzoeken van documenten of bestanden die zijn opgeslagen op een computer of computernetwerk zoals het Internet. Na het invoeren van een of meer zoektermen produceert het zoekprogramma een volgens bepaalde criteria gesorteerde lijst met verwijzingen naar relevante documenten die het beste met de zoekterm in verband kunnen worden gebracht. Omdat niet bij elke zoekaanvraag het gehele World Wide Web doorzocht kan worden, wordt er een index aangemaakt. Deze wordt, al naar gelang de ontvangen zoekopdrachten, de mutaties in de gegevensbestanden en documenten en vooraf bepaalde rankingcriteria, voortdurend geactualiseerd. Behalve deze, op een eigen index en algoritme gebaseerde zoekmachines, bestaan er ook zogenaamde Metazoekmachines, die de gegevens van bestaande zoekmachines en lijstgegevens doorzoeken en opsommen.

De componenten van een zoekmachine

Een zoekmachine bestaat feitelijk uit de volgende afzonderlijke componenten:
  • een URL-server,
  • meerdere crawlers (bots, robots, spiders)
  • de parser (tekstontleder) en
  • een server voor de data-opslag
De URL-server beheert de webadressen (URL's) die nog niet in de index werden opgenomen.

De zoektechniek

De aanmeldingen voor de afzonderlijke webpagina’s bij zoekmachines komen dus in de regel binnen bij de URL-server. Deze leidt de gegevens vervolgens door naar de datacrawler. De crawler zet nu elk afzonderlijk URL om in een IP-adres, zodat men met de respectievelijke servers in contact kan treden. Om de overdrachtsduur te verkorten en de server niet te zeer te belasten, opent een crawler vaak meerdere honderden verbindingen tegelijk. Treden er bij een bepaalde verbinding problemen op, dan heeft hij snel en zonder grote vertraging toegang tot een volgende verbinding. Door dit rotatiemechanisme kan één enkele robot tot 30 pagina's per seconde verzamelen.

Na een geslaagde data-overdracht levert de crawler de gegevens van de webpagina’s aan de parser. De parser stelt nu voor elke afzonderlijke HTML-pagina een gecomprimeerd bestand samen en stuurt dit door aan de data-server. De data-server heeft als taak om de in gecomprimeerde vorm opgeslagen pagina-informatie weer uit te pakken. Aanwezige links worden aan de URL-server gezonden. De aanwezige teksten en begrippen worden, voorzover die nog niet bekend zijn, aan de index toegevoegd. De index bestaat simpel gezegd uit het woordenboek, de hitlijsten en de repository (opslagplaats).

Het woordenboek (lexicon) is een collectie van alle op het net gevonden termen, veelal gepresenteerd in de vorm van een hashtabel. Alleen de begrippen die in het lexicon zijn opgenomen, leveren ook zelfstandige zoekresultaten. Elke term c.q. elk woord van de lexicon bevat een verwijzing naar de bijbehorende hitlijst. De hitlijsten bevatten voor elk woord verwijzingen naar de bijbehorende pagina's in de repository, waarin de webpagina’s zijn opgeslagen. Tegelijkertijd wordt in de hitlijsten aangetekend welke betekenis elke pagina met betrekking tot de afzonderlijke begrippen c.q. zoekwoorden heeft.

Voor interactie met een zoekmachine gebruikt men een front-end-processor of searcher. De front-end-processor is niets anders dan de zichtbare component van een zoekmachine, de gebruikersinterface. Geeft de gebruiker een zoekopdracht, dan toont de searcher een uit het woordenboek en de hitlijsten vervaardigde resultatenpagina. Elke zoekmachine gebruikt een eigen algoritme, een methode waarmee de resultaten worden weergegeven. Dit algoritme is de eigenlijke kern van een zoekmachine. Het bestaat uit honderden criteria die bepalen op welke positie een webpagina respectievelijk een specifieke zoekopdracht wordt weergegeven.

Ontstaan en ontwikkeling

Omstreeks midden jaren negentig ontstonden de eerste zoekmachines. Het Internet respectievelijk het World Wide Web had op dat moment al een zodanige omvang bereikt dat het de gebruiker nagenoeg onmogelijk was om de door hem gewenste informatie onmiddellijk te vinden.

De eerste zoekmachines waren de webcrawlers Lycos en Alta Vista. Lange tijd was de metazoekmachine van Alta Vista, ook een van de eerste commerciële zoekmachines trouwens, marktleider op zijn gebied. Tegenwoordig daarentegen is er nagenoeg geen metazoekmachine die nog met succes kan concurreren.

In 1998 ontwikkelden Larry Page en Sergey Brin, destijds nog studenten, een eigen zoekmachine. Een eenvoudige, sobere gebruikersinterface in combinatie met een niet eerder vertoonde zoeksnelheid vormde de basis voor het toekomstige succes van zoekmachine Google. Daarnaast gebruikte dié zoekmachine algoritmen en rankingcriteria die tot dan toe onbekend waren. Een van die criteria is de zogenaamde pagerank.

Al snel beseften ook Yahoo en MSN, twee andere zoekmachines, dat de nieuwe zoektechnologie van Google zou aanslaan. Omdat Larry Page en Sergey Brin echter meteen patent op alle technieken aanvroegen, bleef hen niets anders over dan zich bij Google in te kopen. Hoewel Yahoo ondertussen een eigen algoritme ontwikkeld heeft, is de zoekmachine van Google tegenwoordig absolute marktleider. Hun marktaandeel bedraagt, de zoekmachines meegerekend die eveneens van hun index gebruik maken, meer dan 90 %. Yahoo en MSN, respectievelijk Windows Live volgen op plaatsen 2 en 3, in ieder geval in Nederland. Ze stranden elk duidelijk op een drempel van ‘slechts’ 5 %...

Google is dus de meest gebruikte zoekmachine in Nederland. Wil je je website laten vinden op internet, dan kan die dus het beste laten opnemen in de index van Google.

Vooruitzichten

Of Google zich ook in de toekomst nog steeds marktleider mag noemen, laat zich niet makkelijk voorspellen. Dat tegenwoordig bijna niemand nog de naam Alta Vista kent, zou enkele jaren geleden niemand voor mogelijk hebben gehouden. Even snel is het mogelijk dat Google voor een nieuwe technologie moeten wijken. Maar dat zal niet van de ene op de andere dag gebeuren. Want Google begrijpt als geen ander hoe het zich in de markt moet profileren. Sleutelwoord daarbij is "branding” (huismerk).

Google is al lang geen pure zoekmachine meer maar een onderneming die in vrijwel alle segmenten uitbreidt. Denk daarbij maar aan de speciale zoekservices Froogle, Google Maps, Google News, discussieforum Google Groups, de e-maildient G-Mail of communities als blogger.com of Orkut, een contactbeurs. Daarnaast biedt Google gratis software zoals Google Desktop of het beeldbewerkingsprogramma Picasa. De centrale gedachte die achter deze en vele andere nieuwe ontwikkelingen steekt, is eenvoudig. De naam Google wint meer en meer aan gewicht. Er wordt al lang niet meer ‘gezocht’, alleen nog maar "gegoogled´.

Aan de zoekmachine van morgen zullen we onze zoekopdrachten via spraak geven. Ook die zal, nadat alle relevante resultaten gevonden en geëvalueerd zijn, met een eigen stem reageren. Dat kan echter nog decennia duren. Er vinden echter al testen plaats en ook de eerste resultaten zijn er al. Maar de taal is in dit kader nog dermate complex dat die resultaten nog niet echt bruikbaar zijn. Hier worden de problemen zichtbaar die de ontwerpers van toekomstige zoekmachines onder ogen moeten zien.

Naast de meervoudige betekenis van veel trefwoorden en de verschillende grammaticale uitingen, vormt met name de snelgroeiende gegevensomvang een groot probleem. Enerzijds ontstaan er dagelijks miljoenen nieuwe websites, anderzijds worden vele websites dagelijks geactualiseerd. Experts gaan er om deze redenen vanuit dat het zoekprogramma van de toekomst op het gebruik van gespecialiseerde databases zal terugvallen. Bovendien zullen persoonlijke en regionaal gestuurde zoekroutines (Personalized Search en Geo-Targeting) ook steeds meer aan betekenis winnen. Daarmee kunnen niet alleen belangrijke energiebronnen worden bespaard, zoekacties worden ook eenvoudiger en transparanter voor de gebruiker, want het zoekprogramma van de toekomst zal ook ‘lerende’ functies bevatten.
© 2009 - 2018 Serkozy, het auteursrecht (tenzij anders vermeld) van dit artikel ligt bij de infoteur. Zonder toestemming van de infoteur is vermenigvuldiging verboden.
Gerelateerde artikelen
Dode zoekmachines, kent u ze nog?Dode zoekmachines, kent u ze nog?Het opzetten van een zoekmachine leek zo winstgevend te zijn, dat er door de jaren heen steeds meer het web betraden. Go…
Serieschakeling of parallelschakeling?Misschien klinkt het u wel bekend in de oren: Het is Kerst, u zit gezellig met uw familie in de huiskamer naar de pracht…
Klussen: elektronica – circuit en regelen elektrische stroomKlussen: elektronica – circuit en regelen elektrische stroomStroom bestaat uit beweging van negatief geladen deeltjes (elektronen) van een negatieve naar een positieve pool. De con…
Hoe werken zoekmachines en websites samen?Hoe werken zoekmachines en websites samen?Websites en zoekmachines gaan naadloos samen. Zonder websites hebben we geen zoekmachines nodig om te zoeken op het inte…
Elektro-encefalografie (EEG)Elektro-encefalografie (EEG)EEG is een afkorting voor elektro-encefalografen, een manier om elektrische potentiaalverschillen in de hersenen te regi…
Bronnen en referenties
  • Inleidingsfoto: Geralt, Pixabay

Reageer op het artikel "Zoekmachines en hun ontwikkeling"

Plaats een reactie, vraag of opmerking bij dit artikel. Reacties moeten voldoen aan de huisregels van InfoNu.
Meld mij aan voor de tweewekelijkse InfoNu nieuwsbrief
Ik ga akkoord met de privacyverklaring en ben bekend met de inhoud hiervan
Reactie

Drem (infoteur), 03-10-2009 07:05 #1
Goed en uitgebreid artikel met veel informatie!
MVG
Drem (infoteur)

Infoteur: Serkozy
Laatste update: 15-11-2010
Rubriek: Pc en Internet
Subrubriek: Zoekmachines
Bronnen en referenties: 1
Reacties: 1
Schrijf mee!