Zoekmachines en hun ontwikkeling
Midden jaren negentig ontstonden de eerste zoekmachines van Lycos en Alta Vista. In 1998 ontwikkelden Larry Page en Sergey Brin een zoekmachine met een uiterst sobere gebruikersinterface en een niet eerder vertoonde zoeksnelheid, die de basis vormde voor het toekomstige succes van zoekmachine Google.Definitie zoekmachine
Een zoekmachine is een softwaretoepassing voor het doorzoeken van documenten of bestanden die zijn opgeslagen op een computer of computernetwerk zoals het Internet. Na het invoeren van een of meer zoektermen produceert het zoekprogramma een volgens bepaalde criteria gesorteerde lijst met verwijzingen naar relevante documenten die het beste met de zoekterm in verband kunnen worden gebracht. Omdat niet bij elke zoekaanvraag het gehele World Wide Web doorzocht kan worden, wordt er een index aangemaakt. Deze wordt, al naar gelang de ontvangen zoekopdrachten, de mutaties in de gegevensbestanden en documenten en vooraf bepaalde rankingcriteria, voortdurend geactualiseerd. Behalve deze, op een eigen index en algoritme gebaseerde zoekmachines, bestaan er ook zogenaamde Metazoekmachines, die de gegevens van bestaande zoekmachines en lijstgegevens doorzoeken en opsommen.De componenten van een zoekmachine
Een zoekmachine bestaat feitelijk uit de volgende afzonderlijke componenten:- een URL-server,
- meerdere crawlers (bots, robots, spiders)
- de parser (tekstontleder) en
- een server voor de data-opslag
De zoektechniek
De aanmeldingen voor de afzonderlijke webpagina’s bij zoekmachines komen dus in de regel binnen bij de URL-server. Deze leidt de gegevens vervolgens door naar de datacrawler. De crawler zet nu elk afzonderlijk URL om in een IP-adres, zodat men met de respectievelijke servers in contact kan treden. Om de overdrachtsduur te verkorten en de server niet te zeer te belasten, opent een crawler vaak meerdere honderden verbindingen tegelijk. Treden er bij een bepaalde verbinding problemen op, dan heeft hij snel en zonder grote vertraging toegang tot een volgende verbinding. Door dit rotatiemechanisme kan één enkele robot tot 30 pagina's per seconde verzamelen.Na een geslaagde data-overdracht levert de crawler de gegevens van de webpagina’s aan de parser. De parser stelt nu voor elke afzonderlijke HTML-pagina een gecomprimeerd bestand samen en stuurt dit door aan de data-server. De data-server heeft als taak om de in gecomprimeerde vorm opgeslagen pagina-informatie weer uit te pakken. Aanwezige links worden aan de URL-server gezonden. De aanwezige teksten en begrippen worden, voorzover die nog niet bekend zijn, aan de index toegevoegd. De index bestaat simpel gezegd uit het woordenboek, de hitlijsten en de repository (opslagplaats).
Het woordenboek (lexicon) is een collectie van alle op het net gevonden termen, veelal gepresenteerd in de vorm van een hashtabel. Alleen de begrippen die in het lexicon zijn opgenomen, leveren ook zelfstandige zoekresultaten. Elke term c.q. elk woord van de lexicon bevat een verwijzing naar de bijbehorende hitlijst. De hitlijsten bevatten voor elk woord verwijzingen naar de bijbehorende pagina's in de repository, waarin de webpagina’s zijn opgeslagen. Tegelijkertijd wordt in de hitlijsten aangetekend welke betekenis elke pagina met betrekking tot de afzonderlijke begrippen c.q. zoekwoorden heeft.
Voor interactie met een zoekmachine gebruikt men een front-end-processor of searcher. De front-end-processor is niets anders dan de zichtbare component van een zoekmachine, de gebruikersinterface. Geeft de gebruiker een zoekopdracht, dan toont de searcher een uit het woordenboek en de hitlijsten vervaardigde resultatenpagina. Elke zoekmachine gebruikt een eigen algoritme, een methode waarmee de resultaten worden weergegeven. Dit algoritme is de eigenlijke kern van een zoekmachine. Het bestaat uit honderden criteria die bepalen op welke positie een webpagina respectievelijk een specifieke zoekopdracht wordt weergegeven.
Ontstaan en ontwikkeling
Omstreeks midden jaren negentig ontstonden de eerste zoekmachines. Het Internet respectievelijk het World Wide Web had op dat moment al een zodanige omvang bereikt dat het de gebruiker nagenoeg onmogelijk was om de door hem gewenste informatie onmiddellijk te vinden.De eerste zoekmachines waren de webcrawlers Lycos en Alta Vista. Lange tijd was de metazoekmachine van Alta Vista, ook een van de eerste commerciële zoekmachines trouwens, marktleider op zijn gebied. Tegenwoordig daarentegen is er nagenoeg geen metazoekmachine die nog met succes kan concurreren.
In 1998 ontwikkelden Larry Page en Sergey Brin, destijds nog studenten, een eigen zoekmachine. Een eenvoudige, sobere gebruikersinterface in combinatie met een niet eerder vertoonde zoeksnelheid vormde de basis voor het toekomstige succes van zoekmachine Google. Daarnaast gebruikte dié zoekmachine algoritmen en rankingcriteria die tot dan toe onbekend waren. Een van die criteria is de zogenaamde pagerank.
Al snel beseften ook Yahoo en MSN, twee andere zoekmachines, dat de nieuwe zoektechnologie van Google zou aanslaan. Omdat Larry Page en Sergey Brin echter meteen patent op alle technieken aanvroegen, bleef hen niets anders over dan zich bij Google in te kopen. Hoewel Yahoo ondertussen een eigen algoritme ontwikkeld heeft, is de zoekmachine van Google tegenwoordig absolute marktleider. Hun marktaandeel bedraagt, de zoekmachines meegerekend die eveneens van hun index gebruik maken, meer dan 90 %. Yahoo en MSN, respectievelijk Windows Live volgen op plaatsen 2 en 3, in ieder geval in Nederland. Ze stranden elk duidelijk op een drempel van ‘slechts’ 5 %...
Google is dus de meest gebruikte zoekmachine in Nederland. Wil je je website laten vinden op internet, dan kan die dus het beste laten opnemen in de index van Google. Voor het aanmelden van je website bij Google, bestaan er meerdere technieken.
Vooruitzichten
Of Google zich ook in de toekomst nog steeds marktleider mag noemen, laat zich niet makkelijk voorspellen. Dat tegenwoordig bijna niemand nog de naam Alta Vista kent, zou enkele jaren geleden niemand voor mogelijk hebben gehouden. Even snel is het mogelijk dat Google voor een nieuwe technologie moeten wijken. Maar dat zal niet van de ene op de andere dag gebeuren. Want Google begrijpt als geen ander hoe het zich in de markt moet profileren. Sleutelwoord daarbij is "branding” (huismerk).Google is al lang geen pure zoekmachine meer maar een onderneming die in vrijwel alle segmenten uitbreidt. Denk daarbij maar aan de speciale zoekservices Froogle, Google Maps, Google News, discussieforum Google Groups, de e-maildient G-Mail of communities als blogger.com of Orkut, een contactbeurs. Daarnaast biedt Google gratis software zoals Google Desktop of het beeldbewerkingsprogramma Picasa. De centrale gedachte die achter deze en vele andere nieuwe ontwikkelingen steekt, is eenvoudig. De naam Google wint meer en meer aan gewicht. Er wordt al lang niet meer ‘gezocht’, alleen nog maar "gegoogled´.
Aan de zoekmachine van morgen zullen we onze zoekopdrachten via spraak geven. Ook die zal, nadat alle relevante resultaten gevonden en geëvalueerd zijn, met een eigen stem reageren. Dat kan echter nog decennia duren. Er vinden echter al testen plaats en ook de eerste resultaten zijn er al. Maar de taal is in dit kader nog dermate complex dat die resultaten nog niet echt bruikbaar zijn. Hier worden de problemen zichtbaar die de ontwerpers van toekomstige zoekmachines onder ogen moeten zien.
Naast de meervoudige betekenis van veel trefwoorden en de verschillende grammaticale uitingen, vormt met name de snelgroeiende gegevensomvang een groot probleem. Enerzijds ontstaan er dagelijks miljoenen nieuwe websites, anderzijds worden vele websites dagelijks geactualiseerd. Experts gaan er om deze redenen vanuit dat het zoekprogramma van de toekomst op het gebruik van gespecialiseerde databases zal terugvallen. Bovendien zullen persoonlijke en regionaal gestuurde zoekroutines (Personalized Search en Geo-Targeting) ook steeds meer aan betekenis winnen. Daarmee kunnen niet alleen belangrijke energiebronnen worden bespaard, zoekacties worden ook eenvoudiger en transparanter voor de gebruiker, want het zoekprogramma van de toekomst zal ook ‘lerende’ functies bevatten.
© 2009 - 2012 Serkozy, gepubliceerd in Zoekmachines (Pc en Internet) op .
Het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming van Serkozy is vermenigvuldiging van dit artikel verboden. Meer informatie…
Iron Dome: Israëls raketschild tegen Palestijnse raketten In antwoord op de voortdurende raketaanvallen (Kassam, Kat…
Elektro-encefalografie (EEG) EEG is een afkorting voor elektro-encefalografen, een manier om elektrische potentiaalversch…
Wat is pick and place technologie? Pick and place is een term die in de logistiek gebruikt wordt. Men verstaat hieronder…
The Deep web, het onzichtbare internet Deep web, deep net, onzichtbare net allemaal namen voor het deel van internet wat…
Gerelateerde artikelen
Dode zoekmachines, kent u ze nog? Het opzetten van een zoekmachine leek zo winstgevend te zijn, dat er door de jaren heen…Iron Dome: Israëls raketschild tegen Palestijnse raketten In antwoord op de voortdurende raketaanvallen (Kassam, Kat…
Elektro-encefalografie (EEG) EEG is een afkorting voor elektro-encefalografen, een manier om elektrische potentiaalversch…
Wat is pick and place technologie? Pick and place is een term die in de logistiek gebruikt wordt. Men verstaat hieronder…
The Deep web, het onzichtbare internet Deep web, deep net, onzichtbare net allemaal namen voor het deel van internet wat…
Reageer op het artikel "Zoekmachines en hun ontwikkeling"
Drem, 03-10-2009 07:05
Goed en uitgebreid artikel met veel informatie!
MVG
Drem (infoteur)