The Deep web, het onzichtbare internet

Deep web, deep net, onzichtbare net allemaal namen voor het deel van internet wat niet gevonden wordt door reguliere zoekmachines. Het klinkt misschien wat duister en illegaal maar dat valt reuze mee, voor het grootste deel althans.

The Deep web

Het internet kan je ruwweg in 2 lagen indelen, de oppervlakte, en de diepte. Aan het oppervlak vinden we alle sites die we kennen, de direct toegankelijke informatie, meestal in de vorm van HTM pagina’s en afbeeldingen. De oppervlakte is het deel wat te doorzoeken valt met de reguliere zoekmachines zoals Google en Yahoo en bestaat uit vele miljarden pagina’s.

Hoewel het reguliere deel van internet al groot genoeg lijkt, is het in werkelijke internet nog veel groter, vele malen groter zelfs, alleen is dit deel van internet wat moeilijker te doorzoeken en daardoor minder bekend. Dit minder zichtbare deel (men schat +/-99%) noemt men het meestal 'The deep web' Het diepe web bestaat uit verschillende soorten pagina’s, die al dan niet bewust onzichtbaar blijven.

Waar het diepe web voornamelijk uit bestaat:

Documenten die nooit zijn aangemeld bij zoekmachines en waar ook geen enkele link naar verwijst. Ook als je site niet is aangemeld bij een zoekmachine wordt hij meestal na een tijdje vanzelf opgenomen, de robots van de zoekmachines zijn in zo'n geval op een link gestuit die naar je site verwijst, en komen er op die manier terecht. Is er nu op het hele internet geen enkele link naar je site te vinden, zal je nooit geïndexeerd worden door deze robots.
Dynamische inhoud: pagina’s gegenereerd door databases, neem als voorbeeld de telefoongids, je voert de naam en plaats in en deze database produceert ter plekke een pagina voor je met de resultaten. Deze dynamische pagina’s kunnen niet doorzocht worden door de zoekmachines omdat ze maar heel kort bestaan, klik hem weg en hij bestaat niet meer. de databases zelf kunnen zelf wel doorzocht worden, maar dan moet er voor iedere database een aparte zoekopdracht worden gebruikt.
Privé domeinen: Website beveiligd met een gebruikersnaam en/of wachtwoord, als de beveiliging goed is opgezet, zal een zoekmachine deze sites niet kunnen doorzoeken, en vind je dus niks. voorbeelden hiervan zijn betaalsites, abonneediensten en members only forums.
Afgeschermde sites: Sites die zichzelf hebben afgeschermd tegen zoekmachines door gebruik te maken de hiervoor bestemde meta-tags en robots.txt. Door deze tags worden de gegevens van de betreffende site niet in de index van de zoekmachine opgenomen, en zullen ze niet gauw in de resultaten naar boven komen.
Scripted content: Pagina’s die door scripts gegenereerd worden, zoekmachines kunnen meestal niet overweg met de gebruikte talen.
Sociale content, denk hierbij aan weblog's, twitter, pagina's die je naar eigen smaak kan inrichten en commentaren bijvoorbeeld artikelen.

Het diepe web doorzoeken

Zoeken in het diepe web is nog steeds niet makkelijk. Neem als voorbeeld de databases, elke database heeft wel een zoekfunctie, maar er bestaat nog geen zoekmachine die op iedere afzonderlijke database nieuwe zoekopdracht uitgevoerd, en vervolgens alle resultaten gebundeld en overzichtelijk aflevert. Er zijn wel een paar projecten in ontwikkeling die het proberen, maar die beperken zich meestal maar tot een beperkt aantal gespecificeerde databases.

Enkele van deze projecten:

http://www.surfwax.com (combineert zoekfunctie van verschillende databases)
http://oedb.org/library/college-basics/research-be (overzicht van verschillende deepweb zoekmachines en databases)

De toekomst van het Deepweb

Het toekomstbeeld voor het deepweb is niet echt duidelijk te voorspellen. Aan de ene kant neemt de omvang ervan toe door de enorme populariteit van de zogenaamde social media. Aan de andere kant winnen zoekmachines steeds meer terrein en worden de gebruikte zoektechnieken steeds geavanceerder. Voorbeeld hiervan is het sitemap protocol. Dit door Google ontwikkelde Google bied dit protocol webmasters de mogelijkheid een sitemap te uploaden naar de zoekmachine. Deze sitemap is in feite gewoon een plattegrond van de gehele website en zorgt ervoor dat de site volledig geïndexeerd wordt door de zoekmachines. Zonder dit protocol gebeurde het vaak dat een deel van de content niet kon worden opgenomen in de zoek-indexen omdat deze niet via de menustructuur toegankelijk waren, of bijv. geprogrammeerd in Ajax of Flash of een andere taal waar de zoekrobots niet mee overweg konden. Verder werken de beheerders van grote databases (Bijv. Universiteiten) steeds vaker samen met zoekmachines zodat de inhoud hiervan ook beschikbaar wordt voor het grote publiek

Het deepweb zal echter nooit helemaal verdwijnen, het zal ongetwijfeld technisch mogelijk worden dat alles gevonden wordt, maar er zal altijd content zijn waarvan men wil dat het niet gevonden wordt, je mailbox bijvoorbeeld.

© 2009 - 2025 Voodoo113, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.

Gerelateerde artikelen

Wat is Deep Web?Deep Web klinkt als de titel van de nieuwste science fiction film. Zo ver van de waarheid verwijderd is die associatie n…

Deep Throat, niet zomaar een filmWat moet ik er van denken, Zal minister Andre Rouvoet van de ChristenUnie gedacht hebben toen de VPRO en BNN bekend maak…

Wat is Google Deep Dream?Google heeft een software ontwikkeld waarmee foto’s op een bijzondere wijze worden bewerkt. Onder de naam Deep Dream wer…

The Deep in Hull - Beste gezinsattractie van YorkshireThe Deep is de beste attractie van het in het oosten van Engeland gelegen Hull. Het is een museum dat gekoppeld is aan e…

Ontgooglen: Jezelf uit Google verwijderenEven googlen is een begrip, een persoon googlen is pure nieuwsgierigheid, en jezelf googlen kan de schrik van je leven z…

Bronnen en referenties

http://www.internettutorials.net/deepweb.asp
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
http://en.wikipedia.org/wiki/Deep_web
http://techdeepweb.com/

Voodoo113 (2 artikelen)
Gepubliceerd: 08-10-2009
Rubriek: Pc en Internet
Subrubriek: Zoekmachines
Bronnen en referenties: 4

Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.