Vervolg:
De
spiders of crawlers die de meeste zoekmachines hanteren raken met de dag beter.
Elke zoekmachine heeft een unieke manier van indexeren.
Meestal gebruikt men truukjes om trefwoorden te integreren die niet in de pagina staan,
nu vraag jij als eerste het omgekeerde
In de toekomst zou het wel eens onmogelijk kunnen zijn een URL verborgen te houden voor de zoekmachines. Eigenlijk vind ik dit maar logisch, vermits het doel van het internet is het verspreiden van informatie
Dus kort samengevat zijn er 4 methodes om niet gevonden te worden/
- Metatags: <code>noindex nofollow</code>
- Niet linken en niet aanmelden
- Files buiten de “root” plaatsen
- Achter een wachtwoord plaatsen
<dl><dd>
Spider, Spyder,Crawler=</dd><dd>
Software programma's op de computer van een search engine of zoekmachine die het web "afspeuren" naar sites, met als doel deze te integreren in de database van de zoekmachine.</dd></dl>*edit* Was de belangrijkste nog vergeten
De belangrijkste en meest gangbare methode is de “robots.txt”.
Dit is een eenvoudige textfile die je op je server kunt zetten en die door de zoekmachinespiders
over het algemeen wordt bekeken om te zien welke directories en files hij niet mag indexeren.
Als je in logfiles kijkt, zul je zien dat deze textfile regelmatig door zoekmachinespiders bekeken wordt.
In je robots.txt kun je bijvoorbeeld de volgende regels zetten:
<code>User-agent: *
Disallow:/prive/</code>
Dit betekent dat de directory “prive” door de spiders (user agent) niet geïndexeerd
mag worden.
<code>Disallow:/prive/password.htm</code>
Dit betekent dat de file “<code>password.htm</code>” niet toegevoegd mag worden. Wees hier wel voorzichtig mee. Als je bijvoorbeeld geen directories maar alleen <code>Disallow:/</code>
aangeeft betekent het dat je hele site niet toegevoegd zal worden!
Ook is deze methode niet helemaal waterdicht. Je bent van de zoekmachine afhankelijk of ze zich er ook aan houden en
het gebeurt soms dat zoekmachines (niet de grote en bekende) de files toch indexeren.
Meer over de <code>robots.txt</code> kun je op de volgende site vinden:
The Web Robots Pages