Informationen zu Bots, Spidern, Crawlern und Harvestern
robots.txt
Über die Datei robots.txt können die Zugriffe von Crawlern auf eine Website gesteuert werden.
Der Aufbau der robots.txt ist im Robots Exclusion Standard beschrieben.
# robots.txt
# alle Zugriffe von Bots verbieten
User-agent: *
Disallow: /
# robots.txt
# alle Zugriffe von Bots erlauben
User-agent: *
Disallow:
# robots.txt
# allen Bots den Zugriff auf /forum verbieten
User-agent: *
Disallow: /forum
# robots.txt
# dem GoogleBotden Zugriffe auf /blog verbieten
User-agent: googlebot
Disallow: /blog
Über die Anweisung User-Agent: können einzelne Robots angesprochen werden. Der * steht für alle Robots.
Im Wikipedia Artikel zur robots.txt finden Sie weitere Details.
Leider halten sich nur freundliche Bots auch an die robots.txt.
Fehlerhafte oder böswillige Crawler lesen die robots.txt nicht oder ignorieren deren Inhalt.
zur Startseite der User Agent Liste
|