Informationen zu Bots, Spidern, Crawlern und Harvestern
Eintrag im Apache Log
Jeder Zugriff eines Crawlers erzeugt einen Eintrag im Logfile des Webservers.
Ich nutze das Combined Log Format des Apache. Für den Googlebot kann das so aussehen:
66.249.72.16 - - [15/Nov/2008:20:05:24 +0100] "GET /n2/archives/00000298.html HTTP/1.1" 200 9657 "-"
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"
Das Log enthält beispielsweise die IP-Adresse des Clients, Datum und Uhrzeit, den HTTP-Request, Statuscode
und den User Agent String.
zur Startseite der User Agent Liste
|