Robots.txt und Homepage nicht verfügbar: Nach 30 Tagen wird nicht mehr gecrawlt

Die Robots.txt-Datei ist eine Textdatei, die Anweisungen für Crawler zur Verfügung stellt. So werden Seiten, die nicht indexiert werden sollen, beispielsweise vom Crawling ausgeschlossen. Ist Robots.txt nicht abrufbar oder gibt es anderweitige Probleme, beeinflusst das, welche Seiten wie gecrawlt werden. Googles Dokumentation zum Crawl-Statusreport wurde nun aktualisiert – jetzt gibt es genauere Informationen, was bei einem Abruffehler von Robots.txt geschieht.
Änderungen in Googles Dokumentation zum Crawl-Statusreport
Der australische SEO-Experte Brodie Clark hat festgestellt, dass die Hilfe-Seite zum Bericht „Crawling-Statistik“ überarbeitet worden ist.
Seit dem neuen Update wird darauf hingewiesen, dass eine erfolgreiche Robots.txt-Response auch dann vorliegt, wenn der 404-Not-Found-Statuscode gesendet wird. Das ist dann das Signal, dass es keine Robots.txt gibt und deswegen alle URL gecrawlt werden können. Gibt es beim Abruf von Robots.txt keinen Erfolg, wird die Seite für die kommenden zwölf Stunden nicht gecrawlt. Stattdessen werden regelmäßige Requests für die Robots.txt-Datei gesendet. Nach zwölf Stunden wird für die weiteren 30 Tage die letzte erfolgreich angerufene Robots.txt-Datei zum Crawlen benutzt. Ist danach die Homepage abrufbar, wird ohne Einschränkungen gecrawlt, als gäbe es keine Robots.txt. Ist die Homepage nicht abrufbar, wird Google die Seite nach den 30 Tagen nicht mehr crawlen.
Update bringt mehr Klarheit
In der vorherigen Version hatte es geheißen, dass bei Schwierigkeiten beim Abruf der Robots.txt-Datei erneut die Robots.txt angefordert wird. Bei einem erneuten Fehlschlag würde Google sofort aufhören, zu crawlen. Nach 30 Tagen ohne erfolgreichen Request hatte es davon abgehangen, ob „die meisten anderen URL“ verfügbar seien oder ob die Seite „allgemein unzugänglich“ sei. Im letzteren Fall würde Google „langsam“ aufhören, zu crawlen.
Somit bringt das neue Update präzise Informationen, was geschieht, wenn die Robots.txt-Datei nicht abgerufen werden kann – und ab wann und unter welchen Bedingungen Google aufhört, zu crawlen.