Robots.txt und Homepage nicht verfügbar: Nach 30 Tagen Crawl-Stopp

News

Robots.txt und Homepage nicht verfügbar: Nach 30 Tagen wird nicht mehr gecrawlt

Wenn Google 30 Tage lang weder Website noch Robots.txt erreicht, beendet die Suchmaschine das Crawlen. Das geht jetzt aus der Google-Dokumentation hervor.

Von Josefine Kramer

27.06.2022, 16:15 Uhr • 1 Min.

Robots.txt und Homepage nicht verfügbar: Nach 30 Tagen wird nicht mehr gecrawlt — (Foto: charles taylor/Shutterstock)

Die Robots.txt-Datei ist eine Textdatei, die Anweisungen für Crawler zur Verfügung stellt. So werden Seiten, die nicht indexiert werden sollen, beispielsweise vom Crawling ausgeschlossen. Ist Robots.txt nicht abrufbar oder gibt es anderweitige Probleme, beeinflusst das, welche Seiten wie gecrawlt werden. Googles Dokumentation zum Crawl-Statusreport wurde nun aktualisiert – jetzt gibt es genauere Informationen, was bei einem Abruffehler von Robots.txt geschieht.

Änderungen in Googles Dokumentation zum Crawl-Statusreport

Der australische SEO-Experte Brodie Clark hat festgestellt, dass die Hilfe-Seite zum Bericht „Crawling-Statistik“ überarbeitet worden ist.

Seit dem neuen Update wird darauf hingewiesen, dass eine erfolgreiche Robots.txt-Response auch dann vorliegt, wenn der 404-Not-Found-Statuscode gesendet wird. Das ist dann das Signal, dass es keine Robots.txt gibt und deswegen alle URL gecrawlt werden können. Gibt es beim Abruf von Robots.txt keinen Erfolg, wird die Seite für die kommenden zwölf Stunden nicht gecrawlt. Stattdessen werden regelmäßige Requests für die Robots.txt-Datei gesendet. Nach zwölf Stunden wird für die weiteren 30 Tage die letzte erfolgreich angerufene Robots.txt-Datei zum Crawlen benutzt. Ist danach die Homepage abrufbar, wird ohne Einschränkungen gecrawlt, als gäbe es keine Robots.txt. Ist die Homepage nicht abrufbar, wird Google die Seite nach den 30 Tagen nicht mehr crawlen.

Update bringt mehr Klarheit

In der vorherigen Version hatte es geheißen, dass bei Schwierigkeiten beim Abruf der Robots.txt-Datei erneut die Robots.txt angefordert wird. Bei einem erneuten Fehlschlag würde Google sofort aufhören, zu crawlen. Nach 30 Tagen ohne erfolgreichen Request hatte es davon abgehangen, ob „die meisten anderen URL“ verfügbar seien oder ob die Seite „allgemein unzugänglich“ sei. Im letzteren Fall würde Google „langsam“ aufhören, zu crawlen.

Empfehlungen der Redaktion

News

9 Praxistipps für Screaming Frog: So nutzt du alle Vorteile des SEO-Tools

News

Robots-Meta-Tags mit Werten index, all und follow für Google-Ranking irrelevant

News

Google unterstützt Noindex in der Robots.txt nicht mehr

Somit bringt das neue Update präzise Informationen, was geschieht, wenn die Robots.txt-Datei nicht abgerufen werden kann – und ab wann und unter welchen Bedingungen Google aufhört, zu crawlen.

Mehr zu diesem Thema

MIT Technology Review Google

Verpasse keine News zu Marketing 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren