Google unterstützt Noindex in der Robots.txt nicht mehr
Die Robots.txt, genauer gesagt das Robots-Exklusion-Standard-Protokoll (REP), ist seit 25 Jahren der De-facto-Standard, um Crawlern der Suchmaschinen vorzugeben, welche Bereiche einer Website sie durchsuchen oder auslassen sollen. Vor kurzem hat Google angekündigt, REP zu einem echten Internet-Standard zu machen, der unter Open-Source-Bedingungen einsehbar ist.
Nun hat Google nachgelegt, und einige Details zum künftigen Handling des REP veröffentlicht. In Zukunft sollen einige bisher angewandte Regeln in der Robots.txt nicht mehr unterstützt werden. Ab 1. September 2019 sollen sie durch den Google-Bot keine Beachtung mehr finden. Betroffen sind die Anweisungen:
- Noindex
- Nofollow
- Crawl-delay
Als Begründung gibt Google an, dass die genannten Anweisungen nur eine sehr geringe Verbreitung besitzen. Angeblich verwenden sie lediglich 0,001 Prozent aller Robots.txt-Dateien im Internet. Außerdem habe Google diese Anweisungen nie offiziell dokumentiert.
Änderung für Robots.txt: Google bietet Alternativen
Als Alternativen für die betroffenen Anweisungen nennt Google folgende Vorgehensweisen:
- Die Noindex-Anweisung in den X-Robots-Tag im HTTP-Header oder die Meta Robots-Tags setzen. Hier gelten sie weiterhin. Das ist der effektivste Weg, einzelne Websites aus dem Google-Index herauszuhalten, wenn Crawlen generell erlaubt ist.
- 404- oder 410-Status-Codes setzen: Das gaukelt dem Bot vor, dass die Seiten nicht existieren, also werden sie aus dem Google-Index herausfallen.
- Passwortschutz nutzen: Inhalte hinter einen Login zu setzen, schützt sie davor, vom Google-Index erfasst zu werden.
- Disallow in der Robots.txt einsetzen: Suchmaschinen können nur Seiten indexieren, von denen sie wissen. Setzt man den Crawlern ein Stoppschild vor die Nase, wird der Seiteninhalt üblicherweise nicht indexiert. Zwar kann die Suche eine URL selbst auf den Index stellen, bedingt durch Links von anderen Seiten, aber wenn sie keinen durchsuchbaren Inhalt enthält, soll die betreffende Seite künftig deutlich weniger sichtbar in den SERP sein, so Google.
- In der Google Search Console das Tool Remove URL verwenden: Eine einfache und schnelle Methode, um eine URL temporär aus den Google Suchergebnissen zu entfernen.
Einerseits finde ich es gut, dass Google da mal versucht nen Standard zu schaffen. Auf der anderen Seite haben viele SEOs den Noindex Befehl in der robots.txt eingesetzt, weil sich damit ohne Programmieraufwand Seiten aus dem Index befördern ließen. Durch die Umstellung entstehen nun insbesondere Shops Kosten, weil eine Noindex-Möglichkeit im Backend über meta Noindex implementiert werden muss.
Noindex, Nofollow nur bei 0,001% aller robots.txt? Kann ich mir nicht vorstellen, sorry.
Ein bisschen Recherche hätte auch dem Artikel gut getan. Google schafft natürlich nicht das noindex ab. Lediglich in der robots txt, wo ein Gebrauch äußerst selten war, wird das abgeschafft. Natürlich wird es weiterhin als Meta-Tag unterstützt – neben X-Robots im HTTP-Header…
Och, der Artikel ist doch eigentlich ganz „ok“ – kurz und knackig eben. Es geht ja auch um keine größere Änderung, allerdings sind die „..0,001 Prozent aller Robots.txt-Dateien…“ bezogen auf „nofollow“ sicherlich nicht korrekt. Höchstens hinsichtlich „crawl-delay“ wäre diese geringe Nutzung denkbar – weil diese Anweisung (und Ihre Auswirkungen) eben eher unbekannt ist. Naja, und die Überschrift….ich denke Anton Weste ist einfach kein SEO und hat´s nicht richtig verstanden…shit happens.
Yep, die Überschrift ist definitv falsch, die „..0,001 Prozent..“ können so auch nicht stimmen, aber wir wissen jetzt, dass sich demnächst etwas in/an der „robots.txt“ ändern wird…immerhin! :-)
Doch, die 0,001 könnten schon hinkommen. Weil in der robots.txt normalerweise ein „Disallow:“ gesetzt wird und DORT eine „Noindex“ nur sehr selten zu finden ist. Die meisten wussten wohl gar nicht, dass man ein „Noindex“ auch außerhalb des HTML-Head verwenden kann. Bing hat, so glaube ich, ein „Noindex“ in der robots.txt-Datei nie respektiert.
Die Überschrift leitet natürlich fehl…
Auch wenn ich wie meine Vorredner auch die Zahl für die nofollows in der robots.txt nicht glauben kann, definitiv gut zu wissen, da wird für viele größere Seiten einiges an Arbeit kommen.
Schön, wenn noch jemand den Überblick behält. Google wird immer undurchsichtiger, unberechenbarer und einfach zu mächtig. Ein „Normalo-Webseitenbetreiber“ hat doch keine Chance mehr, dort noch durchzublicken und nicht jeder Kleinunternehmer oder Beginner hat das Geld, sich teure Agenturen leisten zu können oder sich wochenlang in SEO fortzubilden. Es nimmt einfach Überhand mit dem SEO.
Das wäre ja zu schön! Mir erzählt die Google Search Console nämlich seit einiger Zeit, es gäbe einen „no index“ Befehl. Der aber gar nicht existiert.
Etabliert gibt es in der robots.txt nur zwei gültige Anweisungen: „User-agent“ und „Disallow“. Mehr braucht es auch nicht, wenn Firmen wie Google nicht versuchen würden, die Datei so auszulegen, dass sie sich um ihre Vorgaben herummogeln können. „Disallow“ ist eigentlich eine klare Ansage, die all das beinhalten sollte, was hier so spitzfindig in weitere Anweisungen auszulagern versucht wurde: Nicht abrufen, nicht indexieren, nicht folgen. Einfach: Finger weg.
Die Umstellung hat Vor- und Nachteile zugleich. Aber grundsätzliche stimme ich dem Kommentar von Brauki vollends zu.