Google unterstützt Noindex in der Robots.txt nicht mehr

News

Google unterstützt Noindex in der Robots.txt nicht mehr

Ab 1. September gelten neue Regeln für den Suchmaschinen-Einweiser. Google unterstützt dann einige Anweisungen in der Robots.txt nicht mehr. Sie werden angeblich zu selten verwendet.

Von Anton Weste

07.07.2019, 05:30 Uhr • 1 Min.

Google unterstützt Noindex in der Robots.txt nicht mehr — Google hat angekündigt, wie es die Robots.txt künftig behandeln will. (Bild: Searchengineland)

Die Robots.txt, genauer gesagt das Robots-Exklusion-Standard-Protokoll (REP), ist seit 25 Jahren der De-facto-Standard, um Crawlern der Suchmaschinen vorzugeben, welche Bereiche einer Website sie durchsuchen oder auslassen sollen. Vor kurzem hat Google angekündigt, REP zu einem echten Internet-Standard zu machen, der unter Open-Source-Bedingungen einsehbar ist.

Nun hat Google nachgelegt, und einige Details zum künftigen Handling des REP veröffentlicht. In Zukunft sollen einige bisher angewandte Regeln in der Robots.txt nicht mehr unterstützt werden. Ab 1. September 2019 sollen sie durch den Google-Bot keine Beachtung mehr finden. Betroffen sind die Anweisungen:

Noindex
Nofollow
Crawl-delay

Als Begründung gibt Google an, dass die genannten Anweisungen nur eine sehr geringe Verbreitung besitzen. Angeblich verwenden sie lediglich 0,001 Prozent aller Robots.txt-Dateien im Internet. Außerdem habe Google diese Anweisungen nie offiziell dokumentiert.

Änderung für Robots.txt: Google bietet Alternativen

Als Alternativen für die betroffenen Anweisungen nennt Google folgende Vorgehensweisen:

Die Noindex-Anweisung in den X-Robots-Tag im HTTP-Header oder die Meta Robots-Tags setzen. Hier gelten sie weiterhin. Das ist der effektivste Weg, einzelne Websites aus dem Google-Index herauszuhalten, wenn Crawlen generell erlaubt ist.
404- oder 410-Status-Codes setzen: Das gaukelt dem Bot vor, dass die Seiten nicht existieren, also werden sie aus dem Google-Index herausfallen.
Passwortschutz nutzen: Inhalte hinter einen Login zu setzen, schützt sie davor, vom Google-Index erfasst zu werden.
Disallow in der Robots.txt einsetzen: Suchmaschinen können nur Seiten indexieren, von denen sie wissen. Setzt man den Crawlern ein Stoppschild vor die Nase, wird der Seiteninhalt üblicherweise nicht indexiert. Zwar kann die Suche eine URL selbst auf den Index stellen, bedingt durch Links von anderen Seiten, aber wenn sie keinen durchsuchbaren Inhalt enthält, soll die betreffende Seite künftig deutlich weniger sichtbar in den SERP sein, so Google.
In der Google Search Console das Tool Remove URL verwenden: Eine einfache und schnelle Methode, um eine URL temporär aus den Google Suchergebnissen zu entfernen.

Mehr zu diesem Thema

MIT Technology Review Google

Verpasse keine News zu Marketing 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Kommentare (11)

Kommentieren

Kommentare einblenden

Matthias Haltenhof

04.07.2019, 11:11 Uhr

Einerseits finde ich es gut, dass Google da mal versucht nen Standard zu schaffen. Auf der anderen Seite haben viele SEOs den Noindex Befehl in der robots.txt eingesetzt, weil sich damit ohne Programmieraufwand Seiten aus dem Index befördern ließen. Durch die Umstellung entstehen nun insbesondere Shops Kosten, weil eine Noindex-Möglichkeit im Backend über meta Noindex implementiert werden muss.

Thomas Mammitzsch

04.07.2019, 12:29 Uhr

Noindex, Nofollow nur bei 0,001% aller robots.txt? Kann ich mir nicht vorstellen, sorry.

Max

04.07.2019, 21:02 Uhr

Ein bisschen Recherche hätte auch dem Artikel gut getan. Google schafft natürlich nicht das noindex ab. Lediglich in der robots txt, wo ein Gebrauch äußerst selten war, wird das abgeschafft. Natürlich wird es weiterhin als Meta-Tag unterstützt – neben X-Robots im HTTP-Header…

Onfabrik

05.07.2019, 09:35 Uhr

Och, der Artikel ist doch eigentlich ganz „ok“ – kurz und knackig eben. Es geht ja auch um keine größere Änderung, allerdings sind die „..0,001 Prozent aller Robots.txt-Dateien…“ bezogen auf „nofollow“ sicherlich nicht korrekt. Höchstens hinsichtlich „crawl-delay“ wäre diese geringe Nutzung denkbar – weil diese Anweisung (und Ihre Auswirkungen) eben eher unbekannt ist. Naja, und die Überschrift….ich denke Anton Weste ist einfach kein SEO und hat´s nicht richtig verstanden…shit happens.

05.07.2019, 10:24 Uhr

Yep, die Überschrift ist definitv falsch, die „..0,001 Prozent..“ können so auch nicht stimmen, aber wir wissen jetzt, dass sich demnächst etwas in/an der „robots.txt“ ändern wird…immerhin! :-)

05.07.2019, 15:36 Uhr

Doch, die 0,001 könnten schon hinkommen. Weil in der robots.txt normalerweise ein „Disallow:“ gesetzt wird und DORT eine „Noindex“ nur sehr selten zu finden ist. Die meisten wussten wohl gar nicht, dass man ein „Noindex“ auch außerhalb des HTML-Head verwenden kann. Bing hat, so glaube ich, ein „Noindex“ in der robots.txt-Datei nie respektiert.
Die Überschrift leitet natürlich fehl…

Webdesigner Köln

26.07.2019, 20:30 Uhr

Auch wenn ich wie meine Vorredner auch die Zahl für die nofollows in der robots.txt nicht glauben kann, definitiv gut zu wissen, da wird für viele größere Seiten einiges an Arbeit kommen.

Brauki

25.11.2019, 20:08 Uhr

Schön, wenn noch jemand den Überblick behält. Google wird immer undurchsichtiger, unberechenbarer und einfach zu mächtig. Ein „Normalo-Webseitenbetreiber“ hat doch keine Chance mehr, dort noch durchzublicken und nicht jeder Kleinunternehmer oder Beginner hat das Geld, sich teure Agenturen leisten zu können oder sich wochenlang in SEO fortzubilden. Es nimmt einfach Überhand mit dem SEO.

Daniela

27.01.2020, 12:34 Uhr

Das wäre ja zu schön! Mir erzählt die Google Search Console nämlich seit einiger Zeit, es gäbe einen „no index“ Befehl. Der aber gar nicht existiert.

Bachsau

07.02.2020, 20:26 Uhr

Etabliert gibt es in der robots.txt nur zwei gültige Anweisungen: „User-agent“ und „Disallow“. Mehr braucht es auch nicht, wenn Firmen wie Google nicht versuchen würden, die Datei so auszulegen, dass sie sich um ihre Vorgaben herummogeln können. „Disallow“ ist eigentlich eine klare Ansage, die all das beinhalten sollte, was hier so spitzfindig in weitere Anweisungen auszulagern versucht wurde: Nicht abrufen, nicht indexieren, nicht folgen. Einfach: Finger weg.

Daniel

18.05.2020, 13:10 Uhr

Die Umstellung hat Vor- und Nachteile zugleich. Aber grundsätzliche stimme ich dem Kommentar von Brauki vollends zu.