Das könnte dich auch interessieren

Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

Marketing

SEO: Google-Patent berechnet den Schwafel-Score einer Website

    SEO: Google-Patent berechnet den Schwafel-Score einer Website
Google & Spam: der Kampf geht weiter

Der Ruf nach qualitativ hochwertigem Content wird in SEO-Kreisen seit Jahren immer lauter. Artikel über Suchmaschinenoptimierung, die ohne das Buzzword „Contentmarketing" auskommen, sind 2013 gar nicht mehr vorstellbar. Jetzt wurde Google ein Patent genehmigt, in dem die Methode zur Bestimmung eines „Gibberish Scores", also dem Anteil an minderwertigem Content an einem Text, beschrieben wird.

Google Patente lesen ist eine zweischneidige Sache: Einerseits ist es extrem spannend zu sehen, welche Innovationen Google anstrebt und welche Features und Zielsetzungen Google selbst beschreibt. Andererseits sind Patente nun mal Patente, was bedeutet, dass die Lektüre an sich eher staubtrocken als anregend ist.

Einer, der sich seit Jahren dieser teilweise undankbaren Aufgabe annimmt, ist Bill Slawski. In seinem Blog „SEO by the Sea“ weist er regelmäßig auf neue Patente von Google hin. Wie Bill kürzlich berichtet hat, ist der neueste Google-Wurf das Patent „Identifying gibberish content in resources“, das aus SEO-Sicht gleich doppelt spannend ist: Zum einen stellt Google eine Methode vor, mit der die Qualität eines Textes und der Anteil an wertlosem „Geschwafel“ messbar gemacht werden soll. Zum anderen soll anhand dieses „Schwafel-Scores“ ermittelt werden, ob das Dokument im Ranking herabgestuft werden sollte.

Was ist für Google Geschwafel?

Gibberish zeichnet sich für Google im Web dadurch aus, dass er bevorzugt von Spammern eingesetzt wird. Webseiten werden mit billigem, massenhaft produziertem Content befüllt, die dem User keinen Mehrwert bieten und nur darauf abzielen, spannende Rankings zu erzielen und somit mit Hilfe von Werbeanzeigen und/oder Affiliate-Links Umsatz zu generieren.

Erkennungsmerkmale dieses Geschwafels sind relevante Keywords, die wertvollen Traffic generieren (Money-Keywords), eingebettet in:

  1. Gescrapten, also kopierten Inhalt, der zum Beispiel so angeordnet wird, dass er wie Unique Content erscheint
  2. Übersetzte Inhalte
  3. Inhalte, die von kostengünstigen und ungelernten Arbeitskräften (zum Beispeil über Mechanical Turk) erstellt wurden.

Zusätzlich kann Geschwafel daran erkannt werden, dass Sätze im Text enthalten sind, die nicht mit der Syntax einer natürlichen Kommunikation vereinbar sind. Hier stoßen wir auf die wahren Herausforderungen des Patents: Wie erkenne ich, ob ein Text via Mechanical Turk erstellt wurde? Wie kann ich unnatürliche Sprachmuster automatisch identifizieren?

Sprach-Score und Stuffing-Score

Laut Patent besteht der Schwafel-Score aus den folgenden zwei Grundelementen: einem Sprach-Score und einem Stuffing-Score. Stark vereinfacht ausgedrückt kann der Sprach-Score zum Beispiel mit Hilfe statistischer Methoden ermittelt werden, die man aus der Spracherkennung kennt. Dabei werden Texte in kleine Einheiten unterteilt, die auf Wahrscheinlichkeit geprüft werden. So ist beispielsweise die Fünf-Wort-Folge „Tannenbaum wie grün sind deine“ wahrscheinlicher als „wie grün Tannenbaum deine Blätter“ oder „Tannenbaum wie Auto sind deine“. Die addierten Wahrscheinlichkeiten ergeben den Sprachscore für die, um HTML-Tags bereinigte, geparste Texteinheit.

Beim Stuffing-Score wird überprüft, ob die Textpassage zur Suchanfrage relevant ist, ohne zugleich ZU relevant zu sein. Ein abermals extrem vereinfachtes Beispiel mit dem Keyword „Katze“. Dieses Keyword kann mit folgenden Phrasen in Verbindung gebracht werden:

  • Katzenfutter
  • Lustige Katzenbilder
  • Wie bade ich eine Katze
  • Getigerte Katzen
  • Weiße Katzenbabies

Wenn man davon ausgeht, dass Texte über Katzen üblicherweise drei dieser Phrasen enthalten, dann wäre ein Text, der alle fünf Phrasen abdeckt, verdächtig und würde in die Kategorie „Stuffing" fallen. Das Prinzip des Stuffings kennt man im SEO schon als Keyword-Stuffing, also das übertriebene Einsetzen eines bestimmten Keywords in einem Text. Hier wird Stuffing jetzt also auf ganze Phrasen beziehungsweise Suchanfragen ausgeweitet.

Die Entstehung des Schwafel-Scores nach Google.
Die Entstehung des Schwafel-Scores nach Google.

Der Schwafel-Score

Der Schwafel-Score ergibt sich also aus der Kombination aus Sprach-Score und Stuffing-Score. Laut Google handelt es sich um Geschwafel, wenn folgende Aussagen zutreffen:

  1. Yoda hätte das nicht schöner sagen können!
  2. Zum Thema „Golf“ findet man in diesem Absatz alles – egal, ob Sport oder Auto!

Zusammenfassend lässt sich sagen: Der Ruf nach Content-Marketing ist gerechtfertigt. Das Patent wurde 2009 von Google eingereicht, was bedeutet, dass Google schon seit vier Jahren weit mehr Qualitätskriterien als die Keyworddichte eines Textes heranzieht, um Inhalte zu bewerten. Und die Zukunft weist klar in diese Richtung: Die Fortschritte der Spracherkennung werden direkt auf die Spam-Filter von Google abstrahlen. Je besser maschinelle Spracherkennung funktioniert, desto besser kann Google erkennen, ob jemand „schwafelt“ oder seinen Platz auf Seite 1 wirklich verdient hat.

Finde einen Job, den du liebst zum Thema Online Marketing, SEO

Alle Jobs zum Thema Online Marketing, SEO
7 Reaktionen
HighTower
HighTower

Erst einmal interessant, aber: was macht Google dann mit Tracklists???

Wer mal GANZ GENAU schaut was Google GENAU macht wird sich des öfteren wundern, ich habe im eigenem Fall Suchanfragen von Usern gesehen, denn ich selbst niemals meine Page als mögliches Suchergebnis präsentiert hätte.

Bis jetzt bin ich von den ganzen, den Websiten übergestülpten, Logiken nicht überzeugt. Der Ausdruck der Hilflosigkeit seitens Google sind diese zig Algorithmen, die abseits der großen Trampelpfade komplett ins Nirvana führen.

Es macht eben keinen Sinn, wenn man die Nadel im Heuhaufen sucht, noch weiteres Heu aufzuschütten.

Für meine Begriffe sollte die nächste Suchmaschine mit der realen Sprache beginnen und sich dann die Inhalte anschauen, das wäre vermutlich endlich der richtige Ansatz.

Antworten
Andre
Andre

Interessanter Artikel. Vor allem die Patent-Anmeldung in 2009 ist ein wichtiger Faktor. Man merkt immer öfter, dass Google die Webmaster und SEOs eigentlich schon vor vollendete Tatsachen setzt. Deshalb ist reagieren eigentlich schon immer viel zu spät. Präventieren muss man. Aber wie? Allein Qualität reicht meiner Meinung nach nicht aus. Auch der OffPage Bereich muss optimiert werden.

Antworten
dot_SB
dot_SB

Letztendlich doch nur die Entwicklung, die schon lange läuft, nur jetzt als Patent, oder?

@Astrid: Interessanter Punkt mit der Qualitätsbeurteilung von Texten. Letztlich sollte es Google hier wieder um ein Matching gehen - das heißt, derjenige, der Bild-Niveau sucht, bekommt Bild-Niveau, derjenige, der Zeit-Niveau sucht Zeit-Niveau.

Es würde mich nicht überraschen, wenn Google es hinbekommen würde, solch eine Qualitätsbeurteilung von Texten zu implementieren. Eher überraschen würde mich, wenn Google es schafft, aus Zwei-Wort Phrasen das entsprechende gesuchte Niveau zu erkennen... Vielleicht läuft es aber über "Themen-Hoheit", also dass z.B. Bild letztendlich für Promi-Themen höher rankt als für politische Themen... ?

Antworten
Astrid Jacobi

Hi! Ich meinte damit: wenn ich etwas kaufen will, dann brauche ich keine individualisierte Artikelbeschreibung. Aber genau das möchte Google, was meiner Meinung nach keinen Sinn macht. Wenn ich einen Shop habe, dann sollte ich Mehrwert bieten z.B. durch Bewertungen etc. Denoch funktionieren veränderte Artikelbeschreibungen - doch warum? Warum hilft es, wenn ich die Produktbeschreibung, die mir der Hersteller anliefert, ändere? Warum hilft das dem User? Das meinte ich damit :)

Natürlich sollte Google Content liefern, wenn der User Content möchte.
Und Google sollte Produkte liefern, wenn der User etwas kaufen möchte.
Aber ich denke, ein Webmaster muss nicht unique Content + Produkt liefern, wenn seine Kunden nur kaufen möchten, oder? Hier sind wir nämlich beim Optimieren für Google, nicht für den Nutzer. Etwas, das Google eigentlich ablehnt...

Antworten
ChristE
ChristE

Wenn ich mit meinen rudimentären Englischkenntnissen also einen schlechten Text verfasse bietet dieser wegen der zu erwartenden Unzulänglichkeiten keinen Mehrwert? Auf Deutsch würde ich das Zeit-Niveau ja vielleicht sogar erreicht können. Gleicher Text - unterschiedlicher Mehrwert?

Ich empfinde es nicht als Schwäche von Google, wenn bei der Suche nach Content (lesen!) die ganzen Shops ausgefiltert bzw. nach hinten gestellt werden. Wenn wir ehrlich sind, ist genau das doch die Stärke von Google. Wenn ich einen Shop suche kann ich meine Suchanfrage um z.B. "kaufen" oder "shop" erweitern. Davon abgesehen gibt es für die Anbietersuche auch andere Kanäle wie eBay oder Amazon. Viele verwenden ihre URL als Name und bieten dort die richtigen Schnäppchen an.

Antworten
Astrid Jacobi

Danke :) Aber: ein schlecht geschriebener Artikel bietet weniger Mehrwert als ein Guter, egal, ob maschinell oder menschlich erstellt, oder?
Ich finde eher spannend, in welche Richtung die Einordnung von Google geht, wenn es um Sprachniveau geht: wird Google verlangen, dass quasi jeder Artikel im Netz auf Zeit-Niveau geschrieben ist, auch wenn es Bild-Leser gibt, die genau das lesen wollen?
Diese Formatierungsforderungen gehen ebenso wie "individuelle Produkttexte beim Shop" an den eigentlichen Bedürfnissen der User (einkaufen, nicht lesen!) vorbei und zeigt die Schwächen von Google, die immer noch groß sind...

Antworten
Michael
Michael

Sehr guter Artikel. Die Frage ist ob nur die einfachen Inhalte erkannt werden oder eben auch schlechte aber von Menschen geschriebene Texte

Antworten

Melde dich mit deinem t3n-Account an oder fülle die unteren Felder aus.

Abbrechen