Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

Ratgeber

Logfile-Analysen im SEO: Wie verhalten sich Crawler wirklich auf meiner Website? (Teil 1)

(Foto: Shutterstock / Dominik Bruhn)

Oft wird, wenn es um technisches SEO geht, auch von Logfile-Analysen gesprochen. Doch was beinhalten solche Analysen eigentlich und warum sollte man sie überhaupt machen?

Der Vorteil von Logfile-Analysen liegt darin, dass hier ein nahezu ungefilterter Blick auf das Verhalten von Crawlern auf einer Webseite geworfen werden kann.

  • Welche URL werden häufig gecrawlt?
  • Welche HTTP-Statuscodes werden ausgegeben?
  • Gibt es Einschränkungen, die das Crawling und letztlich die Indexierung der Seite erschweren?

All diese Fragen lassen sich durch Logfiles gezielt beantworten. Gerade im SEO-Bereich, wo oftmals diverse Rankingfaktoren in verschiedener Abhängigkeit den Erfolg beeinflussen, ist nur selten eine absolute Gewissheit über den Erfolg von Maßnahmen möglich. Logfile-Analysen sind daher eine gute Möglichkeit, um einen weiteren Blick auf eine Webseite und bisher ungenutzte Potenziale zu erhalten. Logfiles sind Aufzeichnungen aller Zugriffe auf einen Server. Ob tatsächlicher Nutzer, Suchmaschinen-Crawler oder auch Tools zum selbstständigen Crawlen einer Webseite – alle hinterlassen einen „Fußabdruck“ in Form eines Eintrages in dem sogenannten Logfile eines Servers. Jede Anfrage steht für eine Zeile im Logfile mit einer Reihe von Informationen. Da dieses Thema sehr umfangreich ist, wird sich der Beitrag in zwei Teile aufgliedern. Der erste Teil widmet sich grundlegenden Aspekten der Logfile-Analyse, wie der eigentlichen Nutzung im SEO sowie Aufbereitung und Validierung der Logfiles. Im zweiten Teil werden Einblicke in die Auswertung gegeben und Möglichkeiten zur Anreicherung der Logfiles mit weiteren Datenquellen aufgezeigt.

Logfiles in der Webanalyse

Logfiles dienten früher auch zur Analyse der Performance einer Webseite. Durch die Auswertung der einzelnen Zugriffe, den Verlauf der Session und Verweildauer konnte so die Effektivität einzelner Marketingmaßnahmen überprüft werden. Jedoch stieß diese Art der Webanalyse schnell an ihre Grenzen und wurde von den gängigen Webanalyse-Tools wie zum Beispiel Google Analytics abgelöst.

Einer der Kritikpunkte an der Webanalyse mittels Logfiles war die fehlende Einordnung von Nutzern mit sich dynamisch ändernden IP-Adressen in Sessions, die die Auswertungen deutlich verfälscht hat. Aus einem Nutzer beziehungsweise seinem Aufenthalt auf der Webseite konnten so gleich mehrere werden, weil sich innerhalb einer Session seine IP geändert hat. Dadurch war die korrekte Zuordnung nicht mehr einfach zu bewerkstelligen. Weiterhin galt es als unmöglich, die Interaktion mit client-seitig nachgeladenen Elementen nachzuvollziehen, da diese keine neue Anfrage auslösen und somit nicht in den Logfiles auffindbar sind.

Zusätzlich zu den beiden genannten Punkten ist es nicht möglich, Zugriffe zu verfolgen, die sich bereits auf gecachte Inhalte beziehen. Dabei ist es gang und gäbe, dass Inhalte von Browsern zur Beschleunigung der Ladezeit gecacht werden.

Nichtsdestoweniger sind Logfiles für eine SEO-fokussierte Auswertung ein sehr guter Ausgangspunkt, um das Verhalten von Suchmaschinen-Crawlern auf einer Webseite nachvollziehen zu können.

Logfile-Analysen und SEO – Welche Bedeutung haben Logfile-Analysen?

Zunächst muss man verstehen, dass die Auswertung von Logfiles selbst keinen Einfluss auf die SEO-Performance hat. Ebenso hat die Optimierung des Crawling-Verhaltens keinen Einfluss auf das Ranking. Was aber grundlegend für jeglichen SEO-Erfolg ist: Die vorliegenden Inhalte können gefunden und indexiert werden.

Wenn Inhalte jedoch erst sehr spät gefunden und indexiert werden, obwohl sie schon lange veröffentlich wurden, bedeutet das einen deutlichen Nachteil im Vergleich zu Wettbewerbern. Dauert es gar Wochen oder Monate, bis ein bestimmter Teil der Webseite gecrawlt wird und dieser aufgrund von beispielsweise saisonalen Produkten eine besondere Bedeutung hat, besteht nicht nur ein Nachteil im Wettbewerbsvergleich – auch ein monetärer Schaden kann die Folge sein. Wenn diese Inhalte erst nach der eigentlichen zeitlichen Relevanz indexiert werden, vergeudet man hier im Zweifelsfall Potenziale und Geld. Zugegeben: Das Beispiel stellt eine mögliche Problematik etwas überspitzt dar, verdeutlicht aber das Potenzial von Logfile-Analysen und einer Optimierung des Crawling-Verhaltens.

Ohne Blick in die Logfiles oder eine tiefergehende Analyse von indexierten sowie gecrawlten Seiten ist es wie mit Schrödingers Katze – die indexierten Seiten sind aktuell, werden gecrawlt, sind aber auch gleichzeitig nicht aktuell und werden nicht gecrawlt. Beides ist absolut möglich und eine reine Betrachtung der Webseite über eigenes Durchklicken sagt nichts oder wenig über das Verhalten von Suchmaschinen auf selbiger aus.

Um die Kiste zu öffnen und entsprechende Insights für die Auswertung des Crawling-Verhaltens zu erhalten sowie den obigen Extremfall zu verhindern, müssen verschiedene Aspekte betrachtet werden. In der Regel ist es nicht nur ein einzelner Punkt, der den Engpass im Crawling darstellt, sondern eine Ansammlung verschiedener Probleme, die zusammen ein Gesamtproblem darstellen.

Wie ist ein Logfile aufgebaut?

Da jeder Zugriff, auch der Wechsel von einer URL zur nächsten, einen neuen Eintrag generiert, können Logfiles bereits bei Webseiten im mittleren Bereich eine immense Größe erreichen. Wenn ein Nutzer beispielweise auf der Startseite einsteigt, sich über eine Kategorie dort dann drei Produkte anschaut sowie vor jedem Produkt per Klick auf die Kategorie zurücknavigiert, entstehen dabei bereits sieben Einträge.

Ein Eintrag für eine einzelne URL sieht dabei exemplarisch so aus:

(Screenshot: t3n.de)

Das obige Beispiel zeigt einen Zugriff durch den Googlebot. Es ist hierbei wichtig, zu wissen, dass Crawler eine Liste von URL abarbeiten und nicht wie ein „echter Nutzer“ von einem Link zum nächsten klicken. Die Liste der zu crawlenden URL korreliert dabei natürlich mit den auffindbaren Links innerhalb eines Dokuments. Im Gegensatz zu einem Nutzer wird dabei jedoch in der Regel kein Referrer übergeben, weil der Googlebot oder auch andere Crawler direkt auf eine URL zugreifen, statt über einen Link dahin zu gelangen. Der Referrer gibt an, welche URL vor dem Zugriff auf die gegenwärtige URL aufgerufen wurde, und ist – sofern vorhanden – auch Teil des Logfiles.

Ausnahme hierbei: Eine Ressource einer externen URL, beispielsweise spezielle Funktionen oder sonstige Inhalte, werden für das Laden der gegenwärtigen URL benötigt. In diesem Falle wird auch bei Zugriff durch einen Crawler ein Referrer angegeben.

Bitte beachte unsere Community-Richtlinien

Schreib den ersten Kommentar!

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.