FOL9000

404 Crawling-Fehler in Googles Webmaster Tools

von

Kürzlich bekam ich eine besorgte Mail eines Kunden: Googles Webmaster Tools zeige eine Reihe von URL-Fehlern beim Crawling an — was man denn da tun könne oder müsse und ob das nicht Googles Bewertung der Seiten verschlechtern würde. Meine Antwort, das sei vermutlich nicht so schlimm und könne weitestgehend ignoriert werden, konnte die Befürchtungen aber irgendwie nicht ganz aus der Welt schaffen. Ich wollte es dann nicht bei ein paar Links auf erklärende Seiten belassen und hab deshalb hier mal das Wichtigste zu diesem Thema zusammengestellt.

Was bedeutet der Fehlercode 404?

Wann immer Daten von einem Web-Server an einen Browser geschickt werden, werden nicht nur die eigentlichen Daten (also meist: eine Web-Seite und alles, was damit zusammenhängt) an den Browser geschickt, es wird den Daten zudem ein Header vorausgeschickt. Dieser Header ist für den Browser wichtig, dem User wird er nicht angezeigt (man kann ihn sich aber anzeigen lassen, s. HTTP-Header anzeigen). In diesem Header wird ein Status-Code mitgeschickt: Eine dreistellige Zahl, die angibt, ob oder wie der Request bearbeitet werden konnte. (Eine Liste der Codes findet sich z.B. bei Wikipedia. Ist alles glatt gelaufen, bekommen die Daten den Status-Code 200 (OK); kann die angeforderte Seite nicht gefunden werden, gibt es den Status-Code 404 (Not Found); jeder hat diesen Fehler schon einmal gesehen, wenn er sich beim Tippen einer URL verschrieben hat.

404-Fehler sind also völlig normal und ein Zeichen dafür, dass auch bei einem Request mit einer falschen oder nicht mehr unterstützten URL alles richtig abgelaufen ist.

Wenn Google nun einen Server nach Seiten abfragt, die es auf dem Server nicht gibt, bekommt auch der Google-Crawler eine Seite mit 404-Header zurück und kann so erkennen, dass es unter dieser URL nichts (mehr) gibt. In den Webmaster-Tools wird dies zusammen mit der Angabe der problematischen URL als Crawling-Fehler geführt.

Das wichtigste vorweg: 404-Fehler verschlechtern nicht das Google-Ranking. Ein 404-Fehler gibt Google wertvolle Informationen darüber, dass eine URL nicht zu einer sinnvollen Information führt; eine solche Meldung mit Abwertung zu bestrafen wäre nicht in Googles Sinne, denn sie hilft Google, den Index zu bereinigen.

Die Frage ist nun: Muss ich doch was tun, wenn die Webmaster-Tools 404-Probleme anzeigen und wenn ja, was?

Dazu noch ein paar Worte zu zwei weiteren Status-Codes: 410 und 301. Der Code 301 steht für ‚Moved Permanently‘ und gibt an, dass der angeforderte Inhalt dauerhaft unter einer anderen URL zu finden ist. Es ist keine Fehlermeldung, sondern eher ein Hinweis. Der Status-Code 410 (Gone) dagegen gibt an, dass die angeforderten Informationen dauerhaft gelöscht wurden (und nicht nur, wie bei 404, nicht gefunden wurden).

Mit diesen beiden Codes kann man bei Bedarf auf die angezeigten Fehler reagieren.

Gegenmaßnahmen

Noch einmal: In der Regel sind Gegenmaßnahmen nicht nötig, weil Google 404-Fehler nicht bestraft. Man muss sich die Probleme genau ansehen und dann entscheiden, ob es sich lohnt, etwas zu tun.

Es kann sein, dass hinter den Crawling-Fehlern Probleme liegen, die man auch aus anderen Gründen gern gelöst sähe. Hat z.B. jemand in einem Forum mit einer falsch geschriebenen URL auf eine Seite verwiesen und kommt viel Traffic darüber rein, wäre es sicher gut, diesen Traffic an den richtigen Ort umzuleiten. Eine anderer Fall könnte nach einer Umstrukturierung der eigenen Web-Site auftreten: Alte URLs funktionieren nicht mehr, man möchte aber erreichen, dass die Informationen doch gefunden werden. In beiden Fällen böte sich ein 301-Redirect an: Die Alten, falschen URLs melden keinen Fehler, sondern zeigen an, wo die Information stattdessen zu finden ist.

Die Gegenmaßnahmen beschränken sich hier im wesentlichen auf Angaben in der .htaccess-Datei. Wie immer könnte man dazu ganze Bücher schreiben; weitergehendes findet sich im Netz.

Fehler-Datum

In den Webmaster Tools wird neben der problematischen URL noch ein Datum angezeigt, nämlich wann dieses Problem zum letzten mal aufgetreten ist. Liegt es weit zurück, kann man davon ausgehen: Es hat sich erledigt. Ist es neuer oder hat man gar schon Gegenmaßnahmen ergriffen, lohnt ein zweiter Blick. Liegt z.B. nach getroffenen Gegenmaßnahmen das ‚Erkannt‘-Datum nach dem Zeitpunkt, an dem man etwas unternommen hat, ist dies ein Hinweis darauf, dass diese Maßnahmen nicht den gewünschten Erfolg hatten.

Dieses Fehler-Datum ist aber nur für Google relevant; will man auf die Probleme reagieren, um menschlichen Besuchern bessere Ergebnisse zu liefern, sollte man sich das ganze selbst ansehen, bevor man entscheidet, ob man etwas tun muss.

Fehler bei bestehenden Seiten

Im einfachsten Falle kann es sein, dass man selbst irgendwo einen Tipp-Fehler in einer URL auf den eigenen Seiten hatte. Hier kann man den Fehler korrigieren und warten, bis Google die alte URL mit dem Tippfehler vergisst. Hat sich eine solche URL aber schon verbreitet oder haben die falschen URLs externe Ursachen, kann man Requests in der .htaccess-Datei umleiten. Dazu gibt es zwei Möglichkeiten, den schon erläuterten Status-Code 301 (Moved Permanently) einzusetzen.

In beiden Fällen ergänzt man die .htaccess-Datei um ein paar Zeilen, die den Redirect angeben. D.h. es wird angegeben welche alte Ressource dauerhaft unter welcher neuen URL zu finden ist.

Im einfachsten Fall gibt man die Umleitungen für jede Ressource/Datei/URL einzeln an:

RewriteEngine on
Redirect 301 http://mysite.de/angepot.html http://mysite.de/angebot.html

Hier würde der Request mit dem Tippfehler auf die korrekt geschriebene Seite umgeleitet.

Sind es nicht nur einzelne Dateien, die Probleme machen oder folgen die Probleme einem bestimmten Muster, ist es auch möglich, ein eben solches Muster anzugeben. Dies bietet sich z.B. an, wenn Dateien in Unterverzeichnisse verschoben wurden, die alten URLs aber noch zum Ziel führen sollen.

RewriteEngine on
RedirectMatch 301 /pfad/alte-url  http://www.mysite.de/pfad/neue-url

Bei RedirectMatch sind Reguläre Ausdrücke zur Musterangabe möglich, der Komplexität sind also keine Grenzen gesetzt.

Fehler bei gelöschten Seiten

Natürlich kann man auch bei gelöschten Seiten einen 301-Redirect wie oben beschrieben einsetzen. Es ist aber auch möglich anzugeben, dass die Seiten nicht nur verschoben, sondern für immer weg sind. U.u. ist dies sogar besser, weil die Suchmaschinen dann die URL aus dem eigenen Index entfernen können.

RewriteEngine on
Redirect 410 http://mysite.de/angebot.html

Hiermit wird angegeben, das die Angebot-Seite nicht verschoben wurde, sondern komplett entfernt ist und auch nicht wiederkommt. Auch ein RedirectMatch wie oben wäre möglich. Im Unterschied zur echten Weiterleitung wird hier natürlich kein Ziel angegeben, die zweite URL fällt also weg. Aus dem Status-Code 410 kann Google erkennen, dass die URL veraltet ist und sie hoffentlich nicht mehr benutzen.

Den Status-Header kontrollieren

Alle Browser bringen Entwickler-Tools mit, mit deren Hilfe sich die gesendeten Status-Codes anzeigen lassen. Wenn man Redirects benutzt, ist es also leicht, nachzusehen, ob sie auch wirklich übertragen werden.

Tools

In Magento gibt es beim Ändern einer URL meist die Möglichkeit, für die alte URL einen Redirect anzulegen. Für WordPress findet sich ein (von mir nicht getestetes) Plugin, das für gelöschte Seiten 410-Redirects anlegt. Vermutlich wird es auch für andere CMS und Shops entsprechende Voreinstellungen oder Lösungen geben.

Lohnt das alles?

Für eine Google-Optimierung wahrscheinlich meist nicht. Google wird die fehlerhaften Seiten ohnehin irgendwann vergessen und damit ist es dann auch gewesen. Anders sieht es aus, wenn man seinen Lesern den Anblick von Fehler-Seiten ersparen möchte. Je mehr Seiten umgeleitet werden müssten oder je wichtiger diese Seiten sind (Traffic etc.), desto eher sollte man überlegen, Redirects einzusetzen. Dann waren die Fehler in den Webmaster Tools zwar nicht schlimm fürs Ranking, aber doch ein wertvoller Hinweis für Handlungsbedarf.

Kommentare sind geschlossen.