5.6 Crawler mit Robots.txt steuern


Wie man mit Robots.txt Dateien den Suchmaschinen crawler steuern kann und so die Suchmaschinen Positionierung verbessern kann.

Um einem Web Crawler das einlesen von Dokumenten zu erleichtern und um Fehler bei dem indexieren von Websites zu vermeiden hat man als Betreiber einer Homepage die Möglichkeit den Suchmaschinen Web Crawler mit Robots.txt Dateien zu steuern.

Robots.txt dienen dazu Suchmaschinen Webcrawler aus bestimmten Verzeichnissen des Onlineangebots herauszuhalten.
Man kann mit Robots.txt Dateien Suchmaschinen verbieten bestimmte Verzeichnisse zu durchforsten.

Der Vorteil für Website Betreiber liegt hierbei darin das man verhindern kann das für die Suchmaschinen Positionierung schlechte Dateien vom Web Crawler indexiert werden.

Eine Robots.txt Datei ist eine kleine Textdatei in der man anweisungen für den Suchmaschinen Web Crawler notieren kann. Alle Web Crawler suchen beim indexieren einer Website zuerst nach der Robots.txt Datei im Stammverzeichniss des Webservers/Webspaces.
Das Stammverzeichniss ist das Verzeichniss welches man direkt nach der Eingabe der URL einer Webseite erreicht (also das Verzeichniss wo auch die Startseite/index.html abgelegt wird).

Eine Robots.txt besteht aus zwei grundlegenden Teilen:

die Angabe des User Agents (name des web Crawlers)

die Angabe der Verzeichnisse die nicht indexiert werden dürfen

Nachfolgend sehen sie das Beispiel einer Robots.txt Datei mit Erklärungen

user-agent:*
disallow:/images
disallow:/cgi-bin
disallow:/private

user-agent:* bedeutet das damit alle Web Crawler angesprochen werden. Alternativ zu * können Sie auch den Web Crawler direkt beim Namen nennen und so gezielt einer Suchmaschine verbieten die aufgelisteten Verzeichnisse zu durchforsten. Jeder Web Crawler hat eine eigene Bezeichnung die Sie direkt in die Robots.txt übernehmen können wenn Sie möchten. In den meisten fällen reicht allerdings eine Robots.txt Datei die für alle Web Crawler allgemein gültig ist wie in unserem Beipiel. Hier finden Sie eine Liste der aktuellen Namen von Web Crawlern.

disallow:/images, disallow:/cgi-bin, disallow:/private verbietet den Zugriff für Webcrawler für die Verzeichnisse mit den Namen cgi-bin, images und private.

Weiterführende Links:

Nächstes Thema: Spam in Suchmaschinen
Inhaltsverzeichnis
Stichwortverzeichnis




Zur Startseite: Positionierung und Web Crawler

copyright© by ranking-abc.de