Die robots.txt – so nehmen Sie den Crawler oder Spider an der Hand

Posted Donnerstag, Dezember 8, 2005 at 13:36 von Chris under Suchmaschinen Optimierung

Um den Crawlern und Spidern der Suchmaschinenbetreiber den richtigen Weg durch eine Web-Site zu bahnen, hat sich die Datei robots.txt durchgesetzt. Mit den in der robots.txt gespeicherten Daten wird dem Crawler oder Spider gesagt, ob er überhaupt die Site durchlaufen darf und welche Ordner und Dateien er nicht bearbeiten soll. In dieser Datei finden sich also Anweisungen und Befehle für die Robots der Suchmaschinen. In der Regel halten sich die Robots der führenden Suchmaschinenbetreiber auch an die Angaben der robots.txt.

Intelligente Suchmaschinen-Programme durchsuchen Millionen von Web-Sites, um dort die passenden Daten für den Suchmaschinen-Index zu finden. Diese Software-Roboter nennt man Robots, Crawler und Spider. In der Anfangszeit der Suchmaschinen wurden alle Informationen aller Seiten gesammelt. Dies war natürlich nicht optimal und man überlegte, wie man es besser machen könnte.

Die Lösung war das Einführen der robots.txt. Verzeichnisse und Seiten bei denen ein Durchsuchen nicht nötig oder auch nicht gewünscht ist, können mit dieser Datei ausgeschlossen werden. So erhält der suchende User auch ein optimiertes Suchergebnis und findet die richtigen Seiten und Inhalte. Es entsteht also auch ein Vorteil für den Site-Betreiber.

Die robots.txt ist eine übliche Textdatei, die mit einem Standard-Texteditor erstellt und bearbeitet werden kann. Abgelegt werden muss die Datei direkt im Root-Verzeichnis, dem „Wurzelverzeichnis“ in dem die Ordner und Dateien der Web-Site liegen. Nur dort suchen die Robots nach der robots.txt-Datei. Dies bedeutet aber auch, dass der Sitebetreiber über eine direkte, eigene Domain verfügen muss.

Beispieltext für eine robots.txt:

User-agent: *
Disallow: /images/
Disallow: /temp/
Disallow: /programm.php
Disallow: /passwort.php

usw.

Der Stern in der ersten Zeile bedeutet, dass die folgenden Regeln für alle Robots gelten. Entsprechend können natürlich auch die einzelnen Robots in einem jeweils folgenden, zusätzlichen Datensatz angegeben werden.

In der zweiten und dritten Zeile erhalten die Crawler oder Spider ein Verbot, die entsprechenden Verzeichnisse nicht zu bearbeiten. Der abschließende / ist dabei wichtig. Die vierte und fünfte Zeile zeigt Beispiele, wie die Robots von einzelnen Dateien ferngehalten werden können.

Mit folgendem sperrt man alle Robots von der kompletten Site aus – was in der Regel bei einer Suchmaschinen-Optimierung ja auf keinen Fall das Ziel sein sollte:

User-agent: *
Disallow: /

Der / bestimmt, dass alle Daten dieses Verzeichnisses und aller Unterverzeichnisse verboten sind. Ohne den / wäre aber wiederum alles offen, z.B. für nur einen bestimmten Robot, der dann an Stelle des * oben eingetragen wird.

Besteht nicht die Möglichkeit, eine robots.txt auf dem Server einzuspielen, kann mit einem speziellen Meta-Tag das Verhalten der Robots bestimmt werden – allerdings in nur sehr eingeschränkter Weise. Dieser Meta-Tag wird auch nicht von allen Crawlern unterstützt.

Dieser Meta-Tag im Header-Bereich kann wie folgt aussehen:
<meta name="robots" content="index, follow" />

Hierbei werden die Webseiten vom Crawler eingelesen und indiziert sowie die auffindbaren Links weiterverfolgt.

index: Die Seite wird eingelesen und indiziert.
follow: Links auf der Seite werden verfolgt.

Der Bereich nach content= kann aber auch folgende Parameter haben:

noindex: Die Seite wird nicht indiziert.
nofollow: Links auf der Seite werden nicht verfolgt.
all: index und follow
none: noindex und nofollow

Als weitere Beispiele sind folgende Kombinationen möglich:
<meta name="robots" content="index,follow" />
<meta name="robots" content="noindex,follow" />
<meta name="robots" content="index,nofollow" />
<meta name="robots" content="noindex,nofollow" />

Sich widersprechende Parameter oder wiederholtes Nennen gleicher Parameter dürfen nicht verwendet werden.

Beispiel hierfür:
<meta name="robots" content="noindex, noindex, nofollow,follow" />.

In unserem Optimierungs-Coaching erarbeiten wir detailliert eine individuelle robots.txt für die Site des jeweiligen Projekts, um die Crawler oder Spider richtig an der Hand zu nehmen und zu führen.




Verzeichnisse

Event-Messe
In English
Online-Marketing
Optimierungs Coaching
SEO-Coaching
SEO-Seminar
SEO-Workshops
Site-Analyse
Suchmaschinen Optimierung
Web Marketing

Fachartikel von:

Ein Fachartikel von SEO-Coaching - Online Marketing - Suchmaschinenoptimierung



Suche





Powered by WordPress