Kontakt
Webseiten
Marketing
Datenbanken
Hosting
DSL-Netzwerke
Computer
Infothek
 

Die Datei robots.txt

Wenn Sie in Ihre log-Files schauen, ist Ihnen sicherlich schon einmal aufgefallen, daß unter “Nicht gefundene Seiten” die Datei robots.txt auftaucht. Diese wird ausschließlich von Suchrobots aufgerufen, um festzustellen, welche Bereiche einer Webseite nicht indexiert werden sollen. Die Datei robots.txt muß im ASCII-Format, z.B. mit Notepad, erstellt und in das Hauptverzeichnis des Servers kopiert werden. Sie beinhaltet nur die 2 Befehle: User-agent: und Dissalow: !

Mit dem User-agent: kann man den Spider benennen, auf den der Dissalow: - Befehl Anwendung finden soll. Einfacher ist es aber, nur ein * für alle Roboter anzugeben.

Für den Dissalow: - Befehl gibt es 4 Anwendungsmöglichkeiten:

Dissalow:
der ganze Inhalt wird zur Indexierung freigegeben

Dissalow: /
der ganze Inhalt wird für die Indexierung gesperrt

Dissalow: /logs/
nur der Ordner logs wird für die Indexierung gesperrt

Dissalow: /test.html
nur die Datei test.html wird für die Indexierung gesperrt

Der ganze Inhalt der robots.txt könnte also z.B. so aussehen:

# die Datei werbung.html und den Ordner logs für alle Roboter sperren
User-agent: *
Dissalow: /logs
Dissalow: /werbung/werbung.html

Es ist allerdings kein Suchroboter an diesen Robots Exclusion Standard gebunden und auch kein wirklicher Schutz, die Indexierung zu verhindern. Die meisten Spider halten sich aber daran.