Die Datei robots.txt
Wenn Sie in Ihre log-Files schauen, ist Ihnen sicherlich schon einmal aufgefallen, daß unter “Nicht gefundene Seiten” die Datei robots.txt auftaucht. Diese wird ausschließlich von Suchrobots aufgerufen, um festzustellen, welche Bereiche einer Webseite nicht indexiert werden sollen. Die Datei robots.txt muß im ASCII-Format, z.B. mit Notepad, erstellt und in das Hauptverzeichnis des Servers kopiert werden. Sie beinhaltet nur die 2 Befehle: User-agent: und Dissalow: !
Mit dem User-agent: kann man den Spider benennen, auf den der Dissalow: - Befehl Anwendung finden soll. Einfacher ist es aber, nur ein * für alle Roboter anzugeben.
Für den Dissalow: - Befehl gibt es 4 Anwendungsmöglichkeiten:
Dissalow:
der ganze Inhalt wird zur Indexierung freigegeben
Dissalow: /
der ganze Inhalt wird für die Indexierung gesperrt
Dissalow: /logs/
nur der Ordner logs wird für die Indexierung gesperrt
Dissalow: /test.html
nur die Datei test.html wird für die Indexierung gesperrt
Der ganze Inhalt der robots.txt könnte also z.B. so aussehen:
# die Datei werbung.html und den Ordner logs für alle Roboter sperren
User-agent: *
Dissalow: /logs
Dissalow: /werbung/werbung.html
Es ist allerdings kein Suchroboter an diesen Robots Exclusion Standard gebunden und auch kein wirklicher Schutz, die Indexierung zu verhindern. Die meisten Spider halten sich aber daran.