robots.txt | webBewusst

Mit Unterstützung einer robots.txt-Datei behältst man die Kontrolle über seine eigene Website! Mit ihrer Hilfe kann gesteuert werden, welche Webseiten von Suchmaschinen gecrawlt werden dürfen und welche nicht. Damit ist die robots.txt ein wichtiges Instrument in der Suchmaschinenoptimierung.

Was ist eine robots.txt-Datei?

Die robots.txt-Datei ist eine Textdatei, die im Hauptverzeichnis einer Website oder eines Online-Shops, also jeglicher Internetpräsenz, abgelegt wird. Sie enthält spezifische Einträge, die Web-Crawlern Anweisungen geben. Diese Anweisungen können steuern, welche Inhalte oder Dateien einer Website oder eines Online-Shops gecrawlt werden dürfen und welche nicht.

Folgendes Beispiel zeigt den Aufbau einer robots.txt-Datei:

User-agent: *
Disallow: /private/
Disallow: /admin
Disallow: /mein-konto
Disallow: /mitgliederbereich

Im obigen Beispiel wird allen Crawlern „verboten“, die aufgelisteten Verzeichnisse zu besuchen. Neben ganzen Bereichen können auch individuelle URLs oder Dateien, z.B. PDF-Dateien oder Excel-Tabellen vom Crawling ausgeschlossen werden. Wer es noch individueller benötigt, kann sogar einzelne Website-Crawler komplett ausschließen.

Aber Achtung: Die robots.txt ist nicht dafür gedacht, den Zugriff auf bestimmte Bereiche der Internetpräsenz zu unterbinden. Die dort hinterlegten Verzeichnisse und Dateien sind nach wie vor aufrufbar. Für eine Zugangsbeschränkung sind andere Methoden, wie z.B. ein .htaccess-Schutz, zu verwenden.

Vorteile einer robots.txt-Datei

Über die Datei kann gezielt gesteuert werden, welche Crawler eine Internetpräsenz besuchen dürfen und welche Inhalte tatsächlich gecrawlt werden können. Das bringt den Vorteil, dass nur die Inhalte in den Index einer Suchmaschine aufgenommen werden, die wirklich relevant für das Ranking und die festgelegte SEO-Strategie sind.
Schließt man irrelevante Inhalte vom Crawling aus, spart dies auch Ressourcen. Und das nicht nur auf Seiten der Website-Crawler, sondern auch im Hinblick auf die eigene Infrastruktur. Besonders in Bezug auf die Suchmaschinen-Crawler führt die Schonung der Ressourcen dazu, dass nicht relevante Inhalte nicht gecrawlt werden und so mehr Ressourcen für die relevanten Inhalte zur Verfügung stehen. All dies fällt unter den Begriff Crawling-Management.

Nachteile einer robots.txt-Datei

Die Einrichtung und Pflege der robots.txt bedarf einiger Erfahrung und vor allen Dingen Genauigkeit. Ungenaue, falsche oder veraltete Inhalte wirken sich direkt auf die Sichtbarkeit der Internetpräsenz aus. Dies ist besonders dann der Fall, wenn relevante Bereiche der Website oder des Online-Shops aufgrund einer falschen Konfiguration nicht gecrawlt und indexiert werden können.
Es gibt keine hundertprozentige Garantie, dass sich die Crawler an die in der robots.txt festgelegten Regeln halten. Daher ist es notwendig, die Indexierung und die Datei selbst regelmäßig zu kontrollieren. Dafür eignet sich am besten die Google Search Console, über die detaillierte Informationen zum Crawling und zur Indexierung der eigenen Internetpräsenz eingesehen werden können.

Fazit

Trotz gewisser Fallstricke ist die robots.txt-Datei ein wichtiges Werkzeug und darf daher bei keiner Website oder bei keinem Online-Shop fehlen. Sie ist die erste Anlaufstelle, wenn es darum geht, nicht relevante Inhalte vom Crawling auszuschließen, und stellt daher ein elementares Tool dar, um ausschließlich die Inhalte indexieren zu lassen, die wirklich relevant sind und über die Suche einer Suchmaschine auch gefunden werden sollen.