Zum Hauptinhalt springen
Aufträge generieren Messbare Ergebnisse Nachhaltiger Erfolg

Robots.txt

cropped klaus kirnbauer

Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis einer Website gespeichert wird und Suchmaschinen-Crawler sowie andere automatisierte Programme darüber informiert, welche Bereiche einer Website sie aufrufen dürfen und welche nicht. Sie ist Teil des sogenannten Robots Exclusion Protocol (REP) und gilt als Grundlage der Kommunikation zwischen Website-Betreibern und Web-Robots.

Woher kommt die robots.txt?

Die Geschichte der robots.txt beginnt mit einem kleinen Missgeschick: 1993 oder 1994 programmierte der Science-Fiction-Autor Charles Stross ein Perl-Skript, das dabei versehentlich den Server der britischen Firma Nexor mit Anfragen überhäufte — ein unbeabsichtigter Denial-of-Service-Angriff. Der Nexor-Mitarbeiter Martijn Koster rief Stross daraufhin an, und aus dieser Unterhaltung entstand die Idee: Es sollte eine standardisierte Möglichkeit geben, Robots (also automatisierte Programme, die das Web durchforsten) zu steuern.

Koster schlug den Standard im Februar 1994 auf der Mailing-Liste robots-request@nexor.co.uk vor. Am 30. Juni 1994 einigte sich die Mehrheit der damaligen Robot-Entwickler auf das Dokument „A Standard for Robot Exclusion“. Das Besondere daran: Es war von Anfang an kein verbindlicher Standard, sondern eine freiwillige Vereinbarung — ein sogenannter De-facto-Standard. Jahrzehntelang blieb die robots.txt in diesem informellen Status, bis Google 2019 damit begann, sie bei der Internet Engineering Task Force (IETF) als offiziellen Internetstandard einzureichen. Im September 2022 erschien schließlich RFC 9309, der die robots.txt erstmals formell als Internetstandard festlegt.

Wie funktioniert die robots.txt?

Die Datei liegt immer unter dem Pfad /robots.txt im Stammverzeichnis einer Domain — also unter beispiel-seite.at/robots.txt. Wenn ein Crawler wie Googlebot eine Website besuchen möchte, ruft er zuerst diese Datei auf und liest die darin enthaltenen Regeln. Erst dann beginnt er, die eigentlichen Seiten aufzurufen.

Der Aufbau ist schlicht: Jeder Regelblock beginnt mit einer User-agent-Zeile, die festlegt, für welchen Crawler die nachfolgenden Anweisungen gelten. Der Wert * steht dabei für alle Robots. Darunter folgen Disallow-Zeilen für gesperrte Pfade und — optional — Allow-Zeilen für explizit erlaubte Pfade. Ein typischer Eintrag sieht etwa so aus:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://beispiel-seite.at/sitemap.xml

Dieser Block sagt: Alle Robots sollen das Verzeichnis /wp-admin/ meiden, aber /wp-admin/admin-ajax.php darf trotzdem aufgerufen werden. Mit der Sitemap-Zeile gibst du dem Crawler zusätzlich den Speicherort deiner XML-Sitemap mit — Google, Bing und andere große Suchmaschinen werten diese Angabe aus.

Es gibt auch eine Crawl-delay-Direktive, die festlegt, wie viele Sekunden ein Crawler zwischen zwei Anfragen warten soll. Google ignoriert diese Anweisung allerdings; für Googlebot regelst du die Crawl-Geschwindigkeit stattdessen in der Google Search Console. Bing und Yandex hingegen unterstützen Crawl-delay nach wie vor.

Google setzt zudem eine Obergrenze von 500 Kibibyte (KiB) für die Dateigröße. Alles, was darüber hinausgeht, wird vom Googlebot ignoriert.

Was die robots.txt kann — und was nicht

Hier liegt das größte Missverständnis in der Praxis: Die robots.txt verhindert nicht, dass eine Seite in den Google-Suchergebnissen auftaucht. Wenn andere Websites auf eine gesperrte URL verlinken, kann Google diese URL trotzdem indexieren — allerdings ohne den Seiteninhalt zu kennen. Du siehst dann eine URL in den Suchergebnissen, aber ohne Beschreibungstext (Snippet). Willst du wirklich verhindern, dass eine Seite indexiert wird, brauchst du dafür ein Robots-Meta-Tag mit dem Wert noindex oder einen entsprechenden HTTP-Header (X-Robots-Tag).

Die robots.txt eignet sich also vor allem dazu, das Crawl-Budget effizient zu verwalten. Das Crawl-Budget ist die Anzahl der Seiten, die ein Suchmaschinen-Crawler bei einem Besuch auf deiner Website aufruft. Für kleinere Websites ist das meist kein Thema, aber bei großen Seiten mit Tausenden URLs — etwa bei Online-Shops mit vielen gefilterten Suchergebnisseiten — lohnt es sich, Bereiche auszusperren, die für die Indexierung ohnehin irrelevant sind.

Ein weiteres wichtiges Detail: Die robots.txt ist eine öffentliche Datei. Jeder kann sie im Browser aufrufen und lesen. Sie ist also kein Sicherheitsmechanismus. Wer sensible Bereiche wirklich schützen will, braucht Passwortschutz oder andere Zugangsbeschränkungen auf Serverebene.

Die Freiwilligkeit des Systems und ihre Grenzen

Das robots.txt-System funktioniert nur, weil sich seriöse Betreiber wie Google, Bing oder Yandex daran halten. Für bösartige Robots — etwa Programme, die automatisch nach Sicherheitslücken suchen oder E-Mail-Adressen sammeln — gilt das nicht. Diese ignorieren robots.txt grundsätzlich. Noch dazu kann die öffentlich sichtbare Datei für solche Programme sogar als nützliche Liste gesperrter Verzeichnisse dienen.

Seit der massenhaften Verbreitung generativer KI ab 2022 hat dieses Freiwilligkeitsproblem noch mehr Aufmerksamkeit bekommen. Immer mehr Website-Betreiber blockieren in ihrer robots.txt gezielt KI-Crawler wie GPTBot von OpenAI oder Google-Extended. Laut einer Auswertung von Originality.AI aus dem Jahr 2023 hatten 306 der tausend meistbesuchten Websites GPTBot in ihrer robots.txt blockiert. Untersuchungen — darunter ein Bericht der Nachrichtenagentur Reuters aus Juni 2024 und eine Vorabveröffentlichung der Duke University aus Mai 2025 — zeigen aber, dass viele KI-Unternehmen die robots.txt ignorieren. Die Compliance sinkt laut dieser Studie sogar, je restriktiver die Regeln werden.

Das Internet Archive ging 2017 einen anderen Weg und kündigte an, robots.txt-Direktiven nicht mehr zu befolgen — mit der Begründung, dass die Archivierung historischer Inhalte im öffentlichen Interesse liege.

Bedeutung für SEO

Für die Suchmaschinenoptimierung ist die robots.txt vor allem ein Werkzeug zur Steuerung des Crawling-Verhaltens. Du kannst damit verhindern, dass Googlebot wertvolles Crawl-Budget auf interne Suchseiten, Filterseiten, Staging-Bereiche oder doppelte Inhalte verschwendet. Falsch konfiguriert kann die robots.txt jedoch erheblichen Schaden anrichten: Wer versehentlich die ganze Website mit Disallow: / sperrt, verschwindet aus den Suchergebnissen.

Prüfen lässt sich die robots.txt direkt in der Google Search Console, wo ein eigenes Berichts-Werkzeug anzeigt, welche Dateien Google gefunden hat und ob es dabei Probleme gab.

Häufige Fragen

Was gehört in eine robots.txt?

In eine robots.txt gehören Anweisungen für Crawler, die du gezielt steuern möchtest: gesperrte Verzeichnisse (Disallow), erlaubte Ausnahmen (Allow) und der Verweis auf deine Sitemap (Sitemap). Verzeichnisse wie Admin-Bereiche, interne Suchseiten oder Staging-Pfade sind typische Kandidaten für Disallow-Einträge.

Kann ich mit der robots.txt Seiten aus Google ausblenden?

Nein, das funktioniert nicht zuverlässig. Wenn andere Websites auf eine in der robots.txt gesperrte URL verlinken, kann Google diese URL trotzdem in den Suchergebnissen anzeigen — nur ohne Seiteninhalt. Willst du eine Seite sicher aus den Suchergebnissen entfernen, brauchst du ein Robots-Meta-Tag mit dem Wert noindex, einen X-Robots-Tag-HTTP-Header oder du schützt die Seite mit einem Passwort.

Wo finde ich die robots.txt einer Website?

Die robots.txt liegt immer direkt unter dem Domain-Namen mit dem Pfadanhang /robots.txt. Für beispiel-seite.at rufst du also beispiel-seite.at/robots.txt im Browser auf. Hat eine Subdomain eine eigene robots.txt, liegt diese separat — etwa unter shop.beispiel-seite.at/robots.txt.