- robots.txt ist aktuell das einzige Werkzeug, mit dem du KI-Crawler steuern kannst. Es funktioniert, hat aber Grenzen. Rund 13% der KI-Bots ignorieren die Datei
- llms.txt ist ein neues Dateiformat, das KI-Systemen eine maschinenlesbare Zusammenfassung deiner Website bereitstellt. Die Idee ist gut, die Realität ernüchternd. Kein großer KI-Anbieter nutzt die Datei bisher nachweislich.
- Am besten fährst du mit dem Mittelweg. Training-Crawler blockieren, Live-Browsing-Crawler erlauben. So schützt du deine Inhalte vor unkontrolliertem Training, bleibst aber in KI-Suchergebnissen sichtbar.
KI-Crawler wie GPTBot, ClaudeBot und PerplexityBot durchsuchen das Internet systematisch nach Inhalten. Sie füttern damit Sprachmodelle, die in ChatGPT, Perplexity und Google AI Overviews stecken. Für Website-Betreiber stellt sich eine zentrale Frage. Willst du, dass deine Inhalte in KI-Antworten auftauchen? Und wenn ja, zu welchen Bedingungen?
Dieser Ratgeber zeigt dir, welche KI-Crawler es gibt, wie du sie über robots.txt steuerst, was es mit der neuen llms.txt auf sich hat und welche Strategie für dein Geschäftsmodell Sinn macht.
KI-Crawler: Wer durchsucht deine Website und warum?
GPTBot war 2023 der Startschuss. Seitdem hat die Zahl der KI-Crawler rasant zugenommen. Laut Vercel sind GPTBot-Anfragen zwischen Mai 2024 und Mai 2025 um 305% gestiegen, der Marktanteil kletterte von 2,2% auf 7,7%. Noch drastischer fällt das Wachstum bei den anderen Bots aus. ChatGPT-User wuchs um 2.825%, PerplexityBot sogar um 157.490% (von einer kleinen Basis).
Für dich als Website-Betreiber bedeutet das eine Menge. KI-Crawler sind keine Randerscheinung mehr. Sie machen einen wachsenden Anteil deines Server-Traffics aus.
Die wichtigsten KI-Crawler im Überblick
| Bot | Betreiber | Zweck | User-Agent |
|---|---|---|---|
| GPTBot | OpenAI | Training zukünftiger Modelle | GPTBot |
| ChatGPT-User | OpenAI | Live-Browsing in ChatGPT | ChatGPT-User |
| ClaudeBot | Anthropic | Training für Claude | ClaudeBot |
| Google-Extended | Training für Gemini | Google-Extended | |
| PerplexityBot | Perplexity | Echtzeit-Suche | PerplexityBot |
| Bytespider | ByteDance | Training (TikTok-Konzern) | Bytespider |
| Applebot-Extended | Apple | KI-Features | Applebot-Extended |
| AmazonBot | Amazon | Alexa & KI-Dienste | Amazonbot |
| Meta-ExternalAgent | Meta | KI-Training | Meta-ExternalAgent |
Training vs. Live-Browsing: Der entscheidende Unterschied
Was viele nicht wissen, OpenAI betreibt zwei verschiedene Crawler. GPTBot sammelt Daten für das Training zukünftiger Modelle. ChatGPT-User macht Live-Browsing, wenn ein Nutzer in ChatGPT eine aktuelle Frage stellt.
Der Unterschied ist strategisch relevant. Wenn du GPTBot blockierst, verhinderst du, dass deine Inhalte als Trainingsdaten verwendet werden. Wenn du ChatGPT-User erlaubst, können deine Inhalte trotzdem in ChatGPT-Antworten zitiert werden, mit Link zurück zu deiner Seite.
Aus meiner Erfahrung ist genau diese Kombination der beste Kompromiss für die meisten Unternehmen. Du schützt dein geistiges Eigentum, bleibst aber in KI-Suchergebnissen sichtbar.
Wie stark belasten KI-Crawler deinen Server?
Die Serverlast durch KI-Crawler wird massiv unterschätzt. Ein paar dokumentierte Fälle machen das deutlich.
- iFixit meldete rund 1 Million Zugriffe von Anthropic-Crawlern an einem einzigen Tag.
- Read the Docs reduzierte seinen Traffic um 75% (von 800 GB auf 200 GB täglich), nachdem sie KI-Crawler blockiert hatten. Die monatliche Ersparnis lag bei rund 1.500 USD.
- Ein einzelner Website-Betreiber berichtete auf Reddit von 30 TB Bandbreite in einem Monat allein durch GPTBot.
Gerade für kleinere Websites mit begrenztem Hosting kann das zum echten Problem werden. Wenn dein Server langsamer wird und du dir nicht erklären kannst warum, lohnt ein Blick in die Server-Logs.
robots.txt für KI-Crawler: Das einzige Tool, das (noch) funktioniert
robots.txt existiert seit 1994 und ist das älteste Steuerungsinstrument für Web-Crawler. Im Rahmen einer SEO-Strategie gehört die Datei zur technischen Grundausstattung. Das Prinzip ist einfach. Du legst eine Textdatei im Root-Verzeichnis deiner Website ab und sagst Crawlern, welche Bereiche sie besuchen dürfen und welche nicht.
Für KI-Crawler gelten die gleichen Regeln wie für Googlebot. Der Unterschied liegt im Detail. Du musst die neuen User-Agents kennen und gezielt ansprechen.
So blockierst du KI-Crawler über robots.txt
Die einfachste Variante blockiert alle KI-Training-Crawler komplett.
# KI-Training-Crawler blockieren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
Diese Einträge fügst du in deine bestehende robots.txt ein, die unter https://deine-website.de/robots.txt erreichbar sein muss. Bestehende Regeln für Googlebot und andere Suchmaschinen bleiben davon unberührt.
Selektiv blockieren: Training verbieten, Sichtbarkeit behalten
Die strategisch klügere Variante unterscheidet zwischen Training und Live-Browsing.
# Training blockieren
User-agent: GPTBot
Disallow: /
# Live-Browsing erlauben (ChatGPT kann dich zitieren)
User-agent: ChatGPT-User
Allow: /
# Andere Training-Crawler blockieren
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
Mit dieser Konfiguration verhinderst du, dass deine Inhalte zum Training neuer KI-Modelle genutzt werden. Gleichzeitig kann ChatGPT deine Seite im Live-Browsing-Modus aufrufen und Nutzern als Quelle anzeigen.
Meine Einschätzung ist klar. Für die meisten Unternehmen ist das die beste Lösung. Du verlierst keine KI-Sichtbarkeit, behältst aber die Kontrolle über deine Trainingsdaten.
Das Problem: 13% der Bots ignorieren robots.txt
robots.txt basiert auf Freiwilligkeit. Es gibt keinen technischen Mechanismus, der Crawler zwingt, sich daran zu halten. Und genau da liegt das Problem.
Laut der Vercel AI Bot Traffic Study ignorieren 13,26% der KI-Bot-Anfragen die robots.txt komplett (Q2 2025). Noch Ende 2024 lag der Wert bei 3,3%.
Perplexity wurde von Wired dabei ertappt, robots.txt-Regeln zu umgehen. Reddit verklagte Anthropic im Juni 2025 wegen angeblich über 100.000 Zugriffen nach der öffentlichen Aussage, damit aufgehört zu haben.
Im Klartext bedeutet das, robots.txt ist besser als nichts, aber kein vollständiger Schutz. Wer es ernst meint, braucht zusätzliche Maßnahmen auf Server-Ebene.
llms.txt: Hype oder neuer Standard?
llms.txt ist eine relativ neue Idee, die von Andrej Karpathy (ehemals OpenAI) und der Tech-Community vorangetrieben wird. Die Grundidee ist simpel. Eine maschinenlesbare Markdown-Datei, die KI-Systemen eine strukturierte Zusammenfassung deiner Website liefert.
Während robots.txt sagt „Du darfst hier nicht rein“, sagt llms.txt „Das hier solltest du über mich wissen“. Die Dateien verfolgen also unterschiedliche Ziele.
Was ist llms.txt und wie funktioniert es?
Die llms.txt wird im Root-Verzeichnis deiner Website abgelegt, genau wie robots.txt. Sie enthält eine Markdown-formatierte Übersicht deiner wichtigsten Inhalte, optimiert für die Verarbeitung durch Sprachmodelle.
Ein Beispiel für eine llms.txt einer SEO-Agentur:
# Proactive Media GmbH
> SEO & AI Search Agentur aus Oldenburg. Wir machen Unternehmen in
> Google und KI-Suchsystemen sichtbar.
## Leistungen
- [SEO](https://proactive-media.de/seo/): Technisches SEO,
Content-Strategie, On-Page und Off-Page Optimierung
- [Linkaufbau](https://proactive-media.de/linkaufbau-agentur/):
Strategischer Backlink-Aufbau mit eigenem Netzwerk
- [AI Search](https://proactive-media.de/ai-search/): Sichtbarkeit
in ChatGPT, Perplexity und Google AI Overviews
## Ratgeber
- [AI SEO](https://proactive-media.de/ai-seo/): Kompletter Guide
zur Optimierung für KI-Suchsysteme
- [GEO](https://proactive-media.de/generative-engine-optimization/):
Generative Engine Optimization erklärt
Die Struktur ist absichtlich simpel gehalten. Kurze Beschreibungen, klare Links und Markdown-Formatierung statt Marketingsprache.
llms.txt erstellen: Schritt-für-Schritt-Anleitung
- Datei anlegen. Erstelle eine Textdatei mit dem Namen
llms.txtim UTF-8-Format. - Überschrift setzen. Beginne mit dem Namen deines Unternehmens als H1 (
# Firmenname). - Zusammenfassung schreiben. Unter der Überschrift kommt ein Blockquote (
>) mit einer ein- bis zweizeiligen Beschreibung. - Inhalte strukturieren. Nutze H2-Überschriften (
##) für Kategorien und Markdown-Links für die wichtigsten Seiten. - Veröffentlichen. Lege die Datei unter
https://deine-website.de/llms.txtab. - Pflegen. Aktualisiere die Datei bei größeren inhaltlichen Änderungen, mindestens alle 2-3 Monate.
Für WordPress gibt es mittlerweile Plugins wie das Yoast llms.txt Plugin, die den Prozess automatisieren. Alternativ lädst du die Datei einfach per FTP in dein Root-Verzeichnis.
Die unbequeme Wahrheit zu llms.txt
Aber mal ehrlich. Die Datenlage zur llms.txt ist ernüchternd.
- Nur 0,1% der KI-Bot-Anfragen gehen auf /llms.txt. In einem 90-Tage-Audit von über 62.100 AI-Bot-Besuchen wurden nur 84 Requests auf die Datei registriert.
- Google unterstützt llms.txt nicht. John Mueller (Google) schrieb auf Reddit: „AFAIK none of the AI services have said they’re using LLMs.TXT.“ Gary Illyes (Google) bestätigte auf der Search Central Live im Juli 2025: „Google doesn’t support LLMs.txt and isn’t planning to.“
- Kein großer KI-Anbieter hat die Nutzung von llms.txt offiziell bestätigt.
- Eine Regression-Analyse von SE Ranking über 300.000 Domains zeigte keinen messbaren Zusammenhang zwischen llms.txt und KI-Zitierungen.
Meine Einschätzung ist eindeutig. llms.txt schadet nicht und ist in 15 Minuten erstellt. Aber es ist aktuell kein SEO-Hebel und kein Ranking-Faktor. Wer behauptet, llms.txt wäre ein Muss, übertreibt. SEO-Tools wie SEMrush flaggen eine fehlende llms.txt als Problem, was bei vielen unnötige Panik auslöst. Lass dich davon nicht verrückt machen.
Trotzdem empfehle ich, die Datei anzulegen. Der Aufwand ist minimal, und falls KI-Anbieter den Standard irgendwann unterstützen, bist du vorbereitet.
llms-full.txt: Die erweiterte Variante
Neben llms.txt gibt es auch llms-full.txt. Während llms.txt eine kompakte Übersicht liefert, enthält llms-full.txt detaillierte Metadaten zu einzelnen Seiten.
Version: 1.0
Domain: https://www.deine-website.de
Generated: 2026-03-15T10:00:00Z
Entry:
URL: https://www.deine-website.de/blog/ai-seo-guide/
Title: AI SEO: Der komplette Guide
Author: Florian Beqiri
Summary: Wie du deine Website für KI-Suchsysteme optimierst.
Last-Modified: 2026-03-01
License: Copyright 2026, Alle Rechte vorbehalten
Die Felder Author, Last-Modified und License sind besonders interessant, weil sie KI-Systemen helfen, korrekt zu zitieren und Urheberrechte zu respektieren. In der Praxis nutzt allerdings auch llms-full.txt bisher kein großer Anbieter.
Blockieren oder zulassen? Die strategische Entscheidung
Ob man KI-Crawler blockieren soll, wird in der SEO-Community heiß diskutiert. Eine pauschale Antwort gibt es nicht, denn es hängt von deinem Geschäftsmodell ab.
Wann du KI-Crawler blockieren solltest
- Du bist Publisher oder Content-Creator. Deine Inhalte sind dein Produkt. Wenn KI-Systeme deine Texte in ihren Antworten zusammenfassen, kommen weniger Nutzer auf deine Seite. Laut einer Analyse von Reuters Institute blockieren 79% der Top-Nachrichtenseiten bereits mindestens einen KI-Training-Bot.
- Du hast Premium-Content hinter einer Paywall. KI-Crawler, die kostenpflichtige Inhalte abgreifen, untergraben dein Geschäftsmodell direkt.
- Dein Server ist zu schwach. Bei begrenztem Hosting können aggressive KI-Crawler die Performance spürbar verschlechtern.
Wann du KI-Crawler zulassen solltest
- Du bist Dienstleister und willst gefunden werden. Wenn potenzielle Kunden in ChatGPT oder Perplexity nach deiner Leistung fragen, willst du in der Antwort auftauchen. KI SEO beschäftigt sich genau damit. Wer KI-Crawler komplett blockiert, wird in KI-Suchsystemen unsichtbar.
- Du betreibst einen Online-Shop. Produkt-Empfehlungen in KI-Antworten können Traffic und Umsatz bringen.
- Du willst Thought Leadership aufbauen. Wenn KI-Systeme dich als Quelle zitieren, stärkt das deine Marke.
Der Mittelweg: Training blockieren, Zitierung erlauben
Für die meisten Unternehmen empfehle ich den Mittelweg, den ich oben bei der robots.txt-Konfiguration gezeigt habe. Training-Crawler wie GPTBot blockieren, Live-Browsing-Crawler wie ChatGPT-User erlauben.
So nutzt du die Vorteile der KI-Sichtbarkeit, ohne deine Inhalte als kostenloses Trainingsmaterial herzugeben. Das sehen wir bei unseren Kunden immer wieder als die pragmatischste Lösung, besonders für Dienstleister und B2B-Unternehmen.
Server absichern: Wenn robots.txt nicht reicht
robots.txt ist eine Bitte, keine Anweisung. Wer sich wirklich absichern will, braucht zusätzliche Schutzschichten.
Cloudflare AI Bot Blocking (seit 2025 Standard)
Seit Juli 2025 blockiert Cloudflare KI-Bots standardmäßig. Das betrifft Millionen von Websites, die hinter Cloudflare laufen.
Ganz konkret bedeutet das, wenn deine Website über Cloudflare läuft, werden KI-Crawler automatisch geblockt, es sei denn, du erlaubst sie aktiv. Das ist ein fundamentaler Shift von Opt-out zu Opt-in.
Für die meisten Websites ist Cloudflare die einfachste und effektivste Lösung. Selbst im kostenlosen Tarif ist das AI-Bot-Blocking verfügbar.
Apache & NGINX: Server-Level-Blocking
Falls du keinen CDN-Dienst nutzt, kannst du KI-Crawler direkt auf Server-Ebene blockieren.
Apache (.htaccess):
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|Bytespider|PerplexityBot) [NC]
RewriteRule ^ - [F]
</IfModule>
NGINX:
if ($http_user_agent ~* "(GPTBot|ClaudeBot|Bytespider|PerplexityBot)") {
return 403;
}
Server-Level-Blocking hat einen entscheidenden Vorteil gegenüber robots.txt. Der Crawler bekommt eine 403-Fehlermeldung und kann die Inhalte gar nicht erst abrufen. Bei robots.txt vertraust du darauf, dass der Bot die Datei liest und respektiert.
Das Bot-Umbenennungs-Problem: Warum Block-Listen veralten
Ein Problem, das kaum jemand thematisiert, ist die regelmäßige Umbenennung von Bots durch KI-Unternehmen.
Anthropic hat seine Bots von „ANTHROPIC-AI“ und „CLAUDE-WEB“ in „ClaudeBot“ umbenannt. Hunderte Websites, darunter Reuters und Condé Nast, blockierten noch die alten Namen, während der neue Bot ungehindert crawlen konnte.
In der Praxis bedeutet das, eine einmal eingerichtete Block-Liste reicht nicht. Du musst die User-Agent-Strings regelmäßig prüfen und aktualisieren. Das GitHub-Projekt ai-robots-txt pflegt eine aktuelle Liste aller bekannten KI-Crawler und ist eine gute Referenz.
llms.txt und robots.txt für WordPress einrichten
WordPress ist das meistgenutzte CMS, und die Einrichtung ist unkompliziert.
robots.txt anpassen
WordPress generiert automatisch eine virtuelle robots.txt. Um KI-Crawler-Regeln hinzuzufügen, hast du zwei Möglichkeiten.
Option 1: Über ein SEO-Plugin (empfohlen)
RankMath, Yoast und andere SEO-Plugins bieten einen robots.txt-Editor. Dort fügst du die KI-Crawler-Regeln direkt ein. In RankMath findest du den Editor unter Allgemeine Einstellungen > robots.txt bearbeiten.
Option 2: Manuelle Datei
Erstelle eine physische robots.txt im Root-Verzeichnis deiner WordPress-Installation (/var/www/html/robots.txt oder entsprechend). Diese überschreibt die virtuelle Datei.
llms.txt in WordPress erstellen
Für llms.txt gibt es noch keine breite Plugin-Unterstützung. Am einfachsten gehst du so vor.
- Erstelle die Datei lokal als
llms.txt(UTF-8, reiner Text). - Lade sie per FTP oder über den Dateimanager deines Hosters in das Root-Verzeichnis.
- Prüfe, ob sie unter
https://deine-website.de/llms.txterreichbar ist.
Alternativ gibt es erste WordPress-Plugins wie das Jeremie Jost’s JEREMIEJOST – LLMs.txt Plugin, das die Datei automatisch aus deinen Seiten und Beiträgen generiert.
Häufige Fehler bei der KI-Crawler-Steuerung
- Alle KI-Crawler pauschal blockieren. Wer alles blockt, wird in KI-Suchsystemen unsichtbar. Differenziere zwischen Training und Live-Browsing.
- Block-Listen einmal einrichten und vergessen. Neue Bots tauchen auf, bestehende werden umbenannt. Prüfe deine robots.txt mindestens quartalsweise.
- Nur auf robots.txt vertrauen. 13% der KI-Bots ignorieren die Datei. Kombiniere robots.txt mit Server-Level-Blocking oder Cloudflare.
- llms.txt als SEO-Wunder verkaufen lassen. Einige Tools und Agenturen erzeugen Panik um fehlende llms.txt-Dateien. Die Daten sprechen eine andere Sprache.
- Google-Extended und Googlebot verwechseln. Google-Extended ist für Gemini-Training. Googlebot ist für die Google-Suche. Wer Googlebot blockiert, verschwindet aus der Google-Suche. Google-Extended zu blockieren hat keinen Einfluss auf dein Google-Ranking.
- Server-Logs nicht prüfen. Ohne Log-Analyse weißt du nicht, welche Bots tatsächlich auf deiner Seite sind und wie viel Ressourcen sie verbrauchen.
Fazit: Pragmatisch statt paranoid
Die Steuerung von KI-Crawlern ist kein einmaliges Projekt, sondern ein laufender Prozess. Die Landschaft verändert sich schnell, neue Bots kommen hinzu, alte werden umbenannt, und die Compliance-Raten schwanken.
robots.txt bleibt das wichtigste Werkzeug, hat aber Grenzen. llms.txt ist eine nette Ergänzung mit minimalem Aufwand, aber aktuell ohne messbaren Impact. Server-Level-Blocking über Cloudflare oder direkt per Apache/NGINX ist der zuverlässigste Schutz.
So würde ich es für die meisten Unternehmen angehen.
- robots.txt konfigurieren. Training-Crawler blockieren, Live-Browsing erlauben.
- llms.txt anlegen. 15 Minuten Aufwand, schadet nicht, könnte irgendwann relevant werden.
- Cloudflare einrichten. Auch im kostenlosen Tarif effektiver Schutz gegen ungewolltes Crawling.
- Quartalsweise prüfen. Block-Listen aktualisieren, Server-Logs checken.
Wer KI-Sichtbarkeit als Chance begreift statt nur als Bedrohung, hat langfristig die bessere Position. Die Frage ist nicht ob, sondern wie du KI-Crawler steuerst.
FAQ
Was ist der Unterschied zwischen llms.txt und robots.txt?
robots.txt steuert den Zugriff von Crawlern auf deine Website („Du darfst hier nicht rein“). llms.txt liefert KI-Systemen eine strukturierte Zusammenfassung deiner Inhalte („Das solltest du über mich wissen“). robots.txt wird von den meisten Crawlern respektiert, llms.txt wird bisher von keinem großen KI-Anbieter nachweislich genutzt.
Schadet das Blockieren von GPTBot meinem Google-Ranking?
Nein. GPTBot ist OpenAIs Crawler, nicht Googles. Dein Google-Ranking wird ausschließlich durch den Googlebot bestimmt. Du kannst GPTBot bedenkenlos blockieren, ohne dass sich an deiner Position in der Google-Suche etwas ändert.
Muss ich eine llms.txt haben?
Nein. Es gibt aktuell keinen nachweisbaren Vorteil. Kein großer KI-Anbieter hat bestätigt, llms.txt zu nutzen. Da der Aufwand minimal ist (15 Minuten), empfehle ich trotzdem, die Datei anzulegen. Falls der Standard irgendwann Fahrt aufnimmt, bist du vorbereitet.
Wie oft sollte ich meine robots.txt für KI-Crawler aktualisieren?
Mindestens einmal pro Quartal. Neue KI-Bots tauchen regelmäßig auf, und bestehende Bots werden umbenannt. Das GitHub-Projekt ai-robots-txt pflegt eine aktuelle Liste, an der du dich orientieren kannst.
Hält sich ChatGPT an robots.txt?
OpenAIs Crawler halten sich nach eigener Aussage an robots.txt. GPTBot (Training) und ChatGPT-User (Live-Browsing) sind separate User-Agents, die du unabhängig steuern kannst. Allerdings gibt es keine technische Garantie dafür. Wer auf Nummer sicher gehen will, nutzt zusätzlich Server-Level-Blocking.
Wie finde ich heraus, welche KI-Crawler meine Website besuchen?
Prüfe deine Server-Logs. In den Access-Logs findest du die User-Agent-Strings aller Besucher. Suche nach Begriffen wie „GPTBot“, „ClaudeBot“, „PerplexityBot“ oder „Bytespider“. Tools wie Cloudflare zeigen dir den Bot-Traffic auch übersichtlich in einem Dashboard.