Generative Engine Optimization (GEO) umfasst Strategien, die die Sichtbarkeit von Inhalten in den Antworten generativer KI-Systeme wie ChatGPT, Perplexity oder Google AI Overviews erhöhen. GEO gilt als Fortsetzung der klassischen Suchmaschinenoptimierung (SEO): Es baut auf denselben technischen und inhaltlichen Grundlagen auf, optimiert aber nicht auf Ranking-Plätze, sondern darauf, dass KI-Systeme einzelne Aussagen als Quelle erwähnen, zitieren oder paraphrasieren.
Pranjal Aggarwal und Kollegen führten den Begriff im November 2023 an der Princeton University akademisch ein. Die zugehörige Studie erschien 2024 auf der ACM KDD und legte erstmals ein Messframework sowie kontrollierte Wirkungstests für Inhaltsstrategien fest
Klassische Suchmaschinenoptimierung zielt auf Klicks aus einer Trefferliste, GEO dagegen auf Erwähnungen in einer Antwort, die das System selbst formuliert.
Welche Inhalte generative Engines auswählen
Eine generative Engine besteht aus zwei Komponenten: einer Retrieval-Komponente (siehe auch Retrieval-Augmented Generation), die passende Dokumente zu einer Nutzerfrage aus dem Web oder einem Index zieht, sowie einem oder mehreren Sprachmodellen, die aus diesen Dokumenten eine Antwort bauen.
Die Antwort ist nicht also aus einer einzigen Quelle kopiert, sondern aus Bruchstücken mehrerer Quellen zusammengesetzt. In diesem Synthese-Schritt entscheidet sich, welche Inhalte zitiert werden. GEO setzt an diesem Schritt an, nicht am Ranking einer Ergebnisliste.
Passagen statt Seiten
Generative Engines ziehen meist kleine Text-Chunks heran, keine ganzen Seiten. Eine Optimierung auf Seitenebene, wie sie in klassischer SEO üblich ist, greift deshalb zu hoch. Praktisch heißt das: Jeder Abschnitt sollte für sich verständlich sein. Er sollte eine spezifische Frage direkt beantworten, eine Definition in sich geschlossen liefern oder einen Vergleich ohne Verweis auf vorherige Absätze tragen. Eine prägnante, faktenbasierte Passage hat höhere Chancen, in eine KI-Antwort zu wandern, als ein langer Erklärabsatz, der nur im Gesamtkontext der Seite Sinn ergibt.
Erlaubter Crawler-Zugriff als Vorbedingung
Alle weiteren Maßnahmen sind wirkungslos, wenn die KI-Crawler nicht auf die Inhalte zugreifen können. Konkret betrifft das Agenten wie ChatGPT-User, OAI-SearchBot, ClaudeBot, PerplexityBot und Google-Extended. Eine restriktive robots.txt, die diese Bots blockiert, schließt die Inhalte aus der Antwortgenerierung aus. Die Zugriffsrechte zu prüfen ist deshalb der erste praktische Schritt, bevor inhaltlich optimiert wird.
Was ChatGPT, Perplexity und Google AI Overviews unterschiedlich machen
Generative Engines bilden keine homogene Klasse. Die drei dominanten Systeme folgen unterschiedlichen Quellenlogiken, und diese Unterschiede entscheiden, welche GEO-Maßnahme wo wirkt.
ChatGPT stützt sich im Standardmodus primär auf seine Trainingsdaten mit Cutoff-Datum. Die Websuche wird nur auf expliziten Wunsch oder bei erkanntem Aktualitätsbedarf aktiviert. Für die Sichtbarkeit zählt im Default-Modus deshalb vor allem, ob eine Marke oder Quelle es überhaupt in die Trainingsdaten geschafft hat. Nachträgliche, kurzfristige inhaltliche Eingriffe wirken hier nur bei aktivierter Websuche.
Perplexity löst bei jeder Anfrage eine Echtzeit-Websuche aus, antwortet nicht „aus dem Gedächtnis“ und macht Zitationen verpflichtend. Für die Sichtbarkeit in Perplexity wiegt eine aktive, indexierbare und faktendichte Webpräsenz deshalb schwerer als Trainingsdaten-Autorität.
Google AI Overviews ziehen Quellen mit hoher Überschneidung zum klassischen Index. Eine gute Sichtbarkeit in der organischen Suche (klassisches SEO) ist also Grundvoraussetzung, um in den AI Overviews genannt zu werden.
Diese Verhältnisse verschieben sich allerdings quartalsweise mit Modell-Updates. Mit der Umstellung der AI Overviews auf Gemini 3 als Default im Januar 2026 sank der Anteil der zitierten URLs aus den klassischen Top 10 laut Ahrefs von zuvor rund 76 % auf etwa 38 %; der Query-Fan-out-Mechanismus zieht seitdem Quellen aus breiteren Themenfeldern. Die Richtung der Befunde (Eine hohe SEO-Sichtbarkeit erhöht die Zitationschance) ist stabiler als die genauen Magnituden, die mit jedem Update neu zu erheben sind.
Googles offizielle GEO-Empfehlungen
Im Mai 2026 veröffentlichte Google erstmals einen offiziellen Leitfaden zur Optimierung für die KI-Suche. Die zentrale Aussage: Klassische SEO bleibt relevant, weil die KI-Features der Google-Suche auf denselben Core-Ranking- und Qualitätssystemen aufsetzen, namentlich RAG (von Google auch „Grounding“ genannt) und Query Fan-out. Wer für die organische Google-Suche optimiert, arbeitet damit zugleich an der Basis für die KI-Sichtbarkeit.
Als wichtigste inhaltliche Hebel nennt Google hochwertige, nicht beliebig austauschbare Inhalte mit eigener Perspektive (etwa echte Erfahrungsberichte statt zusammengefasster Allgemeinplätze), eine leserfreundliche Struktur, eingebundene Multimedia-Inhalte und den Verzicht auf Überoptimierung. Technisch vorausgesetzt werden Crawlbarkeit und Indexierbarkeit, semantisches HTML und eine solide Page Experience. Für E-Commerce und lokale Anbieter verweist Google zusätzlich auf Merchant-Center-Feeds und Google Business Profiles.
Bemerkenswert ist, dass Google im selben Leitfaden mehrere kursierende „GEO-Hacks“ ausdrücklich als wirkungslos bezeichnet: spezielle Dateien wie llms.txt, das künstliche Aufteilen von Inhalten in Chunks, KI-spezifisches Umschreiben mit Synonym-Überladung, das gezielte Platzieren von Foren- oder Blogkommentaren zur Vortäuschung von Relevanz sowie die Überbewertung strukturierter Daten (ein eigenes Schema.org-Markup für die generative KI gibt es laut Google nicht). Einen Ausblick gibt Google auf autonome KI-Agenten und empfiehlt Websitebetreibern, sich perspektivisch mit Agentic Experiences, einer sauberen DOM- und Accessibility-Struktur und Protokollen wie dem Universal Commerce Protocol (UCP) zu befassen.
Entscheidend für die Einordnung ist ein Vorbehalt, den Google selbst nicht ausräumt: Diese Empfehlungen gelten für die Google-Suche, nicht zwangsläufig für andere Plattformen wie ChatGPT, Perplexity oder Claude. Das Beispiel JavaScript zeigt den Unterschied — Google rendert JS-Inhalte problemlos, während sie bei mehreren Wettbewerbern unsichtbar bleiben können. Googles Aussagen etwa zu Chunking oder KI-spezifischem Umschreiben beschreiben das Verhalten der Google-Systeme; ob sie auf andere Engines übertragbar sind, ist damit nicht gesagt. Für eine plattformübergreifende GEO-Strategie bleiben die jeweils eigenen Anforderungen der anderen Systeme relevant.
Was nachweislich Sichtbarkeit erzeugt — und was nicht
Die empirische Grundlage des Begriffs ist die Studie von Aggarwal et al. (KDD 2024). Das Team testete neun Optimierungstaktiken auf einem eigens entwickelten Benchmark (GEO-bench) und maß die Sichtbarkeit der Quellen in generierten Antworten mit zwei Metriken: Position-Adjusted Word Count (PAWC) und Subjective Impression.
Die Tests liefen 2023 gegen ein Setup mit GPT-3.5-turbo, den jeweiligen Top-5-Quellen aus Google und einer Sampling-Temperatur von 0,7. Eine isolierte, öffentlich dokumentierte Replikation auf heutige kommerzielle Engines wie ChatGPT, Perplexity, Claude, Gemini oder Copilot gibt es nicht. Die Effektgrößen sind also als belegtes Muster zu lesen, nicht als garantierte Wirkung auf aktuellen Systemen.
Wirksame Methoden und Effektgrößen
Den stärksten Einzeleffekt erzielte Quotation Addition, also relevante Zitate aus glaubwürdigen Quellen einzufügen. Es folgten Statistics Addition (relevante Zahlen und Statistiken ergänzen) mit etwa 33 %, Fluency Optimization (sprachlich glätten und klarer formulieren) mit rund 29 % und Cite Sources (Quellenangaben im Text) mit etwa 28 %.
Die sogenannte Authoritative Voice (ein selbstbewusster, evidenzgestützter Ton) liegt mit rund 12 % PAWC-Gewinn (Rang 7 von 9) darunter und gehört nicht zu den wirksamen Hebeln.
Praktisch wichtiger als jeder Einzelwert ist jedoch wie auch bei den Rankingfaktoren in SEO der Kombinationseffekt: Die Paarung aus Fluency Optimization und Statistics Addition übertraf jede Einzelstrategie um mehr als 5,5 %. Cite Sources allein liefert eher mäßige Werte, in Kombination mit anderen Taktiken steigt der Durchschnittseffekt jedoch auf 31,4 %. Die Konsequenz für die Praxis: Methoden werden nicht isoliert eingesetzt, sondern gepaart. Vor allem die Verbindung aus belastbaren Zahlen, sprachlicher Klarheit und Quellenverankerung bringt Effekte.
Was im Test nicht funktioniert hat
Vier Taktiken zeigten keine Wirkung oder verschlechterten die Sichtbarkeit:
- Keyword Stuffing, das aus klassischer SEO übertragene Auffüllen mit Suchbegriffen
- Easy-to-Understand-Vereinfachung, also das pauschale Glätten von Inhalten auf ein niedriges Sprachniveau
- Content Padding, das Strecken von Texten ohne Informationszuwachs
- rein persuasive Sprache ohne sachliche Substanz
Der Befund hat eine klare Konsequenz: Reflexe aus der klassischen Suchmaschinenoptimierung lassen sich nicht eins zu eins übertragen. Generative Engines belohnen verdichtete, belegte und sprachlich präzise Passagen, nicht Keyword-Dichte oder Werbesprache.
Wann GEO sich lohnt
Die Wirkung von GEO ist nicht gleichmäßig verteilt, sondern hängt von Ausgangsposition, Domäne und Inhaltstyp ab. GEO lohnt am ehesten in drei Konstellationen.
- In Branchen mit erklärungsbedürftigen Produkten und langen Buying-Journeys, in denen Entscheider früh recherchieren. Laut Forrester Buyers‘ Journey Survey nutzt ein Großteil der B2B-Entscheider generative KI als Informationsquelle entlang der Buyer Journey.
- Außerdem dort, wo die organische Sichtbarkeit auf Position 5 oder schlechter liegt: Im Aggarwal-Test profitierten niedriger gerankte Seiten überproportional. Für eine Seite auf SERP-Position 5 erzeugte Cite Sources einen Sichtbarkeitszuwachs von rund 115 %, während die Sichtbarkeit der bestplatzierten Website im Schnitt sogar leicht sank.
- Sowie bei Suchanfragen mit hohem AI-Overview-Anteil, also Vergleichs-, Definitions- und High-Intent-Queries.
Geldverbrennung ist GEO in drei anderen Konstellationen.
- Wenn die SEO-Hausaufgaben offen sind: Eine nicht indexierbare oder thematisch dünne Seite wird auch von keiner Engine zitiert.
- Wenn die Versprechung lautet, in ChatGPT zu „ranken“. Ohne aktivierte Websuche entscheidet hier der Trainingsdatencutoff, und kurzfristige Eingriffe wirken nicht.
- Wenn der Aufwand in technische Symbolmaßnahmen wie isolierte llms.txt-Dateien fließt, ohne dass sich an den Inhalten selbst etwas ändert.
Auch der Inhaltstyp entscheidet, welche Taktik trägt. Eine juristische oder finanzwirtschaftliche Analyse profitiert am stärksten von eingebetteten Statistiken und Daten.
Ein historisches, kulturelles oder erklärendes Stück gewinnt eher durch direkte Experten-Zitate. Meinungs- und Standpunktinhalte profitieren von einem selbstbewussten, evidenzgestützten Ton, sofern er belegt bleibt.
Content für direkte Transaktionen (bspw. eCommerce) spielen noch keine große Rolle für GEO
Wer GEO-Maßnahmen plant, wählt die Methoden also nicht nach der Effektgröße im Mittel, sondern nach Inhaltstyp und Ausgangsposition. Und vor allem auch danach, wo die eigene Zielgruppe sucht.
Eine sinnvolle Reihenfolge ergibt sich daraus von selbst: zuerst die technische und inhaltliche SEO-Basis sichern, dann bestehende Top-Inhalte nach den belegten Hebeln umbauen (Quotation, Statistics, Fluency), dann die Messung aufsetzen.
GEO, AEO, LLMO — was bezeichnet eigentlich was
Im Markt kursieren mindestens vier Bezeichnungen für eng verwandte Praktiken. GEO stammt aus der Forschung (Aggarwal et al.) und umfasst die Optimierung für alle generativen Suchsysteme — also sowohl reine Chat-Oberflächen als auch AI-Suche-Hybride wie Google AI Overviews. AEO (Answer Engine Optimization) ist älter: Der Begriff wurde 2018 von Jason Barnard (Kalicube) über ein Trustpilot-Whitepaper geprägt und zielte ursprünglich auf direkte Antwort-Extraktion in Featured Snippets und Voice Search. Heute wird er oft auch auf KI-Antworten ausgedehnt. LLMO (Large Language Model Optimization) entstand in der Praxis und zielt spezifisch auf Sichtbarkeit in Large-Language-Model-Ausgaben. AIO und GAIO sind weitere Sammelbegriffe ohne standardisierte Definition.
Funktional überlappen die Begriffe stark. Die Trennung liegt vor allem im Ursprung (Akademie vs. Praxis) und in der Reichweite (alle generativen Engines vs. spezifisch LLM-Oberflächen vs. Antwortextraktion allgemein). In der praktischen Arbeit ist die Trennschärfe gering: Wer für Quotation Addition, Statistics Addition und Cite Sources optimiert, arbeitet im Kern an denselben Stellschrauben, unabhängig vom Etikett. Manche Autoren bezeichnen die Begriffe deshalb als „drei Namen für dieselbe Idee“.
Wie sich Sichtbarkeit in KI-Antworten messen lässt
Generative Engines sind nicht-deterministisch: Dieselbe Frage, fünfmal gestellt, ergibt fünf unterschiedliche Antworten. Ein festes Ranking wie „Position 1 in Google“ gibt es in ChatGPT oder Perplexity nicht.
Die Messlogik wechselt damit von Position zu Häufigkeit: Relevant ist, in welchem Anteil von Abfragen zu einem Themenfeld eine Quelle genannt wird, nicht ob sie bei einer einzelnen Abfrage erscheint.
Die Studie von Aggarwal et al. liefert dafür das begriffliche Gerüst mit drei Metriken: dem Impression Score (positionsgewichteter Anteil der eigenen Quelle in einer Antwort — eine frühe, prominente Zitation wiegt mehr als eine späte Randerwähnung), dem Citation Recall (Anteil der eligiblen Inhalte, die tatsächlich zitiert werden) und der Citation Precision (Anteil der korrekt attribuierten Zitate).
Praktisch heißt das: Eine Reihe relevanter Abfragen wird wiederholt gegen mehrere Engines gestellt und ausgewertet, wie häufig die eigene Marke oder Quelle erscheint, an welcher Position innerhalb der Antwort und in welchem Kontext. Ein einmaliges Treffer-Ergebnis ist kein belastbarer Indikator. Wer GEO-Erfolg an einem Stichproben-Screenshot misst, übersieht die probabilistische Natur des Systems — und überträgt unbewusst SEO-Denkmuster auf eine andere Mechanik.
Wo GEO an Grenzen stößt
Die erste Grenze ist die Volatilität: Eine Marke, die heute in einer Antwort prominent zitiert wird, kann morgen bei einer fast identischen Anfrage fehlen. Eine einmal erreichte Erwähnung ist keine stabile Position, sondern eine Momentaufnahme. Die zweite Grenze ist die Domänen-Heterogenität — Effektgrößen aus Studien wie Aggarwal et al. sind Mittelwerte über Themenfelder; im Einzelfall können die Wirkungen abweichen.
Die dritte Grenze ist wirtschaftlicher Natur: Selbst optimale GEO-Sichtbarkeit ersetzt nicht den verlorenen Klick. Die Ahrefs-Erststudie vom April 2025 maß einen CTR-Einbruch auf Position 1 um rund 34,5 %, sobald ein AI Overview eingeblendet wird; die Ahrefs-Folgestudie vom Dezember 2025 (erneut 300.000 Keywords) kam auf rund 58 %. Der Trend deutet auf eine sich verschärfende Klickerosion, nicht auf eine Stabilisierung. Auch der Zero-Click-Anteil hängt vom Intent ab: Bei informationalen Suchen enden rund 74 % der Anfragen ohne Klick auf eine externe Seite, bei transaktionalen Suchen rund 31 %. GEO erhöht die Wahrscheinlichkeit, als Quelle genannt zu werden — aber nicht zwangsläufig die Wahrscheinlichkeit, dass der Nutzer die Quelle besucht. Der Effekt fällt für informationale Themen härter aus als für transaktionale.
Schließlich gibt es eine ethische Spannung: Viele Nutzer nehmen KI-Systeme als neutrale Informationsvermittler wahr. Eine systematische Optimierung darauf, bevorzugt zitiert zu werden, steht in Konflikt mit dieser Erwartung — eine Debatte, die in der Marketing-Literatur bislang selten geführt wird, in der akademischen GEO-Diskussion aber explizit als offene Frage benannt ist.
FAQ
Braucht es eine llms.txt-Datei?
llms.txt ist eine Markdown-Datei im Root-Verzeichnis einer Website. Jeremy Howard (fast.ai) schlug sie im September 2024 vor, um LLMs eine kuratierte Inhaltsübersicht zu geben. Die Datei ist aktuell kein offizieller Standard, und die großen LLM-Anbieter haben ihre Implementierung nicht bestätigt. Google lehnt sie sogar offiziell ab. Kritische Stimmen weisen darauf hin, dass sie in den meisten Fällen ignoriert wird. Der Aufwand ist minimal, der belegte Effekt derzeit gering. Eine Pflichtmaßnahme ist sie nicht; GEO-Budget gehört nicht hierhin konzentriert.
Was kostet GEO-Optimierung?
Belastbare Marktdurchschnitte existieren nicht. Anbieter-Selbstauskünfte aus dem DACH-B2B-Bereich nennen fokussierte Projekte ab etwa 30.000 €/Jahr, integrierte Programme mit Content und PR zwischen 60.000 und 150.000 €. Das sind Selbstauskünfte, kein Marktbenchmark. Sinnvoller als ein Preisvergleich ist die Frage, ob die SEO-Basis steht. Ohne diese verpufft GEO-Budget; mit dieser sind die meisten Wirkungshebel redaktionelle Arbeit an bestehenden Inhalten.
Wie lange dauert es, bis GEO-Maßnahmen in KI-Antworten ankommen?
Das hängt an der Engine. Perplexity arbeitet nahezu in Echtzeit über aktive Websuche — neue oder geänderte Inhalte können innerhalb von Tagen in Antworten auftauchen, sobald sie indexierbar und auffindbar sind. Google AI Overviews korrelieren mit der organischen Top-20-Sichtbarkeit; der Zeitrahmen entspricht damit klassischen SEO-Wirkungszyklen. ChatGPT im Standardmodus ist durch Trainingsdatencutoffs gebremst — kurzfristige Eingriffe wirken hier nur über die aktivierte Websuche.
Welche KPIs für KI-Sichtbarkeit sind belastbar?
Belastbar im Konzept sind die drei Metriken aus der Aggarwal-Studie: Impression Score (positionsgewichtete Erwähnung), Citation Recall (Zitationsanteil) und Citation Precision (Attributionskorrektheit). Operativ übersetzt sich das in Citation- und Mention-Tracking je Engine, Share-of-Voice in Antwortsets gegenüber dem Wettbewerb und Referral-Traffic aus KI-Quellen in Analytics. Die Wahl konkreter Tools ist eine operative Frage und ändert sich schnell; die KPI-Logik dahinter bleibt stabil.