Grounding in der KI einfach erklärt: So wird KI verlässlicher

Zuletzt aktualisiert:

Grounding ist ein Verfahren, bei dem ein KI-System seine eigene Antwort an externe, überprüfbare Quellen koppelt. So lassen sich Halluzinationen reduzieren und die Aktualitätslücke trainierter Modelle schließen.

Zu Grounding gehören mehrere Verfahren: Retrieval-Augmented Generation (RAG), Knowledge-Graph-Anbindung, Live-Suche und Function Calling.

Der Begriff geht auf das Symbol Grounding Problem zurück. Stevan Harnad hat es 1990 in der Kognitionswissenschaft formuliert.

Welches Problem Grounding löst

Generative Sprachmodelle haben vier zusammenhängende Schwächen, die Grounding angeht:

  • Halluzinationen: Modelle erzeugen formal plausible, faktisch aber falsche oder erfundene Aussagen, wenn der Bezug zur externen Realität fehlt.
  • Aktualitätslücke: Ein trainiertes Modell kennt nur Inhalte bis zu seinem Trainingsstand. Sind die Trainingsdaten bspw. älter als 6 Monate, fehlt der Wissensstand dazwischen.
  • Nachvollziehbarkeit: Ohne externe Quelle bleibt offen, woher eine Aussage stammt. Mit einer angegebenen Quelle kann das System die genutzten Belege ausweisen und zitieren.
  • Domänen- und Mandantenpassung: Allgemein trainierte Modelle kennen weder unternehmensinterne Dokumente noch fachspezifische Wissensbestände. Über externe Quellen lassen sie sich daran anschließen.

Funktionsweise: Wie Grounding technisch abläuft

Ein Grounding-System arbeitet in drei Schritten (R-A-G):

  1. Retrieval: Sobald eine Nutzeranfrage eingeht, sucht das System relevante externe Inhalte — je nach Methode in einer Vektordatenbank, einem Knowledge Graph, einer Web-Suche oder über einen API-Aufruf.
  2. Anreicherung: Das System fügt die gefundenen Inhalte als Kontext in die Eingabe des Sprachmodells ein. Eine Anweisung weist das Modell an, die Antwort auf diesen Kontext zu stützen.
  3. Generierung: Das Modell erzeugt die Antwort auf Basis des angereicherten Kontexts und nennt optional die genutzten Quellen.

Methoden des Groundings

Dokumentenbasiertes Grounding (Retrieval-Augmented Generation, RAG)

Beim dokumentenbasierten Grounding stützen sich die Modellantworten vor allem auf textuelle Quellen. Eine Pipeline überführt die Dokumente in Embeddings und legt sie in einer Vektordatenbank ab. Zur Inferenzzeit (Zeit, die ein trainiertes KI-Modell benötigt, um nach einer Eingabe eine Ausgabe zu generieren), sucht das System per semantischer Ähnlichkeitssuche passende Passagen und gibt sie dem Modell als Kontext mit.

Lewis et al. haben RAG 2020 in der Arbeit „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks“ (NeurIPS 2020) eingeführt. Dies wurde gemeinsam erarbeitet bei Facebook AI Research, University College London und New York University. RAG ist heute die am weitesten verbreitete Grounding-Methode und wird u.a. von Google in den AI-Overviews eingesetzt.

Strukturiertes Grounding (Knowledge Graphs, relationale Datenbanken)

Beim strukturierten Grounding greift das System auf schemabasierte Wissensquellen zu und nicht auf unstrukturierte Texte. Aus Knowledge Graphs kommen Entitäten und ihre Beziehungen als Tripel, aus relationalen Datenbanken Tabellen mit definierten Feldern. Das Modell erhält die abgefragten Daten serialisiert als Kontext. Alternativ erzeugt es selbst Abfragen (SQL, SPARQL, Graph-Traversal), die ein nachgeschaltetes System ausführt. Sinnvoll ist diese Methode überall dort, wo Antworten von eindeutigen Tatsachen abhängen wie etwa Preise, Bestände oder Vertragsdaten.

Live-Grounding (Web-Suche, APIs)

Beim Live-Grounding ruft das System zur Inferenzzeit Inhalte aus Diensten ab, die fortlaufend aktualisiert werden. Typische Quellen sind Suchmaschinen, Nachrichten-APIs und spezialisierte Web-Dienste. Damit lässt sich vor allem die Aktualitätslücke schließen: Das System bindet Inhalte ein, die nach dem Trainingsstand entstanden sind. Ein Produktbeispiel ist „Grounding with Google Search“ in der Gemini-API (siehe Abschnitt „Begriffsverwendung in Produktwelten“).

Tool-Grounding (Function Calling)

Beim Tool-Grounding stützt sich die Antwort auf definierte Funktionsaufrufe an externe Systeme. Das Modell erkennt anhand der Anfrage, dass ein Tool benötigt wird, ruft es mit strukturierten Parametern auf und baut die Antwort in seine Ausgabe ein. Typische Tools sind CRM-Abfragen, Produktkatalog-Lookups, Berechnungs-APIs sowie Buchungs- und Bestandssysteme. Anders als beim dokumentenbasierten Grounding ruft das System hier keine Texte ab, sondern führt Operationen aus.

Multimodales Grounding

Beim multimodalen Grounding stützt sich die sprachliche Ausgabe auf nicht-textuelle Daten wie Bilder, Audio oder Sensorwerte. Das Modell arbeitet dabei mit gemeinsamen Repräsentationsräumen zwischen den Modalitäten — häufig über Cross-Attention zwischen Vision- und Text-Encodern oder über kontrastive Joint-Embedding-Verfahren. Es gibt eine Schnittmenge mit dem eigenständigen Forschungsfeld Visual und Multimodal Grounding. Der Abschnitt „Verwandte Bedeutungen und Begriffsherkunft“ grenzt es ab.

Abgrenzung zu verwandten Verfahren

Grounding und RAG

Oftmals werden Grounding und RAG gleichgesetzt. Technisch besteht aber eine Hierarchie.

Grounding ist das Designziel, Modellausgaben an externe Fakten zu binden. RAG ist eine konkrete Methode, dieses Ziel über Retrieval aus einer Vektordatenbank umzusetzen. Andere Methoden — Knowledge-Graph-Anbindung, Tool-Use, Live-Suche, strukturierte Datenbankabfragen — gehören ebenfalls zu Grounding, sind aber kein RAG.

Merksatz: Jedes RAG-System ist Grounding, nicht jedes Grounding-System ist RAG.

Grounding und Fine-Tuning

Beim Fine-Tuning trainieren Entwickler ein vortrainiertes Modell auf eine spezifische Domäne oder Aufgabe nach. Nach dem Training trägt das Modell dieses Wissen in sich. Beim Grounding greift der Mechanismus dagegen erst zur Inferenzzeit: Die Quelle bleibt extern, das Modell wird nicht verändert.

Entwickler wählen Fine-Tuning für Stil, Format und stabile Verhaltensmuster und Grounding für aktuelle, veränderliche oder mandantenspezifische Inhalte.

Beide Verfahren schließen sich gegenseitig nicht aus. In produktiven Systemen kombinieren Entwickler sie oft.

Grounding und Prompt Engineering

Beim Prompt Engineering steuert der Nutzer das Modell allein über die Formulierung der Eingabe, ohne externe Datenquelle. Werden im Prompt Fakten mitgegeben, hat der Nutzer sie selbst kuratiert. Das System ruft keine Quelle ab.

Grounding-Systeme ergänzen diesen Mechanismus um einen automatisierten Retrieval-Schritt. Sie bestimmen zur Laufzeit selbst, welche externen Inhalte in den Kontext fließen. In der Praxis kombinieren Entwickler Prompt Engineering und Grounding, methodisch sind die beiden Verfahren aber trennbar.

Grenzen des Groundings

Halluzinationen lassen sich mit Grounding reduzieren, nicht aber beseitigen.

Berichte zu Grounding-basierten Systemen nennen Restquoten von etwa drei bis zehn Prozent. Jeweils in Abhängigkeit von Modell, Aufgabe und Datenqualität.

Die Qualität der Ausgabe hängt direkt von Qualität und Aktualität der Grounding-Quellen ab. Veraltete oder fehlerhafte Quellen übernimmt das System ohne eigene Prüfung.

Grounding ist kein Wahrheitsbeweis, sondern eine Bindung an Quellen. Damit kann das System eine Aussage faktisch absichern, aber auch eine falsche Quelle verlässlich reproduzieren. Hinzu kommen Betriebskosten: Retrieval, Embedding-Berechnung und längere Kontexte treiben Latenz und Rechenaufwand gegenüber rein modellinterner Inferenz nach oben.

Verwandte Bedeutungen und Begriffsherkunft

Symbol Grounding Problem (Harnad 1990)

Den Begriff „Symbol Grounding“ prägte Stevan Harnad 1990 am Department of Psychology der Princeton University. Die zugehörige Arbeit „The Symbol Grounding Problem“ erschien in Physica D 42:335–346. Harnad fragte, wie ein formales Symbolsystem seine Bedeutung selbst tragen kann — statt von außen durch einen Interpreten gedeutet zu werden. Sein Lösungsvorschlag: Das System verankert symbolische Repräsentationen bottom-up in nicht-symbolischen ikonischen und kategorialen Repräsentationen, die aus sensorischer Wahrnehmung stammen. Das heutige LLM-Engineering übernimmt aus dieser Tradition das Motiv der externen Verankerung — nicht aber den ursprünglichen Problemzuschnitt. Es geht hier nicht um Symbolsemantik, sondern um die ingenieurspraktische Frage der Antwortzuverlässigkeit.

Visual und Multimodal Grounding

Beim Visual Grounding verknüpft das Modell sprachliche Ausdrücke mit visuellen Elementen — etwa indem es ein im Text beschriebenes Objekt in einem Bild lokalisiert, über Bounding Boxes oder Segmentmasken. Multimodale Modelle erweitern das Prinzip auf weitere Modalitäten wie Audio oder Sensordaten. Methodisch arbeiten diese Systeme mit Cross-Attention zwischen Vision- und Text-Encodern. Die Trainingsziele belohnen Übereinstimmung zwischen sprachlicher Beschreibung und visuellem Inhalt. Der Begriff ist mit dem LLM-Grounding namensgleich, bezeichnet aber ein eigenständiges Forschungsfeld mit eigener Methodik.

FAQ

Wie hängen Grounding und Quellenangabe (Citation, Provenance) zusammen?

Beim Grounding bindet das System die Modellantwort an externe Quellen — die Quellenangabe macht diese Quellen für den Nutzer sichtbar. Beide hängen eng zusammen, sind aber nicht identisch. Grounding kann auch ohne sichtbare Quellenangabe ablaufen. Eine Quellenangabe ohne tatsächliche Bindung des Modells an die Quelle wäre rein deklarativ. Produktive Systeme führen beide Funktionen meist zusammen — etwa über strukturierte Felder wie groundingMetadata bei Gemini.

Was ist eine Grounding Page?

Die Grounding Page kommt aus der KI-Sichtbarkeitsoptimierung (GEO): eine strukturierte Faktenseite, die Publisher so bauen, dass KI-Systeme sie als Grounding-Quelle aufgreifen können. Sie ist nicht zu verwechseln mit dem in diesem Beitrag behandelten LLM-internen Grounding-Verfahren — sie betrifft die Angebotsseite (Inhalte für Grounding), nicht das Verfahren selbst.