Ein Token ist die kleinste Einheit, mit der ein Large Language Model (LLM) Text verarbeitet. Dabei handelt es sich nicht um ganze Wörter, sondern meist um Wortteile, Zeichenfolgen oder einzelne Satzzeichen. Tokens sind die Grundbausteine, mit denen Modelle Sprache lesen, erzeugen und abrechnen.
Funktionsweise
Bevor ein LLM Text verarbeiten kann, wird der Eingabetext durch einen Tokenizer in Tokens zerlegt. Jedes Token bekommt eine numerische ID aus dem Vokabular des Modells. Das Modell arbeitet also nicht mit Buchstaben oder Wörtern, sondern mit diesen Zahlen.
Übliche Tokenizer-Verfahren sind Byte-Pair Encoding (BPE), WordPiece und SentencePiece. Sie balancieren zwischen zwei Extremen: einzelne Zeichen (zu kleinteilig) und ganze Wörter (zu großes Vokabular). Häufige Wörter wie „und“ bilden meist ein einzelnes Token. Seltene oder zusammengesetzte Wörter werden in mehrere Teile zerlegt.
Wie viele Tokens ein konkreter Text ergibt, lässt sich direkt nachzählen — etwa mit dem OpenAI Tokenizer oder der Bibliothek tiktoken für GPT-Modelle.
Beispiele
- Das englische Wort „tokenization“ wird in
token+izationzerlegt — zwei Tokens. - Das deutsche Wort „Donaudampfschifffahrtskapitän“ zerfällt in rund ein Dutzend Tokens. Die Schnitte folgen aber nicht den Wortbestandteilen (Donau, Dampf, Schiff …), sondern statistischen Fragmenten:
D | ona | ud | amp | fs | ch | if | ff | ahr | ts | kap | it | än. - Satzzeichen, Leerzeichen und Emojis zählen ebenfalls als eigene Tokens.
Als grobe Schätzung gilt: 1.000 Tokens entsprechen im Englischen etwa 750 Wörtern. Im Deutschen sind es wegen längerer Wortzusammensetzungen oft weniger, meist im Bereich von 500 bis 600 Wörtern. Die genauen Werte hängen vom Text und vom Tokenizer ab.
Bedeutung für die Praxis
Tokens sind aus drei Gründen wichtig:
- Kontextfenster: Jedes Modell hat eine maximale Anzahl an Tokens, die es gleichzeitig verarbeiten kann (z. B. 8.000, 128.000 oder 1 Million). Diese Grenze umfasst Eingabe und Ausgabe zusammen.
- Kosten: API-Anbieter wie OpenAI, Anthropic oder Google rechnen pro Token ab — getrennt für Input- und Output-Tokens.
- Performance: Mehr Tokens bedeuten höhere Rechenkosten und längere Antwortzeiten.
Abgrenzung
Ein Token ist nicht dasselbe wie ein Wort oder eine Silbe. Die Zerlegung folgt statistischen Mustern aus den Trainingsdaten, nicht linguistischen Regeln.
Verschiedene Modelle verwenden unterschiedliche Tokenizer. Derselbe Text ergibt deshalb je nach Modell eine andere Token-Anzahl. Der Satz „Künstliche Intelligenz verändert die Arbeitswelt.“ ergibt zum Beispiel:
- GPT-4 / GPT-3.5 (Tokenizer
cl100k_base): 15 Tokens - GPT-4o (Tokenizer
o200k_base): 11 Tokens
Derselbe Satz, dasselbe Anbieter-Ökosystem. Dennoch ein Unterschied von einem Drittel, weil der neuere Tokenizer ein größeres Vokabular nutzt und deutsche Wortteile gröber zusammenfasst.
Für Kosten- und Kontextfenster-Rechnungen ist daher immer der Tokenizer des konkreten Modells maßgeblich, nicht eine pauschale Faustregel.