Token
Ein Token ist die kleinste Verarbeitungseinheit, in die ein KI-Sprachmodell Text zerlegt. Ein Token kann ein ganzes Wort, ein Wortteil, ein einzelnes Zeichen oder ein Satzzeichen sein. Die Anzahl der Tokens bestimmt sowohl die technischen Grenzen als auch die Kosten der Nutzung von KI-Modellen.
Ausführliche Erklärung
Große Sprachmodelle wie GPT, Claude oder Gemini können nicht direkt mit Wörtern oder Sätzen arbeiten. Sie verarbeiten Text ausschließlich in numerischer Form. Der erste Schritt bei jeder Interaktion mit einem KI-System ist deshalb die Tokenisierung: Der eingegebene Text wird in kleine Einheiten – die Tokens – zerlegt, die dann vom Modell analysiert und verarbeitet werden können. Ein deutschsprachiger Satz wie "KI-Beratung für Unternehmen" könnte beispielsweise in etwa 6 bis 8 Tokens aufgeteilt werden, je nach verwendetem Modell und Tokenisierungsverfahren.
Moderne Sprachmodelle nutzen überwiegend sogenannte Subwort-Tokenisierung. Dabei werden häufig vorkommende Wörter als einzelne Tokens behandelt, während seltenere oder längere Wörter in kleinere, bedeutungstragende Teile zerlegt werden. Diese Methode ermöglicht es den Modellen, auch mit unbekannten Wörtern oder Fachbegriffen umzugehen, indem sie Wortbestandteile erkennen und kombinieren. Jedes Modell besitzt ein vortrainiertes Vokabular von Tokens – typischerweise zwischen 50.000 und 200.000 unterschiedliche Einheiten.
Für Unternehmen sind Tokens aus zwei Gründen relevant: Erstens legen sie die technischen Grenzen fest. Jedes Sprachmodell hat ein sogenanntes Kontextfenster, das angibt, wie viele Tokens es gleichzeitig verarbeiten kann. GPT-4 verarbeitet beispielsweise bis zu 128.000 Tokens, neuere Modelle sogar bis zu einer Million. Längere Dokumente oder umfangreiche Konversationen können dieses Limit überschreiten. Zweitens bilden Tokens die Grundlage für die Kostenberechnung bei Cloud-basierten KI-Diensten. Anbieter wie OpenAI, Anthropic oder Google rechnen ihre APIs nach der Anzahl verarbeiteter Tokens ab – getrennt für Eingabe- und Ausgabe-Tokens. Ein deutschsprachiger Text benötigt dabei etwa 20 bis 30 Prozent mehr Tokens als ein vergleichbarer englischer Text, was die Nutzung entsprechend verteuert.
Bei der Kalkulation von KI-Projekten sollten Unternehmen daher nicht nur die Anzahl der Anfragen, sondern auch die durchschnittliche Token-Menge pro Vorgang berücksichtigen. Viele Anbieter stellen Token-Rechner zur Verfügung, mit denen Texte vorab analysiert werden können. Zudem gibt es Optimierungstechniken wie Prompt Caching, bei dem wiederholt verwendete Kontextinformationen zwischengespeichert werden und so bis zu 90 Prozent der Kosten einsparen können.
Praxisbeispiel
Eine österreichische Steuerberatungskanzlei mit 12 Mitarbeitenden nutzt ein KI-System zur Erstellung von Mandantenberichten. Ein typischer Bericht umfasst 2.000 Wörter und erzeugt etwa 2.700 Input-Tokens plus 800 Output-Tokens. Bei 200 Berichten pro Monat entstehen so rund 700.000 Tokens. Mit Claude Sonnet (Stand 2026) würde dies etwa 10 Euro monatliche API-Kosten verursachen – deutlich günstiger als die eingesparte Arbeitszeit.
Code-Beispiel
import anthropic
# Token-Verbrauch bei API-Nutzung
client = anthropic.Anthropic(api_key="IHR_API_KEY")
message = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[
{"role": "user", "content": "Erkläre DSGVO kurz"}
]
)
# Token-Statistik ausgeben
print(f"Input-Tokens: {message.usage.input_tokens}")
print(f"Output-Tokens: {message.usage.output_tokens}")
# Beispielausgabe: Input-Tokens: 18, Output-Tokens: 156