Tokens sind die Bausteine, in denen ein LLM Text liest und schreibt. Statt mit Buchstaben oder ganzen Wörtern zu arbeiten, zerteilt das Modell Texte in kleine Stücke. Ein Token ist oft ein kurzer Wortteil, aber auch Satzzeichen, Leerzeichen oder Sonderzeichen können einzelne Tokens sein. Wer mit KI-Tools arbeitet, sollte ein Gefühl für Tokens haben, weil davon Kosten, Geschwindigkeit und das Context Window abhängen.
Wie funktionieren Tokens?
Ein sogenannter Tokenizer zerlegt deinen Text vor der Verarbeitung. Bei englischen Texten gilt grob die Faustregel: 1 Token entspricht ungefähr 4 Zeichen oder 0,75 Wörtern. Bei deutschen Texten sind es etwas mehr Tokens pro Wort, weil zusammengesetzte Begriffe und Umlaute oft in mehrere Stücke zerlegt werden.
Beispiel für GPT-Tokenizer: Das Wort Donaudampfschifffahrtsgesellschaft wird in mehrere Tokens zerlegt, während cat ein einziges Token sein kann. Die Zahlen in der Abrechnung beziehen sich immer auf Tokens, nicht auf Wörter oder Zeichen.
Modelle haben unterschiedliche Tokenizer. Anthropics Claude-Tokens, OpenAIs GPT-Tokens und Googles Gemini-Tokens sind nicht direkt austauschbar, auch wenn die Grössenordnungen ähnlich sind.
Wofür sind Tokens wichtig?
- Kosten: API-Anbieter rechnen pro Token ab, getrennt für Input und Output
- Context Window: Die maximale Anzahl Tokens, die ein Modell auf einmal verarbeitet
- Geschwindigkeit: Mehr Tokens bedeuten längere Verarbeitungszeit
- Promptdesign: Wer effizient prompted, spart Tokens und damit Geld
- Limits in Apps: Wenn ein Nutzer viele Daten hochlädt, müssen Tokens überprüft werden
Tokens und VibeCoding
Im VibeCoding-Workflow ist Token-Bewusstsein wichtig. Claude Code liest oft mehrere Dateien deines Projekts in das Context Window, das verbraucht Tokens. Wer ein Projekt mit hunderten Dateien hat, kann schnell teure Sessions erleben, wenn der Agent zu viel auf einmal liest. Gute Strategien sind: kleinere Aufgaben, gezielte Datei-Auswahl, klare Anweisungen.
Wer eigene Apps mit der OpenAI- oder Anthropic-API baut, sollte Token-Verbrauch monitoren. Manche Anbieter bieten Caching an (zum Beispiel Anthropic Prompt Caching), bei dem wiederkehrende Teile des Prompts deutlich günstiger werden.
Beispiel
Ein typischer Claude-Code-Prompt mit Projekt-Setup, einer Aufgabe und einer mittelgrossen Datei kann grob 5.000 bis 20.000 Input-Tokens umfassen. Das Modell antwortet mit etwa 1.000 bis 3.000 Output-Tokens. Bei aktuellen Preisen (Mai 2026) bewegt sich eine solche Anfrage im Cent-Bereich für mittlere Modelle und im niedrigen Euro-Bereich für Top-Modelle wie Claude Opus 4.7 mit langem Output.
Tipps
- Halte Prompts so kurz wie möglich, aber so lang wie nötig
- Nutze System-Prompts wiederverwendbar (Prompt Caching senkt Kosten)
- Bei langen Dokumenten: Inhalte chunken und mit RAG arbeiten, statt alles in den Context zu kippen
- Tokenizer-Tools (zum Beispiel das offizielle OpenAI-Tokenizer-Web-Tool) helfen, Token-Zahlen für eigene Texte zu schätzen
- Beim Ausspielen an Nutzer: Setze ein max_tokens-Limit, damit niemand versehentlich extrem lange Antworten erzeugt