Das Context Window beschreibt, wie viele Tokens ein LLM gleichzeitig im Blick hat. Dazu zählt alles: dein Prompt, die bisherige Unterhaltung, eingefügte Dokumente und die generierte Antwort. Was nicht mehr ins Context Window passt, kennt das Modell schlicht nicht. Verständnis fürs Context Window ist zentral, wenn du längere Dokumente, ganze Codebases oder lange Chats mit KI bearbeiten willst.
Wie funktioniert das Context Window?
Stell dir das Context Window wie einen RAM-Speicher des Modells vor. Bevor das Modell antwortet, lädt es deinen gesamten Eingabetext in dieses Fenster. Während es schreibt, wachsen die Tokens am unteren Ende dazu. Sobald die maximale Länge erreicht ist, ist Schluss, ältere Inhalte werden nicht automatisch ergänzt.
Die Grösse hängt vom Modell ab. Stand Mai 2026 sehen typische Limits so aus:
- Kleine Modelle: 8.000 bis 32.000 Tokens
- Mittlere Modelle: 128.000 Tokens
- Top-Modelle: 200.000 bis 1.000.000 Tokens (zum Beispiel Claude Opus 4.7 mit 1M-Context, Gemini-Modelle)
Ein Context Window von 1 Million Tokens entspricht ungefähr 700.000 deutschen Wörtern, also einem dicken Buch.
Warum ist das Context Window wichtig?
- Lange Dokumente: PDFs, Verträge, Bücher direkt analysieren
- Codebases: Mehrere Dateien zusammen lesen und ändern
- Lange Gespräche: Der Bot vergisst weniger, je grösser das Fenster
- RAG-Alternative: Bei sehr grossem Context Window manchmal kein extra Vector-Search nötig
- Sicherheits-Reviews: Komplette Logs oder Configs auf einmal prüfen
Context Window und VibeCoding
Mit grossem Context Window kann Claude Code dein gesamtes Projekt im Blick haben. Das vermeidet Probleme wie inkonsistente Refactorings oder vergessene Dateien. Trotzdem solltest du nicht "alles reinkippen", weil das Tokens kostet und das Modell mit zu viel Rauschen schlechter wird (sogenanntes "lost in the middle"-Phänomen).
Praxistipp: Auch bei riesigen Context Windows hilft eine gezielte Auswahl. Sage dem Agenten, welche Dateien er zuerst lesen soll. So bleibt der Prompt fokussiert und die Antwort präziser.
Beispiel
Du hast ein Projekt mit 100 Dateien und willst eine globale Refactoring-Aktion machen. Mit einem Modell mit 200K-Context kannst du Claude Code typische Stichproben (zum Beispiel 30 wichtigste Dateien) komplett geben. Es erkennt Muster über alle Dateien hinweg und schlägt eine konsistente Änderung vor. Bei einem Modell mit nur 32K-Context müsstest du das Projekt in mehrere Sessions aufteilen, was häufiger zu Inkonsistenzen führt.
Bei sehr langen Chats (mehrstündige Sessions) hilft ein grosses Context Window ausserdem, dass Claude den Anfang nicht vergisst. Strategien wie Compaction (wichtige Punkte zusammenfassen und alten Chat verwerfen) helfen zusätzlich.
Hinweise
Grosse Context Windows kosten mehr Tokens, also auch mehr Geld. Das Pricing hängt linear (oder leicht überproportional) an Token-Anzahl. Wer dauerhaft riesige Prompts schickt, sollte Prompt-Caching nutzen oder über RAG und Embeddings nachdenken.
Auch sind grosse Context Windows kein Ersatz für strukturiertes Wissen. Eine Vector Database mit gezielter Suche ist oft effizienter als das ganze Wissens-Archiv in jeden Prompt zu packen.