Context Window
–-> zum BOTwiki
Das Context Window bezeichnet die maximale Anzahl an Tokens, die ein Large Language Model in einem einzigen Inferenzschritt gleichzeitig verarbeiten kann. Es umfasst sowohl die Eingabe als auch die Ausgabe und ist damit eine harte Grenze für System-Prompt, Konversationshistorie, Wissensquellen und Antwort. Moderne Modelle bieten Context Windows von einigen tausend bis hin zu mehreren Millionen Tokens. Für eine produktive AI-Agent-Plattform ist die Frage allerdings nicht, wie groß das Context Window theoretisch ist, sondern wie es im jeweiligen Use Case bewusst genutzt wird.
Warum Context Windows wichtig sind
Jede Konversation, die länger als ein paar Turns dauert, oder jede Anwendung mit Knowledge AI stößt früher oder später an die Grenze des Context Windows. Wird sie überschritten, müssen Inhalte zusammengefasst, ausgeschnitten oder durch andere Strategien reduziert werden. Ohne ein bewusstes Management entstehen entweder Lücken in der Konversation oder unkontrollierte Verlängerungen.
Strategien für den Umgang mit dem Context Window
- Konversations-Summarisation: Ältere Turns werden in kompakte Zusammenfassungen überführt.
- Knowledge-Retrieval: Statt alle Quellen mitzuführen, werden pro Schritt nur die wirklich relevanten Chunks geladen.
- Modularer System-Prompt: Use-Case-spezifische Regeln werden nur dann geladen, wenn sie greifen.
- Token Budgeting: Aktive Planung der Verteilung zwischen Eingabe und Ausgabe.
Größer ist nicht automatisch besser
Auch wenn Modelle mit großen Context Windows nahezu beliebige Datenmengen aufnehmen können, bedeutet das nicht automatisch bessere Antworten. Im Gegenteil: Je mehr unstrukturierter Kontext mitgeschleppt wird, desto höher ist das Risiko von Context Contamination und Halluzinationen. Erfolgreiche Implementierungen kombinieren ein realistisches Context Window mit sauberer Retrieval-Pipeline und disziplinierter Token-Verwaltung.
Context Window und Multi-Agent-Orchestrierung
In einer Multi-Agent-Orchestrierung wird das Context Window pro Agent gezielt strukturiert. Ein Triage-Agent benötigt nur die nötige Klassifikations-Information und ein spezialisierter Prozess-Agent erhält strukturierte Parameter. So bleibt jedes Context Window klein, fokussiert und auditfest – ein Vorteil gegenüber monolithischen Setups, die ihr gesamtes Wissen in einen einzelnen Prompt zwingen. Mehr zum grundlegenden Token-Konzept finden Sie im Artikel zu Tokens.
Häufig gestellte Fragen (FAQ)
Das hängt vom Use Case ab. Für typische Service-Konversationen reichen überschaubare Context Windows, sofern sie durch Retrieval und Summarisation klug gefüllt werden.
Nein, sofern früher Sequenz-Summarisation und sauberes Token-Management greifen. Lange Konversationen sind handhabbar, brauchen aber Architektur, nicht nur ein großes Context Window.
Je mehr Tokens ein Modell verarbeitet, desto länger dauert die Inferenz. Ein kleineres, fokussiertes Context Window bedeutet schnellere Antworten – ein weiterer Grund, größer nicht mit besser zu verwechseln.
–> Zurück zum BOTwiki

AI Agent ROI Rechner
Kostenloses Training: Chatbot Crashkurs
Whitepaper: Die Akzeptanz von Chatbots