Chunking für RAG

-> zum BOTwiki

Chunking beschreibt das Zerlegen langer Dokumente in kleinere, in sich abgeschlossene Abschnitte, bevor sie als Embeddings in eine Vektordatenbank überführt werden. Für Retrieval-Augmented Generation (RAG) ist Chunking die Vorstufe, die über Antwortqualität und Trefferquote entscheidet. Schlechtes Chunking führt zu Halluzinationen oder lückenhaften Antworten, gutes Chunking bildet das Fundament einer belastbaren Wissensbasis für Phonebots und Chatbots – unabhängig davon, ob die Inhalte aus FAQs, Handbüchern oder Vertragsdokumenten stammen.

 

Warum Chunking entscheidet

Ein LLM beantwortet eine Frage immer auf Basis des Kontexts, der ihm im Prompt zur Verfügung steht. Bei RAG wird dieser Kontext aus passenden Dokumentabschnitten dynamisch aufgebaut. Sind die Abschnitte zu lang, verbrauchen sie unnötig Context Window und enthalten irrelevante Informationen. Sind sie zu kurz, fehlt der semantische Zusammenhang. Ein gutes Chunking findet den Mittelweg und ist sowohl fachlich abgeschlossen also auch technisch effizient.

 

Gängige Chunking-Strategien

  • Fixed-Size Chunking: Texte werden in feste Token-Größen geteilt, oft mit Überlapp. Einfach umzusetzen, aber semantisch unsensibel.
  • Semantic Chunking: Schnittstellen an semantischen Grenzen, etwa Absätzen, Kapitelüberschriften oder Themenwechseln.
  • Hierarchical Chunking: Dokumente werden in mehrere Ebenen zerlegt – grobe Section-Chunks plus feinere Sub-Chunks – und kontextuell verknüpft.
  • Format-Aware Chunking: Für Tabellen, Listen oder Markdown wird die strukturelle Information berücksichtigt.

 

Chunking, Reranking und Knowledge AI

Chunking ist nur die erste Stufe. Danach folgen Embedding, Vektorsuche und häufig ein Reranking-Schritt, der die Top-Treffer noch einmal nach Relevanz sortiert. Erst die Kombination dieser Stufen ergibt eine effiziente Knowledge AI, die dafür sorgt, dass Voicebots und Chatbots faktentreu antworten. 

 

Praxis-Hinweise für stabile Chunks

In der Praxis bewährt sich ein abgestimmter Mix. Markdown-optimierte Inhalte mit klaren Überschriften, in Section-Chunks von einigen hundert Tokens mit moderatem Überlapp, liefern erfahrungsgemäß die beste Balance zwischen Präzision und Vollständigkeit. Tabellen sollten als atomare Einheiten behandelt werden, juristische Texte profitieren von absatzweisem Chunking entlang von Paragraphen. Wichtig ist ein iteratives Tuning, begleitet von harten Evaluations-Metriken wie Trefferquote, NDCG und Antwortqualität.

 

 

Häufig gestellte Fragen (FAQ)

Es gibt keine universelle Antwort. Als Startpunkt eignen sich Chunks im Bereich von einigen hundert Tokens mit Überlapp. Iteration auf Basis realer Suchqualität ist entscheidend.

Antworten verlieren Präzision, RAG-Treffer werden unzuverlässig, und das Risiko für Halluzinationen steigt spürbar.

Jeder Chunk wird in ein Embedding überführt und in einer Vektordatenbank gespeichert. Die Chunk-Qualität bestimmt damit direkt die Aussagekraft der Embeddings.

–>  Zurück zum BOTwiki