Was gilt als gute Word Error Rate?

Im Diktat-Kontext gilt eine WER unter 5 % als exzellent. Im Kundenservice (Voicebots) mit komplexen Eigennamen, Dialekten und Hintergrundgeräuschen sind Raten zwischen 10 % und 15 % in der Praxis üblich. Entscheidend ist hierbei die 'Semantic WER' – also dass geschäftskritische Daten wie Kundennummern oder Beträge fehlerfrei erkannt werden.

Wie wirkt sich die WER auf den ROI eines Voicebots aus?

Die WER steht in direktem Bezug zur Automatisierungsquote (Containment Rate). Jedes falsch verstandene Wort erhöht das Risiko von Fehlversuchen (Fallbacks) oder führt zu unnötigen Übergaben an menschliche Agenten (Human-Handover). Eine Senkung der WER optimiert somit unmittelbar den ROI des Projekts.

Reicht eine niedrige WER allein für einen guten Voicebot?

Nein. Die WER misst lediglich die Qualität der Transkription (Speech-to-Text). Für einen erfolgreichen Voicebot muss dieses fehlerfreie Transkript von einer intelligenten Logikschicht (Multi-Agent-Orchestrierung, Knowledge AI/RAG) verarbeitet werden, um den Kontext zu verstehen und die richtige Aktion auszuführen.

Word Error Rate (WER)

Juni 2, 2026

|By Julia Schönau

–-> zum BOTwiki

Die Word Error Rate (WER) ist die zentrale Metrik zur Messung der Qualität von Speech-to-Text-Systemen. Sie gibt an, wie viele Wörter eines gesprochenen Satzes vom Erkennungssystem fehlerhaft transkribiert wurden, ausgedrückt als Prozentsatz im Verhältnis zur Gesamtanzahl der gesprochenen Wörter. Eine niedrige WER ist Grundvoraussetzung für stabile Voicebots, weil jede Erkennungslücke in der Folge die Klassifikation des Anliegens, die Entity-Extraktion und damit die End-to-End-Automatisierung verschlechtert.

Wie die Word Error Rate berechnet wird

Die WER summiert drei Fehlerarten und setzt sie ins Verhältnis zur Länge des Referenztextes:

Substitutions (S): Ein Wort wurde durch ein anderes ersetzt.
Insertions (I): Ein zusätzliches Wort wurde eingefügt.
Deletions (D): Ein Wort fehlt in der Transkription.

Die Formel lautet WER = (S + I + D) / N, wobei N die Anzahl der Wörter im Referenztext ist. Ein WER-Wert von 5 % bedeutet beispielsweise, dass bei einem 20-wörtigen Satz ein Wort falsch erkannt wurde.

WER und sein Einfluss auf den Voice-Bot

Im Voice-Kanal wirkt sich die WER unmittelbar auf die nachgelagerten Schritte aus. Verwechselt das System eine Kundennummer oder eine Tarifbezeichnung, scheitert der gesamte Workflow. Deshalb ist die WER nicht nur eine Qualitätskennzahl, sondern eine Eingangsgröße für Multi-Agent-Orchestrierung: Bei niedriger Konfidenz fordert der Triage-Agent gezielt eine Wiederholung an oder gleicht den Audiotext mit hinterlegten Custom Entities ab.

WER bei Eigennamen, Zahlen und Fachbegriffen

Die durchschnittliche WER moderner Speech-to-Text-Systeme liegt für Standard-Konversationen im niedrigen einstelligen Prozentbereich. Für Eigennamen, Adressen, Zahlen oder Branchen-Fachbegriffe ist sie häufig deutlich höher, also leider genau dort, wo sie für Service-Prozesse besonders kritisch ist. Abhilfe schaffen Custom Vocabulary, branchenspezifische Sprachmodelle und nachgelagerte Plausibilitätsprüfungen über Phonebots.

Häufig gestellte Fragen (FAQ)

Im Diktat-Kontext gilt eine WER unter 5 % als sehr gut. Im Service-Bereich mit Eigennamen, Adressen und Zahlen sind realistische Zielwerte je nach Branche unterschiedlich – entscheidend ist, dass kritische Datenpunkte (Kundennummer, Adresse, Betrag) abgesichert sind.

Jede Erkennungslücke führt entweder zu Nachfragen oder zur Eskalation an Mitarbeitende. Beides reduziert die Automatisierungsquote. Eine niedrige WER ist damit ein direkter ROI-Treiber.

Nein. Die WER ist eine notwendige, aber nicht hinreichende Bedingung. Erst das Zusammenspiel mit Multi-Agent-Orchestrierung, hybrider Intelligenz und Knowledge AI macht aus einem guten Transkript einen belastbaren Service-Prozess.

–> Zurück zum BOTwiki

Produkt

Features

Integrationen

Wissen

Dokumentation & Know-How

Empfehlungen

Word Error Rate (WER)

Wie die Word Error Rate berechnet wird

WER und sein Einfluss auf den Voice-Bot

WER bei Eigennamen, Zahlen und Fachbegriffen

Häufig gestellte Fragen (FAQ)

Produkt

Features

Integrationen

Wissen

Dokumentation & Know-How

Empfehlungen

Word Error Rate (WER)

Wie die Word Error Rate berechnet wird

WER und sein Einfluss auf den Voice-Bot

WER bei Eigennamen, Zahlen und Fachbegriffen

Häufig gestellte Fragen (FAQ)

Was gilt als gute Word Error Rate?+

Wie wirkt sich die WER auf den ROI eines Voicebots aus?+

Reicht eine niedrige WER allein für einen guten Voicebot?+