Word Error Rate (WER)
–-> zum BOTwiki
Die Word Error Rate (WER) ist die zentrale Metrik zur Messung der Qualität von Speech-to-Text-Systemen. Sie gibt an, wie viele Wörter eines gesprochenen Satzes vom Erkennungssystem fehlerhaft transkribiert wurden, ausgedrückt als Prozentsatz im Verhältnis zur Gesamtanzahl der gesprochenen Wörter. Eine niedrige WER ist Grundvoraussetzung für stabile Voicebots, weil jede Erkennungslücke in der Folge die Klassifikation des Anliegens, die Entity-Extraktion und damit die End-to-End-Automatisierung verschlechtert.
Wie die Word Error Rate berechnet wird
Die WER summiert drei Fehlerarten und setzt sie ins Verhältnis zur Länge des Referenztextes:
- Substitutions (S): Ein Wort wurde durch ein anderes ersetzt.
- Insertions (I): Ein zusätzliches Wort wurde eingefügt.
- Deletions (D): Ein Wort fehlt in der Transkription.
Die Formel lautet WER = (S + I + D) / N, wobei N die Anzahl der Wörter im Referenztext ist. Ein WER-Wert von 5 % bedeutet beispielsweise, dass bei einem 20-wörtigen Satz ein Wort falsch erkannt wurde.
WER und sein Einfluss auf den Voice-Bot
Im Voice-Kanal wirkt sich die WER unmittelbar auf die nachgelagerten Schritte aus. Verwechselt das System eine Kundennummer oder eine Tarifbezeichnung, scheitert der gesamte Workflow. Deshalb ist die WER nicht nur eine Qualitätskennzahl, sondern eine Eingangsgröße für Multi-Agent-Orchestrierung: Bei niedriger Konfidenz fordert der Triage-Agent gezielt eine Wiederholung an oder gleicht den Audiotext mit hinterlegten Custom Entities ab.
WER bei Eigennamen, Zahlen und Fachbegriffen
Die durchschnittliche WER moderner Speech-to-Text-Systeme liegt für Standard-Konversationen im niedrigen einstelligen Prozentbereich. Für Eigennamen, Adressen, Zahlen oder Branchen-Fachbegriffe ist sie häufig deutlich höher, also leider genau dort, wo sie für Service-Prozesse besonders kritisch ist. Abhilfe schaffen Custom Vocabulary, branchenspezifische Sprachmodelle und nachgelagerte Plausibilitätsprüfungen über Phonebots.
Häufig gestellte Fragen (FAQ)
Im Diktat-Kontext gilt eine WER unter 5 % als sehr gut. Im Service-Bereich mit Eigennamen, Adressen und Zahlen sind realistische Zielwerte je nach Branche unterschiedlich – entscheidend ist, dass kritische Datenpunkte (Kundennummer, Adresse, Betrag) abgesichert sind.
Jede Erkennungslücke führt entweder zu Nachfragen oder zur Eskalation an Mitarbeitende. Beides reduziert die Automatisierungsquote. Eine niedrige WER ist damit ein direkter ROI-Treiber.
Nein. Die WER ist eine notwendige, aber nicht hinreichende Bedingung. Erst das Zusammenspiel mit Multi-Agent-Orchestrierung, hybrider Intelligenz und Knowledge AI macht aus einem guten Transkript einen belastbaren Service-Prozess.
–> Zurück zum BOTwiki

AI Agent ROI Rechner
Kostenloses Training: Chatbot Crashkurs
Whitepaper: Die Akzeptanz von Chatbots