Confidence Score

-> zum BOTwiki

Der Confidence Score (dt. Konfidenzwert) ist eine numerische Kennzahl, die in KI-basierten AI Agenten, Chatbots und Voicebots angibt, mit welcher Sicherheit ein System eine Eingabe korrekt verstanden, einer Absicht (Intent) zugeordnet hat oder wie sicher es sich bei einer gefundenen Antwort ist. Er bildet die probabilistische Grundlage für Entscheidungen des Systems und je höher der Wert, desto zuverlässiger ist die Klassifikation durch das Modell und desto geringer das Risiko einer Fehlantwort oder Halluzination.

Wie der Confidence Score zustande kommt

Der Confidence Score ergibt sich aus dem Zusammenspiel mehrerer Komponenten des KI-Modells. Im Kern berechnet das zugrundeliegende Sprachmodell oder der Klassifikator für jede mögliche Interpretation der Nutzereingabe eine Wahrscheinlichkeitsverteilung. Bei Intent-Klassifikation etwa vergleicht das Modell die eingehende Äußerung mit trainierten Mustern und weist jedem potenziellen Intent einen Wahrscheinlichkeitswert zu. Der höchste Wert dieser Verteilung wird in der Regel als Confidence Score ausgewiesen, häufig normiert auf eine Skala von 0 bis 1 oder 0 bis 100 Prozent.

Bei modernen Transformer-basierten Modellen fließen dabei mehrere Faktoren ein: die semantische Ähnlichkeit der Eingabe zu Trainingsbeispielen, die Eindeutigkeit der Formulierung, der Gesprächskontext aus vorangegangenen Turns sowie bei Voicebots zusätzlich die akustische Erkennungsqualität aus der Spracherkennung (Automatic Speech Recognition, ASR). Mehrdeutige, umgangssprachliche oder sehr kurze Eingaben erzeugen typischerweise niedrigere Scores, weil das Modell zwischen mehreren Interpretationen schwankt. Gut strukturierte, klare Formulierungen hingegen führen zu hohen, konzentrierten Wahrscheinlichkeitsmassen auf einem Intent und damit zu einem hohen Confidence Score.

Schwellwerte und Fallback-Verhalten

Um den Confidence Score operativ nutzbar zu machen, definieren Entwickler und Conversational Designer sogenannte Schwellwerte (Thresholds). Liegt der Score über dem oberen Schwellwert, gibt das System eine Antwort aus. Liegt er unterhalb eines unteren Schwellwerts, greift ein Fallback-Mechanismus. 

Typische Fallback-Strategien umfassen gezielte Verständnisfragen, das Anbieten von Auswahloptionen zur Eingrenzung der Absicht oder die Eskalation an einen menschlichen Mitarbeiter. In kritischen Anwendungsfällen wie medizinischen Auskunftssystemen oder Finanzberatungs-Bots werden die Schwellwerte bewusst hoch angesetzt, um Fehler zu minimieren. In weniger risikobehafteten Szenarien kann ein niedrigerer Schwellwert die Automatisierungsrate erhöhen, ohne die Nutzerzufriedenheit signifikant zu beeinträchtigen.

Die Kalibrierung dieser Schwellwerte ist ein iterativer Prozess, der auf der Auswertung realer Interaktionsdaten und der Analyse von Fehlklassifikationen basiert. Ein zu hoch angesetzter Schwellwert führt zu häufigen, unnötigen Rückfragen und frustriert Nutzende; ein zu niedriger Schwellwert erhöht die Rate falscher Antworten und untergräbt das Vertrauen in das System.

Bedeutung für Voice und Chat

Im Chatbot-Kontext beeinflusst der Confidence Score vor allem die Steuerung von Dialogflüssen und die Auswahl von Antwortbausteinen. Da Texteingaben in der Regel präziser und besser strukturiert sind als gesprochene Sprache, bewegen sich Confidence Scores im Chat häufig in höheren Bereichen. Dennoch stellen Tippfehler, Abkürzungen, Code-Switching zwischen Sprachen oder sehr kurze Eingaben wie einzelne Stichwörter eine Herausforderung dar und können den Score erheblich senken.

Im Voicebot-Bereich kommt dem Confidence Score eine noch zentralere Rolle zu, da zwei fehleranfällige Stufen hintereinander geschaltet sind: zunächst die Spracherkennung, die das gesprochene Wort in Text überführt, und anschließend das NLU-Modell (Natural Language Understanding), das den Text interpretiert. Beide Stufen liefern eigene Konfidenzwerte, die oft kombiniert werden. Nebengeräusche, Dialekte, Sprechtempo und Telefoniebandbreite verschlechtern die ASR-Qualität und ziehen den Gesamt-Confidence-Score nach unten.

Voicebots müssen daher besonders robuste Fallback-Strategien implementieren, da ein Abbruch oder eine falsche Antwort im gesprochenen Dialog als deutlich störender wahrgenommen wird als im Chat. Insgesamt ist der Confidence Score in beiden Kanälen ein zentrales Werkzeug, um das Gleichgewicht zwischen Automatisierungsgrad und Interaktionsqualität zu steuern und das Nutzererlebnis kontinuierlich zu verbessern.

Häufig gestellte Fragen (FAQ)

Der Confidence Score ist ein Wahrscheinlichkeitswert zwischen 0 und 1, der angibt, wie sicher ein NLU-Modell eine Eingabe korrekt verstanden hat, einer Absicht (Intent) zugeordnet hat oder wie sicher es sich bei einer gefundenen Antwort ist. Er ist die Grundlage dafür, ob ein AI Agent direkt antwortet, eine Rückfrage stellt oder in einen Fallback-Pfad verzweigt.

Das Modell berechnet für jede mögliche Interpretation der Eingabe einen Wahrscheinlichkeitswert. Moderne Verfahren nutzen Vektorräume, in denen Bedeutung und Kontext abgebildet werden. Der höchste dieser Werte wird als Confidence Score ausgegeben, normiert auf einer Skala von 0 bis 1.

Das System greift auf einen Fallback zurück: Es stellt eine Rückfrage, bietet Auswahloptionen an oder eskaliert die Konversation an einen menschlichen Agenten.

In der Praxis haben sich Werte zwischen 0,7 und 0,85 bewährt – je risikosensiblerder Anwendungsfall, desto höher sollte die Schwelle angesetzt werden. Entscheidend ist eine regelmäßige Kalibrierung auf Basis realer

–>  Zurück zum BOTwiki