20 Chatbot KPIs – Wie der Erfolg virtueller Assistenten gemessen wird

Obwohl die Akzeptanz von Chatbots bei den Kunden wächst, erwecken sie noch oft  den Anschein eine schlechte Benutzererfahrung zu bieten. Der Grund hierfür ist, dass das volle Potenzial der Technologie nur mit einer kontinuierlichen und zielgerichteten Optimierung ausgeschöpft werden kann. Hierfür ist es allerdings essentiell sich noch vor dem Go Live Gedanken zu machen, wie die Performance der Chat- oder Voicebots ausgewertet werden kann.  Die meisten Unternehmen haben jedoch keine Ziele definiert, an denen sie den  Erfolg ihrer Bots messen können.

In diesem Blogbeitrag sollen daher etablierte Ziele und KPIs aus Chatbot Projekten beschrieben werden. Denn in den meisten Fällen ähneln sich die Absichten in den Unternehmen. In der Regel umfassen sie Ziele wie den internen Einfluss und die Effizienz solcher Systeme. Aber auch die Nutzerakzeptanz und die Kundenzufriedenheit spielen eine große Rolle.

Interner Einfluss und Effizienz: Helfen uns virtuelle Assistenen dabei, Ressourcen zu sparen und effizienter zu arbeiten? 

Mit den folgenden KPI’s lässt sich feststellen, ob durch den Einsatz eines virtuellen Assistenten Ressourcen gespart werden können oder Arbeitsprozesse effizienter werden:

Anzahl der aktiven Nutzer 

Wie viele einzelne Nutzer haben mit dem Chatbot interagiert? Dabei sollte auch gemessen werden, ob sich die Anzahl der Kunden, mit denen Mitarbeiter kommunizieren, durch den Einsatz von Chatbots reduziert hat.

Anzahl der vom Bot bearbeiteten Konversationen/Sitzungen 

Ein Nutzer kann mehrere Gespräche oder Sitzungen mit einem virtuellen Assistenten führen. Analytische Systeme zählen eine neue Sitzung nach einer bestimmten Zeit von Inaktivität (z.B. 15 min).

Human-Handover-Rate

Wie oft übergibt der Chatbot das Gespräch an einen Mitarbeiter? Wie oft fragen Nutzer explizit nach einem echten Menschen, mit dem sie sich unterhalten können? Je besser der virtuelle Assistent trainiert  ist, desto weniger müssen Gespräche an einen realen Menschen übergeben werden.

Prozentsatz und Anzahl der Default-Fallback-Intents/ Fehler Nachrichten

Diese Metrik zeigt an, wie oft der Chatbot nicht in der Lage war, die gewünschte Antwort zu geben. Oftmals werden hierbei Antworten wie “Tut mir leid, das habe ich leider nicht verstanden” geschickt. Wenn die Fehlermeldungsrate sehr hoch ist (ab 20 %) , müssen virtuelle Assistenten trainiert und geprüft werden, ob die erforderlichen Informationen überhaupt zur Verfügung stehen.

Anzahl der außerhalb der Geschäftszeiten bearbeiteten Nachrichten 

Den Kunden außerhalb der Geschäftszeiten einen guten Service bieten zu können ist ein klarer Wettbewerbsvorteil. Daher sollte gemessen werden, wieviele Anfragen der Chatbot eigenständig zu diesen Zeiten beantworten kann.

Feedback zu Gesprächen außerhalb der Geschäftszeiten 

Gleichzeitig sollte man auch gezielt das direkte Feedback von Nutzern in diesem Zeitraum beobachten. Wenn Nutzer beispielsweise schreiben, dass die Informationen durch die Chatbot nicht hilfreich waren, müssen die Antworten beispielsweise überarbeitet werden.

Ø-Confidence Score insgesamt oder pro Gespräch 

Wie zuversichtlich ist das System insgesamt, korrekte Antworten zu geben? Der Confidence Score beschreibt, ob das System zu 100 % sicher war, die Antwort zur Frage passt oder doch nur zu 20 %. Je mehr Trainingsdaten das System besitzt desto sicherer werden Antworten ausgegeben.

Anzahl der Agenten Interaktionen durch aktiven Eingriff

Anhand des Sentiments Scores (s.unten) kann festgestellt werden, ob eine Konversation mit dem Chatbot zielführend verläuft. Wenn dies nicht der Fall ist können Mitarbeiter proaktiv das Gespräch übernehmen und damit verhindern, dass ein verärgerter Nutzer das Gespräch verlässt.

Zielerfüllungsgrad 

Diese Metrik liefert wertvolle Informationen, zu der Erfolgsrate einer bestimmten Aktion, die mit Hilfe des Chatbots durchgeführt wurde. Zum Beispiel, wenn der Nutzer erfolgreich einen bestimmten Prozess durchlaufen ist wie einer Bestellung, Kündigung oder einer Änderung der Stammdaten. Anderweitig können auch Aufrufe bestimmter Zielseiten gemessen werden.

Ø-Dauer des Gesprächs 

Wie lange braucht der Assistent, um den Nutzern das zu geben, was sie gesucht haben? Diese Metrik erlaubt es, die durchschnittliche Dauer der Interaktionen zwischen dem Chatbot und seinen Nutzern zu bewerten. Der Wert wird von Fall zu Fall sehr unterschiedlich sein: ein Chatbot, der komplexere Prozesse löst, wird einen viel längeren Dialog benötigen als einer, der einfache FAQ-Antworten gibt. Diese KPI hilft dabei, die Zeitersparnis der Kunden und Mitarbeiter zu quantifizieren. Wenn das Ziel außerdem eine höhere Nutzerakzeptanz ist, wird man erfahren wie viel Zeit die Nutzer mit dem virtuellen Assistenten verbringen.

Anzahl der Nutzer/ Sessions pro Kanal

Virtuelle Assistenten können auf mehreren Plattformen gleichzeitig laufen. Beispielsweise kann ein Chatbot auf der Homepage als auch auf dem Facebook Messenger Kanal eingebunden werden. Zusätzlich können die Inhalte auch auf Sprachassistenten übertragen werden. Hierbei sollte gemessen werden auf welchem Kanal die meisten Nutzer interagieren und inwieweit sich die Art der Interaktion unterscheidet. Ist der Zielerfüllungsgrad beispielsweise höher?

Kundenzufriedenheit: Helfen Chatbots unseren Nutzern bei der Lösung ihrer Probleme? 

Ob die Nutzer einen Chatbot oder Voicebot als hilfreich einstufen, hängt davon ab, ob er ihnen bei dem Lösen ihrer Probleme helfen konnte. Die folgenden drei KPIs ermöglichen es Unternehmen einzuschätzen, für wie hilfreich die Nutzer ihren Chatbots bewerten.

Net-Promoter-Score (NPS) 

Würden Nutzer den virtuellen Assistenten weiterempfehlen? Diese Frage wird standardmäßig auch an verschiedenen anderen Touchpoints verwendet, um Kundenzufriedenheit zu messen.

Ø-Sentiment-Score insgesamt oder pro Gespräch

Dieser Score reicht von -1 (unzufriedene Nutzer) bis 1 (sehr zufriedene Nutzer) und gibt mit Hilfe von maschinellem Lernen und Textanalyse Auskunft zur Stimmung der User. Werden zum Beispiel Beleidigungen gegen den Chatbot verwendet reagiert das System mit einem negativen Sentiment Score. Menschliche Agenten können dementsprechend eingreifen und die Konversation deeskalieren.

Exit-Feedback-Umfragen 

Hier wird die Gesamteffektivität des Bots aus der Perspektive der Benutzererfahrung bewertet. Die Nutzer werden hierzu aufgefordert ihre Erfahrung mit dem Chatbot zu bewerten. Dadurch erhält ein Unternehmen wertvolle Hinweise zur Qualität des virtuellen Assistenten. Dies kann durch Fragen wie „War diese Antwort hilfreich?“, „Könnte ich Ihr Problem lösen? – Ja oder Nein“, sobald ein bestimmter Punkt des Gesprächs erreicht ist abgedeckt werden.

Nutzerakzeptanz: Wollen unsere Nutzer von virtuellen Assistenten geholfen werden? 

Virtuelle Assistenten bieten Nutzern viele Vorteile. Dennoch möchten nicht alle Nutzer mit einem Chatbot kommunizieren. Wie gut dieser angenommen wird kann mit Hilfe der folgenden KPIs ermittelt werden:

Beleidigungsrate 

Diese zeigt an, wie oft Nutzer den Chatbot beleidigen. Dafür muss ein dedizierter Intent mit Trainingsphrasen verschiedener Beispiel Beleidigungen erstellt werden. Wenn dieser Intent überproportional oft ausgespielt wurden, sollte nach der Ursache hierfür gesucht werden.

Ø-Anzahl der Nachrichten pro Konversation 

Mit Hilfe dieses Indikators kann bestimmt werden, wie viele Fragen gestellt werden, bevor der Chatbot die angeforderten Informationen ausgibt. Es beschreibt auch, wie viel Zeit die Nutzer mit dem Schreiben verbracht haben. Man sollte allerdings beachten, dass die ideale Anzahl der notwendigen Fragen je nach Use Case erheblich variieren.

Initiierung des Human-Handovers innerhalb einer bestimmten Anzahl von User Nachrichten 

Wenn Nutzer einfordern, sofort mit einem echten Mitarbeiter zu sprechen, kann das bedeuten, dass die Akzeptanz sehr gering ist, da nicht mit dem Bot interagiert werden möchte.

Exit-Rates 

Zeigen an welcher Stelle im Gesprächspfad die Nutzer das Gespräch verlassen haben und verdeutlichen die Bereiche, in denen der Bot die Aufmerksamkeit der User verliert.

Ø-Länge der Nachrichten 

Je kürzer die Anfragen sind, desto eher stellen sich Nutzer auf ein Gespräch mit einem virtuellen Assistenten ein. Zu lange Nachrichten mit unterschiedlichen Kontexten sind für das System schwieriger zu verstehen und zu verarbeiten.

Retention Rate

Wie oft kommen Nutzer innerhalb einer Zeitspanne zum Chatbot zurück? Diese KPI beschreibt wie erfolgreich Interaktionen mit dem virtuellen Assistenten verlaufen sind. Wenn Methoden wie Benachrichtigungen in Messagings-Plattformen oder Anzeigen verwendet werden, damit Nutzer wieder mit dem Chatbot interagieren, sollten dies differenziert betrachtet werden. Es sollte die Anzahl der User verfolgt werden, die von sich aus zurückkommen. Wenn der Chatbot einen echten Mehrwert bietet, ist die Wahrscheinlichkeit um so höher.

Wenn ein Chatbot von den Nutzern nicht gut angenommen wird, kann dies verschiedene Gründe haben: Die Zielgruppe kann beispielsweise mit der Nutzung von virtuellen Assistenten noch nicht vertraut sein. Oder der Chatbot ist nur mangelhaft trainiert worden und die Nutzung ist mühsam und frustrierend. Eine mangelnde Benutzerakzeptanz muss nicht bedeuten, dass der Einsatz eines Chatbots keinen Sinn macht.

Es gibt es unzähligen Metriken bzw. KPIs die letztendlich Aufschluss über den jeweiligen Erfolg von Chat- und Voicebots geben. Wichtig ist es, sich von Anfang im klaren darüber zu sein, welches Problem gelöst und welche Ziele erreicht werden sollen. Nur auf dieser Basis können die richtigen Kennzahlen ausgewählt werden. Denn das Erfolgsrezept steckt in der Optimierung. Wirklich gute Chatbots entstehen, wenn die Verantwortlichen Ressourcen in die Wartung und in den Betrieb der virtuellen Assistenten stecken. Mit einer einmaligen Entwicklung ist es nämlich nicht getan. Das Gute ist jedoch: Das Training eines Chatbots ist nur am Anfang sehr aufwendig. Mit der Zeit und ab einem bestimmten Trainingsgrad reduziert sich der Aufwand immens.

Dies und vieles mehr wird in unserem Whitepaper “3 Gründe, warum Chatbots scheitern” aufgezeigt und intensiver behandelt.