Conversational Design
--> zum BOTwiki
Conversational Design beschreibt den konzeptionellen Prozess, der jedem technisch gebauten AI Agent vorausgeht. Es legt fest, welche Probleme der Agent lösen soll, mit welchen Nutzergruppen er spricht, welche Persönlichkeit er hat und wie Dialoge konkret verlaufen. Damit ist Conversational Design das Fundament für jede Conversational-AI-Lösung.
Unabhängig davon, ob sie als Voicebot in der Hotline, als Chatbot auf der Website oder als E-Mail-Automation eingesetzt wird. Eine durchdachte Design-Phase entscheidet später darüber, ob Anrufende und Schreibende ihre Anliegen wirklich lösen können oder im Fallback landen.
Bestandteile eines sauberen Conversational Designs
Ein vollständiges Conversational Design folgt mehreren Phasen, die aufeinander aufbauen. Zuerst werden Use Cases definiert, also konkrete Anliegen wie Terminvereinbarung, Tarifauskunft oder Statusabfrage. Daraus ergeben sich User Stories und funktionale Anforderungen, die den fachlichen Rahmen abstecken. Anschließend werden Verhaltensregeln und die Tonalität in Form von Personas modelliert, um Sprachstil, Do's und Don'ts abzustecken. Erst danach beginnt die Ausarbeitung der eigentlichen Dialogflüsse.
Zentrales Werkzeug ist die Conversational Map. Eine visuelle Darstellung aller möglichen Gesprächspfade, Verzweigungen und Rückfragen. Sie macht sichtbar, wo Sackgassen entstehen, wo Eskalationen an Mitarbeitende nötig sind und wo der Agent eigenständig abschließen kann.
Persönlichkeit, Tonalität und Markenstimme
Ein AI Agent ist immer auch Repräsentant der Marke. Ein Teil des Conversational Designs ist es, festzulegen, wie der Agent klingt, welche Werte er transportiert und wie er auf schwierige Situationen reagiert. In BOTfriends X werden diese Einstellungen in der AI Agent Persona gemacht. Das umfasst Wortwahl, Satzlänge, Anrede, Humorgrad und den Umgang mit Beschwerden. Bei einem Versicherungsunternehmen wird die Tonalität anders ausfallen als bei einer jungen D2C-Marke. Die Methodik dahinter ist jedoch dieselbe.
Für die Umsetzung helfen einige Leitlinien:
- Eine konsistente Persönlichkeit über alle Kanäle hinweg, von der Telefonansage bis zum Chat-Fenster.
- Klare Sprachregeln für Begrüßung, Rückfragen, Bestätigungen und Verabschiedung.
- Definierte Eskalationsformulierungen, wenn ein Anliegen an Mitarbeitende übergeben wird.
- Verständliche, kurze Sätze statt Behördendeutsch. Gerade für gesprochene Ausgaben essenziell.
- Klare Guardrails um festzulegen, über welche Themen nicht gesprochen werden darf.
Bedeutung für Voice und Chat
Im Voice-Kanal stellt Conversational Design besonders hohe Anforderungen. Ein Voicebot in der Hotline-Triage hat keine Buttons, keine Listen und keine zweite Chance, wenn Anrufende den Faden verlieren.
Im Chat- und E-Mail-Kanal sind die Spielregeln anders, aber die Grundlogik bleibt. Auf der Website kann mit Quick Replies, Karussells und Buttons gearbeitet werden, was den Designprozess flexibler macht. Für E-Mail-Automation wiederum zählt eine präzise Intent-Erkennung, weil Anliegen oft in mehreren Absätzen formuliert sind.
Conversational Design muss diese kanalspezifischen Eigenheiten berücksichtigen und gleichzeitig eine konsistente Markenstimme über alle Touchpoints hinweg wahren.
Conversational Design in Multi-Agent-Setups
In modernen Setups mit mehreren spezialisierten AI Agents wird Conversational Design zur Architekturaufgabe. Jeder Agent erhält einen klar abgegrenzten Aufgabenbereich, etwa Terminbuchung, Vertragsfragen oder technische Störungen. Hybride Intelligenz und Multi-Agent-Orchestrierung sorgen dafür, dass Anliegen sauber zwischen den Agents wandern, ohne dass Anrufende oder Schreibende den Kontext erneut erklären müssen. Auch die Anbindung an Knowledge AI und nachgelagerte AI Workflows wird im Conversational Design vorbereitet. Inklusive der Frage, wann an einen Mitarbeitenden eskaliert wird und wie diese Übergabe sprachlich aussieht.
Conversational Testing schließt den Kreis: Vor dem Go-Live werden alle Pfade systematisch durchgespielt. Mit echten Trainingsphrasen, Sprachsamples und Edge Cases. Erkannte Schwächen fließen zurück in Map, Personas und Tonalitätsleitfaden. Conversational Design ist damit ein laufender Prozess, der sich mit jedem produktiven Dialog weiterentwickelt.
Häufig gestellte Fragen (FAQ)
Conversational Design ist der konzeptionelle Prozess, der vor der technischen Entwicklung eines AI Agents stattfindet. Er definiert Use Cases, Zielgruppen, Persönlichkeit und Dialogflüsse und bildet die Grundlage für jede Conversational-AI-Lösung über Voice, Chat und E-Mail.
Ohne durchdachtes Conversational Design bleibt selbst die beste Sprachtechnologie unter ihren Möglichkeiten. Schlecht gestaltete Dialoge führen zu Fallbacks, Frustration und Abbrüchen. Sauberes Design dagegen sorgt für hohe Abschlussquoten, Entlastung im Service und ein konsistentes Markenerlebnis über alle Kanäle.
Personas modellieren typische Nutzergruppen mit ihren Bedürfnissen, ihrem Sprachstil und ihren Erwartungen. Sie helfen dabei, Tonalität, Wortwahl und Dialogtiefe so zu wählen, dass sich Anrufende und Schreibende verstanden fühlen. Personas sind damit eine zentrale Brücke zwischen Fachbereich und technischer Umsetzung.
Voice-Dialoge brauchen kurze Sätze, klare Rückfragen und eine robuste Fehlertoleranz, weil keine Buttons oder Listen zur Verfügung stehen. Chat-Dialoge können mit Quick Replies und visuellen Elementen arbeiten und erlauben längere Antworten. Die Markenstimme bleibt über alle Kanäle hinweg konsistent, während Format und Interaktionsmuster kanalspezifisch angepasst werden.
Conversational Design startet vor jeder technischen Implementierung. Idealerweise direkt nach der Zieldefinition des Projekts. Wer erst nach der technischen Konfiguration mit Design beginnt, baut Korrekturschleifen ein, die teuer und zeitaufwendig sind. Frühes Design spart spätere Eskalationen.
> Zurück zum BOTwiki
Geführte Kommunikation / Guided Communication
--> zum BOTwiki
Guided Communication, auch geführte Kommunikation genannt, bezeichnet einen Dialogstil bei Chatbots, bei dem Nutzende nicht frei formulieren, sondern über vordefinierte Buttons, Karussells, Quick Replies oder Auswahllisten durch ein Gespräch geleitet werden. Statt offener Spracheingabe präsentiert der AI Agent jeweils klar umrissene Optionen, aus denen die Nutzerin oder der Nutzer auswählt.
Damit grenzt sich Guided Communication bewusst von rein NLU-basierten Free-Text-Dialogen ab. Sie kommt häufig dort zum Einsatz, wo Anwendungsfälle stark strukturiert sind, schnelle Time-to-Market gefragt ist oder eine sichere Nutzerführung im Vordergrund steht.
Wie Guided Communication aufgebaut ist
Technisch basiert Guided Communication auf einem regelbasierten Dialogbaum. Jede Antwort des Bots enthält neben dem Text eine Liste möglicher Folgeaktionen, etwa als Buttons unter einer Chat-Nachricht. Der Dialogpfad ist dadurch deterministisch: Eine Auswahl führt zu einem klar definierten nächsten Schritt.
Ein vereinfachtes Beispiel aus einem Service-Chat: Auf die Begrüßung folgt die Auswahl „Bestellung verfolgen“, „Termin ändern“ oder „Mitarbeitenden sprechen“. Die Nutzerin tippt im Chat auf eine Schaltfläche und der Agent führt durch die folgenden Schritte. Diese Struktur reduziert Erkennungsfehler, weil das System keine offenen Formulierungen interpretieren muss.
Vorteile und Grenzen
Guided Communication beschleunigt Projekte deutlich, weil aufwendige NLU-Trainingsphasen entfallen oder zumindest reduziert werden können. Gleichzeitig erhöht sie die Verlässlichkeit, weil Nutzende nur gültige Pfade auswählen können.
- Schnellere Umsetzung, da kein umfangreiches Training für Trainingsphrasen nötig ist.
- Geringere Fehlerquote, weil keine missverstandenen Free-Text-Eingaben auftreten.
- Klare Erwartungssteuerung, da Nutzende nur sehen, was tatsächlich angeboten wird.
- Eingeschränkte Flexibilität bei komplexen oder offenen Anliegen.
- Risiko langer Menübaumstrukturen.
In der Praxis zeigt sich aber, dass reine Button-Dialoge bei wachsendem Funktionsumfang nicht zielführend sind und den Nutzer zu sebr einschränken. Wer dauerhaft skalieren will, kombiniert Guided Communication mit KI basierter Freitextverarbeitung, sodass der AI Agent auf möglich alle Themen optimal reagieren kann.
Bedeutung für Voice und Chat
Im Voice-Kanal wirkt Guided Communication anders als im Chat. Eine klassische IVR ist im Grunde reine Auswahlführung. Sie folgt der Logik „Body ohne Brain“ und lässt keine echte Konversation zu. Ein Voicebot auf Basis von AI-Native Voice kann hingegen eine geleitete Auswahl mit natürlichem Sprachverstehen kombinieren und so die Vorteile beider Ansätze vereinen.
Im Chat sind Buttons, Karussells und Quick Replies tragende Elemente einer geleiteten Führung. Sie eignen sich besonders, um Nutzende durch Formularstrecken, Self-Service-Prozesse oder mehrstufige Auswahlfragen zu führen.
Häufig gestellte Fragen (FAQ)
Guided Communication ist ein Dialogstil, bei dem Nutzende über vordefinierte Buttons, Karussells oder Auswahlmenüs durch ein Gespräch geführt werden. Statt frei zu formulieren, wählen sie aus klar umrissenen Optionen aus. Damit ist der Dialogpfad weitgehend deterministisch.
Sinnvoll ist sie immer dann, wenn Anwendungsfälle stark strukturiert sind und Präzision wichtiger ist als Konversationsbreite. Typische Beispiele sind Self-Service-Prozesse, Authentifizierungsschritte oder kurze Auswahldialoge in einer Hotline-Triage. Auch bei knappen Projektzeiträumen ist sie eine gute Option, weil sie ohne umfangreiches NLU-Training auskommt.
Reine Button-Dialoge skalieren schlecht, sobald Anwendungsfälle vielfältiger werden. Lange Menübäume frustrieren Nutzende. Komplexe Anliegen, die außerhalb der vorgesehenen Pfade liegen, lassen sich nicht abbilden, ohne in einen Fallback zu laufen.
> Zurück zum BOTwiki
Trainings Phrasen / Utterances
--> zum BOTwiki
Utterances sind Trainingsphrasen, mit denen ein AI Agent erkennt, was Nutzende meinen, indem er die im System hinterlegten Beispiele mit der Live-Anfrage vergleicht. Dieses Konzept stammt aus der klassischen, intentbasierten Dialogarchitektur und war über viele Jahre ein zentrales Element bei der Entwicklung von Chatbots und virtuellen Assistenten.
In modernen agentischen Systemen, die auf Large Language Models basieren, verliert das manuelle Pflegen von Utterances zunehmend an Bedeutung. Diese Systeme verstehen Freitext kontextbasiert und können mit sprachlicher Variation umgehen, ohne vorab auf konkrete Beispielformulierungen trainiert worden zu sein. Wer jedoch mit intentbasierten NLU-Modellen arbeitet oder bestehende Systeme dieser Art betreut, findet im Folgenden die wesentlichen Grundlagen.
Jede Utterance ist eine konkrete Beispielformulierung, die einem bestimmten Intent zugeordnet wird. Aus vielen solcher Beispiele lernt das NLU-Modell, sprachliche Variationen einer Anfrage zu erkennen. Je breiter und realistischer die Utterances, desto stabiler die Klassifikation in der Produktion.
Was eine Utterance ist und wie sie wirkt
Eine Utterance ist eine kurze, in natürlicher Sprache formulierte Beispieleingabe. Für den Intent „Termin_buchen“ sind das etwa: „Ich bräuchte einen Termin“, „Können Sie mir einen Termin geben?“ oder „Ich möchte nächste Woche kommen“.
Aus diesen Beispielen leitet das NLU-Modell sprachliche Muster ab. Es erkennt anschließend auch Formulierungen, die nicht wörtlich im Training enthalten waren. Utterances sind damit das Trainingsmaterial, das über die Erkennungsqualität entscheidet.
Anforderungen an gute Utterances
Pro Intent sollten mehrere Utterances hinterlegt sein, die unterschiedliche Formulierungen abdecken. Wichtig sind dabei:
- Sprachliche Varianten: kurze und lange Formulierungen, mit und ohne Höflichkeitsfloskeln.
- Synonyme: „Termin“, „Verabredung“, „Sprechstunde“.
- Realistische Eingaben aus Sicht der Zielgruppe, keine künstlich konstruierten Sätze.
- Abdeckung typischer Tippfehler, Umgangssprache und Dialekte, sofern in der Praxis vorkommen.
Ebenso wichtig ist die Abgrenzung. Utterances unterschiedlicher Intents dürfen sich semantisch nicht zu stark überschneiden. Sonst sinkt der Confidence Score, weil das Modell nicht mehr eindeutig entscheiden kann.
Häufig gestellte Fragen (FAQ)
Utterances sind Trainingsphrasen, mit denen ein AI Agent lernt, einen Intent zu erkennen. Jede Utterance ist eine konkrete Beispieleingabe, etwa „Ich bräuchte einen Termin“ für den Intent „Termin_buchen“. Aus vielen solcher Beispiele leitet das NLU-Modell sprachliche Muster ab und erkennt damit auch Varianten, die nicht wörtlich trainiert wurden.
Pro Intent sind in der Regel zehn bis dreissig Utterances ein guter Startwert. Entscheidend ist nicht die reine Menge, sondern die sprachliche Vielfalt. Kurze und lange Formulierungen, Synonyme und realistische Tippfehler erhöhen die Erkennungsstabilität stärker als zusätzliche ähnliche Sätze.
Der Confidence Score zeigt, wie sicher das Modell einen Intent zugeordnet hat. Gut formulierte Utterances erhöhen den Score, weil das Modell klare Muster lernt. Überlappen sich Utterances verschiedener Intents, sinkt der Score und das System weicht häufiger auf einen Fallback aus.
> Zurück zum BOTwiki
Human Handover
--> zum BOTwiki
Unter einem Human Handover (auch Human Takeover, Human Handoff) bezeichnet man die Weiterleitung einer Konversation von einem Chatbot an einen realen Menschen.
Der Begriff Human Takeover wird meist verwendet, wenn die Konversation nicht übergeben wird, sondern der Mensch eine Konversation aktiv übernimmt.
Auslöser für den Human Handover
Ein Human Handover kann durch unterschiedlichen Szenarien ausgelöst werden:
- Explizite Frage der Nutzenden nach einem Menschen
- Der Chatbot kennt die Antwort auf eine bestimmte Frage nicht (Default Fallback Intent wird getroffen)
- Der Chatbot ist sich nicht sicher genug (niedriges Confidence Level)
- Die Gefühlslage der Nutzenden weist einen negativen Wert auf (Sentiment Score)
- Ein bestimmter Intent wird getroffen, bei dem ein menschliches Eingreifen erwünscht oder gefordert ist
- Bestimmte Metriken wie beispielsweise der Warenkorb eines Online Shops enthält Produkte im Wert von > 1.000 €
Warm/ Cold Human Handover
Ein Warm Handover bezeichnet die sofortige Weiterleitung des Nutzers an einen Mitarbeiter. Die Antwort des Menschen wird zeitnah und im selben Kanal an den User ausgespielt.
Beim Cold Handover dagegen wird der Konversationsfluss unterbrochen und/oder der Kanal gewechselt. Ein gängiges Beispiel dafür ist ein Handover aus dem Facebook Messenger in den Kanal Email.
Tools für den Human Handover
Ein Handover kann in verschiedene Tools integriert werden:
- Social Media Engagement Tools
- Call Center Software
- Slack / Facebook Messenger
- Human Handover Tools
> Zurück zum BOTwiki
Tone of Voice (Tonalität)
--> zum BOTwiki
Der Tone of Voice (oder auch Tonalität) repräsentiert die spezifische Art und Weise, wie ein AI Agent in Form eines Chatbots oder Voicebots mit Nutzern kommuniziert. Er umfasst die Wortwahl, Satzstruktur und den allgemeinen Kommunikationsstil, welche die Persönlichkeit des digitalen Assistenten prägen. Durch einen konsistenten Tone of Voice wird die Markenidentität gestärkt und die Benutzererfahrung in der Conversational AI maßgeblich beeinflusst.
Elemente des Tone of Voice
Der Tone of Voice eines Chatbots oder Voicebots wird durch mehrere Komponenten bestimmt, die gemeinsam dessen sprachliche Identität formen. Eine bewusste Gestaltung dieser Elemente ist für eine kohärente Kommunikation erforderlich.
Die Wortwahl und der Stil legen fest, ob formelle oder informelle Ausdrücke verwendet werden und inwiefern Fachjargon zum Einsatz kommt. Die Satzstruktur wird ebenfalls berücksichtigt, wobei entschieden wird, ob kurze, prägnante Sätze oder komplexere Formulierungen bevorzugt werden.
Auch die Emotionalität und Empathie spielen eine Rolle, insbesondere im Umgang mit Nutzeremotionen, Beschwerden oder Fehlern. Der Einsatz von Piktogrammen und Emojis kann den Stil weiter ergänzen und muss konsistent gehandhabt werden.
Bedeutung für Conversational AI und AI Agents
Eine gut definierte Tonalität ist für den Erfolg von Conversational AI-Anwendungen und AI Agents von großer Bedeutung. Durch ihn wird die Markenidentität gestärkt und die Wiedererkennung gefördert. Dies trägt maßgeblich zur Etablierung einer konsistenten Markenbotschaft bei.
Zusätzlich wird die Benutzererfahrung (UX) positiv beeinflusst. Ein angenehmer und konsistenter Tonfall fördert das Vertrauen der Nutzer in den digitalen Assistenten und erhöht dessen Akzeptanz. Missverständnisse können durch eine klare und dem Kontext entsprechende Kommunikation reduziert werden. Eine konsistente Anwendung des Tone of Voice ist über verschiedene Kanäle und AI Agents hinweg, einschließlich Chatbots, Voicebots und innerhalb von Workflows, unerlässlich.
Faktoren zur Festlegung der Tonalität
Die Festlegung einer angemessenen Tonalität wird durch verschiedene Faktoren bestimmt. Hierzu gehören die aktuelle Kommunikationsweise des Unternehmens auf anderen Kanälen, die direkte Kundenansprache (z. B. „Du“ oder „Sie“), der spezifische Anwendungsfall des AI Agents sowie die zu adressierende Zielgruppe. Ebenso werden die Werte, Überzeugungen und ethischen Richtlinien des Unternehmens berücksichtigt, um eine stilistische Konsistenz über alle Kommunikationsformen hinweg zu gewährleisten.
Fragen zur Festlegung einer guten Tonalität können daher folgende sein:
- Wie findet die Kommunikation mit Kunden aktuell auf anderen Kanälen statt?
- Wie werden die Kunden meines Unternehmens angesprochen? (Du/Sie)
- Welche Ausdrucksweise passt zu meinem Use Case?
- Welche Zielgruppe möchte ich mit dem Chatbot oder Voicebot ansprechen?
- Welche Werte, Überzeugungen und Ethik verkörpert mein Unternehmen hinsichtlich der Kommunikation?
- Welche Richtlinien und Leitfäden gibt es bereits hinsichtlich Außendarstellung?
- Soll der Chatbot Emojis verwenden?
Steuerung und Anpassung in KI-Systemen
Der Tone of Voice von generativer KI wird durch den komplexen Trainingsprozess und die zugrundeliegende Datenbasis geformt. Im Pre-Training erlernen KI-Systeme allgemeine Sprachstrukturen und kontextuelle Zusammenhänge.
In der BOTfriends X Plattform können eigene AI Agent Personas erstellt und verwendet werden, innerhalb welche der Sprachstil detailliert festgelegt wird. Parameter hierfür sind beispielsweise die Sprachtemparatur, die Sprachcharakteristiken oder die Länge der Antworten.
Diese AI Agent Personas werden genutzt, um individuelle Kommunikationsmuster zu erzeugen und Antworten an den jeweiligen Anwendungszweck anzupassen. Für die Nutzung unternehmenseigener Wissensdatenbanken kommt häufig „Retrieval Augmented Generation“ (RAG) zum Einsatz, um präzisere und verlässlichere Informationen im gewünschten Tonfall zu liefern.
Häufig gestellte Fragen (FAQ)
Wie wird der Tone of Voice eines Chatbots oder Voicebots bestimmt?
Der Tone of Voice eines Chatbots oder Voicebots wird durch die Kommunikationsstrategie des Unternehmens, die Zielgruppe, den spezifischen Anwendungsfall und die auf anderen Kanälen etablierte Ausdrucksweise bestimmt. Leitfragen zur Gestaltung umfassen die Art der Kundenansprache, die Werte des Unternehmens und die Einhaltung bestehender Richtlinien für die Außendarstellung. Diese Überlegungen ermöglichen die Schaffung einer konsistenten und markengerechten Interaktionsweise.
Welche Rolle spielt der Tone of Voice für die User Experience?
Für die User Experience ist der Tone of Voice von großer Bedeutung, da sie die Wahrnehmung und Akzeptanz der Informationen durch die Nutzenden beeinflusst. Ein empathischer, sachlicher oder informeller Tonfall kann die Interaktion verbessern und das Vertrauen in den AI Agent erhöhen. Eine nicht passende Tonalität kann hingegen zu Missverständnissen oder einer negativen Nutzererfahrung führen, insbesondere bei komplexen oder emotionalen Themen.
Kann der Tone of Voice von KI-Systemen angepasst werden?
Ja, die Tonalität von KI-Systemen kann angepasst werden. In unserer BOTfriends X Plattform werden die verschiedenen Aspekte der Tonalität in eigenen AI Agent Persona definiert, die flexibel verwendet werden können.
> Zurück zum BOTwiki
(Default) Fallback
--> zum BOTwiki
Der (Default) Fallback ist in der Conversational AI ein definierter Dialogstrang, der greift, wenn der AI Agent eine Nutzeranfrage nicht zuordnen kann oder der Confidence Score zu niedrig ist.
Als in der Chatbots noch mit fixen Utterances arbeiteten und Nutzereingaben anhand vordefinierter Beispielsätze einem Intent zugeordnet wurden, war der Fallback eine entscheidende Absicherung, wenn keiner der vordefinierten Themen erkannt wurde. Der Nutzer wurde dann in einen speziellen Dialog geleitet, wo eine vordefinierte Antwort ausgespielt wurde, um Halluzinationen zu vermeiden.
Heute ist die Intenterkennung dank agentischer Logik und Large Language Models deutlich flexibler geworden. Ein AI Agent kann kontextuell reagieren, Mehrdeutigkeiten selbstständig auflösen und auch dann sinnvoll antworten, wenn eine Anfrage nicht exakt in ein vordefiniertes Muster passt. Das Konzept des Fallbacks verliert damit nicht an Bedeutung sondern es verschiebt sich. Statt eines starren Intent-Handlers reicht es heute oft, im Instructions Prompt zu hinterlegen, wie der Agent in unklaren Situationen vorgehen soll.
Wann der Fallback ausgelöst wird
Liegt der Confidence Score bei der Intenterkennung eines AI Agents unter einer festgelegten Schwelle, gilt die Anfrage als nicht sicher zuordenbar. Dadurch wird der Fallback Dialog ausgelöst bzw. der AI Agent bezieht die im Prompt hinterlegte Handlungsanweisung, um auf die Situation zu reagieren. Typische Auslöser sind unvollständige Sätze, Themen außerhalb des Use-Case-Scopes oder fehlerhafte Spracherkennung im Voice-Kanal.
Auch ambivalente Eingaben, bei denen mehrere Themen nahezu gleich wahrscheinlich sind, können einen Fallback auslösen. In modernen AI-Agent-Plattformen wird der Fallback nicht als Sackgasse, sondern als aktiver Dialogschritt verstanden, der den Nutzer wieder in einen produktiven Pfad zurückführt.
Aufbau einer guten Fallback-Antwort
Eine wirksame Fallback-Antwort folgt einer klaren Dramaturgie und vermeidet generische Floskeln. Bewährt hat sich ein dreiteiliger Aufbau, der dem Nutzer Orientierung gibt und das Gespräch fortsetzt, statt es zu beenden.
- Klarstellung des Missverständnisses, ohne dem Nutzer das Scheitern zuzuschreiben.
- Erinnerung an die Kompetenzen des AI Agents, damit klar wird, welche Themen abgedeckt sind.
- Konkrete Handlungsempfehlung, etwa eine Beispielfrage, ein Menüpunkt oder die Übergabe an einen Mitarbeitenden.
Wichtig ist außerdem die Variation der Formulierungen. Werden bei wiederholten Fallbacks immer dieselben Sätze ausgespielt, wirkt der Dialog mechanisch und das Vertrauen in den Agent sinkt spürbar. Mehrere alternative Antworten, die zufällig oder kontextabhängig rotieren, halten das Gespräch natürlich.
Bedeutung für Voice und Chat
Im Voice-Kanal, etwa bei einem Voicebot in der Hotline-Triage, ist der Fallback besonders kritisch. Speech-to-Text produziert systematisch Erkennungsfehler, Hintergrundgeräusche und Dialekte verschlechtern die Eingangssignale zusätzlich.
Im Chat- und E-Mail-Kanal sind die Eingaben in der Regel sauberer, aber länger und thematisch breiter. Hier können im Fallback Fall zusätzliche Vorschläge in Form von Themenübersichten oder Quick Reply Buttons ausgespielt werden, um den Nutzer schnell zur passenden Funktion zu führen.
Häufig gestellte Fragen (FAQ)
Der Fallback ist eine spezielle Reaktion eines AI Agents, die ausgelöst wird, wenn ein er eine Nutzereingabe keinem fachlichen Intent zuordnen kann oder der Confidence Score zu niedrig ist. Er sorgt dafür, dass der Agent kontrolliert reagiert, statt zu raten oder zu schweigen. So bleibt der Dialog auch bei unklaren Anfragen stabil und nachvollziehbar.
Aktiviert wird der Fallback immer dann, wenn keine eindeutige Zuordnung der Nutzeranfrage zu einem definierten Thema möglich ist. Typische Fälle sind unvollständige Eingaben, Themen außerhalb des Use-Case-Scopes oder Erkennungsfehler im Voice-Kanal. Auch wenn mehrere Themen nahezu gleichwertig in Frage kommen, kann ein Fallback mit Rückfrage greifen.
Eine gute Fallback-Antwort klärt das Missverständnis, erinnert kurz an die Kompetenzen des AI Agents und gibt eine konkrete Handlungsempfehlung. Wichtig ist eine wertschätzende Tonalität, die den Nutzer nicht abwertet. Mehrere alternative Formulierungen verhindern, dass die Antwort bei wiederholtem Auftreten mechanisch wirkt.
> Zurück zum BOTwiki
Voice Bot / Assistant
--> zum BOTwiki
Ein Voice Bot ist eine spezielle Form eines Conversational User Interfaces und bildet das Gegenstück zu einem Chatbot. Conversational User Interfaces ermöglichen es mit Computersystemen in natürlicher Sprache zu kommunizieren. Die Ein- und Ausgabe wird bei einem Voice Bot über die gesprochene Sprache realisiert.
Die Technologie von Voice Bots
Der Computer ist mittels eines Speech-To-Text Converter in der Lage die eingehende Sprache in Text umzuwandeln. Der umgewandelte Text wird dann mittels Natural Language Processing vom System interpretiert und verarbeitet. Die Ausgabe der Sprache geschieht über eine Speech-To-Text Technologie.
Zur Umwandlung der gesprochenen Sprache in Text können zum Beispiel die Cloud Services Speech-To-Text und Text-To-Speech von Google und weiteren Anbietern verwendet werden.[1]
Anwendungsbereiche von Voice Bots
Klassische Voice Bots sind die Virtual Assistants Alexa von Amazon, Siri von Apple und der Google Assistant, welche überwiegend mit Sprache bedient werden. Jedoch können diese auch durch Texteingabe angesprochen werden. Weiterhin sind Voice Bots auch im Smart Home Bereich zu finden um dort z.B. über Sprachbefehle die Lampen oder die Heizung zu steuern. [2]
> Zurück zum BOTwiki
Quellen
[1] https://cloud.google.com/speech-to-text/
[2] Gartner IT Glossary, 2019, „Virtual Assistant“.
Conversational Map / Conversational Flow
--> zum BOTwiki
Die Conversational Map, oft synonym als Conversational Flow bezeichnet, ist die visuelle Darstellung eines Dialogverlaufs zwischen Nutzerin oder Nutzer und einem AI Agent. Sie bildet alle möglichen Pfade ab, die ein Gespräch nehmen kann: vom Einstieg über inhaltliche Verzweigungen bis hin zu Fehlerfällen und der Übergabe an einen menschlichen Mitarbeitenden. Die Map dient damit gleichermaßen als Konzeptionswerkzeug, Abstimmungsgrundlage für Stakeholder und Bauplan für die technische Umsetzung.
Gerade in komplexeren Conversational-AI-Projekten ist sie die Grundlage dafür, dass Voice-, Chat- und E-Mail-Dialoge nicht zufällig entstehen, sondern bewusst gestaltet werden. Ohne diese Visualisierung bleibt der Dialogentwurf in Textdokumenten verborgen und lässt sich kaum zwischen Fachbereich, Konzeption und Entwicklung sauber abstimmen.
Warum eine Conversational Map unverzichtbar ist
Eine Conversational Map schafft Transparenz darüber, welche Anliegen ein AI Agent abdeckt und wie er auf typische Eingaben reagiert. Beteiligte aus Fachbereich, IT, Service und Marketing erhalten einen gemeinsamen Blick auf alle Konversationsstränge und können frühzeitig Lücken, Brüche oder unklare Formulierungen identifizieren. So lassen sich vergessene Inhalte ergänzen, schwache Stellen entschärfen und potenzielle Nutzungsbarrieren beseitigen, bevor sie in produktiven Dialogen auftauchen.
Eine gute Map unterscheidet dabei klar zwischen Happy Paths und Edge Cases. Der Happy Path beschreibt den idealen Verlauf, in dem ein Anliegen direkt verstanden und gelöst wird. Edge Cases zeigen, wie der Agent auf abweichende Eingaben, Missverständnisse oder fehlende Informationen reagiert. Diese Trennung ist Voraussetzung dafür, dass die Conversational AI auch in der Realität belastbar bleibt und nicht nur in Demos überzeugt.
Aufbau und typische Stufen
Der Aufbau einer Conversational Map folgt typischen Stufen, die sich von der Begrüßung bis zum Gesprächsende ziehen. Dabei werden eingesetzte Medien, Features und der gewünschte Stil mitgedacht: ein reiner Klick-Bot, ein Freitext-Dialog oder eine Mischform aus beidem.
- Welcome Message mit Begrüßung, Tonalität und Vorstellung des Agents und kurzer Erklärung der Funktionsweise und der abgedeckten Themen.
- Content-Stufen mit den fachlichen Verzweigungen, etwa nach Intents.
- Error Message und Rückfragen für Eingaben mit niedrigem Confidence Score.
- Back Message und Navigationspunkte zurück zu vorherigen Schritten.
- Übergabe an einen menschlichen Mitarbeitenden, wenn Knowledge AI oder AI Workflows nicht ausreichen oder Anliegen nicht zugeordnet werden kann.
Auf dieser Grundlage werden Dialoglogiken, Buttons, dynamische Inhalte und Backend-Aufrufe verknüpft. So entsteht ein konsistenter Bauplan, der später direkt in der Plattform abgebildet wird.
Bedeutung für Voice und Chat
Im Voice-Kanal, etwa bei einem Voicebot oder Phonebot in der Hotline-Triage, muss die Conversational Map besonders sorgfältig gestaltet sein. Spracheingaben sind kürzer, oft mehrdeutig und enthalten Erkennungsfehler aus dem Speech-to-Text-Schritt. Klassische IVR bilden dabei starre Menübäume ohne semantisches Verständnis. AI-Native Voice mit Multi-Agent-Orchestrierung dagegen kann auf Basis der Map flexibel zwischen Spezialagenten wechseln, Kontext halten und Rückfragen gezielt platzieren, ohne dass die Anruferin durch Optionsketten geschleust wird.
Im Chat- und E-Mail-Kanal liegt der Fokus stärker auf Struktur und Lesbarkeit. Buttons, Cards und gegliederte Listen ergänzen den Freitext, und längere Antworten lassen sich in mehrere Schritte zerlegen. Die Conversational Map sorgt dafür, dass die gleiche fachliche Logik über alle Kanäle hinweg konsistent bleibt. Nur die Darstellung passt sich dem jeweiligen Medium an.
Conversational Map in Multi-Agent-Setups
In modernen Conversational-AI-Architekturen mit mehreren spezialisierten AI Agents wird die Conversational Map zur übergeordneten Choreografie. Sie zeigt nicht nur einzelne Dialoge, sondern auch die Übergaben zwischen Agents: vom Triage-Agent zur Vertragsverwaltung, vom Self-Service zur Eskalation. Hybride Intelligenz wird hier explizit modelliert, indem klar markiert ist, an welchen Punkten der Agent autonom entscheidet und an welchen Stellen auf verlässliche Businesslogiken zurückgegriffen wird.
Die Map wird von der Konzeption in die Plattform übertragen, dient während des Betriebs als Referenz für Optimierungen und ist die Grundlage dafür, neue Use Cases sauber zu ergänzen, ohne bestehende Pfade zu zerstören.
Häufig gestellte Fragen (FAQ)
Eine Conversational Map ist die visuelle Darstellung des Dialogflusses zwischen Nutzenden und einem AI Agent. Sie zeigt alle relevanten Pfade von der Begrüßung über fachliche Verzweigungen bis hin zu Fehlerbehandlung und Übergabe und dient als gemeinsames Arbeitsdokument von Konzeption, Fachbereich und Entwicklung.
Die Begriffe werden häufig synonym verwendet. In der Praxis bezeichnet die Conversational Map eher die Gesamtübersicht aller möglichen Dialoge, während Conversational Flow oft den konkreten Verlauf eines einzelnen Anliegens beschreibt. Beide Sichten ergänzen sich und werden in einem strukturierten Dokument zusammengeführt.
Typisch sind Welcome Message, Onboarding, fachliche Content-Stufen, Error- und Rückfrage-Logik, Back-Navigation sowie die Übergabe an einen menschlichen Mitarbeitenden. Ergänzend werden Medien, Buttons und angebundene Features wie E-Mail-Versand oder Backend-Abfragen markiert.
Für Voice- und Phonebot-Projekte ist die Map besonders wichtig, weil Sprachdialoge weniger verzeihend sind als Chat. Sie hilft, kurze Prompts, klare Rückfragen und sinnvolle Eskalationspfade zu definieren. So entsteht ein Dialog, der sich natürlich anfühlt und gleichzeitig in Multi-Agent-Setups zuverlässig zwischen Spezialagents und menschlichen Teams orchestriert werden kann.
> Zurück zum BOTwiki
Entity
--> zum BOTwiki
Entities dienen dazu, Nutzerinformationen aus natürlicher Sprache zu extrahieren.
Dabei wird meist zwischen System Entities und Custom Entities unterschieden. System Entities sind bereits im System enthaltene Entities für beispielsweise Adressen, Uhrzeiten und Zahlen.
Custom Entities können dagegen selbst definiert werden und enthalten je nach Use Case beispielsweise Produktinformationen oder ein Mitarbeiterverzeichnis.
Entities in NLP Services
Bei den gängigen NLP Services [1][2][3] ist die Entity Recognition bereits integriert und zählt neben dem Intent Matching zum Hauptbestandteil des Natural Language Processing für Chatbots.
Beispiel für eine Entity Extraktion
Ich möchte eine kleine Pizza Margherita in die Berliner Straße 1 bestellen.
Entities:
kleine (Custom Entity pizza_size)
Margherita (Custom Entity pizza_type)
Berliner Straße 1 (System Entity street_address)
> Zurück zum BOTwiki
Quellen
[1] https://dialogflow.com/docs/intents
[2] https://docs.microsoft.com/en-us/azure/cognitive-services/luis/luis-concept-utterance
[3] https://cloud.ibm.com/docs/services/assistant?topic=assistant-intents
Confidence Score / Confidence Level
--> zum BOTwiki
Der Confidence Score, oder auch Classification Threshhold, gibt an, wie sicher sich der NLP Service / das Machine Learning Model ist, dass der jeweilige Intent richtig zugeordnet wurde. Der Score kann einen Wert zwischen 0 und 1 besitzen, abhängig davon, wie die neuronalen Netze arbeiten. Generell wird bei jeder Benutzereingabe ein Score für jeden Intent berechnet und der, mit dem höchsten Wert, als Ergebnis zurückgegeben. Fällt das Confidence Level unter eine vorher festgelegte Grenze, wird ein Fallback Intent ausgegeben.
Ein Beispiel für die Berechnung des Confidence Score bei Google Dialogflow:
Für den Intent "Burger_bestellen" wurden folgende vier Trainingsphrasen eingepflegt:
"Burger Bestellung",
"Burger bestellen",
"Ich möchte einen Burger in Bestellung geben",
"Ich will einen Burger bestellen"
Bei der Nutzer-Eingabe von "Ich würde gerne einen Burger bei Ihnen bestellen" hat Dialogflow einen Confidence Score von 0,8 berechnet. Der NLP Service Dialogflow ist sich also 80 % sicher, dass die ausgegebene Antwort aus dem Intent "Burger_bestellen" richtig war. Aufgrund dieser Datenlage und anhand vorher definierter Regeln wird nun kein Fallback Intent ausgegeben.
> Zurück zum BOTwiki

AI Agent ROI Rechner
Kostenloses Training: Chatbot Crashkurs
Whitepaper: Die Akzeptanz von Chatbots

