Mit dem zunehmenden Einsatz von Voicebots im Kundenservice und in der Telefonie wird die Latenz von Text-to-Speech (TTS) zu einem immer kritischeren Faktor. Die Benutzer erwarten eine Echtzeit-Antwort, und jede Millisekunde zählt – vor allem bei telefonischen Gesprächen, wo sich Stille wie ein Versagen anfühlt.

Um die optimale Leistung unserer Phonebots bei BOTfriends zu gewährleisten, haben wir einen umfassenden Benchmark durchgeführt, bei dem wir die TTS-Stimmen von Google Cloud und Microsoft Azure für Deutsch (de-DE) verglichen haben. Unser Ziel: die schnellsten und zuverlässigsten Stimmen für verschiedene Nachrichtentypen zu identifizieren.

Testaufbau

Jede Stimme wurde in drei Anwendungsfällen getestet:

  1. Kurze Nachricht – 1 Satz
  2. Lange Nachricht – 3-5 Sätze
  3. Mehrere Nachrichten – 3 aufeinanderfolgende kurze Nachrichten

Jeder Testfall wurde dreimal pro Stimme ausgeführt, und der Mittelwert (in Millisekunden) wurde aufgezeichnet, um Anomalien zu minimieren. Wir analysierten sowohl einzelne Stimmen als auch Stimmtypen.

Zusammenfassung der Testergebnisse

Voice Anbieter Schnellster Voicetyp Langsamster Voicetyp
Google Neural2 Chirp
Microsoft Neural DragonHD

Beste Gesamtperformance

  • Die Stimmen von Google Neural2 und Microsoft Neural lieferten durchweg die niedrigste Latenz.
  • Die Neural2-G- und Standard-D-Stimmen von Google schnitten in allen Szenarien außergewöhnlich gut ab.
  • Microsofts KatjaNeural und KillianNeural zeichneten sich durch ihre Reaktionsfähigkeit aus.

Am ungeeignetsten für die Echtzeitnutzung

  • Die Google Chirp3-HD-Stimmen wiesen mit bis zu 3,5 Sekunden bei langen Nachrichten die höchste Latenz auf.
  • Die DragonHDLatestNeural-Stimmen von Microsoft waren mit 354 ms+ für kurze Nachrichten ähnlich langsam.

Detaillierte Ergebnisse

📊 Google TTS Voice Latency (ms)

Voice Typ Kurze Nachricht Lange Nachricht Mehrere Nachrichten
Standard 159.96 468.83 153.60
Neural 🥇 101.17 🥇 133.50 🥇 82.67
Wavenet 324.04 951.12 210.37
Chirp 🚨 614.12 🚨 3436.52 🚨 525.82

Top Performer:

  • de-DE-Standard-D – 71.00 ms (kurz), 103.00 ms (lang)
  • de-DE-Neural2-H – 81.67 ms (kurz), 154.33 ms (lang)
  • de-DE-Neural2-G – 81.89 ms (mehrere Nachrichten)

📊 Microsoft TTS Voice Latency (ms)

Voice Typ Kurze Nachricht Lange Nachricht Mehrere Nachrichten
Neural 🥇 104.71 135.52 🥇 113.13
MultilingualNeural 120.00 153.34 163.00
DragonHDLatestNeural 🚨 356.00 403.84 🚨 342.61

Top Performer:

  • de-DE-GiselaNeural – 🥇 59.33 ms (kurz)
  • de-DE-KatjaNeural – 64.00 ms (short), 83.33 ms (mehrere)
  • de-DE-KillianNeural – 80.00 ms (lang)

Interpretation der Zahlen

Warum die Latenz wichtig ist:

  • Geringere Latenz = schnellere Reaktionszeit im Gespräch.
  • Eine hohe TTS-Latenzzeit verursacht unangenehme Pausen und beeinträchtigt das Benutzererlebnis.
  • Mehrere kürzere Nachrichten imitieren den realen Gesprächsrhythmus, was diese Kennzahl sehr relevant macht.

 

Neuronale Modelle sind das Nonplusultra:

  • Die neuronalen Stimmen beider Anbieter übertreffen Premium-„HD“-Modelle wie Chirp und DragonHD an Geschwindigkeit.
  • Bei telefonbasierten Systemen überwiegen schnelle Reaktionszeiten den Bedarf an sehr natürlich klingender Sprache.

Empfehlungen für Voice-Bot-Entwickler

Wenn Sie Voice Bots für Echtzeit-Interaktionen entwickeln (z. B. Kundendienst-Hotlines oder IVRs), empfehlen wir dringend:

Verwenden Sie diese Stimmen für Geschwindigkeit:

  • Google de-DE-Neural2-G / H
  • Google Standard-D / F
  • Microsoft KatjaNeural / KillianNeural

Vermeiden Sie diese Stimmen für den Echtzeit-Einsatz:

  • Google Chirp3-HD-* Stimmen
  • Microsoft DragonHDLatestNeural Stimmen

Diese Stimmen mit hoher Latenz können in nicht-interaktiven Anwendungsfällen oder in Fällen, in denen ultrahohe Qualität wichtiger ist als Geschwindigkeit, dennoch nützlich sein.

Abschließende Gedanken

Unser Benchmarking zeigt deutlich, dass nicht alle TTS-Stimmen gleich sind. Mit den neuronalen Sprachmodellen bieten sowohl Google als auch Microsoft hochleistungsfähige Optionen mit geringer Latenz, die für moderne Telefonbots geeignet sind.
Wir bei BOTfriends sind bestrebt, schnelle, natürliche Spracherlebnisse zu liefern – und Tests wie dieser stellen sicher, dass wir mit den besten verfügbaren Tools arbeiten.