Ersetzt Speech-to-Speech die klassische STT-LLM-TTS-Pipeline?

Nicht vollständig. S2S-Modelle (wie GPT-5.4 Voice oder SeamlessM4T) bieten eine unerreichte Latenz (ca. 200ms) und erhalten Emotionen, da kein Text-Umweg nötig ist. Die klassische Pipeline (Kaskade) bleibt jedoch für komplexe Business-Logik, Tool-Calling und strikte Compliance überlegen, da der Text als kontrollierbarer Zwischenschritt dient.

Was ist der Unterschied zwischen Speech-to-Speech und Text-to-Speech / Speech-to-Text?

TTS und STT sind Konvertierungstools zwischen Text und Audio. Speech-to-Speech (S2S) hingegen ist eine native Audio-zu-Audio-Verarbeitung. S2S 'versteht' Akzente, Emotionen und Hintergrundgeräusche direkt und kann diese in der Antwort spiegeln, während klassische Systeme diese Informationen beim Transkribieren in Text verlieren.

Speech-to-Speech

Mai 7, 2026

|By Julia Schönau

–-> zum BOTwiki

Speech-to-Speech (S2S) bezeichnet eine Technologie, die gesprochene Sprache direkt in gesprochene Sprache übersetzen oder verarbeiten, ohne den klassischen Umweg über Text. Während herkömmliche Voice Pipelines drei Stufen durchlaufen (Speech-to-Text, dann LLM, dann Text-to-Speech), verarbeitet ein Speech-to-Speech-Modell Audio End-to-End in einem einzigen neuronalen Netz.

So bleiben sogar paralinguistische Informationen erhalten, also Emotion, Tonfall, Lachen oder Zögern, die bei der Transkription in Text typischerweise verlorengehen.

Wo Speech-to-Speech glänzt und wo es Grenzen hat

S2S-Modelle sind besonders stark bei kurzen, dialogischen Interaktionen mit hohem Anspruch an Natürlichkeit, etwa in Smalltalk, einfacher Auskunft oder FAQ-nahen Themen. Schwächer sind sie aktuell bei komplexen, geschäftskritischen Prozessen mit mehrstufigen Tool-Aufrufen, Authentifizierung und Backend-Schreibvorgängen. Hier scheitern Single-Modell-Architekturen schnell an Tool-Calling-Fehlern oder mangelnder Regeltreue.

Häufig gestellte Fragen (FAQ)

Nicht generell. Speech-to-Speech ist überlegen bei Latenz und Natürlichkeit, hat aber bei komplexem Tool-Calling, Regeltreue und Auditierbarkeit aktuell Schwächen.

Während Text-to-Speech (TTS) und Speech-to-Text (STT) lediglich zwischen geschriebener und gesprochener Sprache konvertieren, wandelt Speech-to-Speech (S2S) eine Audioeingabe direkt in eine neue Audioausgabe um. Dabei können Merkmale wie die Stimme, Emotionen und die Intonation des Sprechers erhalten bleiben oder in eine andere Sprache übersetzt werden, ohne dass der Umweg über sichtbaren Text zwingend im Fokus steht.

–> Zurück zum BOTwiki

Produkt

Features

Integrationen

Wissen

Dokumentation & Know-How

Empfehlungen

Speech-to-Speech

Wo Speech-to-Speech glänzt und wo es Grenzen hat

Häufig gestellte Fragen (FAQ)

Produkt

Features

Integrationen

Wissen

Dokumentation & Know-How

Empfehlungen

Speech-to-Speech

Wo Speech-to-Speech glänzt und wo es Grenzen hat

Häufig gestellte Fragen (FAQ)

Ersetzt Speech-to-Speech die klassische STT-LLM-TTS-Pipeline?+

Was ist der Unterschied zwischen Speech-to-Speech und Text-to-Speech / Speech-to-Text?+