Speech-to-Speech

-> zum BOTwiki

Speech-to-Speech (S2S) bezeichnet eine Technologie, die gesprochene Sprache direkt in gesprochene Sprache übersetzen oder verarbeiten, ohne den klassischen Umweg über Text. Während herkömmliche Voice Pipelines drei Stufen durchlaufen (Speech-to-Text, dann LLM, dann Text-to-Speech), verarbeitet ein Speech-to-Speech-Modell Audio End-to-End in einem einzigen neuronalen Netz.

So bleiben sogar paralinguistische Informationen erhalten, also Emotion, Tonfall, Lachen oder Zögern, die bei der Transkription in Text typischerweise verlorengehen.

Wo Speech-to-Speech glänzt und wo es Grenzen hat

S2S-Modelle sind besonders stark bei kurzen, dialogischen Interaktionen mit hohem Anspruch an Natürlichkeit, etwa in Smalltalk, einfacher Auskunft oder FAQ-nahen Themen. Schwächer sind sie aktuell bei komplexen, geschäftskritischen Prozessen mit mehrstufigen Tool-Aufrufen, Authentifizierung und Backend-Schreibvorgängen. Hier scheitern Single-Modell-Architekturen schnell an Tool-Calling-Fehlern oder mangelnder Regeltreue.

Häufig gestellte Fragen (FAQ)

Nicht generell. Speech-to-Speech ist überlegen bei Latenz und Natürlichkeit, hat aber bei komplexem Tool-Calling, Regeltreue und Auditierbarkeit aktuell Schwächen.

Während Text-to-Speech (TTS) und Speech-to-Text (STT) lediglich zwischen geschriebener und gesprochener Sprache konvertieren, wandelt Speech-to-Speech (S2S) eine Audioeingabe direkt in eine neue Audioausgabe um. Dabei können Merkmale wie die Stimme, Emotionen und die Intonation des Sprechers erhalten bleiben oder in eine andere Sprache übersetzt werden, ohne dass der Umweg über sichtbaren Text zwingend im Fokus steht.

–>  Zurück zum BOTwiki