Session Initiation Protocol (SIP)

-> zum BOTwiki

Das Session Initiation Protocol (SIP) ist ein offener Standard zur Steuerung von Echtzeit-Kommunikationssitzungen über IP-Netzwerke, allen voran Telefonate. SIP regelt, wie ein Anruf aufgebaut, gehalten, weitergeleitet und beendet wird, unabhängig davon, ob die Endpunkte klassische Telefone, Softphones, PBX-Anlagen oder KI-basierte Voicebots sind.

Für AI-Native Voice Agents ist SIP unverzichtbar. Es ist die Brücke zwischen der klassischen Telefonie-Welt (PSTN, Mobilfunk, ISDN-Erbe) und moderner KI-Logik. Ohne saubere SIP-Integration bleibt selbst der intelligenteste AI Agent abgeschnitten von dem Kanal, in dem ein Großteil der wirklich werthaltigen Kundenanfragen stattfindet, also dem Telefon.

Wie SIP technisch funktioniert

SIP arbeitet als Signalisierungsprotokoll. Es regelt nicht den Audio-Transport selbst, sondern den Auf- und Abbau von Sitzungen. Der eigentliche Sprachstrom läuft typischerweise über RTP (Real-time Transport Protocol). SIP-Nachrichten wie INVITE, ACK, BYE und REGISTER definieren, wer wen anruft, ob der Anruf angenommen wird und wann er endet.

Für Voicebots bedeutet das: Sobald ein Anrufer eine Hotline wählt, baut die Telefonie-Infrastruktur über SIP eine Sitzung zum Voice-Agent-Endpunkt auf. Der Agent erhält den Audio-Stream, verarbeitet ihn über Speech-to-Text, LLM und Text-to-Speech und sendet die Antwort zurück. Bei Bedarf kann der Agent über SIP einen Warmtransfer auslösen, also den Anruf inklusive Kontext an einen menschlichen Mitarbeiter übergeben.

Body vs. Brain, warum SIP allein nicht reicht

Klassische Telefonie-Plattformen sind stark in der Leitung, also in der SIP- und PSTN-Anbindung, aber starr in der Logik. Sie setzen KI als Aufsatz auf alte IVR-Strukturen („Sagen Sie 1 für …“) und scheitern dadurch an Mehrdeutigkeit, Kontextwechseln und natürlicher Sprache. Anrufer landen trotz „KI-Voicebot“ am Ende doch in der Warteschleife.

BOTfriends löst das anders. AI-Native Voice von Grund auf, also Multi-Agent-Orchestrierung, kombiniert mit vollwertiger Telefonie-Integration über SIP und PSTN. Der Anrufer formuliert frei, ein Triage-Agent klassifiziert die Anfrage, ein Process-Agent löst sie end-to-end, inklusive Authentifizierung, CRM-/ERP-Zugriff und Dokumentation. SIP bleibt dabei die zuverlässige Body-Komponente, das Brain liefert die KI-Architektur.

Häufig gestellte Fragen (FAQ)

In den meisten Enterprise-Szenarien ja. SIP ist der De-facto-Standard für moderne Telefonie. Web-only-Voice-Anwendungen kommen ohne SIP aus. Sobald jedoch klassische Rufnummern, Hotlines oder PBX-Integrationen ins Spiel kommen, ist SIP der natürliche Anschluss-Standard.

WebRTC ist primär für Browser-zu-Browser-Kommunikation gedacht und benötigt keine klassische Telefonie-Infrastruktur. SIP ist hingegen tief in PSTN, PBX und Mobilfunk verankert. In modernen Setups werden beide oft kombiniert, etwa Web-Chat mit WebRTC und Hotline-Anrufe via SIP.

Ja. Über SIP-Trunking lassen sich bestehende Rufnummern und Telefonie-Verträge nahtlos weiterverwenden. Der Voice Agent wird zum zusätzlichen Endpunkt, der bestimmte Nummern oder Skill-Gruppen abdeckt, ohne Bruch im Kundenerlebnis.

SIP unterstützt Verschlüsselung über TLS und SRTP für den Audio-Transport. BOTfriends nutzt diese Mechanismen standardmäßig, ergänzt um EU-Hosting, rollenbasierte Berechtigungen und revisionssicheres Logging. So lassen sich auch sensible Branchen wie Versicherung, Gesundheit oder Energieversorgung sauber abdecken.

–>  Zurück zum BOTwiki