Prompt Injection
–-> zum BOTwiki
Prompt Injection ist eine Angriffsklasse gegen LLM-basierte Systeme, bei der Angreifer manipulierte Eingaben einschleusen, um das Verhalten des Modells zu kapern, etwa um Sicherheitsregeln zu umgehen, vertrauliche Inhalte abzurufen oder unerwünschte Aktionen auszulösen. Für einen produktiven AI Agent ist Prompt Injection eines der wichtigsten Bedrohungsmodelle, das nicht durch einen einzelnen Schutz, sondern nur durch eine Kombination aus Architektur, Filterung und Monitoring eingegrenzt werden kann.
Direkte und indirekte Prompt Injection
- Direkte Injection: Die Nutzerin oder der Nutzer formuliert die Eingabe so, dass die Anweisungen des Systems überschrieben werden, etwa mit Aufforderungen, vorherige Regeln zu ignorieren.
- Indirekte Injection: Schädliche Anweisungen werden in externen Inhalten versteckt, die der Agent verarbeitet, beispielsweise in Webseiten, Mails oder Dokumenten, auf die ein Tool zugreift.
Warum Single-Prompt-Tools besonders gefährdet sind
Wrapper-Tools, die alle Anfragen über einen einzigen monolithischen Prompt abwickeln, sind strukturell anfällig. Sie haben keine klare Trennung zwischen vertrauenswerten Anweisungen, Nutzereingaben und externem Kontext, sondern alles landet im selben Token-Strom. Multi-Agent-Orchestrierung erschwert solche Angriffe spürbar, weil jede Stufe klar abgegrenzte Verantwortlichkeiten hat.
Verteidigungsstrategien
Belastbare Schutzmaßnahmen bestehen aus mehreren Schichten:
- Strikte Trennung von Nutzereingabe und System-Prompt, sodass das Modell Anweisungen aus dem Input nicht als Befehle akzeptiert.
- Filter und Erkennungs-Layer für verdächtige Muster in Eingaben und externen Inhalten.
- Sandboxing externer Quellen, sodass abgerufene Inhalte nicht ungeprüft in den Modellkontext gelangen.
- Monitoring und Alerting auf untypisches Modellverhalten.
- Regelmäßige Audits durch interne und externe Penetrationstests.
Prompt Injection im Branchen-Kontext
Im Service-Kontext sind besonders sicherheitskritische Workflows betroffen: SAP-Write-Backs in Stadtwerken, Patientenanfragen im Healthcare, Zahlungsfragen im Verlagswesen. Eng verwandt mit Prompt Injection sind Themen wie Prompt Jailbreaks und AI Safety Filter.
Häufig gestellte Fragen (FAQ)
Eine 100-prozentige Sicherheit existiert nicht. Mit mehrschichtiger Architektur, Multi-Agent-Setup und kontinuierlichem Monitoring lässt sich das Risiko jedoch sehr stark eingrenzen.
Eine zentrale. Indem Verantwortlichkeiten auf spezialisierte Agents verteilt sind, hat ein einzelner kompromittierter Prompt nur begrenzten Wirkungsradius.
Sie sind häufig schwerer zu erkennen, weil die schädlichen Anweisungen nicht direkt im Nutzer-Input liegen. Dadurch sind sie ein besonders wichtiger Fokus moderner Sicherheits-Layer.
Für produktive Systeme in DACH gelten DSGVO und EU AI Act. BOTfriends erfüllt diese Anforderungen und bietet entsprechende Audit-Logs sowie Datenschutzfolgenabschätzungen.
–> Zurück zum BOTwiki

AI Agent ROI Rechner
Kostenloses Training: Chatbot Crashkurs
Whitepaper: Die Akzeptanz von Chatbots