Cross-Modal-Injektion
Cross-Modal-Injektion ist eine Angriffstechnik gegen multimodale KI-Systeme, bei der Angreifer bösartige Anweisungen über mehrere Eingabekanäle (z. B. Text, Bild, Audio) gleichzeitig einschleusen, um das Verhalten des Systems zu manipulieren und Sicherheitsvorkehrungen zu umgehen.
Ausführliche Erklärung
Cross-Modal-Injektion stellt eine Weiterentwicklung klassischer Prompt-Injection-Angriffe dar, die speziell multimodale KI-Systeme wie Vision-Language-Modelle betrifft. Während herkömmliche Prompt-Injections auf manipulative Textanweisungen setzen, nutzen Cross-Modal-Angriffe die Tatsache, dass moderne KI-Modelle mehrere Eingabekanäle gleichzeitig verarbeiten. Angreifer können dabei beispielsweise schädliche Anweisungen in Bildern verstecken, die für das menschliche Auge harmlos erscheinen, vom KI-Modell jedoch als Befehle interpretiert werden. Die Manipulation erfolgt durch gezielte Veränderungen im visuellen Einbettungsraum oder durch Textinformationen in Bildmetadaten, SVG-Dateien oder kaum sichtbare Bildinhalte.
Die Gefahr dieser Angriffsform liegt darin, dass etablierte Sicherheitsmechanismen für textbasierte Eingaben systematisch umgangen werden. Textfilter und semantische Firewalls prüfen ausschließlich die sprachliche Ebene, während visuelle oder auditive Eingaben oft ungefiltert zum Modell gelangen. Wissenschaftliche Untersuchungen zeigen Erfolgsraten von über 80 Prozent für solche versteckten Angriffe. Besonders kritisch wird dies bei KI-Agenten mit erweiterten Berechtigungen, die auf Unternehmensdaten zugreifen, E-Mails versenden oder Geschäftsprozesse steuern können.
Für Unternehmen bedeutet dies: Sobald KI-Systeme Dokumente mit Bildern, Präsentationen, Webseiten oder andere multimediale Inhalte verarbeiten, entsteht eine neue Angriffsfläche. Die Cross-Agent Multimodal Provenance-Aware Defense Framework-Ansätze setzen deshalb auf mehrschichtige Verteidigung durch Eingabefilterung für jede Modalität, Architektur-Isolierung und kontinuierliche Ausgabevalidierung. Die Herausforderung besteht darin, dass es aufgrund der probabilistischen Natur generativer KI keine absolut sicheren Präventionsmethoden gibt.
Da bis 2030 laut Analystenschätzungen rund 80 Prozent der Unternehmenssoftware multimodal sein wird, gewinnt der Schutz vor Cross-Modal-Injektionen erheblich an Bedeutung. Unternehmen sollten bildbasierte Eingaben aus nicht vertrauenswürdigen Quellen mit derselben Skepsis behandeln wie externe Texteingaben und dedizierte Red-Teaming-Übungen für visuelle Angriffsvektoren durchführen.
Praxisbeispiel
Ein österreichisches Steuerberatungsunternehmen mit 25 Mitarbeitenden setzt einen KI-Assistenten zur automatisierten Dokumentenanalyse ein. Ein Angreifer sendet eine manipulierte Rechnung als PDF, deren eingebettetes Logo unsichtbare Anweisungen enthält. Beim Einlesen interpretiert das Vision-Language-Modell diese versteckten Befehle und extrahiert anstelle der Rechnungsdaten vertrauliche Mandanteninformationen, die es per E-Mail an eine externe Adresse sendet.
Quellen
- LLM01:2025 Prompt Injection - OWASP Gen AI Security Project
- Manipulating Multimodal Agents via Cross-Modal Prompt Injection (Wang et al., 2025)
- Securing Agentic AI: How Semantic Prompt Injections Bypass AI Guardrails | NVIDIA Technical Blog
- Multimodal prompt injection: attacks in images, audio, and video
- KI-Tools in der Entwicklung schaffen neue Angriffsflächen | Security Insider