Indirekte Injektion
Indirekte Injektion (Indirect Prompt Injection) bezeichnet eine Angriffstechnik gegen KI-Sprachmodelle, bei der manipulierte Anweisungen in externe Inhalte wie Webseiten, E-Mails oder Dokumente eingebettet werden. Diese werden vom KI-System bei der Verarbeitung als legitime Befehle missverstanden.
Ausführliche Erklärung
Bei der indirekten Injektion platzieren Angreifende bösartige Befehle nicht direkt in der Benutzereingabe, sondern verstecken sie in Inhalten, die ein KI-System später automatisch verarbeitet. Dies können Webseitentexte, PDF-Dokumente, E-Mail-Inhalte oder andere externe Datenquellen sein. Wenn ein KI-Agent oder Large Language Model diese Inhalte im Rahmen seiner regulären Arbeit einliest – etwa beim Zusammenfassen einer Webseite oder beim Analysieren eines Dokuments – interpretiert das Modell die eingebetteten Anweisungen als ausführbare Befehle. Die Manipulation bleibt für Nutzende oft unsichtbar, etwa durch weißen Text auf weißem Hintergrund, verschwindend kleine Schriftgröße oder Anweisungen in HTML-Kommentaren und Metadaten.
Das Risiko ist strukturell bedingt: Moderne Sprachmodelle können innerhalb eines einzigen Kontextstroms nicht zuverlässig zwischen vertrauenswürdigen System-Anweisungen und nicht vertrauenswürdigen externen Daten unterscheiden. Die möglichen Sicherheitsauswirkungen reichen von der Exfiltration vertraulicher Benutzerdaten bis zur Ausführung unbeabsichtigter Aktionen unter Verwendung der Anmeldedaten des Benutzers. Besonders kritisch wird indirekte Injektion, wenn KI-Agenten mit erweiterten Berechtigungen ausgestattet sind: Browser-Erweiterungen, automatisierte Pipelines, Kundensupport-Systeme oder Agenten mit Zugriff auf Unternehmensdaten und APIs können durch eine einzige manipulierte Seite das Verhalten für viele Nutzende gleichzeitig beeinflussen.
Die indirekte Injektion steht seit 2025 an erster Stelle der OWASP Top 10 für LLM-Anwendungen und generative KI. Sicherheitsforschende von Google, Microsoft, Palo Alto Networks und anderen haben 2025 und 2026 reale Angriffe dokumentiert – darunter versteckte PayPal-Transaktionsanweisungen, Donation-Link-Weiterleitungen und Test-Payloads auf öffentlichen Webseiten. Google berichtete im Februar 2026 von einem relativen Anstieg bösartiger indirekter Prompt-Injections um 32 Prozent zwischen November 2025 und Februar 2026. Die zuverlässige Erkennung indirekter Prompt-Injections gilt weiterhin als ungelöstes Forschungsproblem. Microsoft, Google und andere Anbieter setzen daher auf mehrschichtige Verteidigungsstrategien mit probabilistischen und deterministischen Schutzmaßnahmen – darunter gehärtete System-Prompts, Spotlighting zur Isolierung nicht vertrauenswürdiger Eingaben, spezialisierte Erkennungsmodelle und strenge Berechtigungskonzepte.
Praxisbeispiel
Eine österreichische Steuerberatungskanzlei (12 Mitarbeitende) nutzt einen KI-Assistenten zur automatischen Zusammenfassung von Mandanten-E-Mails und angehängten Dokumenten. Ein Angreifer sendet ein manipuliertes PDF-Dokument mit versteckten Anweisungen in weißer Schrift. Beim Einlesen interpretiert der KI-Assistent diese als Befehl, vertrauliche Finanzdaten aus dem Gesprächsverlauf in einen externen HTML-Bild-Tag zu kodieren, der beim Laden unbemerkt an den Server des Angreifers übertragen wird.
Quellen
- How Microsoft Defends Against Indirect Prompt Injection Attacks – Microsoft Security Response Center
- LLM01:2025 Prompt Injection – OWASP Gen AI Security Project
- AI threats in the wild: The current state of prompt injections on the web – Google Security Blog
- Fooling AI Agents: Web-Based Indirect Prompt Injection Observed in the Wild – Palo Alto Networks Unit 42
- Indirect Prompt Injections – Intrinsische Schwachstelle in anwendungsintegrierten KI-Sprachmodellen – BSI