Sicherheit fortgeschritten

Indirekte Injektion

Indirekte Injektion (Indirect Prompt Injection) bezeichnet eine Angriffstechnik gegen KI-Sprachmodelle, bei der manipulierte Anweisungen in externe Inhalte wie Webseiten, E-Mails oder Dokumente eingebettet werden. Diese werden vom KI-System bei der Verarbeitung als legitime Befehle missverstanden.

Ausführliche Erklärung

Bei der indirekten Injektion platzieren Angreifende bösartige Befehle nicht direkt in der Benutzereingabe, sondern verstecken sie in Inhalten, die ein KI-System später automatisch verarbeitet. Dies können Webseitentexte, PDF-Dokumente, E-Mail-Inhalte oder andere externe Datenquellen sein. Wenn ein KI-Agent oder Large Language Model diese Inhalte im Rahmen seiner regulären Arbeit einliest – etwa beim Zusammenfassen einer Webseite oder beim Analysieren eines Dokuments – interpretiert das Modell die eingebetteten Anweisungen als ausführbare Befehle. Die Manipulation bleibt für Nutzende oft unsichtbar, etwa durch weißen Text auf weißem Hintergrund, verschwindend kleine Schriftgröße oder Anweisungen in HTML-Kommentaren und Metadaten.

Das Risiko ist strukturell bedingt: Moderne Sprachmodelle können innerhalb eines einzigen Kontextstroms nicht zuverlässig zwischen vertrauenswürdigen System-Anweisungen und nicht vertrauenswürdigen externen Daten unterscheiden. Die möglichen Sicherheitsauswirkungen reichen von der Exfiltration vertraulicher Benutzerdaten bis zur Ausführung unbeabsichtigter Aktionen unter Verwendung der Anmeldedaten des Benutzers. Besonders kritisch wird indirekte Injektion, wenn KI-Agenten mit erweiterten Berechtigungen ausgestattet sind: Browser-Erweiterungen, automatisierte Pipelines, Kundensupport-Systeme oder Agenten mit Zugriff auf Unternehmensdaten und APIs können durch eine einzige manipulierte Seite das Verhalten für viele Nutzende gleichzeitig beeinflussen.

Die indirekte Injektion steht seit 2025 an erster Stelle der OWASP Top 10 für LLM-Anwendungen und generative KI. Sicherheitsforschende von Google, Microsoft, Palo Alto Networks und anderen haben 2025 und 2026 reale Angriffe dokumentiert – darunter versteckte PayPal-Transaktionsanweisungen, Donation-Link-Weiterleitungen und Test-Payloads auf öffentlichen Webseiten. Google berichtete im Februar 2026 von einem relativen Anstieg bösartiger indirekter Prompt-Injections um 32 Prozent zwischen November 2025 und Februar 2026. Die zuverlässige Erkennung indirekter Prompt-Injections gilt weiterhin als ungelöstes Forschungsproblem. Microsoft, Google und andere Anbieter setzen daher auf mehrschichtige Verteidigungsstrategien mit probabilistischen und deterministischen Schutzmaßnahmen – darunter gehärtete System-Prompts, Spotlighting zur Isolierung nicht vertrauenswürdiger Eingaben, spezialisierte Erkennungsmodelle und strenge Berechtigungskonzepte.

Praxisbeispiel

Eine österreichische Steuerberatungskanzlei (12 Mitarbeitende) nutzt einen KI-Assistenten zur automatischen Zusammenfassung von Mandanten-E-Mails und angehängten Dokumenten. Ein Angreifer sendet ein manipuliertes PDF-Dokument mit versteckten Anweisungen in weißer Schrift. Beim Einlesen interpretiert der KI-Assistent diese als Befehl, vertrauliche Finanzdaten aus dem Gesprächsverlauf in einen externen HTML-Bild-Tag zu kodieren, der beim Laden unbemerkt an den Server des Angreifers übertragen wird.

Ausführliche Erklärung

Praxisbeispiel

Quellen

Vertiefende Artikel im KI-Hub

Prompt Injection — Wenn Ihre KI hinter Ihrem Rücken plant

KI-Workflows mit Unternehmensdaten absichern