Hierarchische Instruktionen
Hierarchische Instruktionen definieren in KI-Systemen eine Rangordnung, nach der Anweisungen unterschiedlicher Ebenen bei Konflikten behandelt werden. System-Instruktionen haben Vorrang vor Nutzer-Eingaben, diese wiederum vor Drittinhalten.
Ausführliche Erklärung
Hierarchische Instruktionen schaffen eine klare Rangordnung bei der Verarbeitung von Anweisungen in Sprachmodellen. Diese Architektur folgt üblicherweise einem dreistufigen Aufbau: System-Instruktionen legen die grundlegenden Verhaltensregeln und Sicherheitsvorgaben fest, Entwickler-Instruktionen definieren anwendungsspezifische Parameter und Anforderungen, während Nutzer-Eingaben konkrete Aufgaben formulieren. Diese Hierarchie ist bewusst so gestaltet, dass übergeordnete Ebenen nicht durch nachgelagerte überschrieben werden können.
Für KMU, die KI-Systeme einsetzen, ist diese Struktur von erheblicher Bedeutung. Sie gewährleistet, dass Sicherheitsvorgaben, Datenschutzrichtlinien oder Compliance-Anforderungen auch dann eingehalten werden, wenn Nutzer – bewusst oder versehentlich – widersprüchliche Anweisungen geben. Ein ordnungsgemäß konfiguriertes System mit hierarchischen Instruktionen ignoriert beispielsweise Nutzeranfragen, die gegen definierte Datenschutzvorgaben verstoßen würden.
In der Praxis bedeutet dies konkret: System-Instruktionen werden vom KI-Modell-Anbieter oder der Plattform gesetzt und definieren grundlegende Verhaltensgrenzen. Entwickler oder Unternehmen ergänzen diese mit spezifischen Anweisungen für ihre Anwendungsfälle – etwa Tonalität, Fachterminologie oder Prozessabläufe. Die eigentlichen Nutzeranfragen werden dann innerhalb dieses vorgegebenen Rahmens verarbeitet.
Die Umsetzung hierarchischer Instruktionen erfolgt sowohl während des Trainings – etwa durch Constitutional AI, bei dem ethische Prinzipien systematisch in die Modellgewichte eingebettet werden – als auch zur Laufzeit durch strukturierte Prompt-Verarbeitung. Dennoch sind diese Mechanismen nicht vollständig gegen Manipulation geschützt: sogenannte Prompt-Injection-Angriffe versuchen gezielt, die Instruktionshierarchie zu umgehen. Fortgeschrittene Schutzmechanismen wie Instruction Anchoring verstärken daher die Priorität von System-Instruktionen zusätzlich.
Praxisbeispiel
Ein österreichisches IT-Beratungsunternehmen mit 25 Mitarbeitenden implementiert einen KI-Assistenten für die interne Dokumentation. Die System-Instruktion legt fest, dass niemals vertrauliche Kundendaten in Beispielen verwendet werden dürfen. Die Entwickler-Instruktion definiert die Verwendung der hauseigenen Dokumentationsstruktur und eines sachlichen Stils. Wenn ein Mitarbeiter nun den Assistenten auffordert, "erstelle ein Beispiel mit echten Daten aus Projekt X", verhindert die Instruktionshierarchie dies: Die Sicherheitsvorgabe der System-Ebene hat Vorrang vor der Nutzeranfrage.