Trainingsnutzung von Eingabedaten
Trainingsnutzung von Eingabedaten bezeichnet die Verwendung von Benutzereingaben (Prompts, hochgeladene Dokumente) durch KI-Anbieter zur Verbesserung und zum Nachtraining ihrer KI-Modelle. Diese Praxis ist datenschutzrechtlich kritisch, da Eingaben häufig personenbezogene Daten enthalten.
Ausführliche Erklärung
Wenn Mitarbeitende eines Unternehmens Daten in ein KI-System eingeben, werden diese nicht zwingend nur zur Beantwortung der aktuellen Anfrage verwendet. Viele Anbieter nutzen die eingegebenen Prompts, hochgeladenen Dateien und sogar die generierten Ausgaben, um ihre KI-Modelle weiterzuentwickeln. Dies geschieht durch Analyse der Interaktionen, um Muster zu erkennen und die Qualität künftiger Antworten zu optimieren. Bei kostenlosen Versionen von KI-Tools wie ChatGPT, Google Gemini oder ähnlichen Diensten ist diese Trainingsnutzung standardmäßig aktiv. Die Eingabedaten können dabei in die weltweiten Trainingsdatensätze einfließen und sind faktisch nicht mehr löschbar.
Für Unternehmen stellt dies ein erhebliches Datenschutzrisiko dar. Wenn Mitarbeitende Kundendaten, Verträge, Personalinformationen oder andere geschäftskritische Informationen in solche Systeme eingeben, können diese dauerhaft in die KI-Modelle integriert werden. Die DSGVO sieht für solche Fälle eine eigenständige Rechtsgrundlage nach Art. 6 DSGVO vor, da der Anbieter dann nicht mehr nur als Auftragsverarbeiter handelt, sondern zu eigenen Zwecken verarbeitet. Bei standardmäßiger Aktivierung der Trainingsnutzung kann die erforderliche Rechtsgrundlage fehlen, insbesondere wenn keine wirksame Einwilligung betroffener Personen vorliegt.
Die datenschutzrechtliche Bewertung im Rahmen eines Auftragsverarbeitungsvertrags (AVV) ist zentral: Ein AVV gemäß Art. 28 DSGVO setzt voraus, dass der Anbieter Daten ausschließlich auf Weisung des Unternehmens verarbeitet. Nutzt der Anbieter Eingabedaten jedoch für eigene Trainingszwecke, überschreitet dies die Grenze der Auftragsverarbeitung. In solchen Fällen reicht ein AVV allein nicht aus. Unternehmen sollten daher gezielt Enterprise-Versionen oder Business-Tarife wählen, bei denen die Trainingsnutzung vertraglich ausgeschlossen ist. Anbieter wie OpenAI, Anthropic und Microsoft bieten solche Optionen an, bei denen Kundendaten explizit nicht zum Modelltraining verwendet werden.
Entscheidend ist die vertragliche Klärung vor der Nutzung. In einem DSGVO-konformen AVV für KI-Dienste muss explizit geregelt sein, ob und zu welchen Zwecken Eingabedaten verarbeitet werden. Fehlt eine eindeutige Klausel zum Ausschluss der Trainingsnutzung, sollten keine personenbezogenen Daten eingegeben werden. Unternehmen müssen diese Prüfung bei jedem eingesetzten KI-Tool vornehmen und in ihrer KI-Nutzungsrichtlinie verankern.
Praxisbeispiel
Ein Steuerberatungsunternehmen mit 18 Mitarbeitenden in Graz nutzt die kostenlose Version von ChatGPT, um Mandantenbriefe zu formulieren. Dabei geben Mitarbeitende Namen, Steuernummern und vertrauliche Finanzdaten ein. Diese Informationen fließen in die Trainingsdaten von OpenAI ein und sind faktisch nicht mehr löschbar. Nach einer Datenschutzprüfung wechselt die Kanzlei auf ChatGPT Enterprise mit AVV, der die Trainingsnutzung ausdrücklich ausschließt.
Quellen
- KI und Datenschutz 2025: Leitfaden für DSGVO-konformen KI-Einsatz | Assecor
- KI und Datenschutz im Unternehmen – Was Sie 2026 beachten müssen
- Enterprise privacy at OpenAI | OpenAI
- Auftragsverarbeitungsvertrag (AVV): Was ist das und wann ist er Pflicht?
- Rechtsgrundlagen im Datenschutz beim Einsatz von Künstlicher Intelligenz | Der Landesbeauftragte für den Datenschutz und die Informationsfreiheit Baden-Württemberg