Permission Debt
Permission Debt bezeichnet die rechtliche Verbindlichkeit, die entsteht, wenn KI-Modelle mit Daten trainiert wurden, für deren Verwendung keine ausreichende Erlaubnis oder Lizenz vorlag. Diese "Schuld" kann zu Urheberrechtsklagen, Vertragsverletzungen und Haftungsrisiken führen.
Ausführliche Erklärung
Permission Debt entsteht typischerweise während der Trainingsphase von KI-Modellen, wenn Entwickler große Datenmengen aus dem Internet sammeln, ohne die Nutzungsrechte vollständig zu klären. Beim sogenannten Web Crawling werden häufig urheberrechtlich geschützte Texte, Bilder oder andere Werke in Trainingsdatensätze aufgenommen, ohne dass die Rechteinhaber ihre Zustimmung erteilt haben oder gegen deren explizite Nutzungsbedingungen.
Die rechtliche Situation ist komplex und in vielen Rechtsordnungen noch nicht abschließend geklärt. In Deutschland und der EU existiert mit der Text- und Data-Mining-Schranke (§ 44b UrhG) zwar eine gesetzliche Ausnahme, die unter bestimmten Bedingungen die Vervielfältigung von Werken zu Trainingszwecken erlaubt. Allerdings können Rechteinhaber dieser Nutzung widersprechen, und die Anwendbarkeit auf kommerzielle KI-Systeme ist juristisch umstritten. Verschiedene Klagen gegen Anbieter wie OpenAI, Stability AI oder Meta zeigen, dass Urheberrechtsinhaber zunehmend gegen die unerlaubte Nutzung ihrer Werke vorgehen.
Für Unternehmen, die KI-Modelle entwickeln oder einsetzen, entsteht dadurch ein doppeltes Risiko: Einerseits haften die Entwickler für die rechtmäßige Zusammenstellung der Trainingsdaten. Andererseits können auch Nutzer in die Haftung geraten, wenn sie Outputs verwenden, die auf rechtswidrig trainierten Modellen basieren. Permission Debt ist dabei keine einmalige Schuld, sondern bleibt im Modell "eingebettet" und kann auch Jahre nach dem Training noch rechtliche Konsequenzen haben.
Um Permission Debt zu vermeiden, setzen verantwortungsbewusste Entwickler auf sogenannte "copyright-clean" Trainingsdaten – also Daten aus gemeinfreien Quellen, mit expliziten Lizenzen oder eigens erstelltem Material. Dies ist aufwendiger und teurer, schafft aber langfristige Rechtssicherheit. Unternehmen, die KI-Systeme einkaufen, sollten von Anbietern Transparenz über die verwendeten Trainingsdaten und vertragliche Zusicherungen zur rechtmäßigen Datenverarbeitung einfordern.
Praxisbeispiel
Ein österreichisches Softwarehaus mit 25 Mitarbeitenden plant, ein KI-gestütztes Dokumentenanalysesystem für Kanzleien zu entwickeln. Das Entwicklungsteam erwägt, öffentlich verfügbare juristische Texte aus dem Internet als Trainingsdaten zu verwenden. Auf anwaltlichen Rat prüft das Unternehmen die Urheberrechte und Nutzungsbedingungen der Quellen. Es stellt fest, dass viele Fachdatenbanken Web Crawling explizit untersagen. Stattdessen investiert das Unternehmen in lizenzierte Datensätze und arbeitet mit Universitäten zusammen, die gemeinfreie juristische Korpora bereitstellen. Diese Vorabklärung vermeidet Permission Debt und schützt vor späteren Haftungsrisiken.
Quellen
- The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models
- Bringing transparency to the data used to train artificial intelligence | MIT Sloan
- Urheberrecht bei KI-Trainingsdaten und KI-Outputs | activeMind.legal
- Urheberrecht: Neuer Verhaltenskodex für KI-Training
- Copyright related risks in the creation and use of ML/AI systems