KI-Grundlagen fortgeschritten

Datenqualität

Datenqualität bezeichnet das Ausmaß, in dem Daten für ihren Verwendungszweck geeignet sind. Sie wird anhand von Kriterien wie Korrektheit, Vollständigkeit, Aktualität, Konsistenz und Relevanz bewertet und ist entscheidend für fundierte Geschäftsentscheidungen und erfolgreiche KI-Anwendungen.

Ausführliche Erklärung

Datenqualität ist kein absoluter, sondern ein kontextabhängiger Begriff: Daten gelten dann als qualitativ hochwertig, wenn sie den Anforderungen ihres spezifischen Einsatzzwecks entsprechen. Die internationale Norm ISO/IEC 25012 sowie Rahmenwerke wie DAMA-DMBOK definieren verschiedene Qualitätsdimensionen, anhand derer sich Datenqualität systematisch bewerten lässt. Zu den zentralen Dimensionen gehören Korrektheit (Übereinstimmung mit der Realität), Vollständigkeit (alle notwendigen Informationen liegen vor), Aktualität (Daten entsprechen dem aktuellen Stand), Konsistenz (keine Widersprüche innerhalb oder zwischen Datensätzen), Genauigkeit (erforderlicher Detailgrad) und Validität (Einhaltung definierter Wertebereiche).

Für KMU ist Datenqualität aus mehreren Gründen von strategischer Bedeutung. Fehlerhafte, unvollständige oder veraltete Daten führen zu Fehlentscheidungen, ineffizienten Prozessen und können die Einhaltung gesetzlicher Vorgaben wie der DSGVO gefährden. Besonders bei der Digitalisierung von Geschäftsprozessen und dem Einsatz von Business-Intelligence-Systemen bilden qualitativ hochwertige Daten die unverzichtbare Grundlage für aussagekräftige Analysen. Unternehmen mit mangelhafter Datenqualität verlieren nicht nur Zeit durch fehlerhafte Auswertungen, sondern riskieren auch Kundenvertrauen und Wettbewerbsfähigkeit.

Im Kontext von Künstlicher Intelligenz und Machine Learning kommt der Datenqualität eine noch kritischere Rolle zu. KI-Modelle lernen ausschließlich aus den Trainingsdaten, mit denen sie gefüttert werden – das Prinzip "Garbage In, Garbage Out" gilt hier uneingeschränkt. Die EU-KI-Verordnung schreibt für Hochrisiko-KI-Systeme verbindlich vor, dass Trainings-, Validierungs- und Testdaten relevant, repräsentativ, fehlerfrei und vollständig sein müssen. Unzureichende Datenqualität kann nicht nur zu ungenauen KI-Ergebnissen führen, sondern auch systematische Verzerrungen (Bias) verstärken und damit diskriminierende Entscheidungen zur Folge haben.

Die Sicherung von Datenqualität erfordert einen systematischen Ansatz: Von der Erfassung über die Speicherung bis zur Nutzung müssen Prozesse, Verantwortlichkeiten und Prüfmechanismen definiert werden. Viele Unternehmen integrieren Datenqualitätsmanagement in ihre Data-Governance-Strukturen und nutzen regelmäßige Qualitätsprüfungen, um fehlende Werte, Duplikate oder inkonsistente Formate zu identifizieren. Dabei gilt: Je früher Qualitätsprobleme erkannt werden, desto geringer sind die Kosten ihrer Behebung.

Praxisbeispiel

Eine Steuerberatungskanzlei mit 35 Mitarbeitenden aus Linz stellt fest, dass Kundenadressen in verschiedenen Formaten vorliegen, Postleitzahlen teilweise fehlen und einige Ansprechpersonen noch mit veralteten E-Mail-Adressen hinterlegt sind. Dies führt zu Rückläufern beim Newsletter-Versand und erschwert die automatisierte Fristenverwaltung. Nach Einführung eines Datenqualitätsprozesses mit Validierungsregeln bei der Eingabe, monatlichen Prüfläufen und klaren Verantwortlichkeiten sinkt die Fehlerquote binnen sechs Monaten um 78 Prozent.

Ausführliche Erklärung

Praxisbeispiel

Quellen

Vertiefende Artikel im KI-Hub

KI-Agenten Datenzugriff kontrollieren: KMU-Guide

KI DSGVO-konform einsetzen: Leitfaden für KMU

KI-Tools und Datenverlust: So schützen sich KMU