Technik fortgeschritten

WER (Word Error Rate)

Die Word Error Rate (WER) ist eine Standardmetrik zur Bewertung der Genauigkeit automatischer Spracherkennungssysteme. Sie misst den Prozentsatz fehlerhaft erkannter Wörter durch Zählung von Substitutionen, Deletionen und Insertionen im Vergleich zu einer Referenztranskription.

Ausführliche Erklärung

Die Word Error Rate berechnet sich nach der Formel WER = (S + D + I) / N, wobei S für Substitutionen (falsch erkannte Wörter), D für Deletionen (ausgelassene Wörter), I für Insertionen (hinzugefügte Wörter) und N für die Gesamtanzahl der Wörter in der Referenz steht. Die Berechnung basiert auf der Levenshtein-Distanz, einem Algorithmus zur Messung der Unterschiede zwischen Textsequenzen auf Wortebene. Ein WER-Wert von 0 bedeutet perfekte Übereinstimmung, während höhere Werte auf mehr Fehler hinweisen. Da die Anzahl der Insertionen die Anzahl korrekter Wörter übersteigen kann, sind theoretisch auch Werte über 100 Prozent möglich.

Für Unternehmen ist die WER relevant, wenn Sie Spracherkennungstechnologie evaluieren oder einsetzen möchten, etwa für automatische Transkription von Kundengesprächen, Protokollierung von Meetings oder Sprachsteuerung in Anwendungen. Die tatsächliche Leistung hängt stark vom Anwendungskontext ab: Faktoren wie Audioqualität, Hintergrundgeräusche, Akzente, Dialekte und fachspezifische Terminologie beeinflussen die WER erheblich. Moderne Systeme erreichen bei optimalen Bedingungen Werte unter 5 Prozent, während bei schwierigen Bedingungen oder dialektaler Sprache die Fehlerrate auf 40 bis 60 Prozent steigen kann.

Bei der Bewertung von Spracherkennungslösungen sollten Sie beachten, dass die WER allein keine umfassende Qualitätsaussage ermöglicht. Sie sagt nichts über die Art der Fehler aus – ein falsch erkannter Fachbegriff kann schwerwiegender sein als eine falsche Präposition. Ergänzend wird oft die Character Error Rate (CER) herangezogen, die auf Zeichenebene misst und bei morphologisch komplexen Sprachen wie Deutsch aussagekräftiger sein kann. Für praktische Anwendungen gilt: Werte unter 10 Prozent werden üblicherweise als hochwertig eingestuft, während kritische Bereiche wie Medizin oder Recht noch niedrigere Fehlerraten erfordern.

Praxisbeispiel

Ein österreichisches Steuerberatungsunternehmen mit 18 Mitarbeitenden möchte Mandantengespräche automatisch transkribieren, um die Dokumentation zu beschleunigen. Bei der Evaluierung verschiedener ASR-Dienste testet die Geschäftsführung diese mit repräsentativen Aufnahmen. Ein Anbieter erreicht eine WER von 8 Prozent bei Standardgesprächen, aber 22 Prozent bei fachspezifischer Terminologie. Die Kanzlei entscheidet sich für ein System mit Fachvokabular-Training, das die WER für steuerrechtliche Begriffe auf unter 12 Prozent senkt.

Code-Beispiel

from jiwer import wer

# Referenz (korrekte Transkription)
reference = "Die Umsatzsteuervoranmeldung ist fristgerecht einzureichen"

# Hypothese (ASR-Output)
hypothesis = "Die Umsatzsteuer Voranmeldung ist fristgerecht einzureichen"

# WER berechnen
error_rate = wer(reference, hypothesis)
print(f"Word Error Rate: {error_rate:.2%}")
# Output: Word Error Rate: 11.11%
# (1 Substitution bei 9 Wörtern)

Ausführliche Erklärung

Praxisbeispiel

Code-Beispiel

Quellen

Vertiefende Artikel im KI-Hub

Whisper vs. Otter.ai: Meeting-Protokolle für KMU