KI-Tools einsteiger

Whisper lokal (selbstgehostete Sprach-zu-Text-Software)

Whisper lokal bezeichnet die selbstgehostete Installation von OpenAIs Open-Source-Spracherkennungssoftware Whisper auf eigener Hardware. Anders als bei Cloud-Diensten bleiben Audiodaten vollständig auf dem eigenen Rechner oder Server.

Ausführliche Erklärung

Whisper ist ein von OpenAI im September 2022 als Open Source veröffentlichtes Spracherkennungsmodell, das auf 680.000 Stunden mehrsprachigem Audiomaterial trainiert wurde. Die lokale Installation ermöglicht die Umwandlung von Sprache in Text vollständig auf eigener Hardware, ohne dass Daten an Cloud-Server übertragen werden müssen. Die Software unterstützt rund 99 Sprachen und kann sowohl transkribieren als auch in andere Sprachen übersetzen.

Für KMU bietet Whisper lokal drei wesentliche Vorteile gegenüber Cloud-basierten Transkriptionsdiensten: Erstens entstehen nach der Einrichtung keine laufenden Kosten pro Minute oder Monat. Zweitens verbleiben sensible Gesprächsinhalte aus Meetings, Kundengesprächen oder Interviews ausschließlich im eigenen Unternehmen, was insbesondere bei personenbezogenen Daten oder Geschäftsgeheimnissen relevant ist. Drittens ermöglicht die lokale Ausführung eine DSGVO-konforme Verarbeitung ohne Auftragsdatenverarbeitungsverträge mit externen Anbietern.

Die technischen Anforderungen sind moderat: Bereits ein modernes Notebook mit acht Gigabyte Arbeitsspeicher kann zwei Stunden Audiomaterial in etwa zwölf Minuten transkribieren. Mit einer dedizierten Grafikkarte beschleunigt sich die Verarbeitung deutlich – das größte Modell benötigt etwa zehn Gigabyte VRAM. Für Anwender ohne GPU-Hardware stehen optimierte Varianten wie Faster-Whisper oder whisper.cpp zur Verfügung, die auch auf CPUs akzeptable Leistung liefern.

Die Installation erfolgt typischerweise über Python-Umgebungen, wobei verschiedene grafische Benutzeroberflächen und Desktop-Anwendungen verfügbar sind, die den Einstieg erleichtern. Je nach gewähltem Modell variiert die Erkennungsgenauigkeit – größere Modelle liefern bessere Ergebnisse, benötigen aber mehr Rechenleistung.

Praxisbeispiel

Eine Steuerberatungskanzlei mit zwölf Mitarbeitenden nutzt Whisper lokal auf einem dedizierten Server im Büro, um Mandantengespräche zu transkribieren. Die sensiblen Finanzinformationen verlassen dabei nie die Kanzlei. Nach einer einmaligen Einrichtung durch den IT-Dienstleister entstehen keine monatlichen Lizenzkosten mehr – im Vergleich zu kommerziellen Diensten spart die Kanzlei etwa 2.000 Euro jährlich bei gleichzeitig höherem Datenschutzniveau.

Code-Beispiel

import whisper

# Modell laden (tiny, base, small, medium, large)
model = whisper.load_model("base")

# Audio-Datei transkribieren
result = model.transcribe("meeting.mp3", language="de")

# Ergebnis ausgeben
print(result["text"])

# Mit Zeitstempeln
for segment in result["segments"]:
    print(f"[{segment['start']:.2f}s]: {segment['text']}")

Ausführliche Erklärung

Praxisbeispiel

Code-Beispiel

Quellen

Vertiefende Artikel im KI-Hub

Internes Wissen für KI-Systeme nutzbar machen — RAG ohne Cloud

KI-Workflows mit Unternehmensdaten absichern

Whisper vs. Otter.ai: Meeting-Protokolle für KMU