Das Problem: Diktiersoftware und Datenschutz
Herkömmliche Diktierwerkzeuge wie Google Docs Voice oder Windows Diktat übertragen alle gesprochenen Inhalte an externe Server — ein Problem bei sensiblen Geschäfts- oder Personendaten.
Die Lösung: WhisperWolf + faster-whisper
OpenAIs Whisper-Modell läuft vollständig offline auf der eigenen GPU. WhisperWolf macht daraus einen systemweiten Linux-Diktationsdienst (Cinnamon/X11) mit einfacher Tastatursteuerung:
- F10 startet die Aufnahme; nach einer kurzen Pause erscheint der Text automatisch im aktiven Fenster
- Win+F10 verfeinert markierten Rohtext mithilfe eines lokalen KI-Modells
Das Tool nutzt xdotool, um erkannten Text direkt in jede Anwendung zu injizieren — ohne Kopieren und Einfügen.
Hardware-Konfiguration
| Komponente | Spezifikation |
|---|---|
| GPU | NVIDIA RTX 3070 Ti (8 GB VRAM) |
| Mikrofon | Turtle Beach Stream Mic |
| Betriebssystem | Linux Mint (Cinnamon, X11) |
| Modell | whisper-large-v3 via faster-whisper |
| VRAM-Verbrauch | ~3 GB von 8 GB |
Deutsch mit englischen Fachbegriffen
Whisper unterstützt mehrere Sprachen. Das large-v3-Modell verarbeitet englische Begriffe wie GPU, Commit oder Prompt zuverlässig — bei Deutsch als primärer Spracheinstellung.
Die Refine-Funktion: KI korrigiert den Rohtext
Gesprochene Sprache braucht Nachbearbeitung. Win+F10 nutzt ein lokales Sprachmodell (qwen3 via Ollama), um Text in Sekunden zu bereinigen — vollständig offline.
Herausforderungen bei der Einrichtung
CUDA-Bibliotheken fehlten
Faster-Whisper benötigt libcublas.so.12. Lösung: LD_LIBRARY_PATH auf den CUDA-Bibliothekspfad von Ollama setzen.
Mikrofon-Routing via PipeWire
Das Turtle Beach Mikrofon unterstützt nativ nur 48 kHz; Whisper benötigt 16 kHz. PipeWire übernimmt das Resampling automatisch beim Routing durch das System.
Modellwahl
Kleinere oder deutschsprachig spezialisierte Modelle produzierten Halluzinationen oder erkannten Englisch schlecht. Das Standard-large-v3 erwies sich als zuverlässigste Wahl.
Technischer Aufbau
1. Audio-Aufnahme: sounddevice + PipeWire
Die Python-Bibliothek sounddevice erfasst Mikrofoneingaben via PortAudio. PipeWire regelt das Signalrouting und das automatische Resampling von 48 auf 16 kHz. Audio füllt einen konfigurierbaren Ringpuffer (Standard: 4 Sekunden); RMS-basierte Stille-Erkennung löst die Textausgabe aus.
2. Spracherkennung: faster-whisper + CTranslate2
Faster-whisper implementiert Whisper auf der CTranslate2-Inferenz-Engine — eine C++-Laufzeitumgebung für Transformer-Modelle mit 4–6-fachem Geschwindigkeitsvorteil und reduziertem VRAM-Verbrauch durch quantisierte Gewichte (int8_float16).
3. Live-Streaming: Sliding-Window-Ansatz
Whisper verarbeitet vollständige Audiodateien, keine Echtzeit-Streams. WhisperWolf simuliert Echtzeit-Verhalten, indem es den Ringpuffer alle 0,7 Sekunden als temporäre WAV-Datei einreicht, Hypothesen mit dem festgeschriebenen Text vergleicht und nur neue Wörter injiziert.
4. Text-Injektion: xdotool
xdotool erzeugt synthetisch X11-Tastaturereignisse und injiziert Text in jede fokussierte Anwendung — ohne Modifikationen an den Apps.
5. Refine-Funktion: Ollama + qwen3
Die Verfeinerungsfunktion liest markierten Text per X11 Primary Selection und sendet ihn an Ollama mit Qwen3. Ein sorgfältig formulierter System-Prompt stellt sicher, dass das Modell Text ausschließlich bereinigt — ohne Kommentare oder Formatierung hinzuzufügen.
6. Konfiguration: TOML + Drei-Schicht-Merge
Die Konfiguration erfolgt im TOML-Format mit drei Schichten: Repository-Standards → Benutzer-Overrides → maschinenspezifische Einstellungen. Die Host-Konfiguration hat Vorrang und ermöglicht dieselbe Codebasis auf verschiedenen Maschinen mit unterschiedlichen Mikrofon-Indizes und Schwellenwerten.
Übersicht: verwendete Bibliotheken
| Bibliothek/Tool | Sprache | Zweck |
|---|---|---|
| faster-whisper | Python/C++ | Optimierte Whisper-Inferenz |
| CTranslate2 | C++ | Transformer-Inferenz-Engine |
| sounddevice | Python | Mikrofon-Erfassung |
| PortAudio | C | Plattformübergreifende Audio-E/A |
| PipeWire | C | Audio-Routing und Resampling |
| NumPy | Python/C | Puffer- und RMS-Berechnungen |
| xdotool | C | X11-Textinjektion |
| Ollama | Go | Lokaler LLM-Runner |
| Qwen3 | – | Text-Verfeinerungs-LLM |
| CUDA/cuBLAS | C++ | GPU-Beschleunigung |
Fazit
Lokales Diktieren auf Linux funktioniert. Die Latenz ist höher als bei Cloud-Diensten wie Google Gemini Live — aber der entscheidende Vorteil liegt auf der Hand: Kein gesprochenes Wort verlässt den eigenen Rechner.
Dieser Artikel wurde überwiegend per Spracheingabe diktiert und anschließend mit der eingebauten Refine-Funktion verfeinert.
KI-Tools für Ihr Unternehmen?
Ob lokale Spracherkennung, automatisierte Workflows oder datenschutzkonforme KI-Infrastruktur — WOLFSOFT begleitet Ihr Team bei der Umsetzung. Komplett ohne Cloud-Zwang.