Das Problem: Diktiersoftware und Datenschutz

Herkömmliche Diktierwerkzeuge wie Google Docs Voice oder Windows Diktat übertragen alle gesprochenen Inhalte an externe Server — ein Problem bei sensiblen Geschäfts- oder Personendaten.

Die Lösung: WhisperWolf + faster-whisper

OpenAIs Whisper-Modell läuft vollständig offline auf der eigenen GPU. WhisperWolf macht daraus einen systemweiten Linux-Diktationsdienst (Cinnamon/X11) mit einfacher Tastatursteuerung:

Das Tool nutzt xdotool, um erkannten Text direkt in jede Anwendung zu injizieren — ohne Kopieren und Einfügen.

Hardware-Konfiguration

Komponente Spezifikation
GPU NVIDIA RTX 3070 Ti (8 GB VRAM)
Mikrofon Turtle Beach Stream Mic
Betriebssystem Linux Mint (Cinnamon, X11)
Modell whisper-large-v3 via faster-whisper
VRAM-Verbrauch ~3 GB von 8 GB

Deutsch mit englischen Fachbegriffen

Whisper unterstützt mehrere Sprachen. Das large-v3-Modell verarbeitet englische Begriffe wie GPU, Commit oder Prompt zuverlässig — bei Deutsch als primärer Spracheinstellung.

Die Refine-Funktion: KI korrigiert den Rohtext

Gesprochene Sprache braucht Nachbearbeitung. Win+F10 nutzt ein lokales Sprachmodell (qwen3 via Ollama), um Text in Sekunden zu bereinigen — vollständig offline.

Herausforderungen bei der Einrichtung

CUDA-Bibliotheken fehlten

Faster-Whisper benötigt libcublas.so.12. Lösung: LD_LIBRARY_PATH auf den CUDA-Bibliothekspfad von Ollama setzen.

Mikrofon-Routing via PipeWire

Das Turtle Beach Mikrofon unterstützt nativ nur 48 kHz; Whisper benötigt 16 kHz. PipeWire übernimmt das Resampling automatisch beim Routing durch das System.

Modellwahl

Kleinere oder deutschsprachig spezialisierte Modelle produzierten Halluzinationen oder erkannten Englisch schlecht. Das Standard-large-v3 erwies sich als zuverlässigste Wahl.

Technischer Aufbau

1. Audio-Aufnahme: sounddevice + PipeWire

Die Python-Bibliothek sounddevice erfasst Mikrofoneingaben via PortAudio. PipeWire regelt das Signalrouting und das automatische Resampling von 48 auf 16 kHz. Audio füllt einen konfigurierbaren Ringpuffer (Standard: 4 Sekunden); RMS-basierte Stille-Erkennung löst die Textausgabe aus.

2. Spracherkennung: faster-whisper + CTranslate2

Faster-whisper implementiert Whisper auf der CTranslate2-Inferenz-Engine — eine C++-Laufzeitumgebung für Transformer-Modelle mit 4–6-fachem Geschwindigkeitsvorteil und reduziertem VRAM-Verbrauch durch quantisierte Gewichte (int8_float16).

3. Live-Streaming: Sliding-Window-Ansatz

Whisper verarbeitet vollständige Audiodateien, keine Echtzeit-Streams. WhisperWolf simuliert Echtzeit-Verhalten, indem es den Ringpuffer alle 0,7 Sekunden als temporäre WAV-Datei einreicht, Hypothesen mit dem festgeschriebenen Text vergleicht und nur neue Wörter injiziert.

4. Text-Injektion: xdotool

xdotool erzeugt synthetisch X11-Tastaturereignisse und injiziert Text in jede fokussierte Anwendung — ohne Modifikationen an den Apps.

5. Refine-Funktion: Ollama + qwen3

Die Verfeinerungsfunktion liest markierten Text per X11 Primary Selection und sendet ihn an Ollama mit Qwen3. Ein sorgfältig formulierter System-Prompt stellt sicher, dass das Modell Text ausschließlich bereinigt — ohne Kommentare oder Formatierung hinzuzufügen.

6. Konfiguration: TOML + Drei-Schicht-Merge

Die Konfiguration erfolgt im TOML-Format mit drei Schichten: Repository-Standards → Benutzer-Overrides → maschinenspezifische Einstellungen. Die Host-Konfiguration hat Vorrang und ermöglicht dieselbe Codebasis auf verschiedenen Maschinen mit unterschiedlichen Mikrofon-Indizes und Schwellenwerten.

Übersicht: verwendete Bibliotheken

Bibliothek/Tool Sprache Zweck
faster-whisper Python/C++ Optimierte Whisper-Inferenz
CTranslate2 C++ Transformer-Inferenz-Engine
sounddevice Python Mikrofon-Erfassung
PortAudio C Plattformübergreifende Audio-E/A
PipeWire C Audio-Routing und Resampling
NumPy Python/C Puffer- und RMS-Berechnungen
xdotool C X11-Textinjektion
Ollama Go Lokaler LLM-Runner
Qwen3 Text-Verfeinerungs-LLM
CUDA/cuBLAS C++ GPU-Beschleunigung

Fazit

Lokales Diktieren auf Linux funktioniert. Die Latenz ist höher als bei Cloud-Diensten wie Google Gemini Live — aber der entscheidende Vorteil liegt auf der Hand: Kein gesprochenes Wort verlässt den eigenen Rechner.

Dieser Artikel wurde überwiegend per Spracheingabe diktiert und anschließend mit der eingebauten Refine-Funktion verfeinert.

KI-Tools für Ihr Unternehmen?

Ob lokale Spracherkennung, automatisierte Workflows oder datenschutzkonforme KI-Infrastruktur — WOLFSOFT begleitet Ihr Team bei der Umsetzung. Komplett ohne Cloud-Zwang.