Whisper.cpp auf M3 Ultra: 80-fache Echtzeit — und was das fürs Diktieren bedeutet

5. Mai 2026 · 6 Min. Lesezeit · Benchmark · Apple Silicon · Whisper

Wer eine lokale Diktiersoftware kauft, will eine ehrliche Antwort auf eine Frage: Wie schnell ist das Ding wirklich? Cloud-Anbieter umgehen die Antwort mit „so schnell wie unser Server gerade ist". Lokale Tools verstecken sich hinter „abhängig von der Hardware". Beides ist nicht falsch, aber auch nicht hilfreich.

Also habe ich gemessen. Reproduzierbar, mit offenen Daten, mit Code zum Nachmachen. Hier die Zahlen.

TL;DR

tiny-Modell auf M3 Ultra: 80,9× Echtzeit — 11 Sekunden Audio in 136 Millisekunden
large-v3-turbo schlägt medium: 17,7× vs 15,4× — bei vergleichbarer Modellgröße auf Disk
Selbst das größte getestete Modell läuft 17,7× schneller als Echtzeit — Diktat-Latenz ist kein Bottleneck
Komplette Daten + Methodik + Reproduktions-Skript: github.com/mundwerk-app/whisper-metal-benchmark

Warum dieser Test überhaupt

Im DACH-Raum gibt es nahezu keine ehrlichen Whisper-Latenz-Messungen. Tech-Magazine schreiben „läuft flüssig". Hersteller schreiben „blitzschnell". Beide haben recht und sagen trotzdem nichts.

Mundwerk ist eine lokale Diktiersoftware für macOS, die whisper.cpp produktiv einsetzt. Wenn ich Kunden 14,99 € für einen Einmalkauf abnehme, sollten die wissen, was die Hardware ihres Macs leistet — nicht „abhängig", sondern in Zahlen.

Setup

Was unter der Haube lief:

Hardware: Mac Studio mit Apple M3 Ultra, 24 Performance- + 8 Efficiency-Cores, 80 GPU-Cores, 512 GB Unified RAM
OS: macOS 26.4.1 (Build 25E253)
whisper.cpp: v1.8.4, Build mit -DGGML_METAL=ON -DGGML_ACCELERATE=ON -DCMAKE_BUILD_TYPE=Release
Sample: JFK-Inaugurations-Auszug, 11 Sekunden, Englisch, 22 Wörter (öffentlich verfügbar im whisper.cpp-Repo)
Methode: 3 Mess-Läufe pro Modell, Median-Wert berichtet, kein Mittelwert (robuster gegen Ausreißer)

Getestet: tiny, base, small, medium, large-v3-turbo. Modelle wurden über das offizielle download-ggml-model.sh-Script aus dem whisper.cpp-Upstream geladen.

Resultate

Modell	Größe (MB)	Median Inference (ms)	Realtime-Faktor	ms/Wort
`tiny`	74	136,1	80,9×	6,2
`base`	141	161,5	68,1×	7,3
`small`	465	309,5	35,5×	14,1
`medium`	1 463	713,9	15,4×	32,4
`large-v3-turbo`	1 549	622,9	17,7×	28,3

Realtime-Faktor = wie viele Sekunden Audio pro Sekunde Wall-Clock verarbeitet werden. Höher ist schneller.

Drei Erkenntnisse

1. Selbst tiny ist „instant"

11 Sekunden Audio in 136 Millisekunden. Zum Vergleich: ein durchschnittlicher Tastendruck dauert etwa 100 Millisekunden. Das heißt: zwischen Loslassen der Diktiertaste und erscheinendem Text liegt ein Wimpernschlag. Bei längeren Diktaten skaliert das linear weiter — 60 Sekunden Audio würden in unter einer Sekunde transkribiert.

Praktisch heißt das: Auf einem M3 Ultra ist Inference niemals der Bottleneck. Was tatsächlich Zeit kostet, ist der einmalige Modell-Load beim Start (~2 s für medium), und das hat nichts mit dem Diktat selbst zu tun.

2. large-v3-turbo schlägt medium

Das ist die interessanteste Zahl der ganzen Messreihe. large-v3-turbo ist auf Disk 87 MB größer als medium, aber bei der Inferenz 15 % schneller. Wie geht das?

Die Turbo-Variante ist eine Whisper-Optimierung von OpenAI: vollständiger Encoder (also Verständnis-Qualität nahe large-v3), aber stark reduzierter Decoder mit nur 4 statt 32 Layern. Da der Decoder bei Inference iterativ pro Token läuft, frisst er den Großteil der Zeit. Weniger Decoder-Layer = schneller — und dabei kaum Qualitätsverlust für die meisten Diktat-Anwendungsfälle.

Für Mundwerk-Nutzer ist das relevant: large-v3-turbo ist der Sweet-Spot zwischen Qualität und Geschwindigkeit. Wer das Standardmodell nutzt, bekommt nahe-large-v3-Qualität bei nahe-medium-Geschwindigkeit.

3. Cloud-Streaming wäre langsamer

Eine Cloud-Whisper-API (OpenAI, Replicate, Self-Hosted-AWS) muss Audio hochladen, auf Server-GPU verarbeiten, Text zurücksenden. Selbst bei optimaler Verbindung kommen mindestens 200–500 ms Netzwerk-Roundtrip dazu. Auf M3 Ultra mit dem tiny-Modell wäre die Cloud-Lösung also schon vor dem Audio-Upload langsamer als die komplette lokale Verarbeitung.

Das gilt nicht nur für Top-End-Macs. Auch ein M1 ohne Pro/Max-Suffix verarbeitet whisper-cpp-medium in ~3-facher Echtzeit — immer noch schneller als jeder Cloud-Roundtrip plus Server-Inferenz.

Was NICHT gemessen wurde

Disclaimer: Diese Zahlen sind eine Baseline, kein vollständiger Test. Hier ist, was fehlt:

Word Error Rate. Latenz ist nicht alles — Genauigkeit zählt mindestens genauso. WER-Messungen kommen in Lauf 2 mit deutsch-englisch gemischten Samples.
Andere Hardware. Hier wurde ein M3 Ultra mit 80 GPU-Cores gemessen — die Spitze der M3-Familie. M1 base, M2 base, M3 Pro/Max etc. werden in folgenden Läufen ergänzt (Pull Requests willkommen).
Realer Sound. Studio-cleanes Audio, keine Hintergrundgeräusche. Im Mundwerk-Alltag mit MacBook-Mikrofon im Café sieht das anders aus — VAD und Noise reduzieren dann zwar die Latenz nicht, aber die Erkennungsqualität.
Energy-Footprint. Wie viel Akku verbraucht ein Diktat? Kommt mit powermetrics-Capture in einer späteren Mess-Iteration.

Selbst nachmessen

Niemand muss mir blind glauben. Wer einen Apple-Silicon-Mac und 4 GB freien Speicher hat, kann das in unter 5 Minuten reproduzieren:

# 1. whisper.cpp klonen + bauen
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp && mkdir -p build-bench && cd build-bench
cmake .. -DCMAKE_BUILD_TYPE=Release \
  -DGGML_METAL=ON -DGGML_ACCELERATE=ON \
  -DBUILD_SHARED_LIBS=OFF -DWHISPER_BUILD_EXAMPLES=ON
make -j$(sysctl -n hw.ncpu) whisper-cli

# 2. Modell laden
bash ../models/download-ggml-model.sh tiny

# 3. Messen
./bin/whisper-cli -m ../models/ggml-tiny.bin \
  -f ../samples/jfk.wav -l en 2>&1 | grep "total time"

Die Ausgabe sollte je nach Hardware zwischen 130 und 1500 Millisekunden liegen. Auf einem M1 Air etwa 800 ms, auf einem M2 Max etwa 250 ms, auf einem M3 Ultra 130 ms. Wer abweichende Zahlen misst und die teilen möchte, ist eingeladen — das Repository nimmt Pull Requests an.

Wo das hingehört

Mundwerk ist nicht „die schnellste Diktiersoftware der Welt". Es ist eine ehrliche Diktiersoftware: lokal, keine Cloud, einmal kaufen, transparent über Performance. Diese Messreihe ist ein Baustein dieses Versprechens — und sie wächst, je mehr Hardware getestet wird.

Wer die Daten zitieren möchte (z. B. in technischen Reviews oder Vergleichstests), darf das gern. Lizenz ist CC BY 4.0, Attributions-Format steht im Repo.

Mundwerk Diktat — Lokale Spracherkennung für macOS
Einmalkauf 14,99 € (8,99 € mit LAUNCH bis 19.06.2026) · Komplett offline · 7 Tage Trial
Jetzt 7 Tage testen →

Quellen & Querverweise

Roh-Daten + JSON: github.com/mundwerk-app/whisper-metal-benchmark
Methodik: methodology.md
whisper.cpp Upstream: github.com/ggerganov/whisper.cpp (MIT-Lizenz)
Pillar-Artikel: Diktieren am Mac — alles was zählt
Vergleich: Mundwerk vs Superwhisper
Lizenz dieses Artikels + Daten: CC BY 4.0