Praxis

Spracherkennung: Was die Genauigkeit beeinflusst

Warum erkennt Diktiersoftware manchmal falsch? Dieser Ratgeber erklärt die wichtigsten Faktoren für hohe Erkennungsgenauigkeit: Mikrofon, Umgebung, Aussprache und Sprachmodell.

Lesezeit 7 Min. Aktualisiert 20.05.2026 2 Quellen Jan-Tristan Rudat Jan-Tristan Rudat
Inhalt

Spracherkennungssysteme sind nicht für alle Anwender gleich gut. Wer einmal erlebt hat, dass ein Kollege mit demselben Werkzeug bessere Ergebnisse erzielt, fragt sich zu Recht, woran das liegt. Die Genauigkeit hängt von mehreren Faktoren ab, die sich verstehen und zum Teil direkt beeinflussen lassen.

Faktor 1: Das Mikrofon

Der größte einzelne Einflussfaktor auf die Erkennungsqualität ist das Mikrofon. Nicht weil die Qualität des Mikrofons das Modell klüger macht, sondern weil ein schlechtes Signal am Eingang zu weniger verlässlichen Ergebnissen führt.

Abstand: Je weiter das Mikrofon von der Schallquelle entfernt ist, desto mehr Raumklang und Umgebungsgeräusche mischt sich ins Signal. Ein Headset-Mikrofon, das sich 5 bis 10 Zentimeter vor dem Mund befindet, liefert ein deutlich saubereres Signal als ein Tischmikrofon auf einem halben Meter Abstand.

Richtcharakteristik: Mikrofone mit Nieren- oder Supernierencharakteristik nehmen Schall bevorzugt aus einer Richtung auf und unterdrücken seitliche und rückwärtige Geräusche. Omnidirektionale Mikrofone nehmen alles auf, was in der Nähe passiert.

Qualität der Wandlung: Günstige eingebaute Laptop-Mikrofone haben oft hohe Eigenrauschpegel und begrenzte Frequenzgänge. Ein USB-Kondensatormikrofon im mittleren Preissegment (30 bis 80 Euro) verbessert die Erkennungsrate in vielen Fällen messbar.

Empfehlung für Einsteiger: Ein USB-Headset mit Nahbesprechungsmikrofon (beispielsweise Logitech H390 oder ähnliche) reicht für regelmäßiges Diktieren völlig aus und kostet weniger als 30 Euro.

Faktor 2: Akustische Umgebung

Selbst das beste Mikrofon kann keinen hallenden Raum vollständig kompensieren. Raumhall entsteht, wenn Schallwellen von harten Oberflächen reflektiert werden und das direkte Signal überlagern. Das Mikrofon nimmt dann eine Mischung aus direktem Ton und zeitverzögerten Reflexionen auf.

Maßnahmen zur Verbesserung der Raumakustik:

Teppiche, Vorhänge, Bücherregale und Polstermöbel schlucken Schall und reduzieren Reflexionen. Ein Arbeitszimmer mit diesen Elementen ist akustisch deutlich besser als ein leerer Betonraum.

Hintergrundgeräusche wie Lüftungsanlagen, Straßenlärm oder Gespräche in der Umgebung sollten möglichst minimiert werden. Noise-Cancelling-Headsets können Umgebungsgeräusche elektronisch unterdrücken, sind aber kein vollständiger Ersatz für eine ruhige Umgebung.

Faktor 3: Aussprache und Sprechtempo

Spracherkennungssysteme sind auf den Durchschnitt vieler Sprecher trainiert. Wer sehr undeutlich spricht, Wörter verschluckt oder in einem sehr starken Dialekt spricht, wird von manchen Systemen schlechter verstanden.

Dabei geht es nicht um überdeutliche, künstliche Aussprache. Ein normales, deutlich artikuliertes Sprechtempo liefert in der Regel bessere Ergebnisse als übertrieben langsames oder akzentuiertes Sprechen.

Folgende Punkte wirken sich positiv aus:

Satzgrenzen durch kurze Pausen markieren hilft vielen Systemen bei der korrekten Zeichensetzung. Fachbegriffe und Eigennamen langsamer und deutlicher sprechen verbessert deren Erkennungsrate. Zu schnelles, nuschelndes Sprechen ist die häufigste Ursache für gehäufte Erkennungsfehler.

Faktor 4: Das Sprachmodell

Unterschiedliche Spracherkennungssysteme basieren auf unterschiedlichen Modellen mit unterschiedlichen Stärken. Nicht jedes System ist für jede Sprache und jedes Vokabular gleich gut optimiert.

Allgemeine Sprachmodelle decken einen breiten Wortschatz ab, haben aber bei stark spezialisierten Begriffen Schwächen. Medizinische Befunde, juristische Fachsprache oder technisches Vokabular führen häufiger zu Fehlern.

Domänenspezifische Modelle sind auf ein Fachgebiet zugeschnitten und erzielen dort sehr hohe Genauigkeiten. Solche Modelle sind in spezialisierten Diktiersystemen für Medizin oder Recht verfügbar.

Multilinguale Modelle wie Whisper verstehen mehrere Sprachen in einem Modell und sind oft robuster gegenüber gemischtsprachigen Texten und ungewöhnlichen Akzenten.

Faktor 5: Sprachmischung und Codeswitching

Wer während des Diktierens zwischen Sprachen wechselt, stellt viele Systeme vor Probleme. Ein deutschsprachiger Text mit eingestreuten englischen Fachbegriffen ist für die meisten Sprachmodelle herausfordernd, da das Modell die Sprache oft zu Beginn der Aufnahme festlegt.

Praktischer Umgang: Englische Fachbegriffe deutlich sprechen und bei der Nachkorrektur besonders aufmerksam lesen. Neuere Modelle tolerieren Sprachmischungen besser als ältere.

Faktor 6: Mikrofon-Einstellungen und Pegelanpassung

Auch bei gutem Mikrofon können falsche Einstellungen die Qualität verschlechtern. Ein zu hoher Eingangspegel führt zu Verzerrungen (Clipping), ein zu niedriger Pegel zu einem schlechten Signal-Rausch-Verhältnis.

In den Betriebssystem-Toneinstellungen lässt sich der Eingangspegel anpassen. Ziel ist ein Signal, das beim Sprechen in normalem Ton etwa 60 bis 80 Prozent des maximalen Pegels erreicht, ohne in rote Bereiche zu gehen.

Die automatische Verstärkungsregelung (AGC) mancher Mikrofone und Betriebssysteme kann helfen, ist aber nicht immer zuverlässig. Bei professionellen Anwendungen empfiehlt sich manuelles Einstellen.

Praktische Optimierungsschritte

Wenn Sie mit der Erkennungsqualität unzufrieden sind, gehen Sie diese Punkte der Reihe nach durch:

Prüfen Sie zunächst die Mikrofonposition und den Abstand. Das ist der häufigste und am einfachsten zu behebende Fehler. Testen Sie danach in einer ruhigeren Umgebung. Kontrollieren Sie den Eingangspegel in den Systemeinstellungen. Achten Sie auf deutlichere Aussprache bei Fachbegriffen. Probieren Sie gegebenenfalls ein alternatives Spracherkennungssystem, das besser zum eigenen Sprechmuster passt.

Mit diesen Schritten lässt sich in den meisten Fällen eine deutliche Verbesserung der Erkennungsrate erreichen, bevor teure Hardware oder Software angeschafft werden muss.

Häufige Fragen

Welches Mikrofon ist am besten für Spracherkennung geeignet?

Ein Nahbesprechungsmikrofon in Form eines Headsets ist in den meisten Fällen die beste Wahl. Es hat einen konstanten, kurzen Abstand zur Schallquelle, blendet Umgebungsgeräusche gut aus und ist erschwinglich. USB-Kondensatormikrofone auf dem Schreibtisch sind eine gute zweite Option für ruhige Umgebungen.

Warum erkennt das System meinen Dialekt schlecht?

Sprachmodelle werden auf großen Mengen Audiodaten trainiert. Dialekte und regionale Akzente sind in diesen Trainingsdaten oft unterrepräsentiert. Neuere Modelle, insbesondere multilinguale Ansätze wie Whisper, haben deutlich größere Dialekttoleranz als ältere Systeme, kämpfen aber in stark ausgeprägten Dialekten weiterhin mit einzelnen Wörtern.

Quellen

  • Radford et al.: Robust Speech Recognition via Large-Scale Weak Supervision (Whisper Paper), OpenAI 2022
  • Deutsches Institut für Normung: Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten, DIN EN ISO 9241-5
Jan-Tristan Rudat

Über die Autorenschaft

Jan-Tristan Rudat

Redakteur sprache-zu-text.de

Themengebiet: Generationen, Kulturgeschichte, Sternzeichen, Pop-Phänomene rund ums Alter

Mehr über Jan-Tristan Rudat →

Verwandte Artikel

Sprache zu Text nutzen

Sofort im Browser, ohne Anmeldung.

Zum Tool