Technik

Spracherkennung in Fremdsprachen: Mehrsprachig diktieren

Wie gut erkennen Browser und KI-Tools Englisch, Spanisch oder Polnisch? Ein technischer Überblick über mehrsprachige Spracherkennung und ihre Grenzen.

Lesezeit 7 Min. Aktualisiert 28.05.2026 2 Quellen Mateusz Viola Mateusz Viola
Inhalt

Mehrsprachige Spracherkennung: Überblick

Spracherkennung ist keine einsprachige Technologie. Die Web Speech API unterstützt offiziell über 70 Sprachen, und moderne KI-Modelle wie Whisper oder Google Chirp decken noch mehr ab. Die Qualität ist jedoch nicht für alle Sprachen gleich, und das hat technische Gründe.

Sprachmodelle werden auf großen Textkorpora und Audioaufnahmen trainiert. Je mehr Trainingsdata für eine Sprache existiert, desto besser funktioniert die Erkennung. Englisch, besonders amerikanisches Englisch, ist am besten abgedeckt. Deutsch, Französisch und Spanisch folgen mit guter, aber nicht identischer Qualität. Kleinere Sprachen wie Katalanisch, Slowakisch oder Albanisch haben deutlich weniger Trainingsdaten und zeigen entsprechend mehr Erkennungsfehler.

Sprache einstellen in der Web Speech API

Die Spracheinstellung erfolgt über den lang-Parameter der SpeechRecognition-Schnittstelle. Übliche Werte sind BCP-47-Sprachcodes wie de-DE für Hochdeutsch, en-US für amerikanisches Englisch, en-GB für britisches Englisch, fr-FR für Französisch oder pl-PL für Polnisch.

Manche Varianten eines Sprachcodes liefern unterschiedliche Ergebnisse. de-AT für österreichisches Deutsch erkennt österreichische Aussprache etwas besser als de-DE, aber die Unterschiede sind in der Praxis gering. Wer regelmäßig in einer Regionalvariante spricht, lohnt sich einen kurzen Test beider Codes.

Das Tool bietet eine Sprachauswahl, sodass der Nutzer vor dem Start festlegen kann, in welcher Sprache er spricht. Das ist technisch die einzige verlässliche Methode, mehrsprachige Inhalte sauber zu transkribieren.

Qualitätsunterschiede zwischen Sprachen

Einige Faktoren beeinflussen die Erkennungsqualität unabhängig von der gewählten Sprache:

Phoneminventar. Sprachen mit vielen ähnlichen Lauten, wie Polnisch mit seinen Nasalvokalen, oder Arabisch mit Konsonanten ohne direktes Pendant im Deutschen, sind schwerer zu erkennen. Das Modell muss feinere Unterschiede treffen.

Morphologische Komplexität. Deutsch ist eine hochflektierte Sprache mit vielen Wortformen desselben Lemmas. Das erhöht die Anforderungen an das Sprachmodell, weil es aus dem Kontext die korrekte Form ableiten muss.

Tonsprachen. Mandarin oder Vietnamesisch kodieren Bedeutung über die Tonhöhe von Silben. Spracherkennungssysteme für diese Sprachen brauchen zusätzliche akustische Merkmale, die reine phonembasierte Modelle nicht erfassen.

Dialekte. Bayerisches Deutsch oder Schweizerdeutsch können die Erkennungsrate deutlich senken. Die Web Speech API ist auf Standarddeutsch optimiert. Wer stark dialektgefärbt spricht, erhält mehr Fehler.

Englisch als Testfall

Englisch ist der Goldstandard für browserbasierte Spracherkennung. Die Erkennungsrate für klares amerikanisches Englisch liegt bei gut trainierten Modellen nahe 99 Prozent unter idealen Bedingungen. Britisches, australisches oder indisches Englisch liefern etwas niedrigere Raten, sind aber gut unterstützt.

Für deutschsprachige Nutzer, die englische Texte diktieren möchten, lohnt sich der Wechsel der Sprache im Tool. Tippt man nach auf en-US und spricht dann Englisch, verbessert sich die Qualität spürbar gegenüber dem Versuch, Englisch mit einer deutschen Spracheneinstellung zu sprechen.

Code-Switching und gemischtsprachige Inhalte

Code-Switching bedeutet, innerhalb eines Satzes oder Textes zwischen zwei Sprachen zu wechseln. Das ist im Alltag häufig, zum Beispiel in akademischen Texten mit englischen Fachtermini oder in internationalen Arbeitsmeetings.

Die Web Speech API kann das nicht automatisch verarbeiten. Wer einen deutschen Satz mit einem englischen Fachbegriff diktiert, riskiert, dass der englische Begriff falsch erkannt wird. Die Lösung ist, nach dem Diktieren englische Begriffe manuell zu korrigieren oder sie im Anschluss einzutippen.

Kommerzielle APIs wie Whisper oder Azure Cognitive Services bieten in bestimmten Konfigurationen Code-Switching-Unterstützung an. Für die meisten Alltagsanwendungen ist der Aufwand jedoch unverhältnismäßig.

Empfehlungen für mehrsprachige Nutzer

Wer regelmäßig in mehreren Sprachen arbeitet, sollte einen klaren Workflow entwickeln. Praktisch empfiehlt sich: Zuerst alle deutschsprachigen Passagen diktieren, dann die Sprache umstellen und englische Abschnitte separat erfassen. Das Zusammenfügen der Texte dauert nur kurz und erhöht die Gesamtgenauigkeit spürbar.

Für professionelle mehrsprachige Transkriptionen, etwa für Interviews oder internationale Meetings, sind spezialisierte Dienste mit automatischer Sprachdetektion besser geeignet als die Web Speech API. Diese Tools erkennen Sprachwechsel im Audio selbst und wählen automatisch das passende Modell.

Häufige Fragen

Kann ich im selben Dokument zwischen Deutsch und Englisch wechseln?

Mit der Web Speech API nicht automatisch. Die Sprache muss vor dem Start der Erkennung festgelegt werden. Wer zwischen zwei Sprachen wechselt, muss die Erkennung stoppen, die Sprache umstellen und neu starten. Einige kommerzielle Dienste wie Google Chirp 3 oder AssemblyAI bieten automatische Sprachdetektion, die innerhalb eines Audios zwischen Sprachen unterscheiden kann.

Wie gut funktioniert Spracherkennung für Sprachen mit Sonderzeichen, wie Polnisch oder Tschechisch?

Gut unterstützte Sprachen wie Polnisch werden von modernen Modellen recht zuverlässig erkannt, Diakritika eingeschlossen. Probleme entstehen vor allem bei schneller Rede oder starkem Akzent. Für professionellen Einsatz empfiehlt sich ein Test mit dem eigenen Sprechstil, bevor man sich auf die Erkennung verlässt.

Ist die Erkennungsqualität für Deutsch besser als für andere Sprachen?

Deutsch ist eine sehr gut unterstützte Sprache, liegt aber unter Englisch-US. Der Hauptgrund ist die Datenmenge: Englisch dominiert Trainingskorpora. Für Standarddeutsch ohne starken Dialekt ist die Qualität dennoch hoch und für die meisten Anwendungsfälle ausreichend.

Quellen

Mateusz Viola

Über die Autorenschaft

Mateusz Viola

Betreiber und redaktionelle Verantwortung sprache-zu-text.de

Themengebiet: Mathematik, Kalenderrechnung, Schaltjahre, Statistik und ISO 8601

Mehr über Mateusz Viola →

Verwandte Artikel

Sprache zu Text nutzen

Sofort im Browser, ohne Anmeldung.

Zum Tool