Grundlagen
Sprache zu Text
Direktes Verfahren zur Umwandlung von Audioeingaben in geschriebenen Text.
Sprache zu Text, auch als Speech-to-Text bezeichnet, beschreibt den technischen Prozess, bei dem ein Audiosignal mit gesprochener Sprache als Eingabe dient und als Textausgabe zurückgegeben wird. Der Vorgang läuft vollautomatisch ab.
Kernbestandteile eines solchen Systems sind ein akustisches Modell zur Lauterkennung und ein Sprachmodell zur Vorhersage wahrscheinlicher Wortfolgen. Beide Komponenten arbeiten zusammen, um möglichst präzise Ergebnisse zu liefern.
Die Technologie ist Grundlage für Diktiersoftware, Echtzeit-Untertitelung, Sprachassistenten und barrierefreie Bedienoberflächen.
Verwandte Begriffe
Transkription
Übertragung gesprochener Sprache in schriftliche Form, manuell oder automatisch.
Akustisches Modell
Komponente der Spracherkennung, die Audiomerkmale auf Laute oder Phoneme abbildet.
Sprachmodell
Statistisches oder neuronales Modell zur Vorhersage wahrscheinlicher Wortfolgen.
Web Speech API
Browser-native Schnittstelle für Spracherkennung und Sprachausgabe in Webanwendungen.