Anwendung
Echtzeit-Transkription
Sofortige Umwandlung gesprochener Sprache in Text ohne spürbare Verzögerung.
Bei der Echtzeit-Transkription wird eingehende Sprache kontinuierlich und mit minimaler Verzögerung in Text umgewandelt. Das Ergebnis ist bereits während des Sprechens sichtbar, nicht erst nach Abschluss einer Äußerung.
Technisch setzt dies Streaming-Verarbeitung voraus: Das Audiosignal wird in kurzen Segmenten verarbeitet, und Zwischenergebnisse werden laufend aktualisiert. Die Latenz ist dabei ein entscheidender Qualitätsfaktor.
Echtzeit-Transkription wird bei Live-Untertiteln, in Videokonferenzen, bei der Barrierefreiheit und in Sprachassistenten eingesetzt, wo sofortige Rückmeldung erforderlich ist.
Verwandte Begriffe
Transkription
Übertragung gesprochener Sprache in schriftliche Form, manuell oder automatisch.
Latenz
Zeitverzögerung zwischen Spracheingabe und der Ausgabe des Transkriptionsergebnisses.
Streaming
Kontinuierliche Übertragung und Verarbeitung von Audiodaten in Echtzeit.
Untertitel
Textliche Darstellung von Dialogen oder Kommentaren, eingeblendet in Videos oder Live-Streams.