Technik
Streaming
Kontinuierliche Übertragung und Verarbeitung von Audiodaten in Echtzeit.
Beim Streaming werden Audiodaten nicht vollständig aufgezeichnet und dann verarbeitet, sondern in Echtzeit übertragen und analysiert. Das Mikrofon liefert einen kontinuierlichen Datenstrom an das Spracherkennungssystem.
Streaming-Transkription ermöglicht es, bereits während des Sprechens Teilergebnisse anzuzeigen. APIs wie die Web Speech API oder Google Cloud Speech unterstützen diesen Modus mit sogenannten Interim Results.
Die Herausforderung beim Streaming liegt in der effizienten Pufferung und Segmentierung des Audiostroms, um Satzgrenzen korrekt zu erkennen und die Latenz gering zu halten.
Verwandte Begriffe
Latenz
Zeitverzögerung zwischen Spracheingabe und der Ausgabe des Transkriptionsergebnisses.
Web Speech API
Browser-native Schnittstelle für Spracherkennung und Sprachausgabe in Webanwendungen.
Cloud-Verarbeitung
Auslagerung der Spracherkennung auf externe Serverinfrastruktur über das Internet.
Untertitel
Textliche Darstellung von Dialogen oder Kommentaren, eingeblendet in Videos oder Live-Streams.