Technik
Whisper
Offenes Spracherkennungsmodell von OpenAI mit hoher Mehrsprachigkeit und Genauigkeit.
Whisper ist ein von OpenAI entwickeltes und als Open-Source veröffentlichtes Spracherkennungsmodell. Es wurde auf einem großen mehrsprachigen Datensatz trainiert und unterstützt die Erkennung und Übersetzung von über 90 Sprachen.
Das Modell basiert auf einer Transformer-Architektur und verarbeitet Mel-Spektrogramme als Eingabe. Es ist in verschiedenen Größen verfügbar, vom kompakten Tiny-Modell bis hin zum leistungsfähigen Large-Modell.
Whisper kann lokal ohne Internetverbindung betrieben werden und liefert in vielen Benchmarks konkurrenzfähige Ergebnisse. Es eignet sich für Transkription, Übersetzung und Zeitstempel-Generierung.
Verwandte Begriffe
Spracherkennung
Technologie zur automatischen Umwandlung gesprochener Sprache in maschinenlesbaren Text.
KI-Modell
Trainiertes mathematisches Modell zur Verarbeitung und Analyse von Sprache.
Offline-Modus
Spracherkennung direkt auf dem Gerät ohne Internetverbindung.
Transkription
Übertragung gesprochener Sprache in schriftliche Form, manuell oder automatisch.