Hintergrund
Geschichte der Spracherkennung: Von Dragon bis zur KI-Ära
Wie aus einfachen Ziffernerkennern die heutigen KI-Sprachmodelle wurden. Ein Überblick über sieben Jahrzehnte Forschung und Entwicklung in der Spracherkennung.
Inhalt
Die Anfänge: Ziffernerkennung in den 1950er Jahren
Die Geschichte der Spracherkennung beginnt 1952 im Bell Laboratories-Labor in New Jersey. Das System “Audrey” konnte gesprochene Ziffern von null bis neun erkennen, aber nur von einer einzelnen Person, und nur wenn diese Person mit deutlicher Pause zwischen jedem Wort sprach. Audrey war kein Produkt, sondern ein Forschungsexperiment, das zeigte, dass Maschinen Sprachmerkmale statistisch verarbeiten können.
In den 1960er Jahren erweiterten japanische Forscher an den NTT-Laboren die Erkennung auf einfache Silben und Vokale. IBM präsentierte 1964 auf der Weltausstellung in New York “Shoebox”, das sechzehn englische Wörter und zehn Ziffern verstand. Diese frühen Systeme arbeiteten durch direkten Abgleich von Audiomerkmalen mit gespeicherten Mustern, ohne jedes statistische Modell.
Hidden Markov Models: Der Durchbruch der 1980er Jahre
Die entscheidende theoretische Grundlage legte Leonard Baum mit der Entwicklung der Baum-Welch-Algorithmen für Hidden Markov Models (HMM) in den 1960er Jahren. In den 1970er und 1980er Jahren erkannte die Forschungsgemeinschaft, dass HMMs besonders gut geeignet sind, die zeitliche Variabilität von Sprache zu modellieren: Dasselbe Wort wird nie zweimal identisch ausgesprochen, ein HMM kann diese Variabilität statistisch erfassen.
DARPA finanzierte ab 1971 ein Großforschungsprogramm in den USA, das mehrere Universitäten und Unternehmen einschloss. Carnegie Mellon entwickelte “Harpy”, das 1000 Wörter verstehen konnte. Diese Programme legten die algorithmischen Grundlagen, auf denen alle späteren kommerziellen Systeme aufbauten.
Dragon und die erste Diktierwelle
1982 gründeten James und Janet Baker Dragon Systems in Cambridge, Massachusetts. James Baker hatte an der Carnegie Mellon University an Spracherkennungsalgorithmen gearbeitet und wollte die Technologie in ein Produkt überführen.
Die erste Dragon-Software lief auf teuren Workstations und war nur für Unternehmen erschwinglich. Der entscheidende Wandel kam 1997 mit Dragon NaturallySpeaking 1.0, der ersten Software, die kontinuierliche Rede in Echtzeit erkannte, ohne Pausen zwischen Wörtern zu erzwingen. Für 695 US-Dollar war das für Privatpersonen und kleinere Unternehmen erschwinglich.
Dragon NaturallySpeaking veränderte den Markt sofort. Mediziner, Juristen und Autoren griffen zu, weil das Tippen von langen Dokumenten nun tatsächlich durch Sprechen ersetzt werden konnte. Allerdings: Das System musste zunächst auf die eigene Stimme trainiert werden. Dieser Einrichtungsaufwand von mehreren Stunden war eine echte Hürde.
Statistisches Lernen und sprecherunabhängige Systeme
Bis in die 1990er Jahre waren fast alle Spracherkennungssysteme sprecherabhängig: Sie mussten auf eine bestimmte Stimme trainiert werden. Sprecherunabhängige Systeme, die ohne Training funktionierten, gab es nur für sehr begrenzte Vokabularmengen.
Die Kombination aus größeren Trainingsdatensätzen, schnellerer Hardware und verbesserter akustischer Modellierung ermöglichte ab den 2000er Jahren Systeme, die für unbekannte Sprecher gut funktionierten. Google veröffentlichte 2008 die Google Voice Search für das iPhone, die erste weit verbreitete Cloud-basierte Spracherkennung. Statt die Erkennung lokal auf dem Gerät zu machen, wurde das Audio in die Cloud geschickt, wo leistungsfähige Server das Ergebnis berechneten.
Dieses Modell setzte sich durch und prägte das Jahrzehnt: Siri (2011), Google Now (2012), Cortana (2014) und Alexa (2014) bauten alle auf Cloud-Verarbeitung.
Die Transformer-Revolution ab 2017
2017 veröffentlichten Google-Forscher den Aufsatz “Attention Is All You Need”, der die Transformer-Architektur einführte. Transformer nutzen einen Aufmerksamkeitsmechanismus, der Beziehungen zwischen allen Teilen einer Eingabe gleichzeitig modelliert, statt sequenziell wie frühere Rekurrente Netze.
Für Spracherkennung bedeutete das: Modelle konnten nun den gesamten Kontext eines Satzes berücksichtigen, nicht nur die letzten paar Millisekunden. Das verbesserte die Erkennung von mehrdeutigen Wörtern und Satzstrukturen erheblich.
2022 veröffentlichte OpenAI Whisper, ein Transformer-basiertes Spracherkennungsmodell, das auf 680.000 Stunden mehrsprachiger Audiodaten trainiert wurde. Whisper war das erste frei verfügbare Modell, das in Qualität und Robustheit mit kommerziellen Diensten konkurrieren konnte, und lief lokal auf eigener Hardware ohne Cloud-Abhängigkeit.
Heute: KI-Spracherkennung im Alltag
Moderne Spracherkennung unterscheidet sich grundlegend von den regelbasierten und HMM-basierten Systemen der Vergangenheit. Statt expliziter Phonem-Lexika und statistischer Übergangsmodelle lernen Transformer-Modelle Ende-zu-Ende aus rohen Audiodaten und Transkripten.
Das hat praktische Konsequenzen: Aktuelle Modelle verstehen Akzente deutlich besser, weil sie einer Vielfalt von Stimmen ausgesetzt waren. Sie erkennen Fachvokabular, das im Trainingsdatensatz vorkam, ohne spezielle Vokabellisten. Und sie sind robuster gegenüber Hintergrundgeräuschen, weil sie auf verrauschten Daten trainiert wurden.
Das Tool auf dieser Seite nutzt die Web Speech API, die auf den Erkennungsservern von Google und Microsoft läuft. Diese Server verwenden aktuelle Transformer-basierte Modelle, die das Ergebnis jahrzehntelanger Forschung repräsentieren. Was 1952 ein Labor-Experiment mit zehn Ziffern war, ist heute ein kostenloser Dienst, der im Browser jedes Nutzers verfügbar ist und fortlaufende Sprache in Echtzeit auf Deutsch, Englisch und Dutzenden anderen Sprachen transkribiert.
Die nächste Entwicklungsstufe zeichnet sich bereits ab: Modelle, die nicht nur Wörter erkennen, sondern Sprecher unterscheiden, Emotionen erfassen und mehrere gleichzeitig sprechende Personen sauber trennen. Die Grundlagen dafür existieren bereits in der Forschung.
Häufige Fragen
Wer hat Dragon NaturallySpeaking erfunden?
Dragon NaturallySpeaking wurde von der Firma Dragon Systems entwickelt, die 1982 von James und Janet Baker gegründet wurde. Die erste Verbraucherversion erschien 1997 und erlaubte erstmals kontinuierliches Diktieren ohne Pausen zwischen Wörtern. Dragon Systems wurde 2001 an ScanSoft verkauft, das später zu Nuance Communications wurde.
Was ist der Unterschied zwischen klassischer Spracherkennung und modernen KI-Modellen?
Klassische Systeme wie die frühen Dragon-Versionen nutzten Hidden Markov Models und statistische Sprachmodelle. Sie modellierten Phoneme und Wortübergänge getrennt und kombinierten sie regelbasiert. Moderne Systeme wie Whisper von OpenAI nutzen Transformer-Architekturen, die Sprache Ende-zu-Ende aus großen Audiodatensätzen lernen, ohne explizite Phonem-Regeln. Das Ergebnis ist deutlich robuster gegenüber Akzenten, Hintergrundgeräuschen und ungewöhnlichem Vokabular.
Funktioniert Spracherkennung heute vollständig lokal ohne Cloud?
Ja. Modelle wie OpenAI Whisper oder Vosk können vollständig auf dem eigenen Computer laufen, ohne Internetzugang. Whisper-Large erreicht auf aktueller Hardware nahezu Cloud-Qualität. Der Nachteil ist der Ressourcenbedarf: Ein schnelles Ergebnis in Echtzeit erfordert entweder eine leistungsfähige GPU oder man akzeptiert eine Verzögerung.
Quellen
Über die Autorenschaft
Mateusz Viola
Betreiber und redaktionelle Verantwortung sprache-zu-text.de
Themengebiet: Mathematik, Kalenderrechnung, Schaltjahre, Statistik und ISO 8601
Mehr über Mateusz Viola →Verwandte Artikel
Grundlagen
Was ist Spracherkennung? Grundlagen einfach erklärt
Spracherkennung wandelt gesprochene Sprache in Text um. Dieser Ratgeber erklärt, wie die Technologie funktioniert, welche Verfahren es gibt und wo sie heute eingesetzt wird.
Lesezeit 6 Min.
Anleitung
Sprache zu Text umwandeln: Schritt für Schritt erklärt
Eine praxisnahe Anleitung, wie Sie gesprochene Sprache zuverlässig in Text umwandeln. Von der Vorbereitung über die Aufnahme bis zur Nachbearbeitung des Ergebnisses.
Lesezeit 5 Min.
Anwendung
Diktieren statt Tippen: So steigern Sie Ihre Schreibgeschwindigkeit
Diktieren ist bis zu dreimal schneller als Tippen und schont die Gelenke. Dieser Ratgeber zeigt, wie Sie Spracheingabe in Ihren Arbeitsalltag integrieren und produktiver werden.
Lesezeit 6 Min.