Grundlagen
Trainingsdaten
Beschriftete Datensätze, die zum Trainieren von KI-Sprachmodellen genutzt werden.
Trainingsdaten sind die Grundlage jedes KI-Modells. Für Spracherkennungssysteme bestehen sie aus Audioaufnahmen, die mit den dazugehörigen korrekten Transkriptionen annotiert sind.
Qualität und Vielfalt der Trainingsdaten bestimmen maßgeblich die Leistungsfähigkeit des Modells. Modelle, die auf vielfältigen Akzenten, Sprachen und Umgebungsgeräuschen trainiert wurden, generalisieren besser auf neue Eingaben.
Öffentliche Datensätze wie Common Voice von Mozilla ermöglichen es, Spracherkennungsmodelle für viele Sprachen zu entwickeln. Der Datenschutz der Sprecher muss dabei stets gewährleistet werden.
Verwandte Begriffe
KI-Modell
Trainiertes mathematisches Modell zur Verarbeitung und Analyse von Sprache.
Deep Learning
Maschinenlernverfahren mit mehrstufigen neuronalen Netzen für komplexe Aufgaben.
Datenschutz
Schutz personenbezogener Daten bei der Verarbeitung von Sprachaufnahmen.
DSGVO
Europäische Datenschutz-Grundverordnung mit Regeln zur Verarbeitung personenbezogener Daten.