Grundlagen

Trainingsdaten

Beschriftete Datensätze, die zum Trainieren von KI-Sprachmodellen genutzt werden.

Trainingsdaten sind die Grundlage jedes KI-Modells. Für Spracherkennungssysteme bestehen sie aus Audioaufnahmen, die mit den dazugehörigen korrekten Transkriptionen annotiert sind.

Qualität und Vielfalt der Trainingsdaten bestimmen maßgeblich die Leistungsfähigkeit des Modells. Modelle, die auf vielfältigen Akzenten, Sprachen und Umgebungsgeräuschen trainiert wurden, generalisieren besser auf neue Eingaben.

Öffentliche Datensätze wie Common Voice von Mozilla ermöglichen es, Spracherkennungsmodelle für viele Sprachen zu entwickeln. Der Datenschutz der Sprecher muss dabei stets gewährleistet werden.

Sprache zu Text nutzen

Sprache transkribieren

Sofort im Browser, ohne Anmeldung.

Zum Rechner

Trainingsdaten

Sprache transkribieren

Verwandte Begriffe

KI-Modell

Deep Learning

Datenschutz

DSGVO