Technik
Spektrogramm
Visuelle Darstellung der Frequenzverteilung eines Audiosignals über die Zeit.
Ein Spektrogramm zeigt, wie sich die Energie eines Audiosignals über verschiedene Frequenzbereiche und über die Zeit verteilt. Die horizontale Achse repräsentiert die Zeit, die vertikale Achse die Frequenz, und die Helligkeit oder Farbe gibt die Intensität an.
In der Spracherkennung werden Mel-Spektrogramme häufig als Eingangsrepräsentation für neuronale Netze verwendet. Die Mel-Skala orientiert sich an der menschlichen Wahrnehmung und betont tiefere Frequenzen stärker.
Spektrogramme ermöglichen es, typische Sprachmuster wie Vokale, Konsonanten und Pausen visuell zu erkennen und algorithmisch zu verarbeiten.
Verwandte Begriffe
Sprachsignal
Elektrisches oder digitales Signal, das gesprochene Sprache als Wellenform darstellt.
Akustisches Modell
Komponente der Spracherkennung, die Audiomerkmale auf Laute oder Phoneme abbildet.
Abtastrate
Anzahl der Messwerte pro Sekunde bei der Digitalisierung eines Audiosignals.
Frequenz
Anzahl der Schwingungen pro Sekunde eines Audiosignals, gemessen in Hertz.