Sprach-Lexikon

Die wichtigsten Begriffe kurz und verständlich erklärt, zum schnellen Nachschlagen beim Arbeiten mit dem Tool.

Abtastrate

Anzahl der Messwerte pro Sekunde bei der Digitalisierung eines Audiosignals.

Abtastung

Messung des analogen Audiosignals in regelmäßigen Zeitabständen.

Akustisches Modell

Komponente der Spracherkennung, die Audiomerkmale auf Laute oder Phoneme abbildet.

Audiodatei

Digitale Datei, die Tondaten in einem bestimmten Format speichert.

Barrierefreiheit

Gestaltung digitaler Angebote so, dass sie für alle Menschen zugänglich sind.

Befehlswort

Vordefiniertes Schlüsselwort, das ein Sprachsteuerungssystem aktiviert oder anweist.

Cloud-Verarbeitung

Auslagerung der Spracherkennung auf externe Serverinfrastruktur über das Internet.

Datenschutz

Schutz personenbezogener Daten bei der Verarbeitung von Sprachaufnahmen.

Deep Learning

Maschinenlernverfahren mit mehrstufigen neuronalen Netzen für komplexe Aufgaben.

Dezibel

Logarithmische Einheit zur Messung der Lautstärke eines Audiosignals.

Dialekt

Regionale Sprachvariante, die Spracherkennungssysteme vor besondere Herausforderungen stellt.

Diarisierung

Automatische Zuordnung von Sprachsegmenten zu verschiedenen Sprechern in einer Aufnahme.

Diktat

Sprachgesteuerte Texteingabe, bei der gesprochene Wörter direkt als Text erscheinen.

DSGVO

Europäische Datenschutz-Grundverordnung mit Regeln zur Verarbeitung personenbezogener Daten.

Echtzeit-Transkription

Sofortige Umwandlung gesprochener Sprache in Text ohne spürbare Verzögerung.

Formatierung

Nachbearbeitung transkribierter Texte zur korrekten Darstellung von Zahlen, Daten und Sonderzeichen.

Frequenz

Anzahl der Schwingungen pro Sekunde eines Audiosignals, gemessen in Hertz.

Interpunktion

Automatisches Einfügen von Satzzeichen in transkribierte Texte.

KI-Modell

Trainiertes mathematisches Modell zur Verarbeitung und Analyse von Sprache.

Latenz

Zeitverzögerung zwischen Spracheingabe und der Ausgabe des Transkriptionsergebnisses.

Mikrofon

Wandler, der Schallwellen in elektrische Signale umwandelt und als Eingabegerät dient.

MP3

Verlustbehaftetes Audiokompressionsformat mit hoher Verbreitung.

Neuronales Netz

Vom menschlichen Gehirn inspiriertes Berechnungsmodell für KI-Aufgaben.

Offline-Modus

Spracherkennung direkt auf dem Gerät ohne Internetverbindung.

Phonem

Kleinste bedeutungsunterscheidende Lauteinheit einer Sprache.

Podcast

Episodisches Audioformat, das zunehmend automatisch transkribiert und untertitelt wird.

Rauschunterdrückung

Verfahren zur Reduzierung unerwünschter Hintergrundgeräusche im Audiosignal.

Spektrogramm

Visuelle Darstellung der Frequenzverteilung eines Audiosignals über die Zeit.

Sprachassistent

KI-gestütztes System, das über natürliche Sprache mit Nutzern interagiert und Aufgaben ausführt.

Sprachausgabe

Umwandlung von Text in gesprochene Sprache durch ein Computersystem.

Sprachbefehl

Gesprochene Anweisung, die ein System zu einer bestimmten Aktion veranlasst.

Sprache zu Text

Direktes Verfahren zur Umwandlung von Audioeingaben in geschriebenen Text.

Spracherkennung

Technologie zur automatischen Umwandlung gesprochener Sprache in maschinenlesbaren Text.

Sprachmodell

Statistisches oder neuronales Modell zur Vorhersage wahrscheinlicher Wortfolgen.

Sprachnotiz

Per Sprache aufgezeichnete und optional automatisch transkribierte Notiz.

Sprachsignal

Elektrisches oder digitales Signal, das gesprochene Sprache als Wellenform darstellt.

Sprachsteuerung

Bedienung von Geräten und Software durch gesprochene Befehle.

Sprecher-Erkennung

Identifikation oder Verifikation einer Person anhand charakteristischer Stimmmerkmale.

Streaming

Kontinuierliche Übertragung und Verarbeitung von Audiodaten in Echtzeit.

Text zu Sprache

Synthetische Sprachausgabe aus geschriebenem Text mithilfe von TTS-Systemen.

Trainingsdaten

Beschriftete Datensätze, die zum Trainieren von KI-Sprachmodellen genutzt werden.

Transkription

Übertragung gesprochener Sprache in schriftliche Form, manuell oder automatisch.

TTS

Abkürzung für Text-to-Speech, die maschinelle Sprachsynthese aus Text.

Untertitel

Textliche Darstellung von Dialogen oder Kommentaren, eingeblendet in Videos oder Live-Streams.

Vokabular

Menge der Wörter, die ein Spracherkennungssystem kennt und erkennen kann.

WAV

Unkomprimiertes Audioformat mit verlustfreier Qualität.

Web Speech API

Browser-native Schnittstelle für Spracherkennung und Sprachausgabe in Webanwendungen.

Whisper

Offenes Spracherkennungsmodell von OpenAI mit hoher Mehrsprachigkeit und Genauigkeit.

Wortfehlerrate

Maßzahl für die Erkennungsgenauigkeit, berechnet als Anteil falsch erkannter Wörter.

Zeitstempel

Zeitmarkierung, die angibt, wann ein bestimmtes Wort oder ein Segment gesprochen wurde.