Sprach-Lexikon
Die wichtigsten Begriffe kurz und verständlich erklärt, zum schnellen Nachschlagen beim Arbeiten mit dem Tool.
Abtastrate
Anzahl der Messwerte pro Sekunde bei der Digitalisierung eines Audiosignals.
Abtastung
Messung des analogen Audiosignals in regelmäßigen Zeitabständen.
Akustisches Modell
Komponente der Spracherkennung, die Audiomerkmale auf Laute oder Phoneme abbildet.
Audiodatei
Digitale Datei, die Tondaten in einem bestimmten Format speichert.
Barrierefreiheit
Gestaltung digitaler Angebote so, dass sie für alle Menschen zugänglich sind.
Befehlswort
Vordefiniertes Schlüsselwort, das ein Sprachsteuerungssystem aktiviert oder anweist.
Cloud-Verarbeitung
Auslagerung der Spracherkennung auf externe Serverinfrastruktur über das Internet.
Datenschutz
Schutz personenbezogener Daten bei der Verarbeitung von Sprachaufnahmen.
Deep Learning
Maschinenlernverfahren mit mehrstufigen neuronalen Netzen für komplexe Aufgaben.
Dezibel
Logarithmische Einheit zur Messung der Lautstärke eines Audiosignals.
Dialekt
Regionale Sprachvariante, die Spracherkennungssysteme vor besondere Herausforderungen stellt.
Diarisierung
Automatische Zuordnung von Sprachsegmenten zu verschiedenen Sprechern in einer Aufnahme.
Diktat
Sprachgesteuerte Texteingabe, bei der gesprochene Wörter direkt als Text erscheinen.
DSGVO
Europäische Datenschutz-Grundverordnung mit Regeln zur Verarbeitung personenbezogener Daten.
Echtzeit-Transkription
Sofortige Umwandlung gesprochener Sprache in Text ohne spürbare Verzögerung.
Formatierung
Nachbearbeitung transkribierter Texte zur korrekten Darstellung von Zahlen, Daten und Sonderzeichen.
Frequenz
Anzahl der Schwingungen pro Sekunde eines Audiosignals, gemessen in Hertz.
Interpunktion
Automatisches Einfügen von Satzzeichen in transkribierte Texte.
KI-Modell
Trainiertes mathematisches Modell zur Verarbeitung und Analyse von Sprache.
Latenz
Zeitverzögerung zwischen Spracheingabe und der Ausgabe des Transkriptionsergebnisses.
Mikrofon
Wandler, der Schallwellen in elektrische Signale umwandelt und als Eingabegerät dient.
MP3
Verlustbehaftetes Audiokompressionsformat mit hoher Verbreitung.
Neuronales Netz
Vom menschlichen Gehirn inspiriertes Berechnungsmodell für KI-Aufgaben.
Offline-Modus
Spracherkennung direkt auf dem Gerät ohne Internetverbindung.
Phonem
Kleinste bedeutungsunterscheidende Lauteinheit einer Sprache.
Podcast
Episodisches Audioformat, das zunehmend automatisch transkribiert und untertitelt wird.
Rauschunterdrückung
Verfahren zur Reduzierung unerwünschter Hintergrundgeräusche im Audiosignal.
Spektrogramm
Visuelle Darstellung der Frequenzverteilung eines Audiosignals über die Zeit.
Sprachassistent
KI-gestütztes System, das über natürliche Sprache mit Nutzern interagiert und Aufgaben ausführt.
Sprachausgabe
Umwandlung von Text in gesprochene Sprache durch ein Computersystem.
Sprachbefehl
Gesprochene Anweisung, die ein System zu einer bestimmten Aktion veranlasst.
Sprache zu Text
Direktes Verfahren zur Umwandlung von Audioeingaben in geschriebenen Text.
Spracherkennung
Technologie zur automatischen Umwandlung gesprochener Sprache in maschinenlesbaren Text.
Sprachmodell
Statistisches oder neuronales Modell zur Vorhersage wahrscheinlicher Wortfolgen.
Sprachnotiz
Per Sprache aufgezeichnete und optional automatisch transkribierte Notiz.
Sprachsignal
Elektrisches oder digitales Signal, das gesprochene Sprache als Wellenform darstellt.
Sprachsteuerung
Bedienung von Geräten und Software durch gesprochene Befehle.
Sprecher-Erkennung
Identifikation oder Verifikation einer Person anhand charakteristischer Stimmmerkmale.
Streaming
Kontinuierliche Übertragung und Verarbeitung von Audiodaten in Echtzeit.
Text zu Sprache
Synthetische Sprachausgabe aus geschriebenem Text mithilfe von TTS-Systemen.
Trainingsdaten
Beschriftete Datensätze, die zum Trainieren von KI-Sprachmodellen genutzt werden.
Transkription
Übertragung gesprochener Sprache in schriftliche Form, manuell oder automatisch.
TTS
Abkürzung für Text-to-Speech, die maschinelle Sprachsynthese aus Text.
Untertitel
Textliche Darstellung von Dialogen oder Kommentaren, eingeblendet in Videos oder Live-Streams.
Vokabular
Menge der Wörter, die ein Spracherkennungssystem kennt und erkennen kann.
WAV
Unkomprimiertes Audioformat mit verlustfreier Qualität.
Web Speech API
Browser-native Schnittstelle für Spracherkennung und Sprachausgabe in Webanwendungen.
Whisper
Offenes Spracherkennungsmodell von OpenAI mit hoher Mehrsprachigkeit und Genauigkeit.
Wortfehlerrate
Maßzahl für die Erkennungsgenauigkeit, berechnet als Anteil falsch erkannter Wörter.
Zeitstempel
Zeitmarkierung, die angibt, wann ein bestimmtes Wort oder ein Segment gesprochen wurde.