Datenschutz

Spracherkennung und Datenschutz: Lokal vs. Cloud

Was passiert mit Ihren Audiodaten bei der Spracherkennung? Dieser Ratgeber vergleicht cloudbasierte und lokale Lösungen aus Datenschutzperspektive und erklärt, was die DSGVO verlangt.

Lesezeit 7 Min. Aktualisiert 22.05.2026 2 Quellen Mateusz Viola Mateusz Viola
Inhalt

Sprachaufnahmen gehören zu den sensibelsten Datenkategorien überhaupt. Die Stimme ist biometrisch eindeutig, enthält emotionale Informationen und transportiert oft sehr persönliche Inhalte. Wer Diktiersoftware nutzt, sollte verstehen, was mit diesen Daten geschieht.

Wie cloudbasierte Spracherkennung funktioniert

Bei cloudbasierten Systemen werden Audiodaten vom eigenen Gerät an Server des Anbieters übertragen, dort verarbeitet und der erkannte Text zurückgeschickt. Das eigentliche Sprachmodell läuft nicht lokal, sondern auf der Infrastruktur des Anbieters.

Diese Architektur hat technische Vorteile: Die Modelle können sehr groß sein, werden ständig aktualisiert und erfordern keine leistungsfähige Hardware auf dem Endgerät.

Datenschutztechnisch entstehen dabei mehrere Fragen: Wie lange speichert der Anbieter die Audiodaten? Werden sie zur Modellverbesserung genutzt? In welchem Land befinden sich die Server? Wer hat Zugriff auf die Daten?

Datenschutzrechtliche Einordnung

Audiodaten, die eine natürliche Person erkennbar enthalten, sind personenbezogene Daten im Sinne der DSGVO. Sprache gilt zudem als biometrisches Datum, wenn sie zur eindeutigen Identifizierung einer Person genutzt werden kann. In diesem Fall gelten die strengeren Anforderungen von Art. 9 DSGVO für besondere Kategorien.

Unternehmen, die Cloud-Diktierdienste einsetzen, müssen prüfen, ob ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO mit dem Anbieter besteht. Ohne diesen Vertrag ist die Nutzung für personenbezogene Daten rechtlich problematisch.

Für private Anwender ohne berufliche Datenverarbeitungspflichten ist die Rechtslage weniger streng, der Grundsatz der Datensparsamkeit gilt aber für jeden.

Große Cloud-Anbieter im Überblick

Google Web Speech API: Die in vielen Browsern eingebettete Spracherkennung über die Web Speech API nutzt Google-Server. Google gibt an, Audiodaten nach der Transkription nicht zu speichern, behält sich aber vor, anonymisierte Daten zur Qualitätsverbesserung zu verwenden.

Apple Diktierfunktion: Apples Betriebssystem-Diktat verarbeitet seit iOS 15 und macOS Monterey standardmäßig lokal auf dem Gerät, ohne Verbindung zu Apple-Servern. Das ist eine datenschutzfreundliche Ausnahme unter den großen Anbietern.

Microsoft Azure Cognitive Services: Microsofts Spracherkennungs-API ist explizit für Unternehmen konzipiert, bietet AVV-Optionen und ermöglicht Datenspeicherung in europäischen Rechenzentren.

Whisper (OpenAI): Das Modell selbst ist Open Source und kann lokal ohne jede Netzwerkverbindung betrieben werden. In diesem Modus verlassen keine Audiodaten das eigene Gerät. Wird die OpenAI-API genutzt, gelten dagegen OpenAIs Datenschutzbedingungen.

Lokale Spracherkennung als datenschutzfreundliche Alternative

Bei lokaler Spracherkennung verarbeitet das Gerät des Anwenders die Audiodaten vollständig ohne Netzwerkzugriff. Das Modell läuft auf der eigenen CPU oder GPU, der erkannte Text entsteht lokal und keine Audiodaten verlassen das Gerät.

Dies ist die datenschutzfreundlichste Option für sensible Inhalte. Geeignete Lösungen:

Whisper lokal: OpenAIs Whisper-Modell lässt sich auf jedem modernen Computer installieren und betreiben. Die Modellqualität ist mit cloudbasierten Systemen vergleichbar. Der Nachteil ist ein erhöhter Einrichtungsaufwand und je nach Modellgröße erhebliche Rechenanforderungen.

Vosk: Ein Open-Source-Spracherkennungssystem, das explizit für offline-Betrieb auf schwacher Hardware konzipiert ist. Gut geeignet für eingebettete Systeme oder ältere Geräte.

Windows Spracherkennung: Die in Windows integrierte Spracherkennung kann im Offline-Modus betrieben werden, ist aber für neue Anwendungen zunehmend von Microsoft-Cloud-Diensten abhängig.

Praktische Entscheidungshilfe

Privater Gebrauch, unkritische Inhalte: Cloudbasierte Dienste sind völlig in Ordnung. Der Komfort überwiegt den Datenschutzaufwand für Dinge wie Einkaufslisten, Notizen oder persönliche Texte.

Beruflicher Einsatz, personenbezogene Daten: Prüfen Sie, ob ein AVV mit dem Anbieter vorliegt. Für europäische Unternehmen empfehlen sich Anbieter mit EU-Datenspeicherung.

Gesundheitsdaten, anwaltliche Mandate, Geschäftsgeheimnisse: Lokale Lösung wählen. Cloudbasierte Dienste scheiden aus, es sei denn, eine fundierte rechtliche Prüfung ergibt etwas anderes.

Behörden und öffentliche Stellen: Lokale Lösungen oder zertifizierte Anbieter mit C5-Testat (BSI) sind in der Regel Pflicht.

Hinweise zu browserbasierten Werkzeugen

Browserwerkzeuge wie sprache-zu-text.de, die die Web Speech API des Browsers nutzen, übertragen Audiodaten typischerweise an die Server des Browser-Anbieters. Für unkritische Texte ist das kein Problem. Wer sensible Inhalte verarbeitet, sollte eine lokale Lösung bevorzugen oder prüfen, ob das genutzte Werkzeug eine vollständig lokale Verarbeitungsoption bietet.

Zusammenfassung

Die Datenschutzfrage bei Spracherkennung lässt sich nicht pauschal beantworten. Sie hängt davon ab, welche Inhalte verarbeitet werden, in welchem beruflichen oder rechtlichen Kontext und welche Anbieter eingesetzt werden. Als Faustregel gilt: Je sensibler der Inhalt, desto mehr spricht für eine lokale Lösung. Wer cloudbasierte Dienste nutzt, sollte die Datenschutzhinweise des Anbieters kennen und bei beruflichem Einsatz einen AVV abschließen.

Häufige Fragen

Darf ich vertrauliche Dokumente per Cloud-Spracherkennung diktieren?

Das hängt vom Anbieter und dem konkreten Datenschutzvertrag ab. Für streng vertrauliche Inhalte wie personenbezogene Gesundheitsdaten, anwaltliche Mandate oder Geschäftsgeheimnisse ist lokale Spracherkennung die sicherere Wahl. Cloud-Dienste sollten nur genutzt werden, wenn ein Auftragsverarbeitungsvertrag nach Art. 28 DSGVO vorliegt und der Anbieter ausreichende Garantien bietet.

Was ist der Unterschied zwischen lokaler Spracherkennung und browserbasierter Spracherkennung?

Browserbasierte Spracherkennung nutzt in der Regel die Web Speech API des Browsers, die Audiodaten an Server des Browser-Anbieters schickt. Das ist Cloud-Erkennung. Lokale Spracherkennung hingegen verarbeitet alles auf dem eigenen Gerät, ohne Datenübertragung. Werkzeuge, die Whisper lokal ausführen, fallen in diese Kategorie.

Quellen

  • Europäischer Datenschutzausschuss: Leitlinien zur Verarbeitung von Sprachdaten (EDPB 2023)
  • Datenschutzkonferenz (DSK): Orientierungshilfe Sprachassistenten, 2021
Mateusz Viola

Über die Autorenschaft

Mateusz Viola

Betreiber und redaktionelle Verantwortung sprache-zu-text.de

Themengebiet: Mathematik, Kalenderrechnung, Schaltjahre, Statistik und ISO 8601

Mehr über Mateusz Viola →

Verwandte Artikel

Sprache zu Text nutzen

Sofort im Browser, ohne Anmeldung.

Zum Tool