„Okay, Google – wie wird das Wetter?“ Nahezu jede/r hat es schon einmal mit automatischer Spracherkennung zu tun gehabt. Sei es durch prominente Vertreter der virtuellen Assistenten wie Alexa, Google Now oder Siri, im Auto oder durch die automatisierte Kundenbetreuung bei einer Unternehmenshotline. Aber nicht nur der Alltag wird durch automatische Spracherkennung einfacher, auch in professionellen Bereichen wie etwa beim Übersetzen und Dolmetschen macht man sich die rapide Entwicklung der Spracherkennungssoftwares zunutze.
Was ist automatische Spracherkennung?
Automatische Spracherkennung ist geboren aus einer Überschneidung von Informatik und Computerlinguistik. Wie der Name vermuten lässt, geht es dabei darum, gesprochene Sprache mittels einer Software so umzuwandeln, dass sie von technischen Geräten und anderen Programmen verarbeitet werden kann. Was in den 1960er Jahren noch ziemlich erfolglos begann, funktioniert heute dank lernenden KI-Systemen sehr gut. So gut, dass Spracherkennung sowohl in den Alltag integriert wurde als auch in der Arbeitswelt für erhebliche Erleichterung und Verbesserung sorgt.
Bild: fizkes – stock.adobe.com
SprecherInnenabhängige und -unabhängige Spracherkennung
Spracherkennung kann entweder abhängig oder unabhängig von SprecherInnen sein. SprecherInnenabhängige Spracherkennungssoftwares werden vor und während der Nutzung von den Anwendenden auf ihre eigene (Aus-)Sprache trainiert. Neben individuellen sprachlichen Merkmalen wie Sprechgeschwindigkeit, Akzent und Stimmhöhe erlaubt eine sprecherInnenabhängige Spracherkennung auch einen immensen und anwendungsspezifischen Wortschatz, der Fachbegriffe und Abkürzungen kennt. Durch dieses Training ist die Erkennungsquote sehr hoch (über 95 Prozent). Deshalb wird SprecherInnenabhängige Spracherkennung vor allem im professionellen Bereich, z. B. von Schrift-Dolmetschenden, verwendet. Aber auch im Alltag arbeiten beispielsweise virtuelle Assistenten ebenfalls zumindest teilweise mit sprecherInnenabhängiger Spracherkennung. SprecherInnenunabhängige Spracherkennung dagegen kann nur einen vergleichsweise kleinen Wortschatz mit geringeren Erkennungsquoten realisieren. Dafür können diese Softwares sofort nach der Installation in vollem Umfang verwendet werden und kommen zudem besser mit häufig wechselnden Sprechenden zurecht. Für Spracherkennung bei Transkriptionen wird deshalb häufig sprecherInnenunabhängige Spracherkennung eingesetzt. Auch die KI-Systeme in Call-Centern und Unternehmen greifen häufig auf diese Art der Spracherkennung zurück.
Vorteile von automatischer Spracherkennung
Unabhängig davon, ob automatische Spracherkennung sprecherInnenabhängig oder -unabhängig eingesetzt wird, bergen entsprechende Softwares viele Vorteile für Nutzende. Neben positiven Auswirkungen auf die Gesundheit der Anwendenden spart Spracherkennung in vielen professionellen Bereichen Ressourcen. Transkribierenden spart der Einsatz von Spracherkennungssoftwares enorm Zeit, da das Gehörte nicht mehr getippt, sondern „nur“ ausgebessert und entsprechend formatiert werden muss. Dolmetschenden erlaubt digitale Spracherkennung einen besseren „Flow“, der zu genaueren Ergebnissen führt. Der Einsatz von Spracherkennungssoftware bedeutet in diesen anspruchsvollen Professionen häufig enorme Arbeitsentlastung. Für Kunden führt der Einsatz von automatischer Spracherkennung bei entsprechenden Dienstleistungen durch gesteigerte Effizienz nicht zuletzt zu geringeren Kosten.
Bild: DedMityay – stock.adobe.com
Weitere Einsatzgebiete von automatischer Spracherkennung
Der größte Markt für automatische Spracherkennung sind kommerzielle Anwendungen. Dazu gehört der bereits erwähnte Einsatz in Call-Centern ebenso wie die digitalen Assistenten im Smart Phone. Durch Sprachbefehle und Sprachsteuerung bieten die Möglichkeiten der Spracherkennung mehr Komfort und Sicherheit (z. B. bei Navigationssystemen im Auto). Aber auch auf professionellem Gebiet wird Spracherkennung häufig für Sprachsteuerung eingesetzt. Vor allem dort, wo eine manuelle Bedienung von Maschinen nicht sinnvoll oder nur schwer umsetzbar ist (z. B. in der maschinell unterstützten Chirurgie).
Übrigens: Obwohl sich die technischen Voraussetzungen und Prozesse ähneln, ist automatische Spracherkennung nicht das gleiche wie automatische SprecherInnen- oder Stimmerkennung. Letztere dient der (biometrischen) Identifikation einzelner SprecherInnen und der Erstellung eines Sprachprofils. Stimmerkennung wird vor allem in der Forensik angewendet.