Sprachassistenz
Ihr seht mit den Augen, ich sehe mit den Ohren.
Über unser Ohr dringen täglich unzählige Geräusche an uns heran, jeder von uns Menschen nimmt diese Geräusche unterschiedlich war. Somit ist der Hörsinn ein weiterer Sinn neben z.B. dem Sehsinn und dem Tastsinn, über den wir Informationen aufnehmen und verarbeiten können. Um mit der Umwelt in Kontakt zu treten nutzen wir die Sprache. Sie dient uns als Mittel um Gefühle, Wünsche und Bedürfnisse auszudrücken, oder uns mit Fragen an unsere Umwelt zu wenden.
Für blinde Menschen ist ihre Umwelt nur über das Hören und Tasten erfahrbar. Sie nehmen das Gehörte daher stärker wahr und filtern mehr Informationen daraus als wir. Sprache ist für sie daher eine häufig verwendete Schnittstelle zur Technologie.
In unserem Alltag begegnen uns schon heute Spracherkennungssysteme (Voice Asistant) wie Alexa von Amazon, Siri von Apple, Google auf Android-Geräten und viele weitere. Sprachassistenten bieten eine wichtige Unterstützung gerade auch für Blinde und ermöglichen ihnen das Diktieren längerer Texte, aber auch den schnellen Zugriff auf Funktionen des Smartphones. Betrachtet man dies aber in einem anderen Kontext zeigen sich auch Einschränkungen der Technik. Beispielsweise die Situation am Arbeitsplatz. Hier scheint der Sprachassistent nicht die geeignete Alternative gegenüber einer Tastatur zu sein. Jeder Mitarbeiter könnte gewollt oder ungewollt alles mithören. Mögliche Lösungen, denen derzeit in der Forschung nachgegangen wird, sind das Erkennen von lautloser Sprache oder Flüßtern. (Stüker, 2017) Eine weitere Herausforderung ist, dass viele Endgeräte ihr eigenes Spracherkennungssystem mitbringen. Es wird deutlich, dass das Themengebiet vielschichtig und umfangreich ist.
Um generell ein Gespür für Blinde zu bekommen und auch für die damit verbundene Spracherkennung, verschaffe ich mir zunächst einen allgemeinen Überblick.
Daher ergaben sich für das Team vor der Ideenentwicklung folgende Fragen:
- Wie kommunizieren blinde Menschen mit ihrer Umwelt?
- Wie kann die Spracherkennung blinden Menschen in alltäglichen Situationen helfen?
- Der Algorithmus hinter den Sprachassistenten. Wo liegen die Stärken und Schwächen?
- Wie leistungsfähig und fehleranfällig sind Spracherkennungssysteme?
- Wie können Sprachassistenten zukünftig emotionaler und natürlicher mit ihrer Umwelt kommunizieren?
- Wie können User Interfaces mit integrierter Sprachassistenz gestaltet werden?
- Was kann Alexa, warum ist sie so gut?
Sprachassistenten in Deutschland
Serpil Tas, Christian Hildebrand, René Arnold
Das Dokument gibt einen sehr guten Überblick, was Sprachassistenten sind, aus welchen Komponenten sie bestehen und welche Fähigkeit sie besitzen. Die Spracherkennung setzt auf den Natural Language Process (NLP) und DNN´s.
Außerdem wurde eine Umfrage getätigt, die die Art und Weise, wie Sprachassistenten in Deutschland genutzt werden, beleuchtet. Zudem wird die generelle Einstellung der Befragten zu den Sprachassistenten geschildert. Von den 3.184 Konsumenten besitzen 85% einen Sprachassistenten, der in einem Endgerät verbaut ist. Allerdings zeigte sich das die Sprachassistenten nur für 2-3 Funktionen genutzt werden. Aus den Ergebnissen der Umfragen und Informationen zur Evolutionsgeschichte der Sprachassistenten wurden Herausforderungen abgeleitet. Dabei wurden aber auch der Datenschutz und Sicherheitsaspekte betrachtet. Nur 26% der Deutschen nutzen einen Sprachassistenten, da Bedenken gegenüber den Systemen bestehen, gerade in Bezug auf die Sammlung und Verwendung von ihren persönlichen Daten. Zum anderen wird die Konversationsfähigkeit der Systeme bemängelt.
Smart device for visually impaired people Kasthuri, R., Nivetha, B., Shabana, S., Veluchamy, M., Sivakumar, S.,
Das Paper behandelt den Nutzen eines Smartphones per Sprachassistent von Blinden durch Sprache. Entwickelt wurde ein System, mit dem Blinde per Sprachbefehl jede App auf ihrem Handy öffnen können. Dabei handelt es sich um eine Android-Technologie. Befehle eines Blinden werden sofort von der Speech Recognition Engine (SRE) interpretiert und die Sprache für die direkte Aktionen in Text umgewandelt. Blinden ist es möglich jeden Kontakt über Sprachbefehle anzurufen, aber auch die neuesten Informationen von verschiedenen Webservern abrufen zu können, wie beispielsweise Live-Wetterberichte, Navigation oder Nachrichtenupdates. Es wurde versucht eine übergreifende Schnittstelle zu entwickeln, die es Blinden ermöglicht über ihr Handy auf sämtliche Dienste zugreifen zu können. Dieser Ansatz könnte für unsere Gestaltung eines Assistenzroboters sehr hilfreich sein.Visual Speech Recognition Using Motion Features and Hidden Markov Models Serpil Tas, Christian Hildebrand, René Arnold
In diesem Buch werden Herausforderungen in den sprachbasierten Systemen beleuchtet. Eine große Herausforderung der reinen Spracherkennungssysteme ist, dass egal in welcher Situation man sich befindet, diese noch nicht die umliegenden Geräusche filtern bzw. verarbeiten können. Hierbei wird ein neuartiger Ansatz zur visuellen Spracherkennung vorgestellt, der auf Bewegungssegmentierung und dem Hidden-Markov-Modellen (HMM) basiert. Hierbei werden die äußeren Gesichtsbewegungen um die Mundregionen aufgenommen diese werden dann mithilfe von räumlich-zeitlichen 2D-Vorlagen (STT) dargestellt. Möglich wäre es, diesen Ansatz für den Assistenzroboter für Blinde anzuwenden, um die Barriere beim Bedienen eines Sprachassistenten am Arbeitsplatz zu schließen. Dies könnte eine Lösung sein, damit Blinde sich nicht mehr abgehört fühlen. Zudem ist es durch diesen Ansatz möglich, das Gesprochene besser aus anderen Geräuschen zu identifizieren und dann richtig zu interpretieren.End-to-End Speech Emotion Recognition with Gender Information Sun, Ting-Wei
Eine große Herausforderung in der Spracherkennung ist immer noch, dass die Maschinen den emotionalen Kontext des Menschen nicht ausreichend verstehen können. Der Artikel beschäftigt sich deshalb damit, wie Emotionen mittels Algorithmen in der Spracherkennung analysiert werden können. Hierfür wird der Deep Learning (DL) -Algorithmus verwendet. Unter Verwendung von Deep-Learning-Algorithmen wählt das Netzwerk automatisch wichtige Informationen aus dem rohen Sprachsignal für die Klassifizierungsschicht aus, um eine Emotionserkennung zu erreichen. Des Weiteren wurden dem Algorithmus auch Informationen zum Geschlecht der Sprecher hinzugefügt, um die Erkennungsgenauigkeit weiter zu verbessern. Das Paper schließt mit den Worten ab, dass die emotionale Spracherkennung noch weit von der Geschäftsanwendungen entfernt ist. Erkannte Emotionalität des Nutzers spielt aus meiner Sicht eine wichtige Rolle für die Akzeptanz der Assistenzroboter für Blinde.Bridging the Gap between Disabled People and New Technology in Interactive Web Application with the Help of Voice Kumar, Dilip, Sachan, Abhishek
In diesem Artikel wird dargestellt, wie eine einfache Interaktion zwischen behinderten Menschen und einer Webanwendung gestaltet werden kann. Es wurde versucht mithilfe von Sprache auf den gesamten Webtext zuzugreifen. Die Herausforderung dabei ist, dass die Spracherkennung sich noch dahingehend weiter entwickeln muss, Sprache so zu durchdringen, dass diese in einer lauten Umgebung erkannt und dann auf den Webanwendungen angewendet werden kann. Bei dem Spracherkenner handelt es sich um eine Open Source Lösung, die Sprache mit mittlerem Wortschatz in Echtzeit erkennt. Sowohl Wörter als auch Zahlen können erkannt werden und diese über Sprache wieder ausgegeben werden. Hier wird als betrachtet inwiefern User Interfaces durch Sprachanwendungen gesteuert werden können.Weitere Literatur
- Hartmann, Anja (2004). Kommunikation mit und von Sehgeschädigten (Hausarbeit)
- Meinhardt, Luca-Maxim (2017). Chancen und Risiken von Voice User Interfaces im Marketing und im User Engagement (Masterarbeit),
- Assunção, Gustavo, Menezes, Paulo, Perdigão, Fernando (2019). Importance of speaker specific speech features for emotion recognition (Published in 2019 5th Experiment International Conference (exp.at’19))
- Dieckmann, Arne, Gossen, Andrej (2002). Realisierung einer Sprachsteuerung für Roboter an der HAW-Hamburg (Masterarbeit)
- Paluch, Stephanie, Wittkop, Thomas (2020). Marketing Weiterdenken. – Voice Marketing – Die Stimme der Zukunft, pp 509-520
- Döring, Dagmar (2019). Chefsache Zukunft. Die Freiheit des Worts im digitalen Zeitalter und ihre Bedrohung, pp 47-61
Referenzen
- Hiltmann, Andrè (2019). Alexa, Siri und Co.: Die wichtigsten Sprachassistenten im Vergleich
- Kolaschinsky, Doreen (2011). Selbstwertgefühl sehbehinderter und blinder Kinder und Jugendlicher in sozialen Interaktionen
- Abels, Heinz (2020). Soziale Interaktion – Die verständliche Einführung in interpretative Theorien der Soziologie,
- Hellbusch, Jan Eric, Probiesch, Kerstin (2011). Barrierefreiheit verstehen und umsetzen: Webstandards für ein zugängliches nutzbares Internet
- Mansholt, Malte (2017). Alexa überall: Wie Sprachsteuerung unseren Alltag erobert,
- Hirnforschung – Blinde Menschen hören präziser – Studie zeigt Hintergründe