Mit KI ausgestattete Brillen lesen stumme Sprache

Forscher der Cornell University haben eine Schnittstelle zur Erkennung leiser Sprache entwickelt, die akustische Sensoren und künstliche Intelligenz einsetzt, um kontinuierlich bis zu 31 nicht gesprochene Befehle zu erkennen, die auf Lippen- und Mundbewegungen basieren.

Die stromsparende, tragbare Schnittstelle – EchoSpeech genannt – benötigt nur wenige Minuten an Trainingsdaten, bevor sie Befehle erkennt, und kann auf einem Smartphone ausgeführt werden.

Ruidong Zhang, Doktorand der Informationswissenschaften, ist der Hauptautor von „EchoSpeech: Continuous Silent Speech Recognition on Minimal-obtrusive Eyewear Powered by Acoustic Sensing“, das diesen Monat auf der Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) in Hamburg vorgestellt wird.

„Für Menschen, die keine Laute von sich geben können, könnte diese stille Sprachtechnologie eine hervorragende Eingabe für einen Sprachsynthesizer sein. Sie könnte den Patienten ihre Stimme zurückgeben“, so Zhang über den möglichen Einsatz der Technologie bei weiterer Entwicklung.

EchoSpeech-Brille mit Mikrofonen und Lautsprechern – kleiner als ein Radiergummi

In seiner jetzigen Form könnte EchoSpeech verwendet werden, um mit anderen über das Smartphone an Orten zu kommunizieren, an denen Sprache unangenehm oder unpassend ist, z. B. in einem lauten Restaurant oder einer ruhigen Bibliothek. Die geräuschlose Sprachschnittstelle kann auch mit einem Stift gekoppelt und mit Konstruktionssoftware wie CAD verwendet werden, wodurch eine Tastatur und eine Maus fast überflüssig werden.

Ausgestattet mit einem Paar Mikrofone und Lautsprechern, die kleiner als ein Radiergummi sind, wird die EchoSpeech-Brille zu einem tragbaren KI-gestützten Sonarsystem, das Schallwellen über das Gesicht sendet und empfängt und Mundbewegungen erfasst. Ein Deep-Learning-Algorithmus analysiert dann diese Echoprofile in Echtzeit mit einer Genauigkeit von etwa 95 %.

„Wir verlagern das Sonar auf den Körper“, sagt Cheng Zhang, Assistenzprofessor für Informatik und Leiter des Cornell Labs für intelligente Computerschnittstellen für zukünftige Interaktionen (SciFi).

„Wir freuen uns sehr über dieses System“, sagte er, „weil es in Bezug auf Leistung und Datenschutz einen echten Fortschritt darstellt. Es ist klein, stromsparend und datenschutzfreundlich, was alles wichtige Eigenschaften für den Einsatz neuer, tragbarer Technologien in der realen Welt sind.

Die meisten Technologien zur Erkennung leiser Sprache beschränken sich auf eine Reihe vorgegebener Befehle und erfordern, dass der Benutzer eine Kamera vor sich hat oder trägt, was weder praktisch noch machbar ist, so Cheng Zhang. Außerdem gibt es große Bedenken hinsichtlich des Datenschutzes bei tragbaren Kameras – sowohl für den Benutzer als auch für die Personen, mit denen der Benutzer interagiert, sagte er.

Akustiksensoren wie EchoSpeech machen tragbare Videokameras überflüssig. Und da Audiodaten viel kleiner sind als Bild- oder Videodaten, benötigen sie weniger Bandbreite für die Verarbeitung und können über Bluetooth in Echtzeit an ein Smartphone übertragen werden, so François Guimbretière, Professor für Informationswissenschaften.

„Und da die Daten lokal auf dem Smartphone verarbeitet und nicht in die Cloud hochgeladen werden“, so Guimbretière, „verlieren Sie nie die Kontrolle über datenschutzrelevante Informationen.“