3 Tagen her
Kopfhörer mit KI-Technologie: Simultane Übersetzung mehrerer Sprecher in 3D-Sound

An der University of Washington wurde eine innovative Technologie entwickelt, die mittels Kopfhörern die gleichzeitige Übersetzung mehrerer Sprecher ermöglicht, ohne deren individuelle Stimme und Richtung zu verlieren. Diese sogenannte Spatial Speech Translation nutzt handelsübliche, geräuschunterdrückende Kopfhörer mit integrierten Mikrofonen und wird von Algorithmen unterstützt, die es schaffen, Sprecher im Raum zu identifizieren und deren Sprache in Echtzeit zu übersetzen und wiederzugeben.
Das System wurde von einem Forscherteam unter der Leitung von Tuochao Chen entwickelt, das die Ergebnisse auf der ACM CHI Conference on Human Factors in Computing Systems in Japan präsentierte. Die Software ist als Open-Source verfügbar, sodass andere Forscher auf dieser Basis weiterentwickeln können. Nach Aussage des Senior Autors Shyam Gollakota gelingt es erstmals, die natürliche Stimmenqualität und die Ortung der Sprecher zu bewahren.
Eine der bedeutenden Aufgaben, die das System bewältigt, ist das Erkennen der Anzahl der Sprecher in einer Umgebung – sei es drinnen oder draußen. Es übersetzt die gesprochene Sprache und erhält die Ausdrücke und Lautstärke jedes Einzelnen. Diese Lösung verzichtet auf Cloud-Computing zur Wahrung der Privatsphäre und funktioniert auf Geräten wie dem Apple M2 Chip.
Nach Tests in verschiedenen Umgebungen und einer Nutzerstudie bevorzugten die meisten Teilnehmer das System, das eine Verzögerung von 3-4 Sekunden für die Übersetzung aufwies, da kürzere Verzögerungen zu Fehlern führten. Diese Entwicklung stellt einen Schritt in Richtung des Abbaus von Sprachbarrieren zwischen Kulturen dar.
Das System wurde von einem Forscherteam unter der Leitung von Tuochao Chen entwickelt, das die Ergebnisse auf der ACM CHI Conference on Human Factors in Computing Systems in Japan präsentierte. Die Software ist als Open-Source verfügbar, sodass andere Forscher auf dieser Basis weiterentwickeln können. Nach Aussage des Senior Autors Shyam Gollakota gelingt es erstmals, die natürliche Stimmenqualität und die Ortung der Sprecher zu bewahren.
Eine der bedeutenden Aufgaben, die das System bewältigt, ist das Erkennen der Anzahl der Sprecher in einer Umgebung – sei es drinnen oder draußen. Es übersetzt die gesprochene Sprache und erhält die Ausdrücke und Lautstärke jedes Einzelnen. Diese Lösung verzichtet auf Cloud-Computing zur Wahrung der Privatsphäre und funktioniert auf Geräten wie dem Apple M2 Chip.
Nach Tests in verschiedenen Umgebungen und einer Nutzerstudie bevorzugten die meisten Teilnehmer das System, das eine Verzögerung von 3-4 Sekunden für die Übersetzung aufwies, da kürzere Verzögerungen zu Fehlern führten. Diese Entwicklung stellt einen Schritt in Richtung des Abbaus von Sprachbarrieren zwischen Kulturen dar.
Lesenswert hierzu
Dieser Artikel wurde vollständig oder teilweise durch eine Künstliche Intelligenz (KI) erstellt. Obwohl wir bemüht sind, genaue und aktuelle Informationen bereitzustellen, können wir keine Garantie für die Richtigkeit oder Vollständigkeit des Inhalts übernehmen. Bitte überprüfen Sie alle Informationen und ziehen Sie bei Bedarf eine fachkundige Beratung hinzu.