Magazine Culture

Un interprète F/LSF 3.0 sur Xbox 360

Publié le 06 octobre 2013 par Stéphan @interpretelsf

photo-kinectAu départ il y a un brevet déposé par Microsoft en février 2009 présentant Kinect : il s’agit d’un système de reconnaissance doté d’une caméra utilisant des techniques d’interaction et branché sur la console Xbox 360.

Son principe est simple : vous pouvez interagir avec le jeu sélectionné grâce à la  reconnaissance des mouvements. On peut ainsi jouer sans aucune manette ni périphérique autre que son propre corps. Avec cette caméra kinect détecte vos mouvements et vous pouvez skier, courir, participer à un match de basket sans tenir de joystick, vous êtes réellement dans le jeu.

Ludique ? Certainement vu qu’à la différence de la Wii de Nintendo, vous avez les mains libres.
Mais pas uniquement. En effet cette particularité technologique a permis d’ouvrir un nouveau champ de recherche vers le monde du handicap en général et celui de la surdité en particulier.

Ainsi les chercheurs de Microsoft Asia et ceux de l’Institute of Computing Technology de la Chinese Academy of Science ont collaboré pour mettre en place un joli projet, l’objectif étant de concevoir un système capable de traduire les langues des signes en écriture ou en voix de synthèse, afin de permettre à ces personnes de communiquer aisément avec ceux qui ne connaissent pas leur langue et vice versa.

La façon dont le système fonctionne est assez astucieuse. En enregistrant puis en normalisant les mouvements de la langue des signes, le système utilise un algorithme pour déterminer l’alignement du mouvement de la trajectoire 3D. Une fois que la machine a pu assimiler les données visuelles, elle essaye de les faire correspondre aux mots qu’elle connaît par ordre de pertinence via son dictionnaire interne. A l’inverse, le système peut aussi traduire les textes sous la forme d’avatar signeurs qui apparaissent à l’écran.

Les 1ers essais en 2012

Pour l’instant, seule la langue des signes américaine est au programme mais il est prévu qu’un grand nombre de langues des signes soient implémentées une à une afin que ce traducteur puissent profiter à une majorité de personnes sourdes ou malentendantes.

Autre évolution possible : les chefs de projet espèrent que la technologie permettra un jour aux personnes sourdes d’interagir avec leur ordinateur et ou leur smartphone en utilisant leur propre langue, comme nous  utilisons déjà naturellement la reconnaissance vocale de Google Now et de Siri d’Apple.
Mais cela signifie, au préalable, que les ordinateurs et consoles soient capables de décrypter les langues des signes et d’interagir en conséquent.

Le système développé par Microsoft Asia en Juillet 2013

"Nous considérons que les technologies de l’information devraient être utilisées pour améliorer la vie quotidienne de tous", explique Guobin Wu, responsable de programme de recherche chez Microsoft Research Asia. "Même s’il ne s’agit encore que d’un projet de recherche, nous espérons qu’il sera bientôt possible de mettre en place un outil interactif pour défier la frontière qui sépare les sourds et malentendants".

Il faut, bien sur, saluer ce projet : non seulement il cherche à améliorer la communication entre sourds et entendants mais surtout il consacre la valeur des langues des signes, leur capacité à transmettre des messages, il les considère comme de vraies langues qu’on peut traiter et traduire comme d’autres langues orales telles que l’anglais, le chinois, l’espagnol…
Je préfère d’ailleurs ce type de recherches à celles sur la "réparation" de l’oreille via les implants cochléaires qui à l’inverse nient tout intérêt aux langues des signes, se focalisant sur l’oreille cassée et le nécessaire passage par l’oralisme pour communiquer.
Néanmoins l’efficacité de ces technologies est encore limitée et je doute que ce système puisse traduire fidèlement et agréablement un long discours.

En effet les langues des signes sont vivantes, complexes. Elles ne sont pas qu’une succession de signes. Elles possèdent leur propre syntaxe qui est intimement liée à la perception visuelle, puisque cette langue répond à une logique visuelle et non auditive. Ainsi la grammaire de la LSF n’est pas identique à celle du français (par exemple la place des mots dans la phrase n’est pas la même). Elle se construit comme un plan au cinéma. D’abord le temps (passé présent futur), ensuite le lieu (où cela se passe-t-il ? ), puis les acteurs (qui ? ) et enfin l’action (le verbe).

Les signes sont basés sur l’utilisation des mains mais aussi du regard et de l’espace, des expressions du visage (il est admis que les langues des signes sont composées de 5 paramètres) : les configurations des mains, leur emplacement, leur orientation et leur mouvement forment des signes équivalent à des mots, disposés devant soi comme sur une scène de théâtre. Les emplacements de ces signes, ainsi que la direction du regard, permettent de visualiser les relations (actif, passif ?), le temps (signes tournés vers l’arrière pour le passé, vers l’avant pour le futur). Le visage et le mouvement des épaules servent aussi à exprimer les nuances du discours par exemple l’ironie, le doute, la fermeté…

Les caméras ont-elles aujourd’hui la précision et la finesse nécessaires pour détecter tous ces paramètres ? Les algorithmes sont-ils assez élaborés pour déterminer avec exactitude l’intention du locuteur ? A voir…
Au mieux, aujourd’hui ce système pourrait sans doute traduire quelques signes simples en mots, quelques phrases basiques (sujet/verbe/complément).
Néanmoins les perspectives sont infinies prometteuses notamment avec l’arrivée des "lunettes intelligentes".

A noter que ces chercheurs asiatiques ne sont pas les seuls à travailler sur ce projet.
En Janvier 2013, j’ai été contacté par des étudiants de l’Ecole Polytechnique qui voulaient développer un système équivalent dans le cadre de leur projet de fin d’année.
Alors, pendant des heures j’ai signé devant leur caméra kinétique "bonjour", "au revoir", "mon nom est", "ça va"… afin que l’ordinateur enregistre toutes les variations de la LSF et reconnaisse à coup sur ces successions de signes pour les traduire vers l’écrit.

Heureusement pour nous, les interprètes humains, leur objectif n’est pas de créer un super interprète 3.0 mais plutôt un système de reconnaissance pour des conversations simples comme nous en avons à un guichet de la SNCF, à la CAF, La Poste, la mairie…
Or avant qu’une machine soit capable de comprendre et traduire les méandres et autres subtilités de l’administration française nous avons encore de beaux jours devant nous…



Retour à La Une de Logo Paperblog

A propos de l’auteur


Stéphan 19090 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte