Le Deep Learning rend la reconnaissance visuelle possible sur smartphone

Publié le 17 juillet 2014 par Pnordey @latelier

Une startup pionnière dans la reconnaissance d’images ouvre un kit de programmation pour rendre le Deep Learning plus populaire.

A l’origine, la startup JetPac repose sur le remplacement de guides de voyages par une sélection algorithmique de photos publiques publiées sur Facebook et Instagram. Cette méthode de Deep Learning consistant ainsi en l’accumulation de données et des algorithmes évolutifs a ainsi permis à la startup de concocter des albums de voyages en retraçant l’origine des photos — quand bien même celles-ci n’étaient pas géolocalisées par les utilisateurs. L’algorithme établi par l’équipe de JetPac permet de repérer des constantes dans les photos les plus populaires.  Depuis le lancement en 2012, son directeur technique Pete Warden a décidé d’utiliser son savoir-faire dans le Deep Learning en l’appliquant à la reconnaissance visuelle low-cost sur smartphone.

La reconnaissance visuelle mais non faciale

En avril 2014, JetPac met en open-source un kit de développement pour utiliser la reconnaissance visuelle sur smartphone. L’utilisation de la caméra couplée à une accumulation d’images suffisantes permet donc à tout à chacun de générer son propre algorithme. En rendant leur code public sur Github, JetPac tient avant tout à découvrir les usages possibles que les développeurs indépendant vont en faire. Un biologiste de Berkeley a déjà utilisé ce software pour faciliter l’identification de cellules captées par un microscopes dressé sur iPhone. La relative faiblesse du hardware utilisé limite la reconnaissance visuelle à de simples catégories d’objets contrairement à Google dont la puissance de calcul rend la reconnaissance faciale possible. Pour autant, ces applications -JetPac Spotter ou Google- bien que dotés de moyens différents, s’inscrivent dans un paradigme qui rompt avec le traitement traditionnel des données. La reconnaissance ne s’effectue plus par la détection des contours d’un solide mais par le rapprochement d’images entre elles.

La pertinence des données

L’image analysée est dorénavant connectée à la mémoire de la machine. Puis l’algorithme fonctionne à la manière d’un système neuronal jusqu’à trouver une correspondance pertinente entre l’objet étudié et les données mémorisées. Pendant technique du Big Data, le Deep Learning ne s’attaque pas seulement à la reconnaissance faciale à mais aussi à la traduction instantanée et aux moteurs de recherche. Mais la pertinence du Deep Learning dépend des quantités de Data accumulées sur lesquels les algorithmes peuvent "s’entraîner". Pete Warden reconnaît par exemple que son algorithme a plus facilement tendance à associer des objets nouveaux à des plats car beaucoup de photos de plats cuisinés ont été intégrées pour entraîner son outil!

Jetpac Spotter Deep Belief Object Recognition App from JetpacApp on Vimeo.