Artificial Data, une réponse à la confidentialité des données ?

Une étude du M.I.T. ouvre une nouvelle voie dans la mise en œuvre de solutions liées à la protection et à l’exploitation des données. Leurs investigations montrent que les entreprises pourraient désormais permettre à leurs équipes Data Science et Advanced Analytics de travailler sur des données artificielles, afin de faire progresser la recherche dans des domaines aussi variés que ceux de la santé, des études climatiques, des transports, de l’énergie, de la finance…

Ceci en utilisant des techniques adaptées à la fois à des masses de données sans précédent et aux exigences nouvelles de confidentialité.

A l’heure où la transformation numérique est inscrite sur la feuille de route de la majorité des grandes entreprises, la donnée – avec les techniques qu’elle réclame (I) et les perspectives métiers qu’elle ouvre (II) – s’impose au cœur de leur stratégie. Ces entreprises ont bien conscience que leur potentiel d’innovation, de perfectionnement, de diversification et donc leur aptitude à se réinventer et à survivre, dépend de leur capacité à adopter des solutions de Data Analytics (1).

1 Exabyte équivaut à 36000 années de vidéo HD

Chaque jour, nous produisons 2,5 Exabytes de données (soit la capacité de 150 millions de Smartphones).

D’ici à 2025, le volume total de données dans le monde pourrait représenter 163 Zettabytes (2). A ce stade, il devient plus difficile de concevoir ce que cela représente, mais essayons tout de même : une clé USB standard correspond à 32 Gigabytes. Un Zettabyte, représente 44 millions de million de Gigabytes. La tentation d’abdiquer, face à l’énormité du défi que représente la valorisation de toutes ces données est grande.

Se résigner à « jeter » toujours plus de données dans un système d’informations, c’est perdre en valeur tout en alimentant un véritable marécage (Data Swamp) plutôt qu’un Data Lake.

Ainsi, 60% des projets Big Data échouent ou sont abandonnés (3) – alors que le potentiel que représente la valeur enfouie dans les données de l’écosystème de l’entreprise est énorme ! Non seulement cette valeur demande à être exploitée mais très souvent, elle demande même à être reconnue. Il ne faut pas oublier que 90 % des données existantes aujourd’hui sont récentes : elles ont été créées ces deux dernières années. Cependant, si la plupart des grandes entreprises entreprennent des projets Big Data Analytics, une étude menée sur un panel de 1800 compagnies Européennes et Nord Américaine révèle que 4% seulement voient leurs initiatives couronnées de succès (4).

Les solutions qui émergent désormais face à ces problématiques pourraient provenir des ressources récentes de l’informatique cognitive. L’informatique cognitive ouvre une ère nouvelle avec en outre des perspectives particulièrement séduisantes en matière de protection des données et de confidentialité.

L’informatique cognitive (Cognitive Computing) est tout simplement la simulation des processus de pensée humaine dans un modèle informatisé.

Nous savons que les entreprises doivent produire rapidement des données de qualité pour résister à la concurrence de sorte qu’elles doivent maintenant se tourner vers le développement de systèmes de données cognitifs.

Il s’agit de « mettre à profit les données pour créer des systèmes intelligents et apprenants qui vont seconder l’humain dans des techniques de réflexion, de recherche et d’analyse complexes afin de lui suggérer des options crédibles et opérationnelles. » (5)

Les Systèmes de Données Cognitifs sont donc des systèmes complexes de traitement de l’information, capables d’acquérir, mettre en œuvre et transmettre des connaissances, qui assemblent des actions comme la Perception, le Calcul et le Raisonnement. Ces systèmes s’appuient sur des disciplines scientifiques aussi variées que la Linguistique, les Neurosciences et l’Intelligence Artificielle.

Ces systèmes devront aussi prendre en compte le respect de la confidentialité qui devient un enjeu majeur.

Les équipes Data doivent désormais répondre aux contraintes fortes qu’impose le respect de la confidentialité des données.

Les règles internationales de protection des données – et plus particulièrement la réglementation Européenne (GDPR) – obligent les entreprises à déterminer, notamment, les informations qu’elles partagent avec des tiers, et surtout à protéger la confidentialité des données personnelles contre les risques de vol, de divulgation ou contre toute autre compromission.

En conformité avec ces règles (III), les Data Scientists, les Développeurs et même les équipes Métier ne doivent plus travailler sur des données réelles, des données personnelles ni des données sensibles.

Mais alors, désormais, comment extraire la valeur des données ? Comment établir des modèles ? Comment procéder à des prédictions ?

Le Data Masking – technique qui consiste à cacher les caractères originaux par des caractères aléatoires – peut apporter un début de solution. Huit entreprises sur dix font du Data Masking « maison » pour protéger leurs données sensibles (6). En simplifiant, on peut dire que cela repose principalement sur des principes basiques de cryptage, de mélange et de substitution.

Si ces techniques rendent effectivement les informations incompréhensibles et si elles permettent de protéger la confidentialité des données – comme des numéros de comptes bancaires par exemple – il demeure que les appliquer à un Data Warehouse dans son

ensemble reste peu envisageable. Cela rendrait souvent les données inexploitables à des analystes dont la tâche serait, par exemple, de construire des modèles prédictifs.

La solution est manifestement ailleurs. Les chercheurs du MIT continuent d’ouvrir des pistes.

“Les entreprises peuvent maintenant, à partir de leurs Data Warehouse ou de leurs Bases de Données, produire des données synthétiques” K. Veeramachaneni – Laboratory for Information and Decision Systems (LIDS) MIT. (7)

Dans un livre blanc « The Synthetic data vault (SDV) » (7), des chercheurs du M.I.T., membres du Data to AI lab, décrivent un système qui reposerait sur le Machine Learning et permettrait de produire des données de synthèse, c’est-à-dire des données artificielles.

L’idée est donc de s’affranchir des contraintes des données réelles liées à la confidentialité, pour permettre aux professionnels des data (Data Scientists, Développeurs, Analystes, Statisticiens …) d’exploiter pleinement les données, de les soumettre à tous types de tests, modèles et analyses, et même de les partager avec des tiers.

Leur démarche consiste à modéliser des bases de données dans le but de produire par la suite des échantillons (samples), des séries de données (data set), voire des bases de données complètes, constituées de données artificielles. Il s’agit de produire des données qui auraient les mêmes propriétés que celles des bases d’origine, mais qui présenteraient l’énorme avantage d’être affranchies des caractéristiques qui les rendent, soit personnelles, sensibles ou privées. Cette démarche va bien au delà de précédentes recherches dans ce domaine qui s’étaient limitées à la production d’échantillons et de statistiques. Ces méthodes avaient le défaut de réduire le spectre des applications possibles puisque les données perdaient de ce fait leur diversité, leur richesse et leurs volumes.

Le SDV (Synthetic data vault) quant à lui, est un système qui produit des modèles servant à générer des bases de données synthétiques.

Il procède à des itérations à travers toutes les relations possibles afin de créer un modèle pour des bases de données entières. Une approche nouvelle de modélisation multi variée permet enfin de synthétiser les données par échantillonnage (8).

Cette solution a été mise à l’épreuve de façon concrète. Une quarantaine de Data Scientists répartis en différents groupes de travail ont pu élaborer de modèles prédictifs soit sur des données réelles, soit sur des données synthétisées. En comparant les résultats, il a été démontré que les données synthétiques peuvent remplacer avec succès des données réelles (8).

A ce jour, si la production de données artificielles est à même de résoudre les problèmes liés à la confidentialité des données, elle peut aussi s’avérer un atout non négligeable dans la réussite de projets Big Data Analytics dans la mesure où cette technique évolutive (scalable) permet tout aussi bien de synthétiser de petit volumes de données à des fins de tests précis, que de gros volumes de données pour travailler en conditions réelles, répondant ainsi aux exigences soumises aux Data Scientists et aux Analystes.

Ces Artificial Data seraient-elles la clé à la tant attendue de la démocratisation des données ?

Sources :

1. EMC/Cap Gemini : Stay on top of big data or become irrelevant, 2. IDC : The Evolution of Data to Life-Critical, 3. CMSWIRE.com : Operationalize Your Data Like Your Life Depends On It, 4. CIO.com : Study reveals that most companies are failing at big data, 5. Qu’est ce que l’informatique cognitive – Bertrand Duperrin, 6. IDC : Copy Data Management, 7. NEWS.MIT.edu : Artificial data give the same results as real data, 8. MIT White Paper : The Synthetic data vault.

I – telles que Hadoop, NoSQL, In-Memory Computing, Cloud Computing, Deep Learning…

II- Il s’agit par exemple de la Transformation Numérique, de la conception de nouveaux Business Model, la rationalisation des coûts.

III- Le GDPR pour « General Data Protection Regulation » ou règlement général sur la protection des données (personnelles) est le dernier règlement européen devant entrer en vigueur en mai 2018. Le dispositif prévoit notamment des obligations renforcées de protection des données détenues, des dispositifs relatifs à l’expression du consentement de la collecte et le développement de la notion de portabilité.

Magazine Informatique

Artificial Data, une réponse à la confidentialité des données ?

1 Exabyte équivaut à 36000 années de vidéo HD

Mais alors, désormais, comment extraire la valeur des données ? Comment établir des modèles ? Comment procéder à des prédictions ?

Le SDV (Synthetic data vault) quant à lui, est un système qui produit des modèles servant à générer des bases de données synthétiques.

Ces Artificial Data seraient-elles la clé à la tant attendue de la démocratisation des données ?

A propos de l’auteur

Magazines

LA COMMUNAUTÉ INFORMATIQUE

LES JEUX SUR PAPERBLOG.FR