Le problème que pose le data scientist est celui des aveugles et de l'éléphant. Le data scientist est un ritualiste du chiffre. Il ne comprend pas ce qu'il signifie. Je me fiche de ses descriptions hyper précises. Je veux savoir que je suis en face d'un éléphant. Même sa taille exacte m'indiffère.
Un exemple concret. Analyse du fichier du Titanic. Un algorithme finit par trouver les règles suivantes pour expliquer qui a survécu : (personne de 9 à 35 ans, classe 1) ; (homme accompagné de 0 ou 1 adulte) ; (femme en classe 1 ou 2) ; (femme de 26,5 à 60 ans) ; (femme de 22 à 24 ans) ; (femme accompagnant de 0 à 2 enfants) ; (personne de 0,167 an à 6 ans accompagnée de 0 à 3 personnes) ; (femme accompagnant 1 personne).
J'analyse le même fichier avec mes petits moyens. Je tire une règle : "les femmes et les enfants d'abord". C'est peut-être moins juste que ce que produit la science de la donnée, mais ça m'est utile à comprendre ce qui s'est passé.