Je me suis fait prendre au jeu. Je suis tombé sur une vidéo d'un cours d'analyse de données, et de fil en aiguille, j'ai regardé toute la série (de l'ordre de 4h).
Le cours porte sur WEKA, un logiciel développé par l’université de
Waikato (Nouvelle Zélande). (https://www.youtube.com/user/WekaMOOC.) Il est donné par un professeur irlandais, qui a fait ses études au Canada.
Ce que j’en déduis :
Il y a maintenant des outils, comme Weka, très simples à
utiliser, qui demandent peu de connaissances mathématiques, et très puissants. Aussi, caractéristiques d'un cours à l'anglo-saxonne. En France, on cherche à vous faire croire que l'équation gouverne le monde, les Anglo-saxons partent de la pratique. En éliminant la complication, ils en arrivent à la vraie complexité, à savoir que ces techniques ne font pas de miracles, et demandent une grosse rigueur intellectuelle pour que la science ne ruine pas l'âme.
L’analyse de données est essentiellement une question de
prédiction. A partir d’observations passées, on cherche à savoir ce qui va
arriver. Alternativement, il s’agit d’aide à la décision : quels sont les
facteurs de risque de tel ou tel cancer ? par exemple.
On parle aujourd'hui de « machine learning » (apprentissage
automatique). Mais « learning » est trompeur. Contrairement à l’homme
qui procède par « coup de génie », qui comprend, par exemple, comment
marcher, ou qui invente de nouveaux jeux, ou la notion de jeu, le logiciel ne fait qu’appliquer des modèles prédéfinis. Il n’invente
pas de nouveau modèle. Il est déterminé. Machine learning, c'est du marketing. Le marketing, tel qu'on l'entend aujourd'hui, est la plaie d'Internet, et de l'économie de marché.
Il y a différents types de techniques : arbres de décision,
segmentation, régression… Leur performance est peu impressionnante. Dans
l’ensemble elles permettraient de faire juste dans 3 cas sur 4. Ce taux n’est
pas très élevé, pour deux raisons. 1) Il existe généralement une méthode
évidente de prévision, et elle marche généralement dans un cas sur deux.
(Exemple : le temps de demain sera celui d’aujourd’hui.) ; 2) lorsque
l’on doit diagnostiquer un cancer, une chance sur 4 de se tromper, c’est
beaucoup…