Tonalités sur le web : l’analyse automatique du sentiment est-elle possible ?

Pour réaliser une veille de manière optimale, l’idéal est d’allier la technologie d’un outil de veille au travail humain. Comme nous l’expliquions il y a quelques mois, un outil de veille, voire plusieurs outils, sont indispensables pour mener à bien votre surveillance sur le web. Sans l’aide des puissants algorithmes contenus dans ces outils, vous ne pourriez pas rechercher vos mots-clés dans les très nombreuses sources du web de manière approfondie.

Mais la machine ne fait pas tout ! Le travail humain est indissociable à l’outil de veille. Dans un premier temps pour paramétrer les recherches mais aussi et surtout pour traiter et analyser les retombées obtenues. La problématique majeure qui subsiste depuis plusieurs années dans le monde de la veille est la capacité ou non d’un outil à analyser les données et attribuer une tonalité à un message capté sur le web.

Pourquoi attribuer des tonalités lors d’une veille ?

Les tonalités sont importantes dans la réalisation d’une veille puisqu’elles vont donner la tendance générale de l’avis des internautes sur le sujet recherché. Selon si les messages détectés sont plutôt négatifs ou plutôt positifs, l’image de l’entreprise, du produit ou du sujet recherché peut être altérée ou au contraire améliorée. Il peut même s’agir du point d’entrée de la stratégie de communication d’une marque : améliorer une image négative véhiculée à travers des commentaires ou bien au contraire renforcer des avis positifs déjà exprimés sur le web. Il est donc important de connaître la tonalité des propos évoqués par les internautes sur le sujet recherché.

Que valent les analyses de tonalité automatiques : l’étude de PR Week

Les éditeurs d’outil de veille ont bien compris l’intérêt des tonalités et se vantent pour la plupart d’avoir trouvé LA solution pour analyser les sentiments de manière automatique. Car il faut bien l’avouer, attribuer des tonalités manuellement, par un humain qui va devoir lire chaque message, cela coûte cher. Mais les solutions automatisées, sans traitement humain, proposées par les outils de veille sont-elles efficaces ? C’est ce qu’a cherché à savoir le magazine PR Week à travers une étude menée auprès de 5 agences.

Le sujet de l’étude : analyser la tonalité des commentaires effectués sur le web social, en live, durant un match entre les équipes de football britanniques de Manchester City et de Tottenham.

Après avoir initialement accepté les règles du jeu, 3 agences se sont finalement retirées du test, doutant à priori des capacités de leur outil de veille à automatiser l’analyse du sentiment. Les difficultés qui pouvaient être rencontrées ont été mises en avant par ces agences. Il est en effet difficile pour un robot sans système de recherche avancé de déterminer le sentiment qui se cache, par exemple, derrière le terme « bon » dans une phrase telle que « il n’était pas bon ». L’ironie et le sarcasme dans le langage sont le principal frein à ce genre d’analyse.

Sont restées en lice les agences Manning Gottlieb OMD et Talkwalker. La première agence a utilisé l’outil de veille Radian6 tandis que la seconde a utilisé son propre outil de veille Talkwalker.

Le directeur de Talkwalker, Robert Glaesener, a expliqué la nécessité de pondérer les résultats en fonction de chaque recherche et de chaque événement. Dans le cas de la présente étude, étant donné qu’il s’agit d’un match de foot, certains termes spécifiques tels que « penalty » posent problème. L’outil a associé le mot penalty a un sentiment négatif dans la plupart des cas alors que si l’on regarde de plus près les résultats, ce même mot a été fréquemment associé à des termes positifs tels que « sublime » ou « puissant ». Dans ce cas, la seule solution pour obtenir un sentiment sûr à 100% est l’analyse humaine.

Pour l’agence Manning Gottlieb OMD qui a utilisé Radian6, l’approche de la surveillance est différente des techniques utilisées par Talkwaker et davantage basée sur les hashtags. Se pose alors le problème de la difficile comparaison entre les outils de veille, leurs méthodes de recherche et finalement les résultats qu’ils parviennent à obtenir.

En ce qui concerne les résultats justement (pour ce qui est comparable donc), Manning a identifié 87% de commentaires sur les médias sociaux mentionnant certains hashtags spécifiques au match comme étant positifs. Selon Talkwalker, seulement 20% des commentaires étaient positifs.

Une telle différence vient, comme évoqué, en partie de la différence dans l’approche de la recherche et de l’analyse sémantique, spécifiques pour chaque outil.

Une autre explication vient du fait que certains commentaires provenaient de spectateurs du match qui ne supportaient aucune des deux équipes et qui auraient plus ou moins faussé les données, suivant si leurs commentaires étaient pris en compte ou non par les outils de veille.

Le problème est le même avec les nombreux spams détectés par les outils, qui faussent les résultats.

La dernière raison et pas la moindre est tout simplement la difficulté à interpréter certains termes ambivalents, qui diffèrent selon le contexte et selon le degrés de sarcasme de leur émetteur.

Toutefois, des similitudes ont été constatées. Manning et Talkwaker sont arrivés au même pourcentage de commentaires négatifs émis concernant le penalty tiré lors de ce match.

Quelles conclusions en tirer ?

L’analyse du sentiment est plus fiable lorsqu’elle se focalise sur un événement précisément (le penalty tiré lors du match) que sur un sujet au global (le sentiment émanant du match en lui-même).

Le directeur de Manning, Nick Pritchard, rejoint l’opinion du directeur de Talkwalker dans le sens où il explique que les outils de surveillance des médias sociaux ont leurs limites et que l’intervention humaine est nécessaire pour traiter les retombées.

Lors d’une analyse, mieux vaut alors conclure à une tendance, qui reste donc approximative, plutôt que de vouloir fournir à tout prix des volumes de retombées négatives ou positives qui sont finalement difficiles à certifier.

Le grand nombre de résultats obtenus lors de ce test par les deux agences sur le match, même s’il ne s’agit que d’un aperçu et non de la totalité des commentaires émis ce jour-là sur l’événement, n’auraient de toutes façons pas pu être analysés humainement, le volume étant trop important. Dans ce cas de figure, seul un échantillon peut être analysé. Il faut alors se contenter d’une indication sur la tonalité globale, de grandes tendances, mais en aucun cas de statistiques fermes.

Un dernier élément de l’étude soulève le problème de la subjectivité. Le directeur de la transformation digitale pour le ministère britannique de la Défense, Robin Riley, explique que les internautes expriment des avis selon leurs propres attentes. Peut-on alors qualifier objectivement de bon ou de mauvais un événement sur lequel on s’exprime alors que l’on en attend soi-même des résultats spécifiques ? D’où l’importance de qualifier l’audience et ses propos dans leur globalité plutôt que de s’attacher à quelques cas spécifiques.

Les outils continuent à se développer dans ce sens, de manière à contrer les subtilités de langage. Cependant, le traitement humain reste indispensable pour comprendre un contexte, qualifier une audience, analyser des propos de manière objective et enfin déterminer une tonalité.