Magazine Ebusiness

Quand l'extraction de données simplifie la compréhension du web social

Publié le 17 octobre 2012 par Pnordey @latelier
data mining

Pour identifier des informations pertinentes parmi la multitude de contenu non structuré, un moyen est de combiner solutions d'extraction de données et outils sémantiques.

Pour acquérir une meilleure compréhension de l'ensemble du marché, les entreprises doivent de plus en plus nécessairement être capables d'exploiter les avis de leurs consommateurs laissés sur la Toile. Si certains projets travaillent sur la création de résumés des contenus laissés sur les sites, même sociaux, et en réponse à une question posée par la marque, d'autres s'intéressent plutôt au web sémantique. C'est le cas de l'approche décrite dans une étude* de la Hebrew University et de la Columbia Business school. Une équipe de chercheurs de ces universités a mis au point un outil d'extraction de texte (text mining), capable de regrouper et analyser du contenu depuis les médias sociaux. Ainsi, cela permet de traiter la quantité d'information colossale comme les commentaires laissés sur des blogs, des forums en ligne, ou des sites d'évaluation de produits.

Un mappage du marché

Le système combine une approche, donc, de fouille dans les données et des outils d'analyse sémantique. Le premier, basé sur l'intelligence artificielle, extrait l'information venue de textes non-structurés et l'outil sémantique les convertit en données quantifiables en relevant les similitudes et des associations de termes. Cela génère un réseau sémantique qui fournit à l'entreprise ou au chercheur un aperçu significatif de la structure du marché, et des relations significatives qui s'y trouvent. Et d'obtenir un paysage concurrentiel sans poser une seule question aux utilisateurs. Les chercheurs ont testé cette approche sur deux cas, les voitures du type berline et les médicaments contre le diabète.

Un système précis

Après avoir téléchargé les pages web d'un forum par exemple, le système les nettoie en supprimant les informations inutiles. Puis, il garde l'information faisant mention d'une marque, d'un produit et de ses attributs dans le message d'un utilisateur. Celui-ci sera ensuite divisé dans plusieurs groupes différents : discussion, message et phrase. Le système identifie les relations sémantiques en générant un réseau de cooccurrences du produit mentionné sur le forum. Cette analyse donne la structure du marché global et dans un deuxième temps fournit les relations entre le produit et les termes. Pour les berlines, le système aurait identifié et classé correctement 91,6% des informations et 94,1% pour les médicaments contre le diabète.

* Columbia University, Hebrew University of Jerusalem, Mine Your Own Business: Market-Structure Surveillance Through Text Mining (2012)


Retour à La Une de Logo Paperblog

A propos de l’auteur


Pnordey 18702 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte