Magazine Informatique

Une difficile conversion de données avec Excel – Un exemple de Modeloff 2014 (1 de 3)

Publié le 30 mars 2015 par Sopmar01 @mon_cher_watson

Voici la démarche complète entreprise afin de convertir des données en format texte vers des données utiles afin de faire de l’analyse avec Excel. Cet exemple vient de la première ronde de Modeloff 2014.
Les données source avaient un format texte très particulier et une certaine absence de continuité, tel que corroboré par l’extrait ci-bas. Il convient de mentionner que les données source comptaient près de 9 000 lignes.

Excel Fonctions Texte

Selon les questions posées et les indications de la compétition Modeloff 2014, il fallait donc récupérer la consommation d’énergie, la date précise et la période horaire pour chaque enregistrement.

Donc, ce premier billet documente les étapes requises afin de transformer les lignes d’information fournies en lignes uniformisées qui permettront l’extraction des 3 données requises (consommation, date et heure).

Évidemment, chaque utilisateur d’Excel pourra utiliser un chemin différent, tous les chemins mènent à Rome, après tout…

Également, il convient de mentionner qu’une telle extraction pourrait sans doute se faire assez aisément avec PowerQuery. Mais, pour le moment, concentrons-nous sur les fonctions de base d’Excel.

Première étape: Se débarrasser des _

J’ai d’abord décidé de me débarrasser des _ qui se retrouvent un peu partout dans les enregistrements en les remplaçant par des espaces. Afin de remplacer ces caractères, on utilise la fonctionnalité Cherche et Remplace d’Excel qu’on retrouve dans le menu d’accueil d’Excel:

Excel Cherche Remplace

Par la suite, j’ai utilisé la fonction TRIM (SUPPRESPACE en français). Cette fonction enlève tous les espaces au début et à la fin en plus de remplacer les chaînes d’espace en milieu de mots par un seul espace. Après ces manipulations, le fichier ressemble plutôt à ceci:

Excel Fonctions Texte Trim

À cette étape, une certaine uniformité est obtenue. Il nous faut encore uniformiser les heures et les dates.

Deuxième étape: Uniformiser les heures et les dates

Pour ce faire, je remplace les <SPACE>AM et <SPACE>PM pr AM ou PM. Par la suite, je remplace les th, nd, rd et st par rien. Donc, j’obtiens alors:

Fonctions texte Excel Remplace

Troisième étape: Uniformiser les consommations

Finalement, par inspection, on voit que le terme kwh n’est pas utile. En effet, il y a, ou non, un espace entre la consommation et kwh. Cela ne peut que rendre difficile l’extraction de la consommation. Donc, j’ai décidé de remplacer kwh par un espace et de faire appel, encore une fois, à la fonction TRIM (SUPPRESPACE en français). J’obtiens donc, finalement, la base de données suivante:

Excel fonction texte final

Il est à noter que le concours ModelOff n’accordait que 35 minutes à ce problème. En 35 minutes, vous devez comprendre la situation, effectuez les manipulations et répondre aux questions. À ce point-ci, après plusieurs minutes, nous n’avons obtenu qu’une base de données relativement uniforme. Dans les prochains billets, on va finaliser la transformation des données et répondre aux questions de ModelOff.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Sopmar01 3934 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte