Magazine High tech

Pourquoi et comment utiliser Gephi en SEO ?

Publié le 19 janvier 2017 par Seomix @rochdaniel

En lisant cet article, vous allez très vite comprendre pourquoi l'utilisation d'un logiciel comme Gephi, qui n'a, à la base, pas été créé pour le SEO, peut vous être utile pour analyser votre site internet. Nous allons ici vous présenter des généralités sur Gephi, en commençant par la présentation du logiciel puis son utilisation.

Cet article est un premier jet. Un suivant arrivera très bientôt sur SeoMix et abordera en détails les opportunités offertes par ce logiciel. Et on vous sortira de jolis graphiques remplis de couleurs ! :)

Allez, c'est parti !

Qu'est ce que Gephi ?

Gephi est un puissant logiciel permettant d'analyser et de visualiser des données d'un site web.

Il est très souvent utilisé dans les domaines liés à l'algorithmie et aux statistiques. Il est notamment souvent choisi pour analyser des communautés et des influenceurs.

Dans une optique de référencement naturel, Gephi peut se montrer très précieux en ce qui concerne l'analyse de la structure d'un site. Et nous allons vous montrer comment dans la suite de cet article.

Information importante tout de même : Gephi est un logiciel Open Source gratuit qui est disponible sur Windows, Mac OS X et Linux.

Pourquoi et comment utiliser Gephi en SEO ?

Pourquoi utiliser Gephi ?

En référencement naturel, il existe plusieurs intérêts dans l'utilisation de Gephi. Pour citer quelques exemples, il permet de répondre aux questions suivantes :

  • Mon maillage interne transmet-il du poids aux pages importantes de mon site ? ;
  • Mes pages secondaires sont-elles réellement secondaires dans la structure de mon site ? ;
  • Est-ce que certaines de mes pages sont trop loin de l'accueil ? ;
  • Est-ce que je fais trop de liens vers des pages qui provoquent des erreurs 404, des contenus inutiles ou des redirections ? ;

De plus, si vous avez consulté notre page sur l'audit SEO vous devez certainement savoir qu'un audit SEO complet est composé de plusieurs analyses et notamment d'une analyse technique, d'une analyse des contenus et d'une analyse de la structure. Et bien pour chacune de ces analyses, vous allez pouvoir utiliser Gephi afin de faire ressortir des pages en erreur ou inutiles pour citer deux exemples.

Voici un aperçu des différentes opportunités que propose Gephi selon les éléments analysés :

Audit technique :
  • Les pages en erreur ou qui provoquent des redirections inutiles ;
  • Les liens inutiles dans le code source ;
Audit des contenus :
  • Les contenus dupliqués ;
  • Les contenus pauvres ou non qualitatifs ;
Audit de la structure :
  • Les pages populaires ;
  • La diffusion du pagerank en interne ;

Alors maintenant que nous avons listé les problématiques que l'on aimerait visualiser dans Gephi, il va falloir lancer le logiciel. Nous allons ici vous expliquer pas à pas comment créer un projet sur Gephi et comment importer les données de votre site. Et justement, quand on parle des données d'un site, la première étape va être de récupérer ces précieuses ! : )

Alors, avant de foncer tête baissée dans Gephi, asseyez-vous confortablement dans votre fauteuil, il va falloir crawler votre site ! (WTF, c'est quoi crawler ? ^^)

> Crawler un site = récupérer toutes les pages de votre site

Allons-y pour la récupération des données !

Récupérer les données du site

Comme expliqué ci-dessus, la première étape va être de préparer les données que nous importerons par la suite dans Gephi. Vous allez donc devoir scanner le site à analyser avec un crawler comme screaming frog ou Xenu.

Pour télécharger les logiciels :

Pour lancer le scan de votre site sur screaming frog, il vous suffit simplement de copier/coller l'url du site à analyser puis de cliquer sur " Start ".

Lorsque le crawl de votre site est terminé, il vous suffira d'exporter plusieurs fichiers :

  • Toutes les URL (internes et externes) ;
  • Tous les liens internes ;

Pour récupérer toutes les URL de votre site, vous devez exporter 2 fichiers :

  • Internal_all ;
  • External_all ;

Pour récupérer tous les liens internes vous devez exporter ce fichier :

    All inlinks : allez dans " Bulk Export " puis " All Inlinks " ;

Cette fonctionnalité vous permet d'exporter tous les liens internes réalisés sur votre site. Voici une petite vidéo résumant les étapes pour récupérer ces trois fichiers avec Screaming Frog (désolé pour le son qui n'est pas top, on a fait ce qu'on a pu mais promis on aura des vidéos de meilleure qualité la prochaine fois) :

Et une seconde vidéo si vous avez utilisé Xenu :

Préparation des données dans Excel

Vous allez maintenant devoir importer toutes les données exportées dans Excel pour les retraiter et les nettoyer.

Toutes les pages du site

Pour importer vos données, rien de plus simple : une fois dans Excel, allez dans " Données > Fichier Texte " et sélectionnez votre fichier.

Il faut ensuite nettoyer les données en supprimant toutes celles qui ne seront pas utiles. Par les informations pertinentes à conserver, nous vous conseillons :

  • L'URL / Address : vous devez renommer la colonne en " ID " ;
  • Le status code de la page, c'est-à-dire l'entête HTTP de l'URL (200, 404, 301...). Nous vous préconisons de retraiter les données de cette colonne. Pour cela, créer une nouvelle colonne dans Excel, faites un filtre sur la colonne " Status code " et associez des " 1 " à toutes les URL en 200 et des 0 à toutes les URL en erreur (404, 301, 302, 500). Ce traitement nous permettra de visualiser plus facilement les données ensuite dans Gephi ;
  • La balise Title : renommer la colonne " Label " ;
  • Le nombre de liens internes reçus par l'URL (Inlinks) ;

N'oubliez pas d'importer également les liens externes présents sur le site (external_all). Ajoutez-les à ce fichier. Enregistrez ensuite ce fichier au format .csv et nommez-le nodes.csv

Voici un résumé de la préparation de ce fichier en vidéo :

Tous les liens internes

Pour importer les données du fichier " All Inlinks " dans Excel, refaites la même opération que pour le premier fichier. Vous devez ici conserver les informations suivantes :

  • La source ;
  • La destination : renommez la colonne en " Target " ;
  • L'ancre de texte : renommez la colonne en " Label " ;

Vous pouvez ensuite enregistrer ce fichier au format .csv et le nommer edges.csv.

Voici un résumé de la préparation de ce second fichier en vidéo :

Importer les données dans Gephi

Avant toute chose, vous allez devoir télécharger et installer Gephi sur votre ordinateur. Pour cela rendez-vous ici pour le télécharger : https://gephi.org/. Une fois téléchargé, vous pourrez installer le logiciel.

Une fois installé et démarré, vous allez devoir importer vos deux fichiers .csv dans Gephi. Pour cela, voici ce que vous devez faire :

  • Ouvrez le logiciel Gephi ;
  • Créer un nouveau projet et enregistrez-le ;

Importer le fichier nodes.csv

Voici ce que vous devez faire pour importer ce fichier :

  • Allez dans l'onglet " Laboratoire de données ", cliquez sur " Importer feuille de calcul " puis sélectionnez votre fichier nodes.csv ;
  • Sélectionnez " En tant que table > Table des nœuds " ;
  • Vérifiez que vos données dans la colonne " Label " s'affichent bien (sinon changez la liste déroulante d'encodage) ;
  • Dans le nouveau menu qui apparaît, "label " et " Id " sont reconnus automatiquement ;
  • Pour les autres données :
    • Choisissez le format de données. Dans notre cas, " Status code " et " Links In " sont des " integer " ;
    • Cliquez enfin sur " Terminer " ;

Importer le fichier edges.csv

Nous venons d'importer la liste des contenus du site. Maintenant, il faut importer les liens entre ces contenus.

Voici ce que vous devez faire pour importer ce fichier :

  • Cliquez de nouveau sur " Importer feuille de calcul " et répétez l'opération sur le fichier edges.csv, excepté que vous sélectionnerez " En tant que table > Table des liens " cette fois-ci ;
  • Cliquez sur " Terminer " ;

Une fois vos données importées, vous devriez vous retrouver avec un graphique comme cela :

Résumé vidéo de l'importation des deux fichiers .csv dans Gephi :

Améliorer la lisibilité de ses données dans Gephi

Vous vous rendez bien compte que le graphique est actuellement illisible.

Nous allons donc maintenant rendre ce graphique plus compréhensible de manière à pouvoir en ressortir des premières analyses. Nous allons ici vous proposer deux analyses : tout d'abord, nous allons identifier et valoriser les pages les plus populaires en interne. Dans un second temps, l'objectif sera de visualiser la santé du site de manière graphique en représentant de deux couleurs différentes les pages qui sont problématiques et celles qui ne le sont pas.

Donner du poids aux pages importantes

Pour cela, on va d'abord donner du poids à chaque page selon le nombre de liens internes qu'elle reçoit. Gephi nous propose cette option en allant en haut à gauche dans " Aspect ".

Suivez ensuite toutes ces étapes :

  • En haut à gauche, un bloc " Nœuds / Liens " est disponible ;
  • Cliquez sur " Nœuds > Attributs " ;
  • Sélectionnez le symbole " Taille " ;
  • Puis dans la liste déroulante choisissez " Degré entrant " ;
  • Choisissez une taille minimum à 5 et une valeur plus élevée pour la seconde, par exemple 70, puis cliquez sur " Appliquer " ;

Nous avons donné du poids à chaque page selon le nombre de liens internes qu'elle possédait.

Visualiser les problèmes de santé du site

La seconde étape est de mettre en valeur chaque contenu selon sa qualité (est-ce une page en erreur ou non ?). Pour cela, suivez les étapes suivantes :

  • En haut à gauche, un bloc " Nœuds / Liens " est disponible ;
  • Cliquez sur " Nœuds > Attributs " ;
  • Sélectionnez le symbole " Couleur " ;
  • Puis dans la liste déroulante choisissez " Status " ;
  • Choisissez " rouge " pour les pages en erreur (valeur = 0) et " bleu " pour les pages fonctionnelles (valeur 1) ;

Vous vous rendez bien compte ici que le graphique est difficilement lisible. Pour donner un peu d'espace à toutes ces pages, nous allons utiliser les spatialisations de Gephi. Une spatialisation est un algorithme qui détermine si oui ou non vos pages sont liées entre elles. Si elles sont liées, les deux ronds vont se rapprocher et si elles ne le sont pas, les deux ronds vont s'éloigner. Cela vous permettra ainsi de connaitre les pages de votre site fortement liées et surtout de savoir si cela est logique. ;)

Pour mettre en place cette spatialisation, allez dans le bloc " spatialisation " en bas à gauche et suivez le paramétrage suivant :

  • Sélectionnez " Force Atlas 2 " ;
  • Paramétrez cette spatialisation comme ceci ;
    En fonction du rendu, n'hésitez pas à modifier certains chiffres notamment :
    • L'échelle (plus la valeur est élevée, plus le graphe est clairsemé) ;
    • La tolérance (moins de 1 pour améliorer la précision) ;
    • L'influence du poids des liens ;

Vous devriez alors avoir un graphique un peu plus lisible et plus facile à analyser !

Si vous souhaitez savoir quel rond correspond à quelle page, procédez comme suit :

  • Sélectionnez un rond, faites un clic droit pour retrouver dans le tableau de données la ligne correspondante ;
  • Vous pouvez aussi faire l'inverse, à savoir faire un clic droit sur une URL dans le tableau de données pour afficher la page dans la vue d'ensemble ;

Voici la vidéo résumant étape par étape le fait de colorer les pages et de leur donner du poids :

Cet article est le premier d'une petite série : en effet, nous vous avons présenté ici les bases pour crawler un site et importer ses données dans Gephi puis en faire une simple analyse. Nous allons rapidement vous préparer de nouveaux articles qui aborderont d'autres fonctionnalités et utilisations de Gephi ! Alors, tenez-vous informés ! :)

N'hésitez pas à nous poser toutes vos questions en laissant un commentaire !


Retour à La Une de Logo Paperblog

A propos de l’auteur


Seomix 5102 partages Voir son profil
Voir son blog