Magazine High tech

Précisions sur les 100 millions de profils Facebook

Publié le 31 juillet 2010 par Exkwhando

Précisions sur les 100 millions de profils Facebook

Fin juillet 2010, le web entier commence à flipper ! On apprend d’un coup qu’un pirate (on redéfinira ce terme plus tard) à réussi à hacker (on redéfinira ce terme aussi plus tard) plus de 100 millions de profils Facebook. Sur certains sites, on parle d’attaques, sur d’autres on parle de piratage et sur d’autres on parle de renseignements. J’ai donc décidé d’aller voir par moi-même.

Tout d’abord on parle du fait que tout se trouve ici :

http://www.skullsecurity.org/blog/?p=887

Sauf que dommage, le site ne répond plus. On apprend aussi ensuite que le fichier qui contient toutes les données se trouve sur un des plus grand sites de torrent du monde et on va voir ici :

http://thepiratebay.org/torrent/5722635/Facebook_directory_-_personal_details_for_100_million_users

Et la, magie, on parvient à tout télécharger et avec même le luxe d’une bande passante miraculeuse. Passons, il s’agit maintenant de voir ce que contiennent ces fameux fichiers, on se dit quand même que 100 millions de personnes en pâture sur le net ça doit être enfin une révolution, le super truc de la mort qui tue, la faille ultime qui va coller un procès à Facebook avec une magnifique class action …

2,8Go tout compressé, et 16,3Go de bons gros fichiers *.txt voilà ce qu’on obtient (autant dire que notepad ne tiendra pas la charge). Et bien malgré le fantasme de la grosse base de données j’ai été déçu, pour tout avouer, même très déçu.

Pourquoi donc ? Tout simplement parceque ces fichiers ne contiennent que des noms, des prénoms et des urls. Plus précisément :

  • README : La doc, toujours utile … RTFM ! On y apprend notamment que le fichier à été généré vers le 15 juillet 2010 par Ron Bowes
  • facebook.rb : Le script en langage RoR qui à permis de générer les fichiers *.txt
  • facebook.nse : Le script qui à permis d’effectuer une seconde passe sur les urls (sous licence nmap)
  • facebook-urls : LE gros fichier de 10Go qui contient toutes les urls
  • facebook-names-original : 2,5Go de noms en vrac (Tout en  vrac)
  • facebook-names-unique : 1,5Go de  »Prenom Nom »
  • facebook-names-withcount : 2,2Go de  »Prenom Nom » mais cette fois ci avec le nombre d’occurrences pour chacun
  • facebook-firstnames-withcount : 70Mo de prénoms avec le nombre d’occurrences pour chacun
  • facebook-lastnames-withcount : 88Mo de noms de famille avec le nombre d’occurrences pour chacun
  • facebook-f.last-withcount : 290Mo de première lettre du prénom + nom avec le nombre d’occurrences pour chacun
  • facebook-first.l-withcount : 170Mo de première lettre du nom + prénom avec le nombre d’occurrences pour chacun

Donc au final qu’est-ce que l’on obtient ? Bah pas grand chose…

Au final le fameux pirate (je vous avais dit qu’on y reviendrait) n’a rien piraté, ni rien hacké. Il s’est simplement rendu sur une partie officielle de Facebook appelée Directory et en se faisant passer pour un Google Bot qui référence tout, il à juste aspiré les noms et prénoms disponibles ainsi que les urls qui y sont rattachées. Un simple examen des scripts permettent facilement de comprendre comment il à procédé et au final il n’a fait qu’automatiser une navigation sur Facebook tout en conservant dans une base les données qu’il y trouvait. Après tout c’est ce que l’on demande aux ordinateurs … faire ce qu’on leur demande de faire pour ne pas se fatiguer.

Donc, fini d’être alarmiste sur cette histoire, les données personnelles ne sont pas en danger si l’on sait regarder les options de confidentialités de Facebook. Ici on obtient juste une sorte de gros bottin et encore, sans aucun numéro de téléphone… Et puis c’est 100% safe en termes de virus puisque ce ne sont que des fichiers textes. Si vous avez dans les 20Go de place à gâcher sur  votre ordi vous pouvez y’aller les yeux fermés.

Quand je pense à ceux qui disent que de nombreuses sociétés américaines le téléchargent pour en profiter et remplir leurs bases ils risquent d’être aussi déçus que moi. Ce fichier est au final inoffensif même si il contient comme tout le monde dit 20% de Facebook ou 1/5ème de la base de données du site.

Pour info, Facebook à réagi quasi immédiatement sur le site de la BBC.

Après si on veut juste s’amuser, on peut apprendre que dans l’échantillon, on peut trouver 17 204 personnes qui s’appellent John Smith, 977 014 michael et qu’enfin, j’ai 24 homonymes d’alias

:)
.

Plutôt maigre pour du datamining

Précisions sur les 100 millions de profils Facebook


Retour à La Une de Logo Paperblog

A propos de l’auteur


Exkwhando 31 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Magazine