Le SPAM s’introduit partout : les mails, les messageries instantannées, les commentaires sur les blogs, les wikis, et les forums.
Les spammeurs ayant développé des techniques assez sophistiquées et totalement automatisées, il s’attaque donc à tout ce qui est indexé par les moteurs de recherche, et non plus seulement aux sites les plus populaires.
Il peut se passer un certain temps après la mise en ligne d’un forum pour que le premier spammeur fasse son apparition. Mais une fois que ça a commencé, plusieurs comptes bidons avec des adresses mail et adresses IP exotiques sont créé chaque jour.
Il faut donc trouver une solution automatique pour empêcher la création de comptes bidons par les spammeurs, car la suppression manuelle devient fastidieuse, et il y a toujours un risque de supprimer un utilisateur légitime.
La plupart des solutions existantes sont basées sur des CAPTCHA. On demande à l’utilisateur de lire un mot dans une image, et de le retaper dans un champ de saisie, afin de prouver qu’il est bien un humain, et non pas un robot. Il est en effet facile pour un humain de lire un mot dans une image, alors que le robot doit faire de la reconnaissance de caractères pour convertir le contenu de l’image en texte.
Au fur et à mesure que les robots se sont améliorés pour la reconnaissance de caractères, il a fallu en parallèle améliorer les CAPTCHA, et pour leur compliquer la tâche, le texte contenu dans l’image devient de moins en moins lisible.
Une des solutions les plus intéressantes est reCAPTCHA, développé par l’Université de Carneggie Melon. Les mots restent assez lisibles, si on n’arrive pas à lire les mots, on peut recharger des mots différents, et les malvoyants peuvent écouter un mot au lieu de le lire.
Parmi les CAPTCHA, c’est donc un de ceux qui sont le moins gênant pour l’utilisateur. Mais il a également un autre avantage : chaque reCAPTCHA résolu par un utilisateur aide à la numérisation de libres.
En effet, reCAPTCHA affiche deux mots (alors que les CAPTCHA normaux n’en affichent qu’un). Il connaît la réponse pour un de ces mots, alors que l’autre mot est un mot non reconnu par OCR (reconnaissance automatique de caractères par ordinateur).
Si l’utilisateur entre une réponse correcte pour le mot donc la réponse est connue, reCAPTCHA en déduit que la réponse pour l’autre mot doit être correcte. Il présentera tout de même ce mot à d’autres utilisateurs pour être sûr de traduire ce mot de l’image vers le texte correctement.
Il y a une API qui permet d’intégrer simplement un reCAPTCHA à son site, mais plusieurs plugins sont prêts à l’emploi, pour Wordpress, Mediawiki,…
Je l’ai donc intégré au forum, et c’est radical : depuis la mise en place, il n’y a pas eu un seul compte spammeur de créé, alors qu’il y en avait au moins deux par jours avant.
Stop SPAM. Read books.