Text mining tool

Publié le 31 janvier 2008 par Lib Ellules



Text mining tool

  Ce petit programme portable permet très simplement d'extraire le contenu textuel depuis des fichiers pdf, doc, rtf, chm (aide), html, même sans programme de lecture PDF installé. Il suffit d'ouvrir un de ces documents avec, et il en extrait le texte, que l'on peut sauvegarder au format .txt après récupération. Les images ne sont donc pas traitées. Très pratique sur du PDF, sans avoir besoin de tout sélectionner à la main. J'ai testé sur un plan de métro PDF : les noms des stations sont extraits car entrés sous forme de texte et non d'image. Multiples applications possibles, selon les fichiers que vous croisez, pages web comprises.

Une version en ligne de commande est fournie afin d'automatiser les tâches et traiter par lots (minetext.exe) dans le zip, la version avec interface graphique est TextMiningTool.exe

OS : Windows 2000, XP, Vista avec .NET 2 (inclus dans Vista)
Taille :
8,5 Mo
Langue : anglais
Licence : freeware

Site officiel