Magazine Internet

Transformez un site en livre électronique

Publié le 07 janvier 2008 par Argancel

Il arrive parfois de tomber sur un site tellement intéressant qu’on voudrait être sûr de pouvoir le consulter à volonté. Cependant le web a un caractère si éphémère que même si on sauvegarde le lien, on est jamais sûr que le site soit encore disponible au moment opportun.

Quoi de plus pratique alors que de récupérer le site entier sous la forme d’un “livre électronique” consultable hors ligne? C’est ce que nous permet le format CHM de Microsoft. Ce format permet de regrouper plusieurs pages HTML dans un fichier unique qui s’exécute dans un mini-explorateur. D’ordinaire utilisé pour les manuels d’aide, il a l’avantage d’être lisible en natif sur windows et d’occuper peu d’espace disque.

Dans ce tutoriel, la méthode sera expliquée pas à pas à travers un exemple concret : le site Crack Interview, qui analyse 64 questions piège habituellement posées lors des entretiens d’embauche.

1ère étape : aspirer le site

Pour aspirer le site Crack Interview, nous allons utiliser le logiciel libre WinHTTrack. Par précaution, assurez-vous de régler les options de la manière suivante (dans options, onglet “Build” ) :

Une fois le site récupéré, vous pouvez supprimer tous les fichiers /hts-cache/new.*
Ils ne sont plus utiles. Veillez aussi à ce qu’il existe bien un fichier /web/index.html

Dans notre cas, nous allons supprimer le fichier /web/index.html et renommer le fichier 64Answers.html en index.html.

2e étape : nettoyage du code javascript

Pour éviter d’avoir des erreurs javascript lors de la consultation des fichiers HTML, nous allons utiliser le script Python stripscripts.py téléchargeable sur le site de SebSauvage.

Pour pouvoir l’utiliser, vous aurez besoin d’installer le language Python (utilisez le lien “Python 2.X.X Windows installer”).

Copiez ensuite le script stripscripts.py dans C:\Python25 puis ouvrez une console (raccourci win-R et tapez “cmd”). Allez dans le répertoire de Python grâce à la commande “cd Python25″ puis lancez le script : “python stripscripts.py <chemin du site stocké sur le disque dur>” comme ceci :

Dans notre cas, on va aussi supprimer les fichiers .js situés dans le répertoire \web\js du site aspiré.

3e étape : installation de Microsoft HTML Help Workshop (gratuit)

Ce programme est nécessaire à la compilation des fichiers HTML en format CHM. Vous pourrez le télécharger sur la page Microsoft HTML Help Downloads.

4e étape : création du livre électronique

Pour créer le fichier CHM, on va utiliser le freeware Web2HtmlHelp.

Ecran 1 :
Cliquez “Next”

Ecran 2 :
Web Document Index File: sélectionnez le fichier /web/index.html
HTMLHelp Titlebar Text: entrez le titre du fichier CHM qui sera affiché dans la fenêtre.
Cliquez sur “Next”

Ecran 3:
Cochez “Save user changes to size and position”
Cliquez sur “Next”

Ecran 4:
Ne laissez cochés que: Show Toolbar, Back, Print, Forward, Home, Options, Font
Home filename: sélectionnez index.html
Cliquez sur “Next”

Ecran 5:
Cochez “Show search pane”
Cochez “Use advanced search”
Cochez “Start with search pane closed”.
Décochez les autres
Cliquez sur “Next”

Ecran 6:
HTML Help Output Filename: il est impératif d’indiquer un nom de fichier ne se trouvant pas dans le répertoire dans lequel vous avez récupéré le site.
Cliquez sur “Create!” et sur le bouton “Yes”.

Une fenêtre MS-Dos va s’afficher pendant la compilation.
Après la compilation, un fichier texte s’ouvre vous montrant les fichiers qui ont été compilés (et les éventuelles erreurs).
Fermez ce fichier.
Le fichier chm compilé s’affiche alors.

Ouf c’est terminé !

Vous pouvez cliquer sur le bouton “Show” (en haut à gauche) pour afficher/masquer le moteur de recherche.

Notez que cette méthode n’est pas toujours capable de récupérer tous les sites, en particulier les sites dont les pages sont générées dynamiquement. Il y a aussi une limite de 32 000 fichiers maximum.

Notez que dans certains cas vous devrez corriger manuellement quelques pages avant de les compiler avec web2hh.
Cela est nécessaire parfois avec certains bouts de Javascript ou certaines images.

N’oubliez pas de respecter les droits d’auteurs des sites que vous récupérez.

[Cet article est basé sur l’article Récupérer un site web en .chm de SebSauvage sur comment ça marche]


Retour à La Une de Logo Paperblog

A propos de l’auteur


Argancel 46 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Dossier Paperblog

Magazine