Gérez “AWS Glacier” en ligne de commande

AWS_LOGO_RGB_300px

Pour ceux qui seraient passés à côté, Amazon Glacier est un système de stockage sur le cloud d’Amazon (un peu comme S3) dédié à la conservation “longue durée” de vos données (un système d’archivage en quelque sorte).

Par rapport à S3 le principal avantage de cette solution est le prix. En effet avec un coût de $0,01 par Go et par mois il s’agit certainement là de la solution de stockage la plus économique du marché (10€ / 1To / mois difficile de faire mieux) – A titre de comparaison 1To stocké sur S3 coûte 95$ / mois !

Bon à ce tarif là vous devez vous douter qu’il y a quelques inconvénients. Le plus significatif est certainement le délai de récupération des données. En effet si l’upload d’informations est immédiat, toute opération de récupération de données va nécessiter une attente préalable d’au moins 4 h ! Et ce délai concerne toutes les opérations : même une demande d’inventaire (un “ls” en quelque sorte) du contenu d’un dépôt va demander le même délai (4h) avant d’obtenir le résultat de votre requête …

Il est donc clair qu’avec une telle contrainte il faut réserver l’usage de Glacier à des seules fins d’archivage …

A l’inverse de S3 il n’existe pas (pour le moment) d’interface web (fournie par Amazon) permettant de gérer le contenu de ses archives. Plusieurs logiciels dédiés existent toutefois sur le marché. J’ai par exemple testé “FastGlacier” sur une des mes machines Windows (ce soft est gratuit pour un usage non commercial). Toutefois, dans certains cas, il est plus pratique d’utiliser directement une interface en ligne de commande (pour archiver le contenu d’un serveur Linux par exemple). Il existe, pour ce faire, un ensemble de scripts Python totalement fonctionnels et qui permettent d’agir sur vos archives. Il s’agit de “glacier-cmd“.

L’installation (et l’utilisation) de “glacier-cmd” ne pose pas vraiment de problème, mais j’ai quand même décidé de faciliter la tâche à ceux (celles) d’entres vous qui ont quelques petites difficultés avec la langue anglaise et/ou démarrer rapidement à partir d’un document de synthèse.

C’est parti …

Ce how-to est basé sur l’utilisation d’une distribution Debian 6 “out of the box” sans particularité. Bien entendu aucune interface graphique n’est nécessaire (c’est d’ailleurs un peu l’objectif de ce how-to …)

La première chose à faire est de s’assurer que Python est bien installé sur votre système.

Un petit “python -V” devrait vous retourner la version de Python installée

Dans le doute vous pouvez toujours lancer un “apt-get install python” ça ne peut pas faire de mal !

Il faut ensuite passer à l’installation de “Git” (qui vous permettra de faciliter l’installation de “glacier-cmd“)

apt-get install git

On récupére ensuite l’intégralité de glacier-cmd avec une seule ligne de commande :

git clone https://github.com/uskudnik/amazon-glacier-cmd-interface.git

On entre dans le répertoire où ont été récupérées les sources

cd amazon-glacier-cmd-interface/

On installe un module supplémentaire pour Python nécessaire au lancement du script d’installation

apt-get install python-setuptools

Et on lance finalement le script d’installation

python setup.py install

On va ensuite créer un fichier de configuration pour glacier-cmd.

vi /etc/glacier-cmd.conf

Le fichier va ressembler à ça :

[aws]
 access_key=Identifiant de clé d’accès
 secret_key=Clé d’accès secrète

[glacier]
 region=us-east-1
 logfile=~/.glacier-cmd.log
 loglevel=INFO
 output=print

Pour récupérer (ou créer les clés AWS) il faut se connecter ICI

Ce fichier de conf va également vous permettre de sélectionner la zone géographique où seront hébergés vos données (les tarifs varient légèrement en fonction de ce paramètre : toutes les infos sont ICI ).

Les valeurs possibles pour “region” sont donc les suivantes :

us-east-1 pour : US - Virginia
us-west-1 pour : US - N. California
us-west-2 pour : US - Oregon
eu-west-1 pour : EU - Ireland
ap-northeast-1 pour : Asia-Pacific - Tokyo

On peut ensuite passer à l’utilisation de glacier-cmd. Les principales commandes sont les suivantes :

Pour créer un dépôt (“vault”) de stockage (afin d’y déposer ensuite des archives)
```
glacier-cmd mkvault <le_nom_de_votre_dépôt>
```
Pour lister les dépôts disponibles :
```
glacier-cmd lsvault
```
Pour obtenir le contenu (liste des archives/fichiers) d’un dépôt (attention le résultat de cette commande ne sera disponible qu’après 4h d’attente …)
```
glacier-cmd inventory <le_nom_de_votre_dépôt>
```

Pour uploader une archive (fichier) au sein d’un dépôt :

glacier-cmd upload <nom_de_votre_dépôt> <nom_du_fichier_a_uploader> --description "la_description_du_fichier"

Pour télécharger les archives (fichiers) contenues au sein d’un dépôt :
L’opération se déroule en deux temps:

1) On lance une demande de récupération de l’archive avec la commande suivante :
```
glacier-cmd getarchive <nom_de_votre_dépôt> <id_de_l'archive_à_récupérer>
```
NB : On récupère l’id de l’archive avec la commande “inventory” (voir ci-dessus)

2) Après environ 4h d’attente vous pouvez demander le téléchargement de l’archive avec cette commande :
```
glacier-cmd download <nom_de_votre_dépôt> <id_de_l'archive_à_récupérer> --outfile <nom_du_fichier>
```
Donc pour résumer une récupération “type” s’effectue en 8h : 4h pour obtenir le contenu du dépôt (avec les identifiants d’archives) puis 4h pour obtenir une archive prête à être téléchargée et enfin le temps nécessaire au téléchargement du fichier ! Mieux vaut ne pas être pressé …

Pour obtenir la liste de jobs en cours (inventaire, récupération …) :

glacier-cmd listjobs nom_de_votre_dépôt

Ce how-to n’a bien entendu pas vocation à être exhaustif. Si vous souhaitez découvrir l’intégralité des fonctionnalités proposées par glacier-cmd, je vous invite à consulter la documentation disponible ICI .

Dans un prochain billet, je vous présenterai une solution permettant d’automatiser le backup d’un serveur Linux vers Glacier …

Magazine Internet

Gérez “AWS Glacier” en ligne de commande

A propos de l’auteur

Magazine

LA COMMUNAUTÉ INTERNET

LES JEUX SUR PAPERBLOG.FR