Bossie Awards 2014 #6 – Outils de big data

Suite et fin des Bossie Awards 2014. Après les applications, les outils de développement d’applications, les logiciels de data center et de cloud, les applications bureau & mobile et les applications sécurité & réseaux, je clos aujourd’hui Awards avec les outils de big data.

On commence par le remarquable projet IPython, un shell pour Python proposant des fonctionnalités telles que l’introspection, une syntaxe additionnelle, la complétion et un historique riche. Très utile pour l’ingénierie et les sciences, IPython a valu à Fernando Perez, son créateur, le Prix du développement logiciel libre par la Free Software Foundation. Dans le même registre, Pandas est une bibliothèque sous licence BSD fournissant des structures de données très performantes, faciles à utiliser, et des outils d’analyse de données pour Python.

On continue avec Hadoop, un framework Java libre destiné à faciliter la création d’applications distribuées et échelonnables (scalables). Hadoop est véritablement conçu pour le big data (il permet de manipuler des pétaoctets de données). On trouve également Hive, un logiciel d’analyse de données développé par Facebook utilisant justement Hadoop. Autour de Hive, on trouve également Hivemall, une bibliothèque d’apprentissage automatique évolutive, conçue par l’AIST (l’institut national japonais de Advanced Industrial Science and Technology), qui utilise les données générées par Hive pour alimenter les algorithmes d’apprentissage automatique. Vient ensuite Mahout, encore issu de la Fondation Apache, un projet visant à créer des implémentations d’algorithmes d’apprentissage automatique distribués utilisant Hadoop. Toujours autour de Hadoop, on trouve Cloudera Impala (le code source libre de Cloudera), qui est un moteur de requêtes SQL MMP (massivement parallèle) pour des données stockées dans un cluster de serveurs exécutant Hadoop. On trouve également Tez, un framework d’application basé sur Hadoop YARN, permettant de traiter des diagrammes de tâches complexes (correspondant à des graphes dirigés acycliques) ; mais aussi Cascade, un SDK pour Hadoop, utilisé pour créer et exécuter des workflows de traitement de données complexes sur un cluster Hadoop utilisant n’importe quelle langage basé sur la JVM (Java, JRuby, Clojure…). Enfin on peut citer Storm, un système de calcul distribué en temps réel facile à utiliser, qui fait pour le traitement en temps réel ce que Hadoop fait pour le traitement par lots.

Dans le domaine des outils orienté science et ingénierie, on trouve RCloud, une plateforme web conçue pour l’analyse, la visualisation et la collaboration sur R. RCloud utilise Rserve pour se connecter aux instances de R via WebSockets, et permet le transfert binaire direct des données de la session vers le client pour la visualisation. Par la même occasion, Infoworld cite le projet R lui-même ; je rappelle que R est un logiciel libre dédié au calcul statistique et à la représentation graphique des données, compatible UNIX, Windows et MacOS.

Dans le domaine des outils plutôt orientés business, on trouve d’abord Pentaho, une plateforme décisionnelle complète couvrant toutes les fonctionnalités de la Business Intelligence (intégration de données, reporting, tableaux de bord, analyse ad hoc, analyse multidimensionnelle). On trouve ensuite Talend Open Studio, une plateforme unifiée, flexible et puissante, avec un environnement graphique simple à utiliser (basé sur Eclipse) fournissant un panel d’outils pour développer, tester, déployer et administrer des projets de gestion de données et d’intégration d’applications, notamment pour le big data.

Dans le domaine des SGBD (système de gestion de base de données), Infoworld cite d’abord MongoDB (de l’anglais humongous, « énorme »), un SGBD orienté documents écrit en C++ et sous licence AGPL. MongoDB permet de distribuer la gestion des bases de données sur un nombre quelconque d’ordinateurs, sans schéma de données prédéfini, ce qui le situe dans la mouvance NoSQL. Dans la même mouvance, citons aussi Cassandra, un SGBD issu de la Fondation Apache, conçu pour gérer des quantités massives de données réparties sur un cluster, en assurant une disponibilité maximale des données et en éliminant les points individuels de défaillance. On trouve ensuite Neo4j, un SGBD orienté graphes développé en Java, annoncé pouvoir traiter les bases de données de graphe jusqu’à plusieurs milliers de fois plus rapidement que les bases relationnelles.

Dans le domaine de la communication et de la messagerie, on trouve Spark, distribué sous licence LGPL, un client de messagerie instantanée pour le réseau Java Jabber. On trouve également Kafka, un outil originellement développé par LinkedIn pour les entreprises web, permettant de manipuler des centaines de méga-octets de messages par seconde entre des milliers de clients.

Enfin dans le domaine de la fouille de données (data mining), on trouve KNIME (acronyme de Konstanz Information Miner), écrit en Java, qui intègre diverses composantes pour l’apprentissage automatique et l’extraction de données, grâce à un concept de canalisation modulaire des données, et dans une interface graphique intuitive.

Pour en savoir plus sur les outils de big data des Bossie Awards 2014 : Bossie Awards 2014 : The best open source big data tools.

Magazine High tech

Bossie Awards 2014 #6 – Outils de big data

A propos de l’auteur

Dossiers Paperblog

Magazines

LA COMMUNAUTÉ HIGH TECH

LES JEUX SUR PAPERBLOG.FR