Outils pour utilisateurs

Outils du site


informatique:bigdata

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

informatique:bigdata [2017/10/10 14:16] (Version actuelle)
Ligne 1: Ligne 1:
 +===== Définitions =====
  
 +  * [[https://www.synomia.fr/fr/produit/la-technologie-synomia/synomia-menu-la-data-non-structuree|Data structurée et non-structurée]]
 +
 +  * __Hadoop HDFS__ : système de fichiers scalable et distribué ;
 +
 +  * __Hadoop Mapreduce__ : framework logiciel de traitement des données ;
 +
 +  * __YARN__ : permet la gestion de l’état du cluster et des ressources et la gestion de l’exécution des jobs ;
 +
 +  * __HBase__ : base de données d'Hadoop NoSQL, scalable et distribuée. HBase est une base de données distribuée disposant d'un stockage structuré pour les grandes tables. Comme BigTable, HBase est une base de données orientée colonnes ;
 +
 +  * __Hive__ : logiciel d'analyse de données permettant d'utiliser Hadoop avec une syntaxe proche du SQL. Hive a été initialement développé par Facebook ;
 +
 +  * __Flume__ : framework permettant d'intégrer des données à Hadoop ;
 +
 +  * __Pig__ : logiciel d'analyse de données comparable à Hive, mais qui utilise le langage Pig Latin. Pig a été initialement développé par Yahoo ;
 +
 +  * __Zookeeper__ : logiciel de gestion de configuration pour systèmes distribués, basé sur le logiciel Chubby développé par Google. ZooKeeper est utilisé entre autres pour l'implémentation de HBase.
 +
 +  * __Mahout__ : implémentations d'algorithmes d'apprentissage automatique distribués sur Hadoop (machine learning) ;
 +
 +  * __Sqoop__ :  interface permettant de transférer des données entre les bases de données relationnelles et Hadoop ;
 +
 +  * __Oozie__ : utilisée pour gérer et coordonner les tâches de traitement de données à destination de Hadoop ;
 +
 +  * __Ambari__ : supervision et administration de clusters Hadoop
 +
 +**__Schéma de synthèse__** ((http://blog.ippon.fr/2013/05/14/big-data-la-jungle-des-differentes-distributions-open-source-hadoop/))
 +
 +{{ http://blog.ippon.fr/wp-content/uploads/2013/05/Apache-Hadoop.png?600 | }}
 +===== Généralités =====
 +
 +  * [[http://blog.ippon.fr/2013/05/14/big-data-la-jungle-des-differentes-distributions-open-source-hadoop/|Ecosystème Hadoop]]
 +  * [[http://blog.octo.com/big-data-quelques-mythes/|BigData : quelques mythes]]
 +
 +===== Composants =====
 +
 +==== Hive & HBase ====
 +
 +  * [[http://stackoverflow.com/questions/13911501/when-to-use-hadoop-hbase-hive-and-pig|HBase or Hive ? ]] [[https://www.xplenty.com/blog/2014/05/hive-vs-hbase/|Hive vs. HBase]]
 +  * [[http://fr.slideshare.net/cloudera/tokyo-nosqlslidesonly|Présentation Hadoop & HBase]]
 +==== Flume ====
 +
 +  * [[http://blog.octo.com/introduction-a-flume-ng/|Introduction à Flume]]
 +
 +==== Hadoop ====
 +
 +Quelques remarques :
 +
 +  * Hadoop is not good to process transactions due to its lack random access ;
 +
 +  * It is not good when the work cannot be parallelized or when there are dependencies within the data, that is, record one must be processed before record two ;
 +
 +  * It is not good for low latency data access ;
 +
 +  * Not good for processing lots of small files although there is work being done in this area, for example, IBM’s Adaptive MapReduce ;
 +
 +  * And it is not good for intensive calculations with little data. 
 +
 +  * **[[informatique:bigdata:hadoop|Monter un cluster Hadoop]]**
 +  * [[http://blog.octo.com/hadoop-dans-ma-dsi-comment-dimensionner-un-cluster/|Dimensionner un cluster Hadoop]]
 +  * [[http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/|Cluster Hadoop single-node]]
 +  * [[http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/|Cluster Hadoop multi-node]]
 +  * [[http://stackoverflow.com/questions/23581425/hadoop-how-to-start-secondary-namenode-on-other-node|Démarrer un secondary node sur un node quelconque]]
 +  * [[http://www.michael-noll.com/blog/2011/10/20/understanding-hdfs-quotas-and-hadoop-fs-and-fsck-tools/|Quotas HDFS, fsck, etc.]]
 +  * [[http://mo.nitor.me/hadoop-simulating-a-crash-test/|Simuler un crash d'un datanode]]
 +
 +==== Pig ====
 +
 +  * [[http://www.rohitmenon.com/index.php/apache-pig-tutorial-part-1/|Pig Tutorial part I]]
informatique/bigdata.txt · Dernière modification: 2017/10/10 14:16 (modification externe)