[[informatique:bigdata]]

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

informatique:bigdata [2017/10/10 14:16] (Version actuelle)
Ligne 1: Ligne 1:
 +===== Définitions =====
  
 +  * [[https://​www.synomia.fr/​fr/​produit/​la-technologie-synomia/​synomia-menu-la-data-non-structuree|Data structurée et non-structurée]]
 +
 +  * __Hadoop HDFS__ : système de fichiers scalable et distribué ;
 +
 +  * __Hadoop Mapreduce__ : framework logiciel de traitement des données ;
 +
 +  * __YARN__ : permet la gestion de l’état du cluster et des ressources et la gestion de l’exécution des jobs ;
 +
 +  * __HBase__ : base de données d'​Hadoop NoSQL, scalable et distribuée. HBase est une base de données distribuée disposant d'un stockage structuré pour les grandes tables. Comme BigTable, HBase est une base de données orientée colonnes ;
 +
 +  * __Hive__ : logiciel d'​analyse de données permettant d'​utiliser Hadoop avec une syntaxe proche du SQL. Hive a été initialement développé par Facebook ;
 +
 +  * __Flume__ : framework permettant d'​intégrer des données à Hadoop ;
 +
 +  * __Pig__ : logiciel d'​analyse de données comparable à Hive, mais qui utilise le langage Pig Latin. Pig a été initialement développé par Yahoo ;
 +
 +  * __Zookeeper__ : logiciel de gestion de configuration pour systèmes distribués,​ basé sur le logiciel Chubby développé par Google. ZooKeeper est utilisé entre autres pour l'​implémentation de HBase.
 +
 +  * __Mahout__ : implémentations d'​algorithmes d'​apprentissage automatique distribués sur Hadoop (machine learning) ;
 +
 +  * __Sqoop__ :  interface permettant de transférer des données entre les bases de données relationnelles et Hadoop ;
 +
 +  * __Oozie__ : utilisée pour gérer et coordonner les tâches de traitement de données à destination de Hadoop ;
 +
 +  * __Ambari__ : supervision et administration de clusters Hadoop
 +
 +**__Schéma de synthèse__** ((http://​blog.ippon.fr/​2013/​05/​14/​big-data-la-jungle-des-differentes-distributions-open-source-hadoop/​))
 +
 +{{ http://​blog.ippon.fr/​wp-content/​uploads/​2013/​05/​Apache-Hadoop.png?​600 | }}
 +===== Généralités =====
 +
 +  * [[http://​blog.ippon.fr/​2013/​05/​14/​big-data-la-jungle-des-differentes-distributions-open-source-hadoop/​|Ecosystème Hadoop]]
 +  * [[http://​blog.octo.com/​big-data-quelques-mythes/​|BigData : quelques mythes]]
 +
 +===== Composants =====
 +
 +==== Hive & HBase ====
 +
 +  * [[http://​stackoverflow.com/​questions/​13911501/​when-to-use-hadoop-hbase-hive-and-pig|HBase or Hive ? ]] [[https://​www.xplenty.com/​blog/​2014/​05/​hive-vs-hbase/​|Hive vs. HBase]]
 +  * [[http://​fr.slideshare.net/​cloudera/​tokyo-nosqlslidesonly|Présentation Hadoop & HBase]]
 +==== Flume ====
 +
 +  * [[http://​blog.octo.com/​introduction-a-flume-ng/​|Introduction à Flume]]
 +
 +==== Hadoop ====
 +
 +Quelques remarques :
 +
 +  * Hadoop is not good to process transactions due to its lack random access ;
 +
 +  * It is not good when the work cannot be parallelized or when there are dependencies within the data, that is, record one must be processed before record two ;
 +
 +  * It is not good for low latency data access ;
 +
 +  * Not good for processing lots of small files although there is work being done in this area, for example, IBM’s Adaptive MapReduce ;
 +
 +  * And it is not good for intensive calculations with little data. 
 +
 +  * **[[informatique:​bigdata:​hadoop|Monter un cluster Hadoop]]**
 +  * [[http://​blog.octo.com/​hadoop-dans-ma-dsi-comment-dimensionner-un-cluster/​|Dimensionner un cluster Hadoop]]
 +  * [[http://​www.michael-noll.com/​tutorials/​running-hadoop-on-ubuntu-linux-single-node-cluster/​|Cluster Hadoop single-node]]
 +  * [[http://​www.michael-noll.com/​tutorials/​running-hadoop-on-ubuntu-linux-multi-node-cluster/​|Cluster Hadoop multi-node]]
 +  * [[http://​stackoverflow.com/​questions/​23581425/​hadoop-how-to-start-secondary-namenode-on-other-node|Démarrer un secondary node sur un node quelconque]]
 +  * [[http://​www.michael-noll.com/​blog/​2011/​10/​20/​understanding-hdfs-quotas-and-hadoop-fs-and-fsck-tools/​|Quotas HDFS, fsck, etc.]]
 +  * [[http://​mo.nitor.me/​hadoop-simulating-a-crash-test/​|Simuler un crash d'un datanode]]
 +
 +==== Pig ====
 +
 +  * [[http://​www.rohitmenon.com/​index.php/​apache-pig-tutorial-part-1/​|Pig Tutorial part I]]
  • informatique/bigdata.txt
  • Dernière modification: il y a 2 ans
  • (modification externe)