Une architecture de type Big Data Analytique doit permettre d'ingérer, consolider, traiter et analyser à grande vitesse en flux continu les données. Le traitement de flux doit être rapide, évolutif, tolérant aux pannes et de bout en bout, sans que l'utilisateur ait à se soucier du flux.
La structure de la machine virtuelle.
1. | Le déluge de données |
---|---|
2. | Les systèmes de calcul distribué |
3. | Le système de fichiers distribué Hadoop (HDFS) |
4. | Le système de traitements MapReduce |
5. | Les extensions MapReduce |
6. | Le Big Data Analytique |
6.1. | La découverte |
6.2. | La préparation des données |
6.3. | La conception du modèle |
6.4. | La construction du modèle |
6.5. | Les résultats |
6.6. | La mise en production |
7. | L’analyse de données en flux continu |
8. | L’installation |
9. | Les produits nécessaires |
10. | Installer les prérequis |
10.1. | La configuration du système d'exploitation |
10.2. | L'installation de l'environnement Java |
10.3. | L'installation du langage Python |
10.4. | L'installation du langage R |
10.5. | La création des utilisateurs |
10.6. | La configuration automatique des prérequis |
11. | Installer Apache Hadoop |
12. | Installer Apache Spark |
12.1. | L'installation des fichiers |
12.2. | La configuration de l'environnement |
12.3. | Les environnements de commandes |
12.3.1. | L'environnement de commande Scala |
12.3.2. | L'environnement de commande Python |
12.3.3. | L'environnement de commande R |
12.4. | L'installation et intégration avec Apache Hadoop |
13. | Installer Apache Hive |
14. | Installer Apache Zookeeper |
15. | Installer Apache Kafka |
16. | Installer Apache Zeppelin |
17. | Configurer le démarrage et l'arrêt du cluster |
17.1. | Apache Hadoop |
17.2. | Jupyter Notebook |
17.3. | Apache Zeppelin |
1. | Qu'est-ce que Spark ? |
---|---|
1.1. | Spark SQL |
1.2. | Spark Streaming |
1.3. | Machine Learning |
1.4. | GraphX |
1.5. | Le Big Data Analytique Unifié |
2. | L'architecture distribuée |
2.1. | Spark Driver |
2.2. | Spark Session |
2.3. | Spark Manager |
2.4. | Spark Worker |
2.5. | Spark Executor |
2.6. | RDD et DAG |
2.6.1. | RDD |
2.6.2. | Transformations |
2.6.3. | Actions |
2.6.4. | DAG |
2.6.5. | La résolution des pannes |
3. | L'architecture d'une application |
3.1. | Spark Job |
3.2. | Spark Stage |
3.3. | Spark Task |
4. | Transformations, Actions et DAG avec les DataFrames |