Skip to content

Latest commit

 

History

History
97 lines (80 loc) · 9.06 KB

File metadata and controls

97 lines (80 loc) · 9.06 KB

Spark développer pour le Big Data

01-L'écosystème Big Data Analytique

Une architecture de type Big Data Analytique doit permettre d'ingérer, consolider, traiter et analyser à grande vitesse en flux continu les données. Le traitement de flux doit être rapide, évolutif, tolérant aux pannes et de bout en bout, sans que l'utilisateur ait à se soucier du flux.

La structure de la machine virtuelle.

1. Le déluge de données
2. Les systèmes de calcul distribué
3. Le système de fichiers distribué Hadoop (HDFS)
4. Le système de traitements MapReduce
5. Les extensions MapReduce
6. Le Big Data Analytique
6.1.     La découverte
6.2.     La préparation des données
6.3.     La conception du modèle
6.4.     La construction du modèle
6.5.     Les résultats
6.6.     La mise en production
7. L’analyse de données en flux continu
8. L’installation
9. Les produits nécessaires
10. Installer les prérequis
10.1.     La configuration du système d'exploitation
10.2.     L'installation de l'environnement Java
10.3.     L'installation du langage Python
10.4.     L'installation du langage R
10.5.     La création des utilisateurs
10.6.     La configuration automatique des prérequis
11. Installer Apache Hadoop
12. Installer Apache Spark
12.1.     L'installation des fichiers
12.2.     La configuration de l'environnement
12.3.     Les environnements de commandes
12.3.1.        L'environnement de commande Scala
12.3.2.        L'environnement de commande Python
12.3.3.        L'environnement de commande R
12.4.     L'installation et intégration avec Apache Hadoop
13. Installer Apache Hive
14. Installer Apache Zookeeper
15. Installer Apache Kafka
16. Installer Apache Zeppelin
17. Configurer le démarrage et l'arrêt du cluster
17.1.     Apache Hadoop
17.2.     Jupyter Notebook
17.3.     Apache Zeppelin

02-L’architecture

1. Qu'est-ce que Spark ?
1.1.     Spark SQL
1.2.     Spark Streaming
1.3.     Machine Learning
1.4.     GraphX
1.5.     Le Big Data Analytique Unifié
2. L'architecture distribuée
2.1.     Spark Driver
2.2.     Spark Session
2.3.     Spark Manager
2.4.     Spark Worker
2.5.     Spark Executor
2.6.     RDD et DAG
2.6.1.         RDD
2.6.2.         Transformations
2.6.3.         Actions
2.6.4.         DAG
2.6.5.         La résolution des pannes
3. L'architecture d'une application
3.1.     Spark Job
3.2.     Spark Stage
3.3.     Spark Task
4. Transformations, Actions et DAG avec les DataFrames

03-La structure et les types de données

04-Les traitements et le flux de données

05-L’exploration, la préparation et la visualisation des données

06-Le « Machine Learning »

07-Le « Deep Learning »

08-La mise en production