Python sur Spark avec Databricks
Data Value
Non finançable CPF
Tout public
Présentiel
Public admis
Salarié en poste
Demandeur d'emploi
Entreprise
Etudiant
Prix
3900 €
Durée
Nous contacter
Niveau visé
Non diplômante
Localité
En présentiel
Découvrez les localités disponibles pour suivre cette formation en présentiel.
Objectifs
Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.
Compétences visées
- Connaître l'environnement Databricks
- Se familiariser avec la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python
- Savoir manipuler de grands volumes de données avec Pyspark
- Mettre en oeuvre des méthodes de Machine Learning avec Pyspark
Compétences visées
- Connaître l'environnement Databricks
- Se familiariser avec la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python
- Savoir manipuler de grands volumes de données avec Pyspark
- Mettre en oeuvre des méthodes de Machine Learning avec Pyspark
Programme
Programme
- Présentation de Databricks
Cette introduction permet de vous initier à l'environnement Databricks et ses outils
Historique
Différence entre l'utilisation Administrateur et Utilisateur
Comment mettre en place un projet sur Databricks/AWS
Comment créer un cluster de calcul avec Databricks/AWS
Gestion des notebooks, des utilisateurs et des ressources
- Introduction à Spark
Spark est un environnement de travail distribué qui permet d'effectuer des calculs sur des gros volumes de données
Rappels sur le Big Data
Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
Configurer un Spark Context et une Spark Session
Gestion de la mémoire sous Spark
- Présentation de PySpark et l'API Pyspark RDD
Pyspark est l'API Python de Spark
Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
Présentation de l'API Pyspark RDD et manipulation de données non structurées
Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs
- Utilisation de l'API Pyspark SQL
L'API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL
Présentation de l'API Pyspark SQL
Lecture de fichiers csv, json, parquet et sauvegarde de fichier
Nettoyage et manipulation de données
Groupby et agrégation
Jointure de tables
Lien entre SQL et Python
Manipulation d'objets Row, et Window
Manipulation de dates
Utilisation de User Defined Function et de Pandas User Defined functions
Présentation de Pyspark Pandas
Nombreuses mises en pratique sur des jeux de données
- Introduction au Machine Learning
Rappels des fondamentaux du Machine Learning
Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
Compromis Biais Variance
Modèles Linéaires
Modèles Non Linéaires
Modèles ensemblistes
Modèles de clustering
Métriques et évaluation des performances
- Machine Learning avec PySpark
Les librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué
Différence entre MLlib SQL et MLlib RDD
Les transformations de processing sur les données et notions de Pipeline
Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)
Evaluation des performances avec Pyspark MLlib
Utilisation de la librairie Xgboost sous un environnement Spark
Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence
- Présentation de Databricks
Cette introduction permet de vous initier à l'environnement Databricks et ses outils
Historique
Différence entre l'utilisation Administrateur et Utilisateur
Comment mettre en place un projet sur Databricks/AWS
Comment créer un cluster de calcul avec Databricks/AWS
Gestion des notebooks, des utilisateurs et des ressources
- Introduction à Spark
Spark est un environnement de travail distribué qui permet d'effectuer des calculs sur des gros volumes de données
Rappels sur le Big Data
Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
Configurer un Spark Context et une Spark Session
Gestion de la mémoire sous Spark
- Présentation de PySpark et l'API Pyspark RDD
Pyspark est l'API Python de Spark
Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
Présentation de l'API Pyspark RDD et manipulation de données non structurées
Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs
- Utilisation de l'API Pyspark SQL
L'API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL
Présentation de l'API Pyspark SQL
Lecture de fichiers csv, json, parquet et sauvegarde de fichier
Nettoyage et manipulation de données
Groupby et agrégation
Jointure de tables
Lien entre SQL et Python
Manipulation d'objets Row, et Window
Manipulation de dates
Utilisation de User Defined Function et de Pandas User Defined functions
Présentation de Pyspark Pandas
Nombreuses mises en pratique sur des jeux de données
- Introduction au Machine Learning
Rappels des fondamentaux du Machine Learning
Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
Compromis Biais Variance
Modèles Linéaires
Modèles Non Linéaires
Modèles ensemblistes
Modèles de clustering
Métriques et évaluation des performances
- Machine Learning avec PySpark
Les librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué
Différence entre MLlib SQL et MLlib RDD
Les transformations de processing sur les données et notions de Pipeline
Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)
Evaluation des performances avec Pyspark MLlib
Utilisation de la librairie Xgboost sous un environnement Spark
Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence
Envie d’en savoir plus sur cette formation ?
Documentez-vous sur la formation
Ces formations peuvent vous intéresser
Les formations les plus recherchées
Lyon
Toulouse
Marseille
Montpellier
Paris
Bordeaux
Dijon
Mâcon
Nantes
Rennes
Informatique CPF
Informatique en Ligne
Python
Python CPF
Python en Ligne
Intelligence artificielle
Machine learning
Vba
Technicien informatique
Technicien support informatique
Growth hacking
Administrateur systeme
Consultant en informatique
Programmation
Spark
Python Clermont-Ferrand
Python Grenoble
Python Saint-Étienne
Python Annecy
Python Chambéry
Python Roanne
Python Aurillac
Python Le Pontet
Python Moirans
Python Annemasse