Python sur Spark avec Databricks

Data Value

Non finançable CPF
Tout public
En ligne
Présentiel
Public admis
Salarié en poste
Demandeur d'emploi
Entreprise
Etudiant
Prix
Nous contacter
Durée
Nous contacter
Niveau visé
Non diplômante
Localité
En ligne
Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.
En présentiel
Découvrez les localités disponibles pour suivre cette formation en présentiel.
En savoir plus sur les localités en présentiel
Cette formation est disponible dans les centres de formation suivants:
  • 31 - Labège
Cette formation peut être dispensée dans votre entreprise dans les localités suivantes :
  • 09 - Ariège
  • 11 - Aude
  • 12 - Aveyron
  • 30 - Gard
  • 31 - Haute-Garonne
  • 32 - Gers
  • 34 - Hérault
  • 46 - Lot
  • 48 - Lozère
  • 65 - Hautes-Pyrénées
  • 66 - Pyrénées-Orientales
  • 81 - Tarn
  • 82 - Tarn-et-Garonne
Objectifs
Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme

- Présentation de Databricks

Cette introduction permet de vous initier à l'environnement Databricks et ses outils
  • Historique
  • Différence entre l'utilisation Administrateur et Utilisateur
  • Comment mettre en place un projet sur Databricks/AWS
  • Comment créer un cluster de calcul avec Databricks/AWS
  • Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

Spark est un environnement de travail distribué qui permet d'effectuer des calculs sur des gros volumes de données
  • Rappels sur le Big Data
  • Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
  • Configurer un Spark Context et une Spark Session
  • Gestion de la mémoire sous Spark

- Présentation de PySpark et l'API Pyspark RDD

Pyspark est l'API Python de Spark
  • Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
  • Présentation de l'API Pyspark RDD et manipulation de données non structurées
  • Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs

- Utilisation de l'API Pyspark SQL

L'API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL
  • Présentation de l'API Pyspark SQL
  • Lecture de fichiers csv, json, parquet et sauvegarde de fichier
  • Nettoyage et manipulation de données
  • Groupby et agrégation
  • Jointure de tables
  • Lien entre SQL et Python
  • Manipulation d'objets Row, et Window
  • Manipulation de dates
  • Utilisation de User Defined Function et de Pandas User Defined functions
  • Présentation de Pyspark Pandas
  • Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

Rappels des fondamentaux du Machine Learning
  • Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
  • Compromis Biais Variance
  • Modèles Linéaires
  • Modèles Non Linéaires
  • Modèles ensemblistes
  • Modèles de clustering
  • Métriques et évaluation des performances

- Machine Learning avec PySpark

Les librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué

Envie d’en savoir plus sur cette formation ?

Documentez-vous sur la formation

Ces formations peuvent vous intéresser

Quelle est votre situation ?

Vous êtes ?

Veuillez choisir un lieu

Please fill out this field.

Please fill out this field.

Veuillez sélectionner un niveau de formation

Informez-vous gratuitement et sans engagement sur la formation.

Please fill out this field.

Please fill out this field.

Please fill out this field.

Veuillez saisir une adresse email

  • Vous voulez dire ?
  • ou plutôt ?

En cliquant sur "J'envoie ma demande", vous acceptez les CGU et déclarez avoir pris connaissance de la politique de protection des données du site maformation.fr

Haut de page