Python sur Spark avec Databricks

Data Value

Voir des formations similaires

Public admis

Salarié en poste

Demandeur d'emploi

Entreprise

Étudiant

Modalités

En présentiel

Durée

Nous contacter

Prix

Nous contacter

Localité

En présentiel

Découvrez les localités disponibles pour suivre cette formation en présentiel.

Objectifs

Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme

- Présentation de Databricks

Historique

Différence entre l'utilisation Administrateur et Utilisateur

Comment mettre en place un projet sur Databricks/AWS

Comment créer un cluster de calcul avec Databricks/AWS

Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

Rappels sur le Big Data

Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX

Configurer un Spark Context et une Spark Session

Gestion de la mémoire sous Spark

- Présentation de PySpark et l'API Pyspark RDD

Présentation de Pyspark et fonctionnement avec les Java Virtual Machines

Présentation de l'API Pyspark RDD et manipulation de données non structurées

Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs

- Utilisation de l'API Pyspark SQL

Présentation de l'API Pyspark SQL

Lecture de fichiers csv, json, parquet et sauvegarde de fichier

Nettoyage et manipulation de données

Groupby et agrégation

Jointure de tables

Lien entre SQL et Python

Manipulation d'objets Row, et Window

Manipulation de dates

Utilisation de User Defined Function et de Pandas User Defined functions

Présentation de Pyspark Pandas

Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé

Compromis Biais Variance

Modèles Linéaires

Modèles Non Linéaires

Modèles ensemblistes

Modèles de clustering

Métriques et évaluation des performances

- Machine Learning avec PySpark

Différence entre MLlib SQL et MLlib RDD

Les transformations de processing sur les données et notions de Pipeline

Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)

Evaluation des performances avec Pyspark MLlib

Utilisation de la librairie Xgboost sous un environnement Spark

Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

Ces formations peuvent vous intéresser

Avis du centre

Formation Python complète CPF : data, IA, machine learning et automatisation – 9h de mentoring

À DISTANCE

Salarié en poste / Demandeur d'emploi / Entreprise

Finançable CPF

1837 €

Introduction au Web Scraping avec Python

ORSAY

En centre / En entreprise

Entreprise

Non finançable CPF

1650 €

Perfectionnement en Python 3

ORSAY

À distance / En centre / En entreprise

Entreprise

Non finançable CPF

1500 €

Malheureusement, vous ne pouvez pas contacter ce centre via Maformation.

Voici des formations similaires :

Python pour le Machine Learning

ORSAY

En centre / En entreprise

Entreprise

Non finançable CPF

1650 €

Python

À DISTANCE

Entreprise

Finançable CPF

1884 €

Avis du centre

Python Data Science : 28h pour manipuler, analyser et visualiser des données avec NumPy, Pandas et Matplotlib

VILLENEUVE-D'ASCQ

À distance / En centre / En entreprise

Salarié en poste / Demandeur d'emploi / Entreprise

Finançable CPF

Les formations les plus recherchées

Formation Toulouse Formation Paris Formation Nantes Formation Lille Formation Strasbourg Formation Montpellier Formation Bordeaux Formation Rennes Formation Dijon Formation Angers Formation Informatique CPF Formation Informatique en ligne Formation Python CPF Formation Python en ligne Formation Spark Formation Programmation Formation Intelligence artificielle Formation Machine learning Formation Cybersecurite Formation Securite informatique Formation Growth hacking Formation Hadoop Formation Git Formation Vba Formation Spark Nantes Formation Intelligence artificielle Paris Formation Programmation Nantes Formation Spark Paris Formation Machine learning Paris Formation Securite informatique Paris Formation Cybersecurite Paris Formation Spark Toulouse Formation Hacking Paris Formation Programmation Paris

Cette formation est temporairement suspendue.

Voir des formations similaires