Python pour le Big Data
Data Value
Non finançable CPF
Tout public
Présentiel
Public admis
Salarié en poste
Demandeur d'emploi
Entreprise
Etudiant
Prix
3900 €
Durée
Nous contacter
Niveau visé
Non diplômante
Localité
En présentiel
Découvrez les localités disponibles pour suivre cette formation en présentiel.
Objectifs
Objectif : Utiliser le langage Python pour manipuler et visualiser de grands ensembles de données (big data) en exploitant ses nombreuses librairies scientifiques
Compétences visées :
- Connaître les problématiques du Big Data
- Connaître les différentes librairies Python permettant de manipuler le Big Data
- Savoir manipuler de grands volumes de données
- Avoir des notions sur l'architecture Big Data
Compétences visées :
- Connaître les problématiques du Big Data
- Connaître les différentes librairies Python permettant de manipuler le Big Data
- Savoir manipuler de grands volumes de données
- Avoir des notions sur l'architecture Big Data
Programme
- Concepts du Big Data
Cette introduction permet de vous initier à la problématique du Big Data
Volume, Vitesse, Véracité
Map Reduce
Architecture Big Data et Data Lake
Big Data et Cloud computing
Les outils du Big Data
- Introduction à la librairie Dask
Dask est une librairie qui permet de faire du calcul distribué sur plusieurs coeurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.
Présentation de Dask
Exemple de calculs distribués
Dask et Numpy: comparaison de performances
Dask et Pandas
- Introduction à la librairie Xarray
Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask
Présentation de Xarray
Exemples d'utilisation de Xarray
Mise en pratique avec un fichier netCDF
- Introduction à la librairie Vaex
Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.
Présentation de Vaex
Prise en main de Vaex avec des exemples
Comparaison entre Vaex et Pandas
Visualisation des données avec Vaex
- Introduction à Spark
Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python
Présentation de Spark
Architecture Apache Spark
Autres outils associés à Spark (Yarn, Mesos)
Resilient Distributed Dataset (RDD)
Présentation et Installation de PySpark
- Introduction à PySpark
Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension
- Visualisation des données massives avec Holoviews
Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.
Présentation et prise en main d'Holoviews
Interactivité avec Holoviews
Cette introduction permet de vous initier à la problématique du Big Data
Volume, Vitesse, Véracité
Map Reduce
Architecture Big Data et Data Lake
Big Data et Cloud computing
Les outils du Big Data
- Introduction à la librairie Dask
Dask est une librairie qui permet de faire du calcul distribué sur plusieurs coeurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.
Présentation de Dask
Exemple de calculs distribués
Dask et Numpy: comparaison de performances
Dask et Pandas
- Introduction à la librairie Xarray
Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask
Présentation de Xarray
Exemples d'utilisation de Xarray
Mise en pratique avec un fichier netCDF
- Introduction à la librairie Vaex
Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.
Présentation de Vaex
Prise en main de Vaex avec des exemples
Comparaison entre Vaex et Pandas
Visualisation des données avec Vaex
- Introduction à Spark
Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python
Présentation de Spark
Architecture Apache Spark
Autres outils associés à Spark (Yarn, Mesos)
Resilient Distributed Dataset (RDD)
Présentation et Installation de PySpark
- Introduction à PySpark
Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension
- Visualisation des données massives avec Holoviews
Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.
Présentation et prise en main d'Holoviews
Interactivité avec Holoviews
Envie d’en savoir plus sur cette formation ?
Documentez-vous sur la formation
Ces formations peuvent vous intéresser

DATA SCIENTIST | Titre RNCP niveau 7 - Bac +5 | Co-certifiée école...
À DISTANCE
Avis du centre
Témoignages
Les formations les plus recherchées
Lyon
Toulouse
Marseille
Montpellier
Paris
Bordeaux
Dijon
Mâcon
Nantes
Rennes
Informatique CPF
Informatique en Ligne
Big data
Big data CPF
Big data en Ligne
Directeur des systemes d information
Data scientist
Intelligence artificielle
Machine learning
Vba
Growth hacking
Technicien informatique
Technicien support informatique
Administrateur systeme
Consultant en informatique
Big data Paris
Data scientist Paris
Data mining Paris
Directeur des systemes d information Villiers-le-Bel
Directeur des systemes d information Paris
Data mining Paris 1er
Data scientist Évry-Courcouronnes
Big data Évry-Courcouronnes
Big data Mantes-la-Ville
Data scientist Nanterre