Python pour le Big Data
Data Value
Salarié en poste
Demandeur d'emploi
Entreprise
Étudiant
En présentiel
Nous contacter
3900 €
Localité
En présentiel
Découvrez les localités disponibles pour suivre cette formation en présentiel.
Objectifs
Utiliser le langage Python pour manipuler et visualiser de grands ensembles de données (big data) en exploitant ses nombreuses librairies scientifiques
Compétences visées
- Connaître les problématiques du Big Data
- Connaître les différentes librairies Python permettant de manipuler le Big Data
- Savoir manipuler de grands volumes de données
- Avoir des notions sur l'architecture Big Data
Compétences visées
- Connaître les problématiques du Big Data
- Connaître les différentes librairies Python permettant de manipuler le Big Data
- Savoir manipuler de grands volumes de données
- Avoir des notions sur l'architecture Big Data
Programme
Programme
- Concepts du Big Data
Cette introduction permet de vous initier à la problématique du Big Data
- Introduction à la librairie Dask
Dask est une librairie qui permet de faire du calcul distribué sur plusieurs cœurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.
- Introduction à la librairie Xarray
Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask
- Introduction à la librairie Vaex
Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.
- Introduction à Spark
Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python
- Introduction à PySpark
Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension
- Visualisation des données massives avec Holoviews
Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.
- Concepts du Big Data
Cette introduction permet de vous initier à la problématique du Big Data
- Volume, Vitesse, Véracité
- Map Reduce
- Architecture Big Data et Data Lake
- Big Data et Cloud computing
- Les outils du Big Data
- Introduction à la librairie Dask
Dask est une librairie qui permet de faire du calcul distribué sur plusieurs cœurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.
- Présentation de Dask
- Exemple de calculs distribués
- Dask et Numpy: comparaison de performances
- Dask et Pandas
- Introduction à la librairie Xarray
Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask
- Présentation de Xarray
- Exemples d'utilisation de Xarray
- Mise en pratique avec un fichier netCDF
- Introduction à la librairie Vaex
Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.
- Présentation de Vaex
- Prise en main de Vaex avec des exemples
- Comparaison entre Vaex et Pandas
- Visualisation des données avec Vaex
- Introduction à Spark
Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python
- Présentation de Spark
- Architecture Apache Spark
- Autres outils associés à Spark (Yarn, Mesos)
- Resilient Distributed Dataset (RDD)
- Présentation et Installation de PySpark
- Introduction à PySpark
Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension
- Visualisation des données massives avec Holoviews
Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.
- Présentation et prise en main d'Holoviews
- Interactivité avec Holoviews
Ces formations peuvent vous intéresser
Malheureusement, vous ne pouvez pas contacter ce centre via Maformation.
Voici des formations similaires :
LILLE, NANCY…
À distance / En entreprise
Salarié en poste / Demandeur d'emploi / Entreprise
Finançable CPF
6590 €
Avis du centre
À DISTANCE
Salarié en poste / Demandeur d'emploi / Entreprise
Non finançable CPF
À DISTANCE
Salarié en poste / Entreprise
Finançable CPF
12500 €
Avis du centre
Les formations les plus recherchées
Formation Toulouse
Formation Paris
Formation Nantes
Formation Lille
Formation Bordeaux
Formation Strasbourg
Formation Rennes
Formation Montpellier
Formation Angers
Formation Clermont-Ferrand
Formation Informatique CPF
Formation Informatique en ligne
Formation Big data CPF
Formation Big data en ligne
Formation Spark
Formation Programmation
Formation Intelligence artificielle
Formation Cybersecurite
Formation Securite informatique
Formation Machine learning
Formation Hadoop
Formation Growth hacking
Formation Git
Formation Hacking
Formation Spark Nantes
Formation Intelligence artificielle Paris
Formation Machine learning Paris
Formation Programmation Nantes
Formation Spark Paris
Formation Securite informatique Paris
Formation Cybersecurite Paris
Formation Spark Toulouse
Formation Hacking Paris
Formation Programmation Paris
Cette formation est temporairement suspendue.
Voir des formations similaires