
Python pour Big Data
NetFormationFrance
Non finançable CPF
Tout public
En ligne
Voir des formations similaires
Public admis
Salarié en poste
Demandeur d'emploi
Entreprise
Etudiant
Prix
890 €
Durée
30 h à distance
Niveau visé
Non diplômante
Taux de réussite
100%
Pré-requis
Connaissance de base de la programmation en Python. Compréhension des concepts fondamentaux de la manipulation des données. Expérience pratique avec des bibliothèques Python telles que NumPy et Pandas est recommandée.
Localité
En ligne
Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.
Objectifs
Objectifs pédagogiques par module
1. Introduction au Big Data et à Python (6h)
* Assimiler les concepts clés et défis du Big Data (volume, variété, vélocité, véracité).
* Découvrir l’écosystème Big Data : Hadoop, Spark, NoSQL.
* Installer et configurer un environnement Python adapté au Big Data (Anaconda, Jupyter).
* Découvrir les principales bibliothèques Python pour le traitement des données volumineuses (NumPy, Pandas, Dask).
2. Manipulation et Préparation des Données avec Pandas (6h)
* Charger, explorer et comprendre des jeux de données volumineux.
* Nettoyer, filtrer, transformer et agréger les données efficacement.
* Utiliser Dask pour optimiser la manipulation de grands ensembles de données.
* Appliquer des techniques avancées de pivotement et remodelage des données.
3. Analyse des Données et Visualisation (6h)
* Réaliser des analyses statistiques descriptives et corrélatives.
* Créer des visualisations claires et dynamiques avec Matplotlib, Seaborn, Plotly et Dash.
* Présenter des résultats analytiques dans Jupyter Notebook.
* Explorer des volumes importants via des techniques avancées de visualisation.
4. Traitement Distribué des Données avec Apache Spark (6h)
* Comprendre l’architecture et les principes du traitement distribué avec Spark.
* Manipuler les RDDs, DataFrames et SQL via PySpark.
* Optimiser et tuner les traitements Spark pour de meilleures performances.
5. Machine Learning pour le Big Data avec Python (6h)
* Appréhender les bases du machine learning appliquées au Big Data.
* Utiliser Scikit-learn pour des modèles classiques et Spark MLlib pour les modèles distribués.
* Préparer les données (normalisation, encodage, sélection) pour l’apprentissage.
* Créer, entraîner et évaluer des modèles prédictifs sur des données volumineuses.
1. Introduction au Big Data et à Python (6h)
* Assimiler les concepts clés et défis du Big Data (volume, variété, vélocité, véracité).
* Découvrir l’écosystème Big Data : Hadoop, Spark, NoSQL.
* Installer et configurer un environnement Python adapté au Big Data (Anaconda, Jupyter).
* Découvrir les principales bibliothèques Python pour le traitement des données volumineuses (NumPy, Pandas, Dask).
2. Manipulation et Préparation des Données avec Pandas (6h)
* Charger, explorer et comprendre des jeux de données volumineux.
* Nettoyer, filtrer, transformer et agréger les données efficacement.
* Utiliser Dask pour optimiser la manipulation de grands ensembles de données.
* Appliquer des techniques avancées de pivotement et remodelage des données.
3. Analyse des Données et Visualisation (6h)
* Réaliser des analyses statistiques descriptives et corrélatives.
* Créer des visualisations claires et dynamiques avec Matplotlib, Seaborn, Plotly et Dash.
* Présenter des résultats analytiques dans Jupyter Notebook.
* Explorer des volumes importants via des techniques avancées de visualisation.
4. Traitement Distribué des Données avec Apache Spark (6h)
* Comprendre l’architecture et les principes du traitement distribué avec Spark.
* Manipuler les RDDs, DataFrames et SQL via PySpark.
* Optimiser et tuner les traitements Spark pour de meilleures performances.
5. Machine Learning pour le Big Data avec Python (6h)
* Appréhender les bases du machine learning appliquées au Big Data.
* Utiliser Scikit-learn pour des modèles classiques et Spark MLlib pour les modèles distribués.
* Préparer les données (normalisation, encodage, sélection) pour l’apprentissage.
* Créer, entraîner et évaluer des modèles prédictifs sur des données volumineuses.
Programme
* Introduction au Big Data et à Python
* Durée : 6 heures
* Objectif : Comprendre les concepts fondamentaux du Big Data et se familiariser avec les outils et bibliothèques Python utilisés pour le Big Data.
* Détails :
* Concepts et défis du Big Data : volume, variété, vélocité, véracité.
* Introduction à l'écosystème Big Data : Hadoop, Spark, NoSQL.
* Présentation de Python et de son utilisation dans le Big Data.
* Installation et configuration de l'environnement Python pour le Big Data (Anaconda, Jupyter Notebook).
* Introduction aux bibliothèques Python pour le Big Data : NumPy, Pandas, Dask.
* Manipulation et Préparation des Données avec Pandas
* Durée : 6 heures
* Objectif : Apprendre à manipuler et préparer de grandes quantités de données avec Pandas.
* Détails :
* Chargement et exploration des données avec Pandas.
* Nettoyage et transformation des données : gestion des valeurs manquantes, filtrage, tri.
* Fusion et agrégation des jeux de données.
* Optimisation de la manipulation des données avec Dask pour les grands ensembles de données.
* Techniques avancées de manipulation des données : pivoting, reshaping.
* Analyse des Données et Visualisation
* Durée : 6 heures
* Objectif : Analyser les données et créer des visualisations pour interpréter les résultats.
* Détails :
* Analyse statistique des données : statistiques descriptives, corrélation, régression.
* Visualisation des données avec Matplotlib et Seaborn.
* Création de tableaux de bord interactifs avec Plotly et Dash.
* Utilisation de Jupyter Notebook pour la présentation des analyses.
* Exploration de grandes quantités de données avec des techniques de visualisation avancées.
* Traitement Distribué des Données avec Apache Spark
* Durée : 6 heures
* Objectif : Maîtriser le traitement distribué des données avec Apache Spark et l'interface PySpark.
* Détails :
* Introduction à Apache Spark et à l'architecture de traitement distribué.
* Utilisation de PySpark pour le traitement des données en mémoire.
* Transformation et actions sur les RDDs (Resilient Distributed Datasets).
* Traitement des DataFrames et SQL avec Spark.
* Optimisation et tuning des tâches Spark pour le Big Data.
* Machine Learning pour le Big Data avec Python
* Durée : 6 heures
* Objectif : Appliquer des techniques de machine learning pour analyser et prédire des tendances dans des ensembles de données volumineux.
* Détails :
* Introduction au machine learning et à son application dans le Big Data.
* Utilisation de Scikit-learn pour des modèles de machine learning de base.
* Intégration de Spark MLlib pour des modèles distribués.
* Préparation des données pour le machine learning : normalisation, encodage, sélection de caractéristiques.
* Création, entraînement et évaluation de modèles de machine learning sur des grands ensembles de données.
* Durée : 6 heures
* Objectif : Comprendre les concepts fondamentaux du Big Data et se familiariser avec les outils et bibliothèques Python utilisés pour le Big Data.
* Détails :
* Concepts et défis du Big Data : volume, variété, vélocité, véracité.
* Introduction à l'écosystème Big Data : Hadoop, Spark, NoSQL.
* Présentation de Python et de son utilisation dans le Big Data.
* Installation et configuration de l'environnement Python pour le Big Data (Anaconda, Jupyter Notebook).
* Introduction aux bibliothèques Python pour le Big Data : NumPy, Pandas, Dask.
* Manipulation et Préparation des Données avec Pandas
* Durée : 6 heures
* Objectif : Apprendre à manipuler et préparer de grandes quantités de données avec Pandas.
* Détails :
* Chargement et exploration des données avec Pandas.
* Nettoyage et transformation des données : gestion des valeurs manquantes, filtrage, tri.
* Fusion et agrégation des jeux de données.
* Optimisation de la manipulation des données avec Dask pour les grands ensembles de données.
* Techniques avancées de manipulation des données : pivoting, reshaping.
* Analyse des Données et Visualisation
* Durée : 6 heures
* Objectif : Analyser les données et créer des visualisations pour interpréter les résultats.
* Détails :
* Analyse statistique des données : statistiques descriptives, corrélation, régression.
* Visualisation des données avec Matplotlib et Seaborn.
* Création de tableaux de bord interactifs avec Plotly et Dash.
* Utilisation de Jupyter Notebook pour la présentation des analyses.
* Exploration de grandes quantités de données avec des techniques de visualisation avancées.
* Traitement Distribué des Données avec Apache Spark
* Durée : 6 heures
* Objectif : Maîtriser le traitement distribué des données avec Apache Spark et l'interface PySpark.
* Détails :
* Introduction à Apache Spark et à l'architecture de traitement distribué.
* Utilisation de PySpark pour le traitement des données en mémoire.
* Transformation et actions sur les RDDs (Resilient Distributed Datasets).
* Traitement des DataFrames et SQL avec Spark.
* Optimisation et tuning des tâches Spark pour le Big Data.
* Machine Learning pour le Big Data avec Python
* Durée : 6 heures
* Objectif : Appliquer des techniques de machine learning pour analyser et prédire des tendances dans des ensembles de données volumineux.
* Détails :
* Introduction au machine learning et à son application dans le Big Data.
* Utilisation de Scikit-learn pour des modèles de machine learning de base.
* Intégration de Spark MLlib pour des modèles distribués.
* Préparation des données pour le machine learning : normalisation, encodage, sélection de caractéristiques.
* Création, entraînement et évaluation de modèles de machine learning sur des grands ensembles de données.
Cette formation est temporairement suspendue.
Voici des formations similaires :

Administrateur Systèmes, Réseaux et Cloud
BREST, MARSEILLE, LILLE ET 10 AUTRE(S) LOCALITÉ(S)
Avis du centre
Témoignages
Ces formations peuvent vous intéresser
Les formations les plus recherchées
Lyon
Toulouse
Marseille
Montpellier
Paris
Bordeaux
Dijon
Mâcon
Nantes
Rennes
Informatique CPF
Informatique en Ligne
Big data
Big data CPF
Big data en Ligne
Directeur des systemes d information
Data scientist
Intelligence artificielle
Machine learning
Vba
Technicien informatique
Technicien support informatique
Growth hacking
Administrateur systeme
Consultant en informatique
Big data Paris
Data scientist Paris
Data mining Paris
Directeur des systemes d information Villiers-le-Bel
Directeur des systemes d information Paris
Data mining Évry-Courcouronnes
Data scientist Évry-Courcouronnes
Big data Évry-Courcouronnes
Big data Mantes-la-Ville
Data scientist Nanterre
Cette formation est temporairement suspendue.
Voir des formations similaires