
Data Engineer
NetFormationFrance
Non finançable CPF
Tout public
En ligne
Voir des formations similaires
Public admis
Salarié en poste
Demandeur d'emploi
Entreprise
Etudiant
Prix
6000 €
Durée
250 à distance
Niveau visé
Non diplômante
Taux de réussite
100%
Pré-requis
Connaissances de base en programmation (idéalement Python).
Notions fondamentales des bases de données relationnelles et SQL.
Compréhension des concepts de data analysis ou data science (souhaitée).
Connaissances de base en systèmes d'exploitation (Windows, Linux).
Notions fondamentales des bases de données relationnelles et SQL.
Compréhension des concepts de data analysis ou data science (souhaitée).
Connaissances de base en systèmes d'exploitation (Windows, Linux).
Localité
En ligne
Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.
Objectifs
Formation complète et structurée : Un parcours progressif couvrant les fondamentaux jusqu'aux techniques avancées d'ingénierie des données.
Double compétence Python/Scala : Maîtrise des langages essentiels pour le traitement des données, y compris le Big Data avec Spark.
Approche multibase de données : Expertise en bases de données SQL, NoSQL et solutions cloud (AWS, Azure, GCP).
Gestion des pipelines de données : Création, optimisation et monitoring des flux ETL à grande échelle.
Projets pratiques et études de cas : Application concrète des compétences avec des projets réels, favorisant une intégration rapide en entreprise.
Double compétence Python/Scala : Maîtrise des langages essentiels pour le traitement des données, y compris le Big Data avec Spark.
Approche multibase de données : Expertise en bases de données SQL, NoSQL et solutions cloud (AWS, Azure, GCP).
Gestion des pipelines de données : Création, optimisation et monitoring des flux ETL à grande échelle.
Projets pratiques et études de cas : Application concrète des compétences avec des projets réels, favorisant une intégration rapide en entreprise.
Programme
1. Introduction à l'Ingénierie des Données
* Durée : 10 heures
* Objectif : Comprendre les concepts fondamentaux de l'ingénierie des données, son rôle et son importance dans la gestion des données.
* Détails :
* Définition du rôle de data engineer.
* Aperçu des technologies et outils utilisés.
* Cycle de vie de la gestion des données.
2. Programmation en Python et Scala pour l'Ingénierie des Données
* Durée : 30 heures
* Objectif : Maîtriser les bases de la programmation en Python et Scala pour les tâches de traitement des données.
* Détails :
* Syntaxe de base de Python et Scala.
* Utilisation de bibliothèques Python pour la manipulation des données (pandas, NumPy).
* Introduction à Scala et Spark pour le traitement distribué des données.
3. SQL et Bases de Données Relationnelles
* Durée : 20 heures
* Objectif : Utiliser SQL pour interagir avec les bases de données relationnelles.
* Détails :
* Syntaxe SQL de base : SELECT, INSERT, UPDATE, DELETE.
* Conception et normalisation de bases de données.
* Optimisation des requêtes SQL pour de meilleures performances.
4. NoSQL et Bases de Données Non-Relationnelles
* Durée : 20 heures
* Objectif : Comprendre et utiliser les bases de données NoSQL pour stocker et interroger des données non structurées.
* Détails :
* Introduction aux bases de données NoSQL (MongoDB, Cassandra).
* Comparaison entre bases de données relationnelles et non relationnelles.
* Modélisation des données et requêtes dans NoSQL.
5. ETL (Extract, Transform, Load) et Pipeline de Données
* Durée : 30 heures
* Objectif : Construire et gérer des pipelines de données pour l'extraction, la transformation et le chargement des données.
* Détails :
* Concepts de base des processus ETL.
* Utilisation d'outils ETL comme Apache Nifi, Talend, ou Airflow.
* Meilleures pratiques pour le design et la gestion des pipelines de données.
6. Big Data et Traitement Distribué
* Durée : 30 heures
* Objectif : Apprendre à travailler avec de grands ensembles de données à l'aide de technologies de traitement distribué.
* Détails :
* Concepts de base du Big Data.
* Introduction à Hadoop et écosystème (HDFS, MapReduce).
* Utilisation de Apache Spark pour le traitement de données à grande échelle.
7. Cloud Computing pour l'Ingénierie des Données
* Durée : 30 heures
* Objectif : Utiliser les services cloud pour le stockage, le traitement et l'analyse des données.
* Détails :
* Introduction aux principaux fournisseurs de cloud (AWS, Azure, GCP).
* Services cloud spécifiques aux données : Amazon S3, Google BigQuery, Azure Data Lake.
* Déploiement et gestion des pipelines de données dans le cloud.
8. Sécurité des Données et Conformité
* Durée : 20 heures
* Objectif : Assurer la sécurité et la conformité des données dans les systèmes de gestion des données.
* Détails :
* Principes de sécurité des données.
* Mise en œuvre des contrôles d'accès et de chiffrement.
* Conformité aux réglementations (GDPR, CCPA).
9. Monitoring et Optimisation des Pipelines de Données
* Durée : 20 heures
* Objectif : Surveiller et optimiser les performances des pipelines de données.
* Détails :
* Techniques de monitoring et outils (Prometheus, Grafana).
* Analyse et optimisation des performances.
* Détection et résolution des goulets d'étranglement.
10. Projets Pratiques et Études de Cas
* Durée : 40 heures
* Objectif : Appliquer les compétences acquises à des projets réels et des études de cas.
* Détails :
* Travail sur des jeux de données réels pour construire des pipelines de données complets.
* Présentation des résultats et des recommandations.
* Collaboration en équipe pour simuler un environnement de travail réel.
* Durée : 10 heures
* Objectif : Comprendre les concepts fondamentaux de l'ingénierie des données, son rôle et son importance dans la gestion des données.
* Détails :
* Définition du rôle de data engineer.
* Aperçu des technologies et outils utilisés.
* Cycle de vie de la gestion des données.
2. Programmation en Python et Scala pour l'Ingénierie des Données
* Durée : 30 heures
* Objectif : Maîtriser les bases de la programmation en Python et Scala pour les tâches de traitement des données.
* Détails :
* Syntaxe de base de Python et Scala.
* Utilisation de bibliothèques Python pour la manipulation des données (pandas, NumPy).
* Introduction à Scala et Spark pour le traitement distribué des données.
3. SQL et Bases de Données Relationnelles
* Durée : 20 heures
* Objectif : Utiliser SQL pour interagir avec les bases de données relationnelles.
* Détails :
* Syntaxe SQL de base : SELECT, INSERT, UPDATE, DELETE.
* Conception et normalisation de bases de données.
* Optimisation des requêtes SQL pour de meilleures performances.
4. NoSQL et Bases de Données Non-Relationnelles
* Durée : 20 heures
* Objectif : Comprendre et utiliser les bases de données NoSQL pour stocker et interroger des données non structurées.
* Détails :
* Introduction aux bases de données NoSQL (MongoDB, Cassandra).
* Comparaison entre bases de données relationnelles et non relationnelles.
* Modélisation des données et requêtes dans NoSQL.
5. ETL (Extract, Transform, Load) et Pipeline de Données
* Durée : 30 heures
* Objectif : Construire et gérer des pipelines de données pour l'extraction, la transformation et le chargement des données.
* Détails :
* Concepts de base des processus ETL.
* Utilisation d'outils ETL comme Apache Nifi, Talend, ou Airflow.
* Meilleures pratiques pour le design et la gestion des pipelines de données.
6. Big Data et Traitement Distribué
* Durée : 30 heures
* Objectif : Apprendre à travailler avec de grands ensembles de données à l'aide de technologies de traitement distribué.
* Détails :
* Concepts de base du Big Data.
* Introduction à Hadoop et écosystème (HDFS, MapReduce).
* Utilisation de Apache Spark pour le traitement de données à grande échelle.
7. Cloud Computing pour l'Ingénierie des Données
* Durée : 30 heures
* Objectif : Utiliser les services cloud pour le stockage, le traitement et l'analyse des données.
* Détails :
* Introduction aux principaux fournisseurs de cloud (AWS, Azure, GCP).
* Services cloud spécifiques aux données : Amazon S3, Google BigQuery, Azure Data Lake.
* Déploiement et gestion des pipelines de données dans le cloud.
8. Sécurité des Données et Conformité
* Durée : 20 heures
* Objectif : Assurer la sécurité et la conformité des données dans les systèmes de gestion des données.
* Détails :
* Principes de sécurité des données.
* Mise en œuvre des contrôles d'accès et de chiffrement.
* Conformité aux réglementations (GDPR, CCPA).
9. Monitoring et Optimisation des Pipelines de Données
* Durée : 20 heures
* Objectif : Surveiller et optimiser les performances des pipelines de données.
* Détails :
* Techniques de monitoring et outils (Prometheus, Grafana).
* Analyse et optimisation des performances.
* Détection et résolution des goulets d'étranglement.
10. Projets Pratiques et Études de Cas
* Durée : 40 heures
* Objectif : Appliquer les compétences acquises à des projets réels et des études de cas.
* Détails :
* Travail sur des jeux de données réels pour construire des pipelines de données complets.
* Présentation des résultats et des recommandations.
* Collaboration en équipe pour simuler un environnement de travail réel.
Cette formation est temporairement suspendue.
Voici des formations similaires :
Ces formations peuvent vous intéresser

Formation au métier de Data Analyst (Power BI, SQL, certification...
LILLE, GRENOBLE, MARSEILLE ET 11 AUTRE(S) LOCALITÉ(S)
Offre spéciale
Avis du centre
Cette formation est temporairement suspendue.
Voir des formations similaires