
DATA ENGINEER | Titre RNCP niveau 7 - Bac +5 | Co-certifiée école MINES Paris
Le Data Engineer ou Expert Big Data est le monsieur IT des équipes Data, il gère l'architecture de la donnée et mets en prod les modèles conçus par le data scientist.
En suivant ce cursus, vous aurez toutes les clefs pour y parvenir. Un programme exhaustif qui fera de vous un Data Engineer opérationnel à l'aise avec toutes les technos utilisées sur le marché y compris sur tous les outils cloud.
Informations pratiques:
- Parcours de formation Hybride mêlant sessions de coaching en visio conférence et autoformation sur notre plateforme full saas prete à coder.
- Nos professeurs sont également concepteur du programme pour garantir une cohérence et un suivi homogène tout au long du parcours.
- Des séances de coaching personnelle sont disponible chaque semaine pour les apprenants
- Chaque module est sanctionné un examen, corrigé à la main, pour validation
- Un projet fil-rouge, que vous allez devoir établir à partir de rien, représente environ 1/3 du temps alloué à votre formation: chaque semaine un point sera fait avec votre responsable de cohorte pour gérer l’avancement et la bonne compréhension des méthodes à mettre en pratique
Divisé en 7 blocs, le cursus deData Engineer, accessible en format intensif de 11 semaines ou continu de 9 mois, saura apporter toutes les connaissances et compétences nécessaires au métier sous-jacent.
1. Programmation
Bash
- Présentation des Systèmes Linux
- Prise en main et utilisation d’un terminal
- Mise en place de scripts Bash
Python & Python orientée objet
- Maitrise des variables et des types
- Présentation des divers opérateurs et de leurs applications
- Introduction au concept de boucles et aux structures de contrôle
- Définition d'une fonction sur Python et de leurs applications
- Initiation aux classes et modules
- Préparation de la mise en place, du paramétrage et de l'enchainement de Décorateurs
- Différenciation et implémentation du multithreading et du multiprocessing sur Python
- Application d'une fonction asynchrone sur Python
- Introduction aux annotations et utilisation de la bibliothèque MyPy
2. Base de données
SQL
- Introduction aux bases de données relationnelles
- Présentation de SQL Alchemy et applications
- Initiation aux bases du langage SQL
- Approndissement de SQL et de ses applications
MongoDB
- Introduction au base de données NoSQL (base de données orientée document, colonne, graphe)
- Présentation de MongoDB
- Familiarisation avec la syntaxe des requêtes MongoDB
Elasticsearch
- Description d'un moteur de recherche
- Présentation d'un index et mode d'emploi
- Mise au point d'un Mapping
- Découverte des différentes opérations
- Prétraitement des données avec Ingest Node
- Extraction des données avec les Text Analyzer
Neo4j
- Introduction aux bases de données orientées graphe
- Mise en place d'un premier graphe
- Initiation au langage de requête Cypher
- Chargement de données dans Neo4J
- Utilisation d'un client Python pour Neo4J
3. Data Science
Statistique
- Exploration des variables numériques
- Exploration des variables catégorielles
- Étude des relations entre les variables
Machine Learning
- Prétraitement de données
- Sélection et optimisation d'un algorithme de Machine Learning
- Définition et application d'un algorithme de régression
- Définition et application d'un algorithme de classification
- Développement d'algorithmes de clustering
- Introduction au PCA
DataViz avec Matplotlib
- Présentation des différents types de graphes
Graphiques en barres (Barplots)
Nuages de points (Scatter plots)
Histogrammes
Boîtes à Moustaches (Box Plots) et Camemberts (Pie Plots)
4. Big Data Volume
Handoop & Hive
- Fonctionnement de Hadoop
- Installation et configuration de Hadoop
- Traitement et stockage des données avec HDFS
- Présentation de MapReduce
- Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce
- Mise en place d'entrepôts de données
- Présentation du fonctionnement de Hive
Hbase
- Présentation des bases de données orientée colonne
- Association de Hadoop (HDFS) et de Hbase
- Requêtes de données
- Modification des données par Python et happybase
Spark
- Distinction entre Spark et Hadoop
- Introduction au calclul distribué avec Spark
- Présentation des APIs RDD et Dataframe de Spark
- Pipeline de processing de donnée distribuée avec pyspark
- Machine Learning distribué avec Spark MLLib
5. CI/CD
Git
- Introduction au système de gestion de version Git
- Initialisation d'un dépôt Git
- Présentation et approfondissement des concepts git :
Branches
Tag
Merge
Github
- Découverte de la plateforme Github pour le travail collaboratif sur Git
- Présentation des fonctionnalités majeures de GitHub :
Fork
Pull Request
Issues
- Partager ses modifications avec pull et push
- Participation à l'amélioration de projet public
- Présentation des principaux workflows git
Quality Assurance
- Mise en place de tests unitaires avec Pytest
- Introduction aux Tests d'intégration et leurs fonctions
- Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code
6. Big Data Vitesse
Architecture de streaming
- Gestion de flux de données en temps réel
- Conception d'une architecture Big Data hybride (batch et temps réel)
- Mise en place d'une architecture Lambda
Kafka
- Présentation de la plateforme de streaming distribuée Kafka
Architecture
Avantages
- Gestion des paramétrages de Producers
Clef de partitionnement
- Maitrise des paramétrages de Consumers
Consumer group
Spark Streaming
- Prise en main de Spark Streaming pour le traitement de données temps réel
- Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming
7. Automatisation et déploiement
APIs
- Introduction aux APIs et découverte des architectures micro services
- Présentation des différentses méthodes HTTP et de leurs fonctions
- Utilisation des librairies FastAPI et Flask pour développer des API RESTful
- Documentation d'une API avec la spécification OpenAPI
- Gestion des erreurs et des performances d'une API
Aiflow
- Découverte des concepts d'Airflow:
Présentation des principe de l'orchestration et utilité
Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
Opérateurs
- Gestion de tâches par le biais d'Operators spécifiques
- Monitoring des DAGs via l'interface graphique d'Airflow
Docker
- Présentation de la conteneurisation et de son utilité par rapport à la virtualisation
- Initiation au fonctionnement de Docker
- Manipulation des images et des conteneurs
- Communication avec les conteneurs
- Persistance des données grâce aux volumes
- Création d'une image Docker via un Dockerfile
- Partage des images sur le Dockerhub
- Utilisation de dockercompose
Kubernetes
- Déployer et gérer des conteneurs
+ Le projet fil-rouge
Formation diplômante
inscrite au RNCP
Financement facilité
CPF, OPCA, etc.
Professeur dédié
5 jours sur 7
Financement
Des solutions de financement pour vous aider
À propos du centre DATASCIENTEST
Leader français de la formation en Data Science, DataScientest offre un apprentissage d’excellence orienté emploi pour professionnels et particuliers.
Notre dispositif joui de plusieurs avantages qui expliquent ce succès:
Un système d’apprentissage hybride innovant:
Notre formation repose sur un dispositif reposant à la fois sur une plateforme full Saas de E-Learning et un accompagnement personnalisé de cours et coaching en distanciel (depuis la crise sanitaire). Le rapport est d’environ 85% et 15%. Ceci permet d’allier la flexibilité et rigueur qui assure un taux de satisfaction de 94% et de complétion de 99%.
Deux options de rythme:
Une formation en format Bootcamp, intensive sur une base de 35h par semaine idéale pour les reconversion et une formation continue d’environ 5/7h par semaine qui permet de conjuguer formation et projets professionnels ou personnels.Des professeurs-concepteurs maître de leurs disciplines:
Tous nos professeurs, issus des meilleures écoles d’ingénieur (Polytechnique, Centrale…), travaillent à temps plein pour DataScientest à la fois dans la conception de nouvelles formations, dans le coaching personnel des apprenants, la R&D… Nous ne ferons jamais appel à des prestataires externes pour une meilleure maîtrise des sujets abordés.
Ce dispositif explique qu’en l’espace de quatre ans, plus de 35 entreprises du CAC40 et de nombreux autres champions français et étrangers nous ont déjà fait confiance pour former quelque 1500 professionnels. Entre temps, et depuis le lancement de notre offre pour particuliers il y a un an, environ 2 cohortes sont lancées tous les mois.
Nous proposons trois formations aux data sciences aux prérequis plus ou moins exigeant: Data Analyst, Data Scientist, Data Engineer, toutes éligibles à une certification de l’Université Panthéon Sorbonne et de l'école MINES ParisTech.
Parce que c'est vous qui en parlez le mieux
Envie d’en savoir plus sur cette formation ?
Documentez-vous sur la formation


