▷ Offre de Formation DATA ENGINEER | Titre RNCP niveau 7 - Bac +5 | Co-certifiée école MINES Paris avec DATASCIENTEST

Public admis

Salarié en poste

Demandeur d'emploi

Entreprise

Etudiant

Prix

Nous contacter

Prise en charge CPF

Durée

400 heures

Niveau visé

Niveau BAC + 5

Pré-requis

Appétence maths & stats, algèbre linéaire, expérience pro OU tests évaluation ET entretien data Scientist (formation continue)

Certifications

Datadock Qualiopi

Le plus de la formation

Plateforme Saas,Format hybride,Learning by doing:

Localité

En ligne

Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.

Objectifs

Le Data Engineer ou Expert Big Data est le monsieur IT des équipes Data, il gère l'architecture de la donnée et mets en prod les modèles conçus par le data scientist.

En suivant ce cursus, vous aurez toutes les clefs pour y parvenir. Un programme exhaustif qui fera de vous un Data Engineer opérationnel à l'aise avec toutes les technos utilisées sur le marché y compris sur tous les outils cloud.

Informations pratiques:

- Parcours de formation Hybride mêlant sessions de coaching en visio conférence et autoformation sur notre plateforme full saas prete à coder.

- Nos professeurs sont également concepteur du programme pour garantir une cohérence et un suivi homogène tout au long du parcours.

- Des séances de coaching personnelle sont disponible chaque semaine pour les apprenants

- Chaque module est sanctionné un examen, corrigé à la main, pour validation

- Un projet fil-rouge, que vous allez devoir établir à partir de rien, représente environ 1/3 du temps alloué à votre formation: chaque semaine un point sera fait avec votre responsable de cohorte pour gérer l’avancement et la bonne compréhension des méthodes à mettre en pratique

Programme

Divisé en 7 blocs, le cursus deData Engineer, accessible en format intensif de 11 semaines ou continu de 9 mois, saura apporter toutes les connaissances et compétences nécessaires au métier sous-jacent.

1. Programmation

Bash
- Présentation des Systèmes Linux
- Prise en main et utilisation d’un terminal
- Mise en place de scripts Bash

Python & Python orientée objet
- Maitrise des variables et des types
- Présentation des divers opérateurs et de leurs applications
- Introduction au concept de boucles et aux structures de contrôle
- Définition d'une fonction sur Python et de leurs applications
- Initiation aux classes et modules
- Préparation de la mise en place, du paramétrage et de l'enchainement de Décorateurs
- Différenciation et implémentation du multithreading et du multiprocessing sur Python
- Application d'une fonction asynchrone sur Python
- Introduction aux annotations et utilisation de la bibliothèque MyPy

2. Base de données

SQL
- Introduction aux bases de données relationnelles
- Présentation de SQL Alchemy et applications
- Initiation aux bases du langage SQL
- Approndissement de SQL et de ses applications

MongoDB
- Introduction au base de données NoSQL (base de données orientée document, colonne, graphe)
- Présentation de MongoDB
- Familiarisation avec la syntaxe des requêtes MongoDB

Elasticsearch
- Description d'un moteur de recherche
- Présentation d'un index et mode d'emploi
- Mise au point d'un Mapping
- Découverte des différentes opérations
- Prétraitement des données avec Ingest Node
- Extraction des données avec les Text Analyzer

Neo4j
- Introduction aux bases de données orientées graphe
- Mise en place d'un premier graphe
- Initiation au langage de requête Cypher
- Chargement de données dans Neo4J
- Utilisation d'un client Python pour Neo4J

3. Data Science

Statistique
- Exploration des variables numériques
- Exploration des variables catégorielles
- Étude des relations entre les variables

Machine Learning
- Prétraitement de données
- Sélection et optimisation d'un algorithme de Machine Learning
- Définition et application d'un algorithme de régression
- Définition et application d'un algorithme de classification
- Développement d'algorithmes de clustering
- Introduction au PCA

DataViz avec Matplotlib
- Présentation des différents types de graphes
Graphiques en barres (Barplots)
Nuages de points (Scatter plots)
Histogrammes
Boîtes à Moustaches (Box Plots) et Camemberts (Pie Plots)

4. Big Data Volume

Handoop & Hive
- Fonctionnement de Hadoop
- Installation et configuration de Hadoop
- Traitement et stockage des données avec HDFS
- Présentation de MapReduce
- Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce
- Mise en place d'entrepôts de données
- Présentation du fonctionnement de Hive

Hbase
- Présentation des bases de données orientée colonne
- Association de Hadoop (HDFS) et de Hbase
- Requêtes de données
- Modification des données par Python et happybase

Spark
- Distinction entre Spark et Hadoop
- Introduction au calclul distribué avec Spark
- Présentation des APIs RDD et Dataframe de Spark
- Pipeline de processing de donnée distribuée avec pyspark
- Machine Learning distribué avec Spark MLLib

5. CI/CD

Git
- Introduction au système de gestion de version Git
- Initialisation d'un dépôt Git
- Présentation et approfondissement des concepts git :
Branches
Tag
Merge

Github
- Découverte de la plateforme Github pour le travail collaboratif sur Git
- Présentation des fonctionnalités majeures de GitHub :
Fork
Pull Request
Issues
- Partager ses modifications avec pull et push
- Participation à l'amélioration de projet public
- Présentation des principaux workflows git

Quality Assurance
- Mise en place de tests unitaires avec Pytest
- Introduction aux Tests d'intégration et leurs fonctions
- Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code

6. Big Data Vitesse

Architecture de streaming
- Gestion de flux de données en temps réel
- Conception d'une architecture Big Data hybride (batch et temps réel)
- Mise en place d'une architecture Lambda

Kafka
- Présentation de la plateforme de streaming distribuée Kafka
Architecture
Avantages
- Gestion des paramétrages de Producers
Clef de partitionnement
- Maitrise des paramétrages de Consumers
Consumer group

Spark Streaming
- Prise en main de Spark Streaming pour le traitement de données temps réel
- Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming

7. Automatisation et déploiement

APIs
- Introduction aux APIs et découverte des architectures micro services
- Présentation des différentses méthodes HTTP et de leurs fonctions
- Utilisation des librairies FastAPI et Flask pour développer des API RESTful
- Documentation d'une API avec la spécification OpenAPI
- Gestion des erreurs et des performances d'une API

Aiflow
- Découverte des concepts d'Airflow:
Présentation des principe de l'orchestration et utilité
Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
Opérateurs
- Gestion de tâches par le biais d'Operators spécifiques
- Monitoring des DAGs via l'interface graphique d'Airflow

Docker
- Présentation de la conteneurisation et de son utilité par rapport à la virtualisation
- Initiation au fonctionnement de Docker
- Manipulation des images et des conteneurs
- Communication avec les conteneurs
- Persistance des données grâce aux volumes
- Création d'une image Docker via un Dockerfile
- Partage des images sur le Dockerhub
- Utilisation de dockercompose

Kubernetes
- Déployer et gérer des conteneurs

+ Le projet fil-rouge

La formation en vidéo

Qu'est-ce qu'un Data Engineer ?

Découvrez notre cursus Data Engineer

Formation diplômante

inscrite au RNCP

Financement facilité

CPF, OPCA, etc.

Professeur dédié

5 jours sur 7

Avis

Ce qu'ils pensent de cette formation

Centre

À propos du centre DATASCIENTEST

Leader français de la formation en Data Science, DataScientest offre un apprentissage d’excellence orienté emploi pour professionnels et particuliers.

Notre dispositif joui de plusieurs avantages qui expliquent ce succès:

Un système d’apprentissage hybride innovant:

Notre formation repose sur un dispositif reposant à la fois sur une plateforme full Saas de E-Learning et un accompagnement personnalisé de cours et coaching en distanciel (depuis la crise sanitaire). Le rapport est d’environ 85% et 15%. Ceci permet d’allier la flexibilité et rigueur qui assure un taux de satisfaction de 94% et de complétion de 99%.

Deux options de rythme:

Une formation en format Bootcamp, intensive sur une base de 35h par semaine idéale pour les reconversion et une formation continue d’environ 5/7h par semaine qui permet de conjuguer formation et projets professionnels ou personnels.

Des professeurs-concepteurs maître de leurs disciplines:

Tous nos professeurs, issus des meilleures écoles d’ingénieur (Polytechnique, Centrale…), travaillent à temps plein pour DataScientest à la fois dans la conception de nouvelles formations, dans le coaching personnel des apprenants, la R&D… Nous ne ferons jamais appel à des prestataires externes pour une meilleure maîtrise des sujets abordés.

Ce dispositif explique qu’en l’espace de quatre ans, plus de 35 entreprises du CAC40 et de nombreux autres champions français et étrangers nous ont déjà fait confiance pour former quelque 1500 professionnels. Entre temps, et depuis le lancement de notre offre pour particuliers il y a un an, environ 2 cohortes sont lancées tous les mois.

Nous proposons trois formations aux data sciences aux prérequis plus ou moins exigeant: Data Analyst, Data Scientist, Data Engineer, toutes éligibles à une certification de l’Université Panthéon Sorbonne et de l'école MINES ParisTech.