DATA ENGINEER - certifié école MINES Paris

DATASCIENTEST

• Voir les avis

Finançable CPF

Salarié en poste / Demandeur d'emploi / Entreprise

En ligne

Présentiel

Voir des formations similaires

Public admis

Salarié en poste

Demandeur d'emploi

Entreprise

Etudiant

Prix

5690 €

Prise en charge CPF

Durée

400 heures

Niveau visé

Niveau BAC + 5

Pré-requis

Diplôme ou titre RNCP de niveau bac +3 en mathématiques ET compréhension du langage SQL ET compréhension des systèmes Linux OU diplôme de niveau Bac +5 dans un domaine scientifique ET compréhension du langage SQL ET compréhension des systèmes Linux.

Certifications

Datadock Qualiopi

Localité

En ligne

Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.

En présentiel

Découvrez les localités disponibles pour suivre cette formation en présentiel.

Objectifs

Le Data Engineer ou Expert Big Data est le monsieur IT des équipes Data, il gère l'architecture de la donnée et mets en prod les modèles conçus par le data scientist.

En suivant ce cursus, vous aurez toutes les clefs pour y parvenir. Un programme exhaustif qui fera de vous un Data Engineer opérationnel à l'aise avec toutes les technos utilisées sur le marché y compris sur tous les outils cloud.

Informations pratiques:

- Parcours de formation Hybride mêlant sessions de coaching en visio conférence et autoformation sur notre plateforme full saas prete à coder.

- Nos professeurs sont également concepteur du programme pour garantir une cohérence et un suivi homogène tout au long du parcours.

- Des séances de coaching personnelle sont disponible chaque semaine pour les apprenants

- Chaque module est sanctionné un examen, corrigé à la main, pour validation

- Un projet fil-rouge, que vous allez devoir établir à partir de rien, représente environ 1/3 du temps alloué à votre formation: chaque semaine un point sera fait avec votre responsable de cohorte pour gérer l’avancement et la bonne compréhension des méthodes à mettre en pratique

Programme

Divisé en 7 blocs, le cursus deData Engineer, accessible en format intensif de 11 semaines ou continu de 9 mois, saura apporter toutes les connaissances et compétences nécessaires au métier sous-jacent.

1. Programmation

Bash
- Présentation des Systèmes Linux
- Prise en main et utilisation d’un terminal
- Mise en place de scripts Bash

Python & Python orientée objet
- Maitrise des variables et des types
- Présentation des divers opérateurs et de leurs applications
- Introduction au concept de boucles et aux structures de contrôle
- Définition d'une fonction sur Python et de leurs applications
- Initiation aux classes et modules
- Préparation de la mise en place, du paramétrage et de l'enchainement de Décorateurs
- Différenciation et implémentation du multithreading et du multiprocessing sur Python
- Application d'une fonction asynchrone sur Python
- Introduction aux annotations et utilisation de la bibliothèque MyPy

2. Base de données

SQL
- Introduction aux bases de données relationnelles
- Présentation de SQL Alchemy et applications
- Initiation aux bases du langage SQL
- Approndissement de SQL et de ses applications

MongoDB
- Introduction au base de données NoSQL (base de données orientée document, colonne, graphe)
- Présentation de MongoDB
- Familiarisation avec la syntaxe des requêtes MongoDB

Elasticsearch
- Description d'un moteur de recherche
- Présentation d'un index et mode d'emploi
- Mise au point d'un Mapping
- Découverte des différentes opérations
- Prétraitement des données avec Ingest Node
- Extraction des données avec les Text Analyzer

Neo4j
- Introduction aux bases de données orientées graphe
- Mise en place d'un premier graphe
- Initiation au langage de requête Cypher
- Chargement de données dans Neo4J
- Utilisation d'un client Python pour Neo4J

3. Data Science

Statistique
- Exploration des variables numériques
- Exploration des variables catégorielles
- Étude des relations entre les variables

Machine Learning
- Prétraitement de données
- Sélection et optimisation d'un algorithme de Machine Learning
- Définition et application d'un algorithme de régression
- Définition et application d'un algorithme de classification
- Développement d'algorithmes de clustering
- Introduction au PCA

DataViz avec Matplotlib
- Présentation des différents types de graphes
Graphiques en barres (Barplots)
Nuages de points (Scatter plots)
Histogrammes
Boîtes à Moustaches (Box Plots) et Camemberts (Pie Plots)

4. Big Data Volume

Handoop & Hive
- Fonctionnement de Hadoop
- Installation et configuration de Hadoop
- Traitement et stockage des données avec HDFS
- Présentation de MapReduce
- Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce
- Mise en place d'entrepôts de données
- Présentation du fonctionnement de Hive

Hbase
- Présentation des bases de données orientée colonne
- Association de Hadoop (HDFS) et de Hbase
- Requêtes de données
- Modification des données par Python et happybase

Spark
- Distinction entre Spark et Hadoop
- Introduction au calclul distribué avec Spark
- Présentation des APIs RDD et Dataframe de Spark
- Pipeline de processing de donnée distribuée avec pyspark
- Machine Learning distribué avec Spark MLLib

5. CI/CD

Git
- Introduction au système de gestion de version Git
- Initialisation d'un dépôt Git
- Présentation et approfondissement des concepts git :
Branches
Tag
Merge

Github
- Découverte de la plateforme Github pour le travail collaboratif sur Git
- Présentation des fonctionnalités majeures de GitHub :
Fork
Pull Request
Issues
- Partager ses modifications avec pull et push
- Participation à l'amélioration de projet public
- Présentation des principaux workflows git

Quality Assurance
- Mise en place de tests unitaires avec Pytest
- Introduction aux Tests d'intégration et leurs fonctions
- Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code

6. Big Data Vitesse

Architecture de streaming
- Gestion de flux de données en temps réel
- Conception d'une architecture Big Data hybride (batch et temps réel)
- Mise en place d'une architecture Lambda

Kafka
- Présentation de la plateforme de streaming distribuée Kafka
Architecture
Avantages
- Gestion des paramétrages de Producers
Clef de partitionnement
- Maitrise des paramétrages de Consumers
Consumer group

Spark Streaming
- Prise en main de Spark Streaming pour le traitement de données temps réel
- Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming

7. Automatisation et déploiement

APIs
- Introduction aux APIs et découverte des architectures micro services
- Présentation des différentses méthodes HTTP et de leurs fonctions
- Utilisation des librairies FastAPI et Flask pour développer des API RESTful
- Documentation d'une API avec la spécification OpenAPI
- Gestion des erreurs et des performances d'une API

Aiflow
- Découverte des concepts d'Airflow:
Présentation des principe de l'orchestration et utilité
Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
Opérateurs
- Gestion de tâches par le biais d'Operators spécifiques
- Monitoring des DAGs via l'interface graphique d'Airflow

Docker
- Présentation de la conteneurisation et de son utilité par rapport à la virtualisation
- Initiation au fonctionnement de Docker
- Manipulation des images et des conteneurs
- Communication avec les conteneurs
- Persistance des données grâce aux volumes
- Création d'une image Docker via un Dockerfile
- Partage des images sur le Dockerhub
- Utilisation de dockercompose

Kubernetes
- Déployer et gérer des conteneurs