Python pour la data science
Stat4decision
Python pour la data science
Stat4decision
- Connaissances de base en traitement de données (statistique et
tables de données) - Pas de prérequis en python
En ligne
Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.
En présentiel
Découvrez les localités disponibles pour suivre cette formation en présentiel.
Datadock
Qualiopi
- Connaissances de base en traitement de données (statistique et
tables de données) - Pas de prérequis en python
Python est devenu incontournable dans le domaine de la Data Science, grâce à sa simplicité, sa puissance et ses bibliothèques spécialisées pour l’analyse et la visualisation de données. Cette formation vous permettra de prendre en main rapidement ce langage afin d’acquérir des compétences concrètes et directement applicables dans vos projets d'analyse et de traitement de données.
À l'issue de la formation, vous serez capable de :
- Maîtriser les fondamentaux du langage Python (syntaxe, structures de données, fonctions et modules).
- Importer, manipuler et analyser efficacement vos données avec Python.
- Automatiser vos tâches récurrentes de traitement et d'analyse de données grâce à des scripts Python.
- Identifier et utiliser les principales bibliothèques Python dédiées à la Data Science (pandas, NumPy, matplotlib, seaborn, scikit-learn, etc.).
Jour 1 - Python aujourd’hui : bases et bonnes pratiques
- Introduction au langage python
- Pour qui ? Pour quoi faire ? Comment ?
- Les consoles et le débogage en python
- Le langage (la syntaxe, les structures (string, listes, dictionnaires…), les opérateurs et les fonctions)
- Construction d’un outil de calcul de statistiques simples
- Les classes, les objets et la création de bibliothèques
- Python pour le traitement des données
- Le processus de développement d’un outil en python pour la data science
Jour 2 – Manipulation et préparation des données avec pandas
- Importation de données
- CSV, Excel
- Fichiers texte
- Bases de données (SQL – principes, exemples)
- Données issues du web (API, scraping léger)
- Manipulation de données avec pandas
- DataFrame : concepts fondamentaux
- Sélection, filtrage, tri
- Création et transformation de variables
- Jointures et concaténations
- Gestion des données manquantes
- Préparation des données pour l’analyse
- Nettoyage et contrôles de qualité
- Typage des variables
- Variables catégorielles
- Travail sur les dates et les données textuelles
- Agrégations (groupby, pivots)
- Automatisation des traitements
- Fonctions appliquées aux DataFrames
- Chaînage des transformations
- Atelier fil rouge : préparation complète d’un jeu de données
Jour 3 – Visualisation et analyse exploratoire
- Principes de la data visualisation
- Pourquoi visualiser ?
- Erreurs classiques
- Choisir le bon graphique pour la bonne question
- Visualisation avec matplotlib & seaborn
- Histogrammes, boxplots, scatter plots
- Comparaison de groupes
- Visualisations multivariées
- Personnalisation minimale mais lisible
- Analyse exploratoire (EDA)
- Lire une distribution
- Détecter des anomalies
- Comprendre des relations entre variables
- Interpréter sans sur-interpréter
- Visualisation interactive (ou dashboards légers)
- Introduction aux visualisations interactives
- Plotly
- Streamlit
- Atelier : exploration visuelle complète d’un jeu de données
- Introduction aux visualisations interactives
Jour 4 – Introduction au machine learning et mise en production
- Comprendre le machine learning (sans jargon inutile)
- Apprentissage supervisé / non supervisé
- Régression vs classification
- Sur-apprentissage, biais, variance
- Importance de la validation
- Préparation des données pour le ML
- Séparation train / test
- Standardisation et encodage
- Pipelines avec scikit-learn
- Cas pratiques de machine learning
- Régression (prévision, scoring)
- Classification simple
- Clustering (k-means, segmentation)
- Industrialisation et bonnes pratiques
- Pipelines complets (préparation + modèle)
- Sauvegarde et rechargement de modèles
- Automatisation de traitements
- Discussion sur le passage à la production
Formations courtes
accessibles à tous
7 participants
maximum par sessions
À propos du centre Stat4decision
Nous proposons des formations en petits groupes en inter-entreprises dans nos salles de formations à Paris. Mais aussi en salle de classe virtuelle ainsi qu'en blended learning grâce à des outils novateurs. Nous proposons aussi des formations sur mesures pour vos équipes dans vos locaux.
Envie d’en savoir plus sur cette formation ?
Documentez-vous sur la formation
DATA SCIENCE - Titre RNCP niveau 7 - Bac +5 | Co-certifiée école MINES Paris - PSL
Nous contacter
Data Scientist et IA - Formation certifiante à Distance
7890 €
DATA SCIENTIST - Spécialité IA Générative | Formation Certifiante | 4 mois
2500 €
Bachelor Product Owner Data (Intelligence Artificielle)
4990 €
Bootcamp Data Analyst - formation certifiante RNCP
4500 €
Formation Microsoft Fabric
2980 €