Cette formation pratique est une initiation au machine learning avec Python en utilisant la bibliothèque Scikit-learn (sklearn). Elle s’adresse aux débutants souhaitant comprendre et appliquer les bases du machine learning à des cas concrets. À travers des exemples simples, des explications claires et de nombreux exercices pratiques, les participants apprendront à créer des modèles prédictifs, à les évaluer et à interpréter les résultats.
Objectifs pédagogiques
Acquérir les bases pratiques du machine learning en Python à l’aide de la bibliothèque Scikit-learn, pour être capable de construire, entraîner, évaluer et interpréter des modèles prédictifs simples.
Programme
Module 1 : Introduction au Machine Learning
🌐 Description : Comprendre les fondamentaux du ML
Contenu :
Définition du Machine Learning
Types d’apprentissage : supervisé, non supervisé, par renforcement (brève introduction)
Place de Scikit-learn dans l’écosystème Python
Module 2 : Prise en main de Scikit-learn
🔧 Objectif : Apprendre à utiliser les API de base
Contenu :
Structure d’un projet ML
Les datasets intégrés dans sklearn
Chargement et exploration de données
Module 3 : Préparation des données
🧹 Objectif : Nettoyer et transformer les données pour l'entraînement
Contenu :
Séparation training / test
Encodage des variables catégorielles
Standardisation et normalisation
Gestion des valeurs manquantes
Module 4 : Modèles de classification
🎯 Objectif : Appliquer des algorithmes supervisés de classification
Contenu :
K-Nearest Neighbors (KNN)
Arbres de décision
Régression logistique
Mesures de performance : accuracy, precision, recall, F1-score, matrice de confusion
Module 5 : Modèles de régression
📈 Objectif : Apprendre à prédire des valeurs continues
Contenu :
Régression linéaire simple et multiple
Évaluation : MSE, RMSE, R²
Validation croisée
Module 6 : Modèles non supervisés (bonus)
🧠 Objectif : Découvrir l’analyse non supervisée
Contenu :
K-Means
Réduction de dimension (PCA)
Visualisation des clusters
Module 7 : Pipeline et optimisation de modèles
🛠 Objectif : Automatiser et améliorer le workflow ML
Contenu :
Pipelines avec Pipeline()
Recherche d’hyperparamètres avec GridSearchCV et RandomizedSearchCV
Sauvegarde et déploiement de modèles
Module 8 : Mini-projet de fin de formation
📊 Objectif : Appliquer toutes les compétences sur un projet complet
Exemples :
Prédiction de la survie sur le Titanic
Classification de chiffres manuscrits (MNIST)
Prédiction de prix de maisons (dataset Boston ou autre)
Publics
Développeurs ou data analysts souhaitant s’initier au machine learning
Étudiants ou autodidactes en informatique, data science ou statistiques
Toute personne ayant des bases en Python et souhaitant appliquer le machine learning à des projets concrets
Pré-requis
Connaissances de base en Python (variables, boucles, fonctions)
Notions de base en mathématiques (statistiques, algèbre linéaire simple)
Connaissance élémentaire de Pandas et Numpy est un plus
Méthodes pédagogiques
Formation axée sur la pratique : 70% exercices / 30% théorie
Cas concrets et datasets réels (Iris, Titanic, etc.)
Notebook interactif (Jupyter)
Approche "learning by doing" : chaque concept est suivi d’une implémentation
Cette formation pratique est une initiation au machine learning avec Python en utilisant la bibliothèque Scikit-learn (sklearn). Elle s’adresse aux débutants souhaitant comprendre et appliquer les bases du machine learning à des cas concrets. À travers des exemples simples, des explications claires et de nombreux exercices pratiques, les participants apprendront à créer des modèles prédictifs, à les évaluer et à interpréter les résultats.
Acquérir les bases pratiques du machine learning en Python à l’aide de la bibliothèque Scikit-learn, pour être capable de construire, entraîner, évaluer et interpréter des modèles prédictifs simples.
Module 1 : Introduction au Machine Learning
🌐 Description : Comprendre les fondamentaux du ML
Contenu :
Définition du Machine Learning
Types d’apprentissage : supervisé, non supervisé, par renforcement (brève introduction)
Place de Scikit-learn dans l’écosystème Python
Module 2 : Prise en main de Scikit-learn
🔧 Objectif : Apprendre à utiliser les API de base
Contenu :
Structure d’un projet ML
Les datasets intégrés dans sklearn
Chargement et exploration de données
Module 3 : Préparation des données
🧹 Objectif : Nettoyer et transformer les données pour l'entraînement
Contenu :
Séparation training / test
Encodage des variables catégorielles
Standardisation et normalisation
Gestion des valeurs manquantes
Module 4 : Modèles de classification
🎯 Objectif : Appliquer des algorithmes supervisés de classification
Contenu :
K-Nearest Neighbors (KNN)
Arbres de décision
Régression logistique
Mesures de performance : accuracy, precision, recall, F1-score, matrice de confusion
Module 5 : Modèles de régression
📈 Objectif : Apprendre à prédire des valeurs continues
Contenu :
Régression linéaire simple et multiple
Évaluation : MSE, RMSE, R²
Validation croisée
Module 6 : Modèles non supervisés (bonus)
🧠 Objectif : Découvrir l’analyse non supervisée
Contenu :
K-Means
Réduction de dimension (PCA)
Visualisation des clusters
Module 7 : Pipeline et optimisation de modèles
🛠 Objectif : Automatiser et améliorer le workflow ML
Contenu :
Pipelines avec
Pipeline()
Recherche d’hyperparamètres avec
GridSearchCV
etRandomizedSearchCV
Sauvegarde et déploiement de modèles
Module 8 : Mini-projet de fin de formation
📊 Objectif : Appliquer toutes les compétences sur un projet complet
Exemples :
Prédiction de la survie sur le Titanic
Classification de chiffres manuscrits (MNIST)
Prédiction de prix de maisons (dataset Boston ou autre)
Développeurs ou data analysts souhaitant s’initier au machine learning
Étudiants ou autodidactes en informatique, data science ou statistiques
Toute personne ayant des bases en Python et souhaitant appliquer le machine learning à des projets concrets
Connaissances de base en Python (variables, boucles, fonctions)
Notions de base en mathématiques (statistiques, algèbre linéaire simple)
Connaissance élémentaire de Pandas et Numpy est un plus
Formation axée sur la pratique : 70% exercices / 30% théorie
Cas concrets et datasets réels (Iris, Titanic, etc.)
Notebook interactif (Jupyter)
Approche "learning by doing" : chaque concept est suivi d’une implémentation
Évaluation continue par mini-projets