Objectifs pédagogiques :
Ce module forme aux bases de la science des données à travers le langage Python et ses bibliothèques spécialisées. Il met l’accent sur la collecte, la préparation, l’exploration et la visualisation des données, ainsi que sur l’application de méthodes statistiques simples (corrélations, régressions). L’étudiant apprend à transformer des données brutes en informations exploitables et à communiquer ses résultats de manière claire et argumentée.

Contenus principaux :

  • Introduction : pourquoi Python pour la data science ; aperçu des bibliothèques majeures (NumPy, pandas, matplotlib, scikit-learn).

  • Récolte et préparation des données : entrées/sorties, fichiers (CSV, JSON), APIs, nettoyage et transformation des données.

  • Structures de données pandas : Series, DataFrame, indexation, filtrage, opérations.

  • Analyse descriptive : statistiques de base, agrégations, corrélations.

  • Régressions simples : linéaire et polynomiale, validation de modèles (LOOCV).

  • Visualisation : représentations graphiques (courbes, histogrammes, scatter plots), personnalisation et interprétation.