Programme

Module 1: Outils de base en Mathématiques et Informatique

L’objectif de ce module est de remettre à niveau les étudiants en terme de compétences en mathématiques et informatique. Les aspects abordés sont l’algorithmique de base, la maitrise du langage Python et des bibliothèques de traitement de données (numpy, pandas, matplotlib, bokeh, …), ainsi que la gestion des entrées/sorties ainsi que l’analyse (intégration), l’algèbre linéaire (produit et inversion de matrices, valeurs propres et singulières), les probabilités et statistiques de base (espace probabilisé, échantillonnage, modèle statistique, inférence).

Organisation: L’enseignement est organisé sur 2 jours de Cours/TP.

Module 2: Machine Learning

Ce module dresse un panorama de l’apprentissage statistique aujourd’hui. Il aborde successivement les grandes problématiques du domaine et en présente les avancées majeures des dix dernières années avec un focus sur les modèles supervisé.

  • Cadre général de l’apprentissage supervisé
  • Classifieur bayésien naïf
  • Sur-apprentissage et validation croisée
  • Arbres : CART et random forests
  • Minimisation du risque empirique
  • Perceptron, Réseaux de neurones, Support Vector Machine,…
  • Approches régularisées
  • Traitement de données incertaines et incomplètes

Organisation:  L’enseignement est organisé sur 2 jours de Cours/TD/TP.

Module 3 : Deep Learning

Cet enseignement se focalise sur les modèles de réseaux de neurones profonds et les outils informatiques associés:

  • Algorithmes de descente de gradient, back-propagation et variantes
  • Réseaux de neurones convolutionnels et réseaux récurrents
  • Outils: Plateforme déclarative (TensorFlow) et algorithmique (PyTorch)

Organisation:  L’enseignement est organisé sur 2 jours de Cours/TP.

Module 4 : Algorithmique pour l’apprentissage

L’objectif dece module est d’étudier les algorithmiques classiques utilisés en apprentissage supervisé (autre que les réseaux de neurones) et en apprentissage non-supervisé.

  • Classification supervisée: régression logistique, SVM, boosting, classifieur bayésien naïf
  • Clustering: classification hiérarchique, k-means et ses variantes, modèles de mélange gaussiens, méthodes spectrales
  • Réduction de dimension et visualisation : décomposition en valeurs singulières, ACP et ses variantes, ACM, MDS, ISOMAP, t-SNE

Organisation:  L’enseignement est organisé sur 2 jours de Cours/TP.

Module 5 : Cloud Computing et Big Data

L’objectif de ce module est de former les étudiants aux outils autour de la gestion de données massives. C’est un enseignement orienté outils informatique et infrastructure qui recouvre les aspects:

  • Bases de données SQL et NoSQL
  • Hadoop, Spark, MapReduce
  • Cloud Computing et virtualisation
  • Pig, Hive et SPARQL

Organisation:  L’enseignement est organisé sur 2 jours de Cours/TP.

Module 6 : Environnement des données

Ce module vise à appréhender le contexte global dans lequel s’inscrivent les approches industrielles liées au Big Data. Il sensibilise les étudiants aux notions de réglementation et d’éthique, et insiste sur l’intégration des méthodologies de data science dans un environnement professionnel

  • Gouvernance, et éthique des données
  • Cyber-sécurité
  • Business Analytics
  • Communication, « data story telling »

Organisation:  L’enseignement est organisé sur 2 jours de Cours/TD.

Module 7: Applications (et déclinaisons par secteur d’activité)

L’objectif de ce module est d’aborder des applications particulières nécessitant la mise en oeuvre d’outils mathématiques et informatique particuliers. Ce module sera organisé sous forme de conférences, en fonction du profil des étudiants.

Les thèmes seront choisis parmi les applications suivantes:

  • Recommandation
  • Graphes et réseaux sociaux
  • Text Mining
  • Publicité
  • Intelligence Artificielle
  • Actuariat
  • Finance
  • Gestion des risques

Organisation: Une journée par application (selon public)

Module 8: Projet Data

L’objectif de l’UE est d’encadrer les étudiants autour de projets de traitement de données. Les sujets des projets et les données à traiter seront propoposés par les étudiants eux-mêmes. Un effort particulier sera porté sur la restitution (Data story telling) des résultats et des modèles proposés.

Organisation :  Suivi personnalisé, articulé autour de séances de regroupement en présence d’un ou plusieurs enseignants référents.