Admission
-
Profils requis
► Être titulaire d’un Master 1 d’économie avec des options d’économétrie, de statistique, d’économie quantitative, d’actuariat, d’un magistère d’économie, d’un master 1 de mathématiques ou d’un diplôme d’ingénieur.
► Avoir de bons résultats dans les matières importantes pour le cursus : économétrie, statistiques, analyse de données, apprentissage statistique, informatique.
-
Modalités d'inscriptions
► Dossier de candidature à déposer sur l’application ecandidat.univ-paris1.fr
► Pour les étudiants internationaux non européens, concernés par la procédure Centre pour Études en France (CEF), dossier de candidature à déposer sur campusfrance.org
Les candidats doivent choisir entre la formation initiale et la formation en alternance, mais l’admission est prononcée indépendamment de ce choix.
Les informations spécifiques à l’alternance sont disponibles sur p1ps.fr/M2_TIDE -
Les principaux débouchés
Les débouchés se trouvent en contrôle de gestion, marketing et études de marché, segmentation de clientèle, scoring, gestion de portefeuille, actuariat, bases de données, constructions de tableaux de bord et d’outils d’expertise.
Les métiers possibles sont :- Data Scientist,
- Data Analyst,
- Actuaire,
- Économiste-statisticien,
- Chargé d’études économiques,
- Analyste risque,
- Chargé d’études en marketing…
La formation en alternance
Iamque non umbratis fallaciis res agebatur, sed qua palatium est extra muros, armatis omne circumdedit. ingressusque obscuro iam die, ablatis regiis indumentis Caesarem tunica texit et paludamento communi, eum post haec nihil passurum velut mandato principis iurandi crebritate confirmans et statim inquit exsurge et inopinum carpento privato inpositum ad Histriam duxit prope oppidum Polam, ubi quondam peremptum Constantini filium accepimus Crispum.
-
Stages et ateliers
Les apprentis doivent présenter le travail effectué en entreprise à deux reprises. La première soutenance, à mi-parcours, remplace l’atelier ; la seconde, en fin d’année, remplace le stage.
► Atelier (pour les non apprentis)
► Stage (pour les non apprentis) d’au moins 4 mois
Programme
Télécharger le programme des cours du Master 2 TIDE (Pdf, 304Ko)
-
Semestre 1
-
Apprentissage statistique
Alain Celisse (SAMM, Université Paris 1), Python
1- General overview on statistical learning:- Linear model
- Least squares minimization
- Model selection (penalized criteria and Cross-validation)
2- Visualization:- Density estimation (histograms, kernel density estimators, k-Nearest Neighbors)
- Principal Components Analysis
3- Classification:- k-Nearest Neighbors classifier (binary classification)
- Logistic regression (two and more classes)
- Gaussian Mixture Models for classification (LDA/QDA)
4- Clustering task:- Gaussian Mixture Models (GMMs)
- Density estimation versus Clustering
- Parameters estimation and EM-algorithm
- Model selection criteria
5- Predictive Models:- LASSO, Group-LASSO, Adaptive LASSO
- Ridge/Tichonov regression
- Elastic Net
- Fused LASSO
6- Variable selection and ensemble methods:- All subset selection
- Forward stepwise strategy
- Classification and Regression Tree (CART)
-
Statistique en grande dimension
Alain Celisse (SAMM, Université Paris 1), Python
1- Linear model and High-dimension:
- The curse of dimension
- How sparsity can help...
- LASSO and LARS algorithm
- Prediction error
- Identification purpose
- The effect of the redundancy between variables
- Stability selection
2- Dimension reduction:- Estimating the covariance matrix
- Hard thresholding approach
- Singular Value Decomposition (SVD)
- Feature projection techniques:
- PCA and low-rank approximation,
- Non-negative Matrix Factorization (NMF)
- Optimization strategies (Multiplicative updates, Alternative Non-Negative Least Squares, IRWLS)
- Spectral clustering :
- Similarity measure
- Similarity graph
- Finding connected components
- Spectral gap
3- Support Vector Machines (SVMs):- Separating hyperplane and perceptron algortihm
- Maximizing the margin
- Support vectors
- The Hinge loss
- A glance at reproducing kernel through examples
- Translating linear classification into an SVM
4- An introduction to Boosting:- Boosting principle and weak learners
- Reformulation of the general Boosting algorithm and Adaboost (exponential loss)
- Towards Gradient Boosting
-
Économétrie des modèles linéaires
Fania Dimby (Ingénieure statisticienne sénior, AP-HP), SAS
Chapitre 1 : Rappels de quelques notions élémentaires
Comment mener une étude : un étape préalable qui consiste à tracer le périmètre de l’étude, sur qui porte l’étude ? que faut-il observer ? quand ? comment ? Combien?
Population, échantillon et estimation.
Rappels sur les tests statistiques.
Travaux pratiques sous SAS.
Chapitre 2 : Généralités sur le modèle linéaire.Introduction.
Le modèle linéaire: définition et hypothèses.
Estimation des paramètres dans le cas général.
Tests fondamentaux et intervalles de confiances.
Test d’une hypothèse linéaire.
Contrôles d’un modèle linéaire.
Panorama sur le modèle linéaire.Chapitre 3 : Problème spécifiques à la régression linéaire.
Introduction.
La régression linéaire simple.
La régression linéaire multiple.
Etude des colinéarités des variables.
Sélection de variables
Application sous SAS.Chapitre 4: Problèmes spécifiques à l’analyse de variance et de covariance.
L’analyse de variance à un facteur
Analyse de variance à deux facteurs croisés
Analyse de covariance
Application sous SAS.Chapitre 5 : Modèles pour données répétées.
Introduction
Analyses préliminaires
Modèles à un facteur à effet fixes pour données repétés
Les structures usuelles de covariances pour R
Cas particulier : la structure « compound symmetry »
Le test de sphéricité de MauchlyChapitre 6: Les extensions de l’ANOVA.
Modèles mixtes
Analyses de variance multivariées (MANOVA)
Anova à mesures répétées
Application sous SAS.Chapitre 7: Introduction aux statistiques non paramétriques.
Préambules
Comparaison des moyennes de deux échantillons indépendants : Test de Wilcoxon - Mann-Whitney (parfois appelé test U de Mann-Whitney).
Comparaison des moyennes de deux échantillons appariés : Test des rangs signés de Wilcoxon (signed rank test)
Comparaison de plusieurs moyennes (ANOVA non-paramétrique) : Test de Kruskal et Wallis .
Application sous SAS. -
Économétrie des séries temporelles
Ce cours présente les notions clés pour l’étude pratique de séries temporelles : l’estimation de la tendance et de la composante saisonnière, l’identification de processus ARMA ou GARCH, la prédiction. Plus en détail :
- Définitions, stationnarité et premières propriétés
- Estimations de la tendance et de la saisonnalité additives
- Etude théorique de processus stationnaires : ARMA et GARCH
- Estimation, sélection de modèles et tests d’adéquation de processus stationnaires
- Prédiction
-
Python : algorithmique et data science
Laurent Boyer (SAMM, Université Paris 1), Python
Ancien programme : 20 % du cours est constitué de séquences magistrales portant sur quelques algorithmes suffisamment simples pour être travaillés à la fois comme outils (depuis la librairie scikit-learn), mais également recodés par les étudiant.e.s : k-means, agglomerative clustering, SVM, Arbres de décision.
80 % du cours est constitué par un projet de Data appliquée en Python. Les étudiants sont invités à choisir un jeu de données et à mener une étude de bout en bout depuis le nettoyage des data jusqu'aux procédures de validation en passant par les analyses exploratoires. Le calendrier est découpé en sprints d’une ou deux semaines (selon les circonstances). A chaque réunion de sprint, les étudiants sont amenés à faire avec l'enseignant le bilan de leur activité du du sprint écoulé, résoudre les points de blocage, et définir le programme du sprint suivant. -
(Option) Stratégies individuelles, collectives et décisionnelles en entreprise
Thomas Planques (Sorbonne Université)
Les métiers auxquels forme le master TIDE sont tournés vers l'aide à la prise de décision. Le contexte de ces décisions est complexe et doit s'analyser à des échelles individuelles autant que systémiques. Pour exercer pleinement ces métiers, il est donc nécessaire d'acquérir un œil analytique sur les dynamiques auxquelles ils seront connectés, en particulier l'articulation des intérêts particuliers et collectifs de chaque partie prenante au sein du fonctionnement économique de l'entreprise et de son environnement.
Quelques sujets abordés :
- Introduction à une analyse sociologique et constructiviste
- Enjeux de l'inclusivité en entreprise
- La prise de décision dans le management
- Introduction à une lecture analytique des stratégies de communication
-
(Option) Anglais
L'enseignement est un enseignement d'anglais langue étrangère pour spécialistes d'autres disciplines (LANSAD) à visée professionnelle au niveau B2 et C1 du cadre européen.
In English, a content based and learning by doing approach.
Le cours : il s’articule autour de la pratique de l'expression orale en cours. Préparation, lecture ou recherche de documents sont faites en amont ou en aval.
Activités par groupe ou paires, discussions, conseils méthodologiques, rappels selon les besoins de points de grammaire.
Objectifs : savoir présenter, expliquer différents aspects et enjeux du domaine de spécialité, en discuter, argumenter ; savoir parler de soi et de thèmes liés à ce domaine de spécialité dans le cadre d’un entretien ou d’une situation professionnelle.
Un document de références est fourni en début de semestre pour aider au travail en autonomie pendant le semestre ou plus tard (liens vers des sites de révision, pratique de compréhension orale, glossaires, méthodologie, …). Des documents de travail sont proposés au court du semestre en rapport avec les contenus et activités pour préparer les cours à venir, s’entraîner ou approfondir.
Eléments de l’évaluation:
participation, travail en cours, qualité du travail dans le cadre d’un jeu de rôle par équipe ;
évaluation finale en décembre et/ou en janvier :
-courte activité orale sous forme d’enregistrement vidéo en décembre, en salle de cours.
-évaluation orale en tête à tête en ligne en décembre ou janvier, quelques créneaux possibles en présence
à l’université
Cours le jeudi 11h-13h, de fin septembre à début décembre - 3 ECTS
Now in English
This course is a content based course of English for specific purposes, here professional purposes, it focuses on oral skills. It is intended to help you with your needs in the workplace in particular in relation with your field of studies.
Class time is mostly dedicated to speaking skills with role plays and pair or group work while you do research, reading or listening tasks as homework at Level B2 and C1.Pour information: les niveaux du Cadre européen commun de référence pour les langues (CECR)
B2 - Niveau Avancé ou Indépendant
Mots clés : compréhension courante et capacité à converser ; émettre un avis, soutenir systématiquement une argumentation.
Peut comprendre le contenu essentiel de sujets concrets ou abstraits dans un texte complexe, y compris une discussion technique dans sa spécialité. Peut communiquer avec un degré de spontanéité et d'aisance tel qu'une conversation avec un locuteur natif ne comporte de tension ni pour l'un ni pour l'autre. Peut s'exprimer de façon claire et détaillée sur une grande gamme de sujets, émettre un avis sur un sujet d'actualité et exposer les avantages et inconvénients de différentes possibilités.
C1 - Niveau Autonome : pour un usage régulier dans des contextes de difficulté raisonnable
Mots clés : s'exprimer spontanément et couramment, assez bonne maîtrise.
Peut comprendre une grande gamme de textes longs et exigeants, ainsi que de saisir des significations implicites. Il peut s'exprimer spontanément et couramment sans trop apparemment devoir chercher ses mots. Peut utiliser la langue de façon efficace et souple dans sa vie sociale, professionnelle ou académique. Peut s'exprimer sur des sujets complexes de façon claire et bien structurée et manifester son contrôle des outils d'organisation, d'articulation et de cohésion du discours.
Référence: https://europa.eu/europass/fr/common-european-framework-reference-language-skills
-
(Option) Modélisation micro-économique
Benoît Rapoport (Université Paris 1), SAS ou R
Le cours de Modélisation micro-économique est essentiellement un cours méthodologique visant à apprendre à concevoir et à réaliser une étude microéconomique/microéconométrique.
Une attention particulière est portée au questionnement de fond et à la signification des résultats, les outils techniques n’étant ici que des instruments permettant de répondre à une problématique donnée.
Les étapes suivantes seront décrites en détail et appliquées à différentes problématiques toutes centrées sur l’Enquête Patrimoine 2009/2010 de l’Insee.- Discussion du contexte économique de l’étude ; énoncé de faits stylisés ; formulation d’hypothèses sur la base de la théorie économique
- Etude de la littérature pertinente
- Présentation des données
- Etude descriptive en s’appuyant sur les données
- Présentation de la méthode d’estimation
- Estimation des paramètres et tests
- Discussion et conclusion
Nous reviendrons rapidement, lorsque c’est nécessaire, sur les outils économétriques utilisés (économétrie linéaire, économétrie des variables qualitatives, modèles de durée) en insistant sur l’interprétation des résultats et des tests statistiques. Les applications sont essentiellement faites sous SAS et accessoirement sous Stata.
L’évaluation consistera à proposer et réaliser une étude de microéconomie appliquée, en petits groupes. Le choix du logiciel utilisé est libre (SAS, Stata ou R).
-
(Option) Étude de cas, applications en SAS
Marion Wilthien (Decision Network), SAS
Chap 1 : Rappel sur les procédures standards
Chap 2 : Procédures statistiques (PROC MEANS, PROC UNIVARIATE, PROC FREQ, PROC TABULATE)
Chap 3 : Reporting (PROC REPORT, Exports ODS Html-PDF-Excel-Word-PowerPointUn projet sur données réelles sera réalisé par les étudiants tout au long du semestre.
-
(Conférences) Ateliers
1. Introduction à Python pour la data science et à panda
- Ecosystème Python pour la Data Science
- Présentation de la méthodologie CRISP-DM
- Introduction à pandas
- Series et DataFrame
2. Parsing XML, Web scraping et API
- Parsing XML: lxml
- Web scraping : pandas, beautifulsoup
- API
3. Traitement des données
- Traitement des données dupliquées
- Renommage des colonnes
- Traitement des valeurs manquantes
- Remplacement de valeurs
- Conversion des types numériques et temporels
- Extraction d'informations
4. Manipulation de données avancées, analyses simples
- Méthodes de reshaping (1)
- Combiner les données
- Stratégie split-apply-combine
- Index hiérarchiques
- Méthodes de reshaping (2)
5. Séries temporelles et visualisation
- Séries temporelles
- Graphiques avec pandas
- Graphiques avec matplotlib
- Graphiques avec seaborn
-
Apprentissage statistique
-
Semestre 2
-
Apprentissage statistique avancé
Alain Celisse (SAMM, Université Paris 1), Python
1- Dimension reduction is back...:- A new look at PCA (unsupervised approach)
- Extracting meaning components in a supervised context
- Partial Least squares (PLS)
- Canonical Correlation Analysis (CCA)
2- Beyond quantitative data:- Introducing qualitative data (categorical, ordinal,...)
- Correpondance Analysis (CA)
- Multiple Correpondance Analysis (MCA)
- Factor Analysis of Mixed Data (FAMD)
3- Clustering from dissimilarity measures:- Similarity and dissimilarity with examples
- Classical transformations
- How to design a similarity measure?
- K-Means, K-medoids, and Kernelized K-means
- Hierarchical clustering and Spectral clustering
4- Change-point detection:- Introduction with examples
- Interpretation as a clustering problem
- Single change-point detection in the mean
- Connection with the two-sample test and limitations
- Multiple change-points detection
- The dynamic programming algorithm
- The Binary segmentation algorithm
- Fusion LASSO
-
Deep Learning
Joseph Rynkiewicz (SAMM, Université Paris 1), Python
Le deep learning est une technique de machine learning qui a commencé à s'imposer dans la reconnaissance d'images.
Etat de l'art en :- Reconnaissance/segmentation/génération d'images.
- Traitement automatisé du langage naturel (classification de phrase, résumé, chatbot etc..)
On étudiera les trois grandes familles de réseaux utilisés actuellement :
- Les réseaux convolutifs.
- Les réseaux récurrents.
- Les transformers.
On étudiera les propriétés théoriques des techniques de sélection de modèles (inégalités oracles du hold-out).
Les applications pratiques de ce cours se feront en Tensorflow et Pytorch. -
Économétrie non linéaire
Joseph Rynkiewicz (SAMM, Université Paris 1), R
Ce cours est consacré aux modèles linéaires généralisés et à leurs généralisations. Une grande partie de ce cours traite des modèles catégoriels, où les variables à expliquer sont qualitatives plutôt que quantitatives. Certaines extensions seront aussi étudiées telles que les modèles paramétriques non-linéaires et les modèles de durées. La connaissance de logiciels de statistique sera demandée car le contrôle des connaissances s'articulera autour d'exercices et aussi de projets sur des données réelles.
Plan du cours :
Modèles logistiques :- Données binaires
- Modèles logit probit et autres.
Modèles polytomiques :- Données nominales
- Données ordinales
- Modèles hiérarchiques
Modèles log-linéaires :- Dépendance et indépendance conditionnelle.
- Modèles à deux et trois facteurs
- Modèles graphiques
Réseaux Bayésiens- Variable de confusion
- Factorisation markovienne
- Critère de la porte arrière
Modèles de durées :- Définition et exemples
- Modèles à hasard proportionnel
- Modèles à durée accélérée
Bibliographie :
* A. AGRESTI, An Introduction to Categorical Data Analysis. John Wiley & Sons, Inc., New York, 1996.
* X. GUYON, Statistique et économétrie - Du modèle linéaire aux modèles non-linéaire, Ellipse, 2001
* P. McCULLAGH, J.A. NELDER, Generalized Linear Models, Chapman & Hall, 2nd ed., 1989
* S. LAURITZEN, Graphical Models. The Clarendon Press, Oxford University Press, New York, 1996. -
Statistique des valeurs extrêmes
Shuyan Liu (SAMM, Université Paris 1), R
- Outils graphiques : QQ plots et Excess plots
- Lois à queues lourdes et lois des valeurs extrêmes : TCL généralisé, convergence du maximum, simulation par la transformée inverse
- Estimateur de Hill : construction, propriétés, réduction du biais
- Etude des cas : vitesses maximales journalières du vent, intervention du réassureur pour le traité excess-of-loss
Référence : Statistics of Extremes : Theory and Applications, Jan Beirlant, Johan Segers, Yuri Goegebeur, Jef L. Teugels
Lien des supports de cours : https://cours.univ-paris1.fr/course/view.php?id=21625
-
(Option) Méthodes géométriques en apprentissage statistique
Alice Le Brigant (SAMM, Université Paris 1), Python
Résumé : Méthodes géométriques pour l’analyse de données
Ce cours porte sur la réduction de dimension et l’analyse multivariée. L’objectif est de réduire le nombre de variables présentes dans les données, nombre qui est précisément ce qu’on appelle dimension. Pour ce faire, on cherche des dépendances entre les variables (analyse multivariée) et on en déduit de nouvelles variables, moins nombreuses, qui conservent certaines propriétés géométriques des variables initiales.
Nous partirons de l’ACP, qui s’applique à des variables quantitatives que l’on suppose reliées par des relations de dépendance linéaire, pour explorer ensuite des méthodes
qui s’appliquent à des variables qualitatives, qui tiennent compte de variables cibles ou qui s’attaquent à détecter des relations non linéaires. Enfin, nous terminerons par
une initiation à l’analyse de données non linéaires par des méthodes géométriques : quand la dépendance non linéaire entre les variables ne doit pas être apprise, mais est
connue à l’avance. On verra dans ce cadre comment traiter des données sphériques ou certaines données matricielles, pour la reconnaissance d’image notamment. Le
cours sera illustré par des TP en Python.
Plan du cours :- Motivation : les données en grande dimension
- ACP : réduction de dimension et analyse multivariée
- Analyse multivariée en présence de variables qualitatives (AFC, ACM, AFDM)
- Réduction de dimension en présence de variables cibles (ACC, PLS)
- Réduction de dimension non linéaire : manifold learning (MDS, Isomap, LLE)
- Analyse de données non linéaires
Bibliographie :
- Wang, Geometric Structure of High-dimensional Data and Dimensionality Reduction, 2012.
- Pennec, Sommer, Fletcher, Riemannian Geometric Statistics in Medical Image Analysis, 2019.
-
(Option) Big data : Methodes, outils et technologies
William Kengne (Université de Cergy)
Nous vivons aujourd'hui dans un monde inonde des données. D'après une étude d'IBM (2016), plus de 2.5 quintillions (i.e. 2.5*1030) de bytes de données sont générées chaque jour dans le monde et 90 % des données disponibles dans le monde (a l'époque) auraient été créées au cours des deux dernières années. Malheureusement, beaucoup de ces informations (données) ne peuvent être utilisées par les humains ; soit parce que les méthodes d'exploitation vont au-delà des procédures standard, ou parce que les outils et technologies disponibles sont inappropriés. La quête permanente des solutions pour la gestion, l'exploitation, le traitement, de ces données volumineuses, hétérogènes et provenant de
sources très variées a permis le développement d'une nouvelle discipline, la data science ("nouveau" métier : data scientist) dont le Big Data est une spécialité. Il s'agit dans ce cours d'étudier l'écosystème, les stratégies, les outils et les technologies du Big Data.
Plan du cours :
- Chapitre 1 : Ecosystème du Big Data : Web 2.0 et 3.0, Les acteurs du Big Data, Les services de traitement du Big Data, les utilisateurs des solutions Big Data.
- Chapitre 2 : Outils et technologies du Big Data : Système de gestion et traitements distribués, Hadoop, Paradigme MapReduce, Les algorithmes machine learning.
- Chapitre 3 : Web scraping : Expressions régulières, BeautifulSoup, Google search, utilisation API.
- Chapitre 4 : Apache Spark : Conguration , PySpark, MapReduce, MLlib.
- Chapitre 5 : Initiation a Google Cloud Platform : Cloud Computing, Compute Engine, comptes de facturation, Configurer et démarrer une instance de VM, Machine learning sur Google Cloud.
References :
[1] Bill, C. and Matei, Z. Spark : The denitive guide : Big data processing made simple. O'Reilly Media, Inc., (2018). [
2] Dasgupta, Nataraj Practical Big Data Analytics : Hands-on techniques to implement enterprise analytics and machine learning using Hadoop, Spark, NoSQL and R. Packt Publishing, (2018).
[3] Erl, T., Khattak, W. and Buhler, P. Big Data Fundamentals : Concepts, Drivers & Techniques. Prentice Hall Press, (2016).
[4] Folly, K. A. et Thourot, P. Big data : Opportunité ou menace pour l'assurance ? Revue Banque, (2016).
[5] Geewax, John J. Google Cloud Platform in Action. Simon and Schuster, (2018).
[6] Holden, K., Andy, K., Patrick, W. and Matei, Z. Learning spark : lightning-fast big data analysis. O'Reilly Media, Inc., (2015).
[7] Lakshmanan, V. Data Science on the Google Cloud Platform. O'Reilly Media, Inc., (2022).
[8] Mohanty, H., Bhuyan, P. and Chenthati, D. Big Data : A Primer. Springer, (2015).
[9] Tandon, A., Ryza, S., Laserson, U., Owen, S., and Wills, J. Advanced Analytics with PySpark : Patterns for Learning from Data at Scale Using Python and Spark. O'Reilly, (2022).
[10] Wes, M. Python for data analysis. O'Reilly, (2012). -
(Option) Méthodes d’apprentissage statistique non linéaire
Fabien Navarro (SAMM, Université Paris 1), R & Python
Prerequisites: familiarity with linear algebra; a working knowledge of R or Python programming; familiarity with multiple linear regression.
Aim of the course: Upon completing this course, students should be able to: select the appropriate methods; implement these statistical methods; compare leading procedures based on statistical arguments; assess the prediction performance of a learning algorithm; apply these key insights into class activities using statistical software.
Syllabus: Starting from classical notions of shrinkage and sparsity, this course will cover regularization methods that are crucial to high-dimensional statistical learning. The syllabus includes feature selection and model selection, nonlinear techniques for regression and for classification. The course will focus on methodological and algorithmic aspects, while trying to give an idea of the underlying theoretical foundations. Practical sessions will give the opportunity to apply the methods on real data sets using either R or Python. The course will alternate between lectures and practical lab sessions.
Main Subjects covered:
- Subset Selection
- Shrinkage Methods
- Basis Expansions and Regularization
- Generalized Additive Models
References:
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer. (Free download).
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (Vol. 6). New York: springer. (Free download). -
(Option) Scoring
Yves Péchiné (Chief data officer Crédit Agricole), Pierre Bioche (Datascientist Micropole), Alexis Dubois (Datascientist Micropole), Guillaume Léorat (TelcoInsurance), Python
Ce cours a pour objectif d'apprendre à construire un score sous Python. Réalisé par 4 intervenants dans la data depuis de nombreuses années, il se veut appliqué à des exemples concrets. A l'issue de ce cours, vous serez capables de créer un score à l'aide des Librairies Python suivant la méthodologie SEMMA (Sampling, Explore, Modify, Modeling, Assessment)
Cours 1 : Les grandes étapes de la construction d'un modèle de scoring appliquées à la lutte contre la fraude ainsi que les pièges à éviter
Cours 2&3&4 : À partir d'un jeu de données "réel", vous apprendrez à utiliser les fonctions de modélisation de Python tout en étant guidé par l'enseignant
Cours 5 : Réalisation d'un nouveau modèle sur un autre jeu de données à partir des apprentissages précédents pour consolider vos acquis
Cours 6 : Ouverture d'horizon sur les applications de la datascience et l'organisation de la data au sein des entreprises
L'évaluation du cours sera réalisée au travers d'un projet à mener par groupe de 2 ou 3 étudiants. Sur un jeu de données fourni par les enseignants, vous aurez à dérouler toutes les phases de construction d'un score. Un bonus pour le groupe qui aura le score le plus performant sur l'aire en dessous de la courbe de ROC !
-
(Option) Optimisation combinatoire et continue pour l’analyse des données et l’apprentissage
Sonia Vanier (Université Paris 1 et LiX)
Objectifs du cours :
- Connaître les concepts fondamentaux et les conditions d'optimalité en optimisation linéaire et en optimisation non-linéaire.
- Comprendre et savoir interpréter le comportement des algorithmes d'optimisation.
- Développer un modèle puis une méthode d'optimisation pour la résolution d'un problème d’optimisation avec contraintes.
- Appliquer des approches d’optimisation pour améliorer les performances des techniques d’apprentissage : - Plus proches voisins - Arbres de décision - Random Forest - Réseaux de neurones - Méthodes à noyau – Clustering – Support Vector Machine - Minimisation du risque empirique.
Contenu du cours :
I. Initiation à la recherche opérationnelle : Modélisation de problèmes de décision en entreprise, modélisation de problèmes classiques en apprentissage sous forme de programmes mathématiques ou de graphes.
1) Programmation linéaire :
- Algorithme du simplexe
- Dualité
- Méthodes de génération de colonnes
- Méthode de génération de contraintes
2)Théorie des graphes :
- Arbres et Chemins
- Partitionnement
- Flot et multiflot
3) Applications aux méthodes d’apprentissage : clustering, arbres de décision, SVM, risque empirique, réseaux de neurones.
II. Optimisation déterministe : Convexité, différentiabilité, théorèmes d’existence d’un minimum.
- Méthodes de Newton
- Méthode de descente par gradient
- Application à la résolution de systèmes linéaires
- Gradient conjugué
III) Optimisation sous contraintes :
- Méthodes de descente et de pénalisation
- Multiplicateurs de Lagrange, point-selle et dualité
- Conditions KKT
- Analyse de convergence
- Interprétation économique
4. Optimisation stochastique :
- Recherche aléatoire par méthodes de Monte-Carlo
- Méthode de gradient stochastique
- Recuit simulé
-
Enseignement supplémentaire) Préparation à la certifications SAS Base
Marion Wilthien (Decision Network), SAS
Préparation au passage de la certification Programmation SAS Base. + Présentation des autres certifications accessibles en e-learning :
- Programmation avancée (il faut déjà avoir la base)
- Statistique (descriptive, ANOVA et Régression, avec SAS/STAT)
- Machine Learning en pipeline (flux de processus) avec SAS Viya Data Viz avec SAS Visual Analytics, sur SAS Viya.
-
Apprentissage statistique avancé
Centre Pierre Mendès France
31, rue Baudricourt 75013 ParisMaster 2 TIDE
Bureau B15.05