Professional Documents
Culture Documents
Classification supervisée
Introduction
Renaud Lopes
ci2c.fr
Resume
• Renaud Lopes, PhD – HDR
• Ph.D in 2009
• Post-doc fellow at Montreal Neurological InsBtute, McGill University
• HDR in 2018
• Research ScienBst at Lille University Hospital
• Director of In-vivo Imaging & FuncBons core facility (ci2c.fr)
• Member of :
• Inserm UMR-S-1172 Lille Neuroscience and Cogni;on, “Degenera;ve and
vascular cogni;ve disorders”, Lille University
• Univ Lille, UMS 2014 – US 41 – PLBS – Plateformes Lilloises en Biologie & Santé
Research activities Associated with many neurological and
Cognitive psychiatric diseases
impairment Physiopathology poorly explained
Challenges:
1- Define pathophysiological markers
2- Define diagnostic markers
3- Define markers for therapeutic evaluation
MRI
PET
Multimodal Image post- AutomaBc segmentaBon
imaging processing RegistraBon / Fusion
Clinical + Preclinical Data analysis Brain connecBvity
EEG ArBficial intelligence ...
3
Research activities Associated with many neurological and
Cognitive psychiatric diseases
impairment Physiopathology poorly explained
Challenges:
1- Define pathophysiological markers
2- Define diagnosBc markers
3- Define markers for therapeuBc evaluaBon
PET
Multimodal Image post- AutomaBc segmentaBon
imaging processing RegistraBon / Fusion
Clinical + Preclinical Data analysis Brain connecBvity
EEG ArBficial intelligence ...
4
Organisa3on du module
Intervenants
► 14h CM : R. Lopes
► 20h TP : R. Lopes
Chapitres
► Présentation générale
► Analyse discriminante
► Evaluation d’une règle de classement
► Régression logistique
► Machine learning
► Deep learning
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
1 Panorama
5 MANOVA
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Data mining
Historique
Historique
1 Panorama
5 MANOVA
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Notations
Variables
Y ∈ {1, 2, . . . , K } : variable qualitative à expliquer (souvent
binaire : K = 2)
X = (X1 , X2 , ..., Xp ) : p variables quantitatives explicatives
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Notations
Variables
Y ∈ {1, 2, . . . , K } : variable qualitative à expliquer (souvent
binaire : K = 2)
X = (X1 , X2 , ..., Xp ) : p variables quantitatives explicatives
Extension possible
dans le cas où X comporte des variables qualitatives.
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Notations
Variables
Y ∈ {1, 2, . . . , K } : variable qualitative à expliquer (souvent
binaire : K = 2)
X = (X1 , X2 , ..., Xp ) : p variables quantitatives explicatives
Extension possible
dans le cas où X comporte des variables qualitatives.
Données d’apprentissage
Illustration
Objectif :
Pour un nouvel individu pour lequel on n’a observé que x, prédire
la valeur de y associée avec la plus faible erreur possible.
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Méthodologie générale
Objectif :
Apprendre une règle de classement r qui à tout x ∈ Rp associe un
ŷ ∈ {1, 2, . . . , K } :
r : x ∈ Rp 7→ ŷ = r (x) ∈ {1, 2, . . . , K }
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Exemples de méthodes
Analyse factorielle discriminante
Analyse discriminante (linéaire et quadratique)
Régression logistique
k-plus proches voisins
Arbre de régression
...
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
1 Panorama
5 MANOVA
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Choisir un sujet
Définir la population cible : tous les clients, seulement les
clients fidèles, tous les malades, seulement les malades
curables par le traitement testé, ...
Définir l’entité statistique étudiée : la personne, le foyer réduit
aux conjoints, le foyer étendu aux enfants à charge,
l’entreprise avec ou sans les filiales, ...
Définir le phénomène à prédire
Planifier le projet
Prévoir l’utilisation opérationnelle des informations extraites et
des modèles produits
Spécifier les résultats attendus
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Segmentation de la population
1 Panorama
5 MANOVA
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Objectifs
détecter d’éventuelles anomalies dans la distribution (en
particulier valeurs extrêmes ou manquantes)
se mettre quelques ordres de grandeur en tête (âge, revenu
moyen de la population, ...), utiles dans la suite des analyses
voir comment discrétiser les variables continues le cas échéant
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Objectifs
détecter d’éventuelles anomalies dans la distribution (en
particulier valeurs extrêmes ou manquantes)
se mettre quelques ordres de grandeur en tête (âge, revenu
moyen de la population, ...), utiles dans la suite des analyses
voir comment discrétiser les variables continues le cas échéant
Variables qualitatives
fréquences de chaque modalité
Variables quantitatives
boı̂tes à moustaches
quantiles : 1%, 10%, 25%, 50%, 75%, 90% et 99%
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Objectif
détecter des incohérences entre variables
études des liaisons entre la variable cible et les variables
explicatives : suppression des variables sans influence
suppression des variables explicatives redondantes
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Objectif
détecter des incohérences entre variables
études des liaisons entre la variable cible et les variables
explicatives : suppression des variables sans influence
suppression des variables explicatives redondantes
400
Frequency
Frequency
200
200
0
0
−3 −1 1 3 −3 −1 1 3
x observé, y observé
2 ●
●
x observé, y manquant
x manquant, y● observé
●
●
1
●
●
●
0
y
●●
●
●
●
●●
●●
●●
−1
●
●
−2
−2 −1 0 1 2 3
x
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Pour tester ces liaisons on effectue les tests entre la variable cible
et chacune des variables explicatives :
Si la variable explicative est discrète ou discrétisée on s’appuie
sur le χ2
Si la variable explicative est continue on s’appuie sur l’ANOVA
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
χ2
V = ,
χ2max
avec χ2max la valeur maximale du χ2 atteignable sur le tableau de I
et J colonnes considéré.
χ2
V = ,
χ2max
avec χ2max la valeur maximale du χ2 atteignable sur le tableau de I
et J colonnes considéré.
V2 \ V1 X Y TOTAL
A 50 0 50
B 0 25 25
C 0 25 25
TOTAL 50 50 100
Rappel :
X (Oij − Tij )2 X Oij2
k= = −n
Tij Tij
i,j i,j
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
V3 \ V1 X Y TOTAL
A 30 20 50 V4 \ V1 X Y TOTAL
B 30 20 50 A+B 60 40 100
C 10 15 25 C+D 20 30 50
D 10 15 25 TOTAL 80 70 150
TOTAL 80 70 150
Rappel ANOVA :
X ni
K X ni
K X
X ni
K X
X
(xhi − x̄)2 = (xhi − x¯i )2 + (x¯i − x̄)2
i=1 h=1 i=1 h=1 i=1 h=1
| {z } | {z } | {z }
SCT SCR SCF
SCF
K −1 SCF
F = SCR
R2 =
n−K
SCT
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
1 Panorama
5 MANOVA
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
H0 :µ1 = µ2 = · · · = µK = µ
H1 :∃i 6= j tel que µi 6= µj
Conditions d’application :
1 X = (X1 , . . . , Xp ) est distribué selon une loi gaussienne dans chaque
groupe Y = i :
X /Y = i ∼ N (µi , Σi )
2 Homogénéité des matrices de variances-covariances :
Σ1 = Σ2 = · · · = ΣK
V
|{z} = B
|{z} + W
|{z}
variance totale variance inter-groupes variance intra-groupes
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Estimation : données
Estimation : données
X1 ··· Xj ··· Xp Y
..
. 1
.. ..
. .
..
. 1
..
1 . i
.. .. ..
. . .
h ··· ··· Xijh i
.. ..
. .
..
. K
.. ..
. .
..
. K
X matrice n × p, Y vecteur n × 1.
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Estimation : espérances
ni
1 X
X̄ij = Xijh
ni
h=1
est un estimateur de µij et donc
X̄i = (X̄i1 , . . . , X̄ij , . . . , X̄ip )
est un estimateur de µi .
Moyennes regroupées dans un tableau K × p, noté G
X1 ··· Xj ··· Xp
Y =1 X̄11 X̄1j X̄1p
.. .. .. ..
. . . .
Y =i X̄i1 X̄ij X̄ip
.. .. .. ..
. . . .
Y =K X̄K 1 X̄Kj X̄Kp
Panorama Principe général en classification supervisée Déroulement d’une étude Exploration et préparation MANOVA
Estimation : espérances
K
X ni
X̄ = X̄i
n
i=1
µ = E (X1 , . . . , Xp ).
Estimation : variances