Pratique Regression Logistique

Ricco Rakotomalala
Pratique de la Rgression Logistique

Rgression Logistique Binaire et Polytomique
Version 2.0
Universit Lumire Lyon 2

Page: 1 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
Page: 2
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Avant-propos
Ce fascicule est ddi la Rgression Logistique. Il s'agit d'une technique de modlisation qui, dans sa version la plus rpandue, vise prdire et expliquer les valeurs d'une variable catgorielle binaire Y (variable prdire, variable explique, variable dpendante, attribut classe, variable endogne) partir d'une collection de variables X continues ou binaires (variables prdictives, variables explicatives, variables indpendantes, descripteurs, variables exognes). Elle fait partie des mthodes d'apprentissage supervis [13] ; elle peut s'inscrire dans le cadre de la rgression linaire gnralise [7] (Chapitre 5, pages 83-97) ; elle peut tre vue comme une variante de la rgression linaire multiple, bien connue en conomtrie [6] (Chapitre IV, pages 67-77). Pendant longtemps, trouver de la documentation en franais sur la Pratique de la Rgression Logistique a t un problme. Les seuls ouvrages disponibles tudiaient le sujet sous l'angle de
des variables qualitatives, excellents par ailleurs, mais avec un prisme plutt thorique, assez loign des
proccupations du praticien qui souhaite mettre en oeuvre l'outil dans le cadre du scoring ou du data mining sans entrer dans les arcanes des proprits des estimateurs, biais, convergence, etc. Les questions que tout un chacun se pose face ce type de mthode sont assez simples et demandent des rponses tout aussi simples : De quoi s'agit-il ? A quel type de problme rpond la technique ? Comment peut-on la mettre en oeuvre ? Quelles en sont les conditions d'utilisation ? Comment lire et interprter les rsultats ? Comment les valider ? Fort heureusement, dans la priode rcente, la situation a radicalement chang. Des chapitres entiers sont consacrs aux aspects pratiques de la rgression logistique dans de nombreux ouvrages en franais que nous citons en bibliographie. Certains le font de manire approfondie en dtaillant les formules. D'autres se concentrent sur la mise en oeuvre et les interprtations. En tous les cas, le lecteur exclusivement francophone a de quoi lire. La situation est en revanche moins reluisante concernant la documentation accessible librement sur internet. Certes, nous pouvons glaner ici ou l quelques "slides" sur des serveurs. Mais, d'une part, il ne s'agit que de supports trs peu formaliss et, d'autre part, leur dure de vie est souvent trs faible. Je fais certes systmatiquement des copies locales en ce qui me concerne, mais il est hors de question bien entendu de les diuser moi mme. Leurs auteurs ne les ont pas retirs par hasard. Ce fascicule est une version formalise et complte de mes "slides" accessibles sur mon site de cours (http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, "Rgression LogisPage: 3 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
l'conomtrie
Avant-propos
tique" [14] et "Rgression Logistique Polytomique" [15]). Nous faisons la part belle la rgression logistique binaire dans les 2 premires parties. Nous largirons notre propos la rgression logistique polytomique (Y peut prendre plus 2 modalits, elles sont ventuellement ordonnes) dans les autres. Enn, nous nous focalisons avant tout sur la mise en oeuvre de la rgression logistique. Les formules sont dtailles uniquement lorsqu'elles permettent de mieux comprendre les mcanismes sous-jacents, de mieux apprhender la teneur des rsultats et, par l, de mieux les interprter. Comme notre habitude, une des particularits de cet ouvrage est que nous reproduisons autant que possible les calculs dans un tableur. Nous mettons en relation directe les formules, qui sont parfois assez abstraites, et les tapes numriques qui permettent d'aboutir aux rsultats . Au besoin nous croiserons les rsultats avec les sorties des logiciels spcialiss. Nous utiliserons prioritairement les outils libres, TANAGRA (http://
eric.univ-lyon2.fr/~ricco/tanagra) et R (http://www.r-project.org), pour que le lecteur puisse reproduire les exemples illustratifs. Tous les chiers de donnes et de calculs utiliss pour l'laboration de cet ouvrage sont accessibles en ligne (voir Annexe B, page 247).
Un document ne vient jamais du nant. Comme il n'y a pas 10.000 manires de prsenter la rgression logistique, toute ressemblance avec des rfrences existantes n'est pas fortuite. Elle est compltement assume. Le plus important dans ce cas est de veiller les citer . Rendons donc Csar ce qui lui appartient, les sources suivantes m'ont beaucoup inspir : 1. L'ouvrage de Hosmer et Lemeshow est certainement
LA
rfrence anglo-saxonne [9]. Quiconque
souhaite mettre en pratique la rgression logistique dans une application relle se doit d'avoir lu cet ouvrage. Le discours est clair. Il va directement l'essentiel, sans nanmoins faire l'impasse sur les aspects thoriques importants. Tout est dissqu, discut, les rfrences sont systmatiquement croises, recoupes. J'ai rarement lu un livre d'une telle qualit. C'est simple. J'ouvre une page au hasard, je trouve intressant ce qui y est crit. Les ouvrages qui m'ont autant impressionn se comptent sur les doigts de la main. Je remarque d'ailleurs que je ne suis pas le seul l'avoir apprci. De nombreux auteurs s'en inspirent grandement dans leur prsentation. On retrouve, entres autres, quasiment partout le fameux exemple de la prdiction de la CHD (coronary heart disease) en fonction de l'ge, avec les gures 1.1 et 1.2 ([9], pages 4 et 5). C'est plutt bon signe je trouve. J'avoue moi mme avoir fait comme tout le monde. Autant prendre les informations l o elles sont de bonne qualit. 2. L'autre rfrence anglo-saxonne qui m'a beaucoup plu est l'ouvrage de Scott Menard [10] de la srie
Quantitative Applications in the Social Sciences (Sage University Paper). Il s'agit d'une petite
brochure qui ne paie pas de mine, crit un peu la manire des "Que sais-je". Mais l'usage, on se rend compte trs rapidement de la richesse du propos (comme les "Que sais-je" d'ailleurs). En plus, la lecture est trs uide. C'est toujours agrable. L'auteur prend beaucoup de recul par rapport aux techniques. Il faut prendre cet ouvrage comme un guide de lecture des rsultats de la rgression
1. C'est devenu un peu une marque de fabrique de mes crits. Je pense que savoir reproduire les formules sur un tableur est le signe qu'on les a parfaitement comprises. Je montre les calculs sous Excel parce que je l'utilise pour mes enseignements, mais la transposition Open Oce Calc ne prsente aucune dicult. 2. Reprendre le travail des autres sans les citer, c'est du plagiat ; reprendre le travail des autres en les citant, c'est une manire d'honorer leurs eorts. Ca ne cote rien de le faire et a fait plaisir. Pourquoi s'en priver ?
Avant-propos
rfrence aux principaux outils du march (SAS, SPSS).
logistique. Il nous aide comprendre ce qui est important dans les sorties de logiciels. Il fait beaucoup 3. En franais, aprs une longue priode de disette, la documentation existe maintenant. Il n'y a certes pas de livres exclusivement consacrs au sujet. Mais bien souvent les chapitres que l'on retrouve dans les dirents ouvrages sont d'excellente facture. Nous les dtaillons volontiers dans la bibliographie en indiquant les numros de chapitre et le nombre de pages ddies au sujet pour que le lecteur puisse faire sa recherche bibliographique en connaissance de cause. 4. En ligne, en franais, de la documentation la fois prenne et susamment approfondie est trs rare. Il y a bien la page Wikipdia [25], mais elle est plutt concise. Comme je le disais plus haut, en cherchant bien on trouve ici ou l des "slides". Mais d'une part, ils sont trs laconiques (c'est plutt normal pour des slides) ; d'autre part, ils restent peu de temps en ligne. C'est un peu (beaucoup) dommage. Ceci est vrai aujourd'hui (Aot 2009). Peut tre qu'entre temps d'autres supports de qualit en franais sont maintenant disponibles. Ca ne peut tre que positif pour tout le monde. 5. En anglais, la situation est tout autre. Les excellentes rfrences abondent, avec une prennit qui semble assure. Je citerai le cours complet avec des exemples comments sous SAS et R du dpartement de Statistique de l'Universit de Pennsylvania [22], ou encore la page de David Garson qui, dle sa dmarche, trace les contours de la mthode puis explique de manire approfondie les sorties du logiciel SPSS [5]. Il ne m'a pas t possible de rdiger d'une traite la totalit de ce fascicule. Plutt que d'attendre indniment sa nalisation, j'ai prfr sortir une premire version, consacre exclusivement la rgression logistique binaire. Le reste, les chapitres relatifs la rgression logistique polytomique, viendra au l du temps. J'ai mis en annexes les indications qui permettent de suivre les direntes versions et les dates de modications (Annexe A). Enn, selon l'expression consacre, ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer le contenu sont les bienvenus.
Page: 5
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 6
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Table des matires
Partie I Rgression Logistique Binaire 1 Rgression Logistique Binaire - Principe et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1 Un cadre bayesien pour l'apprentissage supervis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Apprentissage supervis - Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Apprentissage supervis - valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Un cadre bayesien pour l'apprentissage supervis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.4 Un exemple : prdire COEUR en fonction de ANGINE . . . . . . . . . . . . . . . . . . . . . . . . 1.1.5 Insusances de l'approche base sur les frquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Hypothse fondamentale de la rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Le modle LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Estimation des paramtres par la maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . 1.5 L'algorithme de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2 Vecteur des drives partielles premires de la log-vraisemblance . . . . . . . . . . . . . . . . 1.5.3 Matrice des drives partielles secondes de la log-vraisemblance . . . . . . . . . . . . . . . . 1.6 Premire valuation de la rgression : les pseudo-R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Estimation du paramtre a0 et de la dviance du modle trivial . . . . . . . . . . . . . . . . 1.6.2 Quelques pseudo-R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 8 9 9 11 12 13 15 20 20 21 21 21 22 24
Page: 7
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Table des matires
valuation de la rgression
.......................................................
27 27 27 29 32 33 35 36 37 37 37 39 40 40 41 43 43 45 45 47 47 48 49 51 51 51 52
2.1 La matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Construction et indicateurs associs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Exemple : coeur = f (age, taux max, angine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Le modle est-il "intressant" ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Subdivision "apprentissage - test" des donnes pour une valuation plus able . . . 2.1.6 Inconvnients de la matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Diagramme de abilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Calcul et interprtation du diagramme de abilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Exemple : COEUR = f(age, taux max, angine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Exemple : Acceptation de crdit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Test de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Construction du test de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Acceptation de crdit - Test de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Le test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Pourquoi un test de comparaison de populations ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Fichier COEUR - Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Acceptation de crdit - Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 La courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Justication et construction de la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Le critre AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Fichier COEUR - Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 Critre AUC et Statistique de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 La courbe rappel-prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Principe de la courbe rappel-prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Fichier COEUR - Courbe rappel-prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 8
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Table des matires
9
55 55 55 56 56 56 57 58 59 60 60 61 62 63 64 65 67 68
Tests de signicativit des coecients
............................................
3.1 Quoi et comment tester ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 criture des hypothses tester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Deux approches pour les tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Tests fonds sur le rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Principe du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Tester la nullit d'un des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Tester la nullit de q (q < J ) coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Tester globalement la nullit des J coecients (a1 , . . . , aJ ) . . . . . . . . . . . . . . . . . . . . . 3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald . . . . . . . . . . . . 3.3.1 Matrice de variance-covariance des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Tester la nullit d'un des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Intervalle de conance de Wald pour un coecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Tester la nullit de q (q < J ) coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5 Tester globalement la nullit des J coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6 criture gnrique des tests de signicativit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.7 Aller plus loin avec la forme gnrique des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Bilan : Rapport de vraisemblance ou Wald ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Partie II Pratique de la rgression logistique binaire 4 Prdiction et intervalle de prdiction

............................................. 73 73 74 77 77 80 80 83 84 89 91 92 94
4.1 Prdiction ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Intervalle de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lecture et interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1 Risque relatif, odds, odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Le cas de la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Variable explicative binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Variable explicative quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Variable explicative qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Variable explicative qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Le cas de la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Odds-ratio partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Coecients standardiss en rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 9
macro: svmono.cls
date/time: 21-Jun-2011/16:10
10
Table des matires
Analyse des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
101
6.1 Dnir les interactions entre variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1.1 Interaction par le produit de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1.2 tude du ronement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.1.3 Coecients des indicatrices seules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6.2 Stratgie pour explorer les interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.2.1 Modle hirarchiquement bien formul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.2.2 tude du ronement avec 3 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.3 Calcul de l'odds-ratio en prsence d'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3.2 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.4 Interprter les coecients de la rgression en prsence d'interactions . . . . . . . . . . . . . . . . . . 111 6.4.1 Deux explicatives binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.4.2 Un explicative continue et une explicative binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.4.3 Deux explicatives continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
La slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
7.1 Pourquoi la slection de variables ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 7.2 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.2.1 Principe de la slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.2.2 Slection de variables avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.3 Slection statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.3.1 Slection BACKWARD base sur le Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.3.2 Slection FORWARD base sur le Test du Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Diagnostic de la rgression logistique
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.1 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 8.1.1 Notre exemple de rfrence : coeur = f (age, taux max) . . . . . . . . . . . . . . . . . . . . . . . 136 8.1.2 Rsidus de Pearson et Rsidus dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.3 Le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 8.1.4 Rsidus de Pearson et Rsidus dviance standardiss . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8.1.5 Distance de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 8.1.6 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 8.2 Non-linarit sur le LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 8.2.1 Identication graphique univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.2.2 Une solution simple : la discrtisation de la variable X . . . . . . . . . . . . . . . . . . . . . . . . 149 8.2.3 Dtection numrique multivarie : le test de Box-Tidwell . . . . . . . . . . . . . . . . . . . . . . 151 8.2.4 Dtection graphique multivarie : les rsidus partiels . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Table des matires
11
161
"Covariate Pattern" et statistiques associes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Notion de "Covariate pattern" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.2 Levier associ aux "Covariate pattern" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 9.3 Rsidu de Pearson et Rsidu dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9.3.1 Rsidu de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9.3.2 Rsidu dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9.4 Mesurer l'impact de chaque "covariate pattern" sur les coecients . . . . . . . . . . . . . . . . . . . . 169 9.4.1 La distance de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.4.2 Les critres C et CBAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 9.4.3 Les critres DFBETA et DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.5 Sur-dispersion et sous-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
10 Modications de la rgle d'aectation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10.1 Redressement pour les chantillons non reprsentatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 10.1.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 10.1.2 Correction du logit pour les chantillons non reprsentatifs . . . . . . . . . . . . . . . . . . . . 178 10.1.3 Modication de la rgle d'aectation pour le classement . . . . . . . . . . . . . . . . . . . . . . . 181 10.1.4 valuation sur un chantillon non reprsentatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 10.2 Prise en compte des cots de mauvais classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 10.2.1 Dnir les cots de mauvaise aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 10.2.2 Intgrer les cots lors de l'valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 10.2.3 Intgrer les cots lors du classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 10.2.4 Classement d'un individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 10.2.5 Traitement du chier COEUR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11 Quelques lments supplmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
195
11.1 L'cueil de la discrimination parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 11.2 Estimation des coecients par les MCO pondrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 11.2.1 Quel intrt ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 11.2.2 quivalence entre la rgression logistique et la rgression linaire . . . . . . . . . . . . . . . 198 11.2.3 Un exemple numrique avec la fonction DROITEREG . . . . . . . . . . . . . . . . . . . . . . . . 200 11.3 Rgression non-linaire mais sparateur linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
12
Table des matires
Partie III La rgression logistique multinomiale 12 Variable dpendante nominale - Principe et estimations
. . . . . . . . . . . . . . . . . . . . . . . . . . 207
12.1 La distribution multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 12.2 crire les logit par rapport une modalit de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 12.3 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 12.3.1 Vecteur gradient et matrice hessienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 12.3.2 Un exemple : prdiction de formule de crdit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 12.3.3 Estimation des coecients avec Tanagra et R (packages nnet et VGAM) . . . . . . . . 213 12.3.4 Modier la modalit de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 12.4 Signicativit globale de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 12.4.1 Modle trivial : estimations et log-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 12.4.2 Pseudo-R2 de McFadden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 12.4.3 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 12.4.4 Les rsultats fournis par les logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
13 valuation des classieurs pour Y (K > 2) modalits nominales
. . . . . . . . . . . . . . . . 219
13.1 Classement d'un individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 13.2 Matrice de confusion et taux d'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 13.3 Indicateurs synthtiques pour le rappel et la prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 13.3.1 Rappel et prcision par catgorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 13.3.2 Microaveraging et macroaveraging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 13.4 Taux d'erreur et chantillon non reprsentatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 13.5 Intgrer les cots de mauvais classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Page: 12
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Table des matires
13
225
14 Tester les coecients de la rgression multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14.1 Estimation de la matrice de variance covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 14.2 Signicativit d'un coecient dans un logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 14.2.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 14.2.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 14.3 Signicativit d'un coecient dans tous les logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 14.3.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 14.3.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 14.4 Test d'galit d'un coecient dans tous les logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 14.4.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 14.4.2 Test de Wald - Calcul direct . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 14.4.3 Test de Wald - Calcul gnrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 14.5 Interprtation des coecients - Les odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 14.5.1 Calcul de l'odds-ratio via le tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 14.5.2 Obtention des odds-ratio via la rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . 235
15 S'appuyer sur des rgression binaires spares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Partie IV La rgression logistique polytomique ordinale 16 Variable dpendante ordinale (1) - LOGITS adjacents
237
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 . . . . . . . . . . . . . . . . . . . . . 243 245
17 Variable dpendante ordinale (2) - ODDS-RATIO cumulatifs
A Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1 Version 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 A.2 Version 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
B Fichiers de donnes relatifs ce fascicule
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 249
C La rgression logistique avec le logiciel TANAGRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.1 Lecture des rsultats - Rgression logistique binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 C.2 Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 C.3 Didacticiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
14
Table des matires

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
D La rgression logistique avec le logiciel R
D.1 La rgression logistique avec la commande glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 D.1.1 glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 D.1.2 summary de glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 D.1.3 D'autres fonctions applicables sur l'objet glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 D.2 La rgression logistique avec la commande lrm() du package Design . . . . . . . . . . . . . . . . . . 254
Littrature
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Page: 14
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Table des matires
Notations
L'objectif est de prdire les valeurs prises par la variable alatoire Y dnie dans {y1 , y2 , . . . , yK }. Pour la rgression logistique binaire, Y prend uniquement deux modalits {+, } (ou {1, 0} pour simplier). Nous disposons d'un chantillon de taille n. La valeur prise par Y pour un individu est note Y (). Le chier comporte J descripteurs {X1 , X2 , . . . , XJ }. Le vecteur de valeurs pour un individu s'crit
(X1 (), X2 (), . . . , XJ ()).

Dans le cadre binaire, pour un individu donn, sa probabilit a priori d'tre positif s'crit P [Y () =
+] = p(). Lorsqu'il ne peut y avoir d'ambiguts, nous la noterons simplement p.

Lorsque l'chantillon est issu d'un tirage alatoire dans la population, sans distinction des classes d'appartenance, si n+ est le nombre d'observations positives dans , p peut tre estime par parle de "schma de mlange" ([3], page 5). La
n+ n .
On
probabilit a posteriori d'un individu d'tre positif c.--d. sachant les valeurs prises par les que l'on cherche
descripteurs est note P [Y () = +/X()] = (). Ici galement, lorsqu'il ne peut y avoir de confusions, nous crirons . Ce dernier terme est trs important. En eet, c'est la probabilit
modliser en apprentissage supervis.

Le LOGIT d'un individu s'crit
[ ln
] () = a0 + a1 X1 () + + aJ XJ () 1 ()
a0 , a1 , . . . , aJ sont les paramtres que l'on souhaite estimer partir des donnes.
Lorsque nous adoptons une criture matricielle, nous crirons
] () ln = X() a 1 ()
avec X() = (1, X1 (), X2 (), . . . , XJ ()), la premire composante (X0 () = 1, ) symbolise la constante ; a = (a0 , a1 , . . . , aJ ) est le vecteur des paramtres. Enn, toujours pour allger l'criture, nous omettrons le terme lorsque cela est possible.
Donnes
Autant que faire se peut, nous utiliserons le mme jeu de donnes ctif comportant 20 observations et
3 variables prdictives pour illustrer la rgression logistique binaire. L'objectif est de prdire la prsence
ou l'absence d'un problme cardiaque (COEUR - Y ; avec "prsence" = "+" et "absence" = "-") partir de son AGE (quantitative - X1 ), du TAUX MAX (pression sanguine, quantitative - X2 ) et l'occurence d'une ANGINE de poitrine (binaire - X3 ) (Figure 0.1). Nous obtenons une srie d'indicateurs lorsque nous le traitons avec le Tanagra (Figure 0.2) ou lorsque nous le traitons avec le logiciel R (Figure 0.3). Certaines permettent d'valuer la qualit globale de la
Table des matires
Fig. 0.1.
Fichier COEUR
Expliciter les principes qui rgissent la mthode et dcrire les formules associes pour que nous sachions lire en connaissance de cause les rsultats constituent les objectifs de ce support.
rgression, d'autres permettent de juger la contribution individuelle de chaque variable. Le chier est susamment petit pour que l'on puisse dtailler tous les calculs. Le faible eectif en revanche induit une certaine instabilit des rsultats. Dans certains cas ils ne concordent pas avec nos connaissances usuelles. Il ne faudra pas s'en formaliser. L'intrt d'avoir recours un expert du domaine justement est qu'il a la possibilit de valider ou d'invalider le fruit de calculs purement mcaniques. Bien entendu, lorsque la situation ne s'y prte pas, nous utiliserons ponctuellement d'autres chiers de donnes. Nous l'indiquerons au fur et mesure.
Page: 2
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Table des matires
Fig. 0.2.
Traitement du chier COEUR avec le logiciel Tanagra
Fig. 0.3.
Traitement du chier COEUR avec le logiciel R
Page: 3
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 4
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Partie I
Rgression Logistique Binaire
Page: 5
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 6
macro: svmono.cls
date/time: 21-Jun-2011/16:10
1 Rgression Logistique Binaire - Principe et estimation
1.1 Un cadre bayesien pour l'apprentissage supervis

1.1.1 Apprentissage supervis - Problmatique
En apprentissage supervis, l'objectif est de prdire et/ou expliquer une variable catgorielle Y partir d'une collection de descripteurs X = (X1 , X2 , . . . , XJ ). Il s'agit en quelque sorte de mettre en vidence l'existence d'une liaison fonctionnelle sous-jacente (en anglais,
underlying concept ) de la forme
Y = f (X, )
entre ces variables. La fonction f (.) est le modle de prdiction, on parle aussi de classieur ; est le vecteur des paramtres de la fonction, on doit en estimer les valeurs partir des donnes disponibles. Dans le cadre de la discrimination binaire, nous considrons que la variable dpendante Y ne prend que 2 modalits : positif "+" ou ngatif "-". Nous cherchons prdire correctement les valeurs de Y , mais nous pouvons galement vouloir quantier la propension (la probabilit) d'un individu tre positif (ou ngatif). Les applications sont nombreuses, certains touchent directement notre vie quotidienne : 1. Dterminer la viabilit d'un client sollicitant un crdit partir de ses caractristiques (age, type d'emploi, niveau de revenu, autres crdits en cours, etc.) ; 2. Quantier le risque de survenue d'un sinistre pour une personne sollicitant un contrat d'assurance (ex. un jeune homme venant d'obtenir son permis de conduire et demandant une assurance tous risques pour une 205 Turbo-kitte avec un aileron de requin sur le toit aura trs peu de chances de trouver une compagnie conciliante) ; 3. Discerner les facteurs de risque de survenue d'une maladie cardio-vasculaire chez des patients (ex. l'ge, le sexe, le tabac, l'alcool, regarder les matches de l'quipe de France de foot, etc.) ; 4. Pour une enseigne de grande distribution, cibler les clients qui peuvent tre intresss par tel ou tel type de produit.

Comme dans toute dmarche de modlisation, plusieurs questions se posent immdiatement [23] (pages
104-105) : 1. Choisir la forme de la fonction. 2. Estimer les paramtres du modle partir d'un chantillon . 3. valuer la prcision des estimations. 4. Mesurer le pouvoir explicatif du modle. 5. Vrier s'il existe une liaison signicative entre l'ensemble des descripteurs et la variable dpendante. 6. Identier les descripteurs pertinents dans la prdiction de Y , vacuer celles qui ne sont pas signicatives et/ou celles qui sont redondantes. 7. Mesurer l'inuence de chaque observation, au besoin dtecter celles qui peuvent avoir une inuence exagre au point de fausser les rsultats. 8. Pour un nouvel individu classer, dterminer la valeur de partir des valeurs prises par les X . 9. Construire un intervalle de variation (fourchette) de . La rgression logistique permet de rpondre prcisment chacune de ces questions. Elle le fait surtout de manire compltement cohrente avec sa dmarche d'apprentissage, la maximisation de la vraisemblance. Ce n'est pas un de ses moindres mrites par rapport d'autres mthodes supervises.
1.1.2 Apprentissage supervis - valuation

Avant de proposer une dmarche pour rsoudre le problme ci-dessus, penchons-nous sur un aspect fondamental de l'apprentissage supervis : comment valuer la qualit de la modlisation ? Comment comparer 2 approches concurrentes et dgager celle qui serait la meilleure ? Une attitude simple consiste mesurer la qualit de la prdiction c.--d. l'aptitude du modle prdire correctement dans la population pop . Nous la quantions avec comme la
probabilit de mal classer un individu pris au hasard dans la population :

= 1 [Y (), f (X())] pop ) card(
l'erreur thorique que l'on interprte
o est une fonction indicatrice qui, pour un individu donn, prend la valeur 1 lorsque la prdiction ne concorde pas avec la vraie valeur ; elle prend la valeur 0 lorsque le modle prdit bon escient. On confronte ainsi les vraies valeurs prises par la variable dpendante dans la population et les prdictions du modle. Dans le cas idal, toutes les prdictions sont correctes, l'erreur thorique est gal
0. L'autre extrme serait que le modle se trompe systmatiquement, dans ce cas le taux serait gal 1.
Mais en ralit, il est plus judicieux de prendre comme borne haute le classement au hasard . Lorsque les classes sont qui-distribues c.--d. les proportions de positifs et de ngatifs sont identiques dans la population, nous obtiendrions un taux d'erreur thorique gal 0.5. Le classieur doit faire mieux.
1. Nous verrons plus loin (sections 1.6 et 2.1.4) qu'il y a une approche plus rigoureuse pour dnir le classieur de rfrence (le modle trivial), celui que l'on doit absolument surpasser.
Notre indicateur est thorique dans la mesure o nous ne disposerons jamais de la population complte pour la calculer. Il faudra que l'on produise une estimation partir d'un chantillon. La solution la plus simple consiste mesurer la proportion de mauvais classement sur le chier qui a servi construire le modle, on parle de
taux d'erreur en resubstitution. Pour simple quelle soit, cette estimation n'est
cependant pas trs able, on sait que le taux d'erreur ainsi calcul est souvent trop optimiste, il faut le produire autrement. Nous reviendrons sur ce sujet plus loin (section 2.1).
1.1.3 Un cadre bayesien pour l'apprentissage supervis

Le classieur bayesien est celui qui rpond de manire optimale aux spcications ci-dessus. Pour un individu , il s'agit de calculer les probabilits conditionnelles (probabilit a posteriori)
P [Y () = yk /X()]
pour chaque modalit yk de Y . On aecte l'individu la modalit la plus probable yk c.--d.
yk = arg max P [Y () = yk /X()]

k
On associe donc l'individu la classe la plus probable compte tenu de ses caractristiques X(). Cette approche est optimale au sens de l'erreur thorique ! . Mais un problme apparat tout de suite : comment estimer correctement ces probabilits conditionnelles ?
1.1.4 Un exemple : prdire COEUR en fonction de ANGINE Apprentissage

Pour notre chier ci-dessus (Figure 0.1), nous souhaitons prdire les valeurs de COEUR en fonction de ANGINE. La variable prdictive ANGINE tant binaire (et de manire plus gnrale catgorielle), nous pouvons utiliser les frquences pour estimer les probabilits conditionnelles. Nous utilisons pour cela l'outil "Tableaux croiss dynamiques d'Excel" (Figure 1.1). Pour ANGINE = 0, nous avons les frquences conditionnelles P (COEU R = +/AN GIN E = 0) = 0.2
2. Souvent, pas toujours. L'importance du biais d'optimisme dpend aussi des caractristiques du classieur et des donnes. Dans certains cas, lorsque la mthode a tendance fortement coller aux donnes (ex. la mthode des plus proches voisins dans un espace sur-dimensionn), le taux d'erreur en resubstitution n'est d'aucune utilit ; dans d'autres, mthodes linaires dans un espace o le ratio entre le nombre d'observations et le nombre de descripteurs est favorable, il donne des indications tout fait crdibles. 3. Il est possible de gnraliser l'approche une conguration o l'on associerait des cots de mauvais classement aux aectations (cf. [3], page 4)
10
Fig. 1.1.
COEUR vs. ANGINE - Probabilits conditionnelles
P (COEU R = /AN GIN E = 0) = 0.8 En vertu du principe bayesien, nous adoptons la rgle suivante :
Si AN GIN E = 0 Alors COEU R = (absence)

De la mme manire, pour ANGINE = 1, nous calculons P (COEU R = +/AN GIN E = 1) = 0.6 P (COEU R = /AN GIN E = 1) = 0.4 Nous en dduisons
Si AN GIN E = 1 Alors COEU R = + (presence)
valuation
Maintenant que nous avons un modle de prdiction COEU R = f (AN GIN E), il faut en valuer les performances. Pour cela, nous confrontons les vraies valeurs de la variable dpendante avec celles prdites par le modle. Dans notre feuille Excel (Figure 1.2), la colonne "Prdiction" correspond aux valeurs prdites par le modle, nous utilisons simplement une fonction "SI(...)" s'appuyant sur la colonne ANGINE. "Erreur" correspond la fonction . Elle prend la valeur 1 lorsque la prdiction errone, 0 autrement. Dans la partie basse de la feuille, nous comptons le nombre d'erreurs de prdiction : 5 individus ont t mal classs. Nous en dduisons le taux d'erreur resub =
5 20
= 0.25 c.--d. si nous classons un individu
pris au hasard dans la population, nous avons 25% de chances de faire une prdiction errone. A l'inverse, nous avons 75% de chances de faire une prdiction correcte. Attention, il s'agit bien d'une erreur en resubstitution puisque le modle a t labor (dans notre cas, les probabilits conditionnelles ont t calcules) partir des mmes donnes. Les performances annonces sont donc sujettes caution, surtout pour un modle construit sur un eectif aussi faible.
Page: 10
macro: svmono.cls
date/time: 21-Jun-2011/16:10
11
Fig. 1.2.
COEUR vs. ANGINE - valuation des performances
1.1.5 Insusances de l'approche base sur les frquences

La dmarche base sur les frquences est extrmement sduisante par sa simplicit. Un simple comptage permet de produire les probabilits conditionnelles et dduire les rgles d'aectation. Toutefois, elle n'est pas viable en situation relle, lorsque nous avons plus d'une variable prdictive, pour direntes raisons : 1. Dans le cas o toutes les variables sont binaires, le nombre de probabilits calculer devient rapidement prohibitif, impossible grer mme sur des ordinateurs. Par exemple, si nous avons 20 variables, il faudrait procder 2 220 = 2.097.152 comptages. 2. Et mme si cela tait possible, nous aurions la valeur 0 dans la plupart des cases de notre tableau crois, ou tout du moins de trs faibles eectifs, rendant inutilisables les estimations. 3. L'aaire se corse lorsque nous avons des descripteurs continus (ex. l'AGE dans notre chier COEUR). Procder par comptage global n'a plus de sens. Il faut passer par d'autres stratgies : soit en discrtisant ces variables (les dcouper en intervalles) ; soit en estimant par comptage les probabilits, mais localement, en se limitant au voisinage de l'observation classer (cf. par exemple la mthode des plus proches voisins, les noyaux de Parzen [3], pages 28-35). 4. Et on ne parle mme pas de la situation o l'on a un mlange de variables prdictives continues et catgorielles. La solution pourrait passer par un dcoupage en classes des variables continues, mais il faudrait proposer des dcoupages pertinents, au moins en relation avec la variable prdire, et peut tre aussi en relation avec les autres variables prdictives pour tenir compte des possibles interactions. 5. Enn, en admettant que tous les problmes ci-dessus aient t rsolus, il reste un cueil : il n'y a pas de processus de slection de variables inhrent la mthode. Elle ne nous indique pas quelles sont les
12

variables pertinentes qu'il faut conserver, quelles sont les variables qui ne servent rien et que l'on peut vacuer. Pourtant, cet aspect est incontournable ds que l'on est confront un problme un tant soit peu raliste. L'expert du domaine a certes une ide plus ou moins vague des "bonnes" variables, mais bien souvent il compte sur les techniques numriques pour prciser ses ides.
1.2 Hypothse fondamentale de la rgression logistique

Pour rendre calculable la quantit P (Y = yk /X), il nous faudra donc introduire une ou plusieurs hypothses sur les distributions. Nous sommes dans le cadre des mthodes dites "paramtriques" (ou "semi-paramtriques", nous prciserons la distinction plus loin). Elles semblent plus contraignantes par rapport aux mthodes dites non-paramtriques qui, elles, procdent l'estimation des probabilits sans jamais introduire des hypothses sur les distributions (ex. les arbres de dcision, la mthode des plus proches voisins, etc.). En eet, lors du traitement d'un problme rel, il faudrait en toute rigueur s'assurer de la crdibilit des hypothses avant de pouvoir mettre en oeuvre la technique. En pratique, ce n'est pas ncessaire. On se rend compte que les mthodes paramtriques sont souvent robustes. Elles restent oprationnelles mme lorsque l'on s'carte assez fortement des hypothses qui les sous-tendent. L'ide la plus importante retenir nalement est que les hypothses psent sur la forme de la frontire induite pour distinguer les classes dans l'espace de reprsentation. La rgression logistique par exemple produit un sparateur linaire " , c'est la principale information qu'il faut retenir. Avant de dcrire les hypothses introduites dans la rgression logistique, reconsidrons la probabilit conditionnelle P (Y = yk /X) :
P (Y = yk /X) =
P (Y = yk ) P (X/Y = yk ) P (X) P (Y = yk ) P (X/Y = yk ) = k P (Y = yk ) P (X/Y = yk )
Dans le cas deux classes, nous devons comparer simplement P (Y = +/X) et P (Y = /X). Formonsen le rapport,
P (Y = +/X) P (Y = +) P (X/Y = +) = P (Y = /X) P (Y = ) P (X/Y = )

La rgle de dcision devient
(1.1)
Si
P (Y = +/X) > 1 Alors Y = + P (Y = /X)
Revenons l'expression ci-dessus (quation 1.1),
4. Je me rappelle d'une discussion anime avec un ami qui soutenait que la rgression logistique est une rgression non-linaire. Oui, eectivement il a raison, c'est une rgression non-linaire parce que la fonction de transfert est non linaire, la fonction logistique en l'occurrence. C'est un point de vue que l'on retrouve souvent en statistique ou en conomtrie. En revanche, pour sparer les positifs et les ngatifs, elle construit une frontire linaire, base sur une combinaison linaire des variables. C'est en ce sens qu'on parle d'un classieur linaire. On retrouve volontiers ce point de vue en reconnaissance des formes.
1.3 Le modle LOGIT

Le rapport
P (Y =+) P (Y =)
13
est facile estimer ds lors que l'chantillon est issu d'un tirage alatoire dans
n+ n .
la population, indpendamment des classes d'appartenance des individus. Il sut de prendre le rapport entre le nombre d'observations positives et ngatives Et quand bien mme l'chantillon serait issu d'un tirage deux niveaux on parle de tirage rtrospectif (ou "donnes cas-tmoin" lorsque l'on xe l'avance le nombre d'observations positives et ngatives que l'on souhaite obtenir, on procde alors par tirage alatoire dans chaque groupe (voir [3], page 5 ; [9], pages 205 210 ; [23], pages 431 434) il est possible de procder des redressements si l'on connat par ailleurs la vraie valeur de la prvalence p = P (Y = +) (voir [2], pages 67 et 68, ou [3], pages 79 et 80, pour une prsentation rapide ; [9], chapitre 6, pour une prsentation plus dtaille et l'tude d'autres schmas d'chantillonnage). Le vritable enjeu rside donc dans l'estimation du rapport de probabilit logistique introduit l'hypothse fondamentale suivante :
P (X/Y =+) P (X/Y =) .
La rgression
[ ln
] P (X/Y = +) = b0 + b1 X1 + + bJ XJ P (X/Y = )
(1.2)
Cette hypothse couvre une large palette de lois de distribution des donnes ([2], page 64 ) : La loi normale (comme pour l'analyse discriminante) ; Les lois exponentielles ; Les lois discrtes ; Les lois Beta, les lois Gamma et les lois de Poisson ; Un mlange de variables explicatives binaires (0/1) et continues, cette proprit est trs importante car elle rend oprationnelle la rgression logistique dans de trs nombreuses congurations. Contrairement l'Analyse Discriminante Linaire, que l'on qualie de mthode paramtrique car on met une hypothse sur les distributions respectives de P (X/Y = +) et P (X/Y = ) (loi normale),
rgression logistique est une mthode semi-paramtrique car l'hypothse porte uniquement sur
le rapport de ces probabilits. Elle est moins restrictive. Son champ d'action est donc thoriquement plus large # .
la
1.3 Le modle LOGIT

La rgression logistique peut tre dcrite d'une autre manire. Pour un individu , on appelle transformation LOGIT de () l'expression ([9], page 6 pour la rgression simple, page 31 pour la rgression multiple)
5. En thorie seulement. En pratique, ces deux mthodes prsentent souvent des performances similaires (voir [7], chapitre 7, en particulier la section 7.1.5, page 145 ; [21], page 480 ; [8], pages 103 105). Entre autres parce qu'elles induisent un sparateur linaire dans l'espace de reprsentation ([8], chapitre 4, pages 79 113). La rgression logistique ne se dmarque vraiment que lorsque l'une des hypothses de l'Analyse Discriminante Linaire, l'homoscdasticit, est trs fortement remise en cause. Toujours selon ce mme point de vue, lorsque les classes ne sont pas linairement sparables dans l'espace de reprsentation, la rgression logistique, tout comme l'analyse discriminante linaire, ne nous est d'aucun secours.
14

] () ln = a0 + a1 X1 + + aJ XJ 1 ()
La quantit
1
(1.3)
P (Y =+/X) P (Y =/X)
exprime un
odds
c.--d. un rapport de chances. Par exemple, si un
individu prsente un odds de 2, cela veut dire qu'il a 2 fois plus de chances d'tre positif que d'tre ngatif. Posons C(X) = a0 + a1 X1 + + aJ XJ , nous pouvons revenir sur avec la fonction logistique
eC(X) 1 + eC(X) 1 = 1 + eC(X)
(1.4) (1.5)
Quelques commentaires et remarques A propos de la fonction de transformation,

Le LOGIT = C(X) est thoriquement dni entre et +. En revanche, 0 1 issue de la transformation de C(X) (Figure 1.3) reprsente une probabilit.
Fig. 1.3.
Fonction Logistique
A propos de la rgle d'aectation,

La rgle d'aectation peut tre base sur de direntes manires : Si
1
> 1 Alors Y = +
Si > 0.5 Alors Y = + Elle peut tre aussi base simplement sur C(X) avec : Si C(X) > 0 Alors Y = +
Autres remarques,
1.4 Estimation des paramtres par la maximisation de la vraisemblance
15
C(X) et permettent tous deux de "scorer" les individus, et par l de les classer selon leur propension tre "positif". Cette fonctionnalit est trs utilise dans le ciblage marketing par exemple. On parle de "scoring". Sauf que reprsente une probabilit, avec les proprits inhrentes une probabilit, entres autres
P (Y = +/X) + P (Y = /X) = 1.
D'autres fonctions de transformation existent. Si on utilise la fonction de rpartition normale par exemple, on parle de modle PROBIT (voir [23], page 395). Comme nous avions pu le dire dj plus haut, la fonction de transfert logistique est non linaire (Figure 1.3), c'est en ce sens que l'on qualie la rgression logistique de rgression non-linaire dans la littrature.
quivalence entre les approches

Les deux approches ci-dessus correspondent deux facettes d'un mme problme. En eet :
[ ln
] = a0 + a1 X1 + + aJ XJ 1 [ ] P (Y = +) P (X/Y = +) = ln P (Y = ) P (X/Y = ) ] [ ] [ P (X/Y = +) P (Y = +) + ln = ln P (Y = ) P (X/Y = ) [ ] p = ln + (b0 + b1 X1 + + aJ XJ ) 1p
Les deux formulations (quations 1.2 et 1.3) sont identiques une constante prs
] p a0 = ln + b0 1p
Il faudra s'en souvenir lorsque les donnes sont issues d'un mode d'chantillonnage autre que le tirage alatoire simple (schma de mlange) dans la population.

Pour estimer les paramtres de la rgression logistique par la mthode du maximum de vraisemblance, nous devons tout d'abord dterminer la loi de distribution de P (Y /X).
Y est une variable binaire dnie dans {+, }, (ou {1, 0} pour simplier les critures). Pour un
individu , on modlise la probabilit l'aide de la loi binomiale B(1, ), avec
P [Y ()/X()] = ()y() (1 ())(1y())

Cette modlisation est cohrente avec ce qui a t dit prcdemment, en eet : Si y() = 1, alors P [Y () = 1/X()] = ; Si y() = 0, alors P [Y () = 0/X()] = 1 ;
Page: 15 job: regression_logistique macro: svmono.cls
(1.6)
date/time: 21-Jun-2011/16:10
16
Vraisemblance
La vraisemblance (en anglais
likelihood ) d'un chantillon s'crit

L=
()y() (1 ())(1y())
(1.7)
Pour allger l'criture, nous utiliserons pour la suite
L=
y (1 )(1y)
N'oublions pas que la vraisemblance correspond la probabilit d'obtenir l'chantillon partir d'un tirage dans la population. Elle varie donc entre 0 et 1. La mthode du maximum de vraisemblance consiste produire les paramtres a = (a0 , a1 , . . . , aJ ) de la rgression logistique qui rendent maximum la probabilit d'observer cet chantillon [11] (page 81).
Log-vraisemblance
Pour faciliter les manipulations, on prfre souvent travailler sur la log-vraisemblance (log-likelihood )
LL =
y ln + (1 y) ln(1 )
(1.8)
Le logarithme tant une fonction monotone, le vecteur
a qui maximise la vraisemblance est le mme
que celui qui maximise la log-vraisemblance. Cette dernire en revanche varie entre et 0. Puisque a est un estimateur du maximum de vraisemblance, il en possde toutes les proprits : 1. Il est asymptotiquement sans biais ; 2. Il est de variance minimale ; 3. Il est asymptotiquement gaussien. Ces lments, notamment le dernier, seront trs importants pour l'infrence statistique (intervalle de conance, test de signicativit, etc.).
Page: 16
macro: svmono.cls
date/time: 21-Jun-2011/16:10
17
Dviance
Bien souvent, on utilise la quantit
DM = 2LL = 2 LL
appele dviance [9] (page 13) (ou dviance rsiduelle, en anglais
(1.9)
residual deviance, dans certains
logiciels tels que R) (DM ). Contrairement la log-vraisemblance, elle est positive. L'objectif de l'algorithme d'optimisation est de minimiser cette dviance. On peut faire le parallle avec la somme des carrs des rsidus de la rgression linaire multiple. La
null deviance (D0 ) calcule sur le modle uniquement
compose de la constate correspondrait alors la somme des carrs totaux [10] (pages 20 27). Dans certains ouvrages, on dnit la dviance D de manire plus gnrique (cf. [9], page 13 ; [23], page 405 ; [7], page 115) :
D = 2 ln
] L(Mod`le satur) e e ) L(Mod`le tudi e e e = 2 LL(Mod`le tudi) [2 LL(Mod`le satur)] e e e e e = DM [2 LL(Mod`le satur)] e e ( ) ( )] [ 1 = 2 y ln + (1 y) ln y 1y
Un modle satur pour des donnes individuelles $ est un modle reconstituant parfaitement les valeurs de la variable dpendante c.--d. () = y(). Sa vraisemblance est gale 1 (quation 1.4), et sa log vraisemblance 0 (quation 1.8). Dans ce contexte, D = DM .
Optimisation
Bonne nouvelle, la log-vraisemblance est une fonction convexe. Il existe donc une solution unique
a. Mauvaise nouvelle, il n'existe pas de solution analytique. Il faut passer par des heuristiques. Ce qui
explique que l'on obtienne parfois des rsultats dirents d'un logiciel l'autre : le rsultat obtenu dpend de l'algorithme utilis, du paramtrage adopt, et parfois mme des choix d'implmentation de l'informaticien. Ces dirences droutent le nophyte. En ralit, il n'y aucune raison de s'en inquiter si on connat un peu la technique. Les divergences entre les logiciels ne doivent nous alerter que si elles sont trop importantes. Plusieurs techniques d'optimisation existent, les logiciels s'appuient souvent sur l'algorithme de Newton-Raphson [23] (pages 398 400) ou de ses variantes (ex. Fisher Scoring). Nous en reparlerons en dtail plus loin (section 1.5). Cet aspect est trs important. En eet, il peut inuencer les rsultats, il explique galement les ventuels plantages des logiciels (ah ! le fameux "a marche pas !").
6. A distinguer de la situation de "covariate pattern" o plusieurs observations, dont certaines sont positives, d'autres ngatives, partagent la mme description [9] (page 144). C'est le cas lorsque les donnes sont issues d'exprimentations ou lorsque les variables explicatives sont toutes catgorielles [1] (pages 91 97). On parle aussi de situation de donnes groupes [23] (pages 434 438). Le modle satur correspond alors au modle o l'on aura tenu compte de toutes les interactions possibles entre les variables explicatives. Pour une tude plus approfondie, voir le chapitre 9.
18
COEUR = f (AGE, TAUX MAX, ANGINE)

Pour illustrer notre propos, nous allons estimer les paramtres de la rgression logistique pour notre problme de prdiction de maladie cardiaque. Nous organisons les calculs dans le tableur Excel, puis nous utiliserons le solveur % pour minimiser la dviance.
Fig. 1.4.
Prparation de la feuille de calcul - Minimisation de la dviance
Dans un premier temps, nous devons prparer la feuille Excel (Figure 1.4) : En F3..I3, nous introduisons les valeurs de dpart des coecients, le solveur a besoin de cette initialisation, elle nous permet galement de vrier l'intgrit de la feuille de calcul. Nous mettons, au hasard & , a = (1.0, 0.0, 0.0, 1.0). En colonnes B, C, D et E, nous avons le jeu de donnes. En F, nous plaons la variable Y recode en 0/1. Nous calculons alors C(X). Pour le premire observation, nous avons C(X) = 1.0 + 0.0 50 + 0.0
126 + 1.0 1 = 2.0.

Nous en dduisons alors . Toujours pour la premire observation, nous obtenons =
1 1+e2.0
0.8808.
7. A propos de l'utilisation du solveur, des sites de cours en ligne sont rfrencs sur ma page consacre Excel : http://eric.univ-lyon2.fr/~ricco/cours/cours_excel.html 8. L'initialisation est faite au hasard. En thorie, n'importe quelle valeur conviendrait. En pratique, on a intrt mettre des valeurs proches de la solution dnitive. A dfaut, on conseille gnralement de tenter plusieurs valeurs de dpart.

1 ln(0.8808) + (1 1) ln(1 0.8808) = 0.1269.
19
La fraction de la log-vraisemblance correspondante est gale LL = y ln() + (1 y) ln(1 ) = Il ne nous reste plus qu' calculer la dviance DM = 2LL = 2(0.12690.3133 . . . ) = 42.6671. Nous pouvons actionner le solveur ce stade. Nous souhaitons minimiser la cellule cible I28 contenant l'expression de la dviance. Les cellules variables sont celles contenant les paramtres de la rgression logistique, savoir les cellules F3 I3. Il n'y a pas de contraintes dans cette optimisation.
Fig. 1.5.
Feuille de calcul aprs minimisation de la dviance
Nous obtenons une nouvelle version de la feuille de calcul la sortie (Figure 1.5). La dviance est passe DM = 16.6117. Les valeurs des paramtres qui ont permis de l'obtenir sont
a = (14.4937, 0.1256, 0.0636, 1.7790)

En d'autres termes, le LOGIT estim permettant de prdire l'occurrence d'une maladie cardiaque partir de l'ge, le taux max et l'angine, s'crit :
C(X) = 14.4937 0.1256 X1 0.0636 X2 + 1.7790 X3
Page: 19
macro: svmono.cls
date/time: 21-Jun-2011/16:10
20
1.5 L'algorithme de Newton-Raphson

Bien entendu, notre exemple implment sous Excel est vise pdagogique. Dans les tudes relles, nous avons intrt utiliser les logiciels spcialiss qui produisent directement les rsultats. L'ide tait de dtailler les calculs de manire ce que le lecteur puisse retracer les formules dcrites en amont. Mais justement, qu'en est-il des logiciels ? Quel est l'algorithme utilis ? Ce choix peut-il avoir des rpercussions sur les rsultats ? Peut-on en obtenir d'autres informations qui pourraient tre utiles pour l'infrence statistique ? L'algorithme de Newton-Raphson est une des mthodes numriques les plus utilises pour optimiser la log-vraisemblance ([23], page 398 ; [9], page 33 ; [11], page 162). Il dmarre avec une initialisation quelconque du vecteur de paramtre
a ; pour passer de l'tape (i) l'tape (i + 1), il se rapproche de la

( )1
solution nale a en utilisant la formule suivante
ai+1 = ai
LL a.a
LL a
(1.10)
1.5.1 Quelques remarques

Plusieurs rgles d'arrt sont possibles pour stopper le processus de recherche : On xe l'avance le nombre maximum d'itrations pour limiter le temps de calcul. C'est un peu fruste mais souvent bien utile pour viter les boucles innies faute de convergence. On stoppe les itrations lorsque l'volution de la log-vraisemblance d'une tape l'autre n'est pas signicative. Pour cela, on xe souvent une valeur seuil , on arrte le processus si l'cart d'une tape l'autre est plus petit que le seuil. On stoppe les itrations lorsque l'cart entre les vecteurs solutions a est faible d'une tape l'autre. Ici galement, souvent il s'agit de xer un seuil l'avance auquel on compare la somme des carts aux carrs ou la somme des carts absolus entre les composantes des vecteurs solutions. Dans ce contexte, il ne faut pas s'tonner qu'il y ait des disparits entre les logiciels. Quand bien mme ils utiliseraient le mme algorithme d'optimisation, avec les mmes valeurs de dpart, rien que le paramtrage de la rgle d'arrt peut produire des solutions direntes. Certains logiciels donnent l'utilisateur la possibilit d'aner les seuils. D'autres utilisent des seuils prdnis connus d'eux seuls ' . Et on ne parle mme pas des astuces destines acclrer les calculs ou les scuriser. Ce dernier point est important. En eet on remarque que le processus comporte une tape d'inversion de matrice (la matrice hessienne). Voil un danger qu'il convient de circonscrire. Les stratgies adoptes psent sur le rsultat obtenu l'issue du processus d'optimisation.
9. A ce propos, le logiciel libre, open source, est une garantie de transparence qui nous donne l'opportunit d'inspecter le code source et de comprendre les divergences entre les logiciels, voire entre les versions du mme logiciel ! A dfaut, nous sommes condamns subir le bon vouloir des diteurs.
1.6 Premire valuation de la rgression : les pseudo-R2
21
1.5.2 Vecteur des drives partielles premires de la log-vraisemblance

Dans l'quation 1.10, le vecteur de dimension (J +11) correspondant aux drives partielles premires de la log-vraisemblance (a) = retient notre attention. On parle de : (1.11)
gradient. Voyons-en le dtail pour la variable Xj

(aj ) =
LL a
vecteur score ou de vecteur
[y() ()] xj ()
Lorsque la solution a t trouve c.--d. le vecteur a permettant d'optimiser LL est obtenu, toutes les composantes du vecteur gradient sont gales 0. C'est tout fait normal. On cherche un optimum dans un espace convexe. La solution annule la drive premire par rapport aux paramtres .
1.5.3 Matrice des drives partielles secondes de la log-vraisemblance

Autre expression qui retient notre attention toujours dans l'quation 1.10, il s'agit de la matrice des drives partielles seconde H(a) =
LL a.a ,
dite
matrice hessienne.
Elle est trs importante car son
inverse correspond la matrice des variances covariances des coecients, prcieuse lors de l'infrence statistique (tests et intervalle de conance).
H(a) est de dimension (J + 1 J + 1) d'expression gnrale :
H(j1 , j2 ) =
xj1 () xj2 () () [1 ()]
(1.12)
Il est parfois plus commode de passer par une notation matricielle, nous pouvons crire
H(a) = X V X
o V est une matrice diagonale de taille (n n) compose de () (1 ()).
(1.13)

Une question cruciale est de pouvoir dterminer si le modle obtenu est "intressant" ou non. Le premier pouvoir trancher est l'expert. En se basant sur les contraintes du domaine, il peut nous dire si le modle est susamment concluant. En son absence, il ne faut surtout pas se lancer dans des considrations plus ou moins vaseuses, bases essentiellement sur le taux d'erreur en resubstitution. La seule attitude viable est de poser la question " quel classieur de rfrence peut-on se comparer ?".
10. Rappelons-nous les exercices d'optimisation d'quations du second degr (une parabole). La dmarche consiste calculer la drive premire, qui est une quation du premier degr, puis de l'annuler. L'ide est grosso modo la mme ici.
22

Dans le cadre de l'apprentissage supervis, le classieur
de rfrence est le modle qui n'utilise pas les informations en provenance des variables indpendantes Xj . On parle galement de classieur par dfaut (en anglais default classier ). En rgression logistique, il correspond au modle M0 (on parle galement de "modle initial", de "modle trivial" ; en anglais null model ) n'incluant que la constante a0 .
Dans ce qui suit, nous montrons (1) comment estimer directement le paramtre a0 du modle rduit la simple constante, (2) comment obtenir la dviance sans avoir la calculer explicitement, (3) nous prsenterons alors plusieurs indicateurs, de type P seudo R2 , bass sur la comparaison des dviances respectives du modle tudi (DM ) et du modle par dfaut (D0 ).
Remarque : L'analogie avec le coecient de dtermination R2 de la rgression linaire multiple est

tout fait intressante. En eet, il est usuellement interprt comme la part de variance explique par le modle. Mais il peut tre galement compris comme une confrontation entre les performances du modle analys (traduite par la somme des carrs des rsidus SCR = (y y )2 ) et celles du modle par dfaut rduite la simple constante (dans ce cas, la constante est estime par la moyenne de l'endogne y , la somme des carrs totaux correspond donc la somme des carrs des rsidus du modle rduit la simple constante SCT = (y y )2 ). N'oublions pas que R2 = SCT SCR = 1 SCR . Sa dnition rpond SCT SCT exactement la notion d'ecacit prdictive ([10] (page 28), [1], pages 110 112).
1.6.1 Estimation du paramtre a0 et de la dviance du modle trivial

Le modle trivial est rduit la seule constante c.--d.
] LOGIT (M0 ) = ln = a0 1
Nous ne tenons pas compte des variables explicatives Xj . De fait :
p P (X/Y = +) = 1 1 p P (X/Y = ) p = 1p
On devine aisment
l'estimation a0 de la rgression
p 1p ] [ n+ = ln n [ ]
a0 = ln
Le nombre de positifs n+ et ngatifs n dans l'chantillon sut pour estimer le paramtre du modle trivial. Pour prdire la probabilit a posteriori pour un individu d'tre positif (), nous utilisons simplement la proportion des positifs p =
n+ n
dans la base, soit
Page: 22
macro: svmono.cls
date/time: 21-Jun-2011/16:10

() = p,
Voyons maintenant ce qu'il en est de la drations ci-dessus, nous obtenons
23
log-vraisemblance. A partir de l'quation 1.8 et des consi-
LL0 = =
y ln() + (1 y) ln(1 p) p y ln() + p (1 y) ln(1 p)
= n+ ln() + n ln(1 p) p p = n ln(1 p) + n+ ln( ) 1p

Nous pouvons en dduire la dviance du modle trivial
D0 = 2 LL0
COEU R = f ()
- Estimation directe
Reprenons l'exemple du chier COEUR (Figure 0.1). Nous y observons n+ = 6 observations positives parmi n = 20. Nous obtenons directement : Le nombre de ngatifs n = 20 6 = 14 La proportion de positifs p =
6 20
= 0.8473 [ ] 0.3 La log-vraisemblance LL(0) = 20 ln(1 0.3) + 6 ln 10.3 = 12.217

L'estimation de la constante a0 = ln
= 0.3 [
n+ n
= ln
6 14
La dviance D0 = 2 LL(0) = 2 (12.217) = 24.4346
COEU R = f ()
- Estimation usuelle
Par curiosit, nous souhaitons vrier si les rsultats de l'estimation directe concordent avec ceux de la procdure usuelle. Nous reprenons notre feuille Excel (Figure 1.4). Nous la modions en 2 temps : (1) nous annulons les coecients associs aux variables explicatives c.--d. a1 = a2 = a3 = 0 ; (2) nous lanons le solveur en spciant uniquement a0 (cellule F3) en cellule variable. Les rsultats (Figure 1.6) sont totalement cohrents avec l'approche directe : l'estimation a0 = 0.8473 et la dviance D0 = 24.4346. Ce qui est plutt encourageant. Le calcul direct nous pargne une optimisation complique. Nous remarquerons galement que () = p = 0.3, .
Page: 23
macro: svmono.cls
date/time: 21-Jun-2011/16:10
24
Fig. 1.6.
Fichier COEUR - Modle trivial Fichier COEUR

2 RM F = 1 8.3088 12.2173
Indicateur
R2 de McFadden
Formule
2 RM F = 1 LLM LL0
Valeur Min/Max et Commentaires Min = 0 si LLM = LL0 , on ne fait pas mieux que le modle trivial. Max = 1 si LLM = 0, notre modle est parfait. L'analogie avec le R2 de la rgression linaire multiple est totale
= 0.3199
2 R2 de Cox and RCS = 1
Snell
L0 LM
)2
R2 de Nagelkerke
2 RN =
2 RCS 2 max[RCS ]
2 Min = 0. Max si LM = 1, avec RCS = 1 4.94104 20 = 0.3235 2.4610 2 [ 2 ] (n) max RCS = 1 L0 . L'indicateur n'est pas normalis, c'est un peu gnant. 2 0.3235 Min = 0. Max = 1. C'est une RN = 0.7053 = 0.4587 simple normalisation du R2 de Cox and Snell.
Tableau 1.1.
Quelques pseudo-R2 - Application au chier COEUR
1.6.2 Quelques pseudo-R2

Les pseudo-R2 rsultent de l'opposition, sous direntes formes, de la vraisemblance du modle tudi
LM avec celle du modle trivial L0 . Ils quantient la contribution des descripteurs dans l'explication de
Page: 24
macro: svmono.cls
date/time: 21-Jun-2011/16:10

la variable dpendante. c.--d. s'il prsente une vraisemblance ou une log-vraisemblance plus favorable.
25
Grosso modo, il s'agit de vrier si notre modle fait mieux que le modle trivial
Plusieurs formes de pseudo-R2 sont proposs dans la littrature, nous en distinguons quelques uns (Tableau 1.1) (voir [23], page 407 ; [9], page 166). Les R2 de Mac Fadden et de Nagelkerke sont les plus simples apprhender : lorsque la rgression ne sert rien, les variables explicatives n'expliquent rien, l'indicateur vaut 0 ; lorsque la rgression est
2 parfaite, l'indicateur vaut 1. Menard ([10], page 27) suggre que le RM F de McFadden est le plus adapt
la rgression logistique : il est le plus proche conceptuellement du coecient de dtermination de la rgression linaire multiple ; il n'est pas sensible des modications de la proportion de positifs dans le chier d'apprentissage.
2 Dans notre exemple, avec RM F = 0.3199, il semble que notre modle se dmarque du modle trivial.
On ne saurait pas dire en revanche si l'apport est signicatif ou non, nous en saurons d'avantage lorsque nous aborderons l'valuation statistique (Chapitre 3).
Page: 25
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 26
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2 valuation de la rgression
Maintenant que nous avons construit un modle de prdiction, il faut en valuer l'ecacit. Nous pouvons le faire de direntes manires :
Confronter les valeurs observes de la variable dpendante Y () avec les prdictions Y ().
Comparer les vraies valeurs avec celles prdites par le modle . En eet, n'oublions pas que la rgression logistique sait fournir une bonne approximation de cette quantit [16]. Elle peut se rvler trs utile lorsque nous souhaitons classer les individus selon leurs degrs de positivit ou introduire d'autres calculs ultrieurement (ex. intgrer les cots de mauvais classement). Dans ce chapitre, nous nous consacrons ce que l'on appellerait des mthodes d'valuation externes , bases sur les prdictions y () et/ou les probabilits a posteriori () fournies par le classieur. A aucun moment nous n'exploitons des informations spciques (internes) la rgression logistique (logvraisemblance). De fait, les
techniques et ratios prsents dans ce chapitre peuvent s'appliquer tout classieur issu d'un processus d'apprentissage supervis, pourvu qu'il sache fournir y()
courbe ROC par exemple), ne soient pas plus utilises par ailleurs.
et () (ex. analyse discriminante, arbres de dcision, rseaux de neurones, etc.). On s'tonne d'ailleurs que certaines procdures, trs populaires dans le cadre de la rgression logistique (la construction de la
2.1 La matrice de confusion

2.1.1 Construction et indicateurs associs
Pour valuer la capacit bien classer du modle, nous pourrions reproduire la dmarche utilise prcdemment (Figure 1.2) : construire la colonne prdiction, puis la colonne erreur (Y, Y ), comptabiliser le nombre de mauvais classement, en dduire le taux d'erreur. Il est plus judicieux de construire ce que l'on appelle une matrice de confusion (en anglais classication table ). Elle confronte toujours les valeurs observes de la variable dpendante avec celles qui sont prdite, puis comptabilise les bonnes et les mauvaises prdictions. Son intrt est qu'elle permet la fois
Page: 27
macro: svmono.cls
date/time: 21-Jun-2011/16:10
28
Y Y + + a c a+c b d b+d
Total
a+b c+d n=a+b+c+d
Total
Tableau 2.1.
Matrice de confusion - Forme gnrique
d'apprhender la quantit de l'erreur (le taux d'erreur) et de rendre compte de la structure de l'erreur (la manire de se tromper du modle). Dans un problme 2 classes (+ vs. -), partir de la forme gnrique de la matrice de confusion (Tableau 2.1), plusieurs indicateurs peuvent tre dduits pour rendre compte de la concordance entre les valeurs observes et les valeurs prdites (voir [10], pages 27 36). Nous nous concentrons sur les ratios suivants : a sont les vrais positifs c.--d. les observations qui ont t classes positives et qui le sont rellement. c sont les
faux positifs c.--d. les individus classs positifs et qui sont ralit des ngatifs.
de la mme manire, b sont les faux ngatifs et d sont les vrais ngatifs. Mais ces termes sont peu utiliss en pratique car les positifs et les ngatifs n'ont pas le mme statut dans la majorit des tudes (ex. les positifs sont les fraudeurs que l'on cherche isoler ; les positifs sont les personnes atteintes d'une maladie que l'on chercher dtecter ; etc.). Le
taux d'erreur est gal au nombre de mauvais classement rapport l'eectif total c.--d.
=
b+c a+d =1 n n Il estime la probabilit de mauvais classement du modle.

Le taux de succs correspond la probabilit de bon classement du modle, c'est le complmentaire 1 du taux d'erreur
=
La sensibilit (ou le rappel, ou encore le taux retrouver les positifs La
a+d =1 n
de vrais positifs [TVP] ) indique la capacit du modle
prcision
a a+b indique la proportion de vrais positifs parmi les individus qui ont t classs positifs Se = Sensibilit = T V P = rappel = e precision = a a+c
Elle estime la probabilit d'un individu d'tre rellement positif lorsque le modle le classe comme tel. Dans certains domaines, on parle de La
spcicit, l'inverse de la sensibilit, indique la proportion de ngatifs dtects

Sp = Spcicit = e e d c+d
valeur prdictive positive (VPP).
1. Il faut tre prcis sur les terminologies. Chez certains auteurs, validation externe correspond une valuation du modle sur un chantillon part, dit chantillon test, n'ayant pas particip la construction du modle ([9], pages 186 188).

Parfois, on utilise le t classs positifs c.--d.
29
taux de faux positifs (TFP), il correspond la proportion de ngatifs qui ont

TFP =
c = 1 Spcicit e e c+d La F-Mesure est trs utilise en recherche d'information. Elle synthtise (moyenne harmonique) le
rappel et la prcision, l'importance accorde l'une ou l'autre est paramtrable avec
F =
Lorsque
(1 + 2 ) rappel precision 2 precision + rappel
* = 1 est la valeur usuelle, on accorde la mme importance au rappel et la prcision, la F-Mesure devient
F=1 =
2 rappel precision precision + rappel
* < 1, on accorde plus d'importance la prcision par rapport au rappel. Une valeur frquemment utilise est = 0.5, on accorde deux fois plus d'importance la prcision. * > 1, on accorde plus d'importance au rappel par rapport la prcision. Une valeur frquemment rencontre est = 2. La F-Mesure est une moyenne harmonique entre le rappel et la prcision, en eet nous pouvons l'crire de la manire suivante
F =
o 2 =
1 .
1 1 1 precision + (1 ) rappel
Quelques remarques sur le comportement de ces indicateurs

Un "bon" modle doit prsenter des valeurs faibles de taux d'erreur et de taux de faux positifs (proche de 0) ; des valeurs leves de sensibilit, prcision et spcicit (proche de 1). Le taux d'erreur est un indicateur symtrique, il donne la mme importance aux faux positifs (c) et aux faux ngatifs (b). La sensibilit et la prcision sont asymtriques, ils accordent un rle particulier aux positifs. Enn, en rgle gnrale, lorsqu'on oriente l'apprentissage de manire amliorer la sensibilit, on dgrade souvent la prcision et la spcicit. Un modle qui serait meilleur que les autres sur ces deux groupes de critres antinomiques est celui qu'il faut absolument retenir.
2.1.2 Autres indicateurs

La sensibilit et la spcicit jouent un rle particulier dans l'valuation des classieurs. En eet : Un "bon" modle doit prsenter des valeurs leves sur ces deux critres d'valuation. Comme nous le disions plus haut, lorsqu'on oriente l'apprentissage pour amliorer la sensibilit, on dgrade (souvent) la spcicit. Raison de plus pour les surveiller simultanment.
30
Tous deux partagent une proprit importante : ils ne dpendent pas du schma d'chantillonnage. Mme si l'chantillon n'est pas reprsentatif c.--d. la proportion des positifs (resp. des ngatifs) ne rete pas la probabilit d'tre positif (resp. ngatif), la sensibilit et la spcicit n'en sont pas aect. Tout simplement parce que nous utilisons le "prol-ligne" de la matrice de confusion. Lorsque nous travaillons sur des donnes o la proportion des positifs a t xe arbitrairement (schma d'chantillonnage rtrospectif), cette proprit est prcieuse car elle nous vite d'avoir procder des redressements prilleux. Enn, pour couronner le tout, la grande majorit des indicateurs d'valuation des classieurs peuvent s'crire en fonction de la sensibilit et la spcicit. Dans ce qui suit, nous r-crivons quelques indicateurs dcrits prcdemment de manire faire
ressortir la synthse entre sensibilit et spcicit. Nous proposerons aussi d'autres indicateurs moins connus en apprentissage automatique.
Taux d'erreur
La probabilit de mal classer peut tre dcompose de la manire suivante :
P (erreur) = P [(Y = + et Y = ) ou (Y = et Y = +)] = P (Y = + et Y = ) + P (Y = et Y = +) = P (Y = +) P (Y = /Y = +) + P (Y = ) P (Y = +/Y = ) = p (1 Se ) + (1 p) (1 Sp )

On le devine aisment dans cette expression, le taux d'erreur sera d'autant plus faible que la sensibilit et la spcicit sont levs (proches de 1). Selon le schma d'chantillonnage, deux situations sont envisageables : 1. Nous avons un chantillon reprsentatif c.--d. nous pouvons estimer p l'aide de p = avons
a+b n ,
nous
a c+d d a+b (1 )+ (1 ) n a+b n c+d a+b c c+d c = ( )+ ( ) n a+b n c+d c+d = n
Nous retrouvons l'expression du taux d'erreur issu de la matrice de confusion ci-dessus. 2. L'chantillon n'est pas reprsentatif mais nous disposons par ailleurs de la vraie valeur de p (connaissances du domaines, tudes prcdentes, etc.). Nous formons
a d ) + (1 p) (1 ) a+b c+d Les estimations de la sensibilit et de la spcicit partir de la matrice de confusion restent valables = p (1
parce que ce sont des "prols lignes" du tableau, ils ne dpendent pas de la proportion des positifs et ngatifs dans le chier.
31
Taux de succs
Le taux de succs est le complmentaire 1 du taux d'erreur, nous pouvons naturellement l'crire en fonction de Se et Sp
= 1 = 1 [p (1 Se ) + (1 p) (1 Sp )] = p Se + (1 p) Sp
Prcision
Toujours en partant de la dnition probabiliste, la prcision (valeur prdictive positive) peut s'crire
V PP =
p Se p Se + (1 p) (1 Sp )
Indice de Youden
L'indice de Youden est bien connue en biostatistique, moins en apprentissage supervis. Il s'crit
IY = Se + Sp 1
(2.1)
Son mrite est de caractriser le classieur selon la sensibilit et la spcicit. Il prend la valeur maximum 1 lorsque le modle est parfait. En eet, dans ce cas Se = 1 et Sp = 1. Il peut tre utilis pour comparer les performances de plusieurs modles. Son interprtation n'est pas trs vidente en revanche. C'est le principal frein son utilisation.
Rapport de vraisemblance
Le rapport de vraisemblance dcrit le surcrot de chances des positifs (par rapport aux ngatifs) d'tre classs positifs. Sa dnition est la suivante :
L= =
P (Y = +/Y = +) P (Y = +/Y = ) P (Y = +/Y = +)
1 P (Y = /Y = ) Se = 1 Sp
Le rapport de vraisemblance ne dpend pas de la proportion des positifs. Il donne donc des indications valables mme si l'chantillon n'est pas reprsentatif. Plus grande est sa valeur, meilleur sera le modle.
32
Fig. 2.1.
COEUR - Matrice de Confusion
2.1.3 Exemple : coeur = f (age, taux max, angine)

Voyons ce qu'il en est sur notre chier COEUR. Nous avons complt la feuille de calcul en lui adjoignant la colonne "Prdiction" (Figure 2.1). La rgle de classement utilise est la suivante
Si () > 0.5 alors Y () = +

De manire compltement quivalente, nous pouvions nous baser sur le LOGIT avec
Si C() > 0 alors Y () = +

Nous pouvons former la matrice de confusion en confrontant les colonnes "Coeur" et "Prdiction". Nous en dduisons les principaux indicateurs d'valuation des classieurs : Taux d'erreur =
1+3 20 = 0.20 Taux de succs = 3+13 = 0.80 20 Sensibilit = Rappel = 3 = 0.50 6 Prcision = 3 = 0.75 4 Spcicit = 13 = 0.93 (0.92857143) 14 2 )0.50.75 F-Mesure = F=1 = (1+10.75+0.5 = 12
0.60 =7
Indice de Youden = 0.5 + 0.93 1 = 0.43 Rapport de vraisemblance =

0.5 10.92857143
Page: 32
macro: svmono.cls
date/time: 21-Jun-2011/16:10
33
En termes de performances, nous constatons que le modle issu de la rgression logistique semble (pourquoi cette prudence ? nous verrons pourquoi plus loin, section 2.1.5) meilleur que le prcdent bas sur les probabilit conditionnelles P (COEU R/AN GIN E) qui prsentait un taux d'erreur gal 0.25 (Figure 1.2).
2.1.4 Le modle est-il "intressant" ?

Une de mes questions favorites en cours, aprs avoir prsent ces concepts, est la suivante : "j'ai un taux d'erreur de 0.20, c'est bien ou c'est pas bien ?". Gnralement, un silence gn s'installe avant que ne vienne des rponses plus ou moins loufoques. Puis arrive la bonne rponse qui est en ralit une question " quoi peut-on comparer cette valeur ?". Nous avions dj abord cette ide lors de la prsentation des pseudo-R2 (section 1.6). Nous avions obtenu une rponse claire, l'lment de comparaison est la dviance du modle ne comportant que la constante a0 . Il faut gnraliser l'approche en sortant du seul cadre de la rgression logistique, et proposer un indicateur qui confronte des taux d'erreur. Le modle par dfaut est dni comme un modle qui n'utilise pas les informations en provenance des variables explicatives. Si l'on s'en tient au cadre bayesien (section 1.1.3), la rgle d'aectation devient
yk = arg max P [Y () = yk ]
k
La rgle de dcision du classieur par dfaut est donc trs simple : on aecte, pour tout individu classer, la modalit majoritaire dans l'chantillon d'apprentissage. Pour le chier COEUR, sachant que la proportion des "prsence (+)" est (-)"
14 20 . 6 20
= 0.3, celle des "absence
En l'absence de toute information en provenance de variables explicatives, nous avons intrt
aecter systmatiquement la conclusion "absence" tous les individus que l'on souhaite classer. La matrice de confusion du classieur par dfaut est facile construire
Y Y +
Total Et le taux d'erreur associ est
+ 0 0 0
6 14 20
Total
6 14 20
(def ) =
6 = 0.3 20
Page: 33
macro: svmono.cls
date/time: 21-Jun-2011/16:10
34
Pseudo-R2 bas sur le taux d'erreur

Maintenant, nous avons un lment de rfrence. Le taux d'erreur de la rgression logistique est
(M ) =
4 20
= 0.2 ; celui du modle par dfaut est (def ) =
6 20
= 0.3.
Nous pouvons en dgager une sorte de pseudo-R2 qui s'crit

2 R = 1
(M ) (def )
2 Si notre modle est parfait, avec un taux d'erreur nul, nous obtenons R = 1 ; si notre modle ne sait 2 pas faire mieux que le classieur par dfaut, nous avons R = 0.
Elle est note p cause de sa similitude avec le de Goodman et Kruskal (1954) - une mesure d'association pour les tableaux de contingence - dans certains ouvrages [10] (page 32). Son inconvnient est qu'elle peut prendre des valeurs ngatives lorsque le modle tudi est moins bon que le modle par dfaut. Cette conguration arrive principalement lorsque les classes sont trs dsquilibres dans le chier de donnes. Le taux d'erreur du classieur par dfaut est d'oce trs faible, il est dicile de faire mieux. C'est une des critiques que l'on adresse la matrice de confusion en tant qu'outil d'valuation d'ailleurs. Pour nous, ce n'est pas rdhibitoire. Il faut en tre conscient simplement et ne pas pousser des hauts cris parce qu'on obtient quelque chose que l'on dsigne par R2 et qui s'avre tre ngatif. Pour le chier COEUR, le pseudo-R2 est
2 R = 1
0.2 = 1 0.67 = 0.33 0.3
La rgression logistique fait mieux que le classieur par dfaut.
Un test de comparaison des taux d'erreur

Le modle M produit par la rgression logistique semble faire mieux si l'on compare son taux d'erreur avec celui du classieur par dfaut. Mais est-ce rellement signicatif ? Est-ce que l'cart va au-del des simples uctuations d'chantillonnage ? Nous avons deux proportions comparer. L'hypothse nulle est "notre modle ne fait pas mieux que le classieur par dfaut" en termes de probabilit de mauvais classement ; l'hypothse alternative est "notre modle est meilleur" (probabilit de mal classer plus faible). Il est hors de question d'utiliser le test usuel car les chantillons ne sont pas indpendants. La piste serait plutt du ct de la comparaison un standard (taux d'erreur du classieur par dfaut), sachant que ce dernier a lui aussi t mesur sur le chier. Bulmer (1979) [10] (page 34) propose la statistique suivante pour rpondre notre question
d=
(def ) (M )
1 n (def ) (1
(def ) )
(2.2)
Page: 34
macro: svmono.cls
date/time: 21-Jun-2011/16:10

que n augmente (ds que n(def ) (1 (def ) ) > 9). La rgion critique du test, rejet de l'hypothse nulle, au risque pour le test unilatral s'crit
35
Elle suit une loi binomiale, mais elle se rapproche trs rapidement de loi normale centre rduite ds
R.C. : d > u1
O u1 est le fractile d'ordre 1 de la loi normale centre est rduite. Voyons ce qu'il en est pour notre exemple COEUR, la formation de la statistique ne pose aucun problme, nous avons
d=
0.1 1 = = 1.18 = 0.0894 1 0.008 0.2(1 0.2) 20
0.3 0.2
La rgression logistique ne semble pas si bonne que cela nalement ?
Mance. Ce test a le mrite d'exister, mais c'est bien son seul mrite. En eet, on se rend compte
l'usage que la moindre dirence entre les taux d'erreur est quasi-systmatiquement entrine pour peu que la taille du chier dpasse la centaine d'observations (dans le data mining, on traite souvent des chiers avec plusieurs milliers voire centaines de milliers d'observations !). Elle est systmatiquement rfute sur des petits chantillons (notre chier COEUR). Ses indications sont nalement trs peu utilisables. Mieux vaut s'en tenir des indicateurs simples tel que le pseudo-R2 qui donne avant tout un ordre d'ides sur la pertinence du modle.
2.1.5 Subdivision "apprentissage - test" des donnes pour une valuation plus able
Le modle issu de la rgression logistique avec les 3 variables (resub = 0.2) semble meilleur que celui bas uniquement sur "angine" (resub = 0.25) si l'on se rfre au taux d'erreur en resubstitution. Faut-il s'en tenir cela ? Non, car nous utilisons les mmes donnes pour construire le modle et pour l'valuer. Or, dans ce contexte, les classieurs plus complexes ayant tendance "coller" aux donnes laissent penser, tort, qu'ils prsentent de meilleures performances. En rgle gnrale, plus une observation pse sur son
le taux d'erreur en resubstitution est totalement inutilisable ds lors que l'on souhaite comparer les performances de modles de complexit dirente (ou reposant sur des reprsentations direntes ex. arbre de dcision vs. rgression logistique).
propre classement en gnralisation, plus optimiste sera le taux d'erreur en resubstitution. Bref,
Parmi les solutions envisageables, la plus simple consiste valuer le classieur sur des donnes part qui n'ont pas particip au processus d'apprentissage. Nous procdons de la manire suivante lorsque l'on dispose d'un chantillon de taille n : 1. Nous tirons au hasard na individus parmi n, il s'agit de l'chantillon d'apprentissage, nous les utilisons pour construire le modle de prdiction Ma . On ddie gnralement 70% des donnes l'apprentissage. Mais ce n'est pas aussi simple, nous en rediscuterons plus loin.
36
2. Sur les nt observations restantes,

nt n
l'chantillon test, nous appliquons le modle Ma , et nous laborons
la matrice de confusion en confrontant les valeurs observes et les valeurs prdites. Habituellement,
=1
na n
= 30%.
Principal atout de cette approche, les indicateurs ainsi obtenus sont non-biaiss. Ils permettent de comparer les mrites respectifs de plusieurs modles, mme s'ils sont de complexit dirente, mme s'ils ne reposent pas sur des systmes de reprsentation identiques (ex. un classieur linaire vs. un classieur non linaire). C'est la dmarche privilgier si l'on dispose de susamment d'observations. Et c'est bien l le principal dfaut de cette dmarche. Lorsque nous travaillons sur un petit chantillon, en rserver une partie pour l'valuation pnalise la construction du modle, sans pour autant que l'on ait une valuation able des performances puisque l'eectif est trop faible. Nous sommes face 2 exigences contradictoires : Rserver une grande partie des donnes l'apprentissage favorise la construction d'un modle de bonne qualit. En revanche, l'chantillon test sera trop rduit pour esprer obtenir une estimation viable des performances en prdiction. Rserver une fraction plus forte au test permet certes d'obtenir une valuation able. Mais dans ce cas nous nous tirons une balle dans le pied (ae !) car le modle labor peut tre dgrad faute d'informations (d'observations) susantes. Bref, les proportions habituellement mises en avant (70% vs. 30%) ne doivent pas tre prises au pied de la lettre. Tout est aaire de compromis : il en faut susamment pour l'apprentissage an de produire un modle consistant ; il en faut susamment pour le test an d'obtenir une valuation able des performances. Les "bonnes" proportions dpendent souvent des caractristiques du classieur et des donnes analyses (rapport entre le nombre d'observations et le nombre de variables, degr de dicult du concept apprendre, etc.).
Remarque : A propos des mthodes de r-chantillonnage.
Lorsque les eectifs sont trs
faibles, nous avons intrt construire le modle M sur la totalit des donnes, puis utiliser des techniques de r-chantillonnage pour en mesurer les performances (ex. la validation croise, le bootstrap). L'intrt est double. Nous utilisons la totalit des donnes (la totalit de l'information disponible) pour construire le classieur. Et nous pouvons obtenir une valuation (plus ou moins) faiblement biaise de son erreur de prdiction [17].
2.1.6 Inconvnients de la matrice de confusion

Pour intressante qu'elle soit, elle est trs utilise en apprentissage supervis, la matrice de confusion prsente une faiblesse importante : elle repose essentiellement sur les prdictions y (), sans tenir compte des probabilits estimes (). Se baser uniquement sur les prdictions est un peu rducteur. En eet, un individu avec () = 0.495 sera dsign "ngatif", un autre avec ( ) = 0.505 sera dsign "positif". Pourtant, si l'on se rfre aux probabilits, ils sont nalement assez proches. La matrice de confusion ne nous rapporte pas ce type d'information [9] (pages 156 160). Autre cueil auquel sont confronts la matrice de confusion et le taux d'erreur qui en est driv, ils sont sensibles l'importance relative des groupes c.--d. la proportion des "positifs" et "ngatifs" dans
2.2 Diagramme de abilit
37
le chier. Le classement dans le groupe le plus important est toujours favoris. Par exemple, si nous avons 99% de positifs, nous avons intrt classer systmatiquement les observations dans cette classe, nous avons la garantie que le taux d'erreur sera gal 1%. On pourrait penser alors que construire un classieur dans ce contexte ne sert rien.

2.2.1 Calcul et interprtation du diagramme de abilit
Contrairement certaines mthodes supervises (ex. support vector machine, classieur bayesien naf), la rgression logistique produit une bonne approximation de la quantit (). La premire ide qui vient l'esprit est de confronter les probabilits estimes par le modle et celles observes dans le chier de donnes. On construit pour cela le diagramme de abilit (en anglais
reliability diagram ) [16].
Ici galement, si nous en avons la possibilit, nous avons tout intrt construire le diagramme partir des donnes tests n'ayant pas particip l'laboration du classieur. Les indications obtenues n'en seront que plus crdibles. Voici les principales tapes de la construction du diagramme de abilit : 1. Appliquer le classieur sur les donnes pour obtenir le score (). 2. Trier le chier selon le score croissant. 3. Sur la base du score, subdiviser les donnes en intervalles (ex. 0.0-0.2, 0.2-0.4, etc.). 4. Dans chaque intervalle, calculer la proportion de positifs. 5. Dans le mme temps, toujours dans chaque intervalle, calculer la moyenne des scores. 6. Si les chires concordent dans chaque intervalle, les scores sont bien calibrs, le classieur est de bonne qualit. 7. Nous pouvons rsumer l'information dans un graphique 8.
abilit, avec en abcisse la moyenne des scores, en ordonne la proportion de "positifs". Si les scores sont bien calibrs, les points devraient tre aligns sur une droite, la premire bissectrice.
nuage de points appel diagramme de
9. Les points s'cartant sensiblement de la premire bissectrice doivent attirer notre attention.
2.2.2 Exemple : COEUR = f(age, taux max, angine)

Nous reprenons notre exemple de dtection des problmes cardiaques (Figure 0.1). L'eectif tant trs faible, n = 20, nous raliserons un dcoupage en 3 groupes selon le score, avec les intervalles 0.00-0.33, 0.34-0.66, 0.67-1.00. Nous appliquons la lettre la dmarche ci-dessus, nous obtenons une nouvelle feuille de calcul sous Excel (Figure 2.2) :
38
Fig. 2.2.
COEUR - Calcul du Diagramme de abilit
Le tableau a t tri selon un le score croissant. Dans le 1er groupe, avec un score variant entre 0.00 et 0.33 c.--d. de l'observation no 1 au no 12, la proportion de "+" est gale
0.0164+0.0362++0.2134 12 1 12
= 0.0833%. Dans le mme temps, la moyenne des scores est gale
= 0.1042. Nous obtenons le premier point du graphique.
Nous faisons de mme pour les autres groupes, nous obtenons le diagramme de abilit (Figure 2.3).
Fig. 2.3.
COEUR - Diagramme de abilit
Manifestement, il y a un problme dans notre rgression. Les points ne sont pas aligns du tout. Mais on ne devrait pas trop s'en tonner. Les eectifs sont tellement faibles (n = 20) qu'il pouvait dicilement
Page: 38
macro: svmono.cls
date/time: 21-Jun-2011/16:10

surcrot, ajouter ou retirer une observation peut le modier fortement.
39
en tre autrement. Les rsultats sont de mauvaise qualit. Le classieur est certainement trs instable de
2.2.3 Exemple : Acceptation de crdit

Penchons-nous sur des donnes un peu plus ralistes pour montrer l'intrt de cette procdure. Dans le problme qui suit, nous souhaitons expliquer l'accord d'un prt par un organisme de crdit partir l'ge du rfrant, le revenu par tte dans le mnage, le fait d'tre propritaire de son habitation ou non, occuper une profession indpendante ou non, le nombre de problmes rencontrs avec sa banque. Nous disposons de n = 100 observations, avec n+ = 73 positifs.
Fig. 2.4.
CREDIT - Diagramme de abilit
De nouveau, nous reproduisons les tapes permettant d'obtenir le diagramme de abilit (Figure 2.4, nous ne visualisons que les 40 premires observations ici) : Nous avons estim les paramtres du modle l'aide de Tanagra, nous obtenons les valeurs suivantes (Remarque : nous ignorons pour l'instant les autres informations)
Page: 39
macro: svmono.cls
date/time: 21-Jun-2011/16:10
40
Variable Constante Age Rev.Tete Prof.Indep Nb.Prob Coecient
2.9384 0.0734 0.3850 2.8773 1.5838
Propritaire 0.1491
Nous calculons alors le LOGIT pour chaque individu. Pour la premire observation, nous avons
C(1) = 2.9384 0.0743 30 + 0.3850 3 0.1491 1 2.8773 0 1.5838 7 = 9.3699

Nous en dduisons le score
1 = 0.0001 1 + e(9.3699) Une fois calcul tous les scores, et le tableau tri, nous dcidons de procder un dcoupage en 4 (1) =
intervalles, dnies par 0.00 0.25, 0.26 0.50, etc . Dans chaque intervalle nous comptabilisons la proportion de positifs et, dans le mme temps, nous calculons la moyenne des scores (nous avons utilis les tableaux croiss dynamiques pour cela). Il ne reste plus qu' produire le diagramme de abilit. Concernant le chier CREDIT, nous constatons que le modle produit une bonne estimation des quantits (), les points sont quasiment aligns sur une droite.
2.3 Test de Hosmer-Lemeshow

2.3.1 Construction du test de Hosmer-Lemeshow
Le test de Hosmer-Lemeshow [9] (pages 147 156 ; des variantes sont proposes) relve peu prs de la mme logique que le diagramme de abilit. A la dirence qu'au lieu de se baser simplement sur une impression visuelle, on extrait du tableau de calcul un indicateur statistique qui permet de quantier la qualit des estimations (). Concrtement, nous procdons de la manire suivante : 1. Appliquer le classieur sur les donnes pour obtenir les estimations () (score). 2. Trier les donnes selon le score croisant. 3. Subdivisez les donnes en G groupes en se basant sur les quantiles (ex. les quantiles d'ordre 4 correspondent aux quartiles, les quantiles d'ordre 10 aux dciles, etc.). Les auteurs proposent prioritairement les dciles (G = 10). Il semble par ailleurs plus judicieux d'utiliser les quantiles plutt que les seuils sur les scores comme cela a t fait pour le diagramme de abilit. L'approximation de la loi de distribution de la statistique du test sous H0 est de meilleure qualit [9] (page 149).
2. Attention, le nombre d'intervalles est dterminant dans cette procdure. Nous avons toujours intrt xer un nombre assez faible de manire obtenir un bon "lissage" de la courbe. S'il est trop lev, la courbe devient chaotique, trs peu utilisable et laissant penser que les classieurs sont toujours de mauvaise qualit
2.3 Test de Hosmer-Lemeshow

4. Dans chaque groupe g , d'eectif mg , nous devons calculer plusieurs quantits : mg1 , le nombre de positifs observs ;
41
mg0 , le nombre de ngatifs observs ; mg1 = g (), la somme des scores des observations situes dans le groupe g . On la dsigne comme la frquence thorique des positifs dans le groupe ; g1 =
mg1 mg ,
la moyenne des scores observs dans le groupe g ;
mg0 = mg mg1 , la frquence thorique des ngatifs. 5. Nous calculons alors la statistique de Hosmer et Lemeshow en utilisant une des formules suivantes ([23], page 407 ; [9], page 148)
C=
(mg0 mg0 )2 mg1 mg0 g [ ] mg (mg1 mg1 )2 = mg1 (mg mg1 ) g + = (mg1 mg1 )2
g
[ (mg1 mg1 )2
]
(2.3) (2.4) (2.5)
mg1 (1 g1 )
6. Lorsque le modle est correct (H0 ), la statistique C suit approximativement une loi du 2 (G 2)
degrs de libert. 7. Lorsque la probabilit critique du test (p-value) est plus grand que le risque choisi, le modle issu de la rgression logistique est accept. 8. Les rserves usuelles concernant ce type de test restent de mise ici. Il faudrait entres autres que tous les eectifs thoriques soient suprieurs 5 dans toutes les cases du tableau. Si ce n'est pas le cas, on devrait procder des regroupements et corriger en consquence les degrs de libert. Mais il ne faut pas non plus s'arc-bouter cette ide. Il s'agit d'un outil d'valuation du classieur, il donne avant tout une indication sur la qualit des () [9] (page 150). 9. Enn, au del de la statistique elle-mme, l'tude du tableau de calcul, en particulier la dtection des situations o les eectifs observs et thoriques sont fortement dissemblables, donnent des indications prcieuses sur le comportement du classieur [9] (page 151). Nous nous rapprochons en cela une tude qualitative dj mise en avant lors de la prsentation du diagramme de abilit.
Remarque : Hosmer et Lemeshow sur un chantillon test. Tout comme pour la matrice de
confusion, nous pouvons subdiviser les donnes en 2 parties : la premire pour construire le modle, la seconde pour l'valuer. La procdure de Hosmer et Lemeshow peut tre labore sur ce second chantillon. La statistique de test reste identique, les degrs de libert en revanche sont modis puisqu'aucun paramtre n'a t estim sur ces donnes (voir [9], pages 186 188 ; d'autres statistiques sont proposes, toujours dans le contexte d'une valuation sur un chantillon test).
2.3.2 Acceptation de crdit - Test de Hosmer-Lemeshow

Nous travaillons sur le chier "Acceptation de crdit" (section 2.2.3). Il comporte susamment d'observations n = 100 pour que la subdivision en G = 10 groupes ne pose pas trop de problmes.
42
Nous avons dj obtenu prcdemment, lors de l'tude du diagramme de abilit, la colonne de score
et tri le chier (Figure 2.4). Il ne nous reste plus qu' constituer les groupes en nous basant sur les dciles (G = 10). Nous devrions obtenir les mmes eectifs mg = prs, tout dpend s'il y a des ex-aequo ou non).
100 10
= 10 dans chaque groupe ( peu
Fig. 2.5.
CREDIT - Test de Hosmer et Lemeshow
La feuille de calcul est construite comme suit (Figure 2.5, l'achage est limit aux 37 premires observations) : Tout d'abord, nous calculons les dciles. Le 1er dcile est gal 0.271, le 2nd 0.6249. Nous vrions le nombre d'observations dans chaque groupe, nous avons bien mg = 10, g puisque
n = 100.
Dans chaque groupe, nous comptons le nombre de positifs et de ngatifs. Pour le 1er groupe par exemple, nous avons m11 = 2 et m10 = 10 2 = 8. Puis nous calculons les eectifs esprs en faisant la somme des scores dans le groupe. Pour le 1er groupe, nous avons m11 = 0.0001 + 0.0044 + 0.0195 + + 0.2828 = 1.1985. Nous en dduisons
m10 = 10 1.1985 = 8.8015.

Il ne reste plus qu' calculer la statistique de Hosmer et Lemeshow en utilisant une des formules ci-dessus. Pour la premire, nous avons
Page: 42
macro: svmono.cls
date/time: 21-Jun-2011/16:10
[ ] [ ] (2 1.1985)2 (8 8.8015)2 (9 9.3864)2 (1 0.6136)2 C= + + + + = 7.8291 1.1985 8.8015 9.3864 0.6136

Pour la seconde,
2.4 Le test de Mann-Whitney
43
[ C=
] [ ] 10(2 1.1985)2 10(9 9.3864)2 + + = 7.8291 1.1985(10 1.1985) 9.3864(10 9.3864)
Les degrs de libert tant gales G 2 = 10 2 = 8, nous obtenons une p-value de 0.4503 avec la loi du 2 . La p-value est suprieure au risque usuel de 5%. Le modle est valid, il est compatible avec les donnes.

2.4.1 Pourquoi un test de comparaison de populations ?
La discrimination sera d'autant meilleure que les positifs ont un score () lev et les ngatifs un score faible. Dans les tableaux o l'on trie les observations selon un score croissant, les ngatifs seraient agglutins en haut, les positifs en bas. On peut illustrer ce point de vue en comparant les distributions des scores conditionnellement aux classes d'appartenance. Lorsque le modle est de bonne qualit, les distributions conditionnelles des scores sont bien direncies (Figure 2.6, A) ; dans le cas contraire, elles sont confondues (Figure 2.6, B).
Fig. 2.6.
Distributions types des scores conditionnellement aux classes
Il faut pouvoir quantier cette impression visuelle. Pour ce faire, un test de comparaison de populations semble appropri. L'objectif est de rpondre la question : "est-ce que les positifs ont des scores (signicativement) plus levs que les ngatifs ?". cadre de l'apprentissage supervis, il
Page: 43
Le test non paramtrique de Mann-Whitney est
celui que l'on retient le plus souvent dans la littrature. Pour direntes raisons [18] (page 34). Dans le
convient surtout parce qu'il est en relation avec le critre

macro: svmono.cls
date/time: 21-Jun-2011/16:10
44
AUC (Area Under Curve) associ la courbe ROC que nous prsenterons plus loin (section 2.5)
[23] (pages 410-411). A dfaut, nous aurions pu utiliser tout autre test permettant de caractriser un dcalage entre les paramtres de localisation des distributions. Rappelons brivement les formules associes ce test : 1. A partir des scores (), nous calculons le rang des r() des individus dans l'ensemble de l'chantillon, sans distinction de classes. 2. Nous calculons alors les sommes conditionnelles de rangs, pour les positifs
r+ =
et pour les ngatifs
:y()=1
r()
r =
3. Nous en dduisons les statistiques
:y()=0
r()
U + = r+
et
n+ (n+ + 1) 2
U = r
n (n + 1) 2
4. La statistique de Mann-Whitney correspond au minimum de ces deux quantits, soit
U = min(U+ , U )
5. Sous H0 , les distributions sont confondues, la statistique centre et rduite Z suit une loi normale
N (0, 1) Z= U
1 12 (n+ n+ n 2
+ n + 1)n+ n
6. Il s'agit usuellement d'un test bilatral. Mais en vrit on imagine mal que les positifs puissent prsenter des scores signicativement plus faibles que les ngatifs. Ou alors, il faudrait prendre le complmentaire 1 des valeurs produites par le classieur.
Deux types de corrections peuvent tre introduites pour prciser les rsultats dans certaines circonstances : une correction de continuit lorsque les eectifs sont faibles ; une correction du dnominateur de la statistique centre et rduite lorsqu'il y a des ex-aequo, on utilise habituellement les rangs moyens [18] (pages 40 et 41-44).
Page: 44
macro: svmono.cls
date/time: 21-Jun-2011/16:10
45
Fig. 2.7.
Fichier COEUR - Test de Mann-Whitney
2.4.2 Fichier COEUR - Test de Mann-Whitney

Nous souhaitons implmenter le test de Mann-Whitney sur le chier COEUR. Nous formons la feuille de calcul (Feuille 2.7) : Il y a n = 14 ngatifs et n+ = 6 positifs dans le chier. Nous construisons la colonne "Rang". Puisque le chier a t tri selon un score croissant, elle prend mcaniquement les valeurs 1, 2, . . . , n. Nous calculons la somme des rangs pour les individus ngatifs r = 113, et pour les positifs r+ = 97. Nous en dduisons U = 113
14(14+1) 2
= 8, U+ = 97 8
6.14 2
6(6+1) 2
= 76, et U = min(U+ , U ) = 8.
La statistique centre et rduite est gale
Z=
1 12 (6.14
= 2.8043
+ 1)6.14
Nous obtenons la probabilit critique du test avec la loi de rpartition normale centre et rduite p-value = 0.0050. Au risque usuel de 5%, nous concluons que les distributions conditionnelles des scores sont dcales.
2.4.3 Acceptation de crdit - Test de Mann-Whitney

tudions maintenant notre chier d'acceptation de crdit (section 2.2.3). Nous introduisons 2 nouveauts, (1) le graphique des distributions conditionnelles ; (2) le calcul de la statistique de Mann-Whitney (Figure 2.8, limit aux 40 premires observations) : Dans un premier temps, nous calculons le nombre de positifs et de ngatifs dans les blocs d'observations dnis par les scores 0.0 0.2, 0.2 0.4, . . . , 0.8 1.0. Nous noterons au passage qu'il y a
n = 27 observations ngatives et n+ = 73 positives.

46
Fig. 2.8.
Acceptation de crdit - Test de Mann-Whitney
Nous en drivons le graphique des distributions conditionnelles. Il y a manifestement un dcalage, notamment pour les valeurs leves du score o les positifs sont sur-reprsents. Passons maintenant au calcul de la statistique de Mann-Whitney. Les donnes ont t tries selon un score croissant. La colonne "Rang" prend les valeurs 1, 2, 3, . . . , n. Nous ralisons la somme des rangs pour chaque catgorie, toujours l'aide de l'outil "Tableaux croiss dynamiques" d'Excel. Nous obtenons r = 721 et r+ = 4329. Nous en drivons U = 721
27(27+1 2
= 343 et U+ = 4329
73(73+1 2
= 1628
La statistique de Mann-Whitney s'crit U = min(343, 1628) = 343 Et la statistique centre et rduite
Z=
343
1 12 (73.27
73.27 2
+1)73.27
= 4.9884
Nous obtenons ainsi une p-value < 0.0001. Les distributions sont eectivement dcales. Les scores permettent de distinguer les positifs des ngatifs.
Page: 46
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2.5 La courbe ROC
47
2.5 La courbe ROC

2.5.1 Justication et construction de la courbe ROC
La courbe ROC est un outil trs riche. Son champ d'application dpasse largement le cadre de l'apprentissage supervis. Elle est par exemple trs utilise en pidmiologie ! . Pour nous, elle prsente surtout des caractristiques trs intressantes pour l'valuation et la comparaison des performances des classieurs [19] : 1. Elle propose un outil graphique qui permet d'valuer et de comparer globalement le comportement des classieurs. 2. Elle est indpendante des cots de mauvaise aectation. Elle permet par exemple de dterminer si un classieur surpasse un autre, quelle que soit la combinaison de cots utilise. 3. Elle est oprationnelle mme dans le cas des distributions trs dsquilibres. Mieux, mme si les proportions des classes ne sont pas reprsentatives des probabilits a priori dans le chier - c'est le cas lorsque l'on procde un tirage rtrospectif c.--d. on xe le nombre de positifs et ngatifs obtenir, et on tire au hasard dans chaque sous-population - la courbe ROC reste valable. 4. Enn, on peut lui associer un indicateur synthtique, le critre AUC (aire sous la courbe, en anglais
area under curve ), que l'on sait interprter.

La courbe ROC met en relation le taux de vrais positifs TVP (la sensibilit, le rappel) et le taux de faux positifs TFP (TFP = 1 - Spcicit) dans un graphique nuage de points. Habituellement, nous comparons () un seuil s = 0.5 pour eectuer une prdiction y (). Nous pouvons ainsi construire la matrice de confusion et en extraire les 2 indicateurs prcits. La courbe ROC gnralise cette ide en faisant varier s sur tout le continuum des valeurs possibles entre 0 et 1. Pour chaque conguration, nous construisons la matrice de confusion et nous calculons TVP et TFP. C'est l'ide directrice. Elle est un peu lourde mettre en place. Dans la pratique, il n'est pas ncessaire de construire explicitement la matrice de confusion, nous procdons de la manire suivante : 1. Calculer le score () de chaque individu l'aide du modle de prdiction. 2. Trier le chier selon un
score dcroissant.
3. Considrons qu'il n'y a pas d'ex-aequo. Chaque valeur du score peut tre potentiellement un seuil s. Pour toutes les observations dont le score est suprieur ou gal s, les individus dans la partie haute du tableau, nous pouvons comptabiliser le nombre de positifs n+ (s) et le nombre de ngatifs n (s). Nous en dduisons T V P =
n+ (s) n+
et T F P =
n (s) n .
4. La courbe ROC correspond au graphique nuage de points qui relie les couples (TVP, TFP). Le premier point est forcment (0, 0), le dernier est (1, 1). Deux situations extrmes peuvent survenir. La discrimination est parfaite. Tous les positifs sont situs devant les ngatifs, la courbe ROC est colle aux extrmits Ouest et Nord du repre (Figure 2.9, A). Les scores sont totalement inoprants, le classieur attribuent des valeurs au hasard, dans ce cas les positifs et les ngatifs sont mlangs. La courbe ROC se confond avec la premire bissectrice (Figure 2.9, B).
3. Voir A. Renaud, Statistique Epidmiologique, Collection "Que Sais-Je", PUF, 1986 ; pages 103 109.
48
Fig. 2.9.
Courbe ROC - Deux situations extrmes
2.5.2 Le critre AUC

Il est possible de caractriser numriquement la courbe ROC en calculant la surface situe sous la courbe. C'est
un ngatif. Ainsi, dans le cas d'une discrimination parfaite, les positifs sont srs d'tre placs devant les
ngatifs, nous avons AU C = 1. A contrario, si le classieur attribue des scores au hasard, il y a autant de chances de placer un positif devant un ngatif que l'inverse, la courbe ROC se confond avec la premire bissectrice, nous avons AU C = 0.5. C'est la situation de rfrence, notre classieur doit faire mieux. On propose gnralement dirents paliers pour donner un ordre d'ides sur la qualit de la discrimination [9] (page 162) (Tableau 2.2).
le critre AUC. Elle exprime la probabilit de placer un individu positif devant
Valeur de l'AUC Commentaire

AU C = 0.5
Pas de discrimination.
0.7 AU C < 0.8 Discrimination acceptable 0.8 AU C < 0.9 Discrimination excellente AU C 0.9
Tableau 2.2.
Discrimination exceptionnelle
Interprtation des valeurs du critre AUC
Pour calculer l'AUC, nous pouvons utiliser une bte intgration numrique, la mthode des trapzes par exemple. Nous verrons plus loin que sa valeur peut tre obtenue autrement, en faisant le parallle avec le test de Mann-Whitney. Au nal, il apparat que le critre AUC est un rsum trs commode. Il permet, entre autres, les comparaisons rapides entre les classieurs. Mais il est vident que si l'on souhaite analyser nement leur comportement, rien ne vaut la courbe ROC.
Page: 48
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2.5 La courbe ROC
49
2.5.3 Fichier COEUR - Courbe ROC

Pour illustrer la construction de la courbe ROC, nous revenons sur le chier COEUR (Figure 0.1). Voyons le dtail des calculs (Figure 2.10) :
Fig. 2.10.
COEUR - Tableau de calcul de la courbe ROC
Nous savons qu'il y a n+ = 6 positifs et n = 14 ngatifs dans le chier. Nous avons calcul la colonne des scores y (), puis nous avons tri le tableau selon le score dcrois sant. Nous insrons arbitrairement le couple (0, 0). Il y a 1 individu ayant un score suprieur ou gal 0.8789. Il est positif, soit n+ (0.8789) = 1 et
T V P1 =
1 6
= 0.1667 ; par consquent n (0.8789) = 0 et T F P1 =

o 3 6
0 14
= 0.0000.
Prenons le cas de l'individu n 4 avec un score de 0.5815. Il a 4 observations avec un score plus grand que ce seuil, avec n+ (0.5815) = 3 et T V P4 =
= 0.5 ; concernant les ngatifs, nous avons
n (0.5815) = 1 et T F P4 =
1 14
= 0.0714.
En procdant ainsi, nous obtenons l'ensemble des points. Il est d'usage d'ajouter la premire bissectrice dans le graphique pour que l'on se rende compte visuellement de l'cartement de la courbe ROC par rapport la situation de rfrence (Figure 2.11). Passons maintenant au calcul de l'AUC. Nous utilisons la mthode des trapzes, une technique d'intgration numrique. On peut toujours discuter de sa prcision par rapport d'autres approches, elle sut amplement dans notre contexte. Pour calculer la surface du tuyaux d'orgue entre les individus conscutifs
i 1 et i, nous utilisons
50
Fig. 2.11.
COEUR - Courbe ROC

T V Pi + T V Pi1 2
si = (T F Pi T F Pi1 )
Nous faisons la somme AU C =
i=1 si
pour obtenir l'aire sous la courbe.
Dans notre exemple (Figure 2.12), nous calculons les si successif. Par exemple, pour i = 3, nous avons
s3 = (0.0714 0.0000)
0.3333+0.3333 2
= 0.0238. Au nal, nous avons AU C = 0.0000 + 0.0000 + 0.0238 +
0.0000 + 0.0357 + + 0.0714 = 0.9048.
Fig. 2.12.
COEUR - Calcul de l'AUC partir des TFP et TVP
Page: 50
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2.6 La courbe rappel-prcision
51
Nous avons 90.5% de chances de placer un positif devant un ngatif en "scorant" avec notre classieur, comparer avec les 50% de la situation de rfrence. Ce rsultat est plutt encourageant. On pouvait facilement le deviner d'ailleurs en observant le graphique (Figure 2.11). La courbe s'carte sensiblement de la premire bissectrice. Elle semble indiquer - avec les rserves toujours de mise tant que nous valuons notre modle sur les donnes d'apprentissage - que notre modle est plutt exceptionnel (cf. Tableau 2.2) avec des estimations () discriminatoires. Ce que ne laissait pas entendre le taux d'erreur en resubstitution de resub = 0.2 issu de la matrice de confusion, bas uniquement sur les prdictions y ().
2.5.4 Critre AUC et Statistique de Mann-Whitney

Il existe une relation entre la statistique U+ de Mann-Whitney et le critre AUC [9] (page 164). La meilleure justication est certainement du ct de l'interprtation de ces quantits sous l'angle des comparaisons par paires [23] (pages 409-411). La relation est la suivante
AU C =
U+ n+ n
(2.6)
Reprenons notre exemple COEUR, le tableau de calcul de la statistique de Mann-Whitney (Figure 2.7) nous fournit U+ = 76. Lorsque nous formons l'expression ci-dessus, nous retrouvons AU C = est eectivement possible d'obtenir directement l'AUC via la statistique de Mann-Whitney.
76 614
0.9048. Exactement la valeur de l'aire sous la courbe obtenue par la mthode de trapze (Figure 2.12). Il

2.6.1 Principe de la courbe rappel-prcision
val ). Suite une requte, nous obtenons un ensemble d'individus que nous appellerons la "cible", nous
La courbe rappel-prcision est trs utilise en recherche d'information (en anglais, information
retrie-
sommes face deux exigences contradictoires : nous aimerions retrouver une fraction leve des positifs potentiels (rappel) ; nous aimerions que la cible ne contienne que des positifs (prcision). La courbe traduit l'arbitrage entre ces deux critres lorsque l'on fait varier le seuil d'aectation s. Elle est conceptuellement proche de la courbe ROC. Pour chaque valeur de s, nous formons (virtuellement) la matrice de confusion et nous calculons les deux indicateurs. Il y a quand mme une dirence trs importante. La prcision tant un "prol-colonne" de la matrice de confusion, il faut donc travailler sur un chantillon reprsentatif (la proportion des positifs
n+ n
doit tre le reet de la probabilit d'tre po-
sitif p) pour pouvoir l'exploiter convenablement. Si cette condition est respecte, elle parat plus adapte que la courbe ROC lorsque les classes sont trs dsquilibres (la proportion des positifs est trs faible), notamment pour direncier le comportement des algorithmes d'apprentissage supervis. Pour laborer la courbe rappel-prcision, nous procdons comme suit : 1. Calculer le score de chaque individu.
52
2. Trier les donnes selon un score dcroissant. 3. Mettons qu'il n'y a pas d'ex-aequo, chaque valeur du score est un seuil potentiel s. Pour les individus situs dans la partie haute du tableau c.--d. dont le score est suprieur ou gal s, il s'agit de la cible, nous comptabilisons le nombre de positifs n+ (s) et le nombre total d'observations n(s). 4. Nous en dduisons le rappel(s) =
n+ (s) n+
et la prcision precision(s) =
n+ (s) n(s) .
Dans les parties hautes du tableau, lorsque le seuil est lev, la taille de la cible sera rduite. La prcision sera forte, dans la cible ne seront prsents que des positifs ; mais le rappel sera faible, une faible fraction de l'ensemble des positifs y sont inclus. A mesure que s diminue, la taille de la cible augmente, elle sera de plus en plus pollue (la prcision diminue) mais intgrera une plus grande fraction des positifs (le rappel augmente). La courbe est donc globalement dcroissante, mais elle n'est pas forcment monotone.
2.6.2 Fichier COEUR - Courbe rappel-prcision
Fig. 2.13.
COEUR - Tableau de calcul de la courbe rappel-prcision
Nous reprenons le chier COEUR. La structure du tableau de calcul est trs similaire celle de la courbe ROC. Les donnes sont tries selon dcroissant (Figure 2.13) : Il y a n+ = 6 positifs et n = 14 ngatifs. Pour le seuil s = 0.8789, la cible contient un seul individu n(s) = 1 et c'est un positif. Nous avons
rappel =
1 6
= 0.1667 et precision =
2 2
1 1
= 1.
2 6
En passant au second individu, qui est toujours un positif, nous obtenons rappel =
= 0.3333 et
precision =
Page: 52
= 1.
macro: svmono.cls date/time: 21-Jun-2011/16:10

Nous procdons jusqu'au dernier individu, nous obtenons pour celui-ci rappel =
6 6
53
= 1 et
precision =
6 20
= 0.3.
Nous obtenons ainsi tous les points qui composent la courbe (Figure 2.14).
Fig. 2.14.
COEUR - Courbe rappel-prcision
Page: 53
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 54
macro: svmono.cls
date/time: 21-Jun-2011/16:10
3 Tests de signicativit des coecients
3.1 Quoi et comment tester ?

3.1.1 criture des hypothses tester
L'objectif des tests de signicativit est d'prouver le rle d'une, de plusieurs, de l'ensemble, des variables explicatives. Formellement, les hypothses nulles peuvent se dcliner comme suit : 1. valuer la contribution individuelle d'une variable
H0 : aj = 0
Ce test de signicativit est systmatiquement donn par les logiciels. Nous verrons plus loin que seule une de ses formes (test de Wald) est en ralit propose. L'autre (test du rapport de vraisemblance) est passe sous silence. Or ces approches ne se comportent pas de la mme manire. Il faut le savoir pour interprter les rsultats en connaissance de cause. 2. valuer la contribution d'un bloc de "q" variables. Sans restreindre la gnralit du propos (les coecients tester ne sont pas forcment conscutifs dans la rgression), nous crirons H0 de la manire suivante
H0 : aj = aj+1 = = aj+q = 0
On ne peut pas le transformer en une succession de tests individuels. En eet, les coecients ne sont pas indpendants (en tous les cas, ils ont une covariance non-nulle). Il faut bien tester la nullit simultane des q coecients. 3. valuer l'apport de l'ensemble des variables explicatives. Nous avons ici une formulation statistique du problme abord lors de la dnition des pseudo-R2 (section 1.6) .
H0 : a1 = a2 = = aJ = 0
Il s'agit d'une valuation globale de la rgression. En eet, si l'hypothse nulle est compatible avec les donnes, cela signierait qu'aucun des descripteurs ne contribue l'explication de la variable dpendante. Le modle peut tre jet aux orties.
Page: 55
macro: svmono.cls
date/time: 21-Jun-2011/16:10
56

Dans tous les cas, l'hypothse alternative correspond : "un des coecients au moins est non-nul". Notons que ces tests s'inscrivent dans le cadre d'une formulation gnrale de la forme
H0 : M a = 0
o M est une matrice de contrastes indpendants m lignes et J +1 colonnes, de rang m. La procdure et les formules sont un peu complexes, mais nous pouvons valuer tout type de conguration ([23], page 421 ; [7], page 90).
3.1.2 Deux approches pour les tests

Nous disposons de 2 stratgies pour implmenter ces tests : 1. S'appuyer sur le principe du
rapport de vraisemblance. L'approche est gnrique, elle est en co-
hrence avec la dmarche d'estimation des paramtres. Elle est puissante c.--d. elle dtecte mieux l'hypothse alternative lorsqu'elle est vraie. L'inconvnient est qu'elle est plus gourmande en ressources machines : chaque hypothse valuer donne lieu une nouvelle estimation des paramtres, donc un processus d'optimisation. Certes les logiciels et les ordinateurs actuels sont trs performants. Il reste que le surcrot de calcul n'est pas ngligeable lorsque nous traitons de grandes bases de donnes. 2. S'appuyer sur la normalit asymptotique des estimateurs (du maximum de vraisemblance). On parle de test de Wald. Le principal avantage est que les informations que l'on souhaite exploiter sont toutes disponibles l'issue de l'estimation du modle complet, incluant l'ensemble des variables. L'obtention des rsultats est donc immdiate. L'inconvnient est que le test de Wald est conservateur. Il a tendance favoriser l'hypothse nulle. Dans ce chapitre, nous prsentons tour tour ces deux dmarches pour les congurations numres ci-dessus. Nous confronterons les rsultats sur le chier COEUR. Vu la trs faible taille du chier, n = 20, nous xerons le risque de premire espce 10%.
3.2 Tests fonds sur le rapport de vraisemblance

3.2.1 Principe du rapport de vraisemblance
Le test du rapport de vraisemblance consiste comparer les vraisemblances de 2 modles embots
Mr et Ms ([9], pages 36 40 ; [10], page 22). Mr comporte r variables, avec donc r + 1 paramtres
estimer (le nombre de degrs de libert du modle est gal [n (r + 1) = n r 1]) ; Ms en comporte
s (s < r), avec pour contrainte, et c'est pour cela qu'on parle de modles embots, qu'elles se retrouvent
toutes dans Mr . La statistique de test s'crit :

LR = 2 ln L(Ms ) L(Mr )
57
(3.1)
o L(M ) reprsente la vraisemblance du modle. Sous H0 , les coecients des variables supplmentaires que l'on retrouve dans Mr sont tous nuls, LR suit une loi du 2 (r s) degrs de libert [7] (page 114). L'expression ci-dessus peut se dcliner sous plusieurs formes
LR = 2 ln
L(Ms ) L(Mr ) = 2 LL(Ms ) (2 LL(Mr )) = Ds Dr
o LL(M ) est la log-vraisemblance, D la dviance. Quelques remarques : 1. LR 0, plus on rajoute de variables dans la rgression, mmes non pertinentes, plus faible sera la dviance . 2. Dans les tests qui nous intressent (section 3.1.1), le modle Mr correspond au modle complet intgrant les J variables explicatives. Pour le chier COEUR, la dviance du modle est gale
DM = 16.618.
3.2.2 Tester la nullit d'un des coecients

Pour tester la signicativit d'un des coecients, il sut de comparer la dviance du modle avec et sans la variable incrimine. Nous souhaitons tester le coecient de AGE dans la rgression COEUR. Nous devons tout d'abord raliser une nouvelle estimation, optimiser la vraisemblance, en excluant cette variable c.--d. en mettant arbitrairement le coecient a1 0. Nous ralisons l'opration l'aide du solveur d'Excel (Figure 3.1). Nous obtenons une dviance D(taux,angine) = 19.0938. Nous pouvons former le rapport de vraisemblance
LR = 19.0938 16.6177 = 2.4761. La probabilit critique avec la loi de rpartition du 2 (1) 3 2 = 1

degr de libert est p-value = 0.115585. Au risque 10%, les donnes sont compatibles avec l'hypothse nulle a1 = 0, la variable AGE ne contribue pas l'explication des valeurs de COEUR.
Page: 57
macro: svmono.cls
date/time: 21-Jun-2011/16:10
58
Fig. 3.1.
COEUR - Tester la signicativit du coecient a1
Fig. 3.2.
COEUR - Tester la nullit simultane des coecients a1 et a2
3.2.3 Tester la nullit de q (q < J ) coecients

La dmarche est toujours la mme si nous souhaitons tester la nullit de q coecients. Le rapport de vraisemblance suit une loi du 2 (q) degrs de libert. Testons la nullit simultane des coecients a1 (AGE) et a2 (TAUX MAX) dans notre rgression. Dans la feuille Excel, nous xons arbitrairement a1 = a2 = 0, nous ralisons la minimisation de la dviance en introduisant a0 et a3 (ANGINE) en cellules variables dans le solveur. Nous obtenons Dangine = 21.7422.

de libert, nous aboutissons une p-value = 0.077131 (Figure 3.2).
59
Le rapport de vraisemblance est gal LR = 21.7422 16.6177 = 5.1245. Avec une loi du 2 2 degrs Au risque 10%, les donnes ne sont pas compatibles avec l'hypothse nulle a1 = a2 = 0 c.--d. on ne peut pas conclure la nullit simultane des 2 coecients.
Remarque :
Nous ne montrons pas les calculs mais, dans cet exemple, le rejet de l'hypothse nulle
est avant tout conscutif la signicativit individuelle du coecient de TAUX MAX (LR = 3.0840, p-value pour 2 (1) gale 0.079067). Il arrive parfois que tous les coecients pris individuellement soient non signicatifs. En revanche, lorsque l'on teste leur nullit simultane, on est amen rejeter l'hypothse nulle.
3.2.4 Tester globalement la nullit des J coecients (a1 , . . . , aJ )

Ce test revient comparer la vraisemblance du modle complet avec celle du modle trivial constitu uniquement de la constante. Nous avions dj analys cette conguration auparavant, nous pouvions estimer directement "le" paramtre du modle a0 et en dduire la dviance D0 (section 1.6). Dans le cas du chier COEUR, nous avions a0 = 0.8473 et D0 = 24.4346 (Figure 1.6). Nous calculons la statistique
LR = D0 DM = 24.4346 16.6177 = 7.8169

Le nombre de degrs de libert est gale J 0 = 3 0 = 3. Avec la fonction de rpartition de la loi du 2 , nous obtenons la probabilit critique p-value = 0.049952. Au risque 10%, nous rejetons l'hypothse nulle, les donnes ne sont pas compatibles avec l'hypothse de nullit de tous les coecients c.--d. le modle est globalement signicatif.
Fig. 3.3.
COEUR - Tester la siginifcativit globale du modle - Tanagra
Notons que les logiciels proposent toujours, d'une manire ou d'une autre, ce test pour valuer le modle. Dans Tanagra, le tableau libert 3, et la p-value 0.0500 (Figure 3.3). Le logiciel R, lui, fournit la
Model Chi2 test (LR) fournit la statistique LR = 7.8169, le degr de null deviance, la dviance du modle trivial, de 24.435 avec (n 1 = 19) degrs de libert ; et la dviance du modle tudi, residual deviance, de 16.618 avec (n 3 1 = 16) degrs de libert. En calculant l'cart entre ces quantits, nous
retrouvons le test de signicativit globale (Figure 3.4).
1. Nous pouvons faire l'analogie avec la somme des carrs des rsidus en rgression linaire multiple.
60
Fig. 3.4.
COEUR - Tester la siginifcativit globale du modle - R
3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald
Les estimateurs du maximum de vraisemblance sont asymptotiquement normaux. Par consquent, lorsque les eectifs sont assez levs, le vecteur a suit une loi normale multidimensionnelle. Il importe tout d'abord de dterminer l'expression de sa matrice de variance covariance. Nous pourrons par la suite dcliner les dirents tests de signicativit (section 3.1.1).
3.3.1 Matrice de variance-covariance des coecients Matrice Hessienne. Lors de la description de l'algorithme d'optimisation de Newton-Raphson, nous
avons dni une matrice des drives partielles secondes, dite matrice hessienne (section 1.5). Nous en reprenons l'expression matricielle ici
H = X V X
O X est la matrice des donnes, la premire colonne correspondant la constante. Elle est de dimension n (J + 1). Pour les donnes COEUR (Figure 0.1), les valeurs s'crivent
1 X =. . . 1
1 50 126 1 49 . . . 126 . . .
0 . . . 49 171 0
V est une matrice diagonale de taille n n, compose des valeurs de () (1 ()), les probabilits () tant obtenues aprs estimation des paramtres. En reprenant les valeurs issues des calculs (Figure
1.5), nous avons (1) = 0.8798, (2) = 0.5815, (3) = 0.3922, . . . , (20) = 0.0737), et par consquent
V =
0.8789(1 0.8789) = 0.1064 0 0 . . . ...
0 0.5815(1 0.5815) = 0.2434 0 . . . ...

macro: svmono.cls
0 0 0.2384 . . . ...
... ... ... . . . ...
0 . . . 0.0683 0
Page: 60
date/time: 21-Jun-2011/16:10
Ainsi, nous pouvons former la matrice hessienne H de taille (J + 1) (J + 1),
61
130.24 6615.41 19211.02 34.59 H= 386.30 19211.02 57709.57 94.12 0.65 34.59 94.12 0.65
2.61
130.24
386.30 0.65
Matrice de variance covariance des coecients. L'aaire devient intressante lorsque l'on sait que l'inverse de la matrice hessienne correspond la matrice de variance covariance des coecients
estims. En particulier, nous obtenons les variances des coecients sur la diagonale principale.
= H 1
Dans notre exemple COEUR, la matrice qui en rsulte est
(3.2)
= 0.4882 0.0088 0.2627 0.0004 1.0563 0.0413

Nous lisons dans ce tableau, entre autres :
63.2753 0.4882 0.2627
0.0004 0.0413 0.0016 0.0030 0.0030 2.2634
1.0563
1 = 0.0088 est la variance estime du coecient a1 . 2

COV (1 , a2 ) = 0.0004 est la covariance estime entre les coecients a1 et a2 . a Etc.
Test de Wald.
Nous disposons de a, vecteur des estimations des paramtres de la rgression lo
gistique ; nous savons qu'il suit une loi normale multidimensionnelle ; nous disposons de la matrice de variance covariance associe. Tout est en place pour que nous puissions raliser les dirents tests de signicativit. Ils sont regroups sous l'appellation test de Wald ([7], pages 90 et 113 ; [23], page 421).
3.3.2 Tester la nullit d'un des coecients

Trs facile mettre en oeuvre puisque l'on dispose directement de la variance des coecients, le test s'appuie sur la statistique de Wald Wj qui, sous H0 , suit une loi du 2 1 degr de libert.
Wj =
a2 j 2 aj
(3.3)
2 O aj est la variance du coecient aj , lue sur la diagonale principale de la matrice de variance covariance de coecients .
Dans notre exemple du chier COEUR, puisque nous avons les valeurs des coecients et la matrice de variance covariance associe, nous pouvons raliser le test que nous rsumons dans le tableau suivant.
Page: 61
macro: svmono.cls
date/time: 21-Jun-2011/16:10
62

Coecient Estimation -0.126
2 aj
Wj 3.3200 1.7936 2.4694 1.3981
p-value 0.0684
a0 a1 a2 a3
14.494 63.2753 0.0088 0.0016 2.2634 0.064 1.779
0.1805 0.1161
0.2370
Fig. 3.5.
COEUR - Test de Wald - Tanagra
A titre de comparaison, nous reproduisons les sorties du logiciel Tanagra (Figure 3.5). Nous obtenons les mmes valeurs, la dirence que Tanagra ache plutt les carts-type estims aj . Et il ne ralise pas le test de signicativit de la constante. Le logiciel R, lui, propose la statistique Zj (Figure 3.6) la place de Wj , avec
Zj =
aj = signe(j ) Wj N (0, 1) a j
Fig. 3.6.
COEUR - Test de Wald - Logiciel R
Zj peut prendre des valeurs ngatives. Le test tant bilatral, nous retrouvons exactement les mmes
probabilits critiques (p-value) qu'avec la statistique de Wald Wj .
3.3.3 Intervalle de conance de Wald pour un coecient

aj suit asymptotiquement une loi normale que l'on soit ou non au voisinage de aj = 0. De fait,
nous pouvons construire l'intervalle de conance au niveau de conance 1 pour tout coecient pris individuellement ([9], pages 18 et 40 ; [7], page 91). Les bornes sont obtenues de la manire suivante
aj u1/2 aj u1/2 est le fractile d'ordre 1 90%, avec u0.95 = 1.6449.
Coecient
2
63
(3.4)
de la loi normale centre rduite.
Pour notre chier COEUR, nous calculons les intervalles des coecients au niveau de conance 1 =
aj 14.494
-0.126
aj Borne basse Borne haute 7.9546 0.0938 0.0404 1.5045 1.41 0.28 0.13 0.70 27.58 0.03 0.00 4.25
a0 a1 a2 a3
0.064 1.779
Remarque : Il est possible de construire un intervalle de conance bas sur le rapport de vraisemblance [7] (page 91). Nous n'en avons pas fait mention dans la section prcdente tout simplement parce que la formulation est complique, pas vraiment utilise dans la pratique car peu dcisive par rapport l'intervalle de Wald, et de ce fait non implmente dans les logiciels ( ma connaissance).
3.3.4 Tester la nullit de q (q < J ) coecients

Pour tester la nullit simultane de q coecients, nous utilisons la gnralisation de la statistique de Wald W(q) . Elle suit une loi du 2 q degrs de libert.
1 W(q) = a (q) a(q) (q)
(3.5)
o a(q) est le sous-vecteur des valeurs observes des coecients que l'on souhaite tester ; (q) est la
sous-matrice de variance covariance associe ces coecients. Rien ne vaut un petit exemple pour prciser tout cela. Nous souhaitons, pour le chier COEUR, tester la nullit simultane des coecients rattachs AGE et TAUX MAX. L'hypothse nulle s'crit :
H0 : a1 = a2 = 0
Sous une forme vectorielle
H0 :
Le vecteur des coecients estims est gal
( ) a1 a2
( ) 0 0
a(2) =
( ) a1 a2
( =
) 0.126 0.064
date/time: 21-Jun-2011/16:10
Page: 63
macro: svmono.cls
64

La matrice de variance covariance associe ces coecients, extraite de la matrice globale s'crit ( (2) =
Nous inversons cette matrice pour obtenir
) 0.0088 0.0004 0.0004 0.0016
( 1 (2) =
) 114.97 28.58 28.58 618.40
Il ne reste plus qu' calculer la forme quadratique dnissant W(2) , soit
W(2) = 0.126 0.064 = 3.8565
) 114.97 28.58 28.58 618.40
) 0.126 0.064
Avec une loi du 2 2 degrs de libert, nous obtenons une p-value = 0.1454. Au risque 10%, nous ne pouvons pas rejeter l'hypothse nulle. Nos donnes sont compatibles avec l'hypothse de nullit simultane des coecients a1 et a2 . Ce rsultat est en contradiction avec celui du test de rapport de vraisemblance. Nous y reviendrons par la suite.
3.3.5 Tester globalement la nullit des J coecients

Dernier test mettre en place, valuer la signicativit globale du modle c.--d. tester la nullit simultane de tous les coecients relatifs aux variables explicatives dans le modle. L'hypothse nule s'crit
H0 : a1 = a2 = = aJ = 0
Attention, la constante a0 ne doit pas tre prise en compte dans cette procdure. Le test de Wald ici correspond une simple gnralisation du prcdent. La statistique W(J) suit une loi du 2 J degrs de libert sous H0 . Elle s'crit
1 W(J) = a (J) a(J) (J)

Pour le chier COEUR, voici le vecteur estim des coecients concerns
(3.6)
2. La situation est facilite par le fait que les coecients sont conscutifs dans notre exemple. Mais nous pouvons appliquer ce test en toute gnralit, pour toute combinaison de coecients, qu'ils soient conscutifs ou non.
a1 0.126 = a2 = 0.064 a3 1.779
65
a(3)
Et la sous-matrice de variance covariance
(3)
0.0088 0.0004 0.0413 = 0.0004 0.0016 0.0030 0.0413 0.0030 2.2635
Nous inversons cette dernire
1 (3) = 35.73 622.89 1.48 2.36 1.48 0.49

Puis nous calculons la forme quadratique qui reprsente la statistique de test
126.37 35.73 2.36
( ) W(3) = 0.126 0.064 1.779 35.73 622.89 1.48 0.064 2.36 1.48 0.49 1.779 = 4.762
Avec un loi du 2 3 degrs de libert, nous obtenons une p-value de 0.1900. Manifestement, au risque 10%, l'hypothse nulle ne peut pas tre rejete. Le modle n'est pas globalement signicatif. Comme le prcdent (tester simultanment "ge" et "taux max"), ce rsultat contredit celui du rapport de vraisemblance.
126.37 35.73 2.36
0.126
3.3.6 criture gnrique des tests de signicativit

Nous avions voqu l'ide plus haut, tous les tests de signicativit dcrits dans ce chapitre peuvent s'crire sous une forme gnrique :
H0 : M a = 0
o M est une matrice de dimension [m (J + 1)] de rang m ; a tant de dimension (J + 1) 1, n'oublions pas la constante. La statistique de test s'crit alors ([23], page 421 ; voir [7], page 90 pour une criture quivalente) :
]1 [ Ma W(M ) = a M M M
Elle suit une loi du 2 m degrs de libert. Pour le chier COEUR, voici l'criture de la matrice M pour les direntes congurations.
Page: 65 job: regression_logistique macro: svmono.cls
(3.7)
date/time: 21-Jun-2011/16:10
66

Hypothse nulle Matrice M ( ) M= 0100 ( ) 0100 M= 0010 0100 M = 0 0 1 0
H0 : a1 = 0 H0 : a1 = a2 = 0 H0 :
= 0 a 0 1 a2 = 0 H0 : a1 = a2 = a3 = 0 H0 : a3 0 a2
( ) a1
( ) 0
0001
Application au test H0 : a1 = a2 = 0
Fig. 3.7.
COEUR - Test de Wald avec l'approche gnrique - H0 : a1 = a2 = 0
Curieux comme nous sommes, voyons si les rsultats concordent si nous utilisons la forme gnrique. Nous avons une feuille Excel dont voici la teneur (Figure 3.7) : La matrice M pour ce test s'crit
( M=
0100 0010
La matrice de variance covariance des coecients est connue.

Nous pouvons former
( M M =
) 0 1 0 0 0.4882 0.0088 0 0 1 0 0.2627 0.0004 1.0563 0.0413
63.2753 0.4882 0.2627
) ( 0.0004 0.0413 1 0 = 0.0088 0.0004 0.0016 0.0030 0 1 0.0004 0.0016 0.0030 2.2634 00
1.0563
00
Que nous inversons
( (M M ) 1 =
) 114.974 28.577 28.577 618.411
Page: 66
macro: svmono.cls
date/time: 21-Jun-2011/16:10
0.0126 Nous disposons des paramtres estims a = 0.064 1.779 Nous calculons 14.494 ) ( ) ( 0.126 0 1 0 0 0.0126 = Ma = 0.064 0 0 1 0 0.064 1.779
Nous disposons de toutes les informations ncessaires la formation de la statistique de test ( )( ) ( ) 114.974 28.577 0.126 W(M ) = 0.126 0.064 = 3.8565 28.577 618.411 0.064 Exactement la valeur obtenue avec la mthode directe (section 3.2.3).
67
14.494
Le nombre de degr de libert est m = 2 (nombre de lignes de la matrice M). Nous obtenons une p-value de 0.1454.
3.3.7 Aller plus loin avec la forme gnrique des tests

L'intrt de la forme gnrique n'est pas que thorique. Certes, il est toujours plaisant de produire une criture unique qui englobe toutes les autres. Mais elle nous permet surtout d'aller plus loin, de mettre en oeuvre des tests plus complexes. Mettons que pour les mmes donnes COEUR, nous souhaitons tester
H0 :
( ) a3 a1
( =
1.5 2 a2
H1 : une des deux galits au moins est fausse

L'enjeu est de savoir crire correctement la matrice M . Reprenons les hypothses
a3 = 1.5 a1 = 2 a2
( (
a3 = 1.5 a1 2 a2 = 0
) 1.5 + 0 a1 + 0 a2 + 1 a3 = 0 0 + 1 a1 + (2) a2 + 0 a3 = 0 ( )
Nous en dduisons facilement la matrice M
M=
1.5 0 0 1 0 1 2 0
Nous introduisons ces valeurs dans la feuille Excel (Figure 3.8). Le rsultat est immdiat, nous obtenons
W(M ) = 2.8292, avec une p-value de 0.2430 pour un 2 (2). Au risque 5%, les donnes sont compatibles
avec l'hypothse nulle.
68
Fig. 3.8.
COEUR - Test de Wald - H0 : a3 = 1.5 et a1 = 2 a2
3.4 Bilan : Rapport de vraisemblance ou Wald ?

Nous avons deux procdures pour les mmes tests d'hypothses : celle du rapport de vraisemblance et celle de Wald. Parfois elles se contredisent. C'est fcheux. Rcapitulons pour mmoire les rsultats obtenus sur le chier COEUR.
Tests 10% Signif. "ge" Signif. globale
Rapp. de Vraisemblance
Test de Wald
Accep. H0 , p-value = 0.1156 Accep. H0 , p-value = 0.1805 Rejet H0 , p-value = 0.0499 Accep. H0 , p-value = 0.1900
Signif. "ge" et "taux max" Rejet H0 , p-value = 0.0771 Accep. H0 , p-value = 0.1454
Nous retrouvons dans ces rsultats les comportements que l'on attribue gnralement ces tests dans la littrature, savoir : 1. Concernant le test du rapport de vraisemblance Il est plus puissant. Il dtecte mieux l'hypothse alternative lorsque cela est justi. Il est revanche plus gourmand en ressources car il impose de recalculer le modle sous la contrainte de l'hypothse nulle. Encore une fois, le problme ne se pose vritablement que lorsque nous avons traiter une grande base de donnes. 2. Concernant le test de Wald Il est moins puissant, plus conservateur. Il favorise l'hypothse nulle H0 . C'est agrant dans nos rsultats sur le chier COEUR, H0 n'a jamais t rejete quel que soit le test mis en place. Lorsque la valeur du coecient est lev, l'estimation de l'cart type gone exagrment. De nouveau H0 est favoris lors des tests individuels, cela nous emmne supprimer tort des variables importantes du modle. Il repose sur des proprits asymptotiques de l'estimateur. Il est par consquent peu prcis lorsque nous traitons de petits eectifs comme c'est le cas pour le chier COEUR.
Page: 68
macro: svmono.cls
date/time: 21-Jun-2011/16:10
3.4 Bilan : Rapport de vraisemblance ou Wald ?
69
Accordons lui quand mme une qualit, il est peu gourmand en ressources. Nous travaillons partir des rsultats fournis par la rgression sur la totalit des variables, sans avoir produire des calculs supplmentaires compliqus (une inversion de matrice quand mme, ce n'est jamais anodin). Pour mettre tout le monde d'accord, lorsque les eectifs sont importants, les deux procdures fournissent des rsultats cohrents [7] (page 91).
Page: 69
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 70
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Partie II
Pratique de la rgression logistique binaire
Page: 71
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 72
macro: svmono.cls
date/time: 21-Jun-2011/16:10
4 Prdiction et intervalle de prdiction
Un des principaux objectifs de l'apprentissage supervis est de fournir un systme de classement qui, pour un nouvel individu quelconque issu de la population (ex. un nouveau client pour une banque, un malade qui arrive au service des urgences, etc.), fournit une prdiction y ( ). Avec exactitude si possible. La rgression logistique sait faire cela. Mais, la dirence d'autres mthodes, elle peut fournir en plus un indicateur de abilit de la prdiction avec une estimation de la probabilit ( ). Ainsi, lorsque
est proche de 1 ou de 0, la prdiction est plutt sre ; lorsqu'elle prend une valeur intermdiaire, proche
du seuil d'aectation s (s = 0.5 habituellement), la prdiction est moins assure. Dans les domaines o les consquences des mauvaises aectations peuvent tre dramatiques (dans le domaine de la sant par exemple), on pourrait mme imaginer un systme qui ne classe qu' coup (presque) sr du type : Si s1 Alors y = Si s2 Alors y = +, avec s2 s1 bien entendu. Sinon, indtermination. On demande des analyses complmentaires ou on prsente le sujet un expert. Obtenir une estimation et une indication sur sa prcision nous est donc fort utile. Dans ce chapitre, nous montrons comment calculer pour un nouvel individu classer, puis nous tudierons la construction d'un intervalle (fourchette) de prdiction. Ce dernier point constitue aussi une avance considrable par rapport aux d'autres mthodes supervise. Nous disposons d'une indication sur la plage de valeurs crdibles de .
4.1 Prdiction ponctuelle

Pour obtenir une prdiction du LOGIT pour un nouvel individu classer, il nous sut d'appliquer les coecients estims de la rgression logistique, soit
c(x( )) = a0 + a1 x1 ( ) + + aJ xJ ( )
(4.1)
Si nous adoptons une criture matricielle, avec x( ) = (1, x1 ( )), . . . , xJ ( )) la description de l'individu classer et a = (0 , a1 , . . . , aJ ) le vecteur des paramtres estims, nous crivons a
74

c(x( )) = x( ). a
Pour allger l'criture, nous crirons simplement c dans ce qui suit. A partir du LOGIT, nous pouvons dduire une estimation de la probabilit a posteriori d'tre positif
de l'individu, soit
( ) =
1 c 1 + e
(4.2)
Et en appliquant la rgle d'aectation standard, nous obtenons y
Si > 0.5 alors y = + sinon y =
(4.3)
Application aux donnes COEUR. Rappelons que le vecteur estim des paramtres de la rgression est a = (14.4937, 0.1526, 0.0636, 1.7790) (Figure 1.5). Nous souhaitons classer un nouvel individu avec AGE = 35, TAUX MAX = 156, et ANGINE = 1. Nous ralisons la succession de calculs suivante : c = 14.4937 0.1526 35 0.0636 156 + 1.7790 1 = 1.9601 =
1 1+e1.9601
= 0.8765
y = prsence e La prdiction est correcte. En eet il s'agit de l'individu no 6 dans notre tableau de donnes (Figure 0.1), il est positif ("prsence").
4.2 Intervalle de prdiction

L'obtention des prdictions ponctuelles est assez facile nalement. Il n'y a pas s'attarder dessus. Plus intressant pour nous est la capacit de la rgression logistique produire un intervalle de variation pour ( ). Et en matire de prvision, une fourchette est toujours plus utile qu'une valeur ponctuelle. Pour construire l'intervalle de conance du LOGIT, nous avons besoin de l'estimation de sa variance [9] (page 41). Elle s'crit :
J j=0 J J j=0 k=j+1
c V () =
a x2 V (j ) + j
2xj xk COV (j , ak ) a
(4.4)
Une criture matricielle serait peut tre plus simple
c V () = xx
(4.5)
On reconnat dans l'expression ci-dessus l'estimation de la variance covariance des coecients estims.
x est le vecteur de description de l'individu classer.

L'intervalle de conance du LOGIT au niveau (1 ) est dni par
4.2 Intervalle de prdiction

c u1/2 c
o u1/2 est le fractile de la loi normale centre et rduite ; c =
75
(4.6)
c V () est l'cart type du LOGIT.
Reprenons notre exemple COEUR ci-dessus. Nous souhaitons calculer l'intervalle de conance
de ( ) au niveau (1 ) = 90%. D'ores et dj, nous savons que u0.95 = 1.6449. Concernant la matrice de variance covariance des paramtres estims, elle a dj t calcule par ailleurs (section 3.3.1)
0.4882 0.0088 = 0.2627 0.0004 1.0563 0.0413
63.2753 0.4882 0.2627
0.0004 0.0413 0.0016 0.0030 0.0030 2.2634
1.0563
Pour calculer la variance du LOGIT, nous appliquons la formule 4.5 :
( ) () = 1 35 156 1 0.4882 0.0088 V c 0.2627 0.0004 1.0563 0.0413

Et l'cart-type
63.2753 0.4882 0.2627
0.0004 0.0413 35 = 4.5689 0.0016 0.0030 156 0.0030 2.2634 1
1.0563
c =
4.5689 = 2.1375
Nous pouvons produire les bornes basses (c1 ) et hautes (c2 ) du LOGIT pour l'individu classer :
c1 = 1.9601 1.6449 2.1375 = 1.5557 c2 = 1.9601 + 1.6449 2.1375 = 5.4760

Nous en dduisons les bornes de l'intervalle de prdiction des probabilits a posteriori
1 = 0.1743 1 + e(1.5557) 1 2 = = 0.9958 (5.4760) 1+e 1 =

Notre intervalle est trs peu prcis. Ce n'est gure tonnant. L'estimation des paramtres de la rgression logistique repose sur un trs petit chantillon (n = 20). Ce qui engendre une certaine instabilit traduite par des intervalles de conance larges, que ce soit pour les estimations des coecients (section 3.3.3) ou pour les prdictions. Tous ces calculs ont t raliss l'aide d'une feuille Excel que nous reproduisons ici (Figure 4.1).
76
Fig. 4.1.
COEUR - Calcul de l'intervalle de prdiction
Page: 76
macro: svmono.cls
date/time: 21-Jun-2011/16:10
5 Lecture et interprtation des coecients
Dans certains domaines, l'explication est bien plus importante que la prdiction . On souhaite comprendre les phnomnes de causalit, mettre jour les relations de cause eet. Bien entendu, les techniques statistiques n'ont pas vocation rpondre mcaniquement des problmes complexes. En revanche, elles ont pour rle de donner aux experts les indications adquates pour qu'ils puissent se concentrer sur les informations importantes. La rgression logistique propose des outils qui permettent d'interprter les rsultats sous forme de risques, de chances, de rapports de chances. C'est certainement une des raisons pour laquelle elle a gagn les faveurs d'un large public d'utilisateurs. Un signe qui ne trompe pas, une large documentation est ddie l'interprtation des sorties de la rgression logistique dans les ouvrages qui font rfrence ([9], chapitre 3 ; [10], chapitre 3).
5.1 Risque relatif, odds, odds-ratio
Fig. 5.1.
Tableau de contingence - Croisement coeur vs. angine
Pour illustrer notre propos, nous utiliserons un tableau de contingence issu du chier COEUR, il croise la variable dpendante coeur (avoir une maladie cardiaque ou pas +/-) avec la variable explicative
1. Par exemple, dans le domaine de la sant, on cherche certes dtecter automatiquement les personnes qui dveloppent une maladie particulire, mais il est peut tre plus important que l'on comprenne pourquoi ils la dveloppent pour qu'on puisse l'anticiper. On distingue ainsi l'analyse "pronostic" vise prdictive de l'analyse "tiologique" vise explicative.
78
angine (groupe "expos" vs. groupe "tmoin" 1/0). Nous pouvons construire le tableau parce que les
deux variables ne sont pas continues. Nous adjoignons la copie d'cran les notations que nous utiliserons par la suite (Figure 5.1) .
Quelques dnitions Risque relatif. On appelle risque relatif le surcrot de chances d'tre positif du groupe expos par
rapport au groupe tmoin.
RR =
P (+/1) P (+/0) a/(a + c) = b/(b + d) 3/5 = 3/15 =3
Nous l'interprtons de la manire suivante : les personnes qui ont une angine de poitrine ont 3 fois plus de chances que les autres (ceux qui n'en ont pas) de dvelopper une maladie cardiaque. Il caractrise un lien entre l'apparition de la maladie et l'occurrence de l'angine de poitrine. Lorsque RR = 1, cela veut dire que l'angine n'a pas d'incidence sur la maladie.
Odds. L'odds ou rapport de chances
est dni comme un rapport de probabilits dans un groupe.
Par exemple, dans le groupe expos, il s'crit
odds(1) =
P (+/1) P (/1) a/(a + c) = c/(a + c) 3/5 = 2/5 = 1.5
Dans le groupe des personnes ayant une angine de poitrine, on a 1.5 fois plus de chances d'avoir une maladie cardiaque que de ne pas en avoir. Nous pouvons de la mme manire dnir l'odds dans le groupe tmoin odds(0).
Odds-ratio.
tmoin.
L'odds ratio est gal au rapport entre l'odds du groupe expos et l'odds du groupe
2. Pour une tude approfondie des indicateurs prsents dans cette section, notamment les dnitions, les estimations, les tests de signicativit et les intervalles de conance, voir [20], chapitre 5, pages 49 62.
5.1 Risque relatif, odds, odds-ratio

OR = = = odds(1) odds(0)
a/(a+c) c/(a+c) b/(b+d) d/(b+d)
79
ad bc 3 10 = 32 =6
L'OR indique peu prs la mme chose que le risque relatif, savoir : dans le groupe expos, on a 6 fois plus de chances d'avoir la maladie que dans le groupe tmoin. Il est toujours un peu gnant d'avoir deux formulations, avec des valeurs direntes, pour le mme concept. A priori, le risque relatif est l'indicateur le plus simple apprhender. Pourtant, on lui prfre souvent l'odds-ratio, principalement pour 2 raisons : 1. La prvalence, la probabilit a priori p d'tre positif, est souvent trs faible dans les tudes relles. Les malades sont rares, les fraudeurs ne sont pas lgion, etc. Dans ce cas, l'odds-ratio et le risque relatif prennent des valeurs similaires. En eet, lorsque a c alors a + c c ; de mme, lorsque b d alors
b + d d. Par consquent RR =
a/c ad a/(a + c) = = OR b/(b + d) b/d bc
Fig. 5.2.
Odds ratio et mode d'chantillonnage
2. L'odds-ratio possde une proprit trs prcieuse, il est invariant par rapport au mode d'chantillonnage. Que l'on procde un tirage alatoire simple des donnes (schma de mlange) ou un tirage rtrospectif, il prsentera toujours la mme valeur. Voyons un exemple pour nous en persuader (Figure 5.2). Dans le premier cas (celui du haut), l'chantillon a t tir au hasard, nous obtenons les valeurs
RR = 3 et OR = 6. Dans le second cas (celui du bas), nous avons un tirage (presque) quilibr. Nous
avons choisi n+ = 6 individus au hasard parmi les positifs, n = 7 parmi les ngatifs. En calculant de nouveau nos indicateurs, nous avons RR = 1.8 et OR = 6. L'OR prend la mme valeur que
80

prcdemment, le RR a t modi. Dans les applications relles, cette proprit est essentielle. L'OR nous vite d'avoir procder des redressements toujours compliqus. Surtout que, souvent, nous avons peu d'informations sur la prvalence relle p (qui pourrait nous dire le vritable pourcentage des fraudeurs ?).
Log odds-ratio.
Il s'agit simplement du logarithme de l'odds-ratio. Dveloppons son expression,
nous verrons ainsi le rapport avec la rgression logistique.
ln(OR) = ln
odds(1) odds(0) = ln(odds(1)) ln(odds(0)) P (Y = +/1) P (Y = +/0) = ln ln P (Y = /1) P (Y = /0) P (Y = +/1) P (Y = +/0) = ln ln 1 P (Y = +/1) 1 P (Y = +/0) = LOGIT (1) LOGIT (0)
D'ores et dj, sans rentrer dans les dtails, on constate que le log-odds ratio peut s'interprter comme un cart entre 2 LOGIT. Nous garderons l'esprit cette ide dans tout ce qui suit.
5.2 Le cas de la rgression simple

Dans cette section, nous tudions le cas de la rgression simple, avec un LOGIT de la forme
LOGIT = a0 + a1 X
L'interprtation des coecients dpend du type de la variable explicative X .
(5.1)
5.2.1 Variable explicative binaire

Le cas de la variable explicative binaire est en relation directe avec le tableau de contingence que nous avons utilis pour prsenter l'odds-ratio (section 5.1). Dans cette conguration, le coecient a1 correspond au logarithme de l'odds-ratio calcul partir du tableau de contingence ([9], pages 49 et 50 ; [11], pages 86 88). L'ide est relativement simple :
X = 1 LOGIT (1) = a0 + a1 1 = a0 + a1 X = 0 LOGIT (0) = a0 + a1 0 = a0 ln(OR) = LOGIT (1) LOGIT (0) = a1 OR = ea1
Page: 80
macro: svmono.cls
date/time: 21-Jun-2011/16:10
81
Fig. 5.3.
Coecients de la rgression logistique - COEUR = f(ANGINE)
coeur = f (angine)
Reprenons notre exemple croisant coeur et angine, l'odds-ratio tait gal OR = 6 (Figure 5.1). Maintenant, nous ralisons une rgression logistique expliquant coeur avec angine comme seule variable explicative l'aide du logiciel Tanagra (Figure 5.3). Nous obtenons a1 = 1.791759. En prenant l'exponentielle, nous obtenons OR(angine) = e1.791759 = 6. Ainsi, la rgression logistique nous permet de mesurer directement le surcrot de risque associ un facteur explicatif binaire. Si aj < 0 OR < 1, il y a une diminution du risque ; si aj > 0 OR > 1, il y a une augmentation. Nous pouvons nous appuyer sur le mcanisme de formation des intervalles de conance des coefcients (section 3.3.3) pour obtenir ceux des odds-ratios. La grande majorit des logiciels fournissent automatiquement ce type de rsultat (Figure 5.3, avec un niveau de conance x automatiquement
95%).
Dtaillons les calculs puisque nous disposons de l'estimation du coecient et de son cart type. Pour un intervalle 95%, le fractile de la loi normale utilise est u0.975 = 1.96. Nous produisons les bornes de la manire suivante : 1. Borne basse
bb(a1 ) = a1 u0.975 a1 = 1.791759 1.96 1.1181 = 0.399

La borne basse de l'intervalle de variation de l'odds-ratio s'obtient avec bb(OR) = e0.399 = 0.67 2. Borne haute
bh(a1 ) = a1 + u0.975 a1 = 1.791759 + 1.96 1.1181 = 3.983

Et la borne haute de l'intervalle de variation de l'odds-ratio : bh(OR) = e3.983 = 53.68 Lorsque l'intervalle de variation de l'odds-ratio couvre la valeur 1, ou de manire quivalente lorsque l'intervalle du coecient couvre la valeur 0, il n'y a pas de lien signicatif entre la variable explicative et la variable dpendante.
82
Calcul direct de l'intervalle de variation du log odds-ratio

Nous pouvons, partir des donnes observes dans le tableau de contingence, obtenir l'intervalle de conance du log odds-ratio, sans passer par une rgression logistique. Au niveau de conance (1 ), il s'crit (voir [20], page 56)
ln(OR) u1/2
1 1 1 1 + + + a b c d
(5.2)
calculons la quantit
Les rsultats concordent avec ceux obtenus l'aide de la rgression logistique. En eet, lorsque nous ( ) 1 1 1 1 1.25 = 1.1181 partir des donnes du tableau de contin3 + 3 + 2 + 12 =
gence (Figure 5.1), nous retrouvons la valeur a1 = 1.1181 de l'cart-type du coecient obtenue lors de la rgression (Figure 5.3).
La constante a0
Nous savons lire le coecient a1 , qu'en est-il de la constante ? X = 0 est la catgorie de rfrence, le groupe tmoin. Dans notre exemple, il s'agit des individus qui n'ont pas une angine de poitrine. Le LOGIT associ au cas X = 0 s'crit :
LOGIT (0) = a0 + a1 0 = a0
Dveloppons l'expression :
a0 = LOGIT (0) P (Y = +/0) = ln 1 P (Y = +/0) P (Y = +/0) = ln P (Y = /0) = ln[odds(0)]

Ainsi, la constante a0 s'interprte comme le logarithme de l'odds (log-odds) dans la catgorie de rfrence. En passant l'exponentielle, nous avons odds(0) = ea0 . Pour le chier COEUR, partir de notre tableau de contingence (Figure 5.1, nous pouvons former
odds(0) =
3 3/15 = = 0.25 12/15 12
Si nous prenons cette fois-ci les rsultats de la rgression logistique (Figure 5.3), nous trouvons a0 =
1.386294. Et en passant l'exponentielle :

ea0 = e1.386294 = 0.25
CQFD.
83
5.2.2 Variable explicative quantitative

Pour comprendre l'interprtation des coecients dans le cas d'une variable explicative quantitative, voyons l'volution du LOGIT lorsqu'on fait varier X d'une unit.
LOGIT (X + 1) = a0 + a1 (X + 1) = a0 + a1 X + a1 LOGIT (X) = a0 + a1 X LOGIT (X + 1) LOGIT (X) = a1

Dans ce cas, la quantit ea1 s'interprte comme l'odds ratio conscutif l'augmentation d'une unit de la variable explicative. Nous formulerons quelques remarques : Si l'on augmente de b units la variable explicative, l'odds-ratio devient alors eba1 . L'intervalle de variation du log odds-ratio lorsque l'on augmente de b units la variable X s'crit
b a1 u1/2 b a1
Attention, la valeur de l'odds-ratio dpend de l'unit de mesure utilise. Prenons l'ge, si on la mesure en mois au lieu d'annes, une variation d'une unit n'a pas le mme eet sur la variable dpendante. Ce qui parat assez normal. L'outil doit tre manipul avec une grande prudence.
rapport la variable explicative. C'est une hypothse un peu forte. Prenons un exemple simple. Si
l'on veut tudier le risque d'apparition d'une maladie cardiaque, il est vident que passer de 10 ans 20 ans n'a pas la mme signication que de passer de 40 ans 50 ans.
On suppose que le LOGIT est linaire par
dans les eets que l'on souhaite tester [9] (page 63).
Il faut rester raisonnable
coeur = f (taux max)

Nous essayons de prdire COEUR en fonction de TAUX MAX. Nous ralisons la rgression logistique, nous obtenons les coecients estims (Figure 5.4).
Fig. 5.4.
Coecients de la rgression logistique - COEUR = f(TAUX MAX)
Nous obtenons a1 = 0.062653, et par consquent ea1 = 0.9393. Lorsque le taux max augmente d'une
unit, les individus ont

Page: 83
1 0.9393
= 1.0646 fois plus de chances de ne
pas dvelopper une maladie cardiaque.

date/time: 21-Jun-2011/16:10
macro: svmono.cls
84
La constante a0
Ici galement, la constante peut tre comprise comme le log-odds lorsque X prend la valeur de rfrence
X = 0. Dans notre exemple coeur = f (taux max) c'est un peu gnant. En eet, lorsque taux max = 0,
cela veut simplement dire que la personne est morte, son coeur ne bat plus. Nous avons donc tout intrt centrer la variable pour obtenir une interprtation plus sduisante de la constante. C'est ce que nous avons fait, nous avons relanc la rgression logistique (Figure 5.5).
Fig. 5.5.
Coecients de la rgression logistique - COEUR = f(TAUX MAX centr)
Premier constat, l'estimation de la pente a1 n'a pas t modie. C'tait attendu. L'odds ratio dpend uniquement des variations de X et non pas de la valeur de X . Que l'origine du repre soit 0 ou la moyenne, cela ne change rien l'aaire. Second constat, la constante a0 est, elle, tout fait dirente. Voyons comment nous pouvons la lire :
e1.010689 = 0.3640
Une personne prsentant un "taux max" moyen (dont le "taux max" est gal la moyenne de la population) a
1 0.3640
= 2.7475 fois plus de chances d'tre non malade (que d'tre malade).
5.2.3 Variable explicative qualitative nominale Calcul de l'odds-ratio partir d'un tableau de contingence
Il n'est pas possible d'introduire directement une variable qualitative L(L > 2) modalits dans la rgression logistique. Il faut la recoder. Du choix de codage dpend l'interprtation des coecients. Nous traitons un nouveau chier de n = 209 observations dans cette section. La variable dpendante est toujours la prsence/absence d'une maladie cardiaque (coeur). La variable explicative est "chest pain" (type douleur dans la poitrine) avec 4 modalits : "typ. angina" (code 1), "atyp. angina" (2), "asympt." (3) et "non anginal" (4).

calcul des odds. Pour obtenir
85
les odds-ratio en revanche, nous devons dnir la catgorie de rfrence. Ils seront alors dnis en opposition cette situation de rfrence.
Former le tableau de contingence ne pose pas de problmes particuliers. Il en est de mme lors du
Attention, le choix de la modalit de rfrence est crucial pour l'interprtation. Il ne peut pas tre dissoci de l'analyse qualitative des rsultats que l'on veut mener par la suite. Dans notre exemple, admettons qu'il s'agisse de la dernire (non anginal - code 4). Nous aurons calculer L 1 = 4 1 = 3 odds-ratio. Nous rsumons cela dans une feuille de calcul (Figure 5.6).
Fig. 5.6.
Calcul des odds-ratio dans un tableau de contingence - Variable qualitative nominale
L'odds de la catgorie 1 est obtenue avec odds(1) =
4 2
= 2.0 : les personnes prsentant une douleur de

6 59
type "typ. angina" ont 2.0 fois plus de chances d'avoir une maladie cardiaque (que de ne pas en avoir). De mme pour les autres catgorie, nous pouvons calculer : odds(2) = et odds(4) =
7 29
= 0.102 ; odds(3) =
75 27
= 2.778 ;
= 0.241.
odds(1) odds(4) 2.0 0.241
La 4eme catgorie reprsentant la situation de rfrence, nous calculons les 3 odds-ratio en l'opposant aux autres c.--d. OR(1/4) =
= 8.286, nous le lisons de la manire suivante "les personnes
angina ont 8.286 fois plus de chances de dvelopper une maladie cardiaque que ceux qui prsentent une douleur de type non anginal " ; de mme, nous pouvons
produire OR(2/4) =
0.102 0.241
qui ont une douleur dans la poitrine de type typ.
= 0.421 et OR(3/4) =
2.778 0.241
= 11.508.
Obtenir les odds-ratio l'aide de la rgression logistique

La question que l'on se pose maintenant est "comment obtenir les mmes valeurs partir de la rgression logistique ?". Pour y rpondre, nous devons poser une autre question "comment coder la variable catgorielle pour que la rgression logistique produise les mmes odds-ratio ?". La solution repose sur un codage 0/1 de chacune des modalits de la variable catgorielle, en excluant la modalit de rfrence. Si X est la variable catgorielle initiale, nous en tirons donc 3 nouvelles variables binaires X1 , X2 , X3 avec : X1 () = 1 si X() = typ.angina, 0 sinon X2 () = 1 si X() = atyp.angina, 0 sinon X3 () = 1 si X() = asympt, 0 sinon
Page: 85
macro: svmono.cls
date/time: 21-Jun-2011/16:10
86

par consquent, si X() = non anginal, alors X1 () = X2 () = X3 () = 0. Nous avons l'information adquate, il n'est pas ncessaire de crer une variable X4 pour la 4eme modalit. Elle devient la modalit de rfrence. Nous montrons une copie d'cran des 15 premires observations (Figure 5.7).
Fig. 5.7.
Codage 0/1 - X = CHEST PAIN vs. X1 = TYP ANGINA, X2 = ATYP ANGINA, X3 = ASYMPT
Nous avons ralis la rgression logistique avec ces 3 nouvelles variables c.--d. Y = f (X1 , X2 , X3 ), Tanagra nous fournit une srie de rsultats (Figure 5.8) : La rgression est globalement signicative. Le test du rapport de vraisemblance montre que les coecients relatifs aux variables (a1 , a2 , a3 ) ne sont pas tous simultanment nuls (2 = 85.7164, et p-value < 0.0001). Un des coecients au moins est signicativement dirent de 0. Comme il n'y a que les variables recodes 0/1 de CHEST PAIN dans notre modle, cela indique (1) que CHEST PAIN a une incidence sur l'apparition de la maladie cardiaque ; (2) qu'il y a un surcrot (ou rduction) de risque signicatif associ au moins une des 3 modalits, par rapport la modalit de rfrence NON ANGINAL. Voyons le dtail des coecients justement (nous signalons par un astrisque les coecients signicatifs 5%) :
j 1 2 3
aj
Wald
p-value OR(j/4) = eaj
2.114534 4.8216 0.864392 2.0700 2.443037 26.2102
0.0281 0.1502 0.0000
8.286 0.421 11.508
Nous retrouvons les valeurs des odds-ratio calcules partir du tableau de contingence (Figure 5.6). De plus, nous savons maintenant quelles sont les situations o les surcrots (rductions) de risques sont signicatifs. En eet, si le coecient est signicativement dirent de 0, l'odds-ratio qui en est driv est signicativement dirent de 1. Nous n'avions pas cette information auparavant. Dans notre tableau ci-dessus, nous constatons que TYP ANGINA et ASYMPT se dmarquent signicativement de la situation de rfrence NON ANGINAL, pas ATYP ANGINA en revanche.
87
Fig. 5.8.
Rgression sur les variables explicatives codes 0/1
Ceci est conrm par le tableau des intervalles de conance 95% fourni par Tanagra dans la partie basse de la fentre de rsultats (Figure 5.8). L'odds-ratio est considr signicatif si l'intervalle ne contient pas la valeur 1. En conclusion, lorsque nous procdons un codage 0/1 simple,
logistique correspondent des log odds-ratio

rfrence, celle qui a t exclue lors du recodage.
les coecients de la rgression
de chaque modalit par rapport la modalit de
La constante a0
A l'instar de la variable explicative binaire, la constante s'interprte comme le log-odds de la situation de rfrence (groupe tmoin). Dans notre exemple (Figure 5.8), a0 = 1.421386. Lorsque nous passons l'exponentielle, nous obtenons e1.421386 = 0.241, qui est bien la valeur de l'odds(4) obtenu partir du tableau de contingence (Figure 5.6).
Exclure tout ou partie des indicatrices ?

Face ce type de rsultat (Figure 5.8), le praticien est parfois perplexe. Que faire ? Exclure l'indicatrice ATYP ANGINA parce qu'elle n'est pas signicative ? La conserver parce que les deux autres le sont ? La situation sera d'autant plus complique que nous travaillons sur une rgression multiple.
88

On conseille gnralement de traiter les indicatrices d'une variable nominale comme un groupe, elles
ne doivent pas tre dissocies. Nous devons travailler en deux temps : (1) tester si les coecients des indicatrices sont simultanment nuls, nous valuons l'impact de la variable nominale sur la variable dpendante ; (2) une fois acquise la signicativit globale, regarder les modalits qui s'cartent de la situation de rfrence [10] (page 60). Un autre point de vue peut tre dfendu. Nous pouvons traiter individuellement les indicatrices. L'important est de bien en mesurer les consquences sur l'interprtation des rsultats. Si nous retirons uniquement l'indicatrice ATYP ANGINA du modle, et conservons les deux autres, cela veut dire que la situation de rfrence est maintenant compose des deux modalits {NON ANGINAL et ATYP ANGINA}. Les coecients des autres indicatrices s'interprtent comme des log odds-ratio par rapport cette nouvelle catgorie tmoin. Dans notre tableau de contingence (Figure 5.6), cela revient crer une nouvelle colonne de rfrence qui serait le fruit de la fusion des colonnes ATYP ANGINA et NON ANGINAL.
Fig. 5.9.
Rgression sur les variables codes 0/1 - Rednition de la modalit de rfrence
A titre de vrication, nous avons calcul les odds-ratio dans le tableau de contingence aprs fusion des modalits ATYP ANGINA et NON ANGINAL. Nous avons dans le mme temps calcul la rgression sur les indicatrices TYP ANGINA et ASYMPT (Figure 5.9). Les rsultats concordent, fort heureusement. Nous noterons surtout que les odds-ratios obtenus sont plus levs : la cration de la nouvelle situation de rfrence a permis de mieux caractriser le dcalage entre les modalits.
Page: 88
macro: svmono.cls
date/time: 21-Jun-2011/16:10
89
5.2.4 Variable explicative qualitative ordinale

La variable explicative est qualitative mais les L(L > 2) modalits sont ordonnes. Bien videmment, il faut coder les variables. Il nous faut produire un codage qui sache tenir compte de l'ordre des modalits, sans pour autant introduire une fausse information sur l'amplitude des carts. Nous reviendrons plus longuement sur cet aspect plus loin. Parmi les direntes stratgies possibles, nous prsentons dans cette section le codage 0/1 embot ([11], page 92 ; le codage par "polynmes orthogonaux" est l'autre approche propose par l'auteur).
Quel type d'odds-ratio peut-on produire ?

Dans un premier temps, travaillons toujours partir d'un tableau de contingence. Notre chier comporte n = 209 observations. La variable prdire est l'occurrence ou non d'une maladie cardiaque, la variable explicative cette fois-ci est SYSTOLIC avec 3 niveaux : normal (1), lev (2) et trs lev (3). Nous la croisons avec la variable dpendante, puis nous calculons les odds et les odds-ratio (Figure 5.10).
Fig. 5.10.
Calcul des odds-ratio dans un tableau de contingence - Variable qualitative ordinale
Les odds sont simples calculer : odds(1) =
47 71
= 0.662 ; odds(2) =
31 36
= 0.861 ; odds(3) =
14 10
= 1.400.
L'interprtation est toujours la mme, par exemple, odds(3) = 1.4 signie qu'on a 1.4 fois plus de chances d'avoir une maladie cardiaque (que de ne pas en avoir) lorsqu'on a un SYSTOLIC de niveau TRES ELEVE. Venons-en l'odds-ratio maintenant. Dans le cas des variables ordinales, il se calcule par rapport la modalit prcdente. On quantie le surcrot de risque lors du passage d'un niveau au suivant. Nous n'avons pas le calculer pour NORMAL puisque c'est la modalit la plus basse. En revanche, pour le passage de NORMAL ELEVE, nous pouvons produire OR(2/1) =
odds(2) odds(1)
0.861 0.662
= 1.301. Nous
l'interprtons ainsi : en passant du SYSTOLIC NORMAL vers le niveau ELEVE, les individus ont 1.301 fois plus de chances de dvelopper une maladie cardiaque. De la mme manire, pour le passage de ELEVE TRES ELEVE, nous calculons OR(3/2) =
1.4 0.662
= 1.626. Le gap parat plus important.
Dans le cas des variables ordinales, la modalit de rfrence est tout simplement la prcdente. Nous quantions le surcrot de risque conscutif un changement de niveau.
Page: 89
macro: svmono.cls
date/time: 21-Jun-2011/16:10
90
Obtenir les odds-ratio partir de la rgression logistique

Comment coder la variable explicative pour obtenir les mmes rsultats l'aide de la rgression logistique ? La solution la plus simple est d'utiliser le codage 0/1 embot. Les coecients issus de la rgression logistique correspondent alors aux log-odds ratio d'un passage d'une modalit une autre. Reprenons notre exemple SYSTOLIC pour illustrer le codage embot. La variable X possde 3 modalits, nous en drivons 2 nouvelles variables X2 et X3 dnies de la manire suivante : Si X() = 1 alors X2 () = 0 et X3 () = 0 Si X() = 2 alors X2 () = 1 et X3 () = 0 Si X() = 3 alors X2 () = 1 et X3 () = 1 ( ! ! !). L'astuce est ici. Pour avoir le niveau 3, il faut tre pass par le niveau 2.
Fig. 5.11.
Codage de SYSTOLIC - variable qualitative ordinale - en 2 variables 0/1 imbriques SYS2 et SYS3
Voyons ce qu'il en est sur les 15 premires observations de notre chier (Figure 5.11). Les colonnes SYS2 et SYS3 sont indissociables, elle permettent de reconstituer parfaitement la variable SYSTOLIC LEVEL. Nous pouvons lancer la rgression logistique. Nous obtenons une srie de rsultats (Figure 5.12) : asys2 = 0.263001 et e0.263001 = 1.3008 = OR(1/2). Nous retrouvons l'odds-ratio du passage du niveau 1 au niveau 2. De mme, asys3 = 0.486004 et e0.486004 = 1.6258 = OR(3/2). Nous constatons avec la rgression qu'aucun des deux odds-ratio n'est signicativement dirent de 1, via le test de Wald pour les coecients ou via les intervalles de variation des odds-ratio.
La constante a0
Dans cette conguration, la constante a0 s'interprte comme le log-odds de la premire modalit de la variable explicative ordinale. Voyons cela sur notre exemple : a0 = 0.412532 et e0.412532 = 0.662 =
odds(1).
5.3 Le cas de la rgression multiple
91
Fig. 5.12.
Rgression sur 2 variables issues d'un codage 0/1 embot
Une erreur ( ?) frquente : le codage {1, 2, 3, . . .}

Une erreur ( ?) frquente est de travailler directement sur la variable explicative ordinale code
{1, 2, 3, . . . , L} c.--d. de l'introduire comme une variable quantitative dans la rgression. Ce faisant,
nous sommes en train d'indiquer la technique statistique que les carts entre les modalits sont identiques. En ralit, nous n'en savons rien. Si c'est eectivement le cas, le codage suggr tient la route. Sinon, nous sommes en train d'induire la rgression logistique en erreur, avec des rsultats fausss. En eet, n'oublions pas que dans la rgression simple avec une variable explicative quantitative, le coecient de la pente correspond au log odds-ratio d'une augmentation d'une unit de la variable explicative. On peut l'interprter comme le changement de niveau dans notre contexte, mais ceci quel
soit le niveau. Or nous avons bien vu que ce n'est pas vrai en gnral. Le surcrot de risque lors du passage
d'un niveau au suivant dpend du niveau sur lequel nous nous situons dans notre exemple (Figure 5.10). Notre codage {1, 2, . . .} introduit une contrainte supplmentaire qui pse sur les rsultats : la linarit du LOGIT par rapport la variable ordinale. Encore une fois, ce n'est pas forcment faux. Il faut en tre conscient tout simplement lors de la lecture et l'interprtation des sorties du logiciel. La pire des choses est de faire sans savoir ou laisser le logiciel choisir notre place. A titre de curiosit, nous avons lanc la rgression simple sur la variable explicative SYSTOLIC code {1, 2, 3}. Tanagra l'a intgre comme une variable quantitative. Nous obtenons un odds-ratio gal
ea1 = e0.3407 = 1.4060. Nous le lisons de la manire suivante : le changement de niveau entrane 1.4 fois
que
plus de chances de dvelopper une maladie cardiaque, que ce soit le passage de 1 2 ou de 2 3 (Figure 5.13). La conclusion n'est pas du tout de la mme teneur que celle obtenue avec le codage embot o le passage de 2 3 (OR(2/3) = 1.626) semblait entraner un risque plus lev que lors du passage de 1 2 (OR(2/1) = 1.301) (Figure 5.10).

Dans la rgression multiple, plusieurs variables explicatives doivent cohabiter. Elles ont plus ou moins lies. Certaines sont redondantes. D'autres sont complmentaires. Certaines enn peuvent masquer ou
92
Fig. 5.13.
Rgression sur la variable ordinale SYSTOLIC code {1, 2, 3}
exacerber le rle d'autres variables. Il nous faut discerner les informations importantes en interprtant correctement les coecients et les indicateurs fournis par la rgression logistique.
5.3.1 Odds-ratio partiel

Les interprtations sous forme de log odds-ratio des coecients font tout le charme de la rgression logistique. Le principe est assez simple dans la rgression simple. Lorsque l'on passe la rgression multiple, comment lire les coecients ? Est-ce que les interprtations vues prcdemment restent valables ? La rponse est oui, mais avec une petite modication : nous avons maintenant des log odds-ratio partiels. Si l'on prend l'exemple d'une variable binaire, le coecient est bien un log odds-ratio, mais pour lequel nous contrlons (xons) le rle des autres variables. L'analogie avec la corrlation partielle bien connue en conomtrie peut aider la comprhension. Prenons tout de suite le chier CREDIT pour expliciter tout cela. Nous nous intressons la prdiction de l'acceptation de crdit en fonction, d'une variable indicatrice indiquant si on exerce une profession indpendante (PROFINDEP) dans un premier temps, puis en ajoutant la variable "nombre de problmes rencontrs avec la banque" (NBPROB) dans un second temps. Cette dernire est traite comme une variable quantitative pour simplier. La premire rgression ACCEPTATION = f(PROFIDENP) nous indique que la variable explicative n'est pas signicative 5%. Nanmoins, si l'on s'intresse quand mme la valeur du coecient, nous avons a1 = 1.49 c.--d. OR(P ROF IN DEP ) = e1.49 = 0.2254. Un individu profession indpendante a
1 0.2254
= 4.44 fois plus de chances de se voir refuser son crdit par rapport un salari. On n'aime pas
trop les professions indpendantes dans cet organisme de crdit (Figure 5.14). Nous introduisons la variable NBPROB (Figure 5.15). Surprise ! Non seulement NBPROB est trs signicative, a parat logique, ce n'est pas trs indiqu d'avoir des problmes avec sa banque, mais PROFINDEP devient aussi signicative 5%. L'introduction de NBPROB dans la rgression a exacerb son rle. En eet, si l'on passe au odds-ratio, nous avons OR(PRODINDEP/NBPROB)= e2.028 = 0.136. Ils ont
1 0.1316
= 7.60 plus de chances de se voir refuser leur crdit.
Pour comprendre le mcanisme, nous avons calcul la moyenne des problmes rencontrs selon le type de profession.
93
Fig. 5.14.
CREDIT = f (PROFINDEP)
Fig. 5.15.
CREDIT = f (PROFINDEP, NBPROB)
PROFINDEP Moyenne(NBPROB)
0 1
0.38 0.00
Les professions indpendantes sont des personnes qui n'ont jamais de problmes avec leur banque. Nous pouvons mieux lire les rsultats maintenant : La prise en compte du nombre de problme augmente l'eet de PROFINDEP. En contrlant le nombre de problmes, le fameux "toutes choses gales par ailleurs" c.--d. si les professions indpendantes et les salaris prsentaient le mme nombre de problmes, les premiers auraient 7.60 plus de chances de se voir refuser leur crdit. Les banques sont sans piti. Les banques sont donc enclins la clmence vis vis des professions indpendantes (4.44 fois plus de refus quand mme) uniquement parce que ce sont des gens sans problmes ! . On retrouve le concept de corrlation partielle. Nous mesurons le lien d'une explicative avec la variable dpendante, valeurs xes pour les autres descripteurs. Pour valider cette interprtation, nous avons ltr la base de manire ne conserver que les individus sans problmes (NBPROB = 0). Nous n'avons plus que n = 82 observations (sur les 100 initiaux).
3. Les chiers que l'on rcupre sur internet sont parfois cocasses. Comme je ne suis pas banquier, j'viterai de trop m'taler sur les interprtations et me concentrer sur les techniques.
94
Fig. 5.16.
CREDIT = f (PROFINDEP) - Limit aux NBPROB = 0 c.--d. n = 82 obs.
Nous avons lanc la rgression simple CREDIT = f (PROFINDEP). Nous obtenons un rsultat qui conrme l'ide ci-dessus : lorsque la population est homogne selon le nombre de problmes, les professions indpendantes sont manifestement martyrises (a1 = 1.9994) (Figure 5.16).
L'interprtation des coecients en termes de log odds-ratio reste encore d'actualit dans la rgression multiple. A la dirence que nous contrlons l'eet des autres variables. On parle d'odds-ratio partiels. 5.3.2 Coecients standardiss en rgression logistique
Lorsque les explicatives sont exclusivement quantitatives, il peut tre intressant de comparer leur impact sur la variable dpendante. Quelle est celle qui joue le rle le plus important ? Dans quel sens ? Comparer les odds-ratio parat une solution immdiate. Mais comme les explicatives ne sont pas exprimes sur une mme chelle, la variation d'une unit n'a absolument pas la mme signication d'une variable l'autre. Les odds-ratio ne sont pas comparables en l'tat. La solution la plus simple est de centrer et rduire les explicatives. Ainsi nous pouvons mieux jauger leur inuence et, de plus, nous pouvons disposer d'interprtations sous forme de variations d'carts-type. Dans cette section, nous souhaitons mettre en place un dispositif qui permet de 1. Comparer les inuences respectives des variables explicatives. 2. Mesurer l'impact de la variation d'un cart-type d'une explicative sur le logit, soit en termes absolus c.--d. carts absolus entre logit (l'exponentielle de l'cart entre deux logit est un odds-ratio, ne l'oublions pas), soit en termes relatifs c.--d. variation en carts-type du logit. Auparavant, faisons un petit dtour par la rgression linaire multiple pour dcrire la dmarche. Nous montrerons qu'il est possible d'obtenir les coecients standardiss sans avoir raliser la rgression sur les donnes centres et rduites.
Page: 94
macro: svmono.cls
date/time: 21-Jun-2011/16:10
95
Fig. 5.17.
CONSO = f (POIDS, PUIS) - Rgression linaire - Coecients standardiss
Comparer l'impact des explicatives dans la rgression linaire

Nous souhaitons expliquer la consommation (CONSO) des vhicules partir de leur poids (POIDS) et de leur puissance (PUIS). Nous disposons de n = 28 observations (Figure 5.17). Nous ralisons la rgression linaire multiple sur les donnes non transformes (Figure 5.17 ; tableau A). Nous obtenons les coecients apoids = 0.0044 et apuis = 0.0256, tous deux sont signicatifs. Nous lisons : lorsque la puissance (resp. le poids) augmente d'unit, la consommation augmente de 0.0256 l/100km (resp. 0.0044). Est-ce dire que la puissance a plus d'inuence que le poids ? Ce serait une erreur de le penser. En eet, la puissance est exprime en chevaux, le poids en kilogramme, nous ne pouvons pas les rapprocher. Si nous avions exprim le poids en tonne, avec ce principe nous aurions conclu exactement l'inverse. Une solution immdiate consiste regarder les t de Student ou les p-value des tests de signicativit. Nous avons tpoids = 5.1596 et tpuis = 3.0968. Finalement, ce serait plutt l'inverse. Le poids a plus d'inuence sur la consommation. Nous avons une partie de la rponse. En revanche, les chires que nous avons ne sont absolument pas interprtables.
Solution 1 : travailler sur les donnes centres rduites

Pour obtenir des coecients que l'on sait lire en termes d'carts-type, il est d'usage de centrer et rduire les variables (y compris la variable dpendante). C'est ce que nous faisons, puis nous relanons la rgression (Figure 5.17 ; tableau B).
96

Premier constat : puisque les donnes sont centres, la constante est mcaniquement nulle. En ce qui
concerne les autres coecients, nous avons astd = 0.615 et astd = 0.369. Ce que nous avions subodor poids puis prcdemment est conrm : le poids pse plus sur la consommation que la puissance. L'norme avantage avec cette solution est que nous disposons d'une lecture cohrente des coecients : lorsque le poids (resp. la puissance) augmente de 1 cart-type, la consommation augmente de 0.615 (resp.
0.369) fois son cart type.

Les deux objectifs que nous nous sommes xs sont atteints : nous pouvons comparer les mrites respectifs des explicatives ; nous savons lire les coecients en termes de variations d'carts-type de la variable dpendante.
Solution 2 : correction des coecients non standardiss

Il est possible de retrouver les coecients standardiss partir des rsultats de la rgression sur les donnes initiales. Cela nous dispense d'avoir relancer touts les calculs. Il sut d'introduire la correction suivante [10] (page 51) :
astd = aj j
j y
(5.3)
o j est l'cart-type de la variable Xj , y celle de l'endogne. Nous avons introduit ces nouvelles modications (Figure 5.17 ; tableau C) en utilisant les informations situes sous le tableau de donnes. Pour la variable poids par exemple
astd = 0.0044 poids
308.9928 = 0.615016 2.2329
Nous retrouvons exactement les coecients standardiss de la rgression sur donnes centres rduites.
Comparer l'impact des explicatives dans la rgression logistique

Les mmes ides sont transposables la rgression logistique, avec deux objectifs toujours : 1. Comparer les mrites respectifs des explicatives. 2. Obtenir une interprtation des coecients de la forme : une augmentation de 1 cart-type de la variable X entrane une variation de carts-type du LOGIT.
Page: 96
macro: svmono.cls
date/time: 21-Jun-2011/16:10
97
Fig. 5.18.
COEUR = f (AGE, TAUX MAX) - Coecients non standardiss
Rgression sur les donnes originelles : les coecients non standardiss

Nous travaillons sur le chier COEUR. Les carts-type des explicatives sont age = 8.16 et taux
max
16.66. Nous aurons besoin de ces informations par la suite.

Nous implmentons la rgression COEUR = f (age, taux max). Les coecients estims sont aage =
0.1201 et ataux
max
= 0.0744 (Figure 5.18). Ce sont des log odds-ratio conscutifs la variation
d'une unit des variables. Mais comme ces dernires sont exprimes sur des chelles direntes, nous ne pouvons rien conclure concernant l'importance relative des explicatives. On peut nanmoins le deviner via les p-value, taux max semble plus inuent puisque sa p-value est plus petite. Mais cela ne rpond pas notre seconde question : comment lire les coecients en termes de variation du logit ? Pour pouvoir y rpondre, nous devons calculer l'cart-type du logit logit prdit par le modle. Nous avons donc construit le logit prdit c et la probabilit prdite (Figure 5.19) Essayons d'analyser les implications des variations de la variable ge (age ), toutes choses gales par ailleurs c.--d. en xant par exemple la valeur de taux max 150, sur la variation absolue logit (age ) et relative logit (age ) =
logit (age ) logit
du logit (Figure 5.20) :
Lorsque age = 1, nous obtenons logit (1) = 0.1201 = aage . C'est l'interprtation usuelle des coecients de la rgression logistique sur les variables explicatives quantitatives. Si nous ramenons la variation du logit son cart-type c.--d. logit (1) =
logit (1) logit
0.1201 1.4851
0.0809, nous obtenons une valeur dont on ne voit pas trs bien la teneur.
Enn, pour une variation de 1 cart-type de l'ge, (age) = age = 8.16, nous observons un cart absolu logit (age ) = 0.9803 et un cart relatif logit (age ) = 0.6601 que rien dans les rsultats de la rgression logistique ne nous permet de deviner. Nous sommes obligs de les calculer explicitement.
98
Fig. 5.19.
COEUR = f (AGE, TAUX MAX) - Non standardis - Calcul de l'cart-type du logit
Fig. 5.20.
Variations du logit conscutives aux variations de "ge"
Aucune des questions que nous avons mis en avant n'ont obtenu de rponses avec les coecient non standardiss : nous ne savons rien sur les inuences compares des explicatives ; nous ne mesurons l'impact sur le logit, en termes relatifs, des variations des explicatives. Dans ce qui suit, nous tudions dirents types de standardisation proposs dans la littrature [10] (pages 51 56).
Solution 1 : Standardisation sur les explicatives seulement

Nous calculons le coecient standardis de la manire suivante
astd.1 = aj j j
Nous obtenons les nouveaux coecients
(5.4)
Page: 98
macro: svmono.cls
date/time: 21-Jun-2011/16:10

Variable Constante age taux max Plusieurs informations apparaissent : Coecient non nulle mais non interprtable
99
0.1201 8.16 = 0.9803 = logit (age ) 0.0744 16.66 = 1.2389
Les coecients mesurent la variation absolue du logit conscutive une augmentation de 1 carttype des variables c.--d. astd.1 = logit (j ). j Comme nous mesurons l'impact sur le logit des variations en carts-type des explicatives, nous pouvons comparer leur poids relatif dans la rgression. Manifestement "taux max" a un impact plus lev (en cart absolu du logit) que l'ge. Nous ne disposons pas d'informations sur la variation relative logit . Enn, dernier commentaire important, cette standardisation nous fournit directement
les coecients que l'on aurait obtenu si on avait lanc la rgression logistique sur les donnes centres rduites " .
Solution 2 : Standardisation sur les explicatives et l'cart-type du logit

Une autre standardisation est propose dans la littrature
astd.2 = aj j
Sur le chier COEUR, nous aurons Variable Constante age taux max Quelques commentaires :
j logit
(5.5)
Coecient non nulle mais non interprtable
0.1201
8.16 1.4851
= 0.6601 = logit (age ) 0.8342
Les nouveaux coecients mesurent la variation relative du logit lorsqu'on augmente de 1 cart-type l'explicative c.--d. astd.2 = logit (j ) j Ils permettent aussi de comparer l'impact des explicatives.
Solution 3 : Standardisation sur les explicatives et l'cart-type thorique de la loi de rpartition logistique
La dernire standardisation vaut surtout parce qu'elle est propose dans le logiciel SAS [10] (page 55)
astd.3 = aj j
j theorique
(5.6)
4. Merci Samuel K.L. de m'avoir indiqu le bon emplacement de ce commentaire !

100

o theorique =
3.14159265 3
= 1.8138 est l'cart-type thorique de la loi de distribution logistique
standard # .
Sur le chier COEUR, nous aurons Variable age taux max Coecient
Constante non nulle mais non interprtable
0.1201
8.16 1.8138
= 0.5405
0.6830
Comme pour toutes les autres standardisations, les coecients permettent de comparer l'impact des explicatives. Mais elles ne s'interprtent pas en termes de variation du logit.
5. Voir B. Scherrer, Biostatistique - Volume 1, Gatan Morin Editeur, 2007 ; pages 303 et 304.
6 Analyse des interactions
On parle d'interaction lorsque l'eet d'une explicative sur la variable dpendante dpend du niveau (de la valeur) d'une autre explicative. Boire est mauvais pour la sant (parat-il ). Boire et fumer en mme temps, c'est pire, on a intrt faire son testament tout de suite (je
lgue mes pdf mes tudiants ).
Il faut (1) que l'on puisse dcrire l'interaction sous la forme d'une nouvelle variable que la rgression logistique saura prendre en compte ; (2) que l'on vrie si cette conjonction produit un eet signicatif sur la variable dpendante ; (3) le mesurer en termes de surcrot de risque, d'odds-ratio ; (4) dnir une stratgie d'exploration des direntes interactions que l'on pourrait former partir des variables disponibles ; (5) interprter correctement les coecients fournis par l'estimation. On parle d'interaction d'ordre 1 lorsque l'on croise 2 variables ; interaction d'ordre 2 lorsque l'on croise
3 variables ; etc. L'analyse des interactions est un sujet trs riche en rgression logistique. Notre texte
doit beaucoup l'excellente monographique de Jaccard [4]. On trouvera des sections entires consacres ce sujet dans plusieurs ouvrages en franais ([11], pages 96 106, pour deux variables explicatives ; [23], pages 441 446).
6.1 Dnir les interactions entre variables explicatives

6.1.1 Interaction par le produit de variables On caractrise gnralement l'interaction par le produit de deux (ou plusieurs) variables.
La signication n'est pas la mme selon leur type. Lorsque les variables sont des indicatrices, soit parce qu'elles binaires par nature, soit parce qu'il s'agit d'une indicatrice de modalit d'une variable qualitative, le produit indique la conjonction des caractristiques. Par exemple, si X1 = f umeur et X2 = alcoolique, la variable Z = X1 X2 prend la valeur 1 lorsque l'on a aaire un fumeur alcoolique. Elle prend la valeur 0 lorsqu'il s'agit d'un fumeur qui ne boit pas ; ou d'un soiard qui ne fume pas ; ou lorsque la personne n'est ni fumeur, ni alcoolique. L'insertion de la variable Z dans la rgression permet de vrier l'interaction. Si l'impact du tabac est constant que l'on soit alcoolique ou pas, le coecient associ Z ne devrait pas tre signicatif ; dans le cas contraire, s'il est signicativement dirent de 0, cela veut dire que l'impact du tabac n'est pas le mme chez les alcooliques et les non-alcooliques. On parle de modle
satur lorsque l'on intgre toutes les interactions possibles dans la rgression.
102

On utilise galement le produit quand nous traitons des variables quantitatives. Il faut tre conscient
simplement que l'on caractrise un certain type d'interaction. Admettons que X1 maintenant reprsente la consommation de cigarettes par jour, X2 la consommation d'alcool. Que penser de Z = X1 X2 quand elle est introduite dans la rgression logistique ? Le LOGIT s'crit
LOGIT = a0 + a1 X1 + a2 X2 + a3 Z = a0 + a1 X1 + a2 X2 + a3 X1 X2 = a0 + (a1 + a3 X2 )X1 + a2 X2

Voyons ce qu'il en est si l'on fait varier la variable X1 d'une unit
LOGIT (X1 = 1) = a0 + (a1 + a3 X2 )(X1 + 1) + a2 X2 = a0 + (a1 + a3 X2 )X1 + a2 X2 + (a1 + a3 X2 )

De fait, la variation du logit conscutive une variation d'une unit de X1 est une fonction linaire de la seconde variable X2
LOGIT (X1 = 1) = LOGIT (X1 = 1) LOGIT = a1 + a3 X2

De manire plus gnrale, la variation du logit lorsque X1 volue de d units s'crit
LOGIT (X1 = d) = (a1 + a3 X2 ) d
(6.1)
Il faut garder cette ide en tte. Concernant les variables quantitatives, utiliser le produit caractrise un certain type d'interaction : le log odds-ratio conscutif une variation d'une des explicatives est fonction linaire des autres explicatives. Ce n'est pas une limitation, il faut en tre conscient simplement lorsque nous analysons les rsultats.
6.1.2 tude du ronement

On cherche dterminer les facteurs de ronement partir d'un chier comportant n = 100 adultes. Les variables explicatives tudies sont le sexe (homme = 1) et le tabac (fumeur = 1). Nous ralisons la rgression sur ces deux indicatrices dans un premier temps. Il semble, au risque 10%, qu'tre un homme est propice au ronement (messieurs, demandez ce qu'il en est vos pouses). Le tabac joue un rle galement (Figure 6.1). Le critre BIC (SC) est gal 136.966. Introduisons la variable Z = hommetabac. Nous souhaitons savoir si la conjonction "tre un homme fumeur" entrane une augmentation du risque de roner.
6.1 Dnir les interactions entre variables explicatives
103
Fig. 6.1.
Ronf lement = f (homme, tabac)
Remarque : La lecture en termes de conjonctions en est une parmi les autres. Bien souvent, dans
les tudes relles, les variables explicatives ne jouent pas le mme rle. Dans notre exemple, on peut par exemple tudier l'eet du tabac (facteur
de risque)
sur le ronement. Puis analyser si cet eet
est dirent selon que l'on est un homme ou une femme. La variable "sexe" (homme) est alors appele
variable modratrice.
choses :
Nous relanons la rgression avec la troisime variable Z (Figure 6.2). Nous constatons plusieurs La rgression est moins bonne que la prcdente si l'on en juge au critre BIC (SC). Il est pass 141.432 (plus le BIC est lev, moins bon est le modle, rappelons-le). C'est le danger qui nous guette mesure que l'on introduit de nouvelles variables peu ou prou pertinentes dans la rgression. La variable traduisant l'interaction n'est pas signicative : les hommes fumeurs ne ronent pas plus que les autres (ou, si nous sommes dans le schma "facteur de risque vs. eet modrateur", le tabac ne joue pas un rle direnci selon le sexe).
6.1.3 Coecients des indicatrices seules

Un autre rsultat doit attirer notre attention : curieusement, les autres indicatrices ne sont plus signicatives 10%. Cela laisse penser que les variables ne psent pas individuellement sur le risque de
104
Fig. 6.2.
Ronf lement = f (homme, tabac, homme tabac)
roner. Or on sait que ce n'est pas vrai au regard du rsultat de la rgression sans le terme d'interaction. En fait, croire que les coecients associes aux indicatrices seules correspondent aux eets individuelles des variables est une erreur [4] (page 20). Ils indiquent l'eet de la variable conditionnellement au fait que l'autre indicatrice prend la valeur 0. Prenons le coecient de
homme (sexe = homme) qui est gal ahomme = 1.586316 (on oublie que chez les non-
la variable est non signicative 10%). En passant l'exponentielle, nous avons OR(sexe=homme) =
e1.586316 = 4.9 c.--d. les hommes ont 4.9 fois plus de chances de roner que les femmes
fumeurs c.--d. tabac = 0 !
Pour nous en persuader, nous avons ltr la base en ne retenant que les non-fumeurs. Nous avons
n = 64 observations. Nous avons ralis une rgression simple ronf lement = f (homme) (Figure 6.3).
Nous retrouvons le coecient de
homme de la rgression avec interaction, avec une p-value identique.
6.2 Stratgie pour explorer les interactions

6.2.1 Modle hirarchiquement bien formul
Les considrations de la section prcdente nous amnent un aspect trs important de ce chapitre : les stratgies d'exploration des interactions. Il est vident que l'on ne peut par s'appuyer sur des procdures
105
Fig. 6.3.
Ronf lement = f (homme) chez les non-fumeurs (tabac = 0) - n = 64 obs.
purement mcaniques comme celles qui sont dcrites dans le chapitre consacr la slection de variables (chapitre 7). Il faut tenir compte du rle des variables dans les dirents niveaux d'interactions. Un modle est dit lev sont prsents. Vite un exemple pour bien comprendre. Si l'interaction X1 X2 X3 est prsent dans la rgression, nous devons y retrouver galement les interactions d'ordre 1 c.--d. X1 X2 , X1 X3 et X2 X3 ; mais aussi les interactions d'ordre 0 (les variables prises individuellement) c.--d. X1 , X2 et X3 . Cette contrainte doit tre respecte lors du processus de slection de variables. Deux situations sont envisageables : 1. Si X1 X2 X3 est signicatif, nous arrtons le processus de slection, toutes les autres interactions sont conserves. 2. Dans le cas contraire, nous pouvons la supprimer. Reste dnir une stratgie d'limination parmi les multiples interactions du mme ordre (d'ordre 1 concernant notre exemple), toujours en respectant la rgle dicte ci-dessus : a) Une premire approche consiste confronter le modle complet incluant toutes les interactions d'ordre suprieur Y = f (X1 , X2 , X3 , X1 X2 , X1 X3 , X2 X3 ) avec celle o elles sont absentes c.--d. Y = f (X1 , X2 , X3 ), en utilisant le test du rapport de vraisemblance ou le test de Wald. Si
mulated model ; [4], page 15) si toutes les interactions d'ordre infrieurs de l'interaction d'ordre le plus
"hirarchiquement bien formul" (HBF) (en anglais, hierarchically well for-
106

on accepte H0 , les coecients associes aux termes d'interactions sont tous nuls, nous pouvons les supprimer en bloc. Dans le cas contraire, rejet de H0 , la situation se complique. Nous devons comparer le modle complet avec un modle n'incluant que certaines interactions [4] (page 64). Admettons que nous souhaitons valuer le terme X2 X3 b) Nous pouvons la confronter avec la rgression Y = f (X1 , X2 , X3 , X1 X2 , X1 X3 ). Ce modle est toujours HBF si l'on se rfre la dnition ci-dessus. Aprs il faut savoir interprter correctement les coecients. c) Si X2 X3 est retire de la rgression, nous pouvons choisir l'autre terme d'interaction (X1 X2 ou X1 X3 ) liminer en les valuant tour tour. d) Ou bien si une des variables joue un rle prminent, nous focaliser sur la suppression de cette variable. Par exemple, si X3 joue un rle particulier, aprs avoir retir X2 X3 , nous cherchons valuer X1 X3 , puis le cas chant X3 .
6.2.2 tude du ronement avec 3 variables

Nous revenons notre tude du ronement avec 3 variables explicatives X1 = homme, X2 = age et
X3 = tabac. On cherche en priorit isoler l'eet du tabac sur le ronement. Dans un premier temps,
avec le logiciel R, nous calculons le modle avec toutes les interactions
#rgression logistique - complet modele.full <- glm(ronflement ~ homme+age+tabac+homme_age+homme_tabac+age_tabac +hom_tab_age, data = donnees, family = "binomial") print(summary(modele.full))
Fig. 6.4.
Ronf lement = f (homme, tabac, age, . . . ) - Modle complet
La dviance du modle est D{0,1,2} = 114.66 (Figure 6.4). Aucun coecient ne semble signicatif. Il ne faut pas trop s'en formaliser, il doit y avoir de fortes corrlations entre les variables.
107
Fig. 6.5.
Ronf lement = f (homme, tabac, age, . . . ) - Interactions d'ordre 1
Nous passons au modle avec les interactions d'ordre 1 (Figure 6.5).
#rgression logistique - avec interactions d'ordre 1 modele.1 <- glm(ronflement ~ homme+age+tabac+homme_age+homme_tabac+age_tabac, data = donnees, family = "binomial") print(summary(modele.1))
La dviance est D{0,1} = 114.85. La statistique du rapport de vraisemblance est LR = D{0,1}
D{0,1,2} = 114.85 114.66 = 0.19. Avec la loi du 2 (93 92) = 1 degr de libert, nous avons une pvalue de 0.663. Manifestement, au risque 10%, l'interaction d'ordre 2 ne joue aucun rle dans l'explication du ronement.
Fig. 6.6.
Ronf lement = f (homme, tabac, age) - Interactions d'ordre 0
valuons maintenant le bloc d'interactions d'ordre 1. Nous ralisons la rgression avec uniquement les variables individuelles.
#rgression logistique - sans interactions d'ordre 1 modele.0 <- glm(ronflement ~ homme+age+tabac, data = donnees, family = "binomial") print(summary(modele.0))
108

Nous obtenons la dviance D{0} = 118.13 (Figure 6.6). La statistique du test est LR = D{0} D{0,1} =
118.13 114.85 = 3.28. Avec un 2 (96 93) = 3 degrs de libert, nous avons une p-value de 0.350.
Nous pouvons liminer le bloc complet des termes d'interaction d'ordre 1. Enn, en considrant cette dernire rgression, on se rend compte que l'liminer. Le modle nalement slectionn inclut
tabac n'est pas signicatif au
sens du test de Wald (le test du rapport de vraisemblance aboutit la mme conclusion). Nous pouvons
homme et age (Figure 6.7). Moralit : les hommes
ronent plus que les femmes age gal ; sexe gal, plus on est g, plus on rone.
Fig. 6.7.
Ronf lement = f (homme, age)
6.3 Calcul de l'odds-ratio en prsence d'interaction

Le calcul de l'odds-ratio d'une variable (prsence vs. absence d'un caractre pour une indicatrice ; variation d'une unit pour une variable quantitative) dpend des valeurs des autres variables lorsqu'il y a des termes d'interaction dans la rgression [9] (pages 74 79). Si l'estimation ponctuelle est assez simple produire, il en est tout autrement en ce qui concerne l'estimation par intervalle. Nous devons tenir compte des variances
et covariances des coecients pour obtenir la variance du log odds-ratio.
6.3.1 Estimation ponctuelle

Prenons un exemple deux variables {X1 , X2 } pour xer les ides. Le logit s'exprime de la manire suivante
logit = a0 + a1 X1 + a2 X2 + a3 X1 X2 X2 est binaire, nous souhaitons obtenir son odds-ratio. Le logit pour X2 = 0 s'crit
logit(X2 = 0) = a0 + a1 X1
6.3 Calcul de l'odds-ratio en prsence d'interaction

Pour X2 = 1, il devient
109
logit(X2 = 1) = a0 + a1 X1 + a2 + a3 X1
L'cart entre les logit, le log odds-ratio, est obtenu par direnciation
logit (X2 ) = logit(X2 = 1) logit(X2 = 0) = a2 + a3 X1

Ainsi, l'odds ratio OR(X3 ) = elogit (X3 ) dpend la fois des coecients a2 , a3 , mais aussi de la valeur de X1 . Nous ne pouvons plus nous contenter d'analyser uniquement le coecient a2 associ la variable individuelle.
Ronement en fonction du sexe et du tabac

Nous prenons le modle complet dans l'explication du ronement partir du sexe et du tabac (Figure 6.2). La rgression s'crit
logit = 2.1972 + 1.5863 homme + 1.1856 tabac 0.4794 homme tabac

Nous utilisons tous les termes de la rgression mme s'ils ne sont pas signicatifs. Nous souhaitons connatre le surcrot de risque associ au tabac chez un homme (homme = 1). L'estimation du log oddsratio est gal
logit (X2 ) = a2 + a3 X1 = 1.1856 0.4794 1 = 0.7062

Nous pouvons dire qu'un fumeur masculin e0.7062 = 2.03 fois plus de chances de roner qu'un non fumeur avec les mmes spcications (sous rserve de la signicativit des coecients encore une fois). Cette valeur n'est par contre pas valable pour une femme (X1 = 0). Il faudrait relancer la procdure de calcul. Nous aurions un log odds-ratio de 1.18560.47940 = 1.1856. Une femme fumeuse a e1.1856 = 3.27 fois plus de chances de roner qu'une non fumeuse.
Page: 109
macro: svmono.cls
date/time: 21-Jun-2011/16:10
110
6.3.2 Estimation par intervalle

Pour construire l'intervalle de variation, nous devons tout d'abord produire une estimation de la variance du log odds-ratio. Toujours pour notre exemple 2 variables, il s'crit
2 a a V (logit ) = V (2 ) + X1 V (3 ) + 2 X1 COV (2 , a3 ) a
Les bornes de l'intervalle au niveau de conance (1 ) sont dnies par
logit u1/2
V (logit )
o u1/2 est le fractile de la loi normale centre rduite.
Ronement en fonction du sexe et du tabac
Fig. 6.8.
Ronf lement = f (homme, tabac, homme tabac) - Matrice de variance covariance
Poursuivons notre exemple ci-dessus, le logiciel R sait produire la matrice de variance covariance (Figure 6.8). Nous pouvons calculer la variance du log odds-ratio pour un homme (X1 = 1)
2 a a V (logit ) = V (2 ) + X1 V (3 ) + 2 X1 COV (2 , a3 ) a
= 1.451837 + 12 1.723949 + 2 1 (1.451837) = 0.272112

Les bornes de l'intervalle de conance 90% du log odds-ratio s'crivent
bb(logit ) = 0.7062 1.6449 bh(logit ) = 0.7062 + 1.6449
0.272112 = 0.1518 0.272112 = 1.5642
1. On devine aisment qu' mesure que le nombre de variables augmente, avec des interactions d'ordre lev, la formule devient rapidement assez complexe.
6.4 Interprter les coecients de la rgression en prsence d'interactions

Et par consquent, ceux de l'odds-ratio
111
bb(OR) = e0.1518 = 0.8591 bh(OR) = e1.5642 = 4.7790

L'intervalle contient la valeur 1, le tabac ne pse pas signicativement sur le ronement pour savoir ce qu'il en est.
hommes. Cela ne prjuge pas des rsultats chez les femmes, il faudrait reproduire la dmarche complte
chez les

L'obtention des odds-ratio est dicile pour les modles avec interaction. Ils sont plus ou moins lis avec les coecients de la rgression, nous devons tenir compte des valeurs prises par les autres explicatives. Dans le cas de rgression deux variables cependant, nous pouvons dduire les log odds-ratio partir des coecients. Tout dpend du type des explicatives (voir [4], chapitres 2, 3 et 4 ; [11], pages 96 106). Pour donner un tour plus concret notre propos, nous ferons tenir un rle dirent aux variables explicatives : l'une (X ) sera le facteur de risque dont on veut tudier l'impact sur la variable dpendante, gnralement il s'agit d'une variable sur laquelle nous pouvons raisonnablement inuer (ex. fumer ou pas, le poids, etc.) ; l'autre (Z ) sera la variable modratrice qui peut masquer ou exacerber cet impact, il s'agit le plus souvent d'une variable sur laquelle nous n'avons pas rellement prise (ex. l'ge, le sexe, etc.).
6.4.1 Deux explicatives binaires

Toujours sur le chier ronement, nous posons X = tabac et Z = sexe. On souhaite savoir si le tabac a une inuence, et si elle est dirente selon que l'on est un homme (1) ou une femme (0 = groupe de rfrence). Rappelons rapidement les coecients de la rgression, nous avions (Figure 6.2) Coef.
a 1.1856 1.5863
p-value -
a0 2.1972 aX aZ
0.3252 0.1463 0.7151
aXZ 0.4794
En passant par les tableaux croiss, nous pouvons calculer directement les odds-ratio (Figure 6.9). Nous constatons que l'odds ratio est plus lev chez la femme (OR(f emme) = 3.27) que chez l'homme
OR(homme) = 2.03. Reste dterminer s'il est signicatif ou non.

Passons au logarithme de l'odds-ratio, nous pouvons les retrouver directement partir des coecients de la rgression avec les relations suivantes :
Page: 111
macro: svmono.cls
date/time: 21-Jun-2011/16:10
112
Fig. 6.9.
Calcul des odds-ratio par un tableau de contingence, deux variables binaires
ln[OR(f emme)] = 1.1856 = aX , le log odds-ratio associ au facteur de risque X dans le groupe de rfrence correspond au coecient du facteur de risque aX . ln[OR(homme)] = 0.7032 = aX + aXZ , le log odds-ratio dans le groupe des hommes correspond la somme des coecients associs au facteur de risque et au terme d'interaction. Nous l'avons constat prcdemment, il y a un cart entre les odds-ratio. Nous savons maintenant qu'il est non signicatif 10% car le coecient aXZ du terme d'interaction ne l'est pas dans la rgression (p-value = 0.7151).
6.4.2 Un explicative continue et une explicative binaire

Toujours dans notre problme de ronement, nous souhaitons identier l'impact de l'indice de masse corporelle (X = imc, variable quantitative) sur la variable dpendante, en contrlant le rle du sexe (Z = sexe) (homme = 1, femme = 0). Deux questions sont poses : est-ce que l'imc inue sur le ronement, est-ce qu'il inue diremment selon que l'on est un homme ou une femme. Avec des sries de rgressions simples, nous parvenons aux conclusions suivantes : Impact
ln(OR)
OR
imc chez les hommes (n = 75) 0.083342 0.9200 imc chez les femmes (n = 25) 0.876508 2.4025
Est-ce que nous pouvons retrouver ces valeurs partir de la rgression incluant X , Z et le terme d'interaction XZ (Figure 6.10) ? La rponse est oui, le principe est assez similaire celui des deux variables binaires : ln[OR(f emme)] = 0.876508 = aX , le log odds-ratio conscutif une variation d'une unit d'IMC chez les femmes (Z = 0) correspond au coecient aX de la rgression. ln[OR(homme)] = 0.083342 = aX + aXZ , le log odds-ratio conscutif une variation d'une unit d'IMC chez les hommes (Z = 1) correspond la somme des coecients du facteur de risque et du terme d'interaction. Nous savons que l'cart entre ces odds-ratio n'est pas signicatif 10% parce que le coecient du terme d'interaction ne l'est pas dans la rgression.
Page: 112
macro: svmono.cls
date/time: 21-Jun-2011/16:10
113
Fig. 6.10.
Rgression ronf lement = f (imc, homme, imc homme) - n = 100 obs.
Fig. 6.11.
Rgression ronf lement = f (alcool, age, alcool age) - n = 100 obs.
6.4.3 Deux explicatives continues

Dans cette section, nous essayons d'expliquer le ronement partir de la consommation d'alcool (X ) en contrlant l'ge (Z ), nous avons centr cette dernire pour faciliter les interprtations. Les questions que l'on se pose sont les suivantes : est-ce que l'alcool pse sur le ronement ? estce que son impact varie en fonction de l'ge ? Pour rpondre cela nous avons calcul la rgression
Y = f (X, Z, XZ) (Figure 6.11). Nous lisons les coecients de la manire suivante :
aX = 0.181949 correspond au log odds-ratio conscutif une augmentation d'une unit de la consommation d'alcool pour des personnes ayant Z = 0 c.--d. l'ge moyen de la population (car la variable a t centre). aXZ = 0.007454 est la variation du log odds-ratio associ X lorsque Z augmente d'une unit. Cette dernire ide mrite quelques claircissements. Nous pouvons r-crire le logit :
logit = a0 + aX X + aZ Z + aXZ XZ = a0 + (aX + aXZ Z)X + aZ Z

114

Le log odds-ratio relatif une variation d'une unit de X est gal aX + aXZ Z , il dpend de la valeur
de Z ! Lorsque Z = 0, il sera aX , nous l'avions vu prcdemment ; lorsque Z = 1, il sera aX + aXZ . La dirence entre ces deux quantits correspond bien aXZ . Ceci tant, l'interaction alcool age n'est pas signicative 10%, nous pouvons la retirer de la rgression. Le "bon" modle serait nalement ronf lement = f (alcool, age) avec comme principales conclusions : ge gal, boire fait roner ; et consommation d'alcool gal, plus on vieillit, plus on rone (Figure 6.12). Bref, mesdames, si vous voulez passer des nuits en toute quitude, mieux vaut pouser un jeune sobre qu'un vieux solard. Ca tombe un peu sous le sens quand mme. Je ne suis pas sr qu'il tait ncessaire de faire des calculs statistiques aussi compliqus pour parvenir cette conclusion.
Fig. 6.12.
Rgression ronf lement = f (alcool, age) - n = 100 obs.
Page: 114
macro: svmono.cls
date/time: 21-Jun-2011/16:10
7 La slection de variables
7.1 Pourquoi la slection de variables ?

La slection de variables est une tape cl de la modlisation. Dans les tudes relles, nous sommes confronts des bases de donnes avec un nombre considrable de descripteurs. Ce sont autant de variables explicatives potentielles. Certaines d'entre elles sont redondantes, d'autres n'ont aucun rapport avec la variable dpendante. La mthode statistique doit nous donner des indications sur le sous-ensemble des
bonnes variables inclure dans le modle. Dans l'idal, elles devraient tre orthogonales entre elles et
toutes fortement lies avec la variable dpendante. Certains auteurs encensent la slection automatique de variables parce qu'elle constitue un outil fort utile pour une premire approche sur des donnes que l'on ne connat pas trs bien ; d'autres par contre la critiquent vertement car elle nous rend dpendante des uctuations alatoires dans les donnes, d'un chantillon l'autre nous sommes susceptibles d'obtenir des solutions direntes [10] (page 63). Il reste qu'elle est prcieuse lorsque la qualit de prdiction est l'objectif principal ou lorsque nous sommes dans un contexte exploratoire. Mme si l'expert du domaine a une certaine ide des explicatives retenir, une slection automatique peut l'aiguiller sur les pistes tudier. Plusieurs raisons nous poussent rduire le nombre de variables explicatives :
Moins il y aura de variables, plus facile sera l'interprtation. En vacuant les descripteurs
qui ne sont pas ncessaires l'explication de la variable dpendante, nous pouvons plus facilement cerner le rle de celles qui sont retenues. N'oublions pas que dans de nombreux domaines, l'explication est au moins aussi importante que la prdiction. La rgression logistique nous propose des outils merveilleux pour lire les coecients en termes de surcrot de risque. Rduire le nombre de variables permet d'en proter pleinement.
Le dploiement sera facilit. Lorsque le modle sera mis en production, on a toujours intrt
poser peu de questions pour identier la classe d'appartenance d'un individu. Imaginez vous arriver au service des urgences d'un hpital, une personne vous pose une trentaine de questions pour identier votre problme, vous aurez eu le temps de mourir plusieurs fois. Idem, vous sollicitez un crdit auprs d'un banque, elle commence vous demander la date de naissance de votre arrire grand-pre, la question d'aprs vous tes dj dans l'tablissement d'-ct. Au l du temps, je me suis rendu compte qu'un systme aussi ecace soit-il n'est vraiment adopt par les utilisateurs que s'il est peu contraignant, simple d'utilisation.
Page: 115
macro: svmono.cls
date/time: 21-Jun-2011/16:10
116
Dernier argument en faveur de la slection, pour un mme nombre d'observations, C'est le principe du
un modle avec peu de variables a de meilleures chances d'tre plus robuste en gnralisation.
Rasoir d'Occam. En eet, lorsque le nombre de paramtres du modle est trop lev, le sur-apprentissage nous guette (overtting en anglais). Le classieur "colle" trop aux
donnes et, au lieu d'intgrer les informations essentielles qui se rapportent la population, il ingre les particularits de l'chantillon d'apprentissage. Introduire des variables explicatives nonpertinentes augmente articiellement les variances des coecients [10] (page 68), les estimations sont numriquement instables [9] (page 92). Bref, les probabilits conditionnelles P (X/Y ) sont mal estimes. On pense gnralement qu'il faut respecter un certain ratio entre le nombre de paramtres estimer et la taille de l'chantillon. Il est malheureusement trs dicile quantier. Il dpend aussi de la dicult du concept apprendre. A titre indicatif, nous citerons la rgle empirique suivante [9] (page 346)
min(n+ , n ) (7.1) 10 Il faut donc rduire le nombre de variables. Reste savoir comment. La slection manuelle est une J +1
solution possible. En se basant sur le test de Wald ou le test du rapport de vraisemblance, l'expert peut choisir le meilleur sous-ensemble, en accord avec les connaissances du domaine. Idale dans l'absolu, cette stratgie n'est pas tenable en pratique, surtout lorsque nous avons traiter de grandes bases de donnes avec un nombre considrable de variables explicatives potentielles (quelques centaines habituellement dans les bases de donnes marketing). Il nous faut utiliser des procdures automatises.
slection par optimisation implmente dans R, et la slection base sur des critres statistiques implmente dans Tanagra. Tous deux
Dans ce chapitre, nous tudierons deux approches : la se rejoignent sur le mode d'exploration de l'espace des solutions, il s'agit de procdures pas--pas qui valuent une succession de modles embots : la slection FORWARD part du modle trivial, puis rajoute une une les variables explicatives jusqu' ce que l'on dclenche la rgle d'arrt ; la slection BACKWARD part du modle complet, incluant la totalit des descripteurs, puis enlve une une les variables non signicatives ; R, de plus, dispose de la mthode STEPWISE (qu'elle appelle BOTH), elle alterne forward et backward, elle consiste vrier si chaque ajout de variable ne provoque pas le retrait d'une explicative qui aurait t intgre prcdemment. Nous le disons encore une fois,
solutions.
ces techniques numriques nous proposent des scnarios de
Il ne faut surtout pas prendre pour argent comptant les sous-ensembles de variables expli-
catives proposes. D'autant qu'ils peuvent varier d'une stratgie une autre, et mme d'un chantillon d'apprentissage un autre. Il faut plutt les considrer comme des alternatives que l'on peut soumettre et faire valider par un expert du domaine. La slection de variables est un maillon de la dmarche exploratoire. Nous pouvons nous appuyer sur ses rsultats pour essayer des combinaisons de variables, des transformations, rchir sur la pertinence de ce que l'on est en train de faire, etc.
1. On lira avec bonheur la section 8.5, pages 339 347, consacre la dtermination d'une taille "susante" d'chantillon dans le mme ouvrage.
7.2 Slection par optimisation
117

7.2.1 Principe de la slection par optimisation
La slection par optimisation consiste trouver le sous-ensemble de variables prdictives qui minimise un critre. Celui-ci ne peut pas tre la dviance. En eet elle diminue de manire mcanique lorsque l'on rajoute de nouvelles variables, l'instar de la somme des carrs des rsidus dans la rgression linaire. Il nous faut un critre qui contrebalance la rduction de la dviance, qui comptabilise la qualit de l'ajustement, par un indicateur qui comptabilise la complexit du modle. Lorsque nous rajoutons des variables pertinentes, le critre doit continuer dcrotre ; lorsque nous rajoutons des variables qui ne sont pas en rapport avec la prdiction ou qui sont redondantes par rapport aux variables dj choisies, il doit augmenter. Deux critres rpondent ces spcications. Le critre AIC d'Akaike
AIC = 2LL + 2 (J + 1)
et le critre BIC de Schwartz
(7.2)
BIC = 2LL + ln(n) (J + 1)
(7.3)
o 2LL est la dviance ; (J + 1) est le nombre de paramtres estimer, avec J le nombre de variables explicatives. Quelques remarques avant de passer un exemple illustratif : Ces deux critres sont assez similaires nalement. BIC pnalise plus la complexit du modle ds que l'eectif n augmente (ds que ln(n) > 2). Ca ne veut pas dire qu'il est meilleur ou moins bon. Il privilgie simplement les solutions avec moins de variables explicatives par rapport AIC. Selon la stratgie de recherche (forward, backward, stepwise), nous pouvons aboutir des sousensembles dirents. Ce n'est pas parce que la variable a t slectionne via cette procdure d'optimisation qu'elle sera signicative au sens du test du rapport de vraisemblance ou du test de Wald dans la rgression. Cela entrane souvent le praticien dans un abme de perplexit. Mais ce n'est pas du tout tonnant bien y regarder. Les critres utiliss ne sont pas les mmes. La conduite tenir dpend des objectifs de notre tude.
7.2.2 Slection de variables avec R

Nous utilisons un nouvel ensemble de donnes dans ce chapitre. Il s'agit toujours de prdire l'occurrence d'une maladie cardiaque (HEART) (dcidment !) l'aide de 10 variables explicatives candidates. Nous disposons de n = 208 observations, avec n+ = 117 ngatifs (absence) et n = 91 positifs (prsence).
Page: 117
macro: svmono.cls
date/time: 21-Jun-2011/16:10
118
Nous utilisons le logiciel R qui, avec la commande stepAIC du package MASS, implmente la slec-
tion de variables par optimisation . Le code source des commandes dcrites ci-dessous est livr avec ce document dans une archive part (Annexe B). Avant de lancer les calculs, nous devons spcier les explicatives du modle trivial (il n'y en a pas) et celles du modle complet (toutes). Dans R, nous dnissons deux variables de type pour les dcrire
chane de caractres
#modle trivial rduit la constante str_constant <- "~ 1" #modle complet incluant toutes les explicatives potentielles str_full <- "~ age+restbpress + max_hrate + chest_pain_asympt_1 + chest_pain_atyp_angina_1 + chest_pain_non_anginal_1 + blood_sugar_f_1 + restecg_normal_1 + restecg_left_vent_hyper_1 + exercice_angina_yes_1"
Slection FORWARD
Pour initier une slection forward, nous utilisons la commande stepAIC. Elle utilise par dfaut le critre AIC, mais nous pouvons le paramtrer de manire ce qu'elle optimise le critre BIC. Le modle constitu uniquement de la constante (modele) sert de point de dpart. stepAIC lance la procdure de recherche, et modele.forward rceptionne la rgression nale intgrant les variables slectionnes.
#dpart modele avec la seule constante + slection forward modele <- glm(heart ~ 1, data = donnees, family = binomial) modele.forward <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full), trace = TRUE, data = donnees, direction = "forward") #affichage du modle final summary(modele.forward)
Dissquons les sorties de R durant le processus de recherche, on s'en tiendra uniquement aux trois premires tapes (Figure 7.1) 1. Initialement, nous avons AIC = 287.09 pour le modle trivial. 2. R cherche le modle 1 variable qui minimise l'AIC. Il ache toutes les congurations qu'il a testes et les trie selon l'AIC croissant : heart = f(chest_pain_asympt_1) AIC = 211.86 heart = f(exercice_angina_ yes_1) AIC = 214.88 ... Notons que les variables qui viennent aprs <none> proposent un modle pire, c.--d. l'AIC est plus lev, que le modle courant (le modle trivial ici). Au nal, R a intgr la premire variable de la liste "chest_pain_asympt_1". Il essaie de voir quelle serait la seconde meilleure variable qu'il pourrait lui adjoindre.
2. Pour ceux qui ne sont pas trs familiariss avec R, vous trouverez trs facilement de la documentation sur le web, entre autres, celles que j'ai rassembles sur mon site de cours http://eric.univ-lyon2.fr/~ricco/cours glm() est la fonction qui permet de raliser une rgression logistique
119
Fig. 7.1.
Processus de slection de variables - stepAIC de R - Forward
3. C'est reparti pour un tour. Il teste tous les modles deux variables, sachant que "chest_pain_asympt_1" ne peut plus tre remis en cause heart = f(chest_pain_asympt_1,exercice_angina_yes_1) AIC = 183.59 heart = f(chest_pain_asympt_1,max_rate) AIC = 208.85 ... Le meilleur modle 2 variables prsentant un AIC (183.59) plus faible que le prcdent 1 variable (211.86), la variable "exercice_angina_yes_1" est accepte. 4. Le processus se poursuit tant que l'on rduit le critre AIC. Ds que le critre stagne ou repart la hausse, le processus de recherche est stopp. Au nal, 5 variables explicatives sont slectionnes. Dans le modle qui en dcoule, nous constatons avec surprise que 2 d'entre elles (chest_pain_asympt_1 et blood_sugar_f_1) ne sont pas signicatives au sens du test de Wald 5% (Figure 7.2). Cela rejoint la remarque que nous avions formule plus haut : une variable peut tre intgre au sens du critre AIC, sans pour autant tre signicative au sens du test de Wald ou du rapport de vraisemblance.
Page: 119
macro: svmono.cls
date/time: 21-Jun-2011/16:10
120
Fig. 7.2.
Modle slectionn par le module stepAIC de R - Option Forward
Slection BACKWARD
La slection backward agit exactement l'inverse du forward : R part du modle incluant toutes les variables, il les enlve au fur et mesure tant que le critre AIC dcrot. Le processus est stopp ds que l'AIC stagne ou augmente. Voici les commandes pour R
modele <- glm(paste("heart",str_full), data = donnees, family = binomial) modele.backward <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full), trace = TRUE, data = donnees, direction = "backward") #affichage summary(modele.backward)
Dtaillons les premires tapes (Figure 7.3) : 1. Le modle incluant les 10 variables propose un AIC = 186.48. 2. R teste le retrait de chaque variable explicative. Elles sont aches selon un AIC croissant (le meilleur est celui qui propose l'AIC le plus faible) Si on retire restecg_normal_1, le modle 9 variables qui en rsulte prsentera un AIC de 184.49. Si on retire restbpress, nous aurons AIC = 184.53 Etc. Celle qui faudrait supprimer est restecg_normal_1, l'AIC du modle 9 variables est plus faible que le modle prcdent 10 variables. Le retrait est entrin. 3. A partir de la conguration 9 variables, R teste tous les modles 8 variables en retirant tour tour chaque explicative. Il apparat que la suppression de restbpress amliore encore le rsultat avec
AIC = 182.53. Elle est supprime.

121
Fig. 7.3.
Processus de slection de variables - stepAIC de R - Backward
4. Etc. Finalement, un modle 4 variables explicatives est mis en avant (Figure 7.4). Nous noterons plusieurs choses : nous n'obtenons pas le mme sous ensemble de variables, il y en 4 pour l'option backward, il y en avait 5 pour le forward, chest_pain_asympt_1 a disparu (corps et biens) ; et pourtant l'AIC de backward (175.77) est meilleur que celui de forward (177.69) ; enn, parmi les variables retenues, certaines s'avrent non-signicatives au sens du test de Wald.
Slection BOTH
L'option BOTH est a priori plus performante que les deux prcdentes parce qu'elle les mixe justement. Voyons ce qu'il en est avec R. Les commandes utilises sont les suivantes
Page: 121
macro: svmono.cls
date/time: 21-Jun-2011/16:10
122
Fig. 7.4.
Modle slectionn par le module stepAIC de R - Option Backward
#dpart modele avec la seule constante + slection both modele <- glm(heart ~ 1, data = donnees, family = binomial) modele.both <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full), trace = TRUE, data = donnees, direction = "both") #affichage summary(modele.both)
La recherche est un peu plus complexe dans ce cas. Nous ne rentrerons pas dans les dtails. Allons directement sur le modle nal. Nous constatons que le sous-ensemble de variables retenu par l'option both (Figure 7.5) est le mme que celui de l'option backward. Bref, avant de nous exciter inutilement sur les mrites de telle ou telle approche, prendre du recul par rapport aux rsultats est toujours salutaire.
Utiliser le critre BIC

Dernier point pour conclure cette section, si nous passons au critre BIC qui pnalise plus la complexit du modle, nous slectionnons (presque) mcaniquement moins de variables. Nous l'avons test avec l'option de recherche "both". On notera dans la fonction stepAIC le rle du paramtre k . Pour obtenir le critre BIC, nous avons x k = ln(n) = ln(208) = 5.34 : 2 variables seulement ont t slectionnes (Figure 7.6). Ca ne veut pas dire que le classieur est moins bon (ou meilleur). Il s'agit l simplement d'un autre scnario o l'on pnalise plus les modles complexes. Cette attitude se justie lorsque nous traitons des bases avec un nombre important de variables candidates dont une partie ne paraissent pas, de prime abord, pertinentes.
7.3 Slection statistique

La slection de variables ne peut pas se rsumer une aaire d'optimisation. C'est une dmarche possible, mais elle n'est pas la seule. Les incohrences avec le test de Wald ou du rapport de vraisemblance
123
Fig. 7.5.
Modle slectionn par le module stepAIC de R - Option Both
le montrent bien, des pistes alternatives en relation directe avec les tests de signicativit des coecients peuvent tre explores. Un autre aspect important est le cot, en termes de temps de calcul, ncessaire la slection. Si l'on s'en tient la procdure
forward, le logiciel eectue J rgressions la premire tape ; (J 1)

J(J+1) 2
la seconde ; etc. Dans le pire cas o toutes les variables sont nalement retenues, il aura ralis R est particulirement rapide, ce n'est pas tenable sur de trs grandes bases de donnes.
rgressions (et autant d'optimisation de la fonction de log-vraisemblance). Mme s'il faut reconnatre que Dans ce section, nous tudions les techniques de slection exclusivement fondes sur les tests de signi-
forward et backward. L'norme avantage est que nous construisons J rgressions dans le pire des cas : retenir toutes les variables pour forward, supprimer toutes les variables pour backward. Commenons par l'option la plus facile, la slection backward
cativit. Le stratgies d'exploration sont toujours les mmes, base sur le test de Wald.
7.3.1 Slection BACKWARD base sur le Test de Wald

La procdure peut tre rsume comme suit : 1. Commencer avec la totalit des variables. 2. Estimer les paramtres de la rgression logistique.
124
Fig. 7.6.
Modle slectionn par stepAIC - Critre BIC avec k = ln(n) = 5.34 - Option Both
3. Dtecter parmi les coecients celui qui prsente la statistique de Wald la plus faible. 4. Vrier s'il est non signicatif en comparant la p-value du test avec le risque de premire espce que l'on s'est choisi. Si p-value , la variable est conserve. C'est l'arrt du processus, l'ensemble de variables courant est la solution. Si p-value > , la variable est retire de l'ensemble courant et, si ce dernier n'est pas vide, retour en [2], sinon c'est l'arrt du processus, aucune variable n'aura t slectionne. Quelques remarques concernant la dmarche et les rsultats obtenus : Il n'y a rien que l'on ne connaisse dj dans tous les lments qui composent ce processus. Nous ne sommes pas dpayss. Toutes les variables retenues sont signicatives au sens du test de Wald dans la rgression nale. Il n'y a pas d'incohrences comme nous avions pu le constater lors l'optimisation de l'AIC. Dans le pire des cas, il n'y a que J rgressions oprer. Le temps de calcul est ( peu prs) connu l'avance. Par rapport au forward, la stratgie backward propose une proprit intressante : elle prend mieux en compte les combinaisons de variables. En eet, il arrive qu'une variable explicative ne soit vraiment dcisive qu'en prsence d'une autre. Comme
backward part de la totalit des variables,
elle ne peut pas laisser passer ce type de situation [10] (page 64). A l'usage, on se rend compte qu'il n'y pas de dirences rellement agrantes entre ces deux stratgies sur des bases relles.
125
Lorsque le nombre de variables est trs lev (plusieurs centaines), les premires rgressions risquent d'tre problmatiques. Il y a, entre autres, l'inversion de la matrice hessienne qui est dlicate mener, source de plantage des logiciels. Ceci est d'autant plus dommageable que dans la pratique, on ne retient que les modles assez simples. Ils sont gnralement composs au maximum d'une dizaine de variables pour des questions d'interprtation et de dploiement. Enn, un statisticien vous dira tout de suite que le risque associ au test de signicativit l'tape [4] n'est certainement pas . Chaque test est prcd d'un processus de dtection de la variable la moins signicative. Il faudrait corriger le vritable risque comme il est d'usage de le faire en comparaisons multiples. Le raisonnement tient la route, c'est indniable. Mais je pense qu'il ne faut pas se tromper de cible. L'objectif n'est pas de forcer les donnes cracher la vrit (si tant est qu'il y ait une vrit cracher d'ailleurs), mais plutt de mettre en vidence des scnarios de solutions. Le risque joue le rle de tournevis qui traduit nos prfrences et que l'on adapte aux caractristiques de la base traite. Si l'on souhaite une solution avec peu de variables face un base trs bruite, on peut littralement serrer la vis (rduire ) pour tre plus exigeant avec le sousensemble nal et obtenir moins de variables. A contrario, sur une petite base, avec des variables qui ont t soigneusement choisies par le praticien, tre plus permissif parat plus judicieux (augmenter
).
Slection backward sur la base HEART

Nous reprenons la mme base HEART et nous la traitons l'aide du logiciel Tanagra. Nous utilisons le composant BACKWARD-LOGIT. Voyons le contenu de la fentre de rsultats (Figure 7.7) : Les tests sont automatiquement raliss 1% dans Tanagra. Nous pouvons le paramtrer. 3 variables ont t slectionnes nalement : chest_pain_atyp_angina_1, chest_pain_non_anginal_1 et exercice_angina_yes_1. Elles taient dj apparues lors de la slection par optimisation de l'AIC. Le tableau dans la partie basse de la fentre dtaille le processus de calcul, en s'en tenant uniquement aux 5 variables extrmes. La rgression avec la totalit des variables est globalement signicative, la statistique du test du rapport de vraisemblance est gale LR = 120.61, avec une p-value < 0.0001. Nous observons aussi l'AIC = 186.48. On constate qu' l'tape 1, restecg_normal_1 est la moins bonne variable avec une statistique de Wald de 0.006 ; la suivante est restecg_normal_1 avec W = 0.006 ; puis restbpress avec
W = 0.046 ; etc.
La moins bonne variable, restecg_normal_1, n'est pas signicative 1% avec une p-value du test de Wald gale 0.9398. Elle est retire. La rgression avec les 9 variables restantes est globalement signicative avec LR = 120.60 (p-value
< 0.0001) et AIC = 184.49. La moins bonne variable est restbpress, elle n'est pas signicative,
elle est donc retire.
Page: 125
macro: svmono.cls
date/time: 21-Jun-2011/16:10
126
Fig. 7.7.
Processus de slection backward base sur le test de Wald - Tanagra
Ainsi de suite jusqu' la ligne no 8, nous constatons que la moins bonne variable au sens de la statistique de Wald, chest_pain_non_anginal_1, ne peut pas tre retire parce qu'elle est signicative (p-value = 0.0003).
Fig. 7.8.
Rgression sur les variables slectionnes - Backward bas sur le test de Wald
Page: 126
macro: svmono.cls
date/time: 21-Jun-2011/16:10

deviner dans la dernire ligne du tableau de slection.
127
La rgression sur les 3 variables retenues nous donne un rsultat (Figure 7.8) que l'on pouvait dj
7.3.2 Slection FORWARD base sur le Test du Score

La recherche
forward fonctionne de la manire suivante :
1. Construire le modle initial c.--d. raliser la rgression avec exclusivement la constante, sans aucune variable explicative. 2. Parmi les variables candidates, dtecter celle qui maximise une statistique lorsque nous la rajoutons au modle courant. 3. Vrier si elle est signicative c.-d. p-value . Si oui, intgrer la variable dans le modle puis estimer les paramtres de la rgression. S'il reste des variables candidates, retour en [2]. Si la variable n'est pas signicative, elle n'est pas slectionne. Fin du processus. L'tape no 2 est cruciale dans le processus. Si l'on voulait utiliser le test de Wald pour passer du modle p variables celui comportant p + 1 explicatives, il faudrait raliser J p rgressions et choisir celle qui maximise la statistique. Avec un temps de calcul qui peut se rvler prohibitif sur les grandes bases. Pour viter cet cueil, nous utilisons un autre test de signicativit des coecients : le test du score.
Principe du Test du Score

Le test du score permet de tester la nullit simultane de q coecients. Il rpond aux mmes spcications que les tests que nous avons tudis dans le chapitre 3. Les hypothses s'crivent !
H0 : ap+1 = = ap+q = 0 H1 : un des coecients est non nul

L'norme dirence par rapport au test du rapport de vraisemblance et au test de Wald est que
nous nous appuyons sur les rsultats de la rgression sous H0 portant sur p variables.
Les q variables pour lesquelles nous voulons tester la signicativit des coecients sont traites comme des variables supplmentaires.
La statistique de test s'crit :
S = U H 1 U
O U est le vecteur gradient de taille (p + q + 1) 1, avec pour la composante j
(7.4)
3. Les variables ne sont pas forcment conscutives dans le modle. Nous cherchons simplement simplier l'criture ici.
128
Uj = [y() ()]xj ()
(7.5)
H est la matrice hessienne de taille (p + q + 1) (p + q + 1), avec pour la composante (j1 , j2 )
H(j1 , j2 ) =
xj1 ()xj2 () ()(1 ())
(7.6)
Sous H0 , la quantit S suit une moi du 2 q degrs de libert. Le vecteur gradient U dans l'expression 7.4 peut paratre trange. En eet, les paramtres de la rgression ayant maximis la log-vraisemblance, toutes les composantes de U devraient tre nuls. De fait,
S devrait toujours tre gal 0. La rponse est non, U est non nul, parce que les
produites l'aide du modle p variables. Exemple :
prdictions () sont
Reprenons le chier COEUR (Figure 0.1) pour illustrer la procdure. Nous ralisons
la rgression COEUR = f (TAUX MAX). Nous souhaitons savoir si l'adjonction de la variable AGE produirait un coecient signicatif. Dans un premier temps (Figure 7.9), nous optimisons la vraisemblance avec la variable TAUX MAX et la constante (en vert). AGE n'est pas utilise ce stade. Nous obtenons l'quation du LOGIT
C(X) = 8.7484 0.0627 taux max A partir de ce rsultat, nous obtenons la colonne C dans la feuille Excel, puis la colonne .
La formule 7.5 nous permet de complter le vecteur gradient, nous trouvons les composantes :
Uconst = 0 Utaux
max
=0
Uage = 22.6863
Les deux premiers termes sont nuls. En eet, ils ont particip la maximisation de la vraisemblance. Il est tout fait normal que les drives partielles premires soient nuls. Il en est tout autrement pour AGE. Il n'a pas particip l'optimisation. Lorsque nous calculons son score, nous obtenons une valeur dirente de 0, en l'occurrence Uage = 22.6863. A l'aide de la formule 7.6, nous calculons la matrice hessienne "
3.41 501.80 177.41
H = 501.80 74552.70 26056.59 177.41 26056.59 9440.07
4. Nous avons utilis la forme matricielle dans la feuille Excel, H = X V X , o V est la matrice diagonale de taille (n n) de terme gnrique (1 ).
129
Fig. 7.9.
Construction du test de score - Tester la variable supplmentaire AGE
que nous inversons
H = 0.200 0.001 0.265 0.000

Il ne reste plus qu' calculer S
43.461 0.200 0.265
0.000 0.005
Page: 129
macro: svmono.cls
date/time: 21-Jun-2011/16:10
130
(
43.461 0.200 0.265 0.0000 S = 0.0000 0.0000 22.6863 0.200 0.001 0.000 0.0000 = 2.3766 0.265 0.000 0.005 22.6863 )
Avec la fonction de rpartition du 2 1 degr de libert, nous obtenons une p-value = 0.1232. Le coecient de AGE n'est pas signicatif 10% si on l'ajoutait dans la rgression. A titre d'information, si on s'ingnie introduire quand mme la variable AGE dans la rgression, la statistique de Wald serait gale 2.0302 avec un p-value de 0.1542 (Figure 7.10). Le rsultat est cohrent avec le test du score. On montre dans la littrature qu'il existe une passerelle entre ces deux tests [7] (page 110).
Fig. 7.10.
Test de Wald si la variable AGE est introduite dans la rgression
Implmentation de la slection avec le test du score

Revenons la slection forward de variables. Nous testons l'adjonction d'une variable supplmentaire dans la modle. Le test d'hypothses s'crit
H0 : ap+1 = 0 H1 : ap+1 = 0
Nous pouvons maintenant dtailler le processus complet # 1. p = 0. 2. tape courante, nous ralisons la rgression avec les p variables dj slectionnes (lorsque p = 0, il n'y a que la constante dans le modle).
` 3. Pour les J p variables candidates. Calculer, en intgrant la (p + 1)eme variable valuer comme
variable supplmentaire
5. Dans SPSS, cette procdure est dsigne par "METHOD - FORWARD : CONDITIONAL" dans les options de gestion des variables.

a) Le vecteur gradient U b) La matrice hessienne H c) Inverser la matrice hessienne H 1 d) La statistique de test S = U H 1 U
131
4. Choisir la variable qui maximise S . Vrier que nous rejetons H0 au risque que l'on s'est choisi c.--d. p-value < . Si oui, l'ajouter dans l'ensemble des explicatives slectionnes. S'il reste encore des variables candidiates, retour en [2]. Si non, le coecient associ n'est pas signicatif ou il n'y a plus de variables candidates, arrt de la procdure. Quelques remarques sur la stratgie
forward base sur le test du score :
Premier avantage trs intressant, nous ne ralisons que J optimisations de la vraisemblance dans le pire des cas (toutes les variables sont nalement retenues). Il faut noter quand mme que l'valuation d'une variable induit une srie de calculs non ngligeables, notamment une inversion de matrice qui peut toujours tre problmatique. Il faut privilgier cette stratgie lorsque nous traitons une grande base de donnes, avec un grand nombre de variables candidates, alors que nous savons pertinemment que nous n'en retiendrons que quelques unes. Lors du test de signicativit de la variable que l'on souhaite introduire chaque tape, le vritable risque du test n'est pas vraiment gal au risque nominal que l'on a choisi. Il est un peu plus grand. En eet, nous avons d'abord slectionn la variable portant la statistique S la plus leve avant de la tester. Mais encore une fois, il faut plutt voir le paramtre comme un outil de contrle qui permet d'orienter l'algorithme vers les solutions qui conviennent compte tenu de nos objectifs et des caractristiques des donnes. Attention, le test du score et le test de Wald sont similaires mais ne sont pas totalement identiques. Il se peut qu'une explicative valide par le test du score, n'apparaisse pas signicative au sens du test de Wald lorsque nous ralisons la rgression avec le sous-ensemble de variables slectionnes.
Slection forward sur la base HEART

Nous revenons sur le chier HEART (n = 208) utilis tout au long de ce chapitre consacr la slection de variables. A l'aide de Tanagra, nous ralisons la slection avec = 0.01 (Figure 7.11) $ :
forward base sur le test du score
2 variables seulement ont t slectionnes, les mmes que la stratgie de slection par optimisation avec le critre BIC (Figure 7.6). Nous disposons du dtail du processus dans le tableau. Le modle initial est le modle trivial compos uniquement de la constante. Bien videmment, la statistique du test du rapport de vraisemblance valuant le modle global est LR = 0, le critre AIC = 287.09.
6. Le logiciel Tanagra propose une option qui permet de limiter arbitrairement le nombre de variables slectionnes. Elle s'avre utile lorsque nous traitons des bases avec un trs grand nombre de variables et que nous souhaitons obtenir un modle volontairement simple.
132 ht]
Fig. 7.11.
Processus de slection forward - Test du Score
La meilleure variable que l'on pourrait introduire au sens du test du score est chest_pain_asympt_1 avec S = 72.126 ; la seconde est exercice_angina_yes_1 avec S = 70.111 ; etc. La premire est largement signicative avec une p-value < 0.0001. Elle est donc entrine. La rgression heart = f (chest_pain_asympt_1) est globalement signicative au sens du test du rapport de vraisemblance, avec LR = 77.23. Tanagra cherche introduire une seconde variable. La meilleure est exercice_angina_yes_1, avec une statistique du score = 32.078 et une p-value
< 0.0001. Elle est galement slectionne.

La rgression avec les deux variables dj introduites est globalement signicative, la statistique du test de rapport de vraisemblance est LR = 107.50. Lorsque Tanagra essaie de rajouter une
` 3eme variable, la meilleure est chest_pain_atyp_angina_1 avec S = 4.761. Mais elle n'est pas
signicative avec p value = 0.0291 > = 0.01. Le processus est stopp.
Fig. 7.12.
Rgression sur les variables slectionnes par le test du score
Page: 132
macro: svmono.cls
date/time: 21-Jun-2011/16:10
133
A titre de curiosit, nous donnons la rgression fournie par Tanagra sur ces deux variables explicatives (Figure 7.12). Les coecients associs sont tous deux fortement signicatifs au sens du test de Wald.
Page: 133
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 134
macro: svmono.cls
date/time: 21-Jun-2011/16:10
8 Diagnostic de la rgression logistique
8.1 Analyse des rsidus

L'analyse des rsidus permet de diagnostiquer la qualit de la rgression. Plusieurs questions se posent l'issue du processus de modlisation, nous devons y apporter des rponses : 1. Dterminer les points qui "clochent" dans les donnes, qui s'cartent fortement des autres dans l'espace de reprsentation. On parle de donnes "atypiques". 2. Dterminer les points qui sont mal modliss (mal expliqus) par la rgression logistique. On parle de rsidus. 3. Dterminer les points qui psent fortement dans la rgression. On parle de points "leviers". 4. Dterminer les points qui psent exagrment sur les rsultats. Si on les retirait de l'ensemble d'apprentissage, le modle obtenu serait trs dirent. On parle de points "inuents". L'analyse des rsidus telle que nous la prsentons ici est surtout intressante lorsque nous traitons des bases de taille modre. Nous pouvons distinguer les individus, voire leur associer un label. Nous comprendrons mieux leur rle dans la rgression. Par exemple, nous modlisons l'acceptation ou le refus d'une compagnie d'assurance de prendre en charge un vhicule. On comprendra mieux le rle d'un vhicule mal modlis si l'on se rend compte qu'il s'agit d'une Aston Martin DB5 (celle de James Bond dans Goldnger). Ce n'est visiblement pas une voiture comme les autres, son positionnement va largement au del de ses qualits intrinsques. Dernire prcision importante, nous prsentons les concepts dans le cadre des donnes individuelles dans cette section. La probabilit que deux individus aient la mme description est nulle. C'est le cas lorsqu'ils sont dcrits par plusieurs variables continues. Les mmes concepts (rsidus, leviers, etc.) seront prsents dans le canevas des donnes groupes dans le chapitre 9. Plusieurs individus partagent la mme description, appele "covariate pattern". Dans cette conguration, l'analyse des rsidus va au del de son rle habituel en rgression, elle peut devenir une aide l'interprtation.
Page: 135
macro: svmono.cls
date/time: 21-Jun-2011/16:10
136
Fig. 8.1.
Fichier Coeur - Tableau de donnes, individus numrots
Fig. 8.2.
Coeur = f(age, taux max) - Nuage de points et rsultats de la rgression
8.1.1 Notre exemple de rfrence : coeur = f (age, taux max)

Tout au long de cette section, nous utiliserons les donnes COEUR (Figure 0.1). Nous modlisons la variable dpendante l'aide des deux variables explicatives quantitatives AGE et TAUX MAX. Nous reproduisons le tableau de donnes en numrotant les observations pour que nous puissions les retrouver facilement dans les dirents graphiques (Figure 8.1). Nous avons projet les observations dans le plan an de visualiser le positionnement des points. Nous reproduisons les rsultats de la rgression logistique et la matrice de confusion. Nous constatons que 2 observations sont mal classs (mal modliss). Un positif noy au milieu des ngatifs (individu no 5), et un ngatif (no 11) qui est un peu loign du nuage global et, qui plus est, situ du mauvais ct de la barrire (nous en reparlerons plus longuement plus loin, voir section 11.3), mal modlis galement. Nous

disposition des points. La comprhension des indicateurs qui viendront par la suite sera facilite.
137
les mettons en relation avec la matrice de confusion (Figure 8.2). Nous devons bien garder l'esprit cette
8.1.2 Rsidus de Pearson et Rsidus dviance Rsidus de Pearson

La modlisation de la variable Y {1, 0} peut s'crire sous la forme suivante (8.1)
Y () = () + ()
() est l'erreur de modlisation, avec () = Y () (), elle peut prendre deux valeurs possibles :
() = 1 () avec la probabilit () () = () avec la probabilit 1 ()

Nous calculons aisment :
E() = (1 ) + (1 )() = 0 V () = (1 )
La variance de l'erreur n'est pas constante, elle dpend des individus. Il y a htroscdasticit. Pour un individu , le rsidu de Pearson permet d'identier les points mal modliss
r() =
y() () ()(1 ())
(8.2)
Le rsidu de Pearson prend une valeur d'autant plus leve que est proche de 0 ou de 1. Certains auteurs arment que la distribution de r est approximativement gaussienne N (0, 1). Ainsi, tout point en dehors de l'intervalle 2 (au niveau de conance 95%) sont suspects [10] (page 82). D'autres pensent que cette approximation n'est licite que dans le cadre des donnes groupes, lorsque un nombre susamment lev d'observations partagent la mme description [9] (page 175). Notre opinion est qu'il ne faut pas trop se focaliser sur des hypothtiques valeurs seuils. Il est plus important de dtecter les ventuels dcrochements, les observations qui prennent des valeurs inhabituelles par rapport aux autres. Un graphique est trs prcieux pour cela. Voyons ce qu'il en est du rsidu de Pearson sur nos donnes COEUR. Construisons les 2 graphiques des rsidus : (age, r) et (taux max, r). Pour obtenir les rsidus de Pearson, nous avons d'abord estim les paramtres de la rgression, puis calcul les projections C et . Nous avons form le terme d'erreur e = y . Enn, nous produisons le
138
Fig. 8.3.
Coeur = f(age, taux max) - Tableau de calcul des rsidus de Pearson
Fig. 8.4.
Coeur = f(age, taux max) - Rsidus de Pearson - Graphiques
rsidu de Pearson (Figure 8.3). Les graphiques des rsidus sont diants, surtout en les mettant en rapport avec le nuage de points dans l'espace de reprsentation : manifestement, le point no 5 pose problme. Il est particulirement mal modlis (Figure 8.4). Le rsidu r(5) = 3.757 prend une valeur d'autant plus extrme que (5) = 0.06. Le point no 11, qui lui aussi est mal modlis, se dmarque moins parce que
(11) = 0.70.
A partir du rsidu de Pearson, nous pouvons driver un indicateur, Plus faible sera sa valeur, meilleure sera la rgression.
la statistique 2 de Pearson.
Page: 138
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2 =

r2 ()
139
(8.3)
Certains auteurs comparent sa valeur avec un seuil critique issu de la loi du 2 . Ce n'est pas trs conseill lorsque nous travaillons sur des donnes individuelles. L'approximation n'est pas trs bonne, les p-value sont fausses [9] (page 146). Il en sera autrement lorsque nous traitons des donnes groupes (chapitre 9).
Rsidus dviance
Le rsidu dviance pour un individu est dnie de la manire suivante
{ + 2 | ln( ())| si y() = 1 d() = 2 | ln(1 ())| si y() = 0

Nous pouvons en dduire la statistique D appele dviance
(8.4)
D=
d2 ()
(8.5)
Sur les donnes individuelles, la dviance ainsi calcule concide avec la dviance du modle DM que nous avons prsente plus haut, lorsque nous dcrivions les quantits optimiser lors du processus d'apprentissage (cf. page 17). Ici galement, les distributions approximes, loi normale pour d et loi du 2 pour D, ne sont vraiment prcises que dans le cadre des donnes groupes. On s'attachera avant tout dtecter les points qui "dcrochent" par rapport aux autres. Concernant le chier COEUR, le point no 5 mal modlis se dmarque encore dans les graphiques des rsidus (Figure 8.5), moins fortement nanmoins qu'avec le rsidu de Pearson.
8.1.3 Le levier Levier, dtecteur de points atypiques

Le levier d'une observation quantie son cartement par rapport aux autres. Il permet de dtecter les points atypiques dans un espace multivari. La
hat-matrix est de dimension (n n). Il s'crit

H = V 2 X(X V X)1 V
1 1 2
(8.6)
o X ((n (J + 1)) est la matrice des descripteurs incluant la constante, et V est la matrice diagonale des (1 ).
Page: 139
macro: svmono.cls
date/time: 21-Jun-2011/16:10
140
Fig. 8.5.
Coeur = f(age, taux max) - Rsidus dviance - Graphiques
Pour une observation , le levier est lu sur la diagonale principale. Il correspond la distance du point par rapport au barycentre du nuage, pondr par (1 ), nous avons
h() = ()(1 ())x()(X V X)1 x () x() est la description de l'individu c.--d. x() = (1, x1 (), . . . , xJ ()).
(8.7)
Attention, de par sa formule, h() est sur-estim lors () 0.5 ; il est sous-estim lorsque () 0 ou () 1. On montre facilement que [9] (page 169)
h=
h() J +1 = n n
Une rgle de dtection des points atypiques habituellement utilise est
h() 2 h
Mais comme d'habitude, mieux vaut surtout distinguer visuellement dans un graphique les points qui prennent des valeurs inusuelles. Dans le chier COEUR, on notera que les points no 6 et no 11 sont loigns des autres dans l'espace de reprsentation (Figure 8.6). Le levier les met en vidence avec des valeurs suprieures au seuil 2
o 2+1 20
0.3. Notons que le point n 5 qui tait si mal modlis (cf. rsidus de Pearson et rsidu dviance) ne ressort
pas particulirement avec cet indicateur. C'est tout fait normal. Il est noy au milieu des autres points, il n'est en rien atypique au sens des descripteurs
Page: 140 job: regression_logistique
age et taux max.

macro: svmono.cls date/time: 21-Jun-2011/16:10
141
Fig. 8.6.
Coeur = f(age, taux max) - Levier - Calcul et nuage de points
Levier, mesure d'inuence

Il existe une autre lecture du levier : il mesure l'inuence globale d'un point sur la prdiction des valeurs des autres observations. En rgression linaire multiple, nous avons la relation
y () =
h( , ) y( )
c.--d. dans la colonne no de la hat-matrix H, lorsque nous ralisons la somme du produit h(, )
y(), nous obtenons la prdiction du modle pour l'individu .

Or, on montre, et ce rsultat s'applique la rgression logistique,
h() = h(, ) =
h2 ( , )
Ainsi, la valeur lue sur la diagonale principale de la hat-matrix s'avre tre en ralit un indicateur de l'inuence globale du point sur la prdiction des valeurs de tout autre point de l'ensemble de donnes.
142
Fig. 8.7.
Coeur = f(age, taux max) - Levier - Inuence sur les prdictions
Vrions ce comportement sur le chier COEUR (Figure 8.7) : Dans un premier temps, nous avons ralis la rgression sur les n = 20 observations. Nous avons calcul les probabilits prdites , puis nous avons construit un graphique avec en abcisse le numro de point, en ordonne (courbe bleue). Nous avons ensuite calcul le levier de chaque point. On note par exemple que le point no 17 avec
h(17) = 0.0768 ne pse pas beaucoup sur la prdiction des probabilits des autres.
Pour le vrier, nous avons relanc la rgression sur n = 19 points en excluant l'observation no 17. Puis, de nouveau, nous avons calcul , nous avons report les valeurs dans notre graphique (courbe jaune). Pour le point no 17 nous avons pris la valeur initialement fournie par la rgression sur tous les points. On constate que les deux courbes (bleue et jaune) se superposent (presque) compltement. Manifestement, l'observation no 17 n'a aucune incidence sur les prdictions.
143
Tournons nous maintenant vers le point no 6 avec un levier lev h(6) = 0.3848. Nous ritrons les mmes oprations c.--d. retirer le point des donnes, relancer la rgression avec n = 19 observations, calculer les prdictions (courbe orange). La situation est tout autre. La courbe se dmarque des deux prcdentes. On notera entre autres les fortes dirences pour les points no 3, no 4, no 8, etc. L'observation no 6 pse normment dans la prdiction. Le levier met en vidence ce comportement.
8.1.4 Rsidus de Pearson et Rsidus dviance standardiss

Les rsidus (de Pearson et dviance) indiquent la bonne ou mauvaise modlisation d'un point. A bien y regarder, on se rend compte que ces indicateurs ne sont pas trs honntes. Considrons une observation
de l'chantillon d'apprentissage : il a particip la construction du modle, par la suite on se pose

la question de savoir s'il est bien modlis ou pas. Pour peu que pse normment dans la rgression, il peut tre lui mme trs bien modlis, tout en faussant la prdiction des autres. La solution est de corriger le rsidu selon l'inuence du point. Le levier justement traduit cette ide . On appelle rsidu de Pearson standardis pour l'individu
r() rs () = 1 h()
et rsidu dviance standardise
(8.8)
d() ds () = 1 h()
(8.9)
Le rsidu des observations forte inuence (h 1) est exacerb ; l'inverse, celles qui ont une faible inuence (h 0) voient leur valeur du rsidu rduite. Sur le chier COEUR, nous constatons que les rsidus, du fait de la standardisation, sont un peu modis (Figure 8.8) : certes, le point no 5 particulirement mal modlis, mme s'il a un levier assez faible, se dmarque toujours ; le point no 11 se distingue trs nettement maintenant, il est mal class et il a un levier fort.
1. Il existe une manire plus "mathmatique" de justier les rsidus standardiss. On sait que la variance de l'erreur thorique du modle est V () = (1 ), c'est en ce sens que l'on a dni de rsidu de Pearson. En revanche, la variance du rsidu, l'erreur observe sur les donnes, s'crit
V () = (1 )(1 h)
D'o la nouvelle correction aboutissant au rsidu de Pearson standardis. Le mcanisme est identique en rgression linaire multiple. Voir R. Rakotomalala, Pratique de la Rgression Linaire Multiple - Diagnostic et Slection de Variables, http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf, pages 33 36.
144
Fig. 8.8.
Coeur = f(age, taux max) - Rsidus de Pearson et Rsidus dviance standardiss
8.1.5 Distance de Cook

La distance de Cook permet de quantier l'cart entre les vecteurs de paramtres estimes en prsence et en l'absence du point . On peut le voir sous l'angle d'un test d'hypothses
H0 : les coecients sont identiques H1 : un des coecients au moins est dirent

Bien entendu, il est hors de question de raliser les n rgressions en omettant tour tour chaque observation. De nouveau le levier nous sera trs prcieux. La distance de Cook peut tre crit partir du rsidu dviance standardis ou du rsidu de Pearson standardis. Si nous prenons la seconde dnition, nous aurons
2 rs () h() J + 1 1 h()
C() =
(8.10)
2. Pour une discussion plus approfondie sur les direntes manires de voir la Distance de Cook et sur les rgles de dtection des points inuents associes, voir R. Rakotomalala, Pratique de la rgression linaire multiple - Diagnostic et slection de variables, http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_ la_pratique.pdf ; pages 41 43.

une distance de Cook leve. La rgle de dtection usuelle est
145
Une lecture rapide de la formule nous indique que la conjonction d'un rsidu et un levier levs produit
C()
Deux remarques essentiellement :
4 nJ 1
La distance de Cook peut tre dnie partir du rsidu dviance. Certains logiciels (SPSS) ne normalisent pas par le nombre de paramtres (J + 1). La rgle de dtection devient C() 1 (voir page 169).
Fig. 8.9.
Coeur = f(age, taux max) - Distance de Cook - Valeur seuil : 0.235
Sur le chier COEUR (Figure 8.9), plusieurs points attirent notre attention : Le point no 11 rvle sa vraie nature. Avec ou sans lui, les paramtres estims de la rgression sont trs dirents. Il s'agit l d'un point rellement inuent. Il est mal modlis (mal class) et on notera via le levier qu'il est un peu loign des autres. Le point no 5 pse fortement aussi parce qu'il est mal modlis, avec un rsidu standardis trs lev. Le point no 6 pse essentiellement parce qu'il est loign des autres (levier lev). Il est bien modlis (class) par ailleurs, le rsidu reste raisonnable.
8.1.6 DFBETAS
Les DFBETAS sont complmentaires la distance de Cook. Ils permettent d'identier le coecient sur lequel pse la prsence/absence du point . Nous pouvons les voir sous l'angle d'un test de comparaison de coecients. Ils nous donnent des lments de rponse la question : de quelle manire le point est atypique ? Le DFBETAS du coecient aj est calcul comme suit
DF BET ASj () =
(X V X)1 x () y() () 1 h() V X)1 (X j

macro: svmono.cls
(8.11)
Page: 145
date/time: 21-Jun-2011/16:10
146

Avec
(X V X)1 = aj est l'cart-type estim de aj . j
La rgle de dtection usuelle est
2 |DF BET ASj | n
Fig. 8.10.
Coeur = f(age, taux max) - DFBETAS - Valeur seuil : 0.447
Les rsultats sur le chier COEUR nous claire sur le rle des points incrimins jusqu' prsent (Figure 8.10) : Le point no 6 pse surtout sur le coecient associ AGE. Ce n'est gure tonnant vu le positionnement de ce point dans l'espace de reprsentation. Il a 35 ans lorsque la moyenne d'ge (sans lui) est de 52.63. Le point no 11 lui se distingue par sa faible valeur de TAUX MAX. L galement, l'individu porte une valeur qui semble plutt faible (115) par rapport la moyenne du reste de l'chantillon (153.37). Il pse donc sur le coecient de TAUX MAX c.--d. il modie la pente de la droite sparatrice des positifs et ngatifs, mais aussi sur la constante, il dcale la frontire (voir section 11.3 pour apprcier pleinement ce commentaire). Enn, le point no 5 est un vrai problme Que fait ce positif au milieu de tous ces ngatifs ? Si on le retire de l'chantillon d'apprentissage, rien ne serait pareil. Il existe une version non standardise de cet indicateur : les DFBETA. Elles se justient surtout lorsque les variables sont mesures sur une mme chelle, ou lorsqu'elles sont exclusivement composes d'indicatrices (voir les "covariate pattern", section 9.4.3). Lorsque les explicatives sont quantitatives et dnies sur des units direntes, passer une mesure standardise (DFBETAS, divise par l'cart-type du coecient aj ) nous autorise comparer les valeurs d'une variable l'autre.
8.2 Non-linarit sur le LOGIT

On dit que le LOGIT est linaire par rapport une variable X si la variation de X d'une unit modie la valeur du LOGIT de la mme manire quelle que soit la valeur de X . Nous avions dj entre-aperu

La variation du LOGIT, dans le cas o la relation est linaire, est gale au coecient de X .
147
cette ide lors de l'interprtation du coecient associe une variable explicative continue (section 5.2.2). Comme nous avions pu le dire dj, cette contrainte est assez forte. En eet, comment peut-on imaginer qu'une variation de 10 ans ait le mme impact sur une ventuelle maladie cardiaque que l'on ait 20 ans ou 40 ans. Il nous faut donc, d'une part, vrier que la variation du LOGIT ne dpend pas de la valeur de X , et si l'hypothse de linarit ne tient pas la route, proposer des mthodes pour prendre en compte la non-linarit dans le modle nal.
Remarque : Attention, il ne faut pas confondre non-linarit et non-additivit. Dans le premier

cas, l'impact de la variation d'une variable dpend de sa valeur ; dans le second cas, l'impact de la variation d'un variable dpend de la valeur d'une autre variable explicative. Cela peut arriver lorsque nous manipulons des modles avec interaction. En vrit, dtecter ce type de problme est trs dicile en l'absence de connaissances du domaine qui nous aiguillerait sur les congurations tester. Il n'y a pas vraiment de solutions simples en la matire [10] (page 75).
8.2.1 Identication graphique univarie Construction du graphique

Une procdure graphique simple permet de vrier la linarit du LOGIT par rapport une variable
X (voir [9], page 107) :

1. Dcouper X en dciles (ou autres) ; 2. Dans chaque intervalle, calculer la proportion de positifs ; 3. Le graphique nuage de points est constitu de En abcisse, la moyenne de X des intervalles ;
En ordonne, le LOGIT observ c.--d.ln 1
4. Si le LOGIT est linaire par rapport X , le nuage de points forme une droite. 5. Le seconde caractristique vrier est l'volution monotone ou non du LOGIT par rapport X . Cette procdure peut poser problme lorsque tous les individus sont positifs (resp. ngatifs) dans un intervalle. Il est conseill dans cas de mettre arbitrairement = 0.99 (resp. = 0.01) ([10], page 70). L'norme avantage de cette mthode est qu'elle nous renseigne non seulement sur le caractre linaire ou non du LOGIT, mais aussi sur la forme de la relation dans le cas o elle ne serait pas linaire.
Un exemple numrique : prdiction du diabte

Nous utilisons le chier PIMA dans cette section. Nous souhaitons prdire l'occurrence du diabte (Y = DIABETE) partir de l'indice de masse corporelle (X = BODYMASS) chez des amrindiens. Le chier comporte n = 757 observations. Nous avons ralis la rgression entre DIABETE et BODYMASS. Cette dernire s'est avre signicative (p-value < 0.0001), avec un odds-ratio OR = e0.1025 = 1.1079. Si l'hypothse de linarit est licite,
148
Fig. 8.11.
Rgresion logistique simple - DIABETE = f (BODYMASS)
Fig. 8.12.
volution du log-odds (LOGIT) en fonction de X - Tableau de calcul
nous lisons le coecient de la manire suivante : lorsque le BODYMASS augmente d'une unit, l'individu a 1.1079 fois plus de chances d'avoir du diabte, ceci quel que soit son poids (Figure 8.11). Voyons maintenant si l'hypothse de linarit est susceptible d'tre remise en cause en construisant notre graphique d'identication. Nous avons labor notre tableau de calcul de la manire suivante (Figure 8.12) : 1. La premire colonne no sert uniquement numroter les intervalles. 2. La seconde correspond aux dciles. 3. Nous avons les eectifs cumuls. 4. Par direnciation nous avons les eectifs dans chaque intervalle. Ils ne sont pas gaux parce que n n'est pas divisible par 10, et il y a parfois des ex-aequo. 5. Nous comptabilisons galement les eectifs cumuls des positifs. 6. Nous obtenons par direnciation le nombre de positifs dans chaque intervalle. 7. Nous en dduisons la proportion de positifs . 8. L'odds
1 . 9. Et le log-odds ou le LOGIT ln 1 .
Il ne nous reste plus qu' construire le graphique en prenant en abcisse la moyenne de X dans chaque intervalle, et en ordonne le LOGIT (Figure 8.13). Plusieurs commentaires nous viennent immdiatement :
149
Fig. 8.13.
volution du log-odds (LOGIT) en fonction de X - Graphique
Manifestement, la relation n'est pas linaire. Elle est nanmoins monotone et volue par paliers. Nous pouvons visuellement dtecter les seuils o l'volution s'acclre ou ralentit. Nous avons mis en couleur les direntes zones dans le tableau de calcul (Figure 8.12). Cette information est importante car nous pourrons nous en servir pour recoder correctement la variable X dans la rgression logistique.
8.2.2 Une solution simple : la discrtisation de la variable X

La transformation de variable est la stratgie privilgie pour remdier au problme de non linarit. Nous pouvons essayer direntes fonctions mathmatiques usuelles (log, carr, racine carre, etc.) ou adopter une dmarche gnrique avec les polynmes fractionnaires (en anglais,
fractional polynomials ;
[9], pages 100 et 101). L'ecacit de ces mthodes n'est pas mise en doute, mais elles sont assez fastidieuses mettre en oeuvre. D'autant plus qu'il faudra par la suite interprter le coecient associ la variable transforme. Une solution simple est la discrtisation c.--d. le dcoupage en intervalles (ou le regroupement en classes) de la variable explicative. A partir de X , nous drivons une srie d'indicatrices D1 , D2 , . . . destines matrialiser chaque intervalle. Nous devons rpondre une srie de questions pour produire un codage ecace : 1. Combien d'intervalles devons-nous produire ? La question est d'importance, il s'agit de ne pas les multiplier inutilement. Il importe surtout que dans chaque groupe, le comportement de la variable dpendante Y , ou plus prcisment du LOGIT, soit cohrent. Dans notre exemple (Figure 8.13 ), nous dtectons visuellement 4 paliers. On peut envisager un dcoupage en 4 classes.
Page: 149
macro: svmono.cls
date/time: 21-Jun-2011/16:10
150

lie la prcdente. Dans notre exemple, il s'agit de matrialiser chaque palier. Sur la base de notre tableau de calcul (Figure 8.12), nous choisirions b1 = 26.2, b2 = 30.34 et b3 = 41.62.
2. Seconde question corollaire la premire, comment dnir les bornes de dcoupage ? La rponse est
3. Dernier point important, quel type de codage des indicatrices adopter ? Si la relation est monotone, nous avons tout intrt adopter un codage 0/1 embot pour relater le caractre monotone de l'volution du LOGIT. Les coecients de la rgression traduisent alors le surcrot de risque en passant d'un niveau (un intervalle) celui qui lui succde. Dans le cas contraire, la relation est non monotone, cette contrainte fausse les calculs, nous devons adopter un codage disjonctif simple. La lecture devient moins aise cependant. Il faut avoir une ide prcise sur la modalit (l'intervalle) de rfrence pour que l'interprtation des coecients tienne la route.
Discrtisation de la variable BODYMASS

Suite ces direntes considrations, nous dcidons de produire 3 indicatrices embots partir de la variable BODYMASS, codes de la manire suivante : 1. D1 = 1, si BODY M ASS > 26.20 ; 0 sinon 2. D2 = 1, si BODY M ASS > 30.34 ; 0 sinon. On remarquera que D2 = 1 D1 = 1, ce qui caractrise l'embotement. 3. D3 = 1, si BODY M ASS > 41.62 ; 0 sinon. De mme, nous constatons que D3 = 1 D2 = D1 = 1.
Fig. 8.14.
volution du log-odds (LOGIT) en fonction de X - Indicatrices et bornes de discrtisation
Nous matrialisons dans le graphique mettant en relation le LOGIT et BODYMASS ces indicatrices (numro) et les bornes de discrtisation (en rouge pointills) (Figure 8.14). Il ne nous reste plus qu' relancer la rgression logistique avec ces nouvelles variables (Figure 8.15) :

signicatif.
151
Manifestement, un changement de palier de BODYMASS induit un surcrot de risque de diabte Le premier palier est le plus important. On s'en serait dout la vue du graphique des LOGIT en fonction de BODYMASS. Apparemment, les individus ont OR(1/0) = e1.585178 = 4.8802 fois plus chances d'avoir le diabte lorsque nous passons du palier no 0 au no 1. Les autres changements de paliers sont moins spectaculaires. Ils n'en sont pas moins signicatifs :
OR(2/1) = 1.8513 et OR(3/2) = 2.2612.
Fig. 8.15.
Rgresion logistique - DIABET E = f (D1 , D2 , D3 )
Remarque : la discrtisation n'est pas la panace

Certains auteurs prconisent l'usage systmatique de la discrtisation ds lors que nous sommes en prsence de variables explicatives quantitatives. Ce n'est pas aussi automatique (comme les antibiotiques). Certes, en introduisant des indicatrices, nous diminuons le biais du modle. Il est plus mme de prendre en compte des relations complexes existantes entre Y et les Xj . Mais dans le mme temps, nous en augmentons la variance, la dpendance au chier de donnes. On risque le fameux sur-apprentissage (en anglais
overtting ) avec un degr de libert qui baisse dangereusement. A force de multiplier les
indicatrices, nous aboutirons un modle qui marche trs bien eectivement sur le chier de donnes, mais qui s'eondre totalement ds que nous le dployons dans la population. La discrtisation n'est donc certainement pas la panace. C'est un outil qu'il faut savoir utiliser avec discernement, comme tous les outils. Dans certaines situations, il est plus judicieux de passer par des transformations de X l'aide de fonctions mathmatiques pour rpondre la non-linarit.
8.2.3 Dtection numrique multivarie : le test de Box-Tidwell

Dans la rgression multiple, l'analyse graphique devient plus complique (section 8.2.4), et surtout trs fastidieuse ds que le nombre de variables explicatives augmente. Il nous faut une procdure numrique
152
pour dtecter automatiquement les situations de non-linarit, quitte revenir par la suite sur le graphique pour tudier de manire approfondie la forme de la relation. Le principe du test de Box-Tidwell est le suivant : 1. Pour une variable X que l'on souhaite valuer ; 2. Nous crons la variable transforme Z = X ln X ; 3. Que nous rajoutons parmi les explicatives. Nous conservons toutes les autres variables, y compris X ; 4. Si le coecient de Z est signicatif, cela indique que la variable X intervient de manire non linaire sur le LOGIT ; 5. Il reste alors identier la forme de la relation, l'outil graphique reste le moyen privilgi dans ce cas. Avec les logiciels proposant un langage de programmation (le logiciel R par exemple), implmenter cette procdure est trs facile. Nous pouvons tester un grand nombre de variables. On note nanmoins une faible puissance du test. Il dtecte mal les faibles carts la linarit ([10], page 70). De plus, il ne nous donne aucune indication sur la forme de la relation.
Dtection de la non-linarit par rapport BODYMASS

La rgression avec les variables explicatives BODY M ASS et Z = BODY M ASS ln(BODY M ASS) nous indique que cette dernire est trs signicative (p-value = 0.0009) (Figure 8.16). Cela conrme, si besoin tait, la non-linarit du LOGIT par rapport BODYMASS.
Fig. 8.16.
Test de Box-Tidwell pour la non-linarit du LOGIT par rapport BODY M ASS
8.2.4 Dtection graphique multivarie : les rsidus partiels

Admettons que le test de Box-Tidwell nous indique que le LOGIT n'est pas linaire par rapport une variable explicative en particulier. Il faut que l'on identie la forme approprie de la transformation avant de pouvoir ajouter la variable modie dans la rgression. Pour cela, rien ne vaut les procdures graphiques. Encore faut-il utiliser la bonne. En eet, la dtection univarie dcrite prcdemment n'est plus valable (section 8.2.1). Il faut que l'on tienne compte du rle des autres variables. Nous utiliserons les rsidus partiels. Dans un premier temps, nous les prsentons dans le cadre de la rgression linaire pour en comprendre le principe.
Page: 152
macro: svmono.cls
date/time: 21-Jun-2011/16:10
153
Fig. 8.17.
Relation polynomiale entre Y et X
Les rsidus partiels en rgression linaire

Dans la rgression linaire simple Y = a0 +a1 X , le graphique "nuage de points" mettant en relation X et Y permet d'identier la forme de la relation entre ces variables. Dans la gure 8.17, nous avons gnr des donnes ctives pour raliser la rgression linaire. Il semble y avoir une relation polynomiale (ben voyons). Nous pouvons crer une variable transforme Z = X 2 , puis l'adjoindre la rgression c.--d. former Y = b0 + b1 X + b2 Z . Nous pouvons galement la substituer simplement X . Dans la rgression linaire multiple J variables, le graphique individuel (Xj , Y ) n'est plus valable parce qu'il ne tient pas compte des autres explicatives, certaines notamment sont plus ou moins lies avec
Xj . Dans ce contexte, on utilise les "rsidus partiels" j = (y y ) + aj xj

(8.12)
o aj est le coecient estim relatif la variable Xj dans la rgression incluant toutes les variables. Si la relation est linaire, le nuage (Xj , ) ne doit pas prsenter de forme particulire. Ou si on utilise une forme de lissage des points, la courbe lisse doit former une droite ! . Concernant notre exemple ctif, on se rend compte dans le graphique des rsidus partiels que X entretient bien une relation de type X 2 avec la variable dpendante (Figure 8.18). Nous passons donc la rgression Y = b0 + b1 X + b2 Z et nous souhaitons savoir si cette transformation est susante. Nous estimons les paramtres l'aide des donnes. Nous formons ensuite les rsidus partiels tels que nous les avons dnis ci-dessus " .
3. Nous reviendrons sur cet aspect lorsque nous prsenterons les rsidus partiels dans le cadre de la rgression logistique. 4. Une autre possibilit serait d'utiliser les rsidus partiels "augments" pour lesquels nous introduisons tous les coecients et formes de la variable
= (y y ) + 1 X + 2 Z b b
Page: 153
macro: svmono.cls
date/time: 21-Jun-2011/16:10
154
Fig. 8.18.
Rsidus partiels = (y y) + a1 X
Fig. 8.19.
Rsidus partiels = (y y) + 1 X + 2 X 2 b b
Nous crons le graphique nuage de points (X, ). Si les bonnes transformations ont t introduites, le graphique ne doit plus prsenter de "formes" particulires (ou le graphique liss doit avoir la forme d'une droite). C'est le cas pour notre exemple (Figure 8.19).
Transposition des rsidus partiels la rgression logistique

L'ide des rsidus partiels a t transpose la rgression logistique. Pour la variable Xj , ils sont calculs de la manire suivante
rj =
y + aj xj (1 )
(8.13)
Nous laborons la forme lisse du nuage de points (xj , rj ). Si elle forme une droite, on peut conclure la linarit du LOGIT par rapport la variable Xj . Sinon, en nous inspirant de la forme de la courbe, nous introduisons la variable transforme dans la rgression, puis nous calculons de nouveau les rsidus partiels. Deux lments important doivent attirer notre attention :
Page: 154
macro: svmono.cls
date/time: 21-Jun-2011/16:10
155
1. Nous utilisons la courbe lisse et non pas le nuage de points brut pour valuer la forme de la relation. En eet, la disposition des observations est trop erratique dans le repre. Nous voulons avant tout dgager une tendance. Dans notre support, nous utilisons une procdure de lissage trs fruste qui consiste dcouper Xj en L intervalles pour lesquelles nous calculons les moyennes xj,l ; puis les moyennes des rsidus rj,l ; pour tracer enn une suite de segments reliant les L points (j,l ; rj,l ). x Dans les logiciels tels que R (package Design), le graphique est ralis via un lissage de type loess (locally
weighted regression ). La procdure consiste dnir une srie de points quidistants sur l'axe
des abcisses ; de calculer une rgression pondre dans le voisinage de ces points ; puis d'utiliser les quations de rgression pour calculer la coordonne en ordonne. Il ne reste plus qu' relier les points par des segments # . Il faut avouer que le graphique a nettement plus d'allure avec cette procdure. 2. Certains logiciels (R avec le package Design pour ne pas le nommer encore) utilisent un autre formulation des rsidus partiels
rj =
y + a0 + aj xj (1 )
Cela induit un simple dcalage sur l'axe des ordonnes. Il n'y a aucune incidence sur les conclusions que l'on pourrait tirer du graphique des rsidus partiels.
Un exemple d'application
Nous reprenons le chier PIMA, nous utilisons 3 variables explicatives maintenant : BODYMASS, PLASMA et AGE. La rgression sour Tanagra nous indique que les 3 explicatives sont toutes trs signicatives (Figure 8.20). L'AIC (critre Akaike) du modle est AIC = 732.958. On pourrait s'en satisfaire et s'en tenir l. Essayons quand mme de voir comment sont disposs les rsidus de la rgression partiellement la variable AGE . Nous dtaillons la dmarche dans une feuille Excel (Figure 8.21) : Nous avons reports les coecients estims de la rgression dans le feuille Excel. Nous en tirons le LOGIT prdit
c = 9.03238 + 0.089753 BODY M ASS + 0.035548 P LASM A + 0.028699 AGE 1 c 1 + e A partir de ces informations, nous formons les rsidus partiels (nous utilisons la constante comme =
dans R pour rendre les rsultats comparable) et la probabilit prdire
rage =
y 9.03238 + 0.028699 AGE (1 )
Ainsi, pour le 1er individu, nous avons
rage =
1 0.0612 9.03238 + 0.028699 26 = 8.0638 0.0612(1 0.0612)
5. Pour une description approfondie de loess, voir W.G. Jacoby, Statistical Graphics for Univariate and Bivariate Data, Quantitative Applications in the Social Sciences no 117, Sage Publications, 1997 ; pages 64 83.
156
Fig. 8.20.
Rgression - Fichier PIMA - DIABETE = f(BODYMASS, PLASMA, AGE)
En utilisant les tableaux
croiss dynamiques d'Excel, nous dcoupons l'ge en 6 intervalles (21 30,
31 40, etc.) et, dans chaque bloc, nous calculons la moyenne de l'ge et celle des rsidus partiels rage .
Il ne nous reste plus qu' former le graphique (Figure 8.21). On notera que la relation n'est absolument pas linaire mais quadratique en AGE. Il serait tout fait judicieux de rajouter la variable synthtique AGE2 = AGE 2 parmi les explicatives. Nous avons calcul la nouvelle rgression (Figure 8.22). Nous notons que la variable AGE2 est trs signicative dans la rgression $ et, surtout, nous constatons que le modle ainsi labor est nettement meilleur que le prcdent. Le critre Akaike est pass de AIC = 732.958 AIC = 701.998 (idem pour le critre BIC qui baisse fortement en passant de 751.449 725.111). Il fallait bien cette transformation. Lorsque nous recalculons les rsidus partiels par rapport AGE dans le nouveau modle. Nous constatons maintenant que les point sont (sagement) aligns sur une droite (Figure 8.23). L'adjonction de AGE 2 nous a permis de mieux prendre en compte la contribution de l'ge dans l'explication de la variable dpendante.
Les rsidus partiels dans le logiciel R

Les calculs tant assez complexes et les rfrences rares, nous avons voulu croiser nos rsultats avec ceux du logiciel R (package Design). Ce dernier prsente un avantage certain, il utilise un lissage LOESS %
6. On notera que la contribution de AGE a t modie aussi, sa signicativit est plus forte. 7. Avec un peu de recul, on se rend compte que la procdure que nous utilisons sous Excel est une version trs fruste de LOESS, sauf que : nous ne pondrons pas les points dans le voisinage ; nous utilisons un polynme
157
Fig. 8.21.
DIABETE = f(BODYMASS, PLASMA, AGE) - Rsidus partiels par rapport AGE
Fig. 8.22.
Rgression - Fichier PIMA - DIABETE = f(BODYMASS, PLASMA, AGE, AGE 2 )
de degr zro pour estimer la position du point sur l'ordonne. D'o des graphiques qui sont assez similaires nalement.
158
Fig. 8.23.
DIABETE = f(BODYMASS, PLASMA, AGE, AGE 2 ) - Rsidus partiels par rapport AGE
pour construire la courbe des rsidus partiels. Comme nous le disions plus haut, elle a quand mme plus d'allure, elle est moins heurte. Le code utilis est le suivant
#rgression avec lrm modele <- lrm(DIABETE ~ BODYMASS + PLASMA + AGE, x=T, y=T, data=donnees) print(modele) #graphique des rsidus partiels par(mfrow=c(2,2)) plot.lrm.partial(modele) #construire le carr de AGE et le rajouter aux donnes age2 <- donnees$AGE^2 donnees <- cbind(donnees,age2) #rgression avec lrm modele.bis <- lrm(DIABETE ~ BODYMASS+PLASMA+AGE+age2, x=T, y=T, data=donnees) print(modele.bis) #nouveau graphique des rsidus partiels par(mfrow=c(2,2)) plot.lrm.partial(modele.bis)
Nous retrouvons la trame ci-dessus (Tanagra + Excel). Voyons les principaux rsultats :
Page: 158
macro: svmono.cls
date/time: 21-Jun-2011/16:10
159
Fig. 8.24.
DIABETE = f(BODYMASS, PLASMA, AGE) - Rsidus partiels pour chaque explicative
Les coecients de la rgression sont bien videmment les mmes que ceux de Tanagra. La grande nouveaut ici est que nous disposons automatiquement des rsidus partiels par rapport toutes les variables explicatives (Figure 8.24). Un seul coup d'oeil sut dtecter les congurations problmes. On y constate que PLASMA est pris en compte correctement avec une relation linaire ; nous savions dj quoi nous en tenir par rapport BODYMASS (voir section 8.2.1) ; la relation par rapport AGE est manifestement quadratique. Nous avons donc cr la variable AGE 2 , nous l'avons insre dans la rgression, puis nous avons de nouveau demand les rsidus partiels (Figure 8.25). C'est quand mme beau la science. Avec cette nouvelle variable, le rle de l'ge est parfaitement pris en compte dans la dtermination du diabte chez les indiens PIMA. Les rsidus partiels par rapport AGE et AGE 2 suivent une droite presque parfaite. A titre de vrication, nous achons les 10 premires valeurs des rsidus partiels pour le 1er et le
2nd modle (Figure 8.26). Il faut comparer les valeurs de la colonne AGE avec ceux produits sous Excel
(Figure 8.22 et 8.23). La correspondance est exacte. C'est toujours rassurant.
Page: 159
macro: svmono.cls
date/time: 21-Jun-2011/16:10
160
Fig. 8.25.
DIABETE = f(BODYMASS, PLASMA, AGE, AGE 2 ) - Rsidus partiels pour chaque explicative
Fig. 8.26.
10 premires valeurs des rsidus partiels pour les 2 modles tudis
Page: 160
macro: svmono.cls
date/time: 21-Jun-2011/16:10
9 "Covariate Pattern" et statistiques associes
9.1 Notion de "Covariate pattern"

Lorsque les donnes sont constitues de variables qualitatives ou lorsqu'elles sont produites par exprimentation, il arrive que plusieurs observations partagent la mme description c.--d. elles portent les mmes valeurs sur les variables explicatives. On parle aussi de "donnes groupes" [23] (pages 434 438). On appelle "covariate pattern" une combinaison de valeurs des variables explicatives [9] (page 144). Elle est partage par plusieurs individus. Dans ce qui suit, les termes "covariate pattern", "groupe" ou "prol" auront la mme signication dans notre esprit.
Fig. 9.1.
Tableau de comptage des eectifs pour chaque "covariate pattern"
Prenons un exemple pour illustrer notre propos. Le chier HYPERTENSION est compos de n = 399 observations. La variable dpendante HYPERTENSION prend 2 valeurs possibles {high : +, normal :
} ; les variables explicatives sont SURPOIDS (3 valeurs possibles, {1, 2, 3}) et ALCOOL (3 valeurs
possibles, {1, 2, 3}). Dans le chier, il y a 3 3 = 9 combinaisons distinctes des variables explicatives. On dit qu'il y a
M = 9 "covariate pattern" (ou groupes). A chaque combinaison sont associs nm individus, dont une
partie sont positifs. Nous notons ym le nombre d'observations positives dans le groupe m, fm est la proportion observe de positifs, et m la probabilit a posteriori d'tre positif que l'on veut modliser l'aide de la rgression logistique. Nous avons rsum ces informations dans un tableau (Figure 9.1) :
Page: 161
macro: svmono.cls
date/time: 21-Jun-2011/16:10
162

Pour la premire combinaison, m = 1, compose de (ALCOOL = 1, SURPOIDS = 1), nous disposons de n1 = 47 observations, dont y1 = 16 sont positifs. La proportions de positifs est donc gale f1 =
16 14
= 0.34.
Nous pouvons faire de mme pour chaque groupe. Nous disposons n = 399 observations. Et le nombre total de positifs dans le chier est n+ = 228. La prvalence des positifs (si le chier est issu d'un tirage alatoire simple dans la population) est donc estim avec p =
228 399
= 0.57.
Pourquoi s'intresser cette conguration qui n'est qu'un cas particulier nalement ? La premire dirence est dans la modlisation de la variable alatoire ym , elle suit une loi binomiale B(nm , m ), la varisemblance et la log-vraisemblance s'crivent diremment [23] (pages 435 et 436). En pratique, les cas des donnes groupes nous emmne considrer 2 nouveaux lments : 1. Nous disposons de nouvelles statistiques d'valuation de la rgression bases sur les rsidus. 2. Nous pouvons analyser nement le rle de chaque groupe pour dtecter ceux qui prsentent des caractristiques particulires ou qui psent de manire exagre sur les rsultats. Lorsque les donnes sont issues d'exprimentations, cette fonctionnalit nous permet de situer le rle de chaque groupe exprimental dans la rgression.
9.2 Levier associ aux "Covariate pattern"

Avant d'aborder ces sujets, prsentons tout d'abord le "levier" associ chaque "covariate pattern". Il joue un rle trs important dans la rgression. Il indique l'cartement d'un groupe par rapport aux autres dans l'espace de reprsentation. Il caractrise galement l'inuence d'un groupe dans la prdiction des probabilits des autres groupes. Notons hm le levier du groupe m. Si hm = 0, le groupe n'a aucune inuence. Le levier du covariate pattern m s'crit
hm = nm m (1 m )xm (X V X)1 x m
(9.1)
Remarque : A propos de la matrice de variance covariance des coecients. (X V X)1 =

est la matrice de variance covariance des coecients. Elle peut tre obtenue dans la rgression sur les
n observations individuelles (voir section 3.3.1) (Figure 9.2). Mais nous pouvons galement la calculer
partir des donnes rduites aux "covariate pattern". Dans ce cas, la matrice X comporte M lignes et
J + 1 colonnes ; V est une matrice diagonale de terme gnrique nm m (1 m ) (Figure 9.3). Sur
les donnes HYPERTENSION, on notera que la matrice X comporte les 9 combinaisons de valeurs que nous pouvons former avec les variables explicatives, la premire colonne tant toujours la constante. La matrice V est de taille (9 9). La matrice de variance covariance obtenue concorde avec celle calcule sur les donnes individuelles produite par le logiciel R.
Page: 162
macro: svmono.cls
date/time: 21-Jun-2011/16:10
9.2 Levier associ aux "Covariate pattern"
163
Fig. 9.2.
Hypertension - partir des donnes individuelles - Logiciel R
Fig. 9.3.
Hypertension - partir des donnes groupes
Leviers pour les donnes HYPERTENSION

Nous devons tout d'abord lancer la rgression logistique pour pouvoir produire les lments permettant de calculer les leviers. Tanagra nous indique que le modle est globalement signicatif, mme si par ailleurs les pseudo-R2 paraissent singulirement faibles. Les deux variables explicatives sont signicatives au risque
5% (Figure 9.4).
A partir d'ici, nous pouvons produire le LOGIT pour chaque "covariate pattern" et en dduire la quantit m . Voyons ce qu'il en est pour le premier prol de coordonnes (alcool = 1, surpoids = 1) :
C1 = 1.673659 + 0.410675 1 + 0.582889 1 = 0.6791

1 =
1 1+e(0.6791)
= 0.3365
1 (1 1 ) = 0.2233
0.15655 0.04066 0.03370 1 0.04066 0.01775 0.00288 1 = 0.4811 h1 = 47 0.2233 1 1 1 0.03370 0.00288 0.01449 1 ( )
Nous avons complt le tableau des leviers (Figure 9.5). Essayons d'en analyser le contenu :
Page: 163
macro: svmono.cls
date/time: 21-Jun-2011/16:10
164
Fig. 9.4.
Hypertension - Rsultats de la rgression logistique
Fig. 9.5.
Hypertension - Calcul des leviers pour chaque "covariate pattern"
Premire vrication, on sait que
hm = J + 1. Notre tableau a t correctement construit
puisque 0.4811 + 0.1865 + 0.4991 + + 0.3513 = 3. Dans le cadre des "covariate pattern", les donnes sont souvent binaires ou correspondent des chelles (notre conguration), essayer de dtecter des points atypiques l'aide du levier n'a pas trop de sens. Le levier prend des valeurs leves essentiellement lorsque la conjonction de 2 vnements survient : l'eectif du groupe nm est lev, il est mal modlis c.--d. m 0.5. Pour les donnes HYPER TENSION, nous distinguerons les covariate pattern no 1, no 3 et surtout le no 7. Ils psent fortement sur les rsultats de la rgression. Souvent un histogramme des leviers permet de reprer facilement ces groupes (Figure 9.6).
Page: 164
macro: svmono.cls
date/time: 21-Jun-2011/16:10
9.3 Rsidu de Pearson et Rsidu dviance
165
Fig. 9.6.
Hypertension - Histogramme des leviers pour chaque "covariate pattern"

Les rsidus que nous prsentons dans cette section confrontent, d'une manire ou d'une autre, les probabilits prdites par le modle et les probabilits observes pour chaque covariate pattern.
en exergue les prols mal modliss.
Ils mettent
Les statistiques de tests qui en sont drives, sous l'hypothse de l'adquation du modle aux donnes, suivent une loi du 2 . Nous pouvons ainsi vrier si le modle est correct. Notons que l'approximation de la loi statistique n'est plus valable ds que nous nous rapprochons de la conguration des donnes individuelles, avec M n.
groupes avec M n.
Ce qui limite l'utilisation de ces tests aux seuls cas des donnes
9.3.1 Rsidu de Pearson

On appelle rsidu de Pearson pour le prol m la quantit
ym ym rm = nm m (1 m )
(9.2)
o ym = nm m est le nombre prdit de positifs dans le groupe m, estime par la rgression logistique. Le rsidu de Pearson sera d'autant plus grand que : 1. La prdiction ym est mauvaise ; 2. Les eectifs nm sont faibles ; 3. La probabilit estime m est proche de 0 ou de 1.
Page: 165
macro: svmono.cls
date/time: 21-Jun-2011/16:10
166

La statistique de Pearson est dnie de la manire suivante
M m=1
2 =
2 rm
(9.3)
Si le modle tudi est exact, et si nm est assez grand quel que soit m, alors la statistique de Pearson suit une loi du 2 (M J 1) degrs de libert. Nous pouvons utiliser ce test pour vrier l'adquation du modle au donne. Nous rejetons le modle si la p-value du test est plus petit que le risque de premire espce que nous nous sommes xs. Attention, dans le cas des donnes individuelles, avec M n, ce test n'est plus valable. Il ne faut surtout pas l'utiliser [9] (page 146). On appelle rsidu standardis de Pearson la quantit [9] (page 173)
rm rsm = 1 hm
Enn, on appelle "contribution la statistique de Pearson" [9] (page 174),
(9.4)
2 = m
2 rm 2 = rsm 1 hm
(9.5)
Elle indique (une approximation de) la diminution du 2 de Pearson si on supprime le prol m de la rgression. Elle est base sur une approximation linaire d'une courbe qui ne l'est pas [9] (page 174). Il n'en reste pas moins, nous le verrons dans l'exemple ci-dessous, qu'elle donne une ide assez prcise de la variation.
Application aux donnes HYPERTENSION
Fig. 9.7.
Hypertension - Tableau de calcul du rsidu de Pearson
Nous appliquons les direntes formules ci-dessus pour obtenir les rsidus et la statistique de Pearson (Figure 9.7) :

0.410675 1 + 0.582889 1 = 0.6791
Puis la probabilit estime 1 =
1 1+e(0.6791)
167
Pour rappel, pour le groupe no 1, nous avons obtenu le LOGIT estim avec C1 = 1.673659 + = 0.3365
L'eectif estim y1 = n1 1 = 47 0.3365 = 15.8. Nous pouvons ds lors former les rsidus pour chaque groupe. Pour le premier, nous r1 = 1615.8 = 0.057. Nous obtenons la statistique de Pearson en faisant la somme des carrs des rsidus individuels
470.3365(10.3365)
2 = (0.057)2 + (0.716)2 + + (0.580)2 = 0.003 + 0.513 + + 0.336 = 7.0711. Sous H0 (le

modle est exact), elle suit une loi du 2 (M J 1 = 9 2 1 = 6) degrs de libert. Nous aboutissons un p-value de 0.3143, suprieur au risque usuel de 5% que nous souhaitons utiliser. Les probabilits prdites dans les groupes (reprsent par les eectifs prdits ym ) sont compatibles avec les probabilits observs (reprsent par les eectifs observs ym ). Les donnes sont donc compatibles avec l'hypothse d'exactitude du modle. Pour reprer les groupes mal modliss, nous pourrions comparer |rm | avec la valeur seuil approximative de 2 pour dtecter les carts signicatif. Ce seuil mime un peu le fractile de la loi normale pour un test bilatral 5% (le vritable seuil est 1.96). C'est une premire approche un peu fruste. Elle n'est valable que si nm est susamment grand pour que l'approximation de la loi binomiale par la loi normale soit justie [9] (page 175) c.--d. nm m (1 m ) > 9 ( ) Pour une meilleure valuation des prols, nous nous penchons plutt sur la dernire colonne 2 m (quation 9.5). Nous constatons que le prol no 3 (alcool = 1 et surpoids = 3 ; les gros qui boivent pas) est mal modlis, c'est celui qui perturbe le plus les rsultats avec 2 = 3.716. 3 Une autre manire de reprer les prols problme serait de comparer cette valeur avec le seuil critique dnie par la loi du 2 (1). A 5%, il est de 3.84. Nous sommes la lisire de la rgion critique. L'interprtation de la quantit 2 = 3.716 est assez dmoniaque : si nous supprimons le prol 3
no 3 des donnes (c.--d. tous les individus correspondant au prol no 3) et que nous relanons la
rgression, la statistique de Pearson que nous obtiendrons devrait tre aux alentours de (7.0711
3.716) = 3.355. Avec une loi du 2 (5), nous obtiendrions une p-value de 0.6454. La compatibilit des
donnes avec le modle serait renforce. Bien entendu, empressons-nous de vrier cela en ralisant les calculs sans le covariate pattern incrimin.
Rgression sans le covariate pattern no 3

Nous avons relanc les calculs sur les mmes donnes, sans les observations du covariate pattern no 3. Le nouveau chier comporte n = 344 individus. L'objectif est de vrier si la statistique de Pearson obtenue l'issue des oprations correspond peu ou prou ce qui est annonc ci-dessus. Les coecients de ALCOOL et SURPOIDS restent signicatifs et, aprs formation du tableau de calcul de la statistique de Pearson, la vritable valeur de la statistique de Pearson est 2 = 3.314 (Figure 9.8). L'approximation donne ci-dessus tait eectivement assez bonne, puisqu'en retranchant la contribution au 2 , nous avions prvu une valeur de (7.0711 3.716) = 3.355. Les valeurs divergent seulement partir de la seconde dcimale.
1. B. Grais, Mthodes statistiques, Dunod, 2003 ; page 103.

168
Fig. 9.8.
Hypertension - Calcul du rsidu de Pearson sans le prol no 3
9.3.2 Rsidu dviance

On appelle rsidu dviance pour le prol m la quantit
dm
[ ] ym nm y m = signe(ym ym ) 2 ym ln + (nm ym ) ln ym nm y m
(9.6)
Lorsque ym = 0, nous utilisons [9] (page 146)
dm =
et pour ym = nm
2nm | ln(1 m )|
dm =
On en dduit la dviance
2nm | ln(m )|
D=
M m=1
d2 m
(9.7)
Cette statistique quantie l'cart entre les probabilits estimes et les probabilits observes. Dans les mmes conditions que pour le rsidu de Pearson (nm assez grand, m ; M n), sous l'hypothse d'exactitude du modle, D suit une loi du 2 (M J 1) degrs de libert. A l'usage, on se rend compte, non sans raisons [23] (page 437), que la dviance est trs proche de la statistique de Pearson. Comme prcdemment, nous pouvons calculer la contribution d'un prol la dviance
2 Dm = d2 + rm m
hm 1 hm
(9.8)
Elle indique la rduction de la dviance si on retire le prol m de la rgression. Ici galement, nous pouvons la comparer avec un seuil critique dnie l'aide d'une loi du 2 (1) pour dtecter les carts signicatifs ( 5%, le seuil est 3.84).
9.4 Mesurer l'impact de chaque "covariate pattern" sur les coecients
169
Fig. 9.9.
Hypertension - Tableau de calcul du rsidu dviance
Comme dans la section prcdente (section 9.3.1), le point de dpart est l'estimation des paramtres de la rgression. Nous numrons les grandes tapes de calcul (Figure 9.9) : Avec les paramtres estims, nous sommes en mesure de produire le LOGIT, la probabilit d'tre positif et les eectifs prdits pour chaque groupe. Ainsi, pour le groupe no 1, y1 = 15.8. Nous pouvons calculer le rsidu dviance (quation 9.6), par exemple [ ] 16 47 16 d1 = + 2 16 ln + (47 16) ln = 0.057 15.8 47 15.8 Il reste faire la somme des carrs des rsidus, soit D = (0.057)2 + (0.719)2 + (1.390)2 + +
(0.593)2 = 0.003 + 0.516 + 1.932 + + 0.352 = 7.0690.

Avec un 2 (M J 1 = 9 2 1 = 6) degrs de libert, nous obtenons une p-value de 0.3145. La p-value est plus grande que le risque usuel de 5% que l'on s'est choisi. Le modle est correct. Avec la dernire colonne, nous pouvons valuer la contribution de chaque prol la dviance. Si l'on regarde encore une fois le prol no 3, nous avons
D3 = (1.390)2 + (1.364)2
0.499 = 3.787 1 0.499
En comparant cette valeur avec le seuil de 2 10.05 (1) = 3.84, le prol mrite vraiment que l'on s'y penche srieusement. Si l'on retire ce prol des donnes et que nous r-estimons le modle, nous obtiendrons une dviance de (7.0690 3.787) = 3.28. Avec maintenant un 2 (5), la p-value serait de 0.6565. La conclusion est la mme qu'avec le rsidu de Pearson, le retrait du prol no 3 renforce la qualit du modle.

9.4.1 La distance de Cook
L'objectif de la distance de Cook est d'indiquer l'eet de la suppression d'un prol sur les paramtres c.--d. mesurer l'cart entre les vecteurs de coecients selon que les observations associes un prol
170
sont prsentes ou non dans les donnes. Elle est trs utilise en rgression linaire multiple pour dtecter les points inuents. La distance de Cook pour le prol m s'crit [9] (page 173)
2 ()m = rm a
hm hm 2 = rsm (1 hm )2 1 hm
(9.9)
La distance de Cook est dsigne sous cette appellation dans le logiciel R. Nous montrons un exemple d'application dans la section suivante.
9.4.2 Les critres C et CBAR

L'objectif des critres C et CBAR (C ) est aussi de mesurer l'cart entre les vecteurs de paramtres
suite la suppression d'un prol. C et CBAR sont proposs sous ces noms dans le logiciel SAS. Un tude rapide des formules montre que l'indicateur C de SAS et la distance de Cook de R sont identiques. Nous calculons C et CBAR de la manire suivante pour chaque prol m : Pour l'indicateur CBAR
hm 1 hm Pour l'indicateur C, qui est ni plus ni moins que la Distance de Cook,

2 Cm = rm 2 Cm = rm
(9.10)
hm (1 hm )2
(9.11)
Par rapport CBAR, le critre C rend plus fort l'eet du levier mesure que ce dernier augmente.

Nous disposons de toutes les informations ncessaires aux calculs lors de la prsentation des dirents types de rsidus. Il ne nous reste plus qu' complter la feuille Excel (Figure 9.10) : A partir des rsultats dans les dirents tableaux ci-dessus (Figure 9.5 et 9.7), nous pouvons obtenir C1 et C1 pour le premier individu, avec
C1 = (0.057)2
et
0.481 = 0.003 1 0.481
C1 = (0.057)2
0.481 = 0.006 (1 0.481)2
Manifestement, il y a des choses dire sur les prols no 3 et no 7 : nous savons que le no 3 pose problme parce qu'il est mal modlis ; le no 7 pse parce qu'il prsente un levier lev (on le voit bien, C7 > C3 alors que dans le mme temps C7 < C3 , l'indicateur C accentue le rle du levier), il est de plus assez mal modlis si l'on se rfre aux contributions au 2 de Pearson et la dviance.
171
Fig. 9.10.
Hypertension - Tableau de calcul des C et CBAR
Agrmenter la prsentation d'un graphique simple permet de dtecter rapidement les prols considrer avec attention. De manire gnrale, il est possible de dnir toute une srie de graphiques qui permettent de dtecter visuellement les prols tudier en priorit (un nuage de points entre m en abcisse et
2 en ordonne par exemple) . m
9.4.3 Les critres DFBETA et DFBETAS

On sait avec les indicateurs C et C quels prols psent sur le vecteur des paramtres. Mais nous ne
savons pas sur quel coecient en particulier. L'intrt pour nous est de pouvoir analyser les interactions entre les prols et les variables explicatives. Les DFBETA et DFBETAS permettent de quantier la modication d'un coecient associe une variable lorsque nous supprimons un prol (les observations relatives un prol) des donnes :
2. Voir [9], pages 176 182 pour plusieurs propositions de graphiques. Certains sont particulirement judicieux, notamment lorsque les auteurs proposent de rendre la taille des points proportionnels . a
172

DFBETA mesure l'cart absolu du coecient estim avec ou sans le prol
ym ym (9.12) 1 hm DFBETAS mesure un cart normalis par l'cart-type du coecient estim, il est surtout intressant DF BET Aj,m = (X V X)1 x m
lorsque les variables sont mesures sur des chelles direntes
DF BET Aj,m (X V X)1 x ym ym m = DF BET ASj,m = 1 1 hm (X V X)j (X V X)1 j
(9.13)
Ici galement, ces indicateurs ont t principalement dvelopps dans le cadre de la rgression linaire. Il s'agit donc d'approximations pour la rgression logistique. Nous le verrons cependant pour nos donnes, ils sont relativement prcis. Lorsque les variables explicatives sont (1) mesures sur la mme chelle (ex. mmes units), ou (2) directement des chelles de valeurs (cf. l'exemple Hypertension), ou (3) exclusivement des indicatrices, nous avons intrt utiliser directement le DFBETA. L'interprtation n'en sera que plus aise. Dans le cas des donnes groupes, nous sommes souvent dans les situations (2) ou (3).
Comment interprter la valeur d'un DFBETA relatif un coecient d'une variable explicative ?
Si l'on supprime le prol m des donnes et que l'on estime le modle sur les donnes restantes, le nouveau coecient estim pour la variable Xj s'crira
aj,(m) = aj DF BET Aj,m
(9.14)
de vraisemblance sur l'ensemble de donnes rduit.
Nous disposons du nouveau coecient sans avoir relancer explicitement l'estimation par le maximum
Fig. 9.11.
Hypertension - Tableau de calcul des DFBETA
Toutes les informations ncessaires aux calculs ont t produites au fur et mesure que nous avancions dans ce chapitre consacre aux "covariate pattern". Nous produisons le tableau recensant les DFBETA pour chaque prol (Figure 9.11), nous dtaillons le calcul pour le prol no 7 :
Page: 172
macro: svmono.cls
date/time: 21-Jun-2011/16:10

(X V X)1 = = 0.04066 0.01775 0.03370 0.00288 ( ) xm = 1 3 1 0.00088 (X V X)1 x = 0.01548 m 0.01055 0.15655 0.04066 0.03370 0.00288 0.01449
173
38 33.7 ym ym = = 10.05410 1 hm 1 0.576 0.00088 0.009 ym ym (X V X)1 x = 0.01548 10.05410 = 0.156 m 1 hm 0.106 0.01055
Ce sont les valeurs que nous retrouvons pour le covariate pattern no 7 dans notre tableau rcapitulatif (Figure 9.11, les valeurs ont t transposes en ligne). Voyons maintenant comment lire ces informations. Lorsque nous retirons le prol no 7 de nos donnes, Le coecient de ALCOOL va tre diminu de 0.156 (quation 9.14) ; Le coecient de SURPOIDS va tre augment de 0.106. Moralit : le prol no 7 a tendance exacerber le rle de l'ALCOOL et attnuer le rle du SURPOIDS dans la dtermination du risque d'hypertension. A bien y regarder, on comprend le mcanisme. Il s'agit d'une population "d'alcolos maigrichons". L'ALCOOL prend une valeur leve (ALCOOL = 3), SURPOIDS faible (SURPOIDS = 1), et il y a f7 =
38 63
= 60.3% de positifs dans ce prol. Il n'est gure tonnant que le rle de l'ALCOOL soit
si dcri partir de ce prol. On remarquera par ailleurs que le prol no 3 joue exactement le rle contraire. Ce sont des gros (SURPOIDS = 3) sobres (ALCOOL = 1), et il y a une majorit de positifs f3 = prol no 7.
39 55
= 70.9%. Les valeurs
des DFBETA dans le tableau rcapitulatif sont sans surprises, il vont dans le sens contraire de celles du
Rgression sans le prol no 7

A titre de vrication, nous ralisons la rgression sans les individus du prol no 7. Nous ne disposons plus que de n = 336 observations. Les rsultats nous inspirent plusieurs commentaires (Figure 9.12 ; mettre en parallle avec les rsultats de la rgression sur la totalit des donnes, Figure 9.4) : Nous retrouvons bien les valeurs attendues des coecients. En eet, pour la variable ALCOOL
a1 DF BET A1,7 = 0.411 0.156 = 0.255 0.257 = a1,(7)

Comme nous pouvons le constater, l'approximation est rellement de bonne qualit. Les valeurs ne dirent qu' la 3eme dcimale.
174
Fig. 9.12.
Hypertension - Rsultats de la rgression sans le prol no 7
De mme pour la variable SURPOIDS
a2 DF BET A2,7 = 0.584 (0.106) = 0.690 0.692 = a2,(7)

L'autre nouvelle importante est qu'en
non-signicative
retirant le prol
o
no 7 ,
la variable ALCOOL devient
5%. Le rle du prol n 7 tait considrable dans la rgression incluant la
totalit des donnes. En conclusion de cette section, nous dirons que ces outils nous permettent de caractriser les prols d'individus en identiant leur rle dans la dtermination des rsultats de la rgression. Ils s'avrent particulirement prcieux lorsque nous souhaitons valider ou faire valider par un expert les rsultats. Ils concourent nous prmunir de
l'artefact statistique, ce serpent masqu qui nous guette constamment
lorsque nous traitons des donnes l'aide de techniques avant tout numriques.
9.5 Sur-dispersion et sous-dispersion

2 Dans le modle binomial, la variance de la variable dpendante est dnie par Y = (1 ). Lorsque
nous travaillons sur des donnes individuelles, cette condition est naturellement satisfaite. Lorsque nous
2 travaillons sur des donnes groupes, la variance devrait tre Ym = nm m (1 m ). Cette caractristique
peut ne pas tre respecte pour plusieurs raisons [10] (page 89) : une variable explicative importante n'est pas prsente ; un ou plusieurs groupes se dmarquent fortement des autres ; les donnes sont organises par blocs, autres que les covariate pattern ; ou tout simplement parce que le modle ne convient pas. On parle de sur-dispersion (resp. sous-dispersion) lorsque la variance Y est plus grande (resp. plus petite) que prvue. La principale consquence est une mauvaise estimation des carts-type des paramtres [7] (page 90). Lorsqu'il y a sur-dispersion, les tests de Wald ont tendance tre exagrment signicatifs car les carts-type sont sous valus (inversement pour la sous-dispersion). Le mme commentaire est valable pour les tests de rapport de vraisemblance. Toute la statistique infrentielle est donc fausse. Pour estimer la dispersion, on propose d'utiliser l'indicateur
D M J 1
(9.15)
o D est la dviance (section 9.3.2, on aurait pu utiliser la statistique de Pearson aussi) ; M J 1 reprsente le degr de libert.
Page: 174
macro: svmono.cls
date/time: 21-Jun-2011/16:10
9.5 Sur-dispersion et sous-dispersion
175
Lorsque 1, tout va bien ; lorsque > 1 (resp. < 1), il y a sur-dispersion (resp. sous-dispersion). Bonne nouvelle, il est possible de corriger les carts-type estims en introduisant le facteur comme suit :
aj = aj
(9.16)
Fig. 9.13.
Hypertension - Correction de la sur-dispersion
Nous avions calcul la dviance pour les donnes HYPERTENSION plus haut, D = 7.0690, avec
M J 1 = 9 2 1 = 6 degrs de libert. Nous obtenons 7.0690 = 1.1782 6
Il y a une lgre sur-dispersion dans cette modlisation. Nous introduisons le facteur de correction = 1.178 = 1.0854 dans l'estimation des carts-type des coecients et dans la dnition des tests de signicativit individuels (Figure 9.13). La correction des carts-type est relle. Mais la signicativit des coecients n'est pas modie par rapport au modle originel (Figure 9.4).
Page: 175
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 176
macro: svmono.cls
date/time: 21-Jun-2011/16:10
10.1 Redressement pour les chantillons non reprsentatifs

A plusieurs reprises, nous avons voqu le schma d'chantillonnage rtrospectif dans ce document. A juste titre, la pratique est frquente. On parle aussi de "donnes cas-tmoin". Explicitons l'ide. Souvent dans les tudes relles, les positifs sont rares, voire trs rares. Plutt que d'utiliser un chantillonnage simple (reprsentatif) au risque de n'avoir que trop peu d'observations positives dans le chier de donnes, on prfre souvent procder diremment. On xe le nombre d'observations n+ positives obtenir et on tire alatoirement dans ce groupe ; on fait de mme chez les ngatifs pour avoir n individus. Souvent les eectifs sont sciemment quilibrs c.--d. n+ = n , mais ce n'est pas une obligation. Ca c'est la thorie. Dans la pratique, les positifs sont tellement rares qu'on prend ce qui vient. Puis on procde eectivement par chantillonnage chez les ngatifs. De fait, la proportion
n+ n
ne rete plus la "vraie" proportion p des positifs dans la population. On dit
que l'chantillon n'est pas reprsentatif. On suppose que nous pouvons connatre p par d'autres moyens, ou tout du moins nous pouvons faire des hypothses crdibles sur sa vritable valeur. Plusieurs questions se posent lorsque nous lanons les calculs sur un chantillon non reprsentatif : Est-ce que nous pouvons retrouver les "vrais" coecients que l'on aurait estim si nous avions travaill sur un chantillon reprsentatif ? Quelle est la nature des corrections introduire pour produire la prdiction y de la classe d'appar tenance d'un individu ? Quelle est la nature des corrections introduire lors du calcul de sa probabilit a posteriori d'tre positif ? Dans quel cadre pouvons-nous utiliser tels quels les rsultats de la rgression sans introduire de correction ? Cette question est trs importante car l'obtention de p peut parfois poser problme. Est-ce que nous sommes totalement dmunis dans ce cas ? Dans ce chapitre, nous privilgions l'approche analytique parce que la rgression logistique s'y prte merveille. Pour certaines mthodes supervises, ce n'est pas possible. On doit alors se tourner vers les approches empiriques, plus gnriques, et adaptes tous les contextes, que le score soit mal calibr ou
178
pas (les probabilits sont agglutines autour de certaines valeurs), qu'il corresponde une probabilit ou non (un score peut prendre des valeurs en dehors de [0; 1], qu'importe s'il arrive ordonner les individus selon leur propension tre positif) .
10.1.1 Donnes
Nous utiliserons des donnes simules pour illustrer ce chapitre. Nous voulons prdire les valeurs d'une variable binaire Y en fonction de deux prdictives continues X1 et X2 . Nous disposons de 3 chiers : 1. Un chier d'apprentissage non reprsentatif avec n+ = 30 et n = 40 (ANR70). Nous l'utiliserons pour construire le modle de prdiction. 2. Un premier chier test non reprsentatif avec toujours 30 positifs et 40 ngatifs (TNR70). Il nous servira montrer comment calculer le taux d'erreur sur un chantillon non reprsentatif. 3. Un second chier test reprsentatif avec 10.000 positifs et 50.000 ngatifs (TR60K). On considrera que la vraie prvalence est p =
1 6
= 0.1667.
Dans les tudes relles, nous disposons de ANR70, ventuellement de TNR70, jamais de TR60K.
10.1.2 Correction du logit pour les chantillons non reprsentatifs Correction du logit via le taux de sondage
On note C le logit obtenu sur les donnes d'apprentissage non reprsentatives, C celui que l'on obtiendrait si on travaillait sur un chantillon reprsentatif. Ils sont lis par la relation suivante ([9], pages 205 210 ; [23], pages 431 434 ; [2], pages 67 et 68 ; [3], pages 79 82)
C = ln
+ +C
(10.1)
o + (resp. ) est le taux de sondage chez les positifs (resp. ngatifs). Comment pouvons nous ramener cette expression la prvalence p ? Mettons qu'il y a N observations dans la population, dont N+ positifs. La prvalence est p = la prvalence avec
N+ N .
Le taux de sondage + =
n+ N+
correspond
la proportion d'individus que l'on a extrait dans le groupe des positifs. Nous pouvons nous ramener
+ =
n+ n+ = N+ pN
Nous voyons autrement le rapport des taux de sondage
1. Voir R. Rakotomalala, Redressement - Aectation optimale dans le cadre du tirage rtrospectif - Approches analytiques et empiriques, http://eric.univ-lyon2.fr/~ricco/cours/slides/affectation_optimale_
et_redressement.pdf

+ n+ /(p N ) = ln n /[(1 p) N ] n+ (1 p) = ln n p n+ p = ln ln n 1p
179
ln
Nous l'introduisons dans l'expression 10.1
C = ln
Commentons tout cela :
n+ p + ln +C n 1p
(10.2)
En partant des rsultats fournis pas les logiciels sur les donnes non reprsentatives, il sut de connatre la prvalence p pour produire les coecients corrigs.
La correction porte uniquement sur la constante,
les coecients associes aux variables
explicatives ne sont pas modis. On peut aller plus loin mme : toute l'infrence statistique qui porte sur ces coecients est valable (intervalle de conance, test de signicativit), il en est de mme en ce qui concerne les interprtations (odds-ratio). C'est un rsultat trs important.
Dans les contextes o le principal objectif est de classer les observations selon leur degr de positivit (scoring, construction de la courbe ROC, etc.), les rsultats obtenus sur les donnes non reprsentatives peuvent tre utilises tels quels, sans correction. En eet,
que l'on corrige ou pas, les individus seront ordonns de la mme manire.
Il est possible d'obtenir les probabilits a posteriori corriges avec des calculs simples.
Application aux donnes simules

Nous avons lanc l'apprentissage sur les donnes ANR70. Tanagra nous fournit les coecients de la rgression (Figure 10.1). Les coecients a1 = 1.315429 = a et a2 = 1.047243 = a ne ncessitent pas 1 2 de modications. En revanche, pour la constante, nous calculons :
a = a0 ln 0
n+ p + ln n 1p 30 1/6 = 3.127522 ln + ln 40 5/6 = 1.805766
Finalement l'quation du logit corrig s'crit
C = 1.805766 1.315429X1 + 1.047243X2

A titre de vrication, nous avons lanc la rgression sur l'chantillon reprsentatif TR60K. Bien videmment, nous n'obtiendrons pas exactement les mmes coecients cause des uctuations d'chantillonnage (ce serait mme suspect), mais au moins nous aurons un ordre d'ides sur les dirences. C'est tout fait diant.
180
Fig. 10.1.
Apprentissage - chantillon non reprsentatif - n = 70 obs.

Ech. non reprsentatif Ech. reprsentatif -
Coef. Non corrig Corrig
a0 a1 a2
3.127522 1.315429 1.047243
1.805766
-
1.359818 1.267896 1.16237
On notera principalement (1) que la constante calcule sur l'chantillon non reprsentatif est clairement surestime ; (2) la correction va dans le bon sens ; (3) les coecients associs aux variables sont (assez) similaires sans qu'il soit ncessaire d'introduire un ajustement.
Correction de la probabilit d'aectation

La correction tempre l'optimisme de la probabilit a posteriori attribue aux individus, dus la sur-reprsentation des positifs dans le chier d'apprentissage (par rapport la prvalence relle dans la population). Prenons l'individu (X1 = 2.51 ; X2 = 0.85). Sans la correction, nous aurons
1 1 = = 0.6717 1 + e(3.1275221.3154292.51+1.0472430.85) 1 + e(0.7160)
Lorsque nous l'introduisons
1 1 = = 0.3530 1 + e(1.8057661.3154292.51+1.0472430.85) 1 + e(0.6058)
L'ajustement n'est pas anodin. Sans, la probabilit d'tre positif attribue l'individu serait exagre. On remarquera galement que si l'on s'en tient au seuil usuel de 0.5, dans le 1er cas, l'individu est class positif, dans le 2nd , ngatif. Dans ce qui suit, nous allons tudier les implications de la correction sur la construction des prdictions y .
181
10.1.3 Modication de la rgle d'aectation pour le classement Aectation base sur le logit
La rgle usuelle base sur le logit est
Si C() > 0 Alors y () = + Sinon y () =

Nous pouvons la transposer de deux manires quivalentes avec la correction du logit : 1. Nous utilisons le logit corrig C et nous nous en tenons la rgle habituelle, soit
Si C () > 0 Alors y () = + Sinon y () =

2. Nous utilisons le logit fourni par les logiciels sur les donnes non reprsentatives, mais nous ajustons le seuil d'aectation, soit
Si C() > ln
n+ p ln Alors y () = + Sinon y () = n 1p
Quoiqu'il en soit, il faut utiliser une des deux procdures ci-dessus. Utiliser directement les sorties du logiciel, sans modications, dgrade indment les performances en classement comme nous allons le voir sur nos donnes. Nous allons appliquer les classieurs corrigs et non corrigs sur le chier test reprsentatif de 60.000 observations (TR60K).
Classement sans correction

C'est une erreur assez rpandue. On utilise directement le classieur propos par le logiciel, sans se poser des questions sur le schma d'chantillonnage. La rgle de prdiction "brute" produite par Tanagra est la suivante (Figure 10.1)
Si 3.127522 1.315429X1 + 1.047243X2 > 0 alors y = + sinon y =

Appliqu sur le chier test de 60.000 observations, nous obtenons une matrice de confusion (Figure 10.2) avec un taux d'erreur de nc = 0.1326
Page: 181
macro: svmono.cls
date/time: 21-Jun-2011/16:10
182
Fig. 10.2.
valuation du modle non
corrig
sur l'chantillon test reprsentatif (60.000 obs.)
Fig. 10.3.
valuation du modle corrig sur l'chantillon test reprsentatif (60.000 obs.)
Classement avec ajustement du seuil d'aectation

Avec la mme fonction logit, nous corrigeons le seuil. A la place de 0, nous utilisons
ln
La rgle de prdiction devient
n+ p 30 1 ln = ln ln = 1.3218 n 1p 40 5
Si 3.127522 1.315429X1 + 1.047243X2 > 1.3218 Alors y = + Sinon y =

Appliqu au mme chier test, nous obtenons une autre matrice de confusion (Figure 10.3) avec un taux d'erreur autrement plus intressant, c = 0.0799. Rien qu'en modiant le seuil d'aectation, nous avons quasiment divis par 2 (1.65 pour tre prcis) le taux d'erreur ! Comme le seuil est plus lev, il y a moins d'individus classs positifs (8176 vs. 14449). L'amlioration porte essentiellement sur la prcision (0.8182 vs. 0.5708). Nous avons prot de la matrice de confusion pour calculer les autres indicateurs. Nous les utiliserons comme rfrence plus loin lorsqu'il s'agira de construire la matrice de confusion sur un chantillon non reprsentatif. Nous observons : Rappel = Sensibilit = Se = 0.6690 Prcision = VPP = 0.8182 Taux de faux positifs = TFP = 0.0297 Spcicit = Sp = 0.9703
183
Aectation base sur la probabilit a posteriori

Le mme raisonnement peut tre transpos la rgle d'aectation fonde sur la probabilit a posteriori. Nous pouvons la corriger comme nous l'avions montr plus haut (section 10.1.2) et utiliser le seuil usuel de 0.5. Nous pouvons aussi utiliser la probabilit fournie par le logiciel et modier le seuil d'aectation. Voyons comment obtenir ce seuil en partant de la rgle corrige du logit
p n+ ln n 1p n p C < ln + ln n+ 1p p n+ eC < n 1p n+ p 1 + eC < 1 + n 1p 1 1 > n+ p 1 + eC 1 + n 1p C > ln

La rgle de prdiction devient
Si >
1 1+
n+ n
p 1p
Alors y = + Sinon y =
De par sa construction, elle produit un classement totalement quivalent celle base sur le logit pour lequel nous avons ajust le seuil d'aectation.
Remarque : le cas des chantillons quilibrs. Lorsque l'chantillon a t volontairement quilibr c.--d. n+ = n , une pratique largement rpandue, la rgle est grandement simplie. Elle devient
Si > 1 p Alors y = + Sinon y =
10.1.4 valuation sur un chantillon non reprsentatif Mesures drives de la matrice de confusion
Nous avons la chance de disposer d'un chantillon test reprsentatif. Nous pouvons valuer les modles sans se poser des questions sur la transposition des rsultats dans la population. Dans les tudes relles, ce luxe est inaccessible. Le chier test, s'il existe, est lui aussi non reprsentatif. Plusieurs questions se posent : est-ce que nous pouvons quand mme laborer la matrice de confusion dans ces conditions ? Y a-t-il des corrections faire ? Sur tous les indicateurs ou sur quelques-uns seulement ? A la premire question, la rponse est oui. Rien ne nous empche de construire la matrice de confusion. Nous disposons d'individus pour valuer la prdiction, nous aurons tort de nous en priver. Aprs, selon les indicateurs, nous aurons besoin de la vraie prvalence p pour caler les estimations. Nous appliquons le classieur sur l'chantillon test non reprsentatif comportant 70 observations (TNR70). Nous obtenons une matrice de confusion, nous calculons directement les indicateurs habituels (Figure 10.4) :
184
Fig. 10.4.
valuation du modle corrig sur l'chantillon test non reprsentatif (70 obs.)
Taux d'erreur = 0.1714 Sensibilit = Se = 0.6333 Prcision = VPP = 0.9500 Taux de faux positifs = TFP = 0.0250 Spcicit = Sp = 0.9750 Que faut-il en penser ? Nos rfrences sont les valeurs obtenues sur l'chantillon reprsentatif (Figure 10.3), aux uctuations d'chantillonnage prs bien sr. On se rend compte que certains indicateurs sont trs loin du compte (taux d'erreur, prcision), d'autres en revanche se rapprochent des "bonnes" valeurs (sensibilit, TFP, spcicit). Et ce n'est pas tonnant. Tous les indicateurs correspondant des prols lignes dans la matrice de confusion sont insensibles la proportion des positifs dans le chier test. Ainsi, la sensibilit, le taux de faux positifs et la spcicit peuvent tre adopts tels quels sans avoir se poser des questions sur la reprsentativit de l'chantillon. Les autres par contre (taux d'erreur, prcision) doivent tre corrigs en fonction de la prvalence
1 6.
p =
Nous utilisons les expressions que nous avons mis en avant dans la section 2.1.2, lorsque nous
r-crivons les dirents indicateurs en fonction de la sensibilit et de la spcicit. Elles prennent toute leur saveur ici. Indicateur Sensibilit (Se ) TFP Spcicit (Sp ) Taux d'erreur Prcison (VPP) Ech. reprsentatif Ech. non reprsentatif Avec Ajustement -
Pas d'ajustement Sans ajustement
0.6690 0.0297 0.9703 0.0799 0.8182
0.6333 0.0250 0.9750 0.1714 0.9500
p(1 Se ) + (1 p)(1 Sp ) = 0.0616

pSe pSe +(1p)(1Sp )
= 0.8352
Les valeurs obtenues sont autrement plus crdibles lorsque nous introduisons les ajustements pour le taux d'erreur et la prcision.
Page: 184
macro: svmono.cls
date/time: 21-Jun-2011/16:10
185
Courbe ROC
La courbe ROC est un autre outil d'valuation des classieurs (section 2.5). Elle prsente un double avantage dans le cadre des donnes non reprsentatives : 1. Elle repose uniquement sur l'ordonnancement des individus selon le score. Il n'est donc pas ncessaire de corriger le modle avant de la construire. En eet, corriger la constante, c.--d. retrancher ou rajouter la mme valeur pour tous les logit, ne modiera en rien les positions relatives des individus. 2. Elle est construite partir de la confrontation du taux de faux positifs (1 Sp ) et du taux de vrais positifs (Se ), deux prols lignes des matrices de confusions successives (pour chaque seuil d'aectation) utilises pour produire les points qui la constituent. De fait, nous obtiendrons la mme courbe ROC, qu'elle soit labore partir d'un chantillon reprsentatif ou non. A aucun moment, nous n'avons besoin de la "vraie" prvalence p pour introduire une quelconque correction. Ces deux proprits font de la courbe ROC un outil extrmement prcieux (et populaire) dans les tudes relles. Souvent, nous ne savons pas vraiment si le chier manipul est reprsentatif ou non. Obtenir des informations sur la vraie prvalence est parfois trs dicile, voire impossible. La courbe ROC nous aranchit de ces contraintes. Sur notre chier de donnes, nous avons construit le modle de prdiction sur les donnes d'apprentissage non reprsentatif (ANR70). Puis nous avons construit deux courbes ROC : l'une sur l'chantillon test non reprsentatif de 70 observations (TNR70) ; l'autre sur l'chantillon reprsentatif avec 60.000 observations (TR60K). Nous les avons placs dans le mme repre (Figure 10.5).
Fig. 10.5.
Courbes ROC sur chantillon non-reprsentatif (TNR70) et reprsentatif (TR60K)
Les deux tracs sont trs proches, ce qui accrdite l'ide avance ci-dessus : quelle que soit la rpartition des modalits de la variable dpendante dans le chier de donnes, la courbe ROC reste imperturbable.
186
La courbe labore sur l'chantillon T R60K est moins heurte, mieux lisse, parce que les eectifs sont nettement plus levs. Concernant l'aire sous la courbe, nous obtenons galement des valeurs similaires (aux uctuations d'chantillonnage prs) avec AUC(TNR70) = 0.915 et AUC(TR60K) = 0.927.
10.2 Prise en compte des cots de mauvais classement

10.2.1 Dnir les cots de mauvaise aectation
Tout le monde s'accorde dire que l'intgration des cots de mauvais classement est un aspect incontournable de la pratique du Data Mining. Diagnostiquer une maladie chez un patient sain ne produit pas les mmes consquences que de prdire la bonne sant chez un individu malade. Dans le premier cas, le patient sera soign tort, ou peut tre demandera-t-on des analyses supplmentaires superues ; dans le second cas, il ne sera pas soign, au risque de voir son tat se dtriorer de manire irrmdiable. Pourtant, malgr son importance, le sujet est peu abord, tant du point de vue thorique c.--d. comment intgrer les cots dans l'valuation des modles (facile) et dans leur construction (un peu moins facile), que du point de vue pratique c.--d. comment les mettre en oeuvre dans les logiciels. Une matrice de cots de mauvais classement se prsente sous la forme d'une matrice c(k, l) avec, en ligne les valeurs observes de la variable prdire, en colonne les valeurs prdites par les modles : c(k, l) est le cot associ la prdiction Y () = yl alors que la valeur observe est Y () = yk . Usuellement, nous avons c(k, l) > 0 si k = l, mal classer induit un cot ; et c(k, k) = 0, bien classer ne cote rien. Mais cette premire criture est un peu restrictive. En ralit, bien classer entrane souvent un gain, soit un cot ngatif, nous crirons plutt c(k, k) 0. Dans le domaine du crdit scoring par exemple, prdire la abilit d'un client qui s'avre l'tre eectivement rapporte de l'argent la banque : le montant des intrts.
Quantier les consquences d'un bon ou mauvais classement appartient aux experts du domaine. Il n'est pas question pour nous statisticiens de s'immiscer dans cette phase. En revanche, nous
devons la prendre en compte lors du processus d'extraction de connaissances. L'intgration des cots lors de l'valuation ne pose pas de problmes particuliers. Il s'agit de faire le produit terme terme entre la matrice de cot et la matrice de confusion. Nous obtenons ainsi un " cot moyen de mauvais classement " (ou d'un gain moyen si nous multiplions le rsultat par -1). Son interprtation n'est pas trs aise. Il vaut surtout pour comparer des modles concurrents. La prise en compte des cots lors de l'laboration du modle de classement est moins connue. Nous tudierons une approche trs simple, mais dj ecace. Il s'agit d'estimer les paramtres a sans tenir compte des cots, puis d'utiliser une rgle d'aectation qui minimise le cot moyen lors du classement de nouveaux individus. Concrtement, on s'appuie sur les probabilits conditionnelles fournies par le modle pour calculer la perte associe chaque dcision. On choisit la dcision qui minimise la perte espre. C'est une gnralisation de la rgle de classement classique qui cherche minimiser le taux d'erreur. Le principal intrt de cette correction par les cots est que nous pouvons exploiter, sans modications spciques, les rsultats fournis par les logiciels courants.

entre autres :
187
Il existe d'autres techniques, plus ou moins sophistiques, dcrites dans la littrature. Nous citerons, L'intgration des cots de mauvais classement dans le processus d'apprentissage. Peu de mthodes permettent cela. Nous citerons en particulier les arbres de dcision qui peuvent utiliser explicitement la matrice de cots lors du post-lagage. L'utilisation de systmes de pondration d'individus. L'ide est de donner plus de poids aux individus "coteux" de manire orienter en priorit l'apprentissage vers leur bon classement. L'utilisation des schmas d'agrgation de modles, bass sur des r chantillonnages plus ou moins adaptatifs (bagging ou boosting). Mme si elles sont pour la plupart performantes, elles prsentent un inconvnient majeur : nous disposons d'une srie de modles, l'interprtation des rsultats devient dicile, voire impossible. R-tiqueter les individus c.--d. modier articiellement les valeurs de la variable dpendante, toujours de manire orienter l'apprentissage vers les individus problme, ceux qui vont induire un cot lev s'ils sont mal classs (ex. la mthode Metacost de Domingos 1999). Pour intressantes qu'elles soient, ces mthodes sont peu rpandues, peu prsentes dans les logiciels usuels ! . Nous nous en tiendrons donc la mthode trs simple de correction de la rgle d'aectation dans ce document.
10.2.2 Intgrer les cots lors de l'valuation

Y Y +
Tableau 10.1.
Matrice de cots de mauvais classement pour un problme binaire
Dans le cadre de la prdiction binaire, nous allons simplier l'criture de la matrice de cots (Tableau 10.1). Nous devons la prendre en compte lors de l'valuation des classieurs, en la mariant au mieux (et non pour le pire) avec la matrice de confusion. Le taux d'erreur qui ignore la structure de cots n'est plus adapt dans ce contexte. Le cot moyen de mauvaise aectation pour un modle M est dni de la manire suivante :
(M ) =
1 (a + b + c + d ) n
(10.3)
Son interprtation n'est pas toujours facile, d'autant que les cots sont exprims dans des units imprcises (qui
oserait - tout du moins ouvertement - exprimer en euros le fait de classer un patient
2. A propos des direntes mthodes, voir R. Rakotomalala, Intgrer les cots de mauvais classement en apprentissage supervis, http://eric.univ-lyon2.fr/~ricco/cours/slides/couts_en_apprentissage_supervise.
pdf
3. Pour la prise en compte des cots dans les logiciels R, Tanagra et Weka, voir http://eric.univ-lyon2.fr/
~ricco/tanagra/fichiers/fr_Tanagra_Cost_Sensitive_Learning.pdf
188
sain chez les malades ? ). Quoiqu'il en soit, cet indicateur intgre bien la structure de cots, il permet de
comparer les performances des dirents modles. C'est dj pas mal.
Un exemple - L'attrition
Nous sommes dans un problme de dtection automatique de clients faisant dfection pour un fournisseur d'accs internet. On parle d'attrition (en anglais "churn") " . Les responsables de l'entreprise proposent d'utiliser la matrice de cots suivante
Y Y + 5
+ 1
10 0
Laisser passer un client la concurrence cote c(+, ) = 10 ; Aller tarabuster, et lui donner de mauvaises ides, un client qui ne pensait pas partir, c(, +) = 5 ; Soigner juste titre un client sur le point de partir "cote" c(+, +) = 1 ; Laisser tranquille le gars bien install, c(, ) = 0. Encore une fois, xer les cots est l'aaire des experts. Il n'appartient pas au data miner de se lancer dans des lucubrations sur le cot de telle ou telle conguration. Dans la pratique, on teste d'ailleurs dirents scnarios de cots. Deux modles de prdiction (M1 et M2 ) sont en concurrence. Nous voulons savoir quel est le meilleur. Nous disposons des matrices de confusion (Figure 10.6).
Fig. 10.6.
Comparaison de deux classieurs sans et avec prise en compte de la matrice de cots
Si l'on s'en tient au taux d'erreur, les deux modles sont quivalents, en eet
4. Bon, mme si j'en meurs d'envie, je ne dirai pas cause de qui j'ai t priv d'ADSL pendant 2 mois cet t, c'est comme si on me privait d'air... un vrai retour au moyen ge. Moralit, je suis all la concurrence bien sr. Voil un bel exemple d'attrition. Comme quoi le data mining fait partie intgrante de notre vie de tous les jours.
189
20 + 10 = 0.3 100 0 + 30 (M2 ) = = 0.3 100 (M1 ) =

Mais lorsque l'on prend en compte la structure de cots, le modle M1 se dmarque nettement
1 (40 (1) + 10 10 + 20 5 + 30 0) = 1.6 100 1 (M2 ) = (20 (1) + 30 10 + 0 5 + 50 0) = 2.8 100 (M1 ) =
Et ce n'est pas tonnant : il se trompe peu l o c'est le plus coteux c(+, ) = 10 ; il classe bon escient l o c'est le plus avantageux c(+, +) = 1. Avec cette structure de cots, nous avons tout intrt choisir le modle M1 qui est nettement plus performant.
Le taux d'erreur est un cas particulier

A bien y regarder, on se rend compte que le taux d'erreur est un cot moyen de mauvais classement avec une matrice de cots symtrique et unitaire (Tableau 10.2).
Y Y +
Tableau 10.2.
+ 0 1
1 0
Matrice de cos symtrique et unitaire
Reprenons l'exemple du modle M1 de la section prcdente, nous obtenons
(M1 ) =
1 (40 0 + 10 1 + 20 1 + 30 0) = 0.3 = (M1 ) 100
Le cot moyen de mauvais classement est une "vraie" gnralisation. Il y a donc des hypothses implicites dans le taux d'erreur : bien classer ne cote rien, mais ne gagne rien non plus ; mal classer cote 1, quelle que soit l'erreur.
10.2.3 Intgrer les cots lors du classement

Maintenant que nous savons valuer les classieurs en intgrant la structure de cot, il reste un problme pineux : comment orienter l'apprentissage pour qu'il en tienne compte. L'objectif est de produire un classieur qui minimisera, non plus le taux d'erreur, mais plutt le cot moyen de mauvaise aectation. Comme nous le disions plus haut, il existe moult stratgies pour ce faire. Nous choisissons de prsenter une approche trs simple dans cette section. Nous procdons en deux temps :
190
1. Nous estimons les paramtres du logit en utilisant la rgression logistique usuelle. 2. Lors du classement d'un nouvel individu , nous nous appuyons sur la probabilit estime () et la matrice c(k, l) pour lui assigner la classe yl qui minimise les cots. Cette stratgie est possible parce que la rgression logistique fournit une estimation able (bien calibre) de (). Ce n'est pas le cas de certaines les mthodes supervises (ex. support vector machine, bayesien naf). Nous pouvons utiliser les logiciels habituels de rgression logistique. C'est un avantage non ngligeable. Nous verrons que malgr sa simplicit, elle est performante. Le classieur ainsi dni se dmarque nettement du modle de rfrence, celui qui ignore les cots. Pour modier la procdure d'aectation de la rgression logistique, il nous faut revenir sur les fondamentaux et intgrer la structure de cots dans la rgle de Bayes dcrite prcdemment (section 1.1.3). Nous crivons [3] (page 4)
yl = arg min (yl )

l
(10.4)
o (yl ) est la perte moyenne associe la prdiction Y () = yl ,

K k=1
(yl ) =
P (Y = yk /X) c(k, l)
(10.5)
L'ide est nalement trs sense : nous choisissons la prdiction la moins coteuse en moyenne. Pour un classement binaire, la rgle est simplie
Si (+) < () alors Y = + sinon Y =
(10.6)
Remarque : rgle d'aectation pour une matrice de cot symtrique et unitaire

Si nous utilisons une matrice de cot symtrique et unitaire (Tableau 10.2), le cot associ une prdiction s'crit
(yl ) = =

k=l k=l
P (Y = yk /X) 1 P (Y = yk /X)
= 1 P (Y = yl )
Nous retrouvons une rgle d'aectation que nous connaissons bien
yl = arg min[1 P (Y = yl /X)]

l
= arg max P (Y = yl /X)

l
Page: 190
macro: svmono.cls
date/time: 21-Jun-2011/16:10
191
10.2.4 Classement d'un individu

Pour la matrice de cot de l'exemple "attrition" (section 10.2.2), l'individu prsente les probabilits a posteriori [P (Y = +/X) = = 0.4 ; P (Y = /X) = 1 = 0.6]. Avec la rgle usuelle (maximisation de la probabilit a posteriori), sans tenir compte des cots, nous lui assignerons l'tiquette "-". Voyons ce qu'il en est si nous intgrons le cot dans la prise de dcision. Nous calculons la perte moyenne relative chaque modalit
(+) = 0.4 (1) + 0.6 5 = 2.6 () = 0.4 10 + 0.6 0 = 4

La conclusion la moins coteuse consiste attribuer l'tiquette "+" nalement. La dcision est inverse par rapport la prcdente.
10.2.5 Traitement du chier COEUR

Reprenons notre chier COEUR. Nous utilisons une matrice de cot de mauvaise d'aectation dont la structure est la suivante
Y Y +
+ 5 2
10 0
Le gain est lev lorsque nous soignons une personne malade [c(+, +) = 5] ; la perte est particulirement importante lorsque nous ne la diagnostiquons pas la maladie chez une personne en mauvaise sant [c(+, ) = 10].
Performances du modle non corrig M

Dans un premier temps, nous prenons le modle avec la rgle d'aectation non corrige. Aprs estimation des coecients, construction de la colonne de et de la colonne prdiction y (Figure 2.1), nous avions produit une matrice de confusion (Tableau 10.3), avec un taux d'erreur de = 0.20. En appliquant la matrice de cot, nous constatons un cot moyen de mauvais classement gal
(M ) =
1 (3 (5) + 3 10 + 1 2 + 13 0) = 0.85 20
Si l'on corrige la rgle d'aectation lors de la prdiction, nous devrions obtenir de meilleures performances c.--d. un cot moyen plus faible. Vrions cela.
Page: 191
macro: svmono.cls
date/time: 21-Jun-2011/16:10
192

Y Y + 3 1 4 + 3 13 16 Total 6 14 20
Total
Tableau 10.3.
COEUR - Matrice de confusion - Modle sans correction de la rgle d'aectation
Fig. 10.7.
COEUR - Prdiction et matrice de confusion - Modle corrig

Y Y + 6 7 13 + 0 7 7 Total 6 14 20
Total
Tableau 10.4.
COEUR - Matrice de confusion - Modle avec correction de la rgle d'aectation
Performances du modle corrig M c

La structure de la feuille Excel est exactement la mme jusqu' la construction des probabilits estimes (Figure 10.7). Nous insrons deux colonnes supplmentaires, (+) et (). La colonne y va tenir compte des cots en utilisant la nouvelle rgle de classement (quation 10.6). Voici le dtail des oprations pour le 1er individu : Ses coordonnes sont X(1) = (constante = 1 ; age = 50 ; taux max = 126 ; angine = 1). Nous produisons son logit
C(X(1)) = 14.4937 0.1256 50 0.0636 126 + 1.7790 1 = 1.9825

La probabilit a posteriori estime est
Page: 192
macro: svmono.cls
date/time: 21-Jun-2011/16:10

1+ Calculons les pertes associes chaque prdiction (1) = 1 e(1.9825) = 0.8789
193
(+) = 0.8789 (5) + (1 0.8789) 2 = 4.1526 () = 0.8789 10 + (1 0.8789) 0 = 8.7895

La prdiction y = + est celle qui minimise la perte, nous assignons au premier individu l'tiquette positive (prsence). Nous faisons de mme pour les autres individus de la base. Nous obtenons une matrice de confusion (Tableau 10.4) avec un taux d'erreur de 0.35. Mais peu importe cet indicateur en ralit, il faut valuer le classieur avec la structure de cots. Le cot moyen de mauvais classement est gal
(M c) =
1 (6 (5) + 0 10 + 7 2 + 7 0) = 0.8 20
Le modle M c est nettement meilleur que M [(M c) = 0.8 vs. (M ) = 0.85]. Pourtant ils s'appuient sur les mmes paramtres estims aj . Conclusion : la rgle d'aectation qui tient compte des cots permet d'orienter la prdiction dans le sens de la rduction du cot moyen de mauvais classement. Les calculs supplmentaires demands sont ngligeables face l'amlioration spectaculaire des performances.
Page: 193
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 194
macro: svmono.cls
date/time: 21-Jun-2011/16:10
11 Quelques lments supplmentaires
11.1 L'cueil de la discrimination parfaite

L'tude attentive de la matrice hessienne (Equation 1.12) nous claire sur un des aspects sombres de la rgression logistique : le plantage des logiciels lorsque la discrimination est parfaite c.--d. lorsque les positifs et les ngatifs sont parfaitement sparables dans l'espace de reprsentation. A priori, cette situation est idyllique. Un hyperplan sparateur permet de discriminer parfaitement les classes. L'analyse discriminante linaire se promne littralement dans cette conguration. Pas la rgression logistique. La raison n'est pas dans les fondements de la mthode elle-mme, nous devrions obtenir normalement une dviance gale 0 (ou une vraisemblance gale 1), mais plutt dans la stratgie d'optimisation de la log-vraisemblance. L'algorithme de Newton-Raphson (quation 1.10) a besoin de calculer la matrice hessienne, puis de l'inverser. Or, lorsque la discrimination est parfaite, pour tout individu , nous avons soit () = 1, soit () = 0. Tous les termes de la matrice H sont nuls et, de fait, elle n'est pas inversible. Le logiciel plante ! Certains arrivent mettre en place des astuces pour s'en prmunir, d'autres non. Il n'en reste pas moins que toute la partie "statistique infrentielle" (tests, intervalle de conance) n'est plus ralisable. Prenons l'exemple des donnes de Tomassone et al. ([24], Figure 1, page 30). Manifestement les classes sont parfaitement discernables (Figure 11.1). Nous pouvons tracer une droite sparant les positifs des ngatifs. Il apparat clairement galement que c'est la combinaison des 2 descripteurs (X1 et X2 ) qui permet de raliser cette discrimination : un classieur bas sur X1 seul (resp. X2 seul) ne pourrait pas raliser une sparation parfaite. Or, que nous disent nos logiciels prfrs ? Tanagra, tout comme R, trouve une solution optimale sans planter. Mais pas le mme vecteur a ! C'est normal, il y a une innit de solutions ! La dviance du modle est gale DM = 2LL = 0 (Figure 11.2, A). Le taux d'erreur en resubstitution, si nous le calculons, serait gal 0. Le modle est sans erreur. R annonce nanmoins qu'il y a eu des problmes lors de l'optimisation, ce qui devrait nous inciter la prudence. Et en eet, le bilan est trs dcevant lorsque nous nous penchons sur la contribution des variables (Figure 11.2, B). Tanagra refuse de calculer les carts-type des coecients. R propose des valeurs fantaisistes. Les deux s'accordent annoncer qu'aucune des deux variables n'est pertinente dans la discrimination avec des probabilits critiques (p-value) gales 1. Or, nous savons pertinemment la lumire du nuage de
196
Fig. 11.1.
Donnes Tomassone et al. - Discrimination parfaite
Fig. 11.2.
Donnes Tomassone et al. - Rsultats de la rgression logistique
points (Figure 11.1) que c'est faux : les deux variables prises ensembles sont capables de produire un classieur parfait. Dans le mme contexte, l'analyse discriminante produit les rsultats adquats : la discrimination est excellente, les deux variables y contribuent (Figure 11.3, A et B).
Page: 196
macro: svmono.cls
date/time: 21-Jun-2011/16:10
11.2 Estimation des coecients par les MCO pondrs
197
Fig. 11.3.
Donnes Tomassone et al. - Rsultats de l'analyse discriminante linaire

11.2.1 Quel intrt ?
Il est possible de retrouver les rsultats de la rgression logistique l'aide de la rgression linaire multiple. Il sut de transformer la variable dpendante et de pondrer les individus [9] (pages 128 130). C'est plutt une bonne nouvelle. En eet les programmes de rgression linaire sont largement rpandus (il y en a par exemple dans le tableur Excel). Ils sont nettement plus performants en temps de traitement, un atout important lorsque nous traitons de grandes bases de donnes avec des centaines de milliers d'observations. Mais ce n'est pas aussi simple. En eet, pour raliser les calculs, l'algorithme des moindres carrs a besoin des ()... fournis par la rgression logistique. Ds lors une question se pose : pourquoi s'enqui quiner estimer les paramtres l'aide de la rgression linaire alors qu'il est ncessaire de passer par une tape pralable de calculs via la rgression logistique ? En temps normal, aucun eectivement. Les calculs supplmentaires ne sont absolument pas justis. En revanche, dans un contexte de slection de variables, s'appuyer sur l'quivalence s'avre trs avantageux : 1. nous estimons les paramtres de la rgression logistique en incluant toutes les variables explicatives ; 2. puis, nous utilisons les rsultats pour produire les probabilits prdites () pour chaque observation ; 3. cette information acquise, nous pouvons l'introduire dans l'algorithme des moindres carrs ;
Page: 197
macro: svmono.cls
date/time: 21-Jun-2011/16:10
198

la mthode "branch and bound" de Furnival et Wilson (1974) qui est capable de produire les k (paramtrable) "meilleurs" modles une variable, les k meilleurs modles 2 variables, etc. On utilise par la suite des critres tels que le Cp de Mallows pour choisir le bon modle parmi ces candidats [9] (pages 131 135) .
4. et utiliser les stratgies de slection de variables propres la rgression linaire, on cite souvent
5. Le meilleur sous-ensemble de variables ainsi dtect sera prsent la rgression logistique qui produira le modle dnitif. Dans ce qui suit, nous dcrivons les formules qui permettent d'obtenir les estimations a partir des moindres carrs. Nous dtaillons tout cela sur un exemple numrique en utilisant la fonction, on ne peut plus standard, DROITEREG d'Excel.
11.2.2 quivalence entre la rgression logistique et la rgression linaire

L'estimation a des paramtres de la fonction LOGIT peut tre obtenue par la formule des moindres carrs gnraliss. Faisons un petit retour sur la rgression linaire multiple avec une variable dpendante
Y {0, 1}, l'quation s'crit Y = a0 + a1 X1 + + aJ XJ +

o est l'erreur du modle. Voyons quelques proprits : (11.1)
E[Y ()] = () E[()] = 0
Moyenne de Y probabilit de Y Par hypothse des MCO Par hypothse, les X sont non alatoires, indpendants de
V (()) = V (Y ())
= E{[Y () E(Y ())]2 } = E(Y ()2 ) E(Y ())2 = () ()2 Y 2 = Y puisque dni dans {0, 1}
Il y a htroscdasticit
Pour obtenir les bonnes estimations, nous devrons donc pondrer chaque individu par
1 1 () = = 2 () () ()(1 ())
(11.2)
Concernant la variable dpendante, pour qu'il y ait quivalence entre la rgression logistique et la rgression linaire, nous devons utiliser la transformation suivante [9] (page 130)
1. Mhode de sparation et d'valuation, voir par exemple D. de Werra, T. Liebling, J.F. Hche, Recherche oprationnelle pour ingnieurs - I, Presses polytechniques et universitaires romandes, 2003 ; pages 340 346. 2. Pour une prsentation plus dtaill du critre Cp de Mallows dans le cadre de la rgression linaire, voir Y. Dodge, V. Rousson, Analyse de rgression applique, Dunod, 2004 ; pages 147 149.

( z() = ln () 1 () ) + y() () y() () = c(x()) + ()(1 ()) ()(1 ())
199
(11.3)
En passant une notation matricielle, nous retrouvons l'expression de l'estimateur des moindres carrs gnraliss aM CG qui produit les mmes paramtres que l'estimateur aM M V du maximum de vraisemblance de la rgression logistique ([11], pages 109 et 110)
aM M V = aM CG = (X V X)1 X V z
o X est la matrice des donnes, avec la constante en premire colonne ; V est la matrice diagonale des ()(1 ()) ; z = X + V 1 r est la transformation de la variable dpendante ; a r = y est le vecteur des rsidus.
(11.4)
A priori, si l'on veut mettre en oeuvre la mthode, il faudrait que l'on construise la variable z puis que l'on dispose d'un logiciel capable de prendre en compte le poids . Ils ne sont pas nombreux. En pratique, il s'avre que nous pouvons utiliser les logiciels usuels qui implmentent les moindres carrs ordinaires (MCO) en estimant les paramtres de la rgression !
z 1 X1 XJ = a0 + a1 + + aJ
(11.5)
Enn, la formulation ci-dessus nous fournit bien les estimations a. Mais il faut introduire une autre correction pour obtenir une estimation correcte des carts-type. On dnit s2 la variance estime des rsidus de la manire suivante "
s2 =
1 2 () (y() ())2 nJ 1
(11.6)
Le rapport suivant assure l'quivalence entre les estimations des carts-type :
aj (M M V ) =
aj (M CG) s
(11.7)
3. Attention, il faudra spcier une rgression sans constante dans les logiciels. En eet, () est dirent d'un individu l'autre, le terme associ a0 n'est plus constant. 4. On ne manquera pas de noter la similitude avec la variance des erreurs en rgression linaire = 2 somme des carrs des rsidus . degrs de libert
200
11.2.3 Un exemple numrique avec la fonction DROITEREG

Reprenons le chier COEUR (n = 20, Figure 0.1). Nous avions obtenus les paramtres aM M V suivants avec la mthode du maximum de vraisemblance Coef. Ecart-type angine a3 taux max a2 age a1
a0
1.779 1.504
0.064 0.040
0.126 14.494 0.094 7.955
Nous produisons les prdictions partir de ces coecients. Nous pouvons raliser les calculs pour obtenir aM CG (Figure 11.4) :
Fig. 11.4.
Calcul des coecients via la rgression linaire pondre
Tout d'abord, nous avons la colonne de obtenue partir de la rgression logistique. Par exemple,
(1) = 0.879, (2) = 0.582, etc.

11.3 Rgression non-linaire mais sparateur linaire

Nous formons dans la colonne suivante (1 ). 1 Nous en dduisons le poids = . Par exemple, (1) =
(1 ) 1 0.879(10.879)
201
= 3.066.
Nous transformons maintenant les variables explicatives, de la constante (const., qui prenait systmatiquement la valeur 1 initialement) angine. Nous divisons simplement les valeurs initiales par le poids. Par exemple, const(1) = etc. Pour la variable dpendante, nous travaillons en deux temps : tout d'abord, nous construisons la variable z en utilisant la formule ci-dessus (quation 11.3), puis nous la divisons par le poids . Pour ( ) le 1er individu qui porte la valeur y(1) = 1, nous avons : z(1) = ln puis
z(1) (1) 0.879 10.879 10.879 + 0.879(10.879) = 3.12, 1 3.066
= 0.33, const(2) =
1 2.027
= 0.49, etc. ; age(1) =
50 3.066
= 16.31,
3.12 3.066
= 1.02.
Nous pouvons lancer la rgression via la fonction DROITEREG d'Excel. Attention, il faut demander une rgression sans constante. Nous visualisons les rsultats partir de la ligne 35 dans la feuille Excel. Eectivement, les coecients obtenus concordent avec ceux de la rgression logistique aM CG =
aM M V
En revanche les carts-type ne concident pas. Si l'on prend la variable
angine, nous avons
a3 (M CG) = 1.523
Il faut introduire la second correction (quation 11.7). Pour cela, nous calculons la quantit s (quation 11.6) (dernire colonne dans la feuille Excel)
1 16.407 = 1.013 20 3 1 Nous pouvons corriger les carts-type. Pour la variable angine, nous avons s= a3 (M M V ) =
L'quivalence est totale.
1.523 = 1.504 1.013

La rgression logistique est une rgression non linaire parce qu'elle utilise une fonction de transfert non linaire (la fonction logistique). En revanche, elle induit bien une frontire linaire entre les positifs et les ngatifs dans l'espace de reprsentation. Ce sont l deux points de vues dirents sur la mme technique. Voyons ce qu'il en est sur un exemple. Nous traitons le chier COEUR (Figure 0.1). Nous prenons comme seules variables explicatives age et taux max. Ainsi, nous pourrons projeter les observations dans le plan (Figure 11.5). Pas besoin d'tre grand clerc pour observer que nous avons la possibilit de tracer une droite pour sparer les positifs () des ngatifs (). Nous lanons une rgression logistique l'aide du logiciel Tanagra (Figure 11.6). Le LOGIT est une fonction linaire des variables explicatives
Page: 201
macro: svmono.cls
date/time: 21-Jun-2011/16:10
202
Fig. 11.5.
Nuage de points (Age vs. Taux Max) selon Coeur
Fig. 11.6.
Coecients de la rgression Coeur = f (age, taux max)
LOGIT = C(X) = 16.254 0.120 age 0.074 taux max

La rgle de dcision usuelle est
Si C(X) > 0 Alors Y = + Sinon Y =

Ainsi l'galit C(X) = 0 dnit la frontire sparant les positifs des ngatifs
0.120 age 0.074 taux max + 16.254 = 0

Passons l'quation sous un forme explicite, nous obtenons une expression exploitable de la frontire
taux max =
0.120 16.254 + age 0.074 0.074 = 218.52 1.61 age
Nous pouvons reporter cette droite dans le nuage de points. Nous visualisons la frontire utilise par le classieur pour distinguer les positifs des ngatifs (Figure 11.7).
203
Fig. 11.7.
Nuage de points (Age vs. Taux Max) - Frontire sparant les positifs et les ngatifs
Fig. 11.8.
Coeur = f (age, taux max) - Tableau de calcul
Pour analyser nement ces rsultats, nous donnons galement le tableau des donnes complt des LOGIT et prdits par le modle (Figure 11.8). Quelques remarques viennent par rapport la lecture croise du graphique et du tableau de donnes : Certains individus sont bien classs mais la lisire de la frontire. L'individu no 3 avec (age = 46, taux max = 144) est "positif". Si on s'intresse son LOGIT, nous avons C(46, 144) = 0.120
46 0.074 144 + 16.254 = 0.018 et =

qu'il est trs proche de la frontire.
1 1+e(0.018)
= 0.0505. On se rend compte eectivement
D'autres sont bien classs de manire sre c.--d. en tant trs loigns de la frontire. Considrons l'individu no 17, avec (age = 57, taux max = 168), qui est "ngatif". Son LOGIT est gal
Page: 203
macro: svmono.cls
date/time: 21-Jun-2011/16:10
204

C(57, 168) = 0.120 57 0.074 168 + 16.254 = 3.088 et =
de 0 # . D'autres enn sont mal classs. Il y en a 2 du mauvais ct de la frontire dans notre exemple : un ngatif noy au milieu des positifs (individu no 5) et inversement (no 11) (Figure 11.7). Ce que conrme la matrice de confusion fournie par Tanagra (Figure 11.9).
1 1+e(3.088)
= 0.044. Les rsultats
sont cohrents : il est trs loign de la frontire, et la probabilit d'aectation associe est proche
Fig. 11.9.
Matrice de confusion de la rgression Coeur = f (age, taux max)
5. Si c'tait un positif bien class, sa probabilit serait proche de 1

Partie III
La rgression logistique multinomiale
Page: 205
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 206
macro: svmono.cls
date/time: 21-Jun-2011/16:10
12 Variable dpendante nominale - Principe et estimations
logistique polytomique. Dans ce partie, nous considrons qu'elle est nominale c.--d. il n'y a pas de relation
d'ordre entre les modalits, ou tout du moins nous souhaitons ne pas en tenir compte si elle existe. On parle de
Lorsque la variable dpendante prend K (K > 2) modalits, nous sommes dans le cadre de la rgression
rgression logistique multinomiale. On peut la voir comme une forme de gnralisation de la
rgression logistique binaire. Nous devons rpondre plusieurs questions pour laborer une stratgie d'apprentissage viable : Quelle forme de logit modliser l'aide d'une combinaison linaire de variables, puisque nous devons rester dans le canevas de la rgression linaire gnralise ? Question corollaire : combien d'quations logit devons crire ? Une fois le problme correctement pos, comment estimer les paramtres, tant entendu que nous passerons par la maximisation de la vraisemblance ? Question corollaire : comment s'crit la (log)-vraisemblance ? Enn, dernire question, comment valuer la pertinence de la rgression ? Nous traitons uniquement de validation en rapport direct avec les caractristiques de la rgression pour l'instant. Pour l'heure, intressons la distribution de la variable dpendante Y .
12.1 La distribution multinomiale

L'objectif est de modliser la probabilit d'appartenance d'un individu une modalit yk . Nous crivons (12.1)
k () = P (Y () = yk /X()]
Avec la contrainte .
k () = 1
On s'appuie sur la loi multinomiale pour crire la vraisemblance
Page: 207
macro: svmono.cls
date/time: 21-Jun-2011/16:10
208

L=
O
[1 ()]y1 () [K ()]yK ()
(12.2)
{ yk () =
1 si Y () = yk 0 sinon
Il s'agit bien d'une gnralisation. En eet, nous retombons sur la loi binomiale si Y est binaire. Quelle stratgie de modlisation utiliser pour parvenir nos ns c.--d. obtenir des estimations de
k () l'aide de la rgression logistique ?
12.2 crire les logit par rapport une modalit de rfrence

L'ide de la rgression logistique multinomiale est de modliser (K 1) rapports de probabilits (odds). Nous prenons une modalit comme rfrence (en anglais, par rapport cette rfrence (baseline
category logits ) ([1], pages 307 317 ; [9], pages 260 287).
baseline outcome ), et nous exprimons les logit
La catgorie de rfrence s'impose souvent naturellement au regard des donnes analyses : les nonmalades vs. les dirents type de maladies ; le produit phare du march vs. les produits outsiders ; etc. Si ce n'est pas le cas, si toutes les modalits sont sur un pied d'galit, nous pouvons choisir n'importe laquelle. Cela n'a aucune incidence sur les calculs, seule l'interprtation des coecients est dirente. Par convention, nous dcidons que la dernire catgorie YK sera la modalit de rfrence dans cette partie. Le logit pour la modalit yk s'crit
Ck = ln
k = a0,k + a1,k X1 + + a1,J XJ K
(12.3)
Nous en dduisons les (K-1) probabilits a posteriori
k =
1+
eCk K1
k=1
eCk
(12.4)
La dernire probabilit K peut tre obtenue directement ou par direnciation
K =
1+
K1
k=1
eCk
=1
K1 k=1
(12.5)
Pour un individus , les probabilits doivent vrier la relation

K k=1
k () = 1
La rgle d'aectation est conforme au schma bayesien
Y () = yk yk = arg max k ()
k
(12.6)
Page: 208
macro: svmono.cls
date/time: 21-Jun-2011/16:10
12.3 Estimation des paramtres
209

12.3.1 Vecteur gradient et matrice hessienne
Pour estimer les (K 1) (J + 1) coecients, nous devons optimiser la log-vraisemblance
LL =
y1 () ln 1 () + + yK () ln K ()
(12.7)
via l'algorithme de Newton-Raphson. Pour ce faire, nous avons besoin des expressions du vecteur gradient et de la matrice hessienne. Le
vecteur gradient G est de dimension (K 1) (J + 1) 1

G1 . G= . . GK1
(12.8)
o Gk , relatif la modalit yk , est un vecteur de dimension (J + 1) 1 dont la composante no j s'crit
gk,j =
Concernant la
xj () [yk () k ()]
(12.9)
matrice hessienne, elle est de dimension (K 1) (J + 1) (K 1) (J + 1)

H11 . . . H1,K1 . . . H= . . . HK1,1 . . . HK1,K1
(12.10)
Hi,j est de dimension (J + 1) (J + 1), dnie par
Hi,j =
i () [i,j () j ()] X() X ()
(12.11)
X() = (1, X1 (), . . . , XJ ()) est le vecteur de description de l'observation , incluant la constante.
et
{ i,j () =
1 si i = j 0 si i = j
La matrice H est symtrique par blocs c.--d. Hi,j = Hj,i
1. A vrai dire, ces formules sont surtout mises en avant pour ceux qui souhaiteraient programmer la mthode. J'ai eu un mal fou les retrouver pour les implmenter dans Tanagra, autant les dtailler une fois pour toutes dans un document. Il ne sera pas question de les reproduire la main dans Excel. Non, non, restons raisonnables.
210
12.3.2 Un exemple : prdiction de formule de crdit

Une enseigne de grande surface met disposition de ses clients 3 formules de crdit revolver (A, B et C). Le conseiller doit faire attention lorsqu'il est face au client. S'il met en avant une formule inadapte, il risque de le dcourager et de le voir partir. L'objectif de l'tude est de cibler, partir de donnes que l'on peut facilement recueillir [l'ge (quantitatif), le sexe (binaire, 1 = homme) et le revenu par tte du mnage (quantitatif)], la formule que l'on doit proposer en priorit. Nous disposons de n = 30 observations, les distributions sont quilibres : nA = nB = nC = 10. Pour bien dtailler les tapes, l'instar de ce que nous avions fait pour la rgression binaire (section 1.4), nous montons une feuille Excel qui permet de produire la log-vraisemblance partir des donnes et des paramtres, puis nous utilisons le solveur.
Fig. 12.1.
Rgression multinomiale - Formule de crdit - Initialisation de la feuille Excel
Dans un premier temps, nous mettons arbitrairement les coecients des variables 0, et les constantes 1. La modalit C est la catgorie de rfrence. Dcrivons la feuille de calcul (Figure 12.1) : Dans la partie haute, nous distinguons les coecients.
2. Au nal, le client est toujours mort, c'est a l'ide.


Nous disposons du tableau de descripteurs (vert) et de la variable dpendante (bleu).
211
Nous formons les logit. Pour le premier logit C1 opposant A C , pour la premire observation
=1 C1 (1) = 1.0 + 0.0 29 + 0.0 0 + 0.0 7.09 = 1.00

Nous faisons de mme pour le second logit, nous obtenons C2 (1) = 1.00. Nous en dduisons la probabilit a posteriori
1 (1) =
e1 1 + (e1.00 + e1.00 )
= 0.42
Pour les autres probabilits, nous avons 2 (1) = 0.42 et 3 (1) = 1 (0.42 + 0.42) = 0.16 Dans les 3 colonnes qui suivent, nous avons les indicatrices de modalits de la variable dpendante
Y.
Ainsi, nous pouvons former la fraction de la log-vraisemblance associe au premier individus = 1
LL(1) = 1 ln(0.42) + 0 ln(0.42) + 0 ln(0.16) = 0.86

Et la log-vraisemblance
LL = 0.86 + + (1.86) = 35.860

La dviance ce stade est gale
D = 2 LL = 71.720
Nous lanons le solveur d'Excel ! . Nous souhaitons maximiser la vraisemblance (ou minimiser la dviance, c'est quivalent). Les cellules variables correspondent aux coecients de la rgression. La feuille prend une autre tournure (Figure 12.2) : La log-vraisemblance optimise est maintenant gale
LL = 9.191
La dviance
D = 2 (9.191) = 18.382
Nous avons les deux quations logit
C1 = 21.165 0.471 age + 0.170 sexe 0.935 rev.tete C2 = 26.328 + 0.286 age 4.966 sexe + 1.566 rev.tete
3. tonnamment, il faut le lancer 2 fois avant de parvenir une solution stable dnitive.
212
Fig. 12.2.
Formule de crdit - Aprs optimisation de la log-vraisemblance via le solveur
Une premire lecture rapide des coecients estimes - nous reviendrons plus loin sur les interprtations - nous donne les indications suivantes (tout ceci sous rserve de la signicativit des coecients) : Plus le client est g, moins il est enclin prendre le crdit A (par rapport au C). Ou autrement, les personnes qui prennent le crdit A sont moins gs que ceux qui prennent le C. Les hommes ont plus tendance prendre A (par rapport C). Enn, un revenu par tte plus lev dans le mnage n'incite pas prendre A (par rapport C). Bref, la principale ide retenir est que toute la lecture doit se faire par rapport la modalit de rfrence C. Pour la seconde opposition B vs. C, nous constatons contrario que une augmentation de l'ge incite prendre B (par rapport C) ; il semble que les femmes ont plus de chances de prendre la formule B (par rapport C) ; plus son revenu est lev, plus le client se dirigera volontiers vers B (par rapport C). Concernant le logit et la probabilit a posteriori, voici le dtail des calculs pour le premier individu
=1
Pour le premier logit
C1 (1) = 21.165 0.471 29 + 0.170 1 0.935 7.09 = 0.87


La probabilit d'aectation la premire modalit
213
1 (1) =
Pour les 3 modalits, nous avons
e0.87 = 0.70 1 + e0.87 + e6.93
(1) = (0.70; 0.00; 0.30)

La fraction de la log-vraisemblance associe " s'crit
LL(1) = 1 ln 0.70 + 0 ln 0.00 + 0 0.30 = 0.35
12.3.3 Estimation des coecients avec Tanagra et R (packages nnet et VGAM) Tanagra. Il s'utilise comme n'importe quel composant d'apprentissage supervis. Il faut bien entendu que
les explicatives soient numriques, quantitatives ou qualitatives codes 0/1. Pour notre exemple "Formules de Crdit", nous retrouvons les coecients estims l'aide du tableur. Tanagra prend automatiquement la dernire modalit "C" comme rfrence. C'est exactement ce qu'il fallait dans notre conguration (Figure 12.3). La rgression multinomiale est disponible via le composant Multinomial
Logistic Regression dans
Fig. 12.3.
Formule de crdit - Estimation des coecients avec Tanagra
Deux outils (entres autres, il est impossible de tous les connatre) sont disponibles pour estimer les paramtres de la rgression logistique multinomiale dans R. La premire est la fonction package
nnet
multinom du
qu'elle
(Figure 12.4). Il faut abaisser fortement les seuils de tolrance pour obtenir un rsultat
prcis, conformes ceux produits par les autres logiciels. L'immense avantage de "multinom" est de signicativit (chapitre 14). La seconde fonction est
sait nous fournir la matrice hessienne. Nous en aurons l'usage lorsqu'il s'agira de mettre en place les tests
vglm
du package
VGAM
(Figure 12.5). Elle ne fait gure plus que la
prcdente concernant la rgression multinomiale. Son intrt rside surtout dans l'intgration de la rgression polytomique (nominale ou ordinale) dans un environnement unique. Nous l'utiliserons plus intensivement lorsqu'il s'agira de traiter la rgression variable dpendante ordinale (partie IV).
4. (ln 0.00) devrait produire une erreur. La valeur est en ralit trs petite mais non nulle. L'achage est arrondi 2 chires aprs la virgule.
214
Fig. 12.4.
Formule de crdit - Estimation des coecients avec R (multinom de nnet)
Fig. 12.5.
Formule de crdit - Estimation des coecients avec R (vglm de VGAM)
12.3.4 Modier la modalit de rfrence

Le choix de la modalit de rfrence pse essentiellement sur la lecture des coecients. Dans notre exemple "Formule de Crdit", nous aimerions savoir quel pourrait tre le rapport entre les modalits A et B, en l'tat ce n'est pas possible parce que C est la rfrence. Est-ce que nous sommes condamns relancer la rgression en modiant explicitement la rfrence ? Non. En toute gnralit, si yK est la modalit de rfrence, nous montrons dans cette section qu'il est possible d'opposer deux modalits quelconques yi et yj sans avoir relancer les calculs. En eet
logiti,j = ln
i j i /K = ln j /K i j = ln ln K K = Ci Cj
Par simple direnciation, nous obtenons le logit (logarithme de l'odds) entre 2 modalits quelconques de la variable dpendante. Le choix initial de la modalit de rfrence n'est pas restrictif.
12.4 Signicativit globale de la rgression
215
Formule de crdit
Essayons de caractriser la modalit A par rapport B dans notre exemple des formules de crdit. Par direnciation des logit, nous obtenons
logitA,B = C1 C2 = (21.165 + 26.328) + (0.471 0.286) age + (0.170 + 4.966) sexe + (0.935 1.566) rev.tete = 47.493 0.758 age + 5.136 sexe 2.501 rev.tete
Tous les eets sont exacerbs dans (A vs. B) par rapport (A vs. C). Les coecients conservent leur signes, mais sont plus levs en valeur absolue : plus l'ge augmente, moins les clients choisissent A (par rapport B) ; les hommes sont plus enclins prendre la formule A (par rapport B) ; et les revenus levs les dissuadent de prendre A (par rapport B).

Pour valuer la qualit globale de la rgression, nous le savons maintenant, nous devons mesurer les performances du modle trivial rduit uniquement aux constantes. Il y en a K 1 dans notre conguration. A l'instar de la rgression binaire, nous pouvons (1) produire directement l'estimation des constantes sans passer par une optimisation de la vraisemblance, (2) en dduire la valeur de la log-vraisemblance, (3) que l'on comparera avec celle du modle valuer. Nous pourrons dgager 2 indicateurs : le test du rapport de vraisemblance ; le pseudo-R2 de Mc Fadden.
12.4.1 Modle trivial : estimations et log-vraisemblance

Les eectifs des modalits de la variable dpendante susent pour produire les estimations des constantes dans le modle trivial, en l'occurrence
a0,k = ln
nk nK
nk n
(12.12) est l'estimateur de
Puisque dans le modle trivial, la prvalence constate dans l'chantillon pk = la probabilit a posteriori k , nous pouvons crire facilement la log-vraisemblance
LL0 = = =

k k k
yk () ln(k ) yk () ln(k ) p nk n
nk ln
Page: 215
macro: svmono.cls
date/time: 21-Jun-2011/16:10
216
Application aux donnes "Formule de crdit"

Dans notre exemple "Formule de crdit", les classes sont quilibres, la log-vraisemblance du modle trivial est trs facile produire
LL0 = 10 ln
10 10 10 + 10 ln + 10 ln 30 30 30 10 = 30 ln 30 = 32.958
La dviance du modle trivial est gale
D0 = 2 LL0 = 2 (32.958) = 65.917
12.4.2 Pseudo-R2 de McFadden

Notons LLM la vraisemblance du modle tudi, le pseudo-R2 de McFadden est dni de la mme manire que pour la rgression binaire, savoir
2 RM F = 1
LLM LL0
Le pseudo-R2 de McFadden varie entre 0 (modle pas meilleur que le trivial) et 1 (modle parfait). Concernant les donnes "Formule de crdit", nous obtenons
2 RM F = 1
LLM (9.191) =1 = 0.721 LL0 (32.958)
Le modle semble bon. Nous verrons dans la section suivante s'il est globalement signicatif.
12.4.3 Test du rapport de vraisemblance

Le test de rapport de vraisemblance consiste comparer 2 dviances. Pour l'valuation globale il s'agit de confronter celles du modle tudi et du modle trivial. La statistique du test s'crit
LR = D0 DM
Elle suit une loi du 2 , reste dterminer les degrs de libert. Les degrs de libert des modles opposer s'crivent
(12.13)
Page: 216
macro: svmono.cls
date/time: 21-Jun-2011/16:10

ddlM = n [(K 1) (J + 1)] ddl0 = n (K 1)
217
Nous obtenons ceux du rapport de vraisemblance par direnciation, ils correspondent l'cart entre le nombre de paramtres estims dans les deux modles
ddl = ddl0 ddlM = (K 1) J
(12.14)
La rgion critique du test au risque correspond aux grandes valeurs de la statistique de test c.--d.
LR > 2 (ddl) 1
Nous pouvons aussi dcider via la p-value. Si elle est plus petite que , le modle est globalement signicatif.
Application aux donnes "Formule de crdit"

La dviance du classieur tudi est DM = 18.382, celui du modle trivial D0 = 65.917. Nous formons
LR = 65.917 18.382 = 47.535

Avec la loi du 2 ddl = (3 1) 3 = 6 degrs de libert, nous obtenons une p-value infrieure
0.0001. Le modle est globalement trs signicatif.
12.4.4 Les rsultats fournis par les logiciels Tanagra

2 fournit ces valeurs (DM , D0 , RM F , test du rapport de vraisemblance) dans le tableau
d'valuation globale de la rgression (Figure 12.6). Le calcul n'est pas directement ralis avec multinom de R. Le plus simple est d'estimer explicitement le modle trivial pour obtenir la dviance D0 = 65.91674 (Figure 12.7). Nous pouvons reproduire les calculs ci-dessus pour obtenir les indicateurs adquats.
Page: 217
macro: svmono.cls
date/time: 21-Jun-2011/16:10
218
Fig. 12.6.
Formule de crdit - Evaluation globale de la rgression - Tanagra
Fig. 12.7.
Formule de crdit - Modle trivial - R
Page: 218
macro: svmono.cls
date/time: 21-Jun-2011/16:10
13 valuation des classieurs pour Y (K

> 2)
modalits nominales
De nouveau, nous travaillons principalement avec les prdictions y et les probabilits prdites four nies par la rgression dans ce chapitre. Les outils prsents dpassent donc le simple cadre de la rgression logistique. Ils sont applicables pour tous types de classieurs, pourvu qu'ils sachent fournir ces quantits. La majorit des indicateurs de performances sont extraits de la matrice de confusion qui est une gnralisation K (K > 2) modalits de celle prsente dans le cadre binaire. Il y a quand mme une petite particularit. Dans le classement binaire, une des catgories revtait une importance accrue par rapport l'autre (positif vs. ngatif). Certains ratios en tenaient compte (sensibilit, prcision, etc.). Dans le cadre multi-classes , les modalits de Y sont mises sur un mme pied d'galit. Cela ne pose aucun problme pour certains (taux d'erreur). D'autres en revanche, ceux qui s'appuient sur le schma "une catgorie contre les autres", doivent procder (une sorte de) moyenne sur l'ensemble des catgories pour parvenir un indicateur caractrisant le comportement global du modle (micro-averaging, macroaveraging pour la combinaison rappel et prcision). Bien entendu, les informations obtenues seront d'autant plus ables que nous travaillons sur un chier test n'ayant pas particip l'estimation des paramtres du modle.
13.1 Classement d'un individu

Pour classer un nouvel individu , nous calculons les probabilits a posteriori prdites k () pour chaque modalit de la variable dpendante. En accord avec la rgle bayesienne,
Y () = yk yk = arg max k ()
k
Reprenons le premier individu du tableau de donnes "Formules de crdit" (Figure 12.2). Il est dcrit par (age = 29 ; sexe = 0 ; rev.tete = 7.09). Nous avions calcul les deux logit C1 = 0.87 et C2 = 6.93. Nous en avions dduit 1 = 0.70, 2 = 0.00 et 3 = 0.30. La prdiction du modle est donc Y (1) = y1 = A puisque c'est la modalit qui maximise la probabilit d'appartenance au groupe.
Page: 219
macro: svmono.cls
date/time: 21-Jun-2011/16:10
220
13 valuation des classieurs pour Y (K > 2) modalits nominales Obs. x Pred y1 . . . yl . . . yK

y1 ... yk ... yK nk1 . . . nkl . . . nkK n11 . . . n1l . . . n1K
Total
n1. = n1 ... nk. = nk ...
nK1 . . . nKl . . . nKK nK. = nK n.1 . . . n.l . . . n.K n
Total
Tableau 13.1.
Matrice de confusion pour un apprentissage multi-classes (K > 2)
13.2 Matrice de confusion et taux d'erreur

La matrice de confusion confronte les valeurs observes de Y sur l'chantillon et les valeurs prdites par le modle. Nous avons un tableau de contingence (Tableau 13.1). Les eectifs de la case (k, l) est gal au nombre d'individus appartenant la catgorie yk qui ont t aects yl
nkl = #{, Y () = yk et Y () = yl }
Le taux d'erreur est l'estimation de la probabilit de mal classer, il correspond au rapport entre le nombre total d'observations mal classes et l'eectif total dans la chier
=
k l=k
nkl
=1
nkk n
(13.1)
Si le modle classe parfaitement les observations, nous avons = 0. L'autre rfrence est le taux d'erreur du classieur par dfaut. Celui qui n'utilise pas les informations en provenance des explicatives. Nous avions vu plus haut comment le dnir et comment en dduire un indicateur d'intrt du modle (section 2.1.4). Le taux de succs est toujours le complment 1 du taux d'erreur, il indique la probabilit de bien classer
=1=
nkk n
Matrice de confusion pour les donnes "Formules de crdit"

Nous avons rajout la colonne prdiction dans notre feuille Excel (Figure 13.1). Nous avons pu former la matrice de confusion. Nous avons mis en vert (pour ceux qui ont un moniteur couleur) les prdictions correctes, sur la diagonale principale de la matrice ; en rose saumon les mauvaises prdictions, hors diagonale. Nous obtenons le taux d'erreur et le taux de succs
1. Terme couramment utilis en apprentissage automatique pour indiquer que Y prend plus de 2 modalits.
13.3 Indicateurs synthtiques pour le rappel et la prcision
221
Fig. 13.1.
Formule de crdit - Construction de la matrice de confusion

0+0+1+0+1+2+1 5 = = 0.167 30 30 9+9+7 5 = =1 = 0.833 30 30 =
(13.2) (13.3)
Pour un nouveau gogo (un client dans la terminologie des crdits revolvers) qui se prsente au guichet des emprunts, il y a 83.3% de chances qu'on l'aiguille vers la formule approprie si nous utilisons le modle issu de la rgression logistique.
13.3 Indicateurs synthtiques pour le rappel et la prcision

13.3.1 Rappel et prcision par catgorie
Le rappel r et la prcision p sont des indicateurs trs populaires car leurs interprtations sont simples apprhender. Le premier indique la capacit du modle retrouver les positifs, le second, la capacit les prdire (dsigner) avec justesse. Nous pouvons les associer aux catgories dans le cadre multi-classes, pour le rappel de yk
rk =
et la prcision (accuracy en anglais)
Page: 221 job: regression_logistique
nkk nk.
(13.4)
macro: svmono.cls
date/time: 21-Jun-2011/16:10
222

ak = nkk n.k
(13.5)
Pour notre exemple "Formule de crdit", nous aurions ainsi pour chaque modalit de la variable prdire (Figure 13.1) Catgorie Rappel A B C Prcision
rA = rB = rC =
9 10 9 10 7 10
= 0.9 aA = = 0.9 aB = = 0.7 aC =
9 11 = 0.8182 9 10 = 0.9 7 9 = 0.7778
Les informations sont prcieuses. Nous pouvons caractriser la prdiction pour chaque classe. Nous notons dans notre chier que la modalit C est moins bien dtecte que les autres, et lorsque nous la prdisons, la prcision est moindre. Cela est intressant, mais manipuler simultanment plusieurs indicateurs est toujours dlicat. Il nous faut un indicateur synthtique pour quantier les performances globales du modle. Dans le cadre de la recherche d'information, plus prcisment la catgorisation automatique de textes, des propositions ont t faites .
13.3.2 Microaveraging et macroaveraging

La microaveraging (micro-moyenne) est une moyenne pondre o les catgories psent selon leur eectif dans le tableau de contingence. On accorde le mme poids aux observations. Il est produit directement via la matrice de confusion (Tableau 13.1). La
macroaveraging (macro-moyenne) est une moyenne non-pondre o l'on accorde le mme poids
aux catgories. Nous pouvons le produire directement via les rappels et prcisions obtenues pour les catgories. Lorsque les prvalences des modalits de la variable dpendante sont trs direntes, ces deux ratios peuvent diverger assez fortement. A nous de choisir le bon selon les objectifs de l'tude. La micro-moyenne met l'accent sur les modalits frquentes, la macro-moyenne accorde plus d'importance celles qui sont peu frquentes.
Microaveraging Macroaveraging Rappel r = Prcision a =

Tableau 13.2.
K n k=1 kk K n k=1 k. K n k=1 kk K n k=1 .k
r = a =
k=1
rk ak
K K
k=1
Microaveraging et macroaveraging
Les dnitions numriques sont rsumes dans le tableau 13.2. Nous noterons que les micro-moyennes pour le rappel et la prcision produiront la mme valeur : le taux de succs. Leur intrt est trs limit. Appliques sur le chier "Formules de crdit", nous obtenons
2. F. Sebastiani, Text Categorization, in A. Zanasi (ed.), Text Mining ans its Applications, WIT Press, 2004.
13.4 Taux d'erreur et chantillon non reprsentatif

Microaveraging Rappel r = Prcision
9+9+7 10+10+10 9+9+7 a = 11+10+9
223
Macroaveraging
= 0.8333
r =
= 0.8333 a =
0.9+0.9+0.7 = 3 0.8182+0.9+0.7778 3
0.8333 = 0.8320
La situation est un peu particulire. En eet, les prvalences des catgories sont strictement identiques dans notre chier (nk =
n K,
k ). C'est pour cela que r = r .
13.4 Taux d'erreur et chantillon non reprsentatif

Lorsque l'chantillon de test n'est pas reprsentatif, le taux d'erreur n'est pas transposable la population. Il ne correspond pas la probabilit de mauvais classement du modle. Comme dans le cadre binaire (section 10.1.4), il nous faut le corriger en utilisant les "vraies" prvalences pk des catgories dans la population. La formulation est simple, il faut gnraliser l'expression mis en avant dans la section 2.1.2,
K k=1
pk (1 rk )
(13.6)
Exemple : Formules de crdit.
Mettons que notre chantillon a t volontairement quilibr
par l'analyste. Nous savons par ailleurs que les "vraies" proportions des formules demandes dans la population est (pA = 0.15; pB = 0.25; pC = 0.6). Pour obtenir le vritable taux d'erreur du classieur, nous formons partir des valeurs fournies par la matrice de confusion (Figure 13.1)
= 0.15 (1
9 9 7 ) + 0.25 (1 ) + 0.60 (1 ) 10 10 10 1 1 3 = 0.15 + 0.25 + 0.6 10 10 10 = 0.22
Par rapport au taux d'erreur mesur sans prcautions particulires sur un chier volontairement quilibr (0.167), nous constatons que la "vraie" probabilit de se tromper avec le modle serait plutt de 0.22. La valeur est plus leve parce que la pondration (pC = 0.6) met l'accent sur la catgorie la moins bien reconnue (rC = 0.7) dans notre exemple.
Remarque : Lorsque l'chantillon est reprsentatif, nous pouvons estimer pk

ce qu'il advient de l'expression ci-dessus (quation 13.6)
par pk =
nk. n ,
voyons
Page: 223
macro: svmono.cls
date/time: 21-Jun-2011/16:10
224

= =
k
pk (1 rk ) (1
nkk ) n nk. k ( nk. nkk ) = n n k nk. nkk = n n k k nkk = 1 n

k
nk.
Nous avons la forme usuelle du taux d'erreur (quation 13.1).
13.5 Intgrer les cots de mauvais classement

L'intgration des cots de mauvais classement a beaucoup t tudie dans le cadre binaire, notamment lors de l'valuation (section 10.2.2). Pour une variable dpendante K modalits, le cot moyen de mauvais classement s'crit
(M ) =
1 nkl c(k, l) n
K K k=1 l=1
(13.7)
o c(k, l) est le cot associ la prdiction yl alors que la vraie classe d'appartenance de l'individu est yk (section 10.2.1). comme suit dans notre problme d'aectation automatique de formules de crdit !
Exemple : Formules de crdit.
Mettons que la matrice de cots de mauvais classement s'crit
yA yB yC yA 5 3 10 yB 4 6 10 yC 0 8 1
En faisant la somme des produits croiss entre la matrice de confusion (Figure 13.1) et cette matrice de cots, nous obtenons
(M ) =
1 [9 (5) + 0 3 + + 1 8 + 7 (1)] = 2.6 30
Remarque : Dans le cadre multi-classes galement, si nous utilisons une matrice de cots symtrique
et unitaire (c(k, l) = 1, k = l ; c(k, k) = 0), nous retrouvons le taux d'erreur.
3. Les chires ont t mis un peu au hasard, il s'agit d'un simple exemple illustratif. Pour une dnition un peu plus circonstancie des cots dans un problme rel, voir J.H. Chauchat, R. Rakotomalala, M. Carloz, C. Pelletier, Targeting Customer Groups using Gain and Cost Matrix : a Marketing Application, http://www. informatik.uni-freiburg.de/~ml/ecmlpkdd/WS-Proceedings/w10/chauchat_workshop.pdf ; voir aussi un de nos tutoriel relatif au concours Data Mining Cup - 2007, http://tutoriels-data-mining.blogspot.com/2009/
01/cots-de-mauvais-classement-en.html
14 Tester les coecients de la rgression multinomiale
Les tests sur les coecients consistent avant tout prouver leur signicativit. Par rapport la rgression binaire, l'analyse est plus complique car nous pouvons multiplier les possibilits : tester la nullit de q coecients dans un logit, dans un ensemble de logit ou dans les K1 logit. Les consquences ne sont pas les mmes. Si une variable n'est pas signicative dans l'ensemble des logit, nous pouvons l'exclure de l'tude. Si elle est signicative dans un logit au moins, son rle est avr dans la caractrisation d'une des modalits de la variable dpendante. La variable ne peut pas tre exclue. Autre aspect intressant, nous pouvons tre amens tester l'galit des coecients pour plusieurs (ou l'ensemble des) quations logit. Cela ne prjuge en rien de leur signicativit. Si l'hypothse est vrie, on dira simplement que la variable joue un rle identique dans la caractrisation des direntes modalits de la variable dpendante. Comme pour la rgression binaire, nous disposons de deux outils pour raliser les tests. La statistique du rapport de vraisemblance correspond toujours la comparaison des dviances des rgressions sous H0 et H1 . Elle suit une loi du 2 sous l'hypothse nulle. Les degrs de libert sont obtenus par direnciation du nombre de paramtres estims. Pour rappel, dans notre exemple "Formules de crdit", la dviance du modle complet, celui o tous les coecients sont estims, est DM = 18.382 avec un degr de libert de
ddl = 30 2 8 = 22.
La statistique de Wald exploite la normalit asymptotique des estimateurs du maximum de vraisemblance. Nous devons au pralable calculer la matrice de variance de covariance des coecients qui est un peu plus complexe puisque nous en manipulons simultanment (K 1) (J + 1). La statistique suit une loi du 2 , le nombre de degrs de libert est gal au nombre de contraintes que l'on pose sur les coecients sous l'hypothse nulle. Cela apparat clairement lorsque nous nous pencherons sur l'criture gnralise. Enn, les commentaires mis sur ces tests prcdemment (section 3.4) restent valables : le test du rapport de vraisemblance est plus puissant, il dtecte mieux l'hypothse alternative lorsqu'elle est vraie, il est prfrable sur les petits eectifs ; le test de Wald est trs conservateur ; les deux se rejoignent lorsque le nombre d'observations devient lev.
Page: 225
macro: svmono.cls
date/time: 21-Jun-2011/16:10
226
14.1 Estimation de la matrice de variance covariance

La matrice de variance covariance est une pice essentielle de la statistique infrentielle. Concernant la rgression logistique, elle nous permettra de mettre en place les tests de Wald. Nous pourrions en tirer parti galement pour la production des intervalles de conance des coecients et des prdictions.
La matrice de variance covariance correspond l'inverse de la matrice hessienne. Elle est aussi
symtrique par blocs. Il faut bien faire attention pour discerner les informations importantes qu'elles comportent : nous avons la variance des coecients pour chaque quation logit, les covariances entre coecients de la mme quation logit, et les covariances des coecients relatives des quations logit direntes. On peut s'y perdre rapidement.
Fig. 14.1.
Formule de crdit - Obtention de la matrice hessienne avec multinom de R
Pour le chier "Formules de crdit", la matrice hessienne est accessible via un des champs de l'objet fourni par la fonction
multinom du package nnet de R (Figure 14.1). Elle est de taille [(K 1) (J +
1) (K 1) (J + 1)], soit 8 8. Nous calculons son inverse (Figure 14.2). Essayons d'y discerner les
informations importantes :
Page: 226
macro: svmono.cls
date/time: 21-Jun-2011/16:10
14.1 Estimation de la matrice de variance covariance
227
Fig. 14.2.
Formule de crdit - Calcul de la matrice de variance covariance, inverse de la matrice Hessienne
Fig. 14.3.
Formule de crdit - Coecients et carts-type des coecients avec R
Les variances des coecients, pour chaque quation logit sont lues sur la diagonale principale de la matrice. En prenant la racine carre, nous obtenons les carts-type fournis par les logiciels : ceux de
multinom (Figure 14.3) ; ou ceux de Tanagra (Figure 12.3) .
1. Les estimations sont trs lgrement direntes, c'est normal puisque les techniques d'optimisation utilises ne sont pas les mmes.
228

Dans les blocs situs sur la diagonale principale (Hk,k ), nous avons les covariances des coecients intra-logit. Ex. cov(1,age ; a1,sexe ) = 0.005 a Dans les blocs hors diagonale (Hk,l , k = l), nous avons les covariances des coecients inter-logit. Ex. cov(1,age ; a2,rev.tete ) = 0.001, qui est dirent de cov(1,rev.tete ; a2,age ) = 0.003 a a Nous sommes maintenant pars pour raliser tous les tests que l'on veut. Nous xons le risque de
premire espce 10% pour tous les exemples traits.
14.2 Signicativit d'un coecient dans un logit

L'hypothse nulle de ce test s'crit
H0 : aj,k = 0
Un coecient dans un des logit est-il signicatif ? Si la rponse est non, il ne l'est pas, nous pouvons supprimer la variable associe dans le logit concern. Nous ne pouvons rien conclure en revanche concernant les autres logit. Nous ne pouvons donc pas exclure la variable de l'tude.

Pour ce test, il s'agit d'optimiser la vraisemblance en forant aj,k = 0. Nous obtenons le modle contraint (modle sous H0 ), d'en extraire la dviance DH0 , que l'on comparera celle du modle complet
DM . La statistique de test LR = DH0 DM

suit une loi du 2 1 degr de libert. Dans notre exemple associ la variable
rev.tete dans la premire quation logit (A vs. C). Nous lanons le solveur dans
"Formule de crdit",
nous souhaitons tester la signicativit du coecient
Excel, aprs avoir x sa valeur 0 et en l'excluant des cellules variables pour l'optimisation. Nous obtenons un nouveau jeu de coecients et DH0 = 24.839, avec un degr de libert ddl = 30 7 = 23 (Figure 14.4). Nous en dduisons la statistique de test
LR = 24.839 18.382 = 6.457

Avec un 2 1 degr de libert, la probabilit critique est p-value = 0.0110. Nous concluons que la variable est signicative au risque 10%.
Page: 228
macro: svmono.cls
date/time: 21-Jun-2011/16:10
14.3 Signicativit d'un coecient dans tous les logit
229
Fig. 14.4.
Test du rapport de vraisemblance - Tester la signicativit de rev.tete dans le 1er logit
14.2.2 Test de Wald

La statistique de Wald est form par le rapport entre le carr du coecient et sa variance,
Wk,j =
Elle suit une loi du 2 1 degr de libert.
a2 k,j ak,j
Toujours concernant rev.tete dans le premier logit, nous formons partir des rsultats glans tout au long de ce chapitre (coecient, gure 14.3 ; variance, gure14.2)
W1,rev.tete =
(0.935)2 = 2.655 0.329
Avec un 2 1 degr de libert, nous avons une p-value = 0.103. Nous sommes la lisire de la rgion critique. Il n'en reste pas moins qu'au risque 10%, nous ne pouvons pas rejeter l'hypothse nulle. Encore une fois, le test de Wald s'avre conservateur en comparaison du test du rapport de vraisemblance o l'hypothse nulle tait clairement rejete.
14.3 Signicativit d'un coecient dans tous les logit

L'hypothse nulle du test s'crit
H0 : ak,j = 0, k
Il va plus loin que le prcdent. Il cherche savoir si les coecients d'une variable explicative sont simultanment nuls dans l'ensemble des logit. Si les donnes sont compatibles avec H0 , nous pouvons la retirer du modle.
Page: 229
macro: svmono.cls
date/time: 21-Jun-2011/16:10
230
Fig. 14.5.
Test du rapport de vraisemblance - Tester la signicativit de rev.tete dans l'ensemble des logit

Le principe est toujours le mme, nous calculons la dviance du modle contraint et nous la comparons celle du modle complet. La statistique suit une loi du 2 (K 1) degrs de libert. Nous souhaitons savoir si les coecients de rev.tete sont simultanment nuls dans toutes les quations logit. Nous xons les cellules appropris 0 dans la feuille Excel, nous lanons le solveur en les excluant des cellules variables. La dviance du nouveau modle est DH0 = 30.874 avec des degrs de libert ddl = 24 (Figure 14.5). La statistique est gale
LR = 30.874 18.382 = 12.492

Avec un 2 (2), nous avons une p-value = 0.0019. Nous rejetons l'hypothse nulle, les coecients ne sont pas simultanment nuls dans l'ensemble des logit.
14.3.2 Test de Wald

La statistique de test suit une loi du 2 (K 1) degrs de libert sous H0 , elle s'crit
Wj = a j aj j 1 aj est le vecteur des coecients valuer, de dimension (K 1) 1 ; j est leur matrice de variance covariance. Tout l'enjeu est de savoir lire correctement la matrice de variance covariance globale pour y "piocher" les valeurs de j .
Pour notre exemple rev.tete,
( arev.tete =
) 0.935 1.566
et, en piochant dans la matrice de variance covariance (Figure 14.2),
Page: 230
macro: svmono.cls
date/time: 21-Jun-2011/16:10
14.4 Test d'galit d'un coecient dans tous les logit

( rev.tete =
Nous formons
) 0.329 0.002
231
0.002 1.114
1 Wrev.tete = a rev.tete rev.tete arev.tete ( ) ( ) ( ) 0.329 0.002 1 0.935 = 0.935 1.566 0.002 1.114 1.566 ( )( ) ( ) 3.037 0.004 0.935 = 0.935 1.566 0.004 0.898 1.566 = 4.845
Avec un 2 (2), nous avons une p-value de 0.089. Nous rejetons l'hypothse nulle au risque 10%. Ce rsultat doit nous interpeller. En eet, tests individuellement dans chaque quation logit, les coecients de rev.tete ne sont pas signicatifs, comme en attestent les rsultats fournis par Tanagra (Figure 12.3). En revanche, tests simultanment, nous rejetons l'hypothse nulle. Un test simultan ne peut pas tre rduit en une succession de tests individuels.

Nous souhaitons savoir si les coecients d'une variable Xj sont identiques d'un logit l'autre. L'hypothse nulle s'crit
H0 : a1,j = = aK1,j
Lorsqu'elle est compatible avec les donnes, cela veut dire que la variable a le mme impact dans tous les logit. Il n'est pas question en revanche de la supprimer de la rgression si elle est par ailleurs signicative : son impact est le mme, mais il n'est pas nul.

Dnir le modle contraint dans les logiciels de statistique n'est pas trs facile. Le couple tableursolveur se rvle redoutable dans ce contexte. Nous souhaitons savoir si le coecient de rev.tete est identique d'un logit l'autre dans le chier "Formule de crdit". L'astuce est relativement simple. Nous introduisons un des coecients parmi les cellules variables du solveur. Pour les autres, nous forons l'galit. Prenons un exemple concret dans notre feuille Excel (Figure 14.6) : nous incluons la cellule de
rev.tete du premier logit parmi les cellules variables du solveur (en
H3), pour le second coecient (en
Page: 231
macro: svmono.cls
date/time: 21-Jun-2011/16:10
232
Fig. 14.6.
Test du rapport de vraisemblance - galit des coecients de rev.tete dans l'ensemble des logit
H4),
nous introduisons simplement la formule
=H3.
Ainsi, lorsque nous lanons l'optimisation de la
log-vraisemblance, cette contrainte est bien prise en compte . La dviance du modle contraint est DH0 = 30.797, avec un degr de libert gal ddl = 30 7 = 23, le 8e coecient tant simplement dduit du 7e . La statistique du test est gal
LR = DH0 DM = 30.797 18.382 = 12.416

Avec un 2 23 22 = 1 degr le libert, la p-value = 0.0004. Nous rejetons l'galit des coecients dans l'ensemble des logit.
14.4.2 Test de Wald - Calcul direct

Partons directement sur notre exemple pour expliciter la dmarche. L'hypothse nulle du test H0 :
a1,rev.tete = a2,rev.tete peut s'crire drev.tete = a1,rev.tete a2,rev.tete = 0. La statistique de test est drev.tete = a1,rev.tete a2,rev.tete
Elle d'esprance nulle sous H0 , et de variance [9] (page 268)
a a V (drev.tete ) = V (1,rev.tete ) + V (2,rev.tete ) 2 COV (1,rev.tete , a2,rev.tete ) a

Sous H0 ,
d2 rev.tete (drev.tete ) V
suit une loi du 2 1 degr de libert.
2. Une autre stratgie aurait t de mettre tous les coecients en cellules variables, puis d'ajouter la contrainte
H3=H4
Page: 232
macro: svmono.cls
date/time: 21-Jun-2011/16:10

Introduisons les valeurs numriques :
233
drev.tete = 0.935 1.566 = 2.501

Il faut aller la pche dans la matrice de variance covariance pour obtenir la variance (Figure 14.2) de drev.tete
V (drev.tete ) = 0.329 + 1.114 2 (0.002) = 1.446

Il ne reste plus qu' former le rapport
d2 (2.501)2 rev.tete = = 4.326 1.446 V (drev.tete )

Avec un 2 (1), la p-value est 0.0375. Nous rejetons l'galit des coecients de rev.tete dans l'ensemble des logit.
14.4.3 Test de Wald - Calcul gnrique

Lorsque le nombre d'quations logit est suprieur 2, l'aaire devient plus complique. Il parat plus judicieux de passer par l'criture gnrique des tests (section 3.3.6). La gageure est d'crire correctement la matrice M . Pour l'exemple qui nous concerne (H0 : a1,rev.tete = a2,rev.tete a1,rev.tete a2,rev.tete = 0), M est un matrice avec m = 1 ligne et (K 1) (J + 1) = 2 4 = 8 colonnes. Elle s'crit comme suit
( ) M = 0 0 0 1 0 0 0 1
Avec
( ) a = 21.165 0.471 0.170 0.935 26.328 0.286 4.966 1.566

Nous formons la statistique de test conformment l'quation 3.7 dans une feuille Excel (Figure 14.7), nous obtenons la statistique de test
]1 [ W(M ) = a M M M Ma = (2.501) 0.692 (2.501) = 4.236
(14.1) (14.2) (14.3)
Nous retrouvons exactement la mme valeur qu'avec l'approche directe. Heureusement, le contraire eut t inquitant. Bien videmment, les conclusions sont identiques.
234
Fig. 14.7.
Test de Wald - Approche gnrique - galit des coecients de rev.tete dans l'ensemble des logit
14.5 Interprtation des coecients - Les odds-ratio

Le charme de la rgression logistique repose en partie sur les interprtations des coecients sous forme de (log) odds-ratio. Voyons si cette proprit est prserve dans la rgression multinomiale, et si c'est le cas, comment lire les coecients des variables dans les logit. En eet, la nouveaut est qu'une mme variable peut tre prsente plusieurs fois, avec des valeurs direntes, dans K 1 quations. Pour illustrer notre propos, nous utiliserons le chier BRAND, il s'agit de prdire le choix de marques de n = 735 clients partir de leur genre (sexe = 1 femme). Nous nous focaliserons principalement sur les variables binaires dans cette section. L'interprtation est lie la prsence/absence du caractre. La transposition aux variables quantitatives ne pose pas de problme particulier. L'interprtation est relative l'augmentation d'une unit de l'explicative, comme nous avions pu le mettre en exergue dans la rgression binaire.
14.5.1 Calcul de l'odds-ratio via le tableau de contingence

La variable dpendante BRAND prend 3 modalits : "petit prix" (y1 = 1), "enseigne" (y2 = 2) et "rfrence" (y3 = 3). Il s'agit d'expliquer le choix des clients, en contingence (Figure 14.8). Tous les calculs doivent tre organiss par rapport la modalit de rfrence y3 . Concernant les odds : Les femmes ont en eet
1 0.80
de rfrence. Voyons dans un premier temps comment calculer les odds-ratio partir d'un tableau de
les caractrisant par rapport la marque
= 1.24 fois plus de chances de choisir la rfrence que la marque "petit prix",
115 = 0.80 143 Elles sont 1.45 fois plus de chances de choisir la marque "enseigne" que la rfrence, car odds(1/3; 1) = odds(2/3; 1) = 208 = 1.45 143
date/time: 21-Jun-2011/16:10
Page: 234
macro: svmono.cls
14.5 Interprtation des coecients - Les odds-ratio
235
Fig. 14.8.
Fichier BRAND - Calcul des odds-ratio partir d'un tableau de contingence
Nous pouvons faire de mme du ct des hommes. Ainsi, nous constatons qu'ils ont 1.18 fois plus de chances de choisir la marque "petit prix" (par rapport la rfrence)
odds(1/3; 0) =
Il faut faire le rapport des odds pour obtenir les
92 = 1.18 78
odds-ratio, nous aurons
OR(1/3) =
Les femmes ont
1 0.68
odds(1/3; 1) 0.80 = = 0.68 odds(1/3; 0) 1.18
= 1.47 fois plus de chances de choisir la marque de rfrence (par rapport "petit
prix") que les hommes. La lecture n'est pas trs aise. En clair, places devant l'alternative "petit prix" - "rfrence", les femmes ont plus tendance choisir la marque de rfrence que les hommes. De mme
OR(2/3) =
odds(2/3; 1) 1.45 = = 1.15 odds(2/3; 0) 1.27
Les femmes ont tendance prfrer la marque enseigne la rfrence par rapport aux hommes. L'enjeu maintenant est de pouvoir retrouver ces coecients avec la rgression logistique.
14.5.2 Obtention des odds-ratio via la rgression logistique

Nous avons lanc la rgression logistique BRAND = f(sexe) dans Tanagra. Nous obtenons les quations logit (Figure 14.9)
C1 = C(1/3) = 0.16508 0.38299 f emme C2 = C(2/3) = 0.238411 + 0.13628 f emme

236
Fig. 14.9.
Fichier BRAND - Coecients de la rgression logistique brand = f (f emme)
Si nous prenons les exponentielles des coecients associs la variable sexe = f emme
ea1,f emme = e0.38299 = 0.68 = OR(1/3) ea2,f emme = e0.13628 = 1.15 = OR(2/3)
Nous retrouvons les odds-ratio calculs partir du tableau de contingence. En conclusion, nous dirons : Les interprtations en termes de surcrot de risque (log odds-ratio) des coecients de la rgression logistique restent valables dans le cadre multinomial. Mais ils sont comptabiliss par rapport la catgorie de rfrence. Il ne faut jamais l'oublier. Si nous souhaitons la modier, il faut procder par direnciation des logit (section 12.3.4). Les nouveaux coecients se liront en relation avec la nouvelle rfrence. Avec les rsultats de la rgression, nous savons si les odds-ratio sont signicatifs ou pas. Dans notre exemple, au risque 10%, nous avons que OR(1/3) est signicativement dirent de 1 parce que
a1,f emme est signicativement dirent de 0 (p-value = 0.0536) ; pas OR(2/3) (p-value = 0.4646).
Pour les autres types de variables explicatives (nominale + de 2 modalits, ordinale, quantitative), les interprtations vues pour la rgression logistique binaire restent valables, elles doivent tre lues simplement par rapport la catgorie de rfrence toujours. Les exponentielles des constantes se lisent comme des odds de la modalit complmentaire de la variable explicative binaire. Pour notre exemple, nous avons les odds chez les hommes (femme = 0)
ea1,const = e0.16508 = 1.18 = odds(1/3; 0) ea2,const = e0.238411 = 1.27 = odds(2/3; 0)
Page: 236
macro: svmono.cls
date/time: 21-Jun-2011/16:10
15 S'appuyer sur des rgression binaires spares
La rgression logistique binaire propose une srie d'outils pour diagnostiquer, valider, explorer des solutions (analyse des rsidus, slection de variables, etc.). Ils pourraient tre transposs sans aucune dicult la rgression multinomiale. Pourtant, curieusement, ils ne sont pas implments dans les logiciels usuels. Ne serait-ce que la slection de variables. Nous devrions pouvoir valuer la pertinence des explicatives dans l'ensemble des logit pour les retirer unes unes pour un processus backward bas par sur le test de Wald. L'ide est simple, sa ralisation galement, pourtant nous la retrouvons pas dans les logiciels les plus rpandus [9] (page 277). Dans ce contexte, on se demande s'il n'est pas possible de dcomposer la rgression multinomiale en une srie de rgressions binaires indpendantes o l'on opposerait chaque modalit (k = 1, . . . , K 1) de
Y la modalit de rfrence yK [1] (page 310). Bien entendu, nous n'obtiendrons pas les mmes rsultats
(coecients). Le tout est de cerner jusqu' quel point ils seront dirents . L'avantage de passer par cette solution est de pouvoir ainsi bncier des outils sus-mentionns implments dans la trs grande majorit des logiciels de statistique. Aprs il faut savoir quoi faire des rsultats. En procdant une slection de variables dans chaque rgression binaire, il est tout fait possible que nous nous retrouvons avec des quations logit comportant des sous-ensembles solutions trs dissemblables. De mme, une observation peut tre atypique pour une quation logit, mais pas pour les autres. Il faut savoir interprter correctement ces lments sans perdre de vue que nous souhaitons valider le modle global expliquant simultanment les K valeurs de Y [9] (page 279). On sait que dcomposer la rgression multinomiale en K 1 rgressions binaires est moins ecace. Elle le sera d'autant moins que la prvalence de la catgorie de rfrence est faible. En l'absence de contraintes fortes sur les interprtations, nous avons intrt choisir une modalit de rfrence qui soit la plus frquente dans la population, celle dont la prvalence pk = P (Y = yk ) est la plus leve [1] (page 312). De manire gnrale, il apparat que les coecients obtenus via les deux stratgies sont assez proches [9] (page 278).
1. Cette situation n'est pas sans rappeler les problmes poss par les mthodes binaires par essence en apprentissage automatique (ex. les support vector machine). Pour traiter les variables dpendantes multi-classes, des stratgies ont t dveloppes pour combiner les prdicteurs binaires : une modalit contre les autres "1 vs. all", traitement par paires "1 vs. 1", etc. Voir S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, Elsevier, 2009 ; pages 127 et 128.
238
15 S'appuyer sur des rgression binaires spares

Le mieux est de le vrier sur un exemple. Nous reprenons le chier BRAND auquel nous avons
adjoint la variable age. La rgression s'crit brand = f (f emme, age). Nous avons ralis la rgression multinomiale sur les n = 735 observations. Puis nous avons isol les clients portant les modalits "Petit prix" (resp. "Enseigne") et "Reference". Le chier comporte 428 (resp. 528) observations. Puis nous avons lanc les rgressions binaires. Voici le code R correspondant
#rgression logistique multinomiale - vgam modele <- vglm(brand ~ femme + age, data = donnees, family = multinomial()) print(modele) #dcomposition en rgrssions individuelles #1 vs. 3 donnees.1 <- donnees[(donnees$brand == "M__PetitPrix" | donnees$brand == "M_Reference"),] donnees.1$brand <- as.factor(unclass(donnees.1$brand)) modele.1 <- glm(brand ~ femme + age, data = donnees.1, family = binomial) print(modele.1) #2 vs. 3 donnees.2 <- donnees[(donnees$brand == "M_Enseigne" | donnees$brand == "M_Reference"),] donnees.2$brand <- as.factor(unclass(donnees.2$brand)) modele.2 <- glm(brand ~ femme + age, data = donnees.2, family = binomial()) print(modele.2)
Aprs rorganisation des signes, nous pouvons comparer les coecients produits de la rgression multinomiale et les rgressions binaires (Tableau 15.1).
logit Petit prix vs. Rfrence Enseigne vs. Rfrence Rgressions Reg.Multinomiale Reg.Binaire Reg.Multinomiale Reg.Binaire constante 22.72 19.43 10.95 11.38 femme 0.47 0.39 0.06 0.04 age 0.69 0.59 0.32 0.33
Tableau 15.1.
Coecients de la rgression multinomiale et des rgressions binaires
Indniablement, il y a une similitude entre les coecients. Mais les carts entre les valeurs sont nanmoins sensibles, du moins en ce qui concerne notre exemple. Enn, il reste un problme pineux : comment exploiter ces modles en prdiction ? Nous n'avons plus la garantie que k k () = 1. Il faut dnir une stratgie approprie pour combiner les ou les y fournis par les K 1 classieurs binaires. Il n'y a pas de solution bien tablie vrai dire.
Page: 238
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Partie IV
La rgression logistique polytomique ordinale
Page: 239
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 240
macro: svmono.cls
date/time: 21-Jun-2011/16:10
16 Variable dpendante ordinale (1) - LOGITS adjacents
Page: 241
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 242
macro: svmono.cls
date/time: 21-Jun-2011/16:10
17 Variable dpendante ordinale (2) - ODDS-RATIO cumulatifs
Page: 243
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 244
macro: svmono.cls
date/time: 21-Jun-2011/16:10
A Gestion des versions
La premire version (version 1.0) de ce fascicule a t nalise et mis en ligne le 13 septembre 2009. Il comprend 10 chapitres : 1. Rgression Logistique Binaire - Principe et estimation 2. valuation de la rgression 3. Tests de signicativit des coecients 4. Prdiction et intervalle de prdiction 5. Lecture et interprtation des coecients 6. Analyse des interactions 7. La slection de variables 8. Diagnostic de la rgression logistique 9. "Covariate pattern" et statistiques associes 10. Redressement pour les chantillons non-reprsentatifs 11. Quelques lments supplmentaires Les parties ddies la rgression multinomiale et la rgression polytomique ordinale ne sont pas commences. Ce sera l'objet de la version 2.xx de ce document.
A.1 Version 1.1

Pour la version 1.1, le chapitre 10 a t remani. Il intgre l'ancienne partie consacre au redressement pour les chantillons non-reprsentatifs, et une nouvelle section consacre la prise en compte des cots de mauvaise aectation. Le thme gnrique est la modication de la rgle d'aectation dans des circonstances particulires. La version a t mise en ligne le 16 septembre 2009.
Page: 245
macro: svmono.cls
date/time: 21-Jun-2011/16:10
246
A Gestion des versions
A.2 Version 2.0

L'criture de la partie III consacre la rgression logistique multinomiale est la principale volution dans la version 2.0. Elle comporte 4 chapitres 1. Variable dpendante nominale - Principe et estimations 2. valuation des classieurs pour Y K (K > 2) modalits 3. Tester les coecients de la rgression logistique multinomiale 4. S'appuyer sur des rgression binaires spares La version a t mise en ligne le 22 septembre 2009.
Page: 246
macro: svmono.cls
date/time: 21-Jun-2011/16:10
B Fichiers de donnes relatifs ce fascicule
Pour que tout un chacun puisse reproduire l'identique les exemples illustratifs, il faut que les donnes et les logiciels soient accessibles librement. C'est une rgle laquelle que j'astreindrai toujours. C'est valable pour les documents destins l'enseignement. Mais a devrait l'tre galement pour les publications scientiques. S'agissant de ce fascicule de cours, les chiers de donnes sont accessibles l'adresse suivante http://
eric.univ-lyon2.fr/~ricco/cours/cours/pratique_regression_logistique.zip. L'archive comporte une srie de chiers XLS (Excel). Le plus souvent un chier est associ un chapitre.
Les logiciels Tanagra (1.4.32) et R (2.9.0) sont accessibles via leur site de distribution respectifs. Ainsi, le lecteur pourra reprendre pas pas les exemples qui maillent ce document. La comprhension des techniques n'en sera que meilleure.
Page: 247
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 248
macro: svmono.cls
date/time: 21-Jun-2011/16:10
C La rgression logistique avec le logiciel TANAGRA
TANAGRA (http://eric.univ-lyon2.fr/~ricco/tanagra/) est un logiciel de data mining, statistique et analyse de donnes
open source, totalement gratuit. La premire version a t mise en ligne en
Janvier 2004. La rgression logistique a t implmente ds la premire version, elle a t constamment amliore en termes de prcision et de robustesse. Plus rcemment, la rgression logistique multinomiale a t programme.
C.1 Lecture des rsultats - Rgression logistique binaire

La rgression logistique binaire se situe dans l'onglet SPV LEARNING de la palette de composants, en compagnie des autres techniques d'apprentissage supervis. Il n'y a pas de paramtres associes la mthode. Voici l'interface gnrale du logiciel lorsque l'on met en oeuvre la rgression logistique.
Page: 249
macro: svmono.cls
date/time: 21-Jun-2011/16:10
250

La fentre de rsultats est subdivise en plusieurs parties. Dtaillons-les.
La matrice de confusion.
Elle est automatiquement calcule sur la totalit des donnes disponibles
(Figure C.1). Le taux d'erreur en resubstitution est ach. Nous disposons aussi du rappel et de (1-prcision) pour chaque modalit de la variable prdire. Si on souhaite subdiviser les donnes en deux parties, construire le modle sur la partie apprentissage et valider sur la partie test, une procdure commune toutes les mthodes supervises est propose (cf. Tutoriels - http://eric. univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_TOW_Predefined_Test_Set.pdf)
Fig. C.1.
Tanagra - Matrice de confusion
L'valuation globale.
Elle ache les principaux indicateurs de signicativit globale de la rgression
(Figure C.2). Les critres AIC (Akaike), BIC (SC pour Schwartz) et -2LL (Dviance) du modle trivial (Intercept) et tudi (Model) sont confront dans "Model Fit Statistics". Ensuite, nous avons le test du rapport de vraisemblance, avec LR (2 ), le degr de libert et la p-value. Enn, plusieurs pseudo-R2 sont proposs.
Paramtres estims et odds-ratio.

(Figure C.3).
Dernire partie de la fentre, nous obtenons les paramtres
estims, les carts-type, la statistique de Wald et la p-value du test de signicativit individuelle.

Un second tableau ache les odds-ratio (OR = eaj ) et leur intervalle de conance au niveau 95%
C.2 Slection de variables

Les composants de slection de variables pour la rgression logistique se situent dans l'onglet FEATURE SELECTION. Leur utilisation "normale" consiste les positionner juste aprs DEFINE STATUS qui indique la variable dpendante et les variables explicatives candidates. Ils ltrent automatiquement les explicatives. Nous pouvons brancher directement en aval la rgression logistique (Figure C.4). Attention, si aucune explicative n'a t slectionne, la rgression envoie un message d'erreur. Nous pouvons techniquement brancher toute mthode d'apprentissage supervis en aval. Aprs il faut savoir ce que l'on fait. Brancher une technique d'induction d'arbres de dcision aprs avoir ltr les variables avec une procdure base sur le test de Wald n'est peut tre pas la stratgie la plus cohrente qui soit .
1. C'est mme de la btise pour tre honnte. Les biais de reprsentation et d'apprentissage ne sont absolument pas les mmes. C'est comme napper de chantilly un rti de veau, c'est peut tre joli, mais srement infect.
C.2 Slection de variables
251
Fig. C.2.
Tanagra - valuation globale de la rgression
Fig. C.3.
Tanagra - Coecients estims et odds-ratio
La description dtaille des sorties des composants est disponible dans la section consacre la slection de variables (section 7.3.1, page 123).
Page: 251
macro: svmono.cls
date/time: 21-Jun-2011/16:10
252
Fig. C.4.
Tanagra - Slection de variables - Enchanements usuels
C.3 Didacticiels
Bien entendu, la rgression logistique, mthode populaire s'il en fut, est trs prsente dans les didacticiels recenss sur notre site ddi http://tutoriels-data-mining.blogspot.com. Elle apparat dans les comparaisons de mthodes, le scoring et la construction de la courbe de gain (gain chart ou lift curve), la construction de la courbe ROC,... Pour les consulter, le plus simple est d'explorer la section consacre la rgression logistique ou de faire une recherche par mots-cls sur le site.
Page: 252
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Plus le temps passe, plus j'apprcie R. C'est pour cela que j'cris maintenant des tutoriels qui lui sont ddis . Bien sr, il reste l'apprentissage du langage de programmation qui est une vraie barrire l'entre pour les rfractaires l'ide de taper des instructions (ah bon ? et on fait quoi avec la souris monsieur ?), quant les enchaner n'en parlons mme pas. R rpond un type de besoin dirent de celui de Tanagra. Pour ma part, j'utilise les deux outils simultanment pour mes enseignements, avec le sacro-saint tableur bien entendu. On ne doit pas tre dpendant d'un logiciel. Un scientique se doit de contrler les formules, croiser les rfrences, recouper les rsultats proposs par dirents logiciels.
D.1 La rgression logistique avec la commande glm()

D.1.1
glm()
La commande glm() implmente la rgression linaire gnralise. La rgression logistique en est une dclinaison. Il sut de spcier la distribution de l'erreur avec l'option family. L'achage initial est assez succinct. Tout l'intrt de R est que nous pouvons accder un certain nombre de champs internes dont la liste est obtenue avec attributes(). Elle est longue. Par exemple, le champ fitted.values nous donne accs aux (Figure D.1).
D.1.2
summary
de glm()
La commande summary() permet d'obtenir de plus amples informations sur la rgression. L'achage est dj plus riche, avec les signicativits individuelles des coecients. Mais surtout, l'objet propose d'autres champs encore. Nous pouvons accder la matrice de variance covariance des coecients entre autres (Figure D.2).
1. Comme j'en cris pour d'autres logiciels libres d'ailleurs : Knime, Orange, RapidMiner, Weka, ...
254
Fig. D.1.
Logiciel R - Commande glm() et champs de l'objet associ
D.1.3 D'autres fonctions applicables sur l'objet glm()

Des fonctions peuvent s'appliquer sur un objet gnr par la commande glm(). Nous avions vu la slection de variable avec la commande stepAIC (section 7.2). Nous pourrions citer galement la commande influence.measures() qui produit les principaux indicateurs de l'analyse des rsidus. Il en existe srement d'autres qui m'ont chapp, les possibilits sont immenses.
D.2 La rgression logistique avec la commande lrm() du package Design

La commande lrm() du package Design implmente aussi la rgression logistique binaire (et ordinale avec les odds proportionnels). En vrit, elle prsente trs peu d'avantages par rapport glm(). Sauf en
2. En reproduisant les calculs, je me suis rendu compte que R ne fournit pas les dfbetas que j'ai calcul sous Excel, qui sont les mmes que ceux de SAS et SPSS. J'y ai vraiment pass beaucoup de temps. J'avoue ne pas avoir pu reconstituer la formule utilise par R. Pour ceux qui savent, un petit e-mail serait vraiment le bienvenu. Merci !
D.2 La rgression logistique avec la commande lrm() du package Design
255
Fig. D.2.
Logiciel R - Rsum de glm() et champs de l'objet associ
ce qui concerne la construction des rsidus partiels. Toutes les combinaisons sont immdiatement fournies. Bien sr, nous pourrions les reconstituer facilement en utilisant les fonctions spcialises adquates (loess, etc.), mais les obtenir facilement sans manipulations sotriques reste un atout fort (voir section 8.2.4).
Page: 255
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 256
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Littrature
1. A. Agresti, Categorical Data Analysis, Chapter 4, "Models for Binary Response Variables", pages 79-129, Wiley, 1990. 2. M. Bardos, Analyse discriminante - Application au risque et scoring nancier, Chapitre 3, "Discrimination logistique", pages 61-79, Dunod, 2001. 3. G. Celeux, J.P. Nakache, Analyse Discriminante sur Variables Qualitatives, Polytechnica, 1994. 4. J. Jaccard, Intercation Eects in Logistic Regression, Series : Quantitative Applications in the Social Sciences, n0 135, Sage Publications, 2001. 5. D. Garson, Logistic Regression, http://www2.chass.ncsu.edu/garson/PA765/logistic.htm 6. R. Giraud, Economtrie, Collection "Que sais-je", no 1423, PUF, 1993. 7. P.L. Gonzales, "Modles rponses dichotomiques", in Modles statistiques pour donnes qualitatives, Droesbeke, Lejeune et Saporta Editeurs, Chapitre 6, pages 99-136, Technip, 2005. 8. T. Hastie, R. Tibshirani, J. Friedman, The elements of Statistical Learning - Data Mining, Inference and Prediction, Springer, 2001. 9. D.W. Hosmer, S. Lemeshow, Applied Logistic Regression, Second Edition, Wiley, 2000. 10. S. Menard, Applied Logistic Regression Analysis (Second Edition), Series : Quantitative Applications in the Social Sciences, n0 106, Sage Publications, 2002. 11. J.P. Nakache, J. Confais, Statistique Explicative Applique, Partie 2, "Modle Logistique", pages 77-168, Technip, 2003. 12. A.A. O'Connell, Logistic Regression Models for Ordinal Response Variables, Series : Quantitative Applications in the Social Sciences, n0 146, Sage Publications, 2006. 13. R. Rakotomalala, Apprentissage Supervis, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_
mining.html
14. R. Rakotomalala, Rgression logistique - Une approche pour rendre calculable P (Y /X), http://eric.
univ-lyon2.fr/~ricco/cours/supports_data_mining.html
15. R. Rakotomalala, Rgression logistique polytomique - Variable dpendante K (K > 2) modalits, http:
//eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html
16. R. Rakotomalala, Normalisation des scores - Proposer une estimation able de P (Y = +/X) dans un problme de discrimination, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html 17. R. Rakotomalala, Estimation de l'erreur de prdiction - Les techniques de r-chantillonnage, http://eric.
univ-lyon2.fr/~ricco/cours/supports_data_mining.html
258
Littrature
18. R. Rakotomalala, Comparaison de populations - Tests non paramtriques, http://eric.univ-lyon2.fr/

~ricco/cours/supports_data_mining.html#tests_non_parametriques
19. R. Rakotomalala, Courbe ROC (Receiving Operating Characteristics - Une autre manire d'valuer un modle de prdiction, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html 20. R. Rakotomalala, tude des dpendances, Variables qualitatives - Tableau de contingence et mesures d'association, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html#mesures_association 21. G. Saporta, Probabilits, Analyse de donnes et Statistique, Section 18.6, "Rgresion logistique binaire (deux groupes)", pages 475-480, Technip, 2006. 22. A. Slavkovic, STAT 504 - Analysis of discrete data, http://www.stat.psu.edu/online/development/
stat504/06_logreg/01_logreg_intro.htm
23. M. Tenenhaus, Statistique - Mthodes pour dcrire, expliquer et prvoir, Chapitre 11, "La rgression logistique binaire", pages 387-460 ; Chapitre 12, "Rgression logistique multinomiale : rponses polytomique et ordinale", pages 461-499, Dunod, 2007. 24. R. Tomassone, M. Danzart, J.J. Daudin, J.P. Masson, Discrimination et classement, Chapitre 6, pages 91-103, Masson, 1988. 25. Wikipedia, Rgression Logistique, http://fr.wikipedia.org/wiki/Rgression_logistique
Page: 258
macro: svmono.cls
date/time: 21-Jun-2011/16:10

Pratique Regression Logistique

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Pratique Regression Logistique

Uploaded by

Copyright:

Available Formats

Ricco Rakotomalala

Pratique de la Rgression Logistique

Universit Lumire Lyon 2

rfrence anglo-saxonne [9]. Quiconque

Table des matires

Partie I Rgression Logistique Binaire 1 Rgression Logistique Binaire - Principe et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Table des matires

Tests de signicativit des coecients

Partie II Pratique de la rgression logistique binaire 4 Prdiction et intervalle de prdiction

4.1 Prdiction ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Intervalle de prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lecture et interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Analyse des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Diagnostic de la rgression logistique

Table des matires

"Covariate Pattern" et statistiques associes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 Modications de la rgle d'aectation

11 Quelques lments supplmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

13 valuation des classieurs pour Y (K > 2) modalits nominales

Table des matires

14 Tester les coecients de la rgression multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 . . . . . . . . . . . . . . . . . . . . . 243 245

17 Variable dpendante ordinale (2) - ODDS-RATIO cumulatifs

A Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

B Fichiers de donnes relatifs ce fascicule

C La rgression logistique avec le logiciel TANAGRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

D La rgression logistique avec le logiciel R

Table des matires

(X1 (), X2 (), . . . , XJ ()).

+] = p(). Lorsqu'il ne peut y avoir d'ambiguts, nous la noterons simplement p.

modliser en apprentissage supervis.

Table des matires

Table des matires

Traitement du chier COEUR avec le logiciel Tanagra

Traitement du chier COEUR avec le logiciel R

Rgression Logistique Binaire

1 Rgression Logistique Binaire - Principe et estimation

1.1 Un cadre bayesien pour l'apprentissage supervis

underlying concept ) de la forme

1 Rgression Logistique Binaire - Principe et estimation

1.1.2 Apprentissage supervis - valuation

probabilit de mal classer un individu pris au hasard dans la population :

l'erreur thorique que l'on interprte

1.1 Un cadre bayesien pour l'apprentissage supervis

1.1.3 Un cadre bayesien pour l'apprentissage supervis

yk = arg max P [Y () = yk /X()]

1.1.4 Un exemple : prdire COEUR en fonction de ANGINE Apprentissage

1 Rgression Logistique Binaire - Principe et estimation

COEUR vs. ANGINE - Probabilits conditionnelles

Si AN GIN E = 0 Alors COEU R = (absence)

Si AN GIN E = 1 Alors COEU R = + (presence)

= 0.25 c.--d. si nous classons un individu

1.1 Un cadre bayesien pour l'apprentissage supervis

COEUR vs. ANGINE - valuation des performances

1.1.5 Insusances de l'approche base sur les frquences

1 Rgression Logistique Binaire - Principe et estimation

1.2 Hypothse fondamentale de la rgression logistique

P (Y = yk ) P (X/Y = yk ) P (X) P (Y = yk ) P (X/Y = yk ) = k P (Y = yk ) P (X/Y = yk )

P (Y = +/X) P (Y = +) P (X/Y = +) = P (Y = /X) P (Y = ) P (X/Y = )

P (Y = +/X) > 1 Alors Y = + P (Y = /X)

Revenons l'expression ci-dessus (quation 1.1),

Tests de signicativit des coecients

Lecture et interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 Modications de la rgle d'aectation

13 valuation des classieurs pour Y (K > 2) modalits nominales

14 Tester les coecients de la rgression multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Traitement du chier COEUR avec le logiciel Tanagra

Traitement du chier COEUR avec le logiciel R

1.1.5 Insusances de l'approche base sur les frquences

A propos de la rgle d'aectation,

solution nale a en utilisant la formule suivante

Remarque : L'analogie avec le coecient de dtermination R2 de la rgression linaire multiple est

= 0.8473 [ ] 0.3 La log-vraisemblance LL(0) = 20 ln(1 0.3) + 6 ln 10.3 = 12.217

La dviance D0 = 2 LL(0) = 2 (12.217) = 24.4346

Quelques pseudo-R2 - Application au chier COEUR

spcicit, l'inverse de la sensibilit, indique la proportion de ngatifs dtects