You are on page 1of 9
Statistique 2/ Chapitre 2 : Les distributions statistiques 4 deux caractéres : étude de la régression, l'ajustement et la corrélation. VLes tableaux de contingences, Application :Le tableau suivant donne la répartition de 1000 familles selon I'age - a : a CC) du pére () et le nombre d’enfants (Yj) a ye ta oF Yq [Mote de 2] 250 Fetplue Totaux (a) E Tan Xi enfants 2 Ray | Man z a oy A A t 7 i Mins de 25] 100 20 3 125 me Ta | Me = Bap The ans : [25 301 30 25 is 30 [etal xy ma [na : my | n=N (50-401 30 100 100. 230 4Detplus | 20 200 335 355 Distribution marginale de x: Totaux (ny) | 200 3S 5 1000 % % % = [total My my m | Te REN Distribution marginale de X : X ge du] Moins de 25] (25-30[ | [0-40[ | 40 et] Total Distribution marginale dey : pire ims plas yw 7 7 [tal mL 125; 30 30 [555 | 1000 ™ = Ma id nen Distribution marginale de ¥ : ‘C/ Distributions conditionnelles = Y nombre | Mons de 2 | BAT Feips | Toul La distribution conditionnelle correspondant & une modalité x, de la variable iontant eaten x suivant les modalités de y est appelée distribution conditionnelle de y pour = x, Ba a Ey S38 1000. tionnelle de Y selon X¢ [30 — 40 : vine % Vs Ya oe Yp ‘total Y/XE [30-40 | Moins de 2 R35, ‘Set plus Total my Ta ta |= Tip 7 eatosis om 30 100 100) 230 (na) distribution conditionnelle de x pout y = 3 Distribution conditionnelle de X selon Ye [2-5t: XVE [2-5 |] Moins de25 | (25-30[ | (30-40 | [(#0etplus | Total FIV=3 % aS %a__| total ans yj Thy Tay [= Bey my a 20 5 100 200 343 (aa) Statistique 2/ Chapitre 2 : Les distributions statistiques 3 deux caractéres : étude de la régression, I'ajustement et la corrélation. Fréquences relatives partielles sur Veffectif total : fig =n ATE EP fy = 1 Fréquences relatives marginales Pour la distribution marginale de x: fj, a Pour la distribution marginale de y: fj = a Bt Th fi.=1= Deafy- Fréquences relatives conditionnelles On a pfréquences relatives conditionnelles de xselon y puisque j varie de 1 jusqu’a p : fide i sij fy = On a k fréquences relatives conditionnelles de y selon xpuisque tl varie de 1 jusqu’a k :fdej si i 1/ Le nombre de familles ayant de 2 a 5 enfants et dont I’age du pére est compris centre 30 et 40 ans est égal & 100 familles (effectf partel ms). 2/ Le nombre de famille ayant moins de 2 enfants est égal & 200 (Veffectif ‘marginal de Y : ma), 31 Le nombre de fils dont ge dupe est él & 40 ans et pls en 555 (Leffectif marginal de X : ne) 4/ Le nombre 5 de la premitre ligne et de la troisitme colonne (n1s) représente le nombre de famille ayant $ enfants ou plus et dont Page du pare est inférieur & 25 ans. 5/ mu= 100 5 mas= 15 ; mz. =90 ; ms= 455 ‘Les fiéquences relatives fy = 32 =120 = 0, 10 ou 10% (Fréquence partielle sur l'effectif total). Cela signifie qu’il y a 10% de familles ayant 5 enfants et plus et dont I’dge du pére est ‘compris entre 30 et 40. =% = 2 = SC - 0,09 ou 9% (Fréquence marginale de X). Cela signifie qu'il y a 9% de familles dont I’age du pére est compris entre 25 et 30 ans quel que soit le ‘nombre Penfants, £5 Be = 5 = 0,455 ou 45,5% (Fréquence marginale de Y). Cela veut dire qu'il y 4.45,3% de familles ayant 5 enfants et plus quel que sot 'ge du pe. fin avee i fixé = S24 = 5 = 0,5555 ou 55,55% (Ia fréquence conditionnelle de Y avec 2. Cela signifie que parmi les familles dont lage du pére est compris entre 25 et 30 ans, 55,55% ont moins de deux enfants. faa aver j xe = 3 = 22 = 0.2898 ou 28.98% (la fréquence conditionnelle de X avec i= 3 sij=2). Cela veut dire que parmi les familles ayant de 2 a $ enfants, 28,98% des péres ont ’dge compris entre 30 et 40 ans. }-— a Statistique 2/ Chapitre 2 : Les distributions statistiques 4 deux caractéres : étude de la régression, ’ajustement et la corrélation. Les paramétres des lols marginales selon x 8) Lamoyenne marginale de x est 2. Elle est définie comme suit A Formule de definition : V(x) = Diam Gu -2)* = Dis fi Or 2? Formule développée :V(x) Les paramétres des lols marginales de y : Ska xm, — 2 = DE fia 2 a) Lamoyenne marginaley : 9 = 237. njyj = Dyali¥i b) La variance V(y) : Par définition :¥(y) = +¥7_.m()-9)° = Zfaa fy - 7) Formule développée :V(y) = 33.1(n 97) ~ = Deaf? — ‘On peut définir la covariance(xy )oomme suit : 2) Formule de définition Cov(xy) = 234,77. [i - (4-H) ry = YY te -O(y- fy am b). Formule développée :Cov(xy) = (LEE E7., myxiny) — 27 Application : Le tableau suivant donne la répartition des dépenses mensuelles (10° DA), (notées Y,), des employés dune entreprise selon le nombre d'enfants (nots Xx) Ya] wszor | O; PO; | 60; BOT] (HO; TOOT] Tomux xX 40f. 60h fo: [10 6 4 2z 0 2 ba [8 6 4 1-0 19 [ase [1 2 6 4 3 16 [esto 1 2 4 6 13 Is; 1of [0 0 1 1 3 5 Totaux [19 15 mL? 2 5 1-Caleuler la dépense moyenne. 2+ Calevler Ia variance marginale de 3-Quelle est la dépense moyenne des employés ayant entre deux et quatre enfants ? 4-Quel est le nombre denfants moyen pour les salariés qui dépensent entre 40 000 DA et 60 000 DA? 1/ La dépense moyenne F Yj (dépenses) {0-20{ | [20- [40- [60- [80-100[ | Total 40 60f, 80[ [ag st Tas Yi 10 30. 50. 70 90 eat maY 19030 85030 1080 [3410 = BiLans BUH Po 388 = 45,465109 DA, 2/ La variance marginale du earactdre X : V(x) = 24204 2 Xi pal [Pal [eo [f6-8f [18-10{_| Tot mi 22 19 16 13 05 75 Xi 1 3 [3 [7 19 — xem 2 [57 [80a 45 | 295 ee 1 9 [os [ao [a —= Xm [im | 400 [637 | 405 | 1635 Statistique 2/ Chapitre 2 : Les distributions statistiques 4 deux caracteres : étude de la régression, 'ajustement et la corrélation. Parametres des distributions conditionnelles de x selon y 8) Les moyennes conditionnelles de x selon y, y = yy (y, fixe) P ny = Yh ft 1b) Les variances conditionnelles de x selon y (y = y,) Par definition : (2) = 2-B8. [(a1 ~3))"ny]Ou= Bhaa(a ~ 8) Fis Formule dveloppée:¥)(x) = Ska myx? — 37 = Ela xifiy 87 Paramétres des distributions conditionnelles de y selon x a. Les moyennes conditionnelles de y selon x 25 ay . Siwy “it = b. Les variances de y selon x Par definition Vi) = 2¥}uu[(-3,)'ru] oa = Efe - Hin Formule développée :¥i(y Ou = Fhea(finr?) — HF ‘On calcule d’abord la moyenne & : V(x) = SS - 6,93) = 6,36 enfants. 3/La dépense moyenne des employés ayant entre 2 et 4 enfants : il s‘agit de calculer la moyenne conditionnelle ¥/X € [2-4[ : Yxe [2-4 | [0-20 | (20-40 | [40-60 | [60-8oj | [80-100[_| Total A 8 6 4 1 0 19 Di 10 30 [0 70 [90 —= map ¥, 80 180 [200 [70 To. 330. WX ¢ p-ap= EE. a 532-97, 89.105DA. 4/Le nombre denfats moyen pour les salariés qui dépensent entre 40000 DA et 60000DA il agit de calculer la moyenne conditionnelle X/Y€ [40-60[ : MeO 2 [Ra [wa [les | 8-10, | Tom 60] } ny 4 416 2 i a X 1 3 Ss 7 9 a nig Xi 4 12 30 14 9 69 R/Ve [40-60[= 4 = © = 4,06 enfants. Era Statistique 2/ Chapitre 2 : Les distributions statistiques & deux caractéres I/AJUSTEMENT, REGRESSION ET CORRELATION On s‘interroge sur la relation qui peut exister entre deux grandeurs, ‘Trois types de problémes peuvent apparaitre : ¥ Probléme d’ajustement analytique. Y Analyse de la régression Y Probléme de corrélation. ‘Trois types de liaisons entre les caractéres x et y Y Indépendance totale (absence de liaison) Liaison fonctionnelle ou dépendance totale Y Laliaison relatin L?ajustement graphique Diabord, on porte nos données dans un graphe appelé: nuage de points, Ensuite, 4 main levée, nous tragons une courbe qui passe au plus pras de l’ensemble des points. Plusieurs formes peuvent étre ‘obtenues : Si le nuage de points forme une droite comme dans le premier graphe, on parle d’une liaison linéaire entre les deux variables. tude de la régression, lajustement et la corrélation. Ajustement mécanique : Dans ce cas, deux méthodes peuvent étre utilisées, ¥ Méthode des moyennes échelonnées : elle consiste a diviser la série statistique en plusieurs groupes, pour chaque groupe on calcule la Médiane (Me) pour les valeurs de la variable x et la Moyenne arithmétique ( 7 ) pour les valeurs de la variable y. ‘Exemple : soit la série bi-varige suivante : x 2 4 6 8 10 2 ¥ 4 3 8 12 3 15 ‘Question : Déterminer l'ensemble des points corespondant aux couples (xis 7) par la méthode de moyennes échelonnées (ordre 3). Solution : 10. ¥ On forme des sous-ensembles composés de 3 valeurschacun. ¥ On calcule les Medianes pour les sous-ensembles de la Variable x; Pour le premier groupe de valeurs x;; c'est-a-dire (2 +4 36) :Me= 4, = Pour le deuxiéme groupe de valeurs x;; cested-dire (8 ;10 ;12) : Me * On calcule les moyennes arithmétiques pour les sous-ensembles de la variable yi - Pour le premier groupe de valeurs yi; c'est-t-dire (4 ; 5 ; 8): 7= 5,66. “Pour le deuxitme groupe de valeurs yi; c’estea-dire (12 ;13,15): P= 13,33, On déduit alors les coordonnés des deux points deja calculés': P, (4 5,66) et P2(10 513,33), Statistique 2/ Chapitre 2 : Les distributions statistiques a deux caractéres : étude de la régression, l'ajustement et la corrélation. 20 5 ° ¥ La méthode des moyennes mobiles: le principe de calculressemble a celui des moyennes échelonnées (Médiane pour les xi et moyenne arithmétique pour les y). La différence se situe dans la formation des sous-ensembles qui ne sont pas strictementdistinetsles uns des autres. Autrement dit, les valeurs se répétent dans plusieurs sous-ensembles. Exemple : Soit la série bi-variée suivante : [ Sous-ensembles xi — Sousensembles vs Coordonnées Ray] 6 Mat |[- 4538 ¥=366 (45 5:66) Meé |- 58:12 7=833 (658,33) Me® = [- 8:12313 Feil Gi) Mel0 | ~ 12313315 7 =13,33 | (10;13,33) Mel2 |. 13515318 7=15,33 (12 ; 15,33) Mel4 | 1531821 7-18 (14318) Merl6 1821324 7=21 06:21) x_[2 [4 Je [8s Tio [12 Tia Tie Tis vi |4 [5 [8 [iz fists Fis Tar 4 ‘Question : Déterminer l'ensemble des points correspondant aux couples (xi; yi) par la méthode de moyennes mobiles (ordre 3), Solution : ¥ On forme des sous-ensembles composés de 3 valeurs chacun. On calcule, alors les médianes pour les sous-ensembles de la variable xj et les moyennes arithmétiques pour les sous- ensembles de la variable yi. Cela nous permet de déduire les coordonnés des points correspondant aux couples (xi; yi). On réalise, ensuite, la représcntation graphique qui reprend les données du tableau (nuage des points) sur lequel nous tragons une droite qui passe par les points moyens précédemment caleulés. Statistique 2/ Chapitre 2 : Les distributions statistiques a deux caractéres : étude de la régression, l'ajustement et la corrélatio 20 25 2 % 18 10 xi AJUSTEMENT ANALYTIQUE (DROITE DE REGRESSION) (On désire ici déterminer et tracer une droite qui représente au mieux fa relation de ‘dépendance de Y par rapport 4X. L’équation de cette droite est dutype-Y=aX +b. Avec comme coefficient directeur de la droite, =" cordonnée a lorigine. Plusicurs méthodes de détermination sont possibles, mais, la plus utlisée est fa méthode des moindres earrés.. La droite Y= a X + best la droite d’ajustement de ¥ en fonction de X. n peut également chercher & exprimer X en fonction de Y, On cherche alors la droite d’ajustement de X en Y d’équation X= a¥+b. J Droite d’ajustement de ¥ en fonetion de X La méthode des moindres carrés- repose sur le principe de Ja minimisation des carts entre les points observés et les points de la droite, ow) ws) Si les données ne sont pas pondérées, on calcule Ta covariance et la variance de Ia ‘maniére suivante : Covey) = Haecnen (formule de définition) ou Cov(xy)= gt — £9 (formule développée). La variance v(x) = Si (formule de definition) on Vey 22a ome develope spt on poole ae coe mat wo tH ET poe ai ou encore a = a> =F Par ailleurs a 2 Droite d’ajustement de X en fonction de Y ‘On peut trouver I’équation de la droite de x en y, c’est- a-dire x devient la variable dépendante ou expliquée et y devient la variable indépendante, Péquation s'éerit_X= 4 ¥+b 22) vO)” vq) EEG (Formule de definition) ou vy) = EEa2t ~52 (ormute développés). En simplifiant, on caloule le coefficient 4 comme suit : = Hai 9 pened fe = Tei om 2 7D*-NI® et b-a-a7 LA CORRELATION Pour mesurer l'intensité de 1a relation entre deux variables x et y, nous utiisons un indicateur appelé coefficient de corrélation. Le coofiicient de corrélation linéaire r se calcule par la formule : Statistique 2/ Chapitre revad ‘Qu encore par Ia formule = C00 (uy) Taror p = See). wax ox 00.) ar xm faxf-wet, foxp-no* Le coefficient de corrélation varie entre -1 et +1. -Sir=0, ily aabsence de corrélation entre x ety. -Sir=+H ou I, ily aune corrélation maximale entre x ety, “Sirest proche de +1 ou de «1 : ues forte corrétation linéaire, Si rest proche de zéro, : une faible corrélation linéaire. Le signe positif (+) signifie que les deux variables varient dans le méme sens, Lo signe négatif(-) signifie que les deux variables varient en sens inverse. Nous pouvons calculer le coeMicient de détermination r’, il exprime le ‘pourcentage de variation de la variable y expliquée par la variable x. Paaxd Application : Soit la série bi-variée suivante od X représente les résultats au test (aoté sur 10) de six (6) employés et Y les rendements (en douzaine d’unités). Les distributions statistiques 4 deux caractéres : étude de la régression, I'ajustement et lacorrélation. 1/ Le muage de points : | Ea | . oe | | ° 5 x 10 5 | 2/ Léquation de la droite de régression de Yen X : Y= aXtb xX Yi XiYi xp Ye 2 1 2 4 x & 3 9 9 3 5 7 35 25 49 9 is 135 81 225 10 7 170 100. 289 >: 2 > =54 | 28 268 694 x 2 3 5 7 3 10 Ys 1 3 7 i 15 17 1 Représenter Ie nuage de points. 2/ Trouver l’équation de la droite de régression de Yen X par la méthode des ‘moindres carrés. 3/ Trouver V’équation de la droite de regression de X en Y. 4) Calculer les coefficients de corrélation et de détermination. 5/ Estimer le rendement d’un employé ayant obtenu un résultat de 4 sur 10. Solution : a= 222 avec Cov (xy) = Bt -RF et voy = Ete? Caleulons d’abord les moyennes marginales : X et * aE ag ot PDE RoBi a5 PEt Cov (xy) 22 — (6)x(9) = 17,33 et VO) = 2B - OF = 8,66 a= 282-2. on owe coettlend comme suit; 8 Y= aX eomme le droite d’ajustement passe par le point moyen (X,7) —PP=ak+b —> b=Y-ak } Statistique 2/ Chapitre 2 : Les distributions statistiques 4 deux caractéres : étude de la régression, l’ajustement et la corrélation. be 9 (2) x)= ‘Léquation est Y= 2X-3 (on peut la représenter sur le nuage de points) 31 La drvite de gresion de Xen ¥ : Xe AY sh aves 222%, calculoos a “3 variance de Y :v(y) EtL_92 = 2-9)? = 34,66 = 0,5 et b=X-AP; oe =6-0,5(9)= 1,5 L’équation est X= 0,5 Y+155 41 Coefficients de corrlation (t) et de détermination 1? cov) 17a) tm 9783s oy pad = KDE Geayxo@) oO) VERITEE Teaxsan7 = Our Vad 2x05 ~1 rest égal a |, ily aune corrélation maximale entre les résultats du test et le rendement des employés. (1)? =1 ou 100%. Cela signifie que le rendement des employés est expliqué totalement (@ 100%) par les résultats du test. 5) Si X=4 ; Y=?, nous avons Y=2X-3 done Y= 2(4) -3= 5.

You might also like