P. 1
laborator6

laborator6

|Views: 0|Likes:
Published by cociorbayvy5694
hut
hut

More info:

Published by: cociorbayvy5694 on Mar 04, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

06/26/2014

pdf

text

original

Corelaţii

Obiective: - Coeficientul de corelaţie Pearson - Graficul de corelaţie (XY Scatter) - Regresia liniară

Problema 1. Introduceţi în Excel următorul tabel cu datele a 30 de pacienţi aflaţi în atenţia
centrului de diabet şi boli de nutriţie.
COLESTEROL inainte de tratament 210 327 281 174 223 183 183 211 179 244 195 262 277 177 223 185 171 169 148 133 179 120 118 209 210 202 174 183 141 210 COLESTEROL dupa tratament 180 220 256 174 183 153 153 190 159 200 175 244 244 156 200 172 171 155 148 133 166 120 118 150 215 180 154 173 141 183

VARSTA 59 68 70 29 29 52 43 47 30 47 41 41 60 67 73 68 49 50 40 48 38 44 26 47 26 29 33 41 52 43

GREUTATE 95 85 54 74 61 82 67 86 69 107 84 104 60 74 61 77 109 88 64 78 60 108 75 87 96 83 83 81 73 90

INALTIME 170 156 157 169 159 189 164 172 157 180 183 175 158 163 153 172 169 166 179 173 165 171 173 180 176 175 175 167 168 163

IMC

TAS 140 150 160 110 120 120 130 140 110 130 110 110 120 160 160 140 160 130 120 140 90 140 110 120 130 120 100 120 140 100

TAD 100 100 80 60 70 80 80 100 50 90 80 70 70 90 80 80 100 90 80 80 40 100 60 80 90 70 70 90 100 70

GLICEMIE 100 103 99 84 82 72 89 80 76 108 85 122 80 93 95 104 89 123 68 93 73 89 89 87 81 85 71 90 88 82

a. Calculaţi coeficientul de corelaţie Pearson dintre Varsta şi Greutate cu ajutorul funcţiei CORREL. b. Calculaţi indicele de masă corporală IMC după formula IMC = Greutate Inaltime(m) 2

2. h. IMC. 5. Reprezentaţi grafic dependenţa (corelaţia) dintre Vârstă şi IMC. Instrucţiuni Pentru punctul a. Calculaţi coeficienţii dreptei de regresie prin metoda grafică dintre Varsta şi Glicemie. adăugaţi pe grafic dreapta de regresie asociată. Greutate. Selectaţi celula unde vom calcula coeficientul de corelaţie. Determinaţi coeficienţii dreptei de regresie liniară pentru variabila dependentă Glicemie şi variabila independentă Greutate cu Regression din Data Analysis. . Introduceţi în Sheet 2 următorul tabel: 3. Calculaţi coeficientul de determinare prin metoda grafică pentru Varsta şi TAS. dreapta de regresie şi coeficientul de determinare în cateva cuvinte realizând o prezentare Power Point cu fiecare grafic pe un slide. f. calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie. Glicemie şi Colesterol înainte şi după tratament cu ajutorul Data Analysis – Correlation. i. e. Din meniul Insert alegeţi opţiunea Function. Calculaţi coeficientul de corelaţie Pearson dintre IMC şi TAS cu ajutorul pachetului Data Analysis – Correlation. k. TAD. urmat de interpretarea lui pe slide-ul următor. Interpretaţi graficele. adăugaţi pe grafic dreapta de regresie asociată. Reprezentaţi grafic corelaţia dintre Colesterol înainte şi după tratament. j. Calculaţi matricea de corelaţii a variabilelor: Varsta. Alegeţi din lista Or select a category categoria Statistical. g. 1. 4. Copiaţi Vârsta şi Greutatea în Sheet 2.c. d. TAS. calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie. Coeficientul de corelaţie Pearson este un indice numeric ce dă o măsură a relaţiei dintre două variabile cantitative continue sau discrete (!!! Nu se calculează pentru altfel de variabile). Reprezentaţi grafic dependenţa (corelaţia) dintre TAS şi TAD.

In rubrica Array1 introduceţi referinţele domeniului unde se găseşte variabila Varsta: A2:A31. Selectaţi funcţia Correl.6. . In rubrica Array2 introduceţi referinţele domeniului unde se găseşte variabila Greutate: B2:B31. Căutaţi funcţia Correl în lista cu funcţii. 7. Clic pe butonul OK. Clic pe OK.

Rezultatul întors de funcţia Correl este -0.8. Pentru punctul c. Calculaţi coeficientul de corelaţie Pearson dintre IMC şi TAS 1. Pentru punctul b. !!! Atenţie trebuie să efectuaţi transformarea înălţimii din cm în m.14. Calculaţi indicele de masă corporală IMC Introduceţi formula adaptată la Excel IMC = Greutate în coloana D. Copiaţi IMC în Sheet 3 în coloana A cu Paste Special (din meniul Edit) unde selectaţi Values: . coeficient care poate fi interpretat ca între Varstă şi Greutate nu există corelaţie. Calculaţi pentru Inaltime(m) 2 primul pacient şi apoi umpleţi coloana folosind Fill-Down (instrucţiuni pentru adaptarea formulei la Excel în Laborator 3).

. Dacă opţiunea Data Analysis nu este prezentă. 3. Dacă opţiunea Data Analysis este prezentă atunci se trece la pasul următor. atunci din meniul Tools se alege opţiunea Add-Ins. Pentru a folosi pachetul Data Analysis el trebuie instalat. 4. Alegeţi opţiunea Data Analysis din meniul Tools. Va apărea o fereastră asemănătoare celei de mai jos în care se va bifa prima opţiune Analysis ToolPak.2. Pentru aceasta verificaţi dacă nu a fost instalat deja: deschideţi meniul Tools. Copiaţi TAS în Sheet 3 în coloana B. Apăsaţi butonul Ok.

6. La Input Range selectaţi domeniul unde se găsesc valorile variabilelor IMC şi TAS: A1:B31. In cazul nostru selectăm Labels in first row. atunci în pagina de rezultate va apărea acel antet. Opţiunile Output se referă la locul amplasării coeficientului de corelaţie. Mai jos aveţi fereastra Correlation cu setările descrise mai sus. În cazul nostru vom bifa Columns. iar în rubrica de lângă introduceţi D2. ar trebui să nu bifăm nici Labels in first row. Apoi Ok. Dacă selectăm şi antetul de coloană. Coeficientul de corelaţie va fi afişat începând cu celula D2 pe aceeaşi pagină cu tabelul. . In acest caz trebuie să bifăm Labels in first row. Din fereastra care apare clic pe Correlation. adică numele variabilei. Labels in first row. Dacă nu bifăm funcţia va întoarce eroarea: “Input range contents non numeric data”. Clic pe Ok. In cazul în care nu selectăm antetul de coloană. Antetul de coloană sau linie poate să fie selectat sau poate lipsi. Selectaţi opţiunea Output Range. deoarece se consideră şi antetul de coloană ca fiind una dintre valorile variabilei. Grouped by: se va selecta Columns dacă fiecare variabilă este introdusă într-o coloană sau Rows dacă fiecare variabilă este introdusă într-o linie. Dacă bifăm Labels in first row atunci prima valoare a variabilei va fi luată drept antet de coloană şi rezultatele vor fi greşite.5.

Copiaţi variabilele din listă în Sheet 4. . Pentru punctul d. Corelaţia dintre IMC şi TAS este 0. TAD. Valorile 1 corespund corelaţiilor dintre IMC cu IMC şi TAS cu TAS. Rezultatul va fi o matrice de corelaţii de 2x2: 8.7. Glicemie şi Colesterol înainte şi după tratament 1. Atenţie: IMC se copiază cu Paste Special Values 3. Inseraţi o nouă pagină Sheet 4 din Insert –Worksheet. TAS. Din fereastra care apare clic pe Correlation. IMC. Calculaţi matricea de corelaţii a variabilelor: Varsta. Greutate. valoare care corespunde unei corelaţii acceptabile. Apoi Ok. corelaţii perfecte. 4.25. 2. Alegeţi opţiunea Data Analysis din meniul Tools.

Clic pe Ok. Mai jos aveţi fereastra Correlation cu setările descrise mai sus. 6. TAS. Selectăm Labels in first row. 7. TAD. La Input Range selectaţi domeniul unde se găsesc valorile variabilelor Varsta.Glicemie şi Colesterol: A1:H31. Labels in first row. Opţiunile Output se referă la locul amplasării coeficientului de corelaţie. Matricea de corelaţii va fi afişatǎ începând cu celula J2. iar în rubrica de lângă introduceţi J2. Greutate.5. 9. 8. Selectaţi opţiunea Output Range. Rezultatul va fi o matrice de corelaţii de 7x7: . Grouped by: se va selecta Columns. IMC.

08 0.13 0.47 0. Completaţi interpretarea Coeficientului de corelaţie pe coloana corelaţie conform regulilor lui Colton: .72 0.51 0. Alcătuiţi următorul tabel în Sheet 4: Coeficientul de corelatie Pearson -0.41 0.06 0.09 0.25 0.85 0.35 0.30 0.07 0.10.05 -0.14 0.49 0.46 0.36 -0.90 VARSTA VARSTA VARSTA VARSTA VARSTA VARSTA VARSTA GREUTATE GREUTATE GREUTATE GREUTATE GREUTATE GREUTATE IMC IMC IMC IMC IMC TAS TAS TAS TAS TAD TAD TAD GLICEMIE GLICEMIE COLESTEROL inainte GREUTATE IMC TAS TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa IMC TAS TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa TAS TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa GLICEMIE COLESTEROL inainte COLESTEROL dupa COLESTEROL inainte COLESTEROL dupa COLESTEROL dupa Corelatie slaba inexistenta 11.16 0.31 0.40 0.32 0.05 0.72 0.39 0.17 0.02 0.

adăugaţi pe grafic dreapta de regresie asociată. adică o creştere a lui X determină în general o creştere a lui X.25 la 0.25 înseamnă o corelaţie slabă sau nulă.5 la -0. Executaţi fiecare grafic pe o pagină nouă. realizaţi un grafic XY Scatter (instrucţiuni în Laborator 4) cu variabilele cerute la fiecare subpunct. calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie. Calculaţi coeficientul de determinare prin metoda grafică pentru Varsta şi TAS. Reprezentaţi grafic dependenţa (corelaţia) dintre Vârstă şi IMC. i. 2. Enunţurile: e. f.75) înseamnă o foarte bună asociere sau corelaţie Instrucţiuni e. h şi i. g.Coeficientul de corelaţie sau coeficientul Pearson Este un indicator independent de unităţile de măsură ale celor două variabile coeficientul Pearson COV ( X . Reprezentaţi grafic dependenţa (corelaţia) dintre TAS şi TAD. g.75 (sau mai mic decât -0. Dintre proprietăţile coeficientului de corelaţie menţionăm: • Coeficientul de corelaţie este un număr cuprins între -1 şi 1. • Cu cât coeficientul de corelaţie se apropie de 1 în valoare absolută cu atât mai mult "intensitatea" relaţiei liniare între cele două variabile va fi mai mare.75) înseamnă o corelaţie moderată spre bună 4. Când r < 0 relaţia între cele două variabile este "negativă" adică o creştere a lui X are în general ca şi consecinţă o diminuare a lui Y. un coeficient de corelaţie mai mare decât 0. un coeficient de corelaţie de la 0. un coeficient de corelaţie de la 0. g.25 la 0.5 la 0. Reprezentaţi grafic corelaţia dintre Colesterol înainte şi după tratament.50) înseamnă un grad de asociere acceptabil 3. Când r este pozitiv relaţia între variabilele X şi Y este "pozitivă". Calculaţi coeficienţii dreptei de regresie prin metoda grafică dintre Varsta şi Glicemie. f.25 la -0.50 (sau de la -0. f. h şi i Pentru punctul e. Toate graficele trebuie să aibă dreapta de regresie.75 (sau de la -0. calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie. Y ) Sx ⋅ Sy unde SX şi SY reprezintă abaterile standard pentru seriile X şi respectiv Y. h. adăugaţi pe grafic dreapta de regresie asociată. ecuaţia dreptei de regresie şi coeficientul de determinare. . un coeficient de corelaţie de la -0. r= Colton (1974) sugerează următoarele reguli empirice privind interpretarea coeficientului de corelaţie: 1.

Valoarea coeficientului de determinare exprimă o intensitate a relaţiei liniare între cele două variabile. o idee ceva mai precisă privind relaţia între cele două caracteristici se obţine împărţind diagrama de dispersie în patru cadrane prin două drepte perpendiculare care trec prin punctul ( X . având coordonatele egale cu mediile celor două variabile. . Prezicerea este semnificativă dacă coeficientul de corelaţie este suficient de mare sau dacă probabilitatea calculată în regresia liniară este p<0. adică d = r2. dreapta de regresie şi coeficientul de determinare în cateva cuvinte realizând o prezentare Power Point cu fiecare grafic pe un slide. Dreapta Y(X) Dreapta de regresie a variabilei Y în funcţie de variabila X: y=a+bx. Y ). Coeficientul de determinare este pătratul coeficientului de corelaţie r. Y ) b= SX a =Y −b⋅ X Ecuaţia dreptei de regresie ne permite prezicerea (exprimarea) valorilor uneia dintre variabile în funcţie de valorile celeilalte.Pentru punctul j Interpretaţi graficele. Valorile lui a şi b sunt date prin formulele: COV ( X . urmat de interpretarea lui pe slide-ul următor.05 semnificativă. Diagrama de dispersie (Norul de puncte) In acest sens. Sau răspunde la întrebarea: cât la sută din variaţia lui Y se poate explica prin relaţia liniară cu X. II * * Y * * * * * * III X * * * * * * * * * * * * I * * * * * IV Dacă există o relaţie liniară între cele două variabile atunci punctele diagramei se vor repartiza preferenţial în anumite cadrane (II şi IV sau I şi III).

633 R2 = 0.9935x + 81.5123 Diagrama de dispersie are o tendinţă crescătoare. precum şi a intervalului de încredere pentru fiecare dintre aceştia. Pentru punctul k Determinaţi dreapta de regresie liniară pentru variabila dependentă TAS şi variabila independentă Vârsta cu Regression din Data Analysis.Exemplu de interpretare: Corelatia dintre Varsta si TAS 180 160 140 120 Tas 100 80 60 40 20 0 0 10 20 30 40 Varsta 50 60 70 80 y = 0. acolo unde ati copiat Varsta si TAS 2. Punctele diagramei sunt repartizate în cadranele I şi III. poate fi realizată utilizând opţiunea Regression din modulul Data Analysis: 1. 51% din variaţia TAS se datorează relaţiei liniare. Dreapta de regresie are un trend ascendent. de exemplu B1:B20 ca variabilă dependentă (Input Y Range). Selectaţi domeniul valorilor variabilei TAS. Variaţia reziduală a TAS este 49%. Reveniţi pe pagina Sheet6. selectaţi variabila Vârstă. Determinarea coeficienţiilor dreptei de regresie. de exemplu A1:A20 ca variabilă independentă . Dependenţa dintre TAS şi Vârstă este pozitivă: o creştere a Vârstei implică o creştere a TAS. Alegeţi Regression din opţiunile din fereastra Data Analysis 3.

Adjusted R Square – coeficientul de determinare corectat . Rezultatele: Interpretare (cu albastru interpretările. In cazul nostru R2 = r2 = 0. pentru obţinerea intervalelor de încredere bifaţi opţiunea Confidence Level (cu nivelul de semnificaţie de 95%). R Square = 0. dar în cazul nostru cu o singură variabilă independentă Multiple R este coeficientul de corelaţie Pearson. deci 51% din variaţia TAS se poate explica prin relaţia liniară cu Vârsta.(Input X Range). bifaţi Labels.71 este coeficientul de corelaţie multiplu. iar cu negru explicaţiile): Multiple R = 0.51 este coeficientul de determinare multiplu R2 reprezintă proporţia variaţiei lui Y explicată de relaţia liniară cu X.51.

993539.6327. T stat este un test statistic cu ipoteza nulă: panta nu este diferită semnificativ de zero. Significance F = 0. atunci se refuză ipoteza nulă şi se acceptă ipoteza alternativă: constanta este semnificativ diferită de zero. în cazul nostru 30. Regression – variaţia lui Y care se explică în funcţie de X Residual – variaţia lui Y care nu se explică în funcţie de X (valoarea reziduală este de preferat să fie cât mai mică) Total – este variaţia totală.34 deci constanta nu este semnificativ diferită de zero. Coefficients – pentru Intercept (constanta) valoarea este 81. adică suma variaţiei regresiei cu variaţia reziduală df – gradele de libertate. Dacă panta este semnificativ diferită de 0 (acest lucru se întamplă dacă la Significance F avem o valoare p<0. In cazul nostru p=0.54 şi reprezintă media erorii predicţiei TAS cu ecuaţia de regresie. MS – media sumei de pătrate MS=SS/df F este parametrul testului F = MS(regression)/MS(residual). Observations Numărul total de subiecţi intraţi în studiu. SS – suma de pătrate.05.79.6327 Intercept . Lower 95% şi Upper 95% formează un interval de confidenţă de 95% în jurul constantei. iar pentru coeficientul a valoarea este 0.0000087 este mai mic decat 0.0000087 în acest caz se respinge ipoteza nulǎ (p-value<0.05).05 atunci se refuză ipoteza nulă şi se acceptă ipoteza alternativă: panta este semnificativ .05. adică corelaţia dintre cele două variabile este semnificativă. deci există corelaţie semnificativă între TAS şi Vârstă.constanta T stat este un test statistic cu ipoteza nulă: constanta (intercept) nu este diferită semnificativ de zero. Iar Lower 90% şi Upper 90% formează un interval de confidenţă de 90% în jurul constantei.analiza de regresie include şi un test cu ipoteza nulă: panta dreptei este egala cu 0 (adică nu există corelaţie între variabila dependentă şi cea independentă luate în studiu). Dacă p-value<0. Dacă pvalue<0. P-value este rezultatul testului. In cazul nostru eroarea standard este în medie 13. Anova . Deci dreapta de regresie Y=aX+b în cazul nostru este Y=0.993539X-81.Standard error = 13. In cazul nostru p=0.54 este eroarea standard estimată şi este interpretată ca media erorii în predicţia lui Y cu ecuaţia de regresie.05) tragem concuzia că există o relaţie liniară între X şi Y. P-value este rezultatul testului. Varsta (X) Panta dreptei de regresie (coeficientul a) este 162. deci panta dreptei de regresie este semnificativ diferită de 0.

abaterea standard. Pentru lotul de indemni de boală (LOT=2) calculaţi coeficientul de corelaţie Pearson r pentru TG şi IMC. iv) v) Pentru lotul de bolnavi (LOT=1) calculaţi matricea de corelaţie. Glicemie. indicatorii de localizare (quartilele). boltirea şi asimetria) pentru Varstă. IMC. coeficientul de variaţie. Iar Lower 90% şi Upper 90% formează un interval de confidenţă de 90% în jurul pantei.5). . Problema 2 Pentru a se studia hipercolesterolemia au fost luate în studiu două eşantioane: 187 de pacienţi şi 255 de indemni de boală. HDL colesterol.5 sau sub <-0.diferită de zero. Inălţime. Realizaţi: i) ii) iii) Sortaţi crescător datele cu cheia de sortare LOT (meniul Data – Sort. Interpretaţi statistic rezultatele. TG şi HDL. Trigliceride. variaţia. Greutate. calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie pentru parametrii între care există corelaţie bună şi foarte bună (r obţinut la iii) şi iv) peste >0. Lower 95% şi Upper 95% formează un interval de confidenţă de 95% în jurul pantei. alegeţi LOT). Glicemie şi HDL separat la lotul 1 şi la lotul 2. mediana). IMC şi Colesterol (utilizaţi funcţia CORREL). realizaţi dreapta de regresie asociată. Colesterol. Glicemie şi IMC. Colesterol. TG. vii) Determinaţi dreapta de regresie liniară pentru variabila dependentă TG şi variabila independentă BMI cu Regression din Data Analysis numai pentru pacienţii din LOT=1. vi) Reprezentaţi grafic corelaţiile.xls. Datele se găsesc în fişierul Biost2. indicatorii de dispersie (amplitudinea. Calculaţi IMC (indice de masă corporală) cu formula: IMC=Greutate/Inălţime(m)2 Calculaţi indicatorii de centralitate (media aritmetică. Pentru aceşti subiecţi au fost înregistraţi următorii parametrii biologici: Varstă.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->