Regresia multiplă

M. Popa

cuprins
1. 2. 3. 4. 5. 6. 7. Noțiuni de bază – regresia liniară simplă Modelul de predicție multivariată Obiectivele analizei de regresie multiplă Condiţii şi limitări Alegerea modelului de analiză Volumul eșantionului Regresia multiplă cu SPSS
– Operații preliminare – Procedura de calcul – Interpretarea rezultatelor

8. 9.

Validarea modelului de regresie Raportarea rezultatelor

Corelația și Regresia
• Corelaţia
– – – – arată legătura (asocierea) dintre variabile nu descrie relaţia cauzală dintre variabile nu permite predicţia unei variabile pe baza celeilalte variabile nu există variabilă dependentă şi dependentă

• Regresia
– metodă de predicţie a valorilor unei variabile pe baza valorilor altei variabile – variabila independentă
• variabila “cauză” • valorile ei “prezic” valorile variabilei dependente • este denumită “predictor”

– variabila dependentă
• variabila “efect” • valorile ei sunt “prezise” pe baza valorilor variabilei independente • este denumită şi “criteriu”

• Situaţia tipică în psihologie - examenele de selecţie
3

Tipuri de regresie liniară
• Regresia simplă
– o singură variabilă predictor – se bazează pe corelaţia simplă dintre criteriu şi predictor
P C

• Regresia multiplă
– mai multe variabile predictor – se bazează pe corelaţia multiplă dintre criteriu şi predictori – situaţia tipică în psihologie: selecţia bazată pe baterii de teste
P1

P2

C

P3
4

Predicţia perfectă
• r=±1
– zx=1.5 – zy’=1.5 – zy’ creşte sau scade cu aceeaşi unitate cu cât creşte sau scade zx
3,5 3,0

z y' = z x

2,5

2,0

1,5

1,0

,5

z(y)

0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5

z(x)

5

Predicţia în cazul corelaţiei imperfecte

• corelaţiile sunt numai prin excepţie perfecte • în mod normal, r variază în jurul lui 0
– exemplu: corelaţia între cunoştinţele de matematică şi rezultatele la statistică

z y' = r * z x

6

Noţiunea de regresie către medie

• Sir Francis Galton (18221911) • relaţia dintre înălţimea medie a părinţilor şi înălţimea copiilor (r=+0.67 )
văr cu Ch. Darwin descoperitorul amprentelor digitale meteorolog, psiholog, statistician, genetician, explorator

z y ' = 0 . 67 * 2 = 1 . 34

7

Subiect 1 2 3 4 5 6 7 8 9 10

QI (X) 123 119 115 120 124 113 110 112 132 128

performanța școlară (Y) 96 83 85 90 96 73 78 89 100 99

Y
criteriu

Satterplot bivariat cu dreapta de regresie

A
Valoare reală Ya Valoare prezisă Y’a

=96

Eroare de predicție

ε=3.4

=92.6
B

Xa=123

X
predictor

Ecuaţia dreptei de regresie

Y = a yx + byx * X
• Y’ → valoare prezisă (criteriu) • ayx → originea dreptei; (punctul în care linia de regresie intersectează axa Oy). • byx → panta liniei de regresie
– poate fi exprimată ca fracţiuni ale lui X determinate de r

'

• X → valoare predictor a variabilei Y

10

Expresia grafică a regresiei aceeaşi origine dar pante diferite origini diferite, dar aceeaşi pantă

11

Modelul de regresie simplă
• Acuratețea predicției este dată de coeficientul de regresie R (expresia lui r)
– Exemplul nostru: R=0.85

• Semnificația statistică se testează cu testul F
– Exemplul nostru: F=22.10; p=0.002

• Termenul liber (a)
– Exemplul nostru: -40.42 (ns… eșantion foarte mic…)

• Coeficientul de pondere (b)
– Exemplul nostru: 1.08 (p=0.002)

• Y=-40.42+1.08*X

Varianța predicției = eroarea standard a estimării
Scor inteligență (predictor) X 110 112 113 115 119 120 123 124 128 132 Performanța școlară (criteriu) Y 78 89 73 85 83 90 96 96 99 100 Valoarea prezisă Y’ 78.5 80.7 81.8 83.9 88.3 89.3 92.6 93.7 98.0 102.3 Eroare de predicție ε -0.52 8.32 -8.76 1.07 -5.25 0.67 3.42 2.34 1.02 -2.31

Y
criteriu

Varianța predicției

Valoare reală Ya=96 Eroare de predicție Valoare prezisă Y’a=92.6 Media predicției Y’m=88.9

A
ε=3.4

Varianță neexplicată (diferență reziduală)

Ya-Y ’=3.4
Varianță explicată

B

Y’a-Ym=3.7

Xa=123

X
predictor

regresia nu este simetrică ! • dacă inversăm variabilele în ecuaţia de regresie se va obţine o linie de regresie diferită • dacă se inversează ordinea variabilelor în calcularea corelaţiei, se obţine acelaşi coeficient r

15

Modelul de predicție multivariată

Y ' = ai + b1 * X 1 + b2 * X 2 + b3 * X 3 + .... + bk * X k
Unde • Y’ este valoarea estimată pentru variabila criteriu (dependentă) • ai este punctul de origine al liniei (constanta) • b1, b2, b3... bk sunt coeficienţii beta pentru cele k variabile predictor • X1, X2, X3.... Xk sunt valorile celor k variabile predictor

Scatterplot trivariat
Y
criteriu

X1
predictor

X2
predictor

Planul de regresie multivariată
Y
criteriu

X1
predictor

X2
predictor

• R = coeficientul de corelație multiplă • R2 = procentul de variaţie din VD (criteriu) determinat de variaţia simultană a VI (criterii) • Semnificaţia statistică a lui R este calculată cu ajutorul unui test de varianţă (F) • Cu cât contribuie fiecare predictor la estimarea criteriului?
– corelația semi-parțială dintre criteriu și predictori – (va fi tratată în cursul următor)

Utilitatea regresiei multiple
• Descrierea relațiilor dintre variabile • Predicția în scop de selecție • Dezvoltarea teoriei testării psihologice

Condiții și limitări
• Variabila dependentă (criteriu):
– Trebuie să fie măsurată pe scală de interval raport, cu respectarea condiţiilor de aplicare a testului de corelaţie (normalitatea distribuţiei, în special). – Poate fi măsurată şi pe scală ordinală – … în nici un caz pe scală nominală (în acest caz, se utilizează alte tehnici de regresie – analiza de discriminare sau regresia logistică)

• Variabilele independente (predictori)
– vor fi măsurate pe scale de interval – pot fi introduse în ecuație şi variabile măsurate la nivel ordinal – pot fi utilizate direct şi variabile nominale categoriale dihotomice, codificate numeric (0/1)

• Distribuţia variabilelor cantitative trebuie să fie normală
– Dacă se abat grav de la această condiţie, se vor utiliza proceduri adecvate de transformare.

• Relaţiile dintre VI și VD trebuie să fie liniare
– condiţie verificabilă cu ajutorul unui grafic scatterplot

• Omogenitatea pantei de regresie
Homoscedasticitate Heterodasticitate Heterodasticitate

multicoliniaritatea
• Variabilele predictor trebuie să fie ortogonale • Corelația dintre predictori se numește multicoliniaritate • Efecte negative
– Diminuarea coeficientului de corelație multiplă – Amplifică variabilitatea coeficienților de regresie – Reduce precizia predicției

• Evaluare
– Corelații bivariate – Matricea de scatterploturi – Indicele de ”toleranță”
• ia valori între 0 şi 1 • valorile apropiate de 0 sunt un semn al coliniarităţii • Dacă „toleranţa” este mai mică de 0.1 ridică o problemă de coliniaritate

• Soluții: combinarea predictorilor sau eliminarea

• Variabilele vor fi măsurate fără erori, iar cazurile care prezintă valori extreme vor fi analizate şi tratate corespunzător • Valorile reziduale (erorile de predicţie) se vor supune următoarelor condiţii:
– media valorilor reziduale în studii de replicare să fie zero; – erorile din cazul unei variabile independente nu au nici o legătură cu erorile altei sau altor variabile independente; – erorile nu corelează cu variabilele independente; – varianţa valorilor reziduale pe toată distribuţia variabilelor independente este omogenă (homoscedasticitate) – erorile au o distribuţie normală;

• efectul valorilor extreme (outliers) asupra ecuaţiei de regresie,
– poate fi considerabil – uneori chiar şi una sau două valori excesive pot influenţa analiza de regresie – aceste valori vor fi identificate şi tratate corespunzător înaintea calculării ecuaţiei de regresie multiplă

alegerea modelului de analiză
• Fixarea modului în care variabilele predictor sunt introduse în modelul de regresie este una dintre deciziile importante • se referă în esență la:
– stabilirea importanței predictorilor – ordinea de introducere – modul de tratare a acestora de către programul de regresie

• se vor utiliza:
– informații despre relația bivariată dintre predictori și criteriu – rezultate ale unor cercetări anterioare sau modele teoretice validate ori aflate în stadiul de ipoteză.

– metode de introducere a variabilelor predictor în ecuaţie
• Regresia multipla standard. • Regresia multiplă secvenţială (regresie ierarhică). • Regresia multiplă pas cu pas.

Regresia multiplă standard

• toate variabilele predictor sunt incluse în ecuaţie, • efectul fiecăreia este evaluat după şi independent de efectul tuturor celorlalte variabile introduse anterior • fiecare variabilă independentă este evaluată numai prin prisma contribuţiei proprii la explicarea variabilei dependente

Regresia multiplă secvenţială (ierarhică)
• Variabilele independente sunt introduse în ecuaţie într-o anumită ordine, în funcţie de opţiunile analistului. • Atunci când acesta are motive să creadă că o anumită variabilă are o influenţă mai mare, o poate introduce în ecuaţie înaintea altora.

Regresia multiplă pas cu pas
• utilizată în studii exploratorii, (nr. mare de predictori) • trei variante:
– Selecţia anterogradă – Selecţia pas cu pas – Selecţia retrogradă

Selecţia anterogradă
• Toate variabilele predictor sunt corelate cu variabila criteriu după care variabila care are corelaţia cea mai mare este introdusă prima în ecuaţie. • Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai mare, după ce a fost eliminat efectul variabilei anterioare. • Procesul continuă până ce nivelul contribuţiei variabilelor predictor este prea mic pentru a mai fi luat în considerare. • O variabilă odată introdusă în ecuaţie rămâne acolo.

Selecţia pas cu pas
• Este o variantă a metodei anterioare. • la fiecare pas, fiecare variabilă deja introdusă este retestată pentru a se evalua efectul ei ca şi cum ar fi fost introdusă ultima. • Dacă o variabilă nou introdusă are o contribuţie mai consistentă asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedeşte mai puţin predictivă.

Selecţia retrogradă
• Pasul iniţial este calcularea a unei ecuaţii de regresie în care toate variabilele predictor sunt incluse • Ulterior, pentru fiecare variabilă predictor este efectuat un test de semnificaţie „F”, pentru a se evalua contribuţia fiecărui predictor la corelaţia de ansamblu. • Valorile testului F sunt comparate cu o valoare limită prestabilită, variabilele care nu trec acest prag fiind eliminate din ecuaţie. • Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de eventuala eliminare a unei alte variabile. • Procesul continuă până când doar variabilele semnificative rămân în ecuaţie

Concluzii la alegerea metodei de introducere a variabilelor

• metoda „secvenţială” şi cea „pas cu pas” sunt superioare metodei „standard”.
– în cazul metodei secvenţiale, decizia de selecţionare a variabilelor introduse în ecuaţie aparţine cercetătorului – în cazul metodei pas cu pas, programul este cel care face în mod automat selecţia, în funcţie de parametri fixaţi de analist.

Analiza de putere pentru regresia multiplă
• stabilirea volumul eșantionului în funcție de:
– mărimea efectului – numărul predictorilor – puterea testului

• Recomandări:
– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10 variabile independente (predictori) – N≥50+8*m

• Mărimea efectului
– Mic = 0.02 – Mediu = 0.15 – Mare = 0.35

R2 f2= 1− R2

• G*Power

Obiective de cercetare specifice analizei de regresie multiplă
• analiza de regresie multiplă este utilizabilă în situaţii de predicţie – dorim să selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de teste psihologice – odată stabilită ecuaţia de regresie pentru eşantionul studiat, utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor subiecţi • Întrebări tipice: – Care dintre indicatorii testelor utilizate are capacitatea de predicţie cea mai ridicată? – Există indicatori care nu au relevanţă pentru predicţia performanţei profesionale? – Are ecuaţia de regresie astfel obţinută o capacitate sigură de predicţie? – Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale? – Are ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?

Efectuarea analizei de regresie cu SPSS

Validarea predicţiei...

Raportarea rezultatelor
• datele iniţiale şi eventualele eliminări sau transformări efectuate; • indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaţie, graficele ilustrative pentru diferitele distribuţii; • coeficienţii de regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate); • dacă a fost utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas şi nivelul lor de semnificaţie; • tabelul cu coeficienţii B (sau beta), coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă independentă inclusă în model; • se vor trage concluzii de ansamblu...

Sign up to vote on this title
UsefulNot useful