Professional Documents
Culture Documents
Statistică inferenţială
Curs + aplicaţii seminar
Variabilele măsurate, aspectele realităţii pe care acestea le descriu, nu sunt perfect autonome, ci
se află în relaţie între ele. Tocmai surprinderea acestei legături face obiectul cercetărilor realizate.
Aceste legături sunt de regulă de intercondiţionare, fără a fi vorba propriu-zis de o relaţie tip
„cauză” – „efect” - pentru că pe lângă aceşti doi termeni mai intervin o multitudine de variabile
mediatoare, modelatoare.
Într-o astfel de relaţie, definim variabila dependentă ca fiind efectul, iar variabila
independentă ca fiind cauza. Variabila dependentă face obiectul măsurării, al interesului direct al
cercetătorului. Variabila independentă o influenţează pe cea dependentă, reprezintă condiţia sau
contextul din care rezultă variaţia valorilor variabile dependente.
Exemplu: ne poate interesa în ce măsură urmarea unui program de reducere a anxietăţii
îmbunătăţeşte performanţa la sportivi. În acest caz variabila dependentă este performanţa, iar variabila
independentă includerea sau nu într-un astfel de program.
Trebuie spus faptul că variabilele nu sunt dependente sau independente prin natura lor; ex. ne
putem pune problema dacă performanţa obţinută influenţează stima de sine; în acest caz, performanţa
este variabilă independentă.
Termenii de „dependent” / „independent”, cu referire la variabile, se folosesc uzual chiar dacă
relaţia descrisă nu este una de cauzalitate directă.
Studiile în care se analizează relaţia dintre variabile, fără a se face o apreciere de natură cauzală,
se numesc studii corelaţionale sau studii observaţionale.
Un alt tip de studii sunt studiile experimentale. În context experimental, variabilele sunt
controlate, sunt manipulate riguros de cercetător, putându-se astfel stabili relaţii de cauzalitate între
variabila dependentă şi cea independentă.
Experimentul presupune de regulă existenţa a două momente de desfăşurare a evaluării: un
moment iniţial (testare iniţială sau pretest) şi un moment final (testare finală sau posttest). Între aceste
două momente se interpune partea de intervenţie experimentală propriu-zisă.
În contextul experimentului se folosesc frecvent două grupe de subiecţi (design intersubiect -
between subjects design): o grupă asupra căreia se intervine efectiv (grupa experimentală GE) şi o
grupă asupra căreia experimentatorul nu intervine (grupa martor sau de control GC). Necesitatea
controlului experimental asupra VI impune ca în faza de testare iniţială cele două grupe să fie
echivalente sub aspectul variabilelor de interes (variabile demografice, fiziologice etc.). Echivalenţa
grupurilor se asigură de regulă prin selecţia aleatorie a subiecţilor din cele două grupuri, dar poate fi
testată şi prin proceduri statistice.
1
În alte experimente, se foloseşte un singur grup de subiecţi, testaţi în mod repetat (design
intrasubiect - within subjects design). Avantajul este acela că se asigură astfel echivalenţa totală a
grupurilor; dar nu mereu acest design poate fi folosit, intervenind în plus şi efectul obişnuinţei. Ca o
alternativă, se pot folosi grupuri cu subiecţi pereche: fiecărui subiect din fiecare grup îi corespunde un
alt subiect având trăsături şi caracteristici asemănătoare (vârstă, sex, indici antropometrici şi fiziologici
etc.).
Tipurile de designuri experimentale şi aspectele ţinând de controlul variabilelor fac obiectul
metodologiei cercetării.
2. planuri experimentale cu evaluare pretest-posttest: este similară cu tipul anterior, dar are în plus:
pretestul (acesta certifică o dată în plus echivalenţa grupurilor);
pt. ex. anterior: nivelul dezvoltării abilităţilor motrice este evaluat şi în pretest (anterior includerii în
program), pentru a ne asigura de faptul că între subiecţii din cele două grupe nu există din start
diferenţe pe linie de motricitate
3. planuri experimentale cu mai mult de două grupuri de participanţi (VI are mai multe niveluri;
pentru fiecare nivel, se obţin scoruri diferite ale VD); la final, se compară performanţele
grupurilor respective
pt. exemplu anterior: avem de ex. trei grupe de subiecţii: cu unii nu se lucrează, cu alţii se foloseşte un
program clasic de antrenament, iar cu al treilea grup un nou program; la final, compar performanţele
celor trei grupe (folosind procedura statistică ANOVA unifactorială).
1
VI sunt numite în acest context “factori”
2
exemplu: un grup de persoane cu dizabilităţi este implicat în programul de recuperare „A”, apoi în
programul „B”, apoi în programul „C” etc. Se compară starea de sănătate a participanţilor la finalul
fiecăruia din cele trei programe.
2. cu subiecţi pereche: utilizează subiecţi diferiţi în situaţii experimentale diferite, dar subiecţii sunt
selectaţi în „perechi”; la final, rezultatele obţinute sunt comparate (folosind aceeaşi procedură
ANOVA unifactorială pentru măsurători repetate)
pt. exemplul anterior: pentru a se evita cumularea în timp a efectelor tratamentului etc., se folosesc
„perechi de subiecţi”: ex. un bărbat de 50 de ani, normoponderal, cu hipertensiune arterială, care
fumează şi cu o dispoziţie afectivă bună, va avea în celălalt grup o „pereche”: un bărbat de vârstă
asemănătoare, cu aproximativ aceleaşi probleme cardiace, tot fumător etc.
II. Planuri experimentale factoriale: conţin două sau mai multe VI2; se urmăreşte atât influenţa
fiecărei VI asupra VD, cât şi interacţiunea dintre nivelurile VI.
1. planuri experimentale bifactoriale: avem două VI, fiecare având câte două niveluri;
Medicaţia A
A1 A2
Program de relaxare da I II
nu III IV
OBS: sunt posibile patru combinaţii între nivelurile VI; avem deci patru grupuri de subiecţi (obs.
acestea trebuie să fie echivalente între ele!)
Exemplu: patru grupuri de cardiaci; grupul I: medicaţia A1 şi urmează un program de relaxare; grupul
II: medicaţia A2 şi urmează programul de relaxare; grupul III: medicaţia A1 şi nu urmează programul
de relaxare; grupul IV: medicaţia A2 şi nu urmează programul de relaxare. Avem două VI: tipul de
medicaţie şi programul de relaxare. Ca VD se pot specifica o serie de indicatori fiziologici, ex. TA.
Diferenţele dintre grupuri se testează, pentru variabile numerice, folosind procedura ANOVA factorială
Avantaj: acest design permite evidenţierea interacţiunii dintre variabile, a.î. efectul uneia asupra VD
depinde de valoarea celeilalte
Ex. se poate evidenţia faptul că medicaţia A1 are un efect puternic de normalizare a TA, dar numai
atâta vreme cât se însoţeşte cu şedinţe de relaxare.
2. planuri experimentale multifactoriale: avem „N” VI, fiecare având „N” niveluri; sunt mai complexe
şi interpretarea rezultatelor mai dificilă.
4. Testele statistice
2
spre deosebire de planurile experimentale unifactoriale, cu o singură VI („factor”)
3
Testele statistice servesc la testarea ipotezelor statistice. Aceste teste sunt calculate automat de
softurile statistice. În urma rulării lor, programul SPSS afişează mai multe elemente, dintre care
interesează în special următoarele:
- valoarea calculată a testului (scorul calculat – ex. t calculat, F calculat, r calculat etc.);
- d.f. (gradele de libertate);
- Sig. (p) = probabilitatea asociată valorii calculate a testului
OBS: p este cel mai important element; pe baza lui se ia decizia statistică (decizia privitoare la
ipotezele cercetării). Astfel, pentru un prag de semnificaţie de 0,053:
- dacă p < 0,05: se acceptă H1, se respinge H0;
- dacă p > 0,05: se acceptă H0, se respinge H1
Toate acestea se realizează în SPSS din meniul Analyze --- Compare means
3
OBS. Se poate alege şi un prag mai exigent, de 0,01
4
distribuţia t este o distribuţie teoretică care are toate caracteristicile unei distribuţii normale, specificul ei fiind acela că
forma ei depinde de un parametru numit „grade de libertate” (engl. degrees of freedom, prescurtat d.f.)
5
distribuţia z (distribuţia standard) este o distribuţie rezultată prin standardizarea valorilor unei distribuţii
4
Testul t pentru două eşantioane independente6
Se foloseşte pentru a testa diferenţa dintre mediile aceleiaşi variabile (VD) măsurate pe două
eşantioane independente. Cele două eşantioane sunt definite prin categoriile variabilei independente
(variabilă măsurată pe scală nominală dihotomică).
Exemplu:
Ne interesează diferenţa dintre nivelul performanţei la sportivii care practică exerciţii de relaxare şi cei
care nu practică astfel de exerciţii.
- VD este: nivelul performanţei la o probă motrică; VD se măsoară pe scală de interval / raport
(variabilă numerică);
- VI este: practicarea exerciţiilor de relaxare, variabilă non-numerică, măsurată pe scală
nominală categorială cu două modalităţi (dihotomică): practică versus nu practică.
Group Statistics
Std. Error
grup N Mean Std. Deviation Mean
performanţă practicanţi 21 120.81 8.612 1.879
nepracticanţi 29 109.86 14.225 2.641
6
eşantioane independente = între subiecţii din cele 2 eşantioane nu există nici o legătură, în sensul că selecţia unui subiect
din primul eşantion nu influenţează selecţia unui subiect din al doilea eşantion (ex. normotensivi-hipertensivi, adulţi-
vârstnici, subiecţi care au urmat un tratament / subiecţi care nu au urmat acel tratament)
7
ex. pentru proba săritura în lungime de pe loc (ce măsoară forţa explozivă a membrelor inferioare); valori ridicate la
această probă echivalează cu o performanţă ridicată
Ipotezele sunt:
- ipoteza cercetării: nivelul performanţei diferă semnificativ între cele două grupuri
- ipoteza nulă: nivelul performanţei nu diferă semnificativ între cele două grupuri
5
Independent Samples Test
P Levene's Test for t-test for Equality of Means
E Equality of
R Variances
F 95% Confidence
O Interval of the
R Difference
M Upper Lower
A
N Sig. (2- Mean Std. Error
Ţ F Sig. t df tailed) Difference Difference
A Equal
variances 10.233 .002 -3.131 48 .003 -10.947 3.497 -17.978 -3.917
assumed
Equal
variances
-3.377 46.750 .001 -10.947 3.242 -17.470 -4.425
not
assumed
În exemplul nostru:
Pe eşantioanele studiate (N total = 50), nivelul mediu al performanţei a fost mai ridicat la
sportivii ce practică exerciţii de relaxare (media = 120,81 cm) comparativ cu ceilalţi (media = 109,86).
Diferenţa dintre cele două medii este suficient de mare pentru a fi statistic semnificativă la un prag de
0.01 (t= - 3,377, d.f.= 46,750, p = 0,001). Putem astfel accepta ipoteza cercetării, conform căreia există
o diferenţă între nivelul performanţei în funcţie de practicarea sau nu a exerciţiilor de relaxare.
8
testul t se calculează diferit pentru dispersii egale / inegale
6
Testul t pentru două eşantioane dependente9
Se foloseşte pentru a testa diferenţa dintre mediile aceleiaşi variabile măsurate pe acelaşi grup
de subiecţi (sau pe „subiecţi-pereche”) în situaţii diferite sau în momente diferite (ex. „înainte” şi
„după” acţiunea unei anumite condiţii).
Variabila trebuie să fie una măsurată pe scală de interval / raport.
Exemplu:
Ne interesează diferenţa dintre nivelul performanţei la sportivi înainte şi după practicarea exerciţiilor de
relaxare.
Se creează două variabile distincte, care primesc câte o valoare pentru fiecare subiect (în cazul
nostru, „performanţa_înainte” şi „performanţa_după”)10.
Testul se rulează din meniul Analyze --- Compare means ---- opţiunea Paired Samples t-test,
La deschiderea casetei principale de dialog selectăm pe rând cele două variabile, care sunt trecute în
zona Current Selection şi apoi în zona Paired Variables. Se acţionează butonul OK.
saritura în lungime
de pe loc_final 115.57 51 13.147 1.841
7
- Sig. (p)
În exemplul nostru:
Pe eşantionul de sportivi studiat (N =51), nivelul mediu al performanţei a fost mai ridicat la
testarea finală, după parcurgerea şedinţelor de relaxare (media = 115,57 cm), comparativ cu testarea
iniţială (media = 113,88 cm). Diferenţa dintre cele două medii este suficient de mare pentru a fi statistic
semnificativă la un prag de 0.01 (t= - 4,445, d.f.= 50, p < 0,001). Putem astfel accepta ipoteza
cercetării, conform căreia există o diferenţă între nivelul performanţei la cele două testări, diferenţă ce
poate fi atribuită practicării exerciţiilor de relaxare.
Analiza de corelaţie
Analiza de corelaţie pune în evidenţă existenţa unei legături între variaţia valorilor unei variabile în
raport cu o altă variabilă. Se testează gradul de asociere dintre două variabile măsurate pe acelaşi grup
de subiecţi.
11
Obs. este vorba de variaţia concomitentă a valorilor variabilelor testate, şi nu de existenţa unei relaţii cauzale între acestea
8
- mărimea lui r: cu cât valoarea lui r este mai depărtată de zero, cu atât corelaţia este mai „puternică”
(0: lipsa oricărei corelaţii, cele două variabile evoluează independent; 0,1-0,3: corelaţie slabă; 0,3-0,5:
corelaţie medie; 0,5-0,7: corelaţie puternică; 0,7-0,9: corelaţie foarte puternică; 0,9-1: variabile practic
indistincte)
- semnificaţia lui r: dincolo de mărimea coeficientului, ne interesează şi măsura în care acesta este
„semnificativ” (diferit de o valoare rezultată prin jocul întâmplării; coeficientul r calculat pe eşantion
estimează corelaţia la nivelul populaţiei); de aceea întotdeauna analizăm şi probabilitatea aferentă
valorii calculate a lui r; dacă este sub 0,05, spunem despre r că este „semnificativ”)
Ex. dorim să analizăm relaţia dintre „numărul de ore de antrenament” şi „performanţa la proba
săritură în lungime de pe loc ”12. Înregistrăm date pentru 51 de subiecţi (N=51).
Variabilele se definesc în foaia Variable view şi se introduc datele în Data View.
Analiza de corelaţie se realizează din meniul Analyze --- Corelate --- Bivariate:
La deschiderea casetei principale de dialog, trecem variabilele de interes în zona Variables.
Este bifată implicit opţiunea de calculare a coeficientului de corelaţie Pearson, precum şi
opţiunea testării bilaterale a ipotezelor (Test of significance – two-tailed).
De asemenea, este bifată implicit opţiunea marcării cu un asterisc a corelaţiilor semnificative la
un prag de 0,05 şi cu două asteriscuri a corelaţiilor semnificative la un prag de 0,01 (Flag significant
correlations), fapt ce uşurează citirea tabelului
Se acţionează butonul OK.
În fereastra Output Viewer se afişează tabelul de corelaţie:
Correlations
ore
performanta antrenament
performanta Pearson Correlation 1 .852(**)
Sig. (2-tailed) .000
N 51 51
ore antrenament Pearson Correlation .852(**) 1
Sig. (2-tailed) .000
N 51 52
** Correlation is significant at the 0.01 level (2-tailed).
Informaţia dintr-un astfel de tabel este redundantă. Citim rezultatul testului în căsuţa bolduită:
- coeficientul de corelaţie lineară Pearson r (Pearson Correlation): r= 0,85;
- N (numărul de subiecţi): N = 51
- Sig. (p, probabilitatea asociată valorii calculate a lui r): p = 0,000
Raportarea rezultatelor
În exemplul nostru: Pe eşantionul studiat, a putut fi găsită o asociere pozitivă, foarte puternică şi
statistic semnificativă între numărul de ore de antrenament şi performanţa motrică (r= 0,85, N= 51, p <
0,001). Putem astfel accepta ipoteza cercetării; cu cât un sportiv se antrenează mai mult timp, cu atât
performanţa sa motrică se îmbunătăţeşte.
12
Ipotezele sunt:
- ipoteza cercetării: există o asociere semnificativă între numărul de ore de antrenament şi performanţa motrică
- ipoteza nulă: nu există nici o asociere între numărul de ore de antrenament şi performanţa motrică
9
Reprezentarea grafică a corelaţiei
Interpretarea corelaţiei este facilitată de folosirea reprezentării sale grafice – graficul tip
Scatterplot.
În SPSS, graficul se realizează din meniul Graphs --- Interactive--- Scatterplot
Una dintre variabile se trece pe axa OX, cealaltă pe axa OY.
Acţionând butonul OK, se obţine în output graficul Scatterplot.
Linear Regression
130
120
performanta
110
100
90
În grafic sunt reprezentate punctele de intersecţie ale perechilor de valori ale celor două
variabile (puncte ce compun un „nor”). Norul de puncte poate fi aproximat printr-o linie („linia de
regresie”).
Având o corelaţie pozitivă, observăm cum norul de puncte se orientează din stânga-jos spre
dreapta-sus; în plus, corelaţia fiind una puternică, punctele sunt alăturate şi situate în jurul liniei de
regresie.
Se foloseşte atunci când se doreşte a se testa asocierea dintre două variabile nonnumerice,
măsurate pe scală nominală.
10
Ex. Relaţia dintre starea de bine autoraportată (da / nu) şi urmarea unui program de relaxare
(da / nu)13.
Testul Chi-pătrat se rulează în SPSS din meniul Analyze --- Descriptive Statistics --- Crosstabs.
Una dintre variabile se trece în zona Rows, cealaltă în zona Columns.
Se acţionează butonul Statistics şi se bifează opţinea Chi-square.
1. tabelul de frecvenţă pentru cele două variabile analizate simultan (tabel de corespondenţă)
N of Valid Cases 51
a Computed only for a 2x2 table
b 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.78.
Raportarea rezultatelor:
Pentru a testa asocierea dintre realizarea de exerciţii de relaxare şi starea de bine la cardiaci, a fost
folosit testul Chi-pătrat. Majoritatea persoanelor care au fost implicate într-un program de relaxare au
afirmat că au o stare generală de bine, spre deosebire de persoanele care nu au fost implicate într-un
astfel de program. Asocierea dintre cele două variabile este statistic semnificativă la un prag de 0,01
(Chi-pătrat = 16,655, d.f. =1, p< 0,001). Ipoteza cercetării a fost confirmată.
13
ipotezele sunt:
H1: Există o asociere între starea de bine autoraportată şi participarea la şedinţe de relaxare la cardiaci
Ho: Nu există nici o asociere semnificativă între starea de bine autoraportată şi participarea la şedinţe de relaxare la cardiaci
11