You are on page 1of 66

Catedra de medicină socială și management „Nicolae Testemițanu”

STATISTICA INFERENȚIALĂ: CONCEPTE


TEORETICE DE BAZĂ. TESTAREA IPOTEZEI.
METODE DE INFERENȚĂ PENTRU DATELE
CANTITATIVE ȘI CALITATIVE

Obreja Galina, conferențiar universitar

1
CUPRINS
1. Definiția clasică a probabilității.
2. Legea cifrelor (numerelor) mari.
3. Distribuția de eșantionare a mediilor. Eroarea standard.
4. Testarea ipotezelor statistice: ipoteza nulă (H0) și ipoteza alternativă (H1).
5. Eroarea de tip I și eroarea de tip II.
6. Nivelul de semnificație și valoarea p.
7. Puterea studiului.
8. Etapele testării ipotezei statistice.
9. Intervalele de încredere: tipuri, metode de calcul.
10. Metode de inferență pentru date cantitative (medii):
– teste de tip t pentru un eșantion: comparația între media unui eșantion și media unei populații;
– teste de tip t pentru două eșantioane independente: comparația între mediile a două eșantioane independente;
– teste de tip t pentru două eșantioane pereche: comparația între două măsurători repetate pentru același grup.
11. Metode de inferență pentru date calitative:
– tabele de contingență;
– testul chi-pătrat;
– testul Fisher exact.

2
STATISTICA INFERENȚIALĂ
Colectarea
datelor
Eșantion
Populație

Descrierea
eșantionului
Formularea
concluziilor
Inferența
statistică

Parametri Statistici

Probabilitatea 3
STATISTICA INFERENȚIALĂ
➢ Statistica descriptivă descrie, organizează și rezumă datele colectate.
➢ Scopul unei cercetări este de a face concluzii despre populație în baza
datelor colectate dintr-un eșantion selectat (aleatoriu) din această
populație.
➢ Deoarece nu putem fi niciodată siguri de faptul, că concluziile noastre
bazate pe acest eșantion, reprezintă cu exactitate populația țintă,
utilizăm în acest scop statistica inferențială.
➢ Statistica inferențială se utilizează pentru a determina dacă un
fenomen observat într-un eșantion reprezintă un fenomen real în
populația din care a fost extras (aleatoriu) eșantionul.
➢ Statistica inferențială se bazează pe teoria probabilităților (știința
incertitudinii).
4
TEORIA PROBABILITĂȚILOR

5
TEORIA PROBABILITĂȚILOR
➢ Conceptul șansei sau al probabilității este unul esențial în statistică, iar
teoria probabilităților studiază posibilitatea producerii unui eveniment.
➢ Probabilitatea este un indicator al șansei (probabilității) producerii
unui eveniment sau a unei condiții ori a probabilității aflării unei valori
într-un anumit interval.
➢ Evenimentul poate fi:
– sigur, se produce în mod obligatoriu (după toamnă vine iarna, promovarea
concursului și admiterea în USMF), probabilitatea = 1;
– imposibil (va ninge la 36°C), probabilitatea = 0;
– aleatoriu (aruncarea unei monede, aruncarea unei mingi de baschet în coș),
probabilitatea ca mingea să ajungă în coș variază între 0 și 1.

6
PROBABILITATEA
➢ Definiția clasică a probabilității: probabilitatea (P) producerii unui eveniment
este raportul dintre numărul cazurilor favorabile producerii evenimentului (m)
şi numărul total al cazurilor posibile (n).
𝑚
P=
𝑛
P+q=1
q - probabilitatea lipsei evenimentului
➢ q = 1 -P
Exemplu de calcul al probabilității:
Numărul anunțat de locuri pentru admiterea la studii la „Medicină” = 700. Au fost
depuse 2100 de cereri de admitere. Care este probabilitatea admiterii?
700
P = 2100 = 0,33 (sau 1:3)
7
TEORIA PROBABILITĂȚILOR

➢ Cu cât „P” este mai aproape de 1, cu atât probabilitatea


producerii evenimentului este mai mare și, invers, cu cât
„P” este mai aproape de zero, cu atât probabilitatea lipsei
evenimentului este mai mare.
➢ Două dintre principalele rezultate matematice
reprezentative care descriu astfel de modele sunt:
– Legea numerelor (cifrelor) mari și
– Teorema limitei centrale.

8
➢ Legea numerelor mari (formulată de Bernoulli) este o teoremă din
teoria probabilităților care descrie rezultatele unui experiment repetat
de mai multe ori. Conform acestei legi, cu cât experimentul se repetă de
mai multe ori, cu atât rezultatul mediu obținut se apropie mai mult de
valoarea așteptată. Aceasta se explică prin faptul că abaterile
întâmplătoare într-un sens sau altul se compensează reciproc.

9
LEGEA NUMERELOR (CIFRELOR) MARI
Legea numerelor mari are 2 aplicații importante pentru determinarea
mărimii eșantionului:
a) Odată cu creșterea mărimii eșantionului, rezultatele obținute pe bază
de eșantion tind să reproducă rezultatele obținute în populația
statistică.
b) La atingerea unui anumit număr de cazuri observate în eșantion,
rezultatele cercetării vor fi maximal apropiate de cele obținute pe
baza populației.
Astfel, în cazul unui număr suficient de mare de cazuri de observații se
evidențiază legitatea de manifestare a fenomenului, care nu poate fi
observată în cazul unui număr mic de observații.
10
DISTRIBUȚII DE EȘANTIONARE
➢ Un eșantion selectat aleatoriu dintr-o populație este doar unul dintre eșantioanele
posibile, iar valorile pentru statisticii eșantionului (de ex. media eșantionului) pot
fi calculate (teoretic) pentru fiecare eșantion posibil de aceeași mărime. Prin
urmare, statisticul eșantionului are o distribuție proprie, care este cunoscută sub
denumirea de distribuție de eșantionare, concept important în statistica
inferențială.
➢ Teorema limitei centrale stabilește proprietățile distribuției de eșantionare:
– pe măsură ce volumul eșantionului crește, forma distribuției de eșantionare a statisticilor
eșantionului (media sau proporția) tinde întotdeauna să fie normală (simetrică),
indiferent de forma distribuției populației din care a fost extras eșantionul;
– media distribuției de eșantionare este egală cu media populației;
– abaterea standard a distribuției de eșantionare a statisticilor eșantionului (mediilor) =
𝜎
și se numește eroare standard (ES).
𝑛
11
EROAREA STANDARD

➢ Eroarea standard (ES) a mediei măsoară deviația standard a


distribuției de eșantionare a mediilor.
➢ Eroarea standard reprezintă diferența dintre media populației și
mediile eșantioanelor individuale.
➢ Eroarea standard este invers raportată la rădăcina pătrată din mărimea
eșantionului (n). Cu cât mai mare este n, cu atât media eșantionului
este mai aproape de media populației.
➢ Eșantioanele mici cu deviații standard mari produc erori standard
mari.

12
EROAREA STANDARD (cont.)

➢ Eroarea standard:
– este o măsură a variabilității eșantioanelor selectate din populație;
– măsoară precizia indicatorului statistic (media sau proporția) ca o estimare a
mediei populației sau proporției populației;
– reflectă gradul prin care indicatorul statistic calculat pentru eșantion reflectă
valoarea adevărată a populației;
– se folosește pentru calcularea intervalului de încredere;
– se folosește pentru testarea ipotezei pentru medii și proporții.

13
Eroarea standard: variabilitatea între eșantioane

Eșantionul A Eșantionul B Eșantionul C

Deviația standard: variabilitatea în eșantion


14
TESTAREA IPOTEZELOR STATISTICE: IPOTEZA
NULĂ (H0) ȘI IPOTEZA ALTERNATIVĂ (H1)

15
TIPURILE DE STATISTICI INFERENȚIALE
Există două tipuri principale de statistici inferenţiale:
➢ 1) Testarea ipotezei - testarea afirmațiilor ipotetice despre populație, folosind
datele colectate dintr-un eșantion. De exemplu, testarea ipotezei precum că un
medicament nou reduce semnificativ tensiunea arterială medie într-o
populație de pacienți, folosind mediile de dinainte și după, calculate pentru
eșantion.
➢ 2) Estimarea - utilizarea statisticilor eșantionului pentru a estima parametrii
populației:
– folosind o singură valoare (estimare punctuală). De exemplu, utilizarea vârstei medii
a eșantionului ca o estimare punctuală a vârstei medii a populației;
– folosind o gamă de valori (intervalul de încredere).

16
IPOTEZA STATISTICĂ
➢ Testarea ipotezei este o formă de inferență statistică care utilizează
datele dintr-un eșantion pentru a trage concluzii despre un parametru al
populației:
1) Se face o presupunere provizorie despre un parametru – absența efectului în populație.
Această presupunere se numește ipoteză nulă (H₀).
2) Se definește ipoteza alternativă (H₁), care se opune afirmației făcute în ipoteza nulă –
prezice existența diferențelor între grupuri.
➢ Procedura de testare a ipotezelor implică utilizarea datelor calculate
pentru eșantion pentru a determina dacă H₀ poate fi respinsă sau nu.
Dacă H₀ se respinge, atunci concluzia statistică este că ipoteza
alternativă H₁ este adevărată și se acceptă.

17
IPOTEZA STATISTICĂ: H₀ ȘI H₁

➢ Ipoteza nulă (H₀): Nu există nici o diferență între


eșantioanele studiate (𝑋1 = 𝑋2 ).
➢ Ipoteza alternativă (H₁):
– direcțională (cu o coadă, test unilateral), spune care valoare este
mai mare: 𝑋1 în eșantionul A > decât 𝑋2 în eșantionul B (𝑋1 > 𝑋2 );
– non-direcțională (cu două cozi, test bilateral), nu oferă speculații
cu privire la faptul, care dintre valori este mai mare: există
diferență între eșantioanele studiate (𝑋1 ≠ 𝑋2 ).

18
EROAREA DE TIP I ȘI EROAREA DE TIP II

➢ Testarea ipotezelor implică tragerea de concluzii despre populații


complete din informații incomplete, de aceea întotdeauna este posibil să
apară o eroare atunci când se decide dacă H₀ se respinge sau nu.

➢ Există două tipuri de erori posibile care pot afecta luarea deciziei:
– Eroarea de tip I apare atunci când respingem H₀ care în realitate este
adevărată, dar datele din studiu indică faptul că ea este falsă. Probabilitatea
de a comite această eroare este denumită nivel de semnificație al studiului,
sau nivel alfa (α).
– Eroarea de tip II apare atunci când acceptăm H₀ care în realitate este falsă,
dar datele din studiu indică faptul că ea este adevărată. Probabilitatea de a
comite o eroare de tip II este denumită nivel beta (β).
19
NIVELUL DE SEMNIFICAȚIE ȘI VALOAREA p

➢ Nivelul de semnificație (α) este probabilitatea de a comite eroarea de


tip I, stabilită înainte de calcularea testului statistic.
➢ Nivelul de semnificație α se stabilește la nivelul de 0,05 sau mai mic.
➢ Valoarea p este probabilitatea de a comite eroarea de tip I, pe care o
găsim după calcularea testului statistic.
➢ Dacă valoarea p < nivelul de semnificație α (valoarea p < 0,05), atunci
ipoteza nulă se respinge. Se poate de concluzionat, că diferența dintre
două medii este semnificativă statistic și nu se datorează întâmplării.

20
PUTEREA STUDIULUI
➢ Probabilitatea de a respinge H₀, atunci când ea este într-adevăr falsă falsă,
adică găsirea efectului atunci când acesta există se numește putere statistică
(1 – β) a studiului.
➢ Puterea studiului este probabilitatea de a detecta o diferență între nivelurile
de expunere sau metodele de tratament, atunci când această diferență într-
adevăr există.
➢ Puterea statistică a studiului variază între 0,8 și 0,95.
➢ Probabilitatea de a accepta H₀ atunci când ea este adevărată se numește nivel
de încredere (1 - α). Nivelul de încredere (nivelul de siguranță) este
probabilitatea de a nu găsi nici o diferență între nivelurile de expunere sau
metodele de tratament.
➢ Nivelul de semnificație și puterea statistică a studiului sunt importante pentru
determinarea volumului eșantionului.
21
EROAREA DE TIP I ȘI EROAREA DE TIP II

Decizia investigatorului
Acceptă 𝐻0 Respinge 𝐻0
𝐻0 adevărată Corectă Greșită
(Pr. = 1-α) (eroare de tip I)
𝐻0 falsă Greșită Corectă
(Eroare de tip II) (Pr. = 1-β)
α: nivel de semnificație (0,05; 0,01; 0,001).
(1- α): nivel de încredere.
(1 – β): putere statistică, probabilitatea de a găsi o diferență care într-adevăr există.
(1 – β): 0,80 – 0,95.
Cu cât mărimea eșantionului este mai mare, cu atât puterea studiului este mai mare.
22
➢ Regula „AAA”: Eroarea alfa acceptă ipoteza alternativă
falsă.
➢ Regula BEAN: Eroarea beta acceptă ipoteza nulă falsă.

23
ETAPELE TESTĂRII IPOTEZEI

1. Formularea ipotezelor statistice: 𝐻0 și 𝐻1 .


2. Selectarea testului potrivit.
3. Selectarea nivelului de semnificație (α) pentru testul
statistic.
4. Determinarea valorii la care testul trebuie să ajungă pentru
a putea fi declarat semnificativ (valoarea critică a testului).
5. Efectuarea calculelor.
6. Formularea concluziilor.
24
INTERVALE DE ÎNCREDERE
➢ Intervalul de încredere (de siguranță) (IÎ) este un interval calculat
pe baza indicatorilor statistici ai eșantionului, care conține parametrul
populației cu un anumit grad de încredere (de exemplu, grad/nivel de
încredere de 95% sau 99%).
• De exemplu: IÎ 95% TAs : 120 -140 mmHg
➢ Interpretare: există un nivel de certitudine de 95% că nivelul mediu al
TAs în populație se află între 120 mmHg și 140 mmHg. Intervalul de
încredere de 95% înseamnă că se așteaptă ca 95 din fiecare 100 dintre
aceste intervale să conțină media populației.

TAs – tensiune arterială sistolică


25
INTERVALE DE ÎNCREDERE (cont.)
➢ Înainte de a calcula intervalul de încredere pentru o
populație, trebuie să ne asigurăm de respectarea
următoarelor condiții:
– eșantionul este selectat aleatoriu și este reprezentativ pentru
populația de interes;
– observațiile sunt independente, adică măsurătorile pentru un subiect
nu au nicio legătură cu măsurătorile pentru un alt subiect;
– variabila este distribuită normal sau mărimea eșantionului este
suficient de mare pentru a asigura normalitatea distribuției de
eșantionare.
26
INTERVALE DE ÎNCREDERE (cont.)

➢ IÎ se poate calcula pe baza distribuției de eșantionare a statisticului


eșantionului conform formulei generale:
IÎ = statisticul din eșantion ± multiplul erorii standard a
statisticului.
➢ „Multiplul” depinde de nivelul de încredere utilizat, cel mai comun nivel
de încredere fiind 95% care necesită un multiplu de 1,96 (acesta se
referă la distribuția normală și la faptul că 95% din aria sub curba
normală se află în intervalul ±1,96 abateri standard de la medie).

27
INTERVALE DE ÎNCREDERE (cont.)

➢ Formula de calcul a erorii standard diferă pentru diferiți statistici ai


eșantionului. De exemplu, eroarea standard pentru media eșantionului
𝑆
pentru un eșantion de mărime n cu abaterea standard S = .
𝑛
➢ Astfel, formula pentru calculul intervalului de încredere de 95% pentru
media populației, folosind un eșantion de mărime n cu media 𝑋 și
abaterea standard S este:
𝑆
IÎ 95% pentru media populației = 𝑋 ± 1,96 x
𝑛

28
INTERVALE DE ÎNCREDERE (cont.)
➢ Câteva puncte importante de reținut despre intervalele de încredere:
– intervalul este simetric față de statisticul eșantionului;
– lungimea intervalului crește pentru niveluri de încredere mai mari;
– lungimea intervalului este mai scurtă pentru eșantioanele mai mari, decât pentru
eșantioanele mai mici;
– cu cât mărimea eșantionului este mai mare, cu atât estimarea noastră este probabil mai
apropiată de valoarea populației;
– intervale mai largi sunt obținute din variabilele cu abateri standard mai mari, deoarece o
variație mai mare a variabilei implică mai puțină acuratețe în estimare.
➢ Parametrul populației este fix, iar media pe eșantion și intervalul se modifică de la
un eșantion la altul. Odată ce intervalul a fost calculat, atunci valoarea necunoscută
a populației este fie în interiorul, fie în afara intervalului și putem afirma doar
certitudinea cu care credem că intervalul conține valoarea populației.
29
INTERVALE DE ÎNCREDERE
(exemplu pentru medii)

➢ Valoarea medie a glicemiei în eșantion este de 5,0 mmol/l,


abaterea standard este de 0,1 mmol/l, iar mărimea
eșantionului (n) este de 300. Să se calculeze intervalul de
încredere IÎ 95%.
𝑋ത = 5,0
S = 0,5
n = 300

30
INTERVALE DE ÎNCREDERE
(exemplu pentru medii, cont.)

➢ Etapa 1. Calcularea erorii standard


𝑆 0,5 0,5
ES = = = = 0,03
𝑛 300 17,3
➢ Etapa 2. Calcularea limitelor superioară și inferioară
ale intervalului de încredere (IÎ 95%)
IÎ₉₅ = 𝑋ത ± 2ES = 5,0 ± 2*0,03 = 5,0 ± 0,06
Limita inferioară a IÎ₉₅ = 𝑋ത - 2ES = 5,0 – 0,06 = 4,94
Limita superioară a IÎ₉₅ = 𝑋ത + 2ES = 5,0 + 0,06 = 5,06

31
INTERVALE DE ÎNCREDERE
(exemplu pentru proporții)

➢ Proporția persoanelor obeze în eșantion este de 25,0%, iar


mărimea eșantionului (n) este de 300 de persoane. Să se
calculeze intervalul de încredere (IÎ) 95%.
% obezi (P) = 25,0
n = 300

32
INTERVALE DE ÎNCREDERE
(exemplu pentru proporții, cont.)

➢ Etapa 1. Calcularea erorii standard


𝑝𝑞 25∗75 1875
ES = == == = 6,3
𝑛 300 300

➢ Etapa 2. Calcularea limitelor superioară și inferioară


ale intervalului de încredere (IÎ 95%)
IÎ₉₅ = p ± 2ES = 25,0 ± 2*6,3 = 25,0 ± 12,6
Limita inferioară a IÎ₉₅ = p - 2ES = 25,0 -12,6 = 12,4
Limita superioară a IÎ₉₅ = p + 2ES = 25,0 + 12,6 = 37,6
33
INTERVALE DE ÎNCREDERE.
INTERPRETAREA REZULTATELOR

➢ Interpretarea rezultatelor: Dacă experimentul se va repeta de 100 de


ori, doar în 5 cazuri din 100, media populației (µ) sau proporția
populației va fi mai mică sau mai mare decât limitele intervalului de
încredere. In 95 de cazuri din 100, media populației sau proporția
populației se va situa între limita inferioară și cea superioară a
intervalului de încredere. Pentru IÎ95%, probabilitatea de a găsi media
populației sau proporția populației în limitele sale este de 0,95.
Probabilitatea de a găsi media populației sau proporția populației în
afara acestor limite este de 0,05.

34
METODE DE INFERENȚĂ PENTRU DATE
CANTITATIVE (MEDII)

35
SEMNIFICAȚIA STATISTICĂ

➢ Semnificația statistică este un termen folosit pentru a descrie cât de


siguri suntem de faptul existenței unei diferențe sau relații între două
variabile și că acest lucru nu se datorează întâmplării.
➢ Identificarea unui rezultat ca fiind semnificativ din punct de vedere
statistic înseamnă încredere în faptul existenței reale a unei diferențe
sau relații între două variabile, fiind puțin probabil ca acest lucru să fie
o apariție unică.
➢ Testele statistice se utilizează pentru evaluarea semnificației
statistice.

36
TESTE STATISTICE. TIPURI
Testele parametrice, condiții de Teste neparametrice, condiții de
utilizare: utilizare:
- variabile cantitative (numerice, cel - variabile calitative (categoriale).
puțin o variabilă continuă)
- distribuție normală.
De exemplu: De exemplu:
Testul t Student Testul сhi-pătrat (𝜒²)
Testul exact Fisher Testul Wilcoxon
Testul U Mann-Witney

Testele statistice neparametrice sunt mai puțin puternice în comparație cu cele


parametrice.

37
TESTUL t
➢ Testul t (Student) este un instrument de evaluare a mediilor uneia sau
a două populații folosind testarea ipotezelor.
➢ Testul t se utilizează pentru a evalua:
– dacă un singur grup diferă de o valoare cunoscută (testul t pentru un eșantion);
– dacă două grupuri diferă unul de celălalt (testul t pentru două eșantioane
independente);
– dacă există o diferență semnificativă în măsurătorile pereche (testul t pentru două
eșantioane pereche sau dependente).

38
TESTUL t: condiții de utilizare:

• variabile continue;
• eșantionare aleatorie;
• omogenitatea variației (variabilitatea datelor în cele 2
grupuri este similară);
• distribuție (aproximativ) normală pentru ambele
variabile.

39
TEST UNILATERAL SAU BILATERAL?

De exemplu: testul t pentru un eșantion.


➢ Test bilateral:
– H₀ : 𝑋ത = μ (ipoteza nulă)
– H₁ : 𝑋ത ≠ μ (ipoteza alternativă non-direcțională)
➢ Test unilateral
– H₁ : 𝑋ത < μ sau 𝑋ത > μ (ipoteza alternativă direcțională)

40
ETAPELE TESTĂRII IPOTEZEI
1. Definirea (formularea) ipotezei nule (de nul) (H₀) și ipotezei alternative (H₁).
2. Selectarea testului statistic.
3. Selectarea nivelului de semnificație alfa (α) care va servi drept criteriu de respingere sau
acceptare a ipotezei nule (determinarea riscului asumat de a face o concluzie greșită).
4. Determinarea valorii critice a testului (valoarea la care trebuie să ajungă testul pentru a fi
declarat semnificativ):
a) Calcularea gradelor de libertate: GL = n-1, unde n este numărul de observații în eșantion.
b) Determinarea valorii critice a lui t din tabelul valorilor lui t conform nivelului de semnificație.
5. Calcularea testului statistic pentru găsirea valorii observate a lui t.
6. Compararea valorii observate a lui t cu valoarea critică a lui t. Formularea concluziilor.

41
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (exemplu)

Talia medie într-un eșantion de 140 de copii selectați aleatoriu este de 130 cm, iar
abaterea standard este de 10 cm. Valoarea medie a taliei în populația de copii este
de 125 cm.
Eșantion: Populație
𝑋ത = 130 cm µ = 125 cm
S = 10 cm
n = 140
Comparați diferența între media eșantionului și media populației și determinați
dacă această diferență este semnificativă statistic.

42
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații

Etapa 1. Formulați 𝑯𝟎 și 𝑯𝟏 :
𝑋ത = µ
𝑋ത ≠ µ
Etapa 2. Selectați testul t (pentru un eșantion)
𝑋ത − 𝜇
t=
𝐸𝑆
Etapa 3. Selectați nivelul de semnificație α, care va servi drept criteriu
de respingere sau acceptare a ipotezei nule.
α = 0,05

43
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (cont.)

Etapa 4. Determinați valoarea critică a testului (valoarea la care trebuie să


ajungă testul pentru a fi declarat semnificativ).
a) Calculați gradele de libertate:
GL = n - 1 = 140 – 1 = 139
GL = 139 lipsește în tabel, astfel vom utiliza GL > 120 sau ⋈.
b) Determinați valoarea critică a lui t din tabelul valorilor lui t conform
pragului de semnificație:
La intersecția „GL > 120” și „α = 0,05”, valoarea critică a lui t = 1,96.

44
Valorile critice ale distribuției „t”
Test unilateral
Grade de
libertate
Test bilateral

Probabilitatea de a comite
eroarea de tip I (nivelul alfa)

Valoarea critică a lui t pentru:


GL > 120 și α = 0,05

Grade de libertate 45
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (cont.)

Etapa 5. Calculați testul statistic indicat la pasul 2 pentru a găsi valoarea


observată a lui t.
a) Calculați eroarea standard pentru eșantion:
𝑆 10 10
ES = = = 11,8 = 0,85
𝑛 140
b) Calculați testul statistic de la etapa 2 și găsiți valoarea observată a lui t:

𝑋−𝜇 130 −125
𝑡𝑜𝑏𝑠. = = = 0,59
𝐸𝑆 0,85

46
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (cont.)

Etapa 6. Comparați valoarea observată a lui t (etapa 5) cu valoarea critică a


lui t (etapa 4). Formulați concluziile.
Valoarea critică a lui t = 1,96
Valoarea observată a lui t = 0,59
Dacă valoarea observată a lui t (0,59) < ca valoarea critică a lui t (1,96),
ipoteza nulă (H₀) se acceptă. Aceasta înseamnă că valoarea lui p > 0,05 (nivelul de
semnificație α).
Concluzie: Diferența dintre talia medie a copiilor din eșantion și talia
medie a populației de copii nu este semnificativă statistic.

47
➢ Ipoteza nulă se respinge atunci când valoarea observată a
lui t este mai mare decât valoarea critică a lui t.
𝑡𝑜𝑏𝑠. > 𝑡𝑐𝑎𝑙𝑐.
➢ Ipoteza nulă se respinge atunci când valoarea lui p este
mai mică decât nivelul de semnificație (α).
p<α

48
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente

• Eșantion 1: • Eșantion 2:
𝑋1 = 5,8 𝑋2 = 5,0
𝑆1 = 0,6 𝑆2 = 0,6
𝑛1 = 10 𝑛2 = 12
Comparați diferența între media glicemiei la femei și la bărbați și determinați
dacă această diferență este semnificativă statistic.
➢Etapa 1. Formulați 𝑯𝟎 și 𝑯𝟏 .
𝐻0 : 𝑋1 = 𝑋2
𝐻0 : 𝑋1 ≠ 𝑋2

49
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)

Etapa 2. Selectați testul statistic (testul t pentru două eșantioane


independente).
𝑋1 −𝑋2
t=
2
𝐸𝑆1 2 +𝐸𝑆2

unde:
𝑋1 - media pentru eșantionul 1
𝑋2 - media pentru eșantionul 2
𝐸𝑆1 – eroarea standard 1
𝐸𝑆2 – eroarea standard 2
50
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)

Etapa 3. Selectați nivelul alfa (α) (nivelul de semnificație) care va servi drept criteriu de
respingere sau acceptare a ipotezei nule:
α : 0,05
Etapa 4. Determinați valoarea critică a testului (valoarea la care trebuie să ajungă testul
pentru a fi declarat semnificativ):
a) Calculați gradele de libertate:
GL = n-1, unde n este numărul de observații în eșantion
GL = (10+12) - 2 = 20
b) Determinați valoarea critică a lui t din tabelul valorilor lui t conform pragului de
semnificație.
La intersecția gradelor de liberate 20 și a nivelului de semnificație α = 0,05, valoarea critică a
lui t = 2,086.

51
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)

Etapa 5. Calculați testul statistic indicat la pasul 2 pentru a găsi valoarea


observată a lui t.
a) Calculați eroarea standard pentru eșantionul 1 și eșantionul 2.
𝑆1 0,6
𝐸𝑆1 = = = 0,19
𝑛1 10
𝑆2 0,6
𝐸𝑆2 = = = 0,17
𝑛2 12
b) Calculați testul pentru două eșantioane independente și găsiți valoarea
observată a lui t.
5,8 −5,0 0,8 0,8
𝑡𝑜𝑏𝑠. = == = = 3,2
0,192 +0,17 2 0,036+0,029 0,25

52
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)

Etapa 6. Comparați valoarea observată a lui t (pasul 5) cu valoarea


critică a lui t (pasul 4). Formulați concluziile.
Valoarea critică a lui t = 2,086
Valoarea observată a lui t = 3,2
𝑡𝑜𝑏𝑠. > 𝑡𝑐𝑟𝑖𝑡.
Prin urmare, H₀ se respinge și se acceptă H₁.
Aceasta înseamnă că p < 0,05 (nivelul de semnificație α).
Concluzie: Diferența dintre mediile glicemiei la femei și bărbați este
semnificativă statistic.

53
Teste de tip t pentru două eșantioane pereche: comparația între
două măsurători repetate pentru același grup

➢ Testul de tip t pentru două eșantioane pereche diferă de testul t pentru


două eșantioane independente prin faptul că testul de tip t pentru două
eșantioane pereche compară două măsurători repetate, făcute pe
aceleași persoane și din același eșantion.
➢ Prin urmare, GL = n-1.

54
METODE DE INFERENȚĂ PENTRU DATE CALITATIVE

55
TABELE DE CONTINGENȚĂ
➢ Tabelul de contingență reprezintă o clasificare a datelor în funcție de 2 criterii
(factori), în cadrul cărora datele sunt în continuare divizate în 2 sau mai multe
categorii, discrete și mutual exclusive.
➢ Un tabel de contingență cu 2 criterii și 2 categorii se numește tabel 2 x 2. Dacă
tabelul are mai multe criterii, atunci se numește tabel (rânduri x coloane, r x c).
➢ Tabelul de contingență se utilizează pentru prezentarea datelor în cazul
aplicării testului chi-pătrat (χ²) și a altor teste neparametrice.
➢ Numărul de grade de libertate se determină prin formula: GL = (r -1) * (c -1)
unde,
r - numărul de rânduri
c - numărul de coloane.

56
Exemplu de tabel 2x2. Distribuția a 100 de nou-
născuți în funcție de sex și mediul de reședință
Criteriul B Criteriul A (sexul) (FO)*
(mediul de Masculin Feminin Total
reședință)
Urban (a) 21 (b) 19 40
Rural (c) 32 (d) 28 60
Total 53 47 100

*FO: frecvențe observate

GL = (2-1) * (2-1) = 1

Sursa: Marcu A. ș.a. Sănătate publică și management sanitar. București, 2002, 285 p. 57
TESTUL CHI PĂTRAT (χ²)

➢ Testul chi-pătrat (χ²) este un test neparametric.


➢ Există două tipuri de teste chi-pătrat:
– testul χ² de concordanță (goodness of fit test), se utilizează în cazul unei singure
variabile măsurate;
– testul χ² de independență sau de asociere dintre 2 variabile.
➢ Testul χ² de asociere între două variabile compară o distribuție de
frecvențe absolute (sau proporții) observate cu o distribuție teoretică
(așteptată) de frecvențe absolute (sau proporții) pe baza „distribuției
de probabilitate chi-pătrat” pentru a testa dacă ipoteza nulă este
adevărată.
➢ Fiecare categorie trebuie să aibă cel puțin 5 valori.
58
Tabel 2x2. Distribuția a 100 de nou-născuți în
funcție de sex și mediul de reședință
Folosind datele din tabelul de mai jos să se determine dacă sexul depinde de
mediul de reședință.

Criteriul B Criteriul A (sexul)


(mediul de Total
reședință) Masculin Feminin
Urban, FO 21 19 40
Rural, FO 32 28 60
Total 53 47 100

*FO: frecvențe observate


59
TESTUL CHI-PĂTRAT (χ²)

➢ Etapa 1. Formulați ipoteza nulă și ipoteza alternativă.


– Ipoteza nulă: Sexul nu depinde de mediul de reședință.
– Ipoteza alternativă: Sexul depinde de mediul de reședință
➢ Etapa 2. Selectați nivelul de semnificație alfa (α) care va servi drept
criteriu de respingere sau acceptare a ipotezei nule.
– α : 0,05; 0,01; 0,001
➢ Etapa 3. Calculați frecvențele așteptate (FA) (sau frecvențele
teoretice (FT)) utilizând formula:
𝑇𝑜𝑡𝑎𝑙𝑢𝑙 𝑝𝑒𝑛𝑡𝑟𝑢 𝑟â𝑛𝑑 𝑥 𝑡𝑜𝑡𝑎𝑙𝑢𝑙 𝑝𝑒𝑛𝑡𝑟𝑢 𝑐𝑜𝑙𝑜𝑎𝑛ă
FA =
𝑇𝑜𝑡𝑎𝑙𝑢𝑙 „𝑚𝑎𝑟𝑒”

60
Criteriul B Criteriul A (sexul)
(mediul de Total
reședință) Masculin Feminin
Urban, FO 21 19 40
Urban FA 21,2 18,8 40
Rural, FO 32 28 60
Rural, FA 31,8 28,2 60
Total 53 47 100

40∗53
FA (urban, masculin) = = 21,2
100

61
TESTUL CHI-PĂTRAT (χ²) (cont.)

➢ Etapa 4. Calculați valoarea observată a lui χ², folosind


frecvențele observate și frecvențele așteptate (sau
teoretice).
(𝐹𝑂−𝐹𝐴)2
χ² = ∑
𝐹𝐴

(21−21,2)² (19−18,8)² (40−40)² (32−31,8)² (28−28,2)² (60−60)²


χ² = + + + + + = 0,19
21,2 18,8 40 31,8 28,2 60

62
TESTUL CHI-PĂTRAT (χ²) (cont.)

➢ Etapa 5. Determinați valoarea critică a testului


(valoarea la care trebuie să ajungă testul pentru a fi
declarat semnificativ).

➢ GL = 1

➢ Valoarea critică a lui χ² pentru GL = 1 și α = 0,05 este 3,8.

63
TESTUL CHI-PĂTRAT (χ²) (cont.)
➢ Etapa 6. Comparați valoarea observată a lui χ² (pasul 4)
cu valoarea critică a lui χ² (pasul 5). Formulați concluziile.
Valoarea critică a lui χ² = 3,8.
Valoarea observată a lui χ² = 0,19.
Dacă valoarea observată a lui χ² < ca valoarea critică a
lui χ², se acceptă ipoteza nulă (H₀). Aceasta înseamnă că
valoarea lui p > 0,05 (nivelul de semnificație α).
Concluzie: Sexul nu depinde de mediul de reședință.

64
TESTUL EXACT AL LUI FIȘER
➢ Testul exact al lui Fisher este un test neparametric de verificare a
ipotezelor statistice utilizat în situații cu două variabile nominale
dihotomice și eșantioane mici, de regulă, atunci când cel puțin o celulă
are o valoare mai mică de 5.
➢ Acest test neparametric se utilizează pentru a verifica dacă datele
dihotomice ale a două eșantioane rezumate într-un tabel de
contingență 2x2 sunt compatibile cu ipoteza (H0), conform căreia
populațiile originale ale celor două eșantioane au aceeași subdiviziune
dihotomică și că diferențele observate în eșantion se datorează doar
întâmplării.

65
OBIECTIVE
1. Definiția clasică a probabilității.
2. Legea cifrelor (numerelor) mari.
3. Distribuția de eșantionare a mediilor. Eroarea standard.
4. Testarea ipotezelor statistice: ipoteza nulă (H0) și ipoteza alternativă (H1).
5. Eroarea de tip I și eroarea de tip II.
6. Nivelul de semnificație și valoarea p.
7. Puterea studiului.
8. Etapele testării ipotezei statistice.
9. Intervalele de încredere: tipuri, metode de calcul.
10. Metode de inferență pentru date cantitative (medii):
– teste de tip t pentru un eșantion: comparația între media unui eșantion și media unei populații;
– teste de tip t pentru două eșantioane independente: comparația între mediile a două eșantioane independente;
– teste de tip t pentru două eșantioane pereche: comparația între două măsurători repetate pentru același grup.
11. Metode de inferență pentru date calitative:
– tabele de contingență;
– testul chi-pătrat;
– testul Fisher exact.

66

You might also like