Professional Documents
Culture Documents
4 Statistica Inferentiala Ro-70246
4 Statistica Inferentiala Ro-70246
1
CUPRINS
1. Definiția clasică a probabilității.
2. Legea cifrelor (numerelor) mari.
3. Distribuția de eșantionare a mediilor. Eroarea standard.
4. Testarea ipotezelor statistice: ipoteza nulă (H0) și ipoteza alternativă (H1).
5. Eroarea de tip I și eroarea de tip II.
6. Nivelul de semnificație și valoarea p.
7. Puterea studiului.
8. Etapele testării ipotezei statistice.
9. Intervalele de încredere: tipuri, metode de calcul.
10. Metode de inferență pentru date cantitative (medii):
– teste de tip t pentru un eșantion: comparația între media unui eșantion și media unei populații;
– teste de tip t pentru două eșantioane independente: comparația între mediile a două eșantioane independente;
– teste de tip t pentru două eșantioane pereche: comparația între două măsurători repetate pentru același grup.
11. Metode de inferență pentru date calitative:
– tabele de contingență;
– testul chi-pătrat;
– testul Fisher exact.
2
STATISTICA INFERENȚIALĂ
Colectarea
datelor
Eșantion
Populație
Descrierea
eșantionului
Formularea
concluziilor
Inferența
statistică
Parametri Statistici
Probabilitatea 3
STATISTICA INFERENȚIALĂ
➢ Statistica descriptivă descrie, organizează și rezumă datele colectate.
➢ Scopul unei cercetări este de a face concluzii despre populație în baza
datelor colectate dintr-un eșantion selectat (aleatoriu) din această
populație.
➢ Deoarece nu putem fi niciodată siguri de faptul, că concluziile noastre
bazate pe acest eșantion, reprezintă cu exactitate populația țintă,
utilizăm în acest scop statistica inferențială.
➢ Statistica inferențială se utilizează pentru a determina dacă un
fenomen observat într-un eșantion reprezintă un fenomen real în
populația din care a fost extras (aleatoriu) eșantionul.
➢ Statistica inferențială se bazează pe teoria probabilităților (știința
incertitudinii).
4
TEORIA PROBABILITĂȚILOR
5
TEORIA PROBABILITĂȚILOR
➢ Conceptul șansei sau al probabilității este unul esențial în statistică, iar
teoria probabilităților studiază posibilitatea producerii unui eveniment.
➢ Probabilitatea este un indicator al șansei (probabilității) producerii
unui eveniment sau a unei condiții ori a probabilității aflării unei valori
într-un anumit interval.
➢ Evenimentul poate fi:
– sigur, se produce în mod obligatoriu (după toamnă vine iarna, promovarea
concursului și admiterea în USMF), probabilitatea = 1;
– imposibil (va ninge la 36°C), probabilitatea = 0;
– aleatoriu (aruncarea unei monede, aruncarea unei mingi de baschet în coș),
probabilitatea ca mingea să ajungă în coș variază între 0 și 1.
6
PROBABILITATEA
➢ Definiția clasică a probabilității: probabilitatea (P) producerii unui eveniment
este raportul dintre numărul cazurilor favorabile producerii evenimentului (m)
şi numărul total al cazurilor posibile (n).
𝑚
P=
𝑛
P+q=1
q - probabilitatea lipsei evenimentului
➢ q = 1 -P
Exemplu de calcul al probabilității:
Numărul anunțat de locuri pentru admiterea la studii la „Medicină” = 700. Au fost
depuse 2100 de cereri de admitere. Care este probabilitatea admiterii?
700
P = 2100 = 0,33 (sau 1:3)
7
TEORIA PROBABILITĂȚILOR
8
➢ Legea numerelor mari (formulată de Bernoulli) este o teoremă din
teoria probabilităților care descrie rezultatele unui experiment repetat
de mai multe ori. Conform acestei legi, cu cât experimentul se repetă de
mai multe ori, cu atât rezultatul mediu obținut se apropie mai mult de
valoarea așteptată. Aceasta se explică prin faptul că abaterile
întâmplătoare într-un sens sau altul se compensează reciproc.
9
LEGEA NUMERELOR (CIFRELOR) MARI
Legea numerelor mari are 2 aplicații importante pentru determinarea
mărimii eșantionului:
a) Odată cu creșterea mărimii eșantionului, rezultatele obținute pe bază
de eșantion tind să reproducă rezultatele obținute în populația
statistică.
b) La atingerea unui anumit număr de cazuri observate în eșantion,
rezultatele cercetării vor fi maximal apropiate de cele obținute pe
baza populației.
Astfel, în cazul unui număr suficient de mare de cazuri de observații se
evidențiază legitatea de manifestare a fenomenului, care nu poate fi
observată în cazul unui număr mic de observații.
10
DISTRIBUȚII DE EȘANTIONARE
➢ Un eșantion selectat aleatoriu dintr-o populație este doar unul dintre eșantioanele
posibile, iar valorile pentru statisticii eșantionului (de ex. media eșantionului) pot
fi calculate (teoretic) pentru fiecare eșantion posibil de aceeași mărime. Prin
urmare, statisticul eșantionului are o distribuție proprie, care este cunoscută sub
denumirea de distribuție de eșantionare, concept important în statistica
inferențială.
➢ Teorema limitei centrale stabilește proprietățile distribuției de eșantionare:
– pe măsură ce volumul eșantionului crește, forma distribuției de eșantionare a statisticilor
eșantionului (media sau proporția) tinde întotdeauna să fie normală (simetrică),
indiferent de forma distribuției populației din care a fost extras eșantionul;
– media distribuției de eșantionare este egală cu media populației;
– abaterea standard a distribuției de eșantionare a statisticilor eșantionului (mediilor) =
𝜎
și se numește eroare standard (ES).
𝑛
11
EROAREA STANDARD
12
EROAREA STANDARD (cont.)
➢ Eroarea standard:
– este o măsură a variabilității eșantioanelor selectate din populație;
– măsoară precizia indicatorului statistic (media sau proporția) ca o estimare a
mediei populației sau proporției populației;
– reflectă gradul prin care indicatorul statistic calculat pentru eșantion reflectă
valoarea adevărată a populației;
– se folosește pentru calcularea intervalului de încredere;
– se folosește pentru testarea ipotezei pentru medii și proporții.
13
Eroarea standard: variabilitatea între eșantioane
15
TIPURILE DE STATISTICI INFERENȚIALE
Există două tipuri principale de statistici inferenţiale:
➢ 1) Testarea ipotezei - testarea afirmațiilor ipotetice despre populație, folosind
datele colectate dintr-un eșantion. De exemplu, testarea ipotezei precum că un
medicament nou reduce semnificativ tensiunea arterială medie într-o
populație de pacienți, folosind mediile de dinainte și după, calculate pentru
eșantion.
➢ 2) Estimarea - utilizarea statisticilor eșantionului pentru a estima parametrii
populației:
– folosind o singură valoare (estimare punctuală). De exemplu, utilizarea vârstei medii
a eșantionului ca o estimare punctuală a vârstei medii a populației;
– folosind o gamă de valori (intervalul de încredere).
16
IPOTEZA STATISTICĂ
➢ Testarea ipotezei este o formă de inferență statistică care utilizează
datele dintr-un eșantion pentru a trage concluzii despre un parametru al
populației:
1) Se face o presupunere provizorie despre un parametru – absența efectului în populație.
Această presupunere se numește ipoteză nulă (H₀).
2) Se definește ipoteza alternativă (H₁), care se opune afirmației făcute în ipoteza nulă –
prezice existența diferențelor între grupuri.
➢ Procedura de testare a ipotezelor implică utilizarea datelor calculate
pentru eșantion pentru a determina dacă H₀ poate fi respinsă sau nu.
Dacă H₀ se respinge, atunci concluzia statistică este că ipoteza
alternativă H₁ este adevărată și se acceptă.
17
IPOTEZA STATISTICĂ: H₀ ȘI H₁
18
EROAREA DE TIP I ȘI EROAREA DE TIP II
➢ Există două tipuri de erori posibile care pot afecta luarea deciziei:
– Eroarea de tip I apare atunci când respingem H₀ care în realitate este
adevărată, dar datele din studiu indică faptul că ea este falsă. Probabilitatea
de a comite această eroare este denumită nivel de semnificație al studiului,
sau nivel alfa (α).
– Eroarea de tip II apare atunci când acceptăm H₀ care în realitate este falsă,
dar datele din studiu indică faptul că ea este adevărată. Probabilitatea de a
comite o eroare de tip II este denumită nivel beta (β).
19
NIVELUL DE SEMNIFICAȚIE ȘI VALOAREA p
20
PUTEREA STUDIULUI
➢ Probabilitatea de a respinge H₀, atunci când ea este într-adevăr falsă falsă,
adică găsirea efectului atunci când acesta există se numește putere statistică
(1 – β) a studiului.
➢ Puterea studiului este probabilitatea de a detecta o diferență între nivelurile
de expunere sau metodele de tratament, atunci când această diferență într-
adevăr există.
➢ Puterea statistică a studiului variază între 0,8 și 0,95.
➢ Probabilitatea de a accepta H₀ atunci când ea este adevărată se numește nivel
de încredere (1 - α). Nivelul de încredere (nivelul de siguranță) este
probabilitatea de a nu găsi nici o diferență între nivelurile de expunere sau
metodele de tratament.
➢ Nivelul de semnificație și puterea statistică a studiului sunt importante pentru
determinarea volumului eșantionului.
21
EROAREA DE TIP I ȘI EROAREA DE TIP II
Decizia investigatorului
Acceptă 𝐻0 Respinge 𝐻0
𝐻0 adevărată Corectă Greșită
(Pr. = 1-α) (eroare de tip I)
𝐻0 falsă Greșită Corectă
(Eroare de tip II) (Pr. = 1-β)
α: nivel de semnificație (0,05; 0,01; 0,001).
(1- α): nivel de încredere.
(1 – β): putere statistică, probabilitatea de a găsi o diferență care într-adevăr există.
(1 – β): 0,80 – 0,95.
Cu cât mărimea eșantionului este mai mare, cu atât puterea studiului este mai mare.
22
➢ Regula „AAA”: Eroarea alfa acceptă ipoteza alternativă
falsă.
➢ Regula BEAN: Eroarea beta acceptă ipoteza nulă falsă.
23
ETAPELE TESTĂRII IPOTEZEI
27
INTERVALE DE ÎNCREDERE (cont.)
28
INTERVALE DE ÎNCREDERE (cont.)
➢ Câteva puncte importante de reținut despre intervalele de încredere:
– intervalul este simetric față de statisticul eșantionului;
– lungimea intervalului crește pentru niveluri de încredere mai mari;
– lungimea intervalului este mai scurtă pentru eșantioanele mai mari, decât pentru
eșantioanele mai mici;
– cu cât mărimea eșantionului este mai mare, cu atât estimarea noastră este probabil mai
apropiată de valoarea populației;
– intervale mai largi sunt obținute din variabilele cu abateri standard mai mari, deoarece o
variație mai mare a variabilei implică mai puțină acuratețe în estimare.
➢ Parametrul populației este fix, iar media pe eșantion și intervalul se modifică de la
un eșantion la altul. Odată ce intervalul a fost calculat, atunci valoarea necunoscută
a populației este fie în interiorul, fie în afara intervalului și putem afirma doar
certitudinea cu care credem că intervalul conține valoarea populației.
29
INTERVALE DE ÎNCREDERE
(exemplu pentru medii)
30
INTERVALE DE ÎNCREDERE
(exemplu pentru medii, cont.)
31
INTERVALE DE ÎNCREDERE
(exemplu pentru proporții)
32
INTERVALE DE ÎNCREDERE
(exemplu pentru proporții, cont.)
34
METODE DE INFERENȚĂ PENTRU DATE
CANTITATIVE (MEDII)
35
SEMNIFICAȚIA STATISTICĂ
36
TESTE STATISTICE. TIPURI
Testele parametrice, condiții de Teste neparametrice, condiții de
utilizare: utilizare:
- variabile cantitative (numerice, cel - variabile calitative (categoriale).
puțin o variabilă continuă)
- distribuție normală.
De exemplu: De exemplu:
Testul t Student Testul сhi-pătrat (𝜒²)
Testul exact Fisher Testul Wilcoxon
Testul U Mann-Witney
37
TESTUL t
➢ Testul t (Student) este un instrument de evaluare a mediilor uneia sau
a două populații folosind testarea ipotezelor.
➢ Testul t se utilizează pentru a evalua:
– dacă un singur grup diferă de o valoare cunoscută (testul t pentru un eșantion);
– dacă două grupuri diferă unul de celălalt (testul t pentru două eșantioane
independente);
– dacă există o diferență semnificativă în măsurătorile pereche (testul t pentru două
eșantioane pereche sau dependente).
38
TESTUL t: condiții de utilizare:
• variabile continue;
• eșantionare aleatorie;
• omogenitatea variației (variabilitatea datelor în cele 2
grupuri este similară);
• distribuție (aproximativ) normală pentru ambele
variabile.
39
TEST UNILATERAL SAU BILATERAL?
40
ETAPELE TESTĂRII IPOTEZEI
1. Definirea (formularea) ipotezei nule (de nul) (H₀) și ipotezei alternative (H₁).
2. Selectarea testului statistic.
3. Selectarea nivelului de semnificație alfa (α) care va servi drept criteriu de respingere sau
acceptare a ipotezei nule (determinarea riscului asumat de a face o concluzie greșită).
4. Determinarea valorii critice a testului (valoarea la care trebuie să ajungă testul pentru a fi
declarat semnificativ):
a) Calcularea gradelor de libertate: GL = n-1, unde n este numărul de observații în eșantion.
b) Determinarea valorii critice a lui t din tabelul valorilor lui t conform nivelului de semnificație.
5. Calcularea testului statistic pentru găsirea valorii observate a lui t.
6. Compararea valorii observate a lui t cu valoarea critică a lui t. Formularea concluziilor.
41
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (exemplu)
Talia medie într-un eșantion de 140 de copii selectați aleatoriu este de 130 cm, iar
abaterea standard este de 10 cm. Valoarea medie a taliei în populația de copii este
de 125 cm.
Eșantion: Populație
𝑋ത = 130 cm µ = 125 cm
S = 10 cm
n = 140
Comparați diferența între media eșantionului și media populației și determinați
dacă această diferență este semnificativă statistic.
42
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații
Etapa 1. Formulați 𝑯𝟎 și 𝑯𝟏 :
𝑋ത = µ
𝑋ത ≠ µ
Etapa 2. Selectați testul t (pentru un eșantion)
𝑋ത − 𝜇
t=
𝐸𝑆
Etapa 3. Selectați nivelul de semnificație α, care va servi drept criteriu
de respingere sau acceptare a ipotezei nule.
α = 0,05
43
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (cont.)
44
Valorile critice ale distribuției „t”
Test unilateral
Grade de
libertate
Test bilateral
Probabilitatea de a comite
eroarea de tip I (nivelul alfa)
Grade de libertate 45
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (cont.)
46
Teste de tip t pentru un eșantion: comparația între
media unui eșantion și media unei populații (cont.)
47
➢ Ipoteza nulă se respinge atunci când valoarea observată a
lui t este mai mare decât valoarea critică a lui t.
𝑡𝑜𝑏𝑠. > 𝑡𝑐𝑎𝑙𝑐.
➢ Ipoteza nulă se respinge atunci când valoarea lui p este
mai mică decât nivelul de semnificație (α).
p<α
48
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente
• Eșantion 1: • Eșantion 2:
𝑋1 = 5,8 𝑋2 = 5,0
𝑆1 = 0,6 𝑆2 = 0,6
𝑛1 = 10 𝑛2 = 12
Comparați diferența între media glicemiei la femei și la bărbați și determinați
dacă această diferență este semnificativă statistic.
➢Etapa 1. Formulați 𝑯𝟎 și 𝑯𝟏 .
𝐻0 : 𝑋1 = 𝑋2
𝐻0 : 𝑋1 ≠ 𝑋2
49
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)
unde:
𝑋1 - media pentru eșantionul 1
𝑋2 - media pentru eșantionul 2
𝐸𝑆1 – eroarea standard 1
𝐸𝑆2 – eroarea standard 2
50
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)
Etapa 3. Selectați nivelul alfa (α) (nivelul de semnificație) care va servi drept criteriu de
respingere sau acceptare a ipotezei nule:
α : 0,05
Etapa 4. Determinați valoarea critică a testului (valoarea la care trebuie să ajungă testul
pentru a fi declarat semnificativ):
a) Calculați gradele de libertate:
GL = n-1, unde n este numărul de observații în eșantion
GL = (10+12) - 2 = 20
b) Determinați valoarea critică a lui t din tabelul valorilor lui t conform pragului de
semnificație.
La intersecția gradelor de liberate 20 și a nivelului de semnificație α = 0,05, valoarea critică a
lui t = 2,086.
51
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)
52
Teste de tip t pentru două eșantioane independente: comparația
între mediile a două eșantioane independente (cont.)
53
Teste de tip t pentru două eșantioane pereche: comparația între
două măsurători repetate pentru același grup
54
METODE DE INFERENȚĂ PENTRU DATE CALITATIVE
55
TABELE DE CONTINGENȚĂ
➢ Tabelul de contingență reprezintă o clasificare a datelor în funcție de 2 criterii
(factori), în cadrul cărora datele sunt în continuare divizate în 2 sau mai multe
categorii, discrete și mutual exclusive.
➢ Un tabel de contingență cu 2 criterii și 2 categorii se numește tabel 2 x 2. Dacă
tabelul are mai multe criterii, atunci se numește tabel (rânduri x coloane, r x c).
➢ Tabelul de contingență se utilizează pentru prezentarea datelor în cazul
aplicării testului chi-pătrat (χ²) și a altor teste neparametrice.
➢ Numărul de grade de libertate se determină prin formula: GL = (r -1) * (c -1)
unde,
r - numărul de rânduri
c - numărul de coloane.
56
Exemplu de tabel 2x2. Distribuția a 100 de nou-
născuți în funcție de sex și mediul de reședință
Criteriul B Criteriul A (sexul) (FO)*
(mediul de Masculin Feminin Total
reședință)
Urban (a) 21 (b) 19 40
Rural (c) 32 (d) 28 60
Total 53 47 100
GL = (2-1) * (2-1) = 1
Sursa: Marcu A. ș.a. Sănătate publică și management sanitar. București, 2002, 285 p. 57
TESTUL CHI PĂTRAT (χ²)
60
Criteriul B Criteriul A (sexul)
(mediul de Total
reședință) Masculin Feminin
Urban, FO 21 19 40
Urban FA 21,2 18,8 40
Rural, FO 32 28 60
Rural, FA 31,8 28,2 60
Total 53 47 100
40∗53
FA (urban, masculin) = = 21,2
100
61
TESTUL CHI-PĂTRAT (χ²) (cont.)
62
TESTUL CHI-PĂTRAT (χ²) (cont.)
➢ GL = 1
63
TESTUL CHI-PĂTRAT (χ²) (cont.)
➢ Etapa 6. Comparați valoarea observată a lui χ² (pasul 4)
cu valoarea critică a lui χ² (pasul 5). Formulați concluziile.
Valoarea critică a lui χ² = 3,8.
Valoarea observată a lui χ² = 0,19.
Dacă valoarea observată a lui χ² < ca valoarea critică a
lui χ², se acceptă ipoteza nulă (H₀). Aceasta înseamnă că
valoarea lui p > 0,05 (nivelul de semnificație α).
Concluzie: Sexul nu depinde de mediul de reședință.
64
TESTUL EXACT AL LUI FIȘER
➢ Testul exact al lui Fisher este un test neparametric de verificare a
ipotezelor statistice utilizat în situații cu două variabile nominale
dihotomice și eșantioane mici, de regulă, atunci când cel puțin o celulă
are o valoare mai mică de 5.
➢ Acest test neparametric se utilizează pentru a verifica dacă datele
dihotomice ale a două eșantioane rezumate într-un tabel de
contingență 2x2 sunt compatibile cu ipoteza (H0), conform căreia
populațiile originale ale celor două eșantioane au aceeași subdiviziune
dihotomică și că diferențele observate în eșantion se datorează doar
întâmplării.
65
OBIECTIVE
1. Definiția clasică a probabilității.
2. Legea cifrelor (numerelor) mari.
3. Distribuția de eșantionare a mediilor. Eroarea standard.
4. Testarea ipotezelor statistice: ipoteza nulă (H0) și ipoteza alternativă (H1).
5. Eroarea de tip I și eroarea de tip II.
6. Nivelul de semnificație și valoarea p.
7. Puterea studiului.
8. Etapele testării ipotezei statistice.
9. Intervalele de încredere: tipuri, metode de calcul.
10. Metode de inferență pentru date cantitative (medii):
– teste de tip t pentru un eșantion: comparația între media unui eșantion și media unei populații;
– teste de tip t pentru două eșantioane independente: comparația între mediile a două eșantioane independente;
– teste de tip t pentru două eșantioane pereche: comparația între două măsurători repetate pentru același grup.
11. Metode de inferență pentru date calitative:
– tabele de contingență;
– testul chi-pătrat;
– testul Fisher exact.
66