Noţiuni generale

Orice cercetare statistică porneşte de la o colectivitate sau populaţie alcătuită
din elemente sau indivizi care au o caracteristică generală şi care se diferenţiază prin
anumite atribute.
Elementele colectivităţii (populaţiei) se numesc unităţi.
În studiul colectivităţilor statistice, în majoritatea cazurilor suntem nevoiţi să
studiem numai părţi din întreaga colectivitate. Ori, în acest caz, se pune în mod
natural întrebarea dacă concluziile ce le obţinem concordă cu rezultatul ce l-am
obţine dacă studiem întreaga populaţie. Apare astfel problema de a studia modul în
care valorile tipice (pe baza cărora tragem concluzii) ale colectivităţii parţiale
investigate pot furniza informaţii asupra valorilor tipice ale întregii colectivităţi.
Vom presupune, în cele ce urmează, că urmărim o anumită caracteristică a
colectivităţii generale şi că această caracteristică este descrisă de o variabilă aleatoare
X definită pe un câmp de probabilitate {Q, K, P}, în care elementele mulţimii Q sunt
tocmai elementele colectivităţii generale, K este un corp borelian de părţi ale lui Q,
iar P este o probabilitate pe K.
După cum se ştie, dacă Q este finită, atunci K coincide cu mulţimea părţilor lui
Q, iar P este o repartiţie discretă uniformă pe Q.
Faptul că suntem obligaţi să cercetăm numai o anumită parte din populaţie este
impus de natura concretă a colectivităţii. Astfel, dacă numărul elementelor populaţiei
este infinit, în mod necesar nu putem cerceta decât un număr finit şi deci obţinem o
informaţie trunchiată.
Dar, în cazul când numărul elementelor populaţiei este finit, atunci când
cercetarea calităţii elementelor conduce la distrugerea lor, evident că se impune
alegerea unui număr finit pentru cercetare.
Dacă ţinem seama de faptul că orice investigare (cercetare) implică şi anumite
cheltuieli, rezultă clar că suntem obligaţi să cercetăm numai o parte din populaţia
totală.
Vom numi selecţie (eşantion) o colectivitate parţială de elemente alese la
întâmplare. Numărul elementelor dintr-o selecţie îl vom numi volumul selecţiei.
Spunem că o selecţie este repetată, dacă elementul ales la întâmplare este
reintrodus în colectivitatea generală înaintea efectuării următoarei alegeri.
Selecţia este nerepetată dacă, elementele alese nu se mai introduc în
colectivitatea generală.
Să efectuăm deci o selecţie de volum n dintr-o colectivitate C şi să notăm cu
xi, x
2
, ..., x
n
valorile de observaţie. Acestea se referă la valorile unei variabile
aleatoare X care dă legitatea caracteristicii studiate.
Considerate aposteriori, valorile de selecţie x
1
, x
2
, ..., x
n
sunt valori bine
determinate ale variabilei aleatoare X.
Privite apriori, valorile X
1
, X
2
, X
n
pot fi considerate ca variabile aleatoare
independente, identic repartizate cu variabila X, în cazul unei selecţii repetate.
Dacă selecţia este nerepetată, atunci variabilele X
1
, X
2
, X
n
sunt dependente,
dependenţa fiind de tipul lanţurilor cu legături complete.
Dacă volumul colectivităţii generale este suficient de mare iar volumul selecţiei
este suficient de mic, deosebirea dintre o selecţie repetată şi una nerepetată este
nesemnificativă şi, ca atare, în aplicaţiile practice o selecţie nerepetată se tratează
după metodele selecţiei repetate.
Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general
cunoscute. Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin
estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile
parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un
interval în care se află, cu o anumită probabilitate valoarea estimată.
Un estimator al parametrului
θ
se va nota cu θ
ˆ
. O estimaţie este nedeplasată
dacă ( )
ˆ
M θ θ ·
, adică media estimaţiei este egală chiar cu valoarea teoretică a
parametrului estimat.
Conform proprietăţii 2.3.5.1, ( )
M X µ ·
adică media de selecţie este un
estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., ( )
2 2
M s σ ·
adică
dispersia de selecţie este un estimator nedeplasat al dispersiei.
Problema estimării intervalelor se reduce la găsirea unui interval de încredere
( )
U L
θ θ ,
cu un coeficient de încredere
α − 1
astfel încât
( ) α θ θ θ − · 〈 〈 1
U L
P
.
Este de dorit ca
α − 1
să fie cât mai mare (de obicei este cuprins între 0,9 şi
0,99) iar intervalul
( )
U L
θ θ ,
să fie cât mai mic. În stabilirea intervalelor se utilizează
caracteristicile numerice cuantile. Se numesc cuantile de ordin
β
valoarea β
x
a
variabilei aleatoare
x
pentru care
( ) ( ) β
β β
· 〈 · x x P x F
adică valoarea variabilei aleatoare care
are la stânga ei aria
β
sub curba densităţii de probabilitate. Evident:
2
2
α
α
·

,
`

.
|
〈 x x P

2
1
2
1
α
α
− ·

,
`

.
|


x x P
α
α α
α
α
− · − − ·

,
`

.
|
〈 〈

1
2 2
1
2
1
2
x x x P
2
Pentru a estima un interval se alege
α − 1
, se citesc din tabelele cuantilele, de
exemplu
2
1
α

x
şi
2
α
x
şi se precizează intervalul. În prealabil, în funcţie de mărimea
pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie
lucrat.
Estimarea intervalelor de încredere pentru medii
Cazul când se cunoaste dis persia.
Se consideră o populaţie repartizată normal
( )
2
,σ µ N
. Dacă se cunoaşte dispersia
se poate folosi faptul că
n
X
z
σ
µ −
·
este repartizată
( ) 1 , 0 N
. Se notează cu α
z
cuantila
de ordinul
α
pentru repartiţia
( ) 1 , 0 N
. Evident
α
α α
α α α α
− · − − ·

,
`

.
|

,
`

.
|
·

,
`

.
|
〈 〈
− −
1
2 2
1
2 2
1
2
1
2
z F z F z z z P
Aşadar intervalul

,
`

.
|

2
1
2
,
α α
z z
este un interval de estimare cu coeficientul de
încredere
α − 1
. Din anumite puncte de vedere este recomandabil să se utilizeze acele
intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi arie, egală cu
2
α
.
Deoarece repartiţia
( ) 1 , 0 N
este simetrică faţă de axa Oy avem relaţia
2
1
2
α α

− · z z
Din relaţiile
1 1 1 1
2 2 2 2
1 1
2 2
1 1
2 2
* *
* *
x
z z z z z
n
z x z
n n
x z x z
n n
α α α α
α α
α α
µ
σ
σ σ
µ
σ σ
µ
− − − −
− −
− −

− 〈 〈 ⇒ − 〈 〈 ⇒
⇒ − 〈 − 〈 ⇒
− − 〈 − 〈 − +
rezultă
1 1
2 2
X z X z
n n
α α
σ σ
µ
− −
− 〈 〈 +
Aşadar intervalul căutat este
( )

,
`

.
|
+ − ·
− −
n
z X
n
z X
U L
σ σ
θ θ
α α
2
1
2
1
, ,
3
Mărimea
n
z E
σ
α
2
1−
·
poartă numele de eroare şi serveşte la calculul numărului de
experienţe
2
2
1

,
`

.
|
·

E
z
n
α
atunci când este impusă eroarea şi se alege un coeficient
α − 1
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată
normal deoarece z este repartizată
( ) 1 , 0 N
indiferent de repartiţia variabilelor
n
x x x ,..., ,
2 1 (teorema limită centrală).
Cazul când dispersia este necunoscută
Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de
selecţie care este un estimator nedeplasat al dispersiei deoarece
( )
2 2
σ · s E
Se consideră n
x x x ,..., ,
2 1 o selecţie dintr-o populaţie de tipul
( )
2
,σ µ N
.
Conform celor arătate anterior mărimea
n
s
X
T
µ −
·
este repartizată
( ) 1 − n T
şi, ca
urmare
α
α α
α α α α
− · − − ·

,
`

.
|

,
`

.
|
·

,
`

.
|
〈 〈
− − − − − −
1
2 2
1
2
, 1
2
1 , 1
2
1 , 1
2
, 1 n n n n
t F t F t T t P
Deoarece repartitia Student este simetrică faţă de origine
2
1 , 1
2
1 , 1
α α
− − − −
− ·
n n
t t
şi
înlocuindu-l pe T în relaţia anterioară, se obţine
1, 1,1 1, 1,1
2 2 2 2
1
n n n n
X
P t T t P t t
s
n
α α α α
µ
α
− − − − − −
| `

| `

〈 〈 · 〈 〈 · −


. ,

. ,
şi
1,1 1,1
2 2
n n
s s
X t X t
n n
α α
µ
− − − −
− 〈 〈 +
Ca urmare intervalul căutat este
( )

,
`

.
|
+ − ·
− − − −
n
s
t X
n
s
t X
n n
U L
2
1 , 1
2
1 , 1
, ,
α α
θ θ
În acest caz eroarea este
n
s
t E
n
2
1 , 1
α
− −
·
Dacă numărul de experienţe este 30 〉 n , se poate folosi aproximaţia
2
1
2
1 , 1
α α
− − −
·z t
n
4
Estimarea intervalului de încredere
α − 1
pentru diferenţa a două
medii
Se consideră două selecţii din populaţii normal repartizate ( )
2
1 1
,σ µ N şi ( )
2
2 2
,σ µ N .
Cazul dispersiilor
2
2
2
1
,σ σ
cunoscute.
Considerăm o selecţie aleatoare
1
1 12 11
,..., ,
n
x x x
din populaţia ( )
2
1 1
,σ µ N şi o selecţie
2
2 22 21
,..., ,
n
x x x
dintr-o populaţie ( )
2
2 2
,σ µ N .
Estimatorii nedeplasaţi ai mediilor
1
µ
şi
2
µ
sunt:
1
1
1
1
1
n
x
X
n
i ∑
· si
2
1
2
2
2
n
x
X
n
i ∑
·
Considerând variabila aleatoare
2 1
X X − , ea este normal repartizată iar estimaţia şi
dispersia ei vor fi ( ) ( ) ( )
1 2 1 2 1 2
M X X M X M X µ µ − · − · −
şi
( ) ( ) ( )
2
2
2
1
2
1
2 1 2 1
n n
X D X D X X D
σ σ
+ · + · −
unde am ţinut cont că i
x
1 şi i
x
2 sunt
independente.
Mai departe, variabila aleatoare
( ) ( )
( )
( ) ( )
2
2
2
1
2
1
2 1 2 1
2 1
2 1 2 1
n n
X X
X X D
X X
z
σ σ
µ µ µ µ
+
− − −
·

− − −
·
este
repartizată N(0,1).
Deoarece,
α
α α
− ·

,
`

.
|
〈 〈

1
2
1
2
z z z P
şi
2
1
2
α α

− · z z
rezulta
( ) ( )
2 2 2 2
1 2 1 2
1 2 1 2 1 2
1 1
1 2 1 2 2 2
X X z X X z
n n n n
α α
σ σ σ σ
µ µ
− −
− − + 〈 − 〈 − + +
Aşadar, intervalul de estimaţie pentru diferenţa mediilor este
( ) ( ) ( )

,
`

.
|
+ + − + − − · Θ Θ
− −
2
2
2
1
2
1
2
1
2 1
2
2
2
1
2
1
2
1
2 1 2 1
, ,
n n
z X X
n n
z X X
σ σ σ σ
α α
În acest caz, eroarea este
2
2
2
1
2
1
2
1
n n
z E
σ σ
α
+ ·

.
Dispersii necunoscute dar presupuse egale
În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale
2 2
2
2
1
σ σ σ · ·
utilizăm
dispersia ponderată de selecţie
( ) ( )
( ) ( )
1 2
2 2
2 2
1 1 2 2
1 1 1 1 2 2 2
1 2 1 2
1 1
2 2
n n
i i
p
x X x X
n s n s
s
n n n n
− + −
− + −
· ·
+ − + −
∑ ∑
ca un estimator nedeplasat pentru
2
σ .
Avem într-adevăr,
5
( )
( ) ( ) ( ) ( ) ( ) ( )
2 2
2 2
1 1 2 2
1 1 2 2 2 2
1 2 1 2
1 1
1 1
2 2
p
n M s n M s
n n
M s
n n n n
σ σ
σ
− + −
− + −
· · ·
+ − + −
În continuare vom arăta că mărimea
( ) ( )
2 1
2 1 2 1
1 1
n n
s
X X
T
p
+
− − −
·
µ µ
este repartizată
( ) 2
2 1
− + n n T
Se observă că
( ) ( )
2 1
2 1 2 1
1 1
2 1
2 1
n n
s
X X
T
X X
p
X X
+
− − −
·


σ
σ
µ µ
este raportul între o variabila aleatoare
repartizată N(0,1) şi deoarece
( ) ( )
( ) 2 2
1 1
1 1
1 1
2 1
1 1
2
2 2
2
1 1
2
2 1
1 1
2
2 2
2
1 1
2
2
2 1
2 1
2 1
1 2
1 2
2 1
− +

,
`

.
|

+

,
`

.
|

·
− +
− + −
· · · +
+
· +
∑ ∑
∑ ∑

n n
X x X x
n n
X x X x
s s
n n
n n
s
n n
s
n n
i i
n n
i i
p p p
X X
p
σ σ
σ
σ σ
σ
σ
variabila
2 1
1 1
2 1
n n
s
X X
p
+

σ
este de tipul
( )
2
2
2 1
2 1
2
− +
− +
n n
n n χ
Dar
2
1
1 1 1

,
`

.
|
− n
i
X x
σ
este repartizat ( ) 1
1
2
− n χ iar ∑

,
`

.
|

2
1
2
2 2
n
i
X x
σ
este repartizat
( ) 1
2
2
− n χ , deci T este repartizat
( ) 2
2 1
− + n n T
şi
α
α α
α α
− · − − ·

,
`

.
|
〈 〈
− − + − +
1
2 2
1
2
1 , 2
2
, 2
2 1 2 1
n n n n
t T t P
Deoarece repartiţia Student este simetrică
2
1 , 2
2
, 2
2 1 2 1
α α
− − + − +
− ·
n n n n
t t
rezultă că
2 1
2
1 , 2
2 1 2 1
2 1
2
1 , 2
2 1
1 1 1 1
2 1 2 1 n n
s t X X
n n
s t X X
p
n n
p
n n
+ − − 〈 − 〈 + − −
− − + − − +
α α
µ µ
6
Deci,
( )

,
`

.
|
+ + − + − − · Θ Θ
− − + − − +
2 1 2
1 , 2
2 1
2 1 2
1 , 2
2 1 2 1
1 1
,
1 1
,
1
2 2 1 n n
s t X X
n n
s t X X
p
n n
p
n n
α α
cu eroarea
2 1 2
1 , 2
1 1
2 1 n n
s t E
p
n n
+ ·
− − +
α .
Estimarea intervalelor de încredere pentru dispersie
Considerăm o selecţie de volum n dintr-o populaţie normală
( )
2
,σ µ N
. Conform
celor arătate anterior variabila aleatoare
( )
2
2
1
σ
s n
v

· este repartizată
( ) 1
2
− n χ
şi ca
urmare
α
α α
χ χ
α α
− · − − ·

,
`

.
|
〈 〈
− − −
1
2 2
1
2
2
1 , 1
2
2
, 1 n n
v P
Deci,
( )
2
2
1 , 1
2
2
2
2
, 1
1
α α
χ
σ
χ
− − −
〈 − 〈
n n
s
n
si
( ) ( )
2
2
, 1
2
2
2
2
1 , 1
2
1 1
α α
χ
σ
χ
− − −

〈 〈

n n
s n s n
.
Estimarea intervalului de încredere pentru raportul a două dispersii
Se consideră selecţia aleatoare
1
1 12 11
,..., ,
n
x x x
dintr-o populaţie
( )
2
1 ,
,σ µ N
şi o selecţie
2
2 22 21
,..., ,
n
x x x
dintr-o populaţie ( )
2
2 2
,σ µ N .
7
Conform cu cele arătate anterior, raportul
2
2
2
2
2
1
2
1
σ
σ
s
s
F ·
este repartizat
( ) 1 , 1
2 1
− − n n F

şi deci
α
α α
α α
− · − − ·

,
`

.
|
〈 〈
− − − − −
1
2 2
1
2
1 , 1 , 1
2
, 1 , 1
2 1 2 1
n n n n
f F f P
Rezultă că
2
1 , 1 , 1
2
1
2
2
2
1
2
2
2
, 1 , 1
2
1
2
2
2 1 2 1
α α
σ
σ
− − − − −
〈 〈
n n n n
f
s
s
f
s
s
, iar intervalul de estimaţie pentru raportul
dispersiilor este:
( )

,
`

.
|
· Θ Θ
− − − − −
2
1 , 1 , 1
2
1
2
2
2
, 1 , 1
2
1
2
2
2 1 2 1
, ,
α α
n n n n
U L
f
s
s
f
s
s
Verificarea ipotezelor statistice
Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele
se referă fie la parametrii repartiţiei, fie la legea propriu zisa de repartiţie.
Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în
examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de
elementele selecţiilor.
Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H
0
.
Testarea necesită şi formularea unei ipoteze complementare, numită ipoteză
alternativă şi notată H
A
. Dacă se acceptă H
0
, în mod normal se respinge H
A
şi invers.
Din acest motiv, ipotezele H
0
si H
A
se aleg să fie complementare.
Dacă testul priveşte valoarea unui parametru
θ
, de exemplu 0 0
: θ θ · H
şi
1
: θ θ ·
A
H
se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să
8
fie cunoscuţi şi, după acceptarea uneia din cele două ipoteze, distribuţiile
( )
0
,θ ρ x
şi
( )
1
,θ ρ x
devin complet definite. În acest caz, ipotezele sunt numite “simple”. Dacă
însă ceilalţi parametric nu sunt cunoscuţi complet, ipotezele se numesc “ipoteze
compuse”. De exemplu, dacă distribuţia este normală şi parametrul cautat este
µ
, iar
dispersia este necunoscută, suntem în cazul unei ipoteze compuse.
Probabilitatea unei decizii gresite
La verificarea ipotezelor se pot comite două feluri de erori:
1. Erorile de tipul 1 constau în respingerea ipotezei H
0
atunci când aceasta este
adevărată.
2. Erorile de tipul 2 constau în acceptarea ipotezei H
0
atunci când aceasta este
falsă.
Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β:
α = P (respinge H
0
/ H
0
adevărată)
β = P (acceptă H
0
/ H
0
falsă) = P (respinge H
A
/ H
A
adevărată)
Deci, α este riscul de a respinge în mod greşit H
0
şi β este riscul de a respinge în mod
greşit H
A.
Probabilitatea de a respinge ipoteza H
0
atunci când aceasta este falsă
β π − ·1

se numeşte puterea testului. Coeficientul α este numit şi nivel de semnificaţie.
Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Valoarea lui α se alege
şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate.
De exemplu, un coeficient de 0,05 este considerat ca bun pentru majoritatea
problemelor din practică. Dacă însă este vorba de un medicament foarte activ cum ar
fi digoxina, este de preferat a alege α între 0,01 si 0,05.
Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui
test statistic. Domeniul de valori ale testului care corespunde respingerii ipotezei H
0
cu probabilitatea α se numeşte regiune critică.
Metodologia de verificare cuprinde în principiu următoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului
studiat, o repartiţie pentru populaţia statistică din care se face selectia;
2. se formulează ipoteza;
3. se calculează valoarea testului ales şi se compară cu limitele de acceptare,
respectiv respingere;
4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H
0
.
Ipoteze asupra mediei
Dispersia cunoscută
Se consideră o selecţia dintr-o populaţie normală
( )
2
,σ µ N
. Considerăm variabila
aleatoare X . Datorită linearităţii operatorului de mediere avem:
( )
( )
µ
µ
· ·

,
`

.
|
·

,
`

.
|
·
∑ ∑
n
n
n
x M
n
x
M X M
n
i
n
i
1 1
Pentru dispersia lui X ţinem cont că
( ) ( ) x D a b ax D
2 2 2
· +
şi că rezultatele x
i
reprezintă variabile aleatoare independente
( ) ( ) ( )
j i j i
x D x D x x D
2 2 2
+ · +
.
9
În aceste condiţii se obţine
( )
n n
n
n
x D
n
x
D
n
i
n
i
2
2
2
2
1
2
1 2
σ σ
· · ·

,
`

.
|
∑ ∑
Ca urmare a teoremei limită centrală, variabila aleatoare
( )
( )
n
X
X D
X E X
σ
µ −
·

este
repartizata
( ) 1 , 0 N
.
Avem în acest caz, dacă vom alege un risc
α
, ipotezele şi criteriile de acceptare
sau respingere conform cu tabelul de mai jos:
Tabelul nr. 2:
H
0
H
A
Regiunea
critică
0
µ µ ·
0
µ µ ≠
2
1
α

〉 z z
2
1
α

〈 − z z
0
µ µ ·
0
µ µ 〉
α −

1
z z
0
µ µ ·
0
µ µ 〈
α −
〈 −
1
z z
Dispersia necunoscută
În acest caz se înlocuieşte în formula anterioară
σ
cu estimaţia sa x
s
şi se ţine
cont că variabila aleatoare
n
s
X
T
µ −
·
este repartizată Student cu n-1 grade de
libertate.
Ipoteze asupra diferenţelor a două medii
Cazul când se cunosc dispersiile
Se consideră două populaţii normale ( )
2
1 1
,σ µ N şi ( )
2
2 2
,σ µ N , o selecţie aleatoare
din
1
1 12 11
,..., ,
n
x x x
din populaţia ( )
2
1 1
,σ µ N şi o selecţie aleatoare
2
2 22 21
,..., ,
n
x x x
din
populaţia ( )
2
2 2
,σ µ N .
Variabila aleatoare
10
( ) ( )
( )
( ) ( )
2
2
2
1
2
1
2 1 2 1
2 1
2 1 1
n n
X X
X X D
X X
z
σ σ
µ µ µ µ
+
− − −
·

− − −
·
este, dupa cum s-a aratat anterior,
repartizată N(0,1).
Cazul dispersiilor necunoscute, dar presupuse egale
În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale
2 2
2
2
1
σ σ σ · ·

utilizăm dispersia ponderată de selecţie
( ) ( )
( ) ( )
2 2
1 1
2 1
1 1
2
2
2
1 1
2 1
2
2 2
2
1 1 2
1 2
− +
− + −
·
− +
− + −
·
∑ ∑
n n
X x X x
n n
s n s n
s
n n
i i
p
ca un estimator nedeplasat pentru
2
σ .
După cum s-a arătat anterior, mărimea
( ) ( )
2 1
2 1 2 1
1 1
n n
s
X X
T
p
+
− − −
·
µ µ
este repartizată
( ) 2
2 1
− + n n T
Cazul observaţiilor perechi
In cazul când observaţiile formează în mod natural perechi, cum ar fi de exemplu
când se măsoară concentraţiile în n probe, fiecare din ele cu două metode diferite sau
cazul când două medicamente se administrează unui aceluiaşi lot de voluntari, în
două perioade diferite.
Considerăm în acest caz variabila aleatoare
2 1
X X d − ·
.
În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi zero:
( ) 0 · d E
.
Când se cunosc dispersiile avem ( )
n n
d D
d
2
2
2
1 2
σ σ
σ + · · şi variabila aleatoare
d
d
σ
este
repartizată
( ) 1 , 0 N
.
Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine cont că
variabila aleatoare
n
s
d
d
după cum se poate arăta uşor, este repartizată Student cu n-1
grade de libertate.
Compararea proporţiilor
Dacă vom considera un experiment în care răspunsul este de tip da sau nu, de
exemplu vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de
rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare
repartizată binomial.
11
Deoarece avem, după cum s-a calculat anterior
( ) np k E ·
şi
( ) npq k D ·
, variabila
aleatoare standardizată
( )
( )
n
pq
p
n
k
npq
np k
k D
k E k
z

·

·

·
se aproximează ca fiind normal
repartizată.
Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii
(probabilitatea bilei albe)
1
p
şi respectiv
2
p
. În două selecţii din cele două
populaţii, de volum
1
n
şi respectiv
2
n
presupunem că s-a obţinut răspuns “pozitiv”
de
1
k
şi respectiv
2
k
ori.
Fie
2 , 1 , · · i
n
k
h
i
i
i . În cazul ipotezei nule
p p p H · ·
2 1 0
:
, variabila aleatoare
2 1
h h −

va fi distribuită cu media 0 şi dispersia
( )
( ) ( )
( )

,
`

.
|
− − ·

+

· −
2 1 2
2 2
1
1 1
2 1
1 1
1
1 1
n n
p p
n
p p
n
p p
h h D
În aceste condiţii se aproximează că variabila aleatoare
( )

,
`

.
|
+ −

2 1
2 1
1 1
1
n n
p p
h h
va fi
repartizată
( ) 1 , 0 N
.
O estimare naturală a lui p este
2 1
2 1
n n
k k
p
+
+
·
.
O îmbunătăţire a aproximării se poate obţine prin introducerea unor “corecţii de
continuitate” pentru
1
h
şi
2
h
:
( )

,
`

.
|
+ −

,
`

.
|
− −

,
`

.
|

·
2 1
2
2
1
1
1 1
1
2
1
2
1
n n
p p
n
h
n
h
z
Estimarea dispersiei
Considerăm o selecţie de volum n dintr-o populaţie normală
( )
2
,σ µ N
. Conform
celor arătate anterior variabila aleatoare
( )
2
2
1
σ
s n
v

· este repartizată
( ) 1
2
− n χ
.
Estimarea raportului a două dispersii
Se consideră selecţia aleatoare
1
1 12 11
,..., ,
n
x x x
dintr-o populaţie ( )
2
1 1
,σ µ N şi o
selecţie aleatoare
2
2 22 21
,..., ,
n
x x x
dintr-o populaţie ( )
2
2 2
,σ µ N .
Conform cu cele arătate anterior, raportul
2
2
2
2
2
1
2
1
σ
σ
s
s
F ·
este repartizat
( ) 1 , 1
2 1
− − n n F
.
12
Se calculează
2
2
2
1
s
s
F ·
luându-se
2
2
2
1
s s 〉
.
( )
( ) ( ) ( ) [ ]
( ) ( )( ) ( )
( ) ( )
2
1
2
2
1
2
2
1
2
2
2
1
2
2
1
2
2
2
2
1

,
`

.
|


,
`

.
| −
·
− − −
·
·
− + − − − −
·
·
− − −
·

·

·



∑ ∑
n
X x
X n x
X n n X n X x
X x X x
s n
v
n
i
n
i
n
i
n
i
n
i
σ
µ
σ
µ
σ
µ µ
σ
µ µ µ µ
σ
µ µ
σ σ
Dar
σ
µ −
i
x
este repartizat N(0,1) căci
( )
0 ·

·
,
`

.
| −
σ
µ
σ
µ
i i
x E x
E
şi
1
2
·
,
`

.
| −
σ
µ
i
x
D
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).
Compararea mai multor dispersii.
a) Testul Bartlett pentru verificarea omogenităţii dispersiilor
Fie m estimări independente m
s s s ,..., ,
2 1 pentru dispersiile m
σ σ σ ,..., ,
2 1 pe baza
unor selecţii de volume m
n n n ,..., ,
2 1 .
Se pune problema verificării ipotezei privind egalitatea acestor dispersii
2 2
2
2
1 0
... :
m
H σ σ σ · · ·
În acest caz Bartlet a arătat că variabila aleatoare
( )
( )
( )


· −
m k
i
k
i i
i
s
s
s k s k
1
2
2
2 2
ln ln ln 303 , 2
unde
1 − ·
i i
n k
, ∑
·
i
k k
şi s dispersia ponderată a întregului set de date, este
repartizată
( ) 1
2
− m χ
.
b) Testul rapid Cochran pentru selecţii de acelaşi volum
Daca selectiile considerate au acelasi volum
n n n n
k
· · · · ...
2 1 , atunci se
calculeaza valoarea

·
k
i
s
s
G
1
2
2
max
max care se compară cu o valoare maximă admisă
pentru acceptarea ipotezei nule.
In formula de mai sus avem:
( )

·


·
n
j
i ij i
x x
n
s
1
2
2
1
1
si
2
1
2
max
max
i k i
s s
≤ ≤
·
Ipoteza 0
H
se respinge daca ( ) α c G 〉
m a x
unde
( ) α c
se gaseste din tabelele Cochran
la perechea
( ) 1 , − n k
grade de libertate si la probabilitatea
( ) ( ) α α − · 〈 1
m a x
c G P
.
13
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru
12 ≤ k
testul
2
2
min
max
i
i
calc
s
s
H ·
iar ipoteza 0
H
se respinge daca ( ) α H H
c a l c
〉 unde
( ) α H
se gaseste din tabelele
Hartley la probabilitatea
( ) ( ) α α − · 〈 1
m a x
H H P
.
Metoda verosimilităţii maxime
Considerăm caracteristica X supusă cercetării ca având funcţia de
probabilitate f(x;
) ,..., ,
s 2 1
λ λ λ
. Variabilele de selecţie
n 2 1
X ,..., X , X
sunt
independente şi identic repartizate, rezultă că vectorul aleator (
n 2 1
X ,..., X , X
) va
avea funcţia de probabilitate

·
·
n
i
s i s n
X f X X X V
1
2 1 2 1 2 1
) ,..., , ; ( ) ,..., , ; ,..., , ( λ λ λ λ λ λ
şi care se numeşte
funcţie de verosimilitate.
Spunem că estimatorii
) X ,..., X , X (
n 2 1 i i
∗ ∗
λ · λ
sunt de verosimilitate maximă
pentru
s , 1 i ,
i
· λ
dacă realizează maximul funcţiei de verosimilitate.
Determinarea estimatorilor de verosimilitate maximă se va face rezolvând
sistemul
s , 1 i , 0
V
i
· ·
λ ∂

, care de regulă se înlocuieşte cu
s , 1 i , 0
V ln
i
· ·
λ ∂

numit sistem
de verosimilitate maximă.
1) Se arată că un estimator eficient este un estimator de verosimilitate
maximă.
2) Un estimator de verosimilitate maximă este estimator consistent, iar pentru
valori mari ale lui n este o variabilă aleatoare ce urmează legea normală N(
) )] ( I [ ,
1 −
λ λ
, unde
λ
este parametrul estimat.
14
Exemplu. Să se determine estimatorii de verosimilitate maximă pentru
valoarea medie şi abaterea standard dacă se consideră caracteristica X, care urmează
legea normală N(m,
σ
).
Rezolvare:
M(X) = m şi
σ · σ ) X (
, f(x; m,
2
2
2
) m x (
e
2
1
)
σ


π σ
· σ . Pentru a scrie sistemul de
verosimilitate maximă avem:
ln f(x; m,
σ
) = - ln
2
2
2
) m x (
ln 2
σ

− σ − π , de unde

2
m x
m
) , m ; x ( f ln
σ

·

σ ∂
, iar
3
2
) m x ( 1 ) , m ; x ( f ln
σ

+
σ
− ·
σ ∂
σ ∂
.
Se obţine:
∑ ∑ ∑
· · ·
− ·

·


·


n
k
n
k
n
k
k
k k
m X
m X
m
m X f
m
V
1 1 1
2 2
) (
1 ) , ; ( ln ln
σ σ
σ
.
∑ ∑ ∑
· · ·
− + − ·

+ − ·


·


n
k
k
n
k
n
k
k k
m X
m X m X f V
1
2 2
1 1
3 3
2
] ) ( [
1
]
) ( 1
[
) , ; ( ln ln
σ
σ σ σ σ
σ
σ
sau:
¹
¹
¹
¹
¹
'
¹
· − + σ −
· −


·
·
0 ] ) m X ( [
0 ) m X (
n
1 k
2
k
2
n
1 k
k
¹
¹
¹
¹
¹
'
¹
µ · − · σ
· ·



·

·

2
n
1 k
2
k
n
1 k
k
) X X (
n
1
X X
n
1
m
.
Exemplu. Se consideră caracteristica X ce urmează legea binomială, adică
are distribuţia teoretică:
X
m , 0 k
) k , m ( P
k
·

,
`

.
|
, unde P(m,k) =
, p 1 q , q p C
k m k k
m
− ·

cu parametrul
p
) 1 , 0 ( ∈
necunoscut. Folosind o selecţie de volum n, se cere:
a) estimatorul

p
de verosimilitate maximă pentru p;
b) să se arate că estimatorul

p
este un estimator absolut corect pentru
parametrul p;
c) să se arate că estimatorul

p
este un estimator eficient pentru parametrul p.
Rezolvare:
a) Funcţia de probabilitate pentru caracteristica X este
15
f(x; p) = m , 0 x , ) p 1 ( p C
x m x x
m
· −

. Pentru a scrie ecuaţia de verosimilitate maximă

·
·


n
1 k
k
0
p
) p ; X ( f ln
, avem că
ln f(x; p) = ln
) p 1 ln( ) x m ( p ln x C
x
m
− − + +
, de unde

p 1
x m
p
x
p
) p ; x ( f ln


− ·


. Aşadar ecuaţia verosimilităţii maxime este:

·
·



n
1 k
k k
0 )
p 1
X m
p
X
(
, adică
0
p 1
X n
p 1
mn
p
X n
·

+


, unde ∑
·
·
n
1 k
k
X
n
1
X
.
Ecuaţia verosimilităţii maxime se mai scrie
0 X p mp X ) p 1 ( · + − −
, de unde se
obţine estimatorul de verosimilitate maximă
X
m
1
) X ,..., X , X ( p p
n 2 1
· ·
∗ ∗
pentru
parametrul p.
Pentru aceasta avem, în primul rând, că:
p mp
m
1
) X ( M
m
1
) X ( M
m
1
) p ( M · ⋅ · · ·

, iar apoi pentru dispersie se poate scrie
succesiv:
· · · ·
∑ ∑
· ·

n
k
n
k
k
X D
n m
X D
n m
X D
m
p D
1 1
2
2 2
2
2 2
2
2
2
) (
1
) (
1
) (
1
) (

∞ → → · · · · n
mn
pq
n m
mpq
n m
X D
X nD
n m
, 0
) (
) (
1
2 2
2
2
2 2
.
Prin urmare, s-a obţinut M(

p
) = p şi
0 ) X ( D lim
2
n
·
∞ →
, deci estimatorul

p
este
estimator absolut corect pentru parametrul p.
c) Cantitatea de informaţie relativă la parametrul p se poate calcula după cum
urmează:
·

· −

·


· ) X ( D
) p 1 ( p
n
] ) mp X [( M
) p 1 ( p
1
n ] )
p
) p ; X ( f ln
[( nM ) p ( I
2
2 2
2
2 2
2
) p 1 ( p
mn
) p 1 ( mp
) p 1 ( p
n
2 2

· −

·
.
Pe de altă parte, am văzut că
,
) p ( I
1
) p ( D
2
·

deci estimatorul

p
este
estimator eficient pentru parametrul p.
16
Bibilografie:
1. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A. - Statistică I - Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2003;
2. Ivanov M. – Matematici Speciale, Curs – Universitatea „Constantin Brâncuşi”
Tg. Jiu, 2006;
3. Cenuşă G., Şerban R., Raischi C., - Matematici pentru economişti – Bibiloteca
Digitală A.S.E., 2008.
17

Valorile numerice obţinute se numesc estimaţii sau estimatori.2. M ( s ) = σ adică dispersia de selecţie este un estimator nedeplasat al dispersiei. adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.θU ) să fie cât mai mic. Problema estimării intervalelor se reduce la găsirea unui interval de încredere 2 2 (θ L .5. Conform proprietăţii 2.99) iar intervalul (θ L .1. cu o anumită probabilitate valoarea estimată.5.3. Este de dorit ca 1 −α să fie cât mai mare (de obicei este cuprins între 0.Estimaţii Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute.3. M ( X ) = µ adică media de selecţie este un estimator nedeplasat al mediei. iar conform proprietăţii 2.. ˆ Un estimator al parametrului θ se va nota cu θ . Se obţin estimaţii punctuale în cazul în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de încredere în cazul în care se determină un interval în care se află.9 şi 0. În stabilirea intervalelor se utilizează caracteristicile numerice cuantile. Se numesc cuantile de ordin β valoarea x β a variabilei aleatoare x pentru care F( xβ ) = P( 〈 xx β ) = β adică valoarea variabilei aleatoare care are la stânga ei aria β sub curba densităţii de probabilitate. O estimaţie este nedeplasată dacă M ( θˆ ) = θ .θU ) cu un coeficient de încredere 1 −α astfel încât P( θ L 〈〈 θθ U ) = 1− α . Evident:   α P x 〈 xα  =  2 2 P x〈 x α  = 1− α  1−   2 2   αα P xα 〈 x〈 x1− α  = 1− − = 1− α 2 2 2 2  2 .

θU ) =  X    −z 1− α 2 σ n .1) . 1− N (0. în funcţie de mărimea 2 2 pentru care se caută intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat. Dacă se cunoaşte dispersia Se notează cu zα σ este repartizată Evident N (0. Se consideră o populaţie repartizată normal se poate folosi faptul că z= X −µ N ( µ. z α   1−   2 2  este un interval de estimare cu coeficientul de α 2 2 . σ 2 ) .       α α P zα 〈 z 〈 z α  = F z α  − F zα  = 1− − = 1 − α 1− 1− 22 2 2  2  2  Aşadar intervalul încredere 1 −α . Estimarea intervalelor de încredere pentru medii Cazul când se cunoaste dispersia.1) este simetrică faţă de axa Oy avem relaţia ⇒ z α = −z α 2 α 2 x−µ 〈 z α 1− σ 2 n σ σ ⇒ −z α * 〈 x−µ 〈 z α * ⇒ 1− 1− n n 2 2 σ σ −x − z α * 〈 −µ 〈 −x+z α * 1− 1− n n 2 2 〈 z 〈 z 1− α 2 ⇒ −z 1− α 2 〈 rezultă X −z α 1− 2 σ σ 〈 µ 〈 X +z α 1− n n 2 Aşadar intervalul căutat este (θ L .X +z 1− α 2 σ   n  3 . cuantila de ordinul α pentru repartiţia n N (0. egală cu Deoarece repartiţia Din relaţiile −z 1−   z α . În prealabil. Din anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi arie.Pentru a estima un interval se alege 1 −α . de exemplu x1−α şi x α şi se precizează intervalul. se citesc din tabelele cuantilele.1) .

1 2 2  2 2  2  2 Ca urmare intervalul căutat este (θL . x n o selecţie dintr-o populaţie de tipul N ( µ. ca Deoarece repartitia Student este simetrică faţă de origine t n −1.θU ) =  X    −t n −1.1− n n 2  s E =t α n −1.1− n −1. 2 2  2  n  s s 〈 µ 〈 X +t şi X − tn −1. x n (teorema limită centrală). 2  n −1.. X +t α n −1..1− 1 n 〉 30 .1− α α n −1.1− n n 2 2    = 1−α          αα P t α 〈 T 〈 t α  = F t α  − F t α  = 1− − = 1− α n− .1 n− 1.Mărimea experienţe E =z 1− α 2 σ n 2 poartă numele de eroare şi serveşte la calculul numărului de z α  1− 2 n =  E       atunci când este impusă eroarea şi se alege un coeficient 1 −α Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z este repartizată N (0.1− n− ..1−α = −t n −1. σ 2 ) . se poate folosi aproximaţia α 2 =z 1− α 2 4 . se obţine     X −µ Pt α 〈 T 〈 t 〈t α  = P t α 〈 α n −1.1−α şi 2 2 înlocuindu-l pe T în relaţia anterioară. Conform celor arătate anterior mărimea urmare T = X −µ s n este repartizată T ( n −1) şi. x 2 . x 2 ....1− α 2 În acest caz eroarea este s s   .1− n 2 Dacă numărul de experienţe este t n − ..1) indiferent de repartiţia variabilelor x1 . Cazul când dispersia este necunoscută Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care este un estimator nedeplasat al dispersiei deoarece E ( s 2 ) = σ 2 Se consideră x1 ..1− s  n −1.1− n− 1.

x 2 n dintr-o populaţie N ( µ 2 . Mai departe. σ 2 ) . Cazul dispersiilor σ 12 .1). P z 〈 z 〈 z  = 1 − α  α 1− α   2 2 ( X1 − X 2 − z şi z α = −z 2 1− α 2 rezulta ) 1− α 2 2 σ 12 σ 2 σ12 σ22 + 〈 µ1 − µ2 〈 X1 − X2 + z α + 1− n1 n2 n1 n2 2 ( ) Aşadar. n1 n2 Dispersii necunoscute dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale σ 12 = σ 22 = σ 2 utilizăm dispersia ponderată de selecţie ( n1 − 1) s12 + ( n2 − 1) s22 = ∑1 ( x1i − X1 ) 2 s = n1 p 2 + ∑1 2 x2i − X 2 n ( ) 2 n1 + n2 − 2 n1 + n2 − 2 ca un estimator nedeplasat pentru σ 2 . x 22 . 1 2 Estimatorii nedeplasaţi ai mediilor µ şi µ2 sunt: X 1 1 ∑ = n1 1 x1i n1 si X 2 ∑ = n2 1 x2i n2 Considerând variabila aleatoare X 1 − X 2 . σ 12 ) şi o selecţie 2 x 21 ....Estimarea intervalului de încredere medii 1 −α pentru diferenţa a două 2 Se consideră două selecţii din populaţii normal repartizate N ( µ1 . x12 . X1 − X 2 + z α + 1− n1 n2 n1 n2  2 2   ( ) ( ) În acest caz. variabila aleatoare repartizată N(0.. intervalul de estimaţie pentru diferenţa mediilor este 2 2  σ 12 σ 2 σ12 σ 2   X −X −z  ( Θ1 . Θ2 ) =  1 2 1− α + .. ea este normal repartizată iar estimaţia şi M ( X 1 − X 2 ) = M ( X1 ) − M ( X 2 ) = µ1 − µ2 dispersia ei vor fi şi D X1 − X 2 = D X1 + D X 2 = ( ) ( ) ( ) 2 σ12 σ 2 + n1 n2 unde am ţinut cont că x1i şi x 2i sunt independente. σ 2 ) . 5 . z= (X 1 − X 2 − ( µ1 − µ 2 ) D X1 − X 2 ( ) ) = (X 1 − X 2 − ( µ1 − µ 2 ) 2 σ σ2 + n1 n2 2 1 ) este   Deoarece. eroarea este E = z 1− α 2 2 σ 12 σ 2 + ... σ 22 cunoscute. Considerăm o selecţie aleatoare x11 . σ 12 ) şi N ( µ 2 . Avem într-adevăr.. x1n din populaţia N ( µ1 .

deci T este repartizat T ( n1 + n2 − 2 ) şi  x1i − X 1     σ    este repartizat χ ( n1 − 1) 2 iar ∑ n2 1  x2 i − X 2   σ      2 este repartizat   αα P t α T〈〈 t α  = 1− − = 1− α n1 + n2 − 2. n1 + n2 − 2.1) şi deoarece σX 1−X2 σ 1 1 + n1 n2 n sp s2 1 1 p + = = = n1 n2 σ σ2  x1i − X 1      + ∑n 2  x2i − X 2  1   σ      σ  n1 + n2 − 2 2 2 ∑ (x n1 1 1i − X 1 + ∑1 2 x2i − X 2 2 ( n1 + n2 − 2)σ 2 1 1 + n1 n2 2 ) ( ) 2 = ∑ n1 1 variabila σ X Dar sp 1 −X 2 este de tipul χ 2 ( n1 + n2 − 2) n1 + n 2 − 2 ∑ 1 n1 χ 2 ( n2 − 1) .1− α 2 rezultă că 11 11 X1− X2 − t α sp + µ 1−〈 µ 2 X1−〈 X2 − t α sp + n1+ n2− 2.M(s 2 p ) ( n1 − 1) M ( s12 ) + ( n2 − 1) M ( s22 ) ( n1 − 1) σ12 + ( n2 − 1) σ 22 = = n1 + n2 − 2 n1 + n2 − 2 T = = σ2 În continuare vom arăta că mărimea T ( n1 + n2 − 2 ) (X 1 − X 2 − ( µ1 − µ2 ) 1 1 sp + n1 n2 ) este repartizată (X 1 Se observă că T = − X 2 − ( µ1 − µ2 ) σ X1 − X 2 sp 1−X 2 ) σX sp 1 1 + = n1 n2 sp 1 1 + n1 n2 este raportul între o variabila aleatoare repartizată N(0. α 2 = −t n1 +n2 −2 .1− 2 2  2 2 Deoarece repartiţia Student este simetrică t n1 +n2 −2 .1− n n 2 12 2 12 6 .1− n n n1+ n2− 2.

1− α 2 sp 1 1 + n1 n 2 .. σ 1 ) şi o selecţie 2 x 21 . cu eroarea ( Θ1 .1− α 2 sp 1 1 + .. χ α 〈 ( n − 1) 2 〈 χ α χ 2 χ 2 α α n− 1... x 2 n dintr-o populaţie N ( µ 2 .. Conform ( n − 1) s 2 σ 2 este repartizată χ 2 ( n −1) şi ca 2 2  α α P χ α 〈 v〈 χ α  = 1− − = 1− α n− 1. Θ2 ) =  X 1 − X 2 − tn +n   1  2 − 2 . x12 .. x 22 . σ 2 ) . 1 2 Estimarea intervalului de încredere pentru raportul a două dispersii 7 . σ 2 ) .1− n− 1. Estimarea intervalelor de încredere pentru dispersie celor arătate anterior variabila aleatoare v = urmare Considerăm o selecţie de volum n dintr-o populaţie normală N ( µ. 2 Se consideră selecţia aleatoare x11 . x1n dintr-o populaţie N ( µ. 2 2 n− 1. σ n− 1..Deci. X1 − X 2 + t α sp n + n 2 − 2 .1− 2 2  2 2 Deci..1− n1 n2 21 1 1   + n1 n2   E =t n1 +n2 −2 .1− 2 2 si s 2 ( n − 1) s 〈 σ 2〈 ( n − 1) s 2 2 2 2 . n− 1. .

ΘU ) 2 2  s2  s2  2 f  = f α.n2 − 1.n2− 1. iar intervalul de estimaţie pentru raportul dispersiilor este: ( ΘL . α  s1 n1 −1. n 2 −1.n2 − 1.s12 σ 12 Conform cu cele arătate anterior.1− 2   Verificarea ipotezelor statistice Ipoteze statistice Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. raportul F = 2 este repartizat F ( n1 − 1.n2− 1. n2 −1.1− 2 2  2 2 Rezultă că s σs f 〈〈f s σs 2 2 2 α n1− 1. Testarea necesită şi formularea unei ipoteze complementare. Dacă se acceptă H0. Din acest motiv. 1 2 22 22 22 α n1− 1. Notaţii conventionale Ipoteza testată. fie la legea propriu zisa de repartiţie. de exemplu H 0 : θ = θ0 şi H A : θ = θ1 se poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să 8 . n1 − 1. Dacă testul priveşte valoarea unui parametru θ . Teste statistice Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor. n2 − 1) s2 2 σ2 şi deci   αα P f α 〈 F 〈 f α  = 1− − = 1− α n1 − 1. 2 s12 n1 −1. presupusă adevarată. − 11 2 . se numeşte ipoteza nulă şi se notează H0. ipotezele H0 si HA se aleg să fie complementare. Ele se referă fie la parametrii repartiţiei. în mod normal se respinge HA şi invers. numită ipoteză alternativă şi notată HA.

ipotezele se numesc “ipoteze compuse”. Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic. Dacă însă este vorba de un medicament foarte activ cum ar fi digoxina.θ1 ) devin complet definite. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării sau respingerii ipotezelor testate. Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă π =1 − β se numeşte puterea testului. dacă distribuţia este normală şi parametrul cautat este µ . Dacă însă ceilalţi parametric nu sunt cunoscuţi complet. suntem în cazul unei ipoteze compuse. 2. σ 2 ) . În acest caz. α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA. ipoteza H0. pe baza unor teste anterioare sau pe baza structurii fenomenului studiat. distribuţiile ρ( x. respectiv respingere. Coeficientul α este numit şi nivel de semnificaţie. Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β: α = P (respinge H0 / H0 adevărată) β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată) Deci. se acceptă sau se respinge. în funcţie de rezultat. 9   n   =   n   = n =µ . o repartiţie pentru populaţia statistică din care se face selectia.01 si 0. Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea α se numeşte regiune critică. De exemplu. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când aceasta este adevărată.05. Metodologia de verificare cuprinde în principiu următoarele etape: 1. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când aceasta este falsă. se calculează valoarea testului ales şi se compară cu limitele de acceptare. un coeficient de 0. Ipoteze asupra mediei Dispersia cunoscută Se consideră o selecţia dintr-o populaţie normală N ( µ. Datorită linearităţii operatorului de mediere avem:  ∑n xi   ∑n M ( xi )  nµ  1   1  M X =M ( ) Pentru dispersia lui X ţinem cont că D 2 ( ax + b ) = a 2 D 2 ( x ) şi că rezultatele xi 2 2 2 reprezintă variabile aleatoare independente D ( xi + x j ) = D ( xi ) + D ( x j ) . iar dispersia este necunoscută. Probabilitatea unei decizii gresite La verificarea ipotezelor se pot comite două feluri de erori: 1. se presupune. 2. după acceptarea uneia din cele două ipoteze. 4. este de preferat a alege α între 0.05 este considerat ca bun pentru majoritatea problemelor din practică. Desigur că este de dorit ca valorile α şi β să fie cât mai mici. Considerăm variabila aleatoare X .θ0 ) şi ρ ( x.fie cunoscuţi şi. 3. De exemplu. se formulează ipoteza. ipotezele sunt numite “simple”.

.În aceste condiţii se obţine  ∑n xi D  1  n  2  =   ∑ D ( x ) = nσ n 2 1 i 2 n2 n2 = σ2 n X −E X Ca urmare a teoremei limită centrală. x 22 . 2: H0 HA µ = µ0 µ ≠ µ0 Regiunea critică z〉 z 1− α 2 z〈 z −α 1− 2 µ = µ0 µ = µ0 µ 〉µ 0 z〉 z1− α µ 〈µ 0 z〈 z1− α − sx Dispersia necunoscută În acest caz se înlocuieşte în formula anterioară σ cu estimaţia sa cont că variabila aleatoare libertate..... ( ) = X −µ σ este D( X ) n repartizata Avem în acest caz.. x12 . ipotezele şi criteriile de acceptare sau respingere conform cu tabelul de mai jos: Tabelul nr. o selecţie aleatoare din x11 . σ 22 ) . σ 12 ) şi o selecţie aleatoare x 21 . x1n din populaţia N ( µ 1 .. variabila aleatoare N (0. dacă vom alege un risc α . Variabila aleatoare 1 2 10 . T = X −µ s n şi se ţine este repartizată Student cu n-1 grade de Ipoteze asupra diferenţelor a două medii Cazul când se cunosc dispersiile Se consideră două populaţii normale N ( µ 1 .. σ 12 ) şi N ( µ 2 . x 2 n din populaţia N ( µ 2 . σ 22 ) .1) .

dar presupuse egale În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale σ 12 = σ 22 = σ 2 utilizăm dispersia ponderată de selecţie s 2 p ( n − 1) s12 + ( n2 − 1) s22 = 1 n1 + n2 − 2 ∑ (x = n1 1 1i − X 1 + ∑1 2 ( x2i − X ) 2 n ) 2 n1 + n2 − 2 ca un estimator nedeplasat pentru σ 2 . În cazul în care selecţiile aparţin la aceiaşi populaţie. etc. Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine cont că variabila aleatoare grade de libertate.z= (X 1 − X − ( µ1 − µ 2 ) D X1 − X 2 ( ) ) = (X 1 − X 2 − ( µ1 − µ 2 ) 2 σ 12 σ 2 + n1 n2 ) este.1) . repartizată N(0. supravieţuire sau moarte. media lui d va fi zero: (d ) =0 . După cum s-a arătat anterior. E Când se cunosc dispersiile avem D( d ) = σ d2 = repartizată N (0. fiecare din ele cu două metode diferite sau cazul când două medicamente se administrează unui aceluiaşi lot de voluntari. în două perioade diferite. Considerăm în acest caz variabila aleatoare d = X 1 − X 2 . mărimea T ( n1 + n2 − 2 ) T = (X 1 − X 2 − ( µ1 − µ2 ) 1 1 sp + n1 n2 ) este repartizată Cazul observaţiilor perechi In cazul când observaţiile formează în mod natural perechi. 11 . este repartizată Student cu n-1 Compararea proporţiilor Dacă vom considera un experiment în care răspunsul este de tip da sau nu. dupa cum s-a aratat anterior.1).. de exemplu vindecare sau nevindecare. d sd n d σ 12 σ 22 + şi variabila aleatoare σ este d n n după cum se poate arăta uşor. Cazul dispersiilor necunoscute. numărul de rezultate k de un anumit tip în n repetări ale experimentului este o variabilă aleatoare repartizată binomial. cum ar fi de exemplu când se măsoară concentraţiile în n probe.

de volum n1 şi respectiv n 2 presupunem că s-a obţinut răspuns “pozitiv” de k1 şi respectiv k 2 ori.. Se consideră selecţia aleatoare x11 . 1 2 k +k O îmbunătăţire a aproximării se poate obţine prin introducerea unor “corecţii de continuitate” pentru h1 şi h2 :  1   1   h1 −  −  h2 −     2n1   2n2    z= 1 1 p(1 − p )  +  n n  2   1 Estimarea dispersiei Considerăm o selecţie de volum n dintr-o populaţie normală celor arătate anterior variabila aleatoare v = ( n − 1) s σ2 N ( µ. i Fie hi = n . variabila se aproximează ca fiind normal repartizată.. cu parametrii (probabilitatea bilei albe) p1 şi respectiv p 2 . σ 12 ) şi o selecţie aleatoare x 21 . x1n dintr-o populaţie N ( µ 1 . Conform 2 este repartizată χ 2 ( n −1) . i = 1. 1 Estimarea raportului a două dispersii 2 s12 σ 12 Conform cu cele arătate anterior.. variabila aleatoare h1 − h2 D( h1 − h2 ) = 1 p1 (1 − p1 ) p 2 (1 − p 2 ) 1 + = p(1 − p )  −  n  n1 n2  1 n2  h1 − h2 1 1 p(1 − p ) + n  1 n2     În aceste condiţii se aproximează că variabila aleatoare repartizată N (0. x 2 n dintr-o populaţie N ( µ 2 .Deoarece avem. În două selecţii din cele două populaţii. va fi 1 2 O estimare naturală a lui p este p = n + n . după cum s-a calculat anterior aleatoare standardizată z= k − E( k ) D( k ) = k − np k −p n = npq pq n E ( k ) = np şi D( k ) = npq . raportul F = 2 este repartizat F ( n1 − 1. x 22 . Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”.1) . σ 22 ) . n2 − 1) .. x12 .. În cazul ipotezei nule i va fi distribuită cu media 0 şi dispersia k H 0 : p1 = p 2 = p .. σ 2 ) .. s2 σ 22 12 ..2 .

n 2 . k = ∑k i şi s dispersia ponderată a întregului set de date.. In formula de mai sus avem: s i2 = 1 n ∑ xij − xi n − 1 j =1 H 0 se ∑s 2 s max k 2 1 i care se compară cu o valoare maximă admisă ( ) 2 si 2 s max = max 1≤i ≤k si2 Ipoteza respinge daca Gm a〉 xc α unde c(α) se gaseste din tabelele Cochran () la perechea ( k . n −1) grade de libertate si la probabilitatea P( Gm 〈 c( α a ) = x1− α ...1) căci E  i σ  = σ σ   (  2 şi D  i σ  = 1   x −µ Deci v este o sumă de n-1 pătrate de variabile de tip N(0. − µ) − X − µ i ( )] 2 )( ) ) ( σ2 = ) 2 σ2 = 2     2 ( xi − µ ) 2 − n X − µ X −µ n x − µ  ∑ = 1 = ∑1  i −  σ2  σ   σ    n   x −µ  x − µ  E ( xi ) − µ =0 Dar i este repartizat N(0.Se calculează F = ( n − 1) s 2 v= σ2 i ∑ (x = n 1 2 s12 2 2 luându-se s2 1 −X i ) 2 ∑ (x = n 1 n − µ ) − 2 X − µ n X − nµ + n X − µ ( σ2 ∑ [( x = n 1 s 〉 s22 . σm pe baza unor selecţii de volume n1 .. a) Testul Bartlett pentru verificarea omogenităţii dispersiilor Fie m estimări independente s1 .. s 2 .303 k ln s − ∑ k i ln s 2 ( 2 i unde k i = ni −1 . = nk = n .. nm .. este repartizată χ 2 ( m −1) . σ2 .. 13 . s m pentru dispersiile σ1 . Compararea mai multor dispersii.... b) Testul rapid Cochran pentru selecţii de acelaşi volum Daca selectiile considerate au acelasi volum n1 = n2 = .1). = σ m În acest caz Bartlet a arătat că variabila aleatoare 2... atunci se calculeaza valoarea G max = ) = ln ( s ) ∑ (s ) 2 k m 1 2 ki i pentru acceptarea ipotezei nule.. Se pune problema verificării ipotezei privind egalitatea acestor dispersii 2 2 H 0 : σ 12 = σ 2 = ...

. X n ) sunt de verosimilitate maximă pentru λi . i = 1. max si2 min si2 unde H (α) se gaseste din tabelele Metoda verosimilităţii maxime Considerăm caracteristica X supusă cercetării ca având funcţia de probabilitate f(x. X 2 . .. 14 . λs ) . i =1. s . 2) Un estimator de verosimilitate maximă este estimator consistent.. s ∂λi numit sistem de verosimilitate maximă... 1) Se arată că un estimator eficient este un estimator de verosimilitate maximă. ∂λi care de regulă se înlocuieşte cu ∂ ln V = 0...... Variabilele de selecţie X 1 . X 2 .. λ2 .... rezultă că vectorul aleator ( X 1 .. X 2 .. iar pentru valori mari ale lui n este o variabilă aleatoare ce urmează legea normală N( λ [ I(λ −1 ) . s dacă realizează maximul funcţiei de verosimilitate.. avea funcţia de probabilitate V ( X 1 .. X n ... λ1 .. Spunem că estimatorii λ∗i = λ∗i (X 1 . λs ) i =1 n Xn ) şi care se numeşte funcţie de verosimilitate. Determinarea estimatorilor de verosimilitate maximă se va face rezolvând sistemul ∂V = 0. X n sunt va independente şi identic repartizate. λ1 .. )] unde λ este parametrul estimat. i = 1... λs ) = ∏ f ( X i .. λ2 . λ1 .. X 2 ...c) Testul Hartley Daca selectiile au acelasi volum se poate aplica pentru iar ipoteza H0 k ≤ 12 testul H calc = se respinge daca Hartley la probabilitatea P( Hm 〈 H(aα ) =x 1− α H c a 〉l cH ( α ) . λ2 .

p∗ b) să se arate că estimatorul este un estimator absolut corect pentru este un estimator eficient pentru parametrul p. cu parametrul m p ∈(0. σ) x − m ∂ ln f ( x. 15 .Exemplu. m. Să se determine estimatorii de verosimilitate maximă pentru valoarea medie şi abaterea standard dacă se consideră caracteristica X. σ ) X −m 1 =∑ =∑ k 2 = 2 ∂m ∂m σ σ k =1 k =1 ∑( X k =1 n k − m) . Rezolvare: M(X) = m şi σ X ) = σ. care urmează legea normală N(m. σ) = 1 σ 2π e − . Pentru a scrie sistemul de verosimilitate maximă avem: ( x − m) ln f(x. m.  n 1 ∗ 2 σ = ∑ (X k − X ) = µ 2  n k =1  Exemplu. ∂m σ2 ∂σ σ σ3 Se obţine: n n ∂ ln V ∂ ln f ( X k . ( ( x −m ) 2 2 σ2 f(x. m. q = 1 − p. n n ∂ ln V ∂ ln f ( X k . m. σ) 1 ( x − m) 2 = =− + . σ ) 1 ( X k − m) 2 1 n =∑ = ∑[ − + ] = 3 ∑[−σ 2 + ( X k − m) 2 ] 3 ∂σ ∂σ σ σ σ k =1 k =1 k =1 n  ∑1 (X k − m) = 0   ⇒ sau:  n k = 2 2  ∑ [ − σ + ( X k − m) ] = 0  k =1  1 n  m∗ = ∑ X k = X  n k =1  . c) să se arate că estimatorul Rezolvare: a) Funcţia de probabilitate pentru caracteristica X este p∗ p∗ de verosimilitate maximă pentru p. de unde 2 2 2σ ∂ ln f ( x. m. k )       k  k = . σ ) = .ln 2π − ln σ − . Se consideră caracteristica X ce urmează legea binomială. unde P(m. iar . adică are distribuţia teoretică: X P(m.k) = C k p k q m −k . m.1) necunoscut. Folosind o selecţie de volum n. se cere: a) estimatorul parametrul p. σ ).m 0 .

. p) = ln C m + x ln p + (m − x ) ln(1 − p) . m . c) Cantitatea de informaţie relativă la parametrul p se poate calcula după cum urmează: I(p) = nM [( = ∂ ln f (X. p) = 0 . D 2 (p ∗ ) = 1 . ∑ ( p − 1 − p ) = 0 . p) x m −x = − ∂p p 1 −p n . n → ∞ . unde X = ∑ X k . am văzut că estimator eficient pentru parametrul p. p) = x C m p x (1 − p) m −x .. că: M(p ∗ ) = 1 1 1 M ( X ) = M ( X) = ⋅ mp = p . p de unde se pentru p ∗ = p ∗ ( X 1 .. de unde ∂ln f ( x. I( p) deci estimatorul p∗ este 16 . p (1 − p) 2 Pe de altă parte. deci estimatorul n →∞ p∗ este estimator absolut corect pentru parametrul p. X n ) = 1 X m iar apoi pentru dispersie se poate scrie 1 2 1 D (X ) = 2 2 2 m m n succesiv: = D 2 ( p∗ ) = ∑ D2 ( X k ) = k =1 n 1 m2n2 ∑D k =1 n 2 (X ) = 1 D 2 ( X ) mpq pq nD 2 ( X ) = = 2 = → 0. Pentru aceasta avem. Pentru a scrie ecuaţia de verosimilitate maximă ∑ ∂ ln f ( X k . avem că ∂p k =1 n x ln f(x. Aşadar ecuaţia verosimilităţii maxime este: Xk m − Xk 1 n nX m n nX − + = 0 . în primul rând. s-a obţinut M( p ∗) = p şi lim D (X) = 0 . X 2 . m m m (1 −p) X −m +pX =0 .f(x. adică p 1 −p 1 −p n k =1 k =1 Ecuaţia verosimilităţii maxime se mai scrie obţine estimatorul de verosimilitate maximă parametrul p. p) 2 1 n ) ]=n 2 M[( X − mp ) 2 ] = 2 D 2 (X) = 2 ∂p p (1 − p) p (1 − p) 2 n mn mp (1 − p) = 2 p(1 − p) . x = 0. m2n 2 m2n m n mn 2 Prin urmare..

2003.Statistică I ... Presa Universitară Clujeană. 2006. Todea A. 2. . Ivanov M. Lazăr D.Bibilografie: 1.Matematici pentru economişti – Bibiloteca Digitală A. Buiga.Ed.. Jiu. 17 . Cluj-Napoca. – Matematici Speciale. Parpucea I. Curs – Universitatea „Constantin Brâncuşi” Tg..S.. Dragoş C. 3.E. A.. 2008. Şerban R. Raischi C. Cenuşă G. ...

Sign up to vote on this title
UsefulNot useful