Professional Documents
Culture Documents
Cuprins
Cuprins.................................................................................................................................................2
1.Noiuni generale................................................................................................................................3
2.Estimaii ............................................................................................................................................3
2.1.Estimarea intervalelor de ncredere pentru medii.......................................................................4
2.2.Estimarea intervalului de ncredere pentru diferena a dou medii...........................................6
2.3. Estimarea intervalelor de ncredere pentru dispersie.................................................................8
3. Verificarea ipotezelor statistice......................................................................................................10
3.1. Probabilitatea unei decizii gresite...........................................................................................10
3.2. Ipoteze asupra diferenelor a dou medii.................................................................................11
4. Estimarea dispersiei........................................................................................................................13
4.1.Estimarea raportului a dou dispersii.......................................................................................13
4.2.Compararea mai multor dispersii.............................................................................................14
5.Metoda verosimilitii maxime........................................................................................................15
1. Noiuni generale
Orice cercetare statistic pornete de la o colectivitate sau populaie alctuit din elemente
sau indivizi care au o caracteristic general i care se difereniaz prin anumite atribute.
Elementele colectivitii (populaiei) se numesc uniti.
n studiul colectivitilor statistice, n majoritatea cazurilor suntem nevoii s studiem numai
pri din ntreaga colectivitate. Ori, n acest caz, se pune n mod natural ntrebarea dac concluziile
ce le obinem concord cu rezultatul ce l-am obine dac studiem ntreaga populaie. Apare astfel
problema de a studia modul n care valorile tipice (pe baza crora tragem concluzii) ale colectivitii
pariale investigate pot furniza informaii asupra valorilor tipice ale ntregii colectiviti.
Vom presupune, n cele ce urmeaz, c urmrim o anumit caracteristic a colectivitii
generale i c aceast caracteristic este descris de o variabil aleatoare X definit pe un cmp de
probabilitate {Q, K, P}, n care elementele mulimii Q sunt tocmai elementele colectivitii
generale, K este un corp borelian de pri ale lui Q, iar P este o probabilitate pe K.
Dup cum se tie, dac Q este finit, atunci K coincide cu mulimea prilor lui Q, iar P este
o repartiie discret uniform pe Q.
Faptul c suntem obligai s cercetm numai o anumit parte din populaie este impus de
natura concret a colectivitii. Astfel, dac numrul elementelor populaiei este infinit, n mod
necesar nu putem cerceta dect un numr finit i deci obinem o informaie trunchiat.
Dar, n cazul cnd numrul elementelor populaiei este finit, atunci cnd cercetarea calitii
elementelor conduce la distrugerea lor, evident c se impune alegerea unui numr finit pentru
cercetare.
Dac inem seama de faptul c orice investigare (cercetare) implic i anumite cheltuieli,
rezult clar c suntem obligai s cercetm numai o parte din populaia total.
Vom numi selecie (eantion) o colectivitate parial de elemente alese la ntmplare.
Numrul elementelor dintr-o selecie l vom numi volumul seleciei.
Spunem c o selecie este repetat, dac elementul ales la ntmplare este reintrodus n
colectivitatea general naintea efecturii urmtoarei alegeri.
Selecia este nerepetat dac, elementele alese nu se mai introduc n colectivitatea general.
S efectum deci o selecie de volum n dintr-o colectivitate C i s notm cu xi, x2, ..., xn
valorile de observaie. Acestea se refer la valorile unei variabile aleatoare X care d legitatea
caracteristicii studiate.
Considerate aposteriori, valorile de selecie x1, x2, ..., xn sunt valori bine determinate ale
variabilei aleatoare X.
Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente,
identic repartizate cu variabila X, n cazul unei selecii repetate.
Dac selecia este nerepetat, atunci variabilele X 1, X2, Xn sunt dependente, dependena fiind de
tipul lanurilor cu legturi complete.
Dac volumul colectivitii generale este suficient de mare iar volumul seleciei este suficient de mic,
deosebirea dintre o selecie repetat i una nerepetat este nesemnificativ i, ca atare, n aplicaiile practice o selecie
nerepetat se trateaz dup metodele seleciei repetate.
2. Estimaii
Teoria estimaiei urmrete evaluarea parametrilor unei repartiii n general cunoscute.
Valorile numerice obinute se numesc estimaii sau estimatori. Se obin estimaii punctuale n cazul
n care se folosesc datele seleciei pentru a obine valorile parametrilor i estimaii ale intervalelor
de ncredere n cazul n care se determin un interval n care se afl, cu o anumit probabilitate
valoarea estimat.
3
( )
( )
P( L U ) = 1
Este de dorit ca 1 s fie ct mai mare (de obicei este cuprins ntre 0,9 i 0,99) iar
intervalul ( L ,U ) s fie ct mai mic. n stabilirea intervalelor se utilizeaz caracteristicile
numerice cuantile. Se numesc cuantile de ordin valoarea x a variabilei aleatoare x pentru
care
F ( x ) = P( x x ) =
adic valoarea variabilei aleatoare care are la stnga ei aria sub curba
P x x =
2 2
P x x = 1
1
2 2
P x x x1 = 1 = 1
2 2 2 2
1
2
x
2
z=
P z z z = F z F z = 1 = 1
1
1
2 2 2 2 2 2
z , z
1
2
2
Aadar intervalul
Din anumite puncte de vedere este recomandabil s se utilizeze acele intervale care las att la
z = z
Deoarece repartiia N (0,1) este simetric fa de axa Oy avem relaia
1
2
Din relaiile
z
x
z
1
2
n
z *
x z *
1
1
n
n
2
2
x z *
x+ z *
1
1
n
n
2
2
rezult
X z
X +z
1
1
n
n
2
2
Aadar intervalul cutat este
( L ,U ) = X z , X + z
1
2
z z
1
2
1
2
Mrimea E = z1
2
z
12
n =
E
Metoda descris mai poate fi aplicat i n cazul n care x nu este repartizat normal deoarece z
este repartizat N (0,1) indiferent de repartiia variabilelor x1 , x 2 ,..., x n (teorema limit central).
Cazul cnd dispersia este necunoscut
Dac nu se cunoaste dispersia n estimarea intervalelor se utilizeaz dispersia de selecie care
este un estimator nedeplasat al dispersiei deoarece E ( s 2 ) = 2
Se consider x1 , x 2 ,..., x n o selecie dintr-o populaie de tipul N ( , 2 ) .
5
T =
X
s
este repartizat T ( n 1) i, ca urmare
n
P t T t = F t F t = 1 = 1
n ,1 n 1,1
n 1,1
n ,1 2 2
2 2 2 2
X
Pt T t
=
P
t
t
n 1,1
n 1,1
s
n 1, 2
n 1, 2
2
2
s
s
X +t
i X tn 1,1
n 1,1
n
n
2
2
Ca urmare intervalul cutat este
= 1
s
s
, X +t
1
,
1
n
n
2
2
s
n acest caz eroarea este E = t n 1,1
n
2
(L ,U ) = X
n 1,1
n 1,1
=z
n 30
n1
n1
N 1 , 12
x1i
i o selecie
n2
si X 2
x2i
n2
Considernd variabila aleatoare X 1 X 2 , ea este normal repartizat iar estimaia i dispersia ei vor
( ) ( )
fi M ( X 1 X 2 ) = M ( X 1 ) M ( X 2 ) = 1 2 i D X 1 X 2 = D X 1 + D X 2 =
12 22
+
unde am
n1 n2
z=
(X
X 2 ( 1 2 )
D X1 X 2
(X
X 2 ( 1 2 )
12 22
+
n1 n2
este repartizat
N(0,1).
Deoarece,
P z z z = 1
2 1 2
z = z
2
rezulta
12 22
12 22
+
X
+
z
+
1
2
1
2
1
1
n
n
n
n2
1
2
1
2
2
Aadar, intervalul de estimaie pentru diferena mediilor este
2
2
2
2
( 1 , 2 ) = X 1 X 2 z1 1 + 2 , X 1 X 2 + z1 1 + 2
n1 n2
n1 n2
2
2
X1 X 2 z
12 22
+
.
n1 n2
+ 1 2 x2i X 2
n
n1 + n2 2
n1 + n2 2
2
ca un estimator nedeplasat pentru .
Avem ntr-adevr,
( n1 1) M ( s12 ) + ( n2 1) M ( s22 ) ( n1 1) 12 + ( n2 1) 22 2
2
M ( sp ) =
=
=
n1 + n2 2
n1 + n2 2
n continuare vom arta c mrimea
(X
Se observ c T =
T =
X 2 ( 1 2 )
X1 X 2
sp
1X2
1
1
+
n1 n2
(X
X 2 ( 1 2 )
1
1
este repartizat T ( n1 + n 2 2 )
sp
+
n1 n2
i deoarece
sp
1
1
+
=
n1 n2
1 X 2
s
s 2p
1
1
+
= p =
=
n1 n2
sp
1
1
+
n1 n2
(x
n1
variabila
1i
( n1 + n2 2) 2
sp
1 X 2
1
1
+
n1 n2
2
Dar
n1
X 1 + 1 2 x2i X 2
x1i X 1
n1
x1i X 1
x X2
+ n 2 2i
n1 + n2 2
2 ( n1 + n2 2 )
n1 + n 2 2
este de tipul
T este repartizat T ( n1 + n2 2 ) i
P t T t = 1 = 1
n1 + n2 2, n1+ n2 2,1 2 2
2 2
Deoarece repartiia Student este simetric
n1 +n2 2 ,
n2
x2 i X 2
= t
n1 +n2 2 ,1
rezult c
11
11
X1 X2 t sp + 1 2 X1 X2 t sp +
n1+ n2 2,1 n n
n1+ n2 2,1 n n
2 12
2 12
Deci,
( 1 , 2 ) = X 1 X 2 tn + n
eroarea E = t n +n
1
2 2 ,1
sp
2 2 ,1
2
sp
1
1
1
1
+
, X1 X 2 + t
+
sp
n + n 2 2 ,1
n1 n2
n1 n2
21
cu
1
1
+
.
n1 n 2
2 2
P v = 1 = 1
n 1, n 1,1 2 2
2 2
Deci,
( n 1) s 2 ( n 1) s
2
( n 1) 2 2 2
n 1, n 1,1
n
1
,
1
1
,
2
2
2
si
2
.
s12
12
Conform cu cele artate anterior, raportul F = 2 este repartizat F ( n1 1, n2 1) i deci
s2
22
P f F f = 1 = 1
n1 1,n2 1, n1 1,n2 1,1 2 2
2 2
Rezult c
s s
f f
s s
2
2
2
n1 1,n2 1,
1 2
22
22
22
n1 1,n2 1,
11 2
( L , U )
s22
s22
= 2 f
f
,
2
n1 1, n 2 1,
n1 1, n 2 1,1
s
s
1
2
2
1
n
n
( )
n xi
( )
D ( x ) = n
n
n2
n2
2
n
( ) = X
este repartizata
D( X )
X E X
N ( 0,1) .
HA
= 0
Regiunea critic
z z
z z
1
= 0
z z1
= 0
z z1
Dispersia necunoscut
n acest caz se nlocuiete n formula anterioar
variabila aleatoare
T =
cu estimaia sa
s x i se ine cont c
X
s
este repartizat Student cu n-1 grade de libertate.
n
N 2 ,
2
2
).
11
Variabila aleatoare
X X ( 1 2 )
X X 2 ( 1 2 )
z= 1
= 1
este, dupa cum s-a aratat anterior, repartizat
12 22
D X1 X 2
+
n1 n2
N(0,1).
2
p
( n 1) s12 + ( n2 1) s22
= 1
(x
=
n1
n1 + n2 2
ca un estimator nedeplasat pentru 2 .
1i
X 1 + 1 2 ( x2i X )
2
n1 + n2 2
T =
(X
X 2 ( 1 2 )
1
1
este repartizat T ( n1 + n2 2 )
sp
+
n1 n2
()
d
aleatoare s d dup cum se poate arta uor, este repartizat Student cu n-1 grade de libertate.
n
Compararea proporiilor
Dac vom considera un experiment n care rspunsul este de tip da sau nu, de exemplu
vindecare sau nevindecare, supravieuire sau moarte, etc., numrul de rezultate k de un anumit tip n
n repetri ale experimentului este o variabil aleatoare repartizat binomial.
Deoarece avem, dup cum s-a calculat anterior E ( k ) = np i D ( k ) = npq , variabila aleatoare
standardizat z =
k E( k )
D( k )
k
p
= n
se aproximeaz ca fiind normal repartizat.
npq
pq
n
k np
Fie dou populaii de tip urna Poisson cu bile albe i bile negre, cu parametrii (probabilitatea
bilei albe) p1 i respectiv p 2 . n dou selecii din cele dou populaii, de volum n1 i respectiv
n 2 presupunem c s-a obinut rspuns pozitiv de k1 i respectiv k 2 ori.
12
ki
, i = 1,2 . n cazul ipotezei nule H 0 : p1 = p 2 = p , variabila aleatoare h1 h2 va fi
ni
distribuit cu media 0 i dispersia
1
p (1 p1 ) p 2 (1 p 2 )
1
D( h1 h2 ) = 1
+
= p (1 p )
n1
n2
n1 n 2
h1 h2
Fie hi =
1
1
p (1 p ) +
n1 n 2
va fi repartizat
k1 + k 2
.
n1 + n 2
O mbuntire a aproximrii se poate obine prin introducerea unor corecii de continuitate
1
1
h1
h2
2n1
2n2
pentru h1 i h2 : z =
1 1
p(1 p ) +
n1 n2
4. Estimarea dispersiei
s12
2
Se calculeaz F = 2 lundu-se
s2
1
( n 1) s 2
v=
2
(x
=
n
(x
=
n
)(
s s22 .
[( x
=
n
) (
).
)]
2
(1 xi ) n X
X
n xi
=
=
1
2
este repartizat F ( n1 1, n2 1) .
) X
) 2 X n X n + n X
2
2
2
13
xi E ( xi )
x
xi
= 0 i D 2 i
=
=1
este repartizat N(0,1) cci E
Deci v este o sum de n-1 ptrate de variabile de tip N(0,1).
Dar
4.2.
Compararea mai multor dispersii.
a) Testul Bartlett pentru verificarea omogenitii dispersiilor
Fie m estimri independente s1 , s 2 ,..., s m pentru dispersiile 1 , 2 ,..., m pe baza unor
selecii de volume n1 , n 2 ,..., n m .
Se pune problema verificrii ipotezei privind egalitatea acestor dispersii H 0 : 12 = 22 = ... = m2
n acest caz Bartlet a artat c variabila aleatoare
k
(
s2 )
2
2
2,303( k ln s k i ln si ) = ln m
k
1 ( si2 ) i
2
s max
k 2
1 i
n 1 j =1
Gmax c( )
P( Gmax c( ) = 1
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru k 12 testul H calc
iar ipoteza H 0 se respinge daca
probabilitatea
P( Hmax H( ) = 1
H calc H ( )
max si2
=
min si2
14
de verosimilitate.
Spunem c estimatorii i = i (X 1 , X 2 ,..., X n ) sunt de verosimilitate maxim pentru
i , i =1, s dac realizeaz maximul funciei de verosimilitate.
maxim.
1) Se arat c un estimator eficient este un estimator de verosimilitate maxim.
2) Un estimator de verosimilitate maxim este estimator consistent, iar pentru valori mari
ale lui n este o variabil aleatoare ce urmeaz legea normal N( , [I()] 1 ) , unde este
parametrul estimat.
Exemplu.
i abaterea standard dac se consider caracteristica X, care urmeaz legea normal N(m, ).
Rezolvare:
M(X) = m i ( X) = , f(x; m, ) =
1
2
( x m ) 2
2 2
2 ln
( x m) 2
, de unde
2 2
ln f ( x; m, ) x m
ln f ( x; m, )
1 ( x m) 2
=
,
iar
.
=
+
m
2
3
Se obine:
n
n
ln V
ln f ( X k ; m, )
X m
1
=
= k 2 = 2
m
m
k =1
k =1
( X
k =1
m) .
n
n
ln f ( X k ; m, )
ln V
1 ( X k m) 2
1 n
=
= [ +
]
=
[ 2 + ( X k m) 2 ]
3
3
k =1
k =1
k =1
15
k =1 (X k m) = 0
sau: n
2
2
[ + (X k m) ] = 0
k =1
Exemplu.
1 n
m = Xk = X
n k =1
n
= 1 (X k X ) 2 = 2
n k =1
distribuia teoretic:
X
P( m, k )
k =0 ,m
p de
b) s se arate c estimatorul
p este
c) s se arate c estimatorul
p este
Rezolvare:
a) Funcia de probabilitate pentru caracteristica X este
f(x; p) =
x
Cm
p x (1 p) m x , x = 0, m . Pentru a scrie ecuaia de verosimilitate maxim
ln f ( X k ; p)
= 0 , avem c
p
k =1
n
(
k =1
Xk m Xk
1 n
nX
mn
nX
+
= 0 , unde X = X k .
) = 0 , adic
p
1 p 1 p
p
1 p
n k =1
Ecuaia verosimilitii maxime se mai scrie
(1 p) X mp + pX = 0 ,
de unde se obine
1
X pentru parametrul p.
m
1
1
1
M ( X ) = M ( X) = mp = p , iar apoi pentru dispersie se poate scrie succesiv:
m
m
m
D 2 ( p ) =
1 2
1
D (X ) = 2 2
2
m
m n
D2 ( X k ) =
k =1
1
m2n2
(X ) =
k =1
1
D 2 ( X ) mpq pq
2
nD
(
X
)
=
= 2 =
0, n .
m2n2
m2n
m n mn
16
p este
estimator
ln f ( X; p) 2
1
n
) ]=n 2
M[(X mp) 2 ] = 2
D 2 (X) =
2
p
p (1 p)
p (1 p) 2
n
mn
mp(1 p) =
.
2
p(1 p)
p (1 p)
2
1
, deci estimatorul p este estimator eficient
I( p)
pentru parametrul p.
Bibilografie:
1. Buiga, A., Drago C., Lazr D., Parpucea I., Todea A. - Statistic I - Ed. Presa Universitar
Clujean, Cluj-Napoca, 2003;
2. Ivanov M. Matematici Speciale, Curs Universitatea Constantin Brncui Tg. Jiu,
2006;
3. Cenu G., erban R., Raischi C., - Matematici pentru economiti Bibiloteca Digital
A.S.E., 2008.
17