Referat Teoria Sondajului

UNIVERSITATEA POLITEHNICA BUCURESTI
FACULTATEA DE STIINTE APLICATE

MODELE DE DECIZIE RISC SI PROGNOZE
Referat teoria sondajului
MASTERAND: Dogaru Ramona-Elena
Cuprins
Cuprins.................................................................................................................................................2
1.Noiuni generale................................................................................................................................3
2.Estimaii ............................................................................................................................................3
2.1.Estimarea intervalelor de ncredere pentru medii.......................................................................4
2.2.Estimarea intervalului de ncredere pentru diferena a dou medii...........................................6
2.3. Estimarea intervalelor de ncredere pentru dispersie.................................................................8
3. Verificarea ipotezelor statistice......................................................................................................10
3.1. Probabilitatea unei decizii gresite...........................................................................................10
3.2. Ipoteze asupra diferenelor a dou medii.................................................................................11
4. Estimarea dispersiei........................................................................................................................13
4.1.Estimarea raportului a dou dispersii.......................................................................................13
4.2.Compararea mai multor dispersii.............................................................................................14
5.Metoda verosimilitii maxime........................................................................................................15
1. Noiuni generale
Orice cercetare statistic pornete de la o colectivitate sau populaie alctuit din elemente
sau indivizi care au o caracteristic general i care se difereniaz prin anumite atribute.
Elementele colectivitii (populaiei) se numesc uniti.
n studiul colectivitilor statistice, n majoritatea cazurilor suntem nevoii s studiem numai
pri din ntreaga colectivitate. Ori, n acest caz, se pune n mod natural ntrebarea dac concluziile
ce le obinem concord cu rezultatul ce l-am obine dac studiem ntreaga populaie. Apare astfel
problema de a studia modul n care valorile tipice (pe baza crora tragem concluzii) ale colectivitii
pariale investigate pot furniza informaii asupra valorilor tipice ale ntregii colectiviti.
Vom presupune, n cele ce urmeaz, c urmrim o anumit caracteristic a colectivitii
generale i c aceast caracteristic este descris de o variabil aleatoare X definit pe un cmp de
probabilitate {Q, K, P}, n care elementele mulimii Q sunt tocmai elementele colectivitii
generale, K este un corp borelian de pri ale lui Q, iar P este o probabilitate pe K.
Dup cum se tie, dac Q este finit, atunci K coincide cu mulimea prilor lui Q, iar P este
o repartiie discret uniform pe Q.
Faptul c suntem obligai s cercetm numai o anumit parte din populaie este impus de
natura concret a colectivitii. Astfel, dac numrul elementelor populaiei este infinit, n mod
necesar nu putem cerceta dect un numr finit i deci obinem o informaie trunchiat.
Dar, n cazul cnd numrul elementelor populaiei este finit, atunci cnd cercetarea calitii
elementelor conduce la distrugerea lor, evident c se impune alegerea unui numr finit pentru
cercetare.
Dac inem seama de faptul c orice investigare (cercetare) implic i anumite cheltuieli,
rezult clar c suntem obligai s cercetm numai o parte din populaia total.
Vom numi selecie (eantion) o colectivitate parial de elemente alese la ntmplare.
Numrul elementelor dintr-o selecie l vom numi volumul seleciei.
Spunem c o selecie este repetat, dac elementul ales la ntmplare este reintrodus n
colectivitatea general naintea efecturii urmtoarei alegeri.
Selecia este nerepetat dac, elementele alese nu se mai introduc n colectivitatea general.
S efectum deci o selecie de volum n dintr-o colectivitate C i s notm cu xi, x2, ..., xn
valorile de observaie. Acestea se refer la valorile unei variabile aleatoare X care d legitatea
caracteristicii studiate.
Considerate aposteriori, valorile de selecie x1, x2, ..., xn sunt valori bine determinate ale
variabilei aleatoare X.
Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente,
identic repartizate cu variabila X, n cazul unei selecii repetate.
Dac selecia este nerepetat, atunci variabilele X 1, X2, Xn sunt dependente, dependena fiind de
tipul lanurilor cu legturi complete.
Dac volumul colectivitii generale este suficient de mare iar volumul seleciei este suficient de mic,
deosebirea dintre o selecie repetat i una nerepetat este nesemnificativ i, ca atare, n aplicaiile practice o selecie
nerepetat se trateaz dup metodele seleciei repetate.
2. Estimaii
Teoria estimaiei urmrete evaluarea parametrilor unei repartiii n general cunoscute.
Valorile numerice obinute se numesc estimaii sau estimatori. Se obin estimaii punctuale n cazul
n care se folosesc datele seleciei pentru a obine valorile parametrilor i estimaii ale intervalelor
de ncredere n cazul n care se determin un interval n care se afl, cu o anumit probabilitate
valoarea estimat.
3
. O estimaie este nedeplasat dac

Un estimator al parametrului se va nota cu
M = , adic media estimaiei este egal chiar cu valoarea teoretic a parametrului estimat.
( )
( )
Conform proprietii 2.3.5.1, M X = adic media de selecie este un estimator

2
2
nedeplasat al mediei, iar conform proprietii 2.3.5.2., M ( s ) = adic dispersia de selecie este
un estimator nedeplasat al dispersiei.
Problema estimrii intervalelor se reduce la gsirea unui interval de ncredere ( L ,U ) cu
un coeficient de ncredere 1 astfel nct
P( L U ) = 1
Este de dorit ca 1 s fie ct mai mare (de obicei este cuprins ntre 0,9 i 0,99) iar
intervalul ( L ,U ) s fie ct mai mic. n stabilirea intervalelor se utilizeaz caracteristicile
numerice cuantile. Se numesc cuantile de ordin valoarea x a variabilei aleatoare x pentru
care
F ( x ) = P( x x ) =
adic valoarea variabilei aleatoare care are la stnga ei aria sub curba
densitii de probabilitate. Evident:

P x x =
2 2
P x x = 1
1
2 2

P x x x1 = 1 = 1
2 2 2 2
Pentru a estima un interval se alege 1 , se citesc din tabelele cuantilele, de exemplu

x
1
2
x
2
i se precizeaz intervalul. n prealabil, n funcie de mrimea pentru care se caut
intervalul se precizeaz cu care din repartiiile cunoscute trebuie lucrat.
2.1.Estimarea intervalelor de ncredere pentru medii

Cazul cnd se cunoaste dispersia.
Se consider o populaie repartizat normal N ( , 2 ) . Dac se cunoate dispersia se poate

folosi faptul c
z=
este repartizat N (0,1) . Se noteaz cu z cuantila de ordinul
pentru repartiia N (0,1) . Evident

P z z z = F z F z = 1 = 1
1
1
2 2 2 2 2 2
z , z
1
2
2
Aadar intervalul
este un interval de estimare cu coeficientul de ncredere 1 .
Din anumite puncte de vedere este recomandabil s se utilizeze acele intervale care las att la
dreapta ct i la stnga lor aceeai arie, egal cu

.
2
z = z
Deoarece repartiia N (0,1) este simetric fa de axa Oy avem relaia
1
2
Din relaiile
z
x
z
1
2
n
z *
x z *
1
1
n
n
2
2
x z *
x+ z *
1
1
n
n
2
2
rezult
X z
X +z
1
1
n
n
2
2
Aadar intervalul cutat este
( L ,U ) = X z , X + z
1
2
z z
1
2
1
2
Mrimea E = z1
2
z
12
n =
E
poart numele de eroare i servete la calculul numrului de experiene
atunci cnd este impus eroarea i se alege un coeficient 1
Metoda descris mai poate fi aplicat i n cazul n care x nu este repartizat normal deoarece z
este repartizat N (0,1) indiferent de repartiia variabilelor x1 , x 2 ,..., x n (teorema limit central).
Cazul cnd dispersia este necunoscut
Dac nu se cunoaste dispersia n estimarea intervalelor se utilizeaz dispersia de selecie care
este un estimator nedeplasat al dispersiei deoarece E ( s 2 ) = 2
Se consider x1 , x 2 ,..., x n o selecie dintr-o populaie de tipul N ( , 2 ) .
5
Conform celor artate anterior mrimea
T =
X
s
este repartizat T ( n 1) i, ca urmare
n

P t T t = F t F t = 1 = 1
n ,1 n 1,1
n 1,1
n ,1 2 2
2 2 2 2
Deoarece repartitia Student este simetric fa de origine t n 1,1 = t n 1,1 i nlocuindu-l pe

2
T n relaia anterioar, se obine
X
Pt T t
=
P
t
t

n 1,1
n 1,1
s
n 1, 2
n 1, 2
2
2
s
s
X +t
i X tn 1,1
n 1,1
n
n
2
2
Ca urmare intervalul cutat este
= 1
s
s
, X +t
1
,
1
n
n
2
2
s
n acest caz eroarea este E = t n 1,1
n
2
(L ,U ) = X
n 1,1
Dac numrul de experiene este

t
n 1,1
=z
n 30
, se poate folosi aproximaia
2.2.Estimarea intervalului de ncredere 1 pentru diferena a dou medii
Se consider dou selecii din populaii normal repartizate N 1 , 12 i N 2 , 22 .

Cazul dispersiilor 12 , 22 cunoscute.
Considerm o selecie aleatoare x11 , x12 ,..., x1n1 din populaia
x 21 , x 22 ,..., x 2 n dintr-o populaie N 2 , 22 .
2
Estimatorii nedeplasai ai mediilor 1 i 2 sunt: X 1
n1
n1
N 1 , 12
x1i
i o selecie
n2
si X 2
x2i
n2
Considernd variabila aleatoare X 1 X 2 , ea este normal repartizat iar estimaia i dispersia ei vor
( ) ( )
fi M ( X 1 X 2 ) = M ( X 1 ) M ( X 2 ) = 1 2 i D X 1 X 2 = D X 1 + D X 2 =
12 22
+
unde am
n1 n2
inut cont c x1i i x 2i sunt independente.
Mai departe, variabila aleatoare
z=
(X
X 2 ( 1 2 )
D X1 X 2
(X
X 2 ( 1 2 )
12 22
+
n1 n2
este repartizat
N(0,1).
Deoarece,

P z z z = 1
2 1 2
z = z
2
rezulta
12 22
12 22
+
X
+
z
+
1
2
1
2
1
1
n
n
n
n2
1
2
1
2
2
Aadar, intervalul de estimaie pentru diferena mediilor este
2
2
2
2
( 1 , 2 ) = X 1 X 2 z1 1 + 2 , X 1 X 2 + z1 1 + 2
n1 n2
n1 n2
2
2
X1 X 2 z
n acest caz, eroarea este E = z
12 22
+
.
n1 n2
Dispersii necunoscute dar presupuse egale

n cazul n care nu cunoatem dispersiile dar tim c sunt egale 12 = 22 = 2 utilizm dispersia
ponderat de selecie
n1 1) s12 + ( n2 1) s22 1 ( x1i X 1 )
(
2
s =
=
n1
+ 1 2 x2i X 2
n
n1 + n2 2
n1 + n2 2
2
ca un estimator nedeplasat pentru .
Avem ntr-adevr,
( n1 1) M ( s12 ) + ( n2 1) M ( s22 ) ( n1 1) 12 + ( n2 1) 22 2
2
M ( sp ) =
=
=
n1 + n2 2
n1 + n2 2
n continuare vom arta c mrimea
(X
Se observ c T =
T =
X 2 ( 1 2 )
X1 X 2
sp
1X2
1
1
+
n1 n2
(X
X 2 ( 1 2 )
1
1
este repartizat T ( n1 + n 2 2 )
sp
+
n1 n2
este raportul ntre o variabila aleatoare repartizat N(0,1)
i deoarece
sp
1
1
+
=
n1 n2
1 X 2
s
s 2p
1
1
+
= p =
=
n1 n2
sp
1
1
+
n1 n2
(x
n1
variabila
1i
( n1 + n2 2) 2
sp
1 X 2
1
1
+
n1 n2
2
Dar
n1
X 1 + 1 2 x2i X 2
x1i X 1
n1
x1i X 1
x X2
+ n 2 2i
n1 + n2 2
2 ( n1 + n2 2 )
n1 + n 2 2
este de tipul
este repartizat ( n1 1) iar

2
T este repartizat T ( n1 + n2 2 ) i

P t T t = 1 = 1
n1 + n2 2, n1+ n2 2,1 2 2
2 2
Deoarece repartiia Student este simetric
n1 +n2 2 ,
n2
x2 i X 2
= t
n1 +n2 2 ,1
este repartizat 2 ( n2 1) , deci
rezult c
11
11
X1 X2 t sp + 1 2 X1 X2 t sp +
n1+ n2 2,1 n n
n1+ n2 2,1 n n
2 12
2 12
Deci,
( 1 , 2 ) = X 1 X 2 tn + n
eroarea E = t n +n
1
2 2 ,1
sp
2 2 ,1
2
sp
1
1
1
1
+
, X1 X 2 + t
+
sp
n + n 2 2 ,1
n1 n2
n1 n2
21
cu
1
1
+
.
n1 n 2
2.3. Estimarea intervalelor de ncredere pentru dispersie

Considerm o selecie de volum n dintr-o populaie normal N ( , 2 ) . Conform celor artate
(
n 1) s 2
anterior variabila aleatoare v =
este repartizat 2 ( n 1) i ca urmare
2
2 2
P v = 1 = 1
n 1, n 1,1 2 2
2 2
Deci,
( n 1) s 2 ( n 1) s
2
( n 1) 2 2 2
n 1, n 1,1
n
1
,
1
1
,
2
2
2
si
2
.
2.3.1. Estimarea intervalului de ncredere pentru raportul a dou dispersii

2
Se consider selecia aleatoare x11 , x12 ,..., x1n1 dintr-o populaie N ( , , 1 ) i o selecie
x 21 , x 22 ,..., x 2 n dintr-o populaie N 2 , 22 .
s12
12
Conform cu cele artate anterior, raportul F = 2 este repartizat F ( n1 1, n2 1) i deci
s2
22

P f F f = 1 = 1
n1 1,n2 1, n1 1,n2 1,1 2 2
2 2
Rezult c
s s
f f
s s
2
2
2
n1 1,n2 1,
1 2
22
22
22
n1 1,n2 1,
11 2
, iar intervalul de estimaie pentru raportul dispersiilor este:
( L , U )
s22
s22
= 2 f
f
,
2
n1 1, n 2 1,
n1 1, n 2 1,1
s
s
1
2
2
1
3. Verificarea ipotezelor statistice

Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiiei unor variabile aleatoare. Ele se refer fie la
parametrii repartiiei, fie la legea propriu zisa de repartiie.
Teste statistice
Metodele de verificare a ipotezelor se bazeaz pe teste statistice care constau n examinarea
seleciilor obinute pentru o variabil aleatoare i a unor funcii de elementele seleciilor.
Notaii conventionale
Ipoteza testat, presupus adevarat, se numete ipoteza nul i se noteaz H0. Testarea
necesit i formularea unei ipoteze complementare, numit ipotez alternativ i notat H A. Dac se
accept H0, n mod normal se respinge HA i invers.
Din acest motiv, ipotezele H0 si HA se aleg s fie complementare.
Dac testul privete valoarea unui parametru , de exemplu H 0 : = 0 i H A : = 1 se
poate ntmpla ca toi ceilali parametri ce caracterizeaz distribuiile s fie cunoscui i, dup
acceptarea uneia din cele dou ipoteze, distribuiile ( x,0 ) i ( x,1 ) devin complet definite. n
acest caz, ipotezele sunt numite simple. Dac ns ceilali parametric nu sunt cunoscui complet,
ipotezele se numesc ipoteze compuse. De exemplu, dac distribuia este normal i parametrul
cautat este , iar dispersia este necunoscut, suntem n cazul unei ipoteze compuse.
3.1. Probabilitatea unei decizii gresite
La verificarea ipotezelor se pot comite dou feluri de erori:
1. Erorile de tipul 1 constau n respingerea ipotezei H0 atunci cnd aceasta este adevrat.
2. Erorile de tipul 2 constau n acceptarea ipotezei H0 atunci cnd aceasta este fals.
Probabilitatile celor dou tipuri de erori se noteaz de obicei cu respectiv :
= P (respinge H0 / H0 adevrat)
= P (accept H0 / H0 fals) = P (respinge HA / HA adevrat)
Deci, este riscul de a respinge n mod greit H0 i este riscul de a respinge n mod greit HA.
Probabilitatea de a respinge ipoteza H0 atunci cnd aceasta este fals =1 se numete
puterea testului. Coeficientul este numit i nivel de semnificaie. Desigur c este de dorit ca
valorile i s fie ct mai mici. Valoarea lui se alege i n funcie de importana implicaiilor
acceptrii sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca
bun pentru majoritatea problemelor din practic. Dac ns este vorba de un medicament foarte
activ cum ar fi digoxina, este de preferat a alege ntre 0,01 si 0,05.
Pentru a verifica o ipotez se folosesc datele de selecie pentru calcularea unui test statistic.
Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea se
numete regiune critic.
Metodologia de verificare cuprinde n principiu urmtoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o
repartiie pentru populaia statistic din care se face selectia;
2. se formuleaz ipoteza;
3. se calculeaz valoarea testului ales i se compar cu limitele de acceptare, respectiv
respingere;
4. se accept sau se respinge, n funcie de rezultat, ipoteza H0.
10
Ipoteze asupra mediei

Dispersia cunoscut
Se consider o selecia dintr-o populaie normal N ( , 2 ) . Considerm variabila aleatoare X
. Datorit linearitii operatorului de mediere avem:
nM ( xi ) n
= 1
=
=

n
n

Pentru dispersia lui X inem cont c D 2 ( ax + b ) = a 2 D 2 ( x ) i c rezultatele xi reprezint

2
2
2
variabile aleatoare independente D xi + x j = D ( xi ) + D x j .
n xi
M X = M 1
n
( )
n xi
n aceste condiii se obine D 1

n
( )
D ( x ) = n
n
n2
n2
2
n
( ) = X
este repartizata
D( X )
X E X
Ca urmare a teoremei limit central, variabila aleatoare
N ( 0,1) .
Avem n acest caz, dac vom alege un risc

conform cu tabelul de mai jos:
Tabelul nr. 2:
H0
HA
= 0
, ipotezele i criteriile de acceptare sau respingere
Regiunea critic
z z
z z
1
= 0
z z1
= 0
z z1
Dispersia necunoscut
n acest caz se nlocuiete n formula anterioar
variabila aleatoare
T =
cu estimaia sa
s x i se ine cont c
X
s
este repartizat Student cu n-1 grade de libertate.
n
3.2. Ipoteze asupra diferenelor a dou medii

Cazul cnd se cunosc dispersiile
Se consider dou populaii normale N 1 , 12 i N 2 , 22 , o selecie aleatoare din
x11 , x12 ,..., x1n din populaia N 1 , 12 i o selecie aleatoare x 21 , x 22 ,..., x 2 n din populaia
N 2 ,
2
2
).
11
Variabila aleatoare
X X ( 1 2 )
X X 2 ( 1 2 )
z= 1
= 1
este, dupa cum s-a aratat anterior, repartizat
12 22
D X1 X 2
+
n1 n2
N(0,1).
Cazul dispersiilor necunoscute, dar presupuse egale

n cazul n care nu cunoatem dispersiile dar tim c sunt egale 12 = 22 = 2 utilizm dispersia
ponderat de selecie
s
2
p
( n 1) s12 + ( n2 1) s22
= 1
(x
=
n1
n1 + n2 2
ca un estimator nedeplasat pentru 2 .
Dup cum s-a artat anterior, mrimea
1i
X 1 + 1 2 ( x2i X )
2
n1 + n2 2
T =
(X
X 2 ( 1 2 )
1
1
este repartizat T ( n1 + n2 2 )
sp
+
n1 n2
Cazul observaiilor perechi

In cazul cnd observaiile formeaz n mod natural perechi, cum ar fi de exemplu cnd se
msoar concentraiile n n probe, fiecare din ele cu dou metode diferite sau cazul cnd dou
medicamente se administreaz unui aceluiai lot de voluntari, n dou perioade diferite.
Considerm n acest caz variabila aleatoare d = X 1 X 2 .
n cazul n care seleciile aparin la aceiai populaie, media lui d va fi zero: E (d ) = 0 .
d
2 2
Cnd se cunosc dispersiile avem D d = d2 = 1 + 2 i variabila aleatoare
este repartizat
d
n
n
N (0,1) .
Cnd nu se cunosc dispersiile se folosesc dispersiile de selecie i se ine cont c variabila
()
d
aleatoare s d dup cum se poate arta uor, este repartizat Student cu n-1 grade de libertate.
n
Compararea proporiilor
Dac vom considera un experiment n care rspunsul este de tip da sau nu, de exemplu
vindecare sau nevindecare, supravieuire sau moarte, etc., numrul de rezultate k de un anumit tip n
n repetri ale experimentului este o variabil aleatoare repartizat binomial.
Deoarece avem, dup cum s-a calculat anterior E ( k ) = np i D ( k ) = npq , variabila aleatoare
standardizat z =
k E( k )
D( k )
k
p
= n
se aproximeaz ca fiind normal repartizat.
npq
pq
n
k np
Fie dou populaii de tip urna Poisson cu bile albe i bile negre, cu parametrii (probabilitatea
bilei albe) p1 i respectiv p 2 . n dou selecii din cele dou populaii, de volum n1 i respectiv
n 2 presupunem c s-a obinut rspuns pozitiv de k1 i respectiv k 2 ori.
12
ki
, i = 1,2 . n cazul ipotezei nule H 0 : p1 = p 2 = p , variabila aleatoare h1 h2 va fi
ni
distribuit cu media 0 i dispersia
1
p (1 p1 ) p 2 (1 p 2 )
1
D( h1 h2 ) = 1
+
= p (1 p )
n1
n2
n1 n 2
h1 h2
Fie hi =
n aceste condiii se aproximeaz c variabila aleatoare

N (0,1) .
1
1
p (1 p ) +
n1 n 2
va fi repartizat
k1 + k 2
.
n1 + n 2
O mbuntire a aproximrii se poate obine prin introducerea unor corecii de continuitate
1
1
h1
h2
2n1
2n2
pentru h1 i h2 : z =
1 1
p(1 p ) +
n1 n2
O estimare natural a lui p este p =
4. Estimarea dispersiei
Considerm o selecie de volum n dintr-o populaie normal N ( , 2 ) . Conform celor artate

( n 1) s 2 este repartizat 2 ( n 1) .
anterior variabila aleatoare v =
2
4.1.
Estimarea raportului a dou dispersii
Se consider selecia aleatoare x11 , x12 ,..., x1n dintr-o populaie N 1 , 12 i o selecie
1
aleatoare x 21 , x 22 ,..., x 2 n2 dintr-o populaie N 2 ,

2
1
2
1
2
2
2
2
Conform cu cele artate anterior, raportul F =

s
s12
2
Se calculeaz F = 2 lundu-se
s2
1
( n 1) s 2
v=
2
(x
=
n
(x
=
n
)(
s s22 .
[( x
=
n
) (
).
)]
2
(1 xi ) n X
X
n xi
=
=
1
2
este repartizat F ( n1 1, n2 1) .
) X
) 2 X n X n + n X
2
2
2
13
xi E ( xi )
x
xi
= 0 i D 2 i
=
=1
este repartizat N(0,1) cci E

Deci v este o sum de n-1 ptrate de variabile de tip N(0,1).
Dar
4.2.
Compararea mai multor dispersii.
a) Testul Bartlett pentru verificarea omogenitii dispersiilor
Fie m estimri independente s1 , s 2 ,..., s m pentru dispersiile 1 , 2 ,..., m pe baza unor
selecii de volume n1 , n 2 ,..., n m .
Se pune problema verificrii ipotezei privind egalitatea acestor dispersii H 0 : 12 = 22 = ... = m2
n acest caz Bartlet a artat c variabila aleatoare
k
(
s2 )
2
2
2,303( k ln s k i ln si ) = ln m
k
1 ( si2 ) i
unde k i = ni 1 , k = k i i s dispersia ponderat a ntregului set de date, este repartizat

2 ( m 1) .
b) Testul rapid Cochran pentru selecii de acelai volum
Daca selectiile considerate au acelasi volum n1 = n2 = ... = nk = n , atunci se calculeaza
valoarea G max =
nule.
2
s max
k 2
1 i
care se compar cu o valoare maxim admis pentru acceptarea ipotezei
In formula de mai sus avem:

2
1 n
2
si2 =
xij xi si s max
= max 1i k s i2
n 1 j =1
Ipoteza H 0 se respinge daca
Gmax c( )
unde c() se gaseste din tabelele Cochran la
perechea ( k , n 1) grade de libertate si la probabilitatea
P( Gmax c( ) = 1
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru k 12 testul H calc
iar ipoteza H 0 se respinge daca
probabilitatea
P( Hmax H( ) = 1
H calc H ( )
max si2
=
min si2
unde H () se gaseste din tabelele Hartley la
14
5. Metoda verosimilitii maxime

Considerm caracteristica X supus cercetrii ca avnd funcia de probabilitate f(x;
1 , 2 ,..., s ) . Variabilele de selecie X 1 , X 2 ,..., X n sunt independente i identic repartizate,
rezult c vectorul aleator ( X 1 , X 2 ,..., X n ) va avea funcia de probabilitate

n
V ( X 1 , X 2 ,..., X n ; 1 , 2 ,..., s ) = f ( X i ; 1 , 2 ,..., s ) i care se numete funcie

i =1
de verosimilitate.
Spunem c estimatorii i = i (X 1 , X 2 ,..., X n ) sunt de verosimilitate maxim pentru
i , i =1, s dac realizeaz maximul funciei de verosimilitate.
Determinarea estimatorilor de verosimilitate maxim se va face rezolvnd sistemul

V
ln V
= 0, i = 1, s , care de regul se nlocuiete cu
= 0, i = 1, s numit sistem de verosimilitate
i
i
maxim.
1) Se arat c un estimator eficient este un estimator de verosimilitate maxim.
2) Un estimator de verosimilitate maxim este estimator consistent, iar pentru valori mari
ale lui n este o variabil aleatoare ce urmeaz legea normal N( , [I()] 1 ) , unde este
parametrul estimat.
Exemplu.
S se determine estimatorii de verosimilitate maxim pentru valoarea medie
i abaterea standard dac se consider caracteristica X, care urmeaz legea normal N(m, ).
Rezolvare:
M(X) = m i ( X) = , f(x; m, ) =
1
2
( x m ) 2
2 2
. Pentru a scrie sistemul de
verosimilitate maxim avem:

ln f(x; m, ) = - ln
2 ln
( x m) 2
, de unde
2 2
ln f ( x; m, ) x m
ln f ( x; m, )
1 ( x m) 2
=
,
iar
.
=
+
m
2
3
Se obine:
n
n
ln V
ln f ( X k ; m, )
X m
1
=
= k 2 = 2
m
m
k =1
k =1
( X
k =1
m) .
n
n
ln f ( X k ; m, )
ln V
1 ( X k m) 2
1 n
=
= [ +
]
=
[ 2 + ( X k m) 2 ]
3
3
k =1
k =1
k =1
15
k =1 (X k m) = 0
sau: n
2
2
[ + (X k m) ] = 0
k =1
Exemplu.
1 n
m = Xk = X
n k =1
n
= 1 (X k X ) 2 = 2
n k =1
Se consider caracteristica X ce urmeaz legea binomial, adic are
distribuia teoretic:
X
P( m, k )
k =0 ,m
, unde P(m,k) = C km p k q m k , q = 1 p, cu parametrul
p (0,1) necunoscut. Folosind o selecie de volum n, se cere:

a) estimatorul
p de
verosimilitate maxim pentru p;
b) s se arate c estimatorul
p este
un estimator absolut corect pentru parametrul p;
c) s se arate c estimatorul
p este
un estimator eficient pentru parametrul p.
Rezolvare:
a) Funcia de probabilitate pentru caracteristica X este
f(x; p) =
x
Cm
p x (1 p) m x , x = 0, m . Pentru a scrie ecuaia de verosimilitate maxim
ln f ( X k ; p)
= 0 , avem c
p
k =1
n
ln f(x; p) = ln C mx + x ln p + (m x ) ln(1 p) , de unde

ln f ( x; p)
x m x
=
. Aadar ecuaia verosimilitii maxime este:
p
p
1 p
n
(
k =1
Xk m Xk
1 n
nX
mn
nX
+
= 0 , unde X = X k .
) = 0 , adic
p
1 p 1 p
p
1 p
n k =1
Ecuaia verosimilitii maxime se mai scrie
(1 p) X mp + pX = 0 ,
estimatorul de verosimilitate maxim p = p ( X 1 , X 2 ,..., X n ) =
de unde se obine
1
X pentru parametrul p.
m
Pentru aceasta avem, n primul rnd, c:

M(p ) =
1
1
1
M ( X ) = M ( X) = mp = p , iar apoi pentru dispersie se poate scrie succesiv:
m
m
m
D 2 ( p ) =
1 2
1
D (X ) = 2 2
2
m
m n
D2 ( X k ) =
k =1
1
m2n2
(X ) =
k =1
1
D 2 ( X ) mpq pq
2
nD
(
X
)
=
= 2 =
0, n .
m2n2
m2n
m n mn
16
D 2 (X) = 0 , deci estimatorul

Prin urmare, s-a obinut M( p ) = p i nlim
p este
estimator
absolut corect pentru parametrul p.

c) Cantitatea de informaie relativ la parametrul p se poate calcula dup cum urmeaz:
I(p) = nM[(
=
ln f ( X; p) 2
1
n
) ]=n 2
M[(X mp) 2 ] = 2
D 2 (X) =
2
p
p (1 p)
p (1 p) 2
n
mn
mp(1 p) =
.
2
p(1 p)
p (1 p)
2
Pe de alt parte, am vzut c D ( p ) =
1
, deci estimatorul p este estimator eficient
I( p)
pentru parametrul p.
Bibilografie:
1. Buiga, A., Drago C., Lazr D., Parpucea I., Todea A. - Statistic I - Ed. Presa Universitar
Clujean, Cluj-Napoca, 2003;
2. Ivanov M. Matematici Speciale, Curs Universitatea Constantin Brncui Tg. Jiu,
2006;
3. Cenu G., erban R., Raischi C., - Matematici pentru economiti Bibiloteca Digital
A.S.E., 2008.
17

Referat Teoria Sondajului

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Referat Teoria Sondajului

Uploaded by

Copyright:

Available Formats

UNIVERSITATEA POLITEHNICA BUCURESTI

FACULTATEA DE STIINTE APLICATE

Referat teoria sondajului

MASTERAND: Dogaru Ramona-Elena

. O estimaie este nedeplasat dac

Conform proprietii 2.3.5.1, M X = adic media de selecie este un estimator

un coeficient de ncredere 1 astfel nct

densitii de probabilitate. Evident:

Pentru a estima un interval se alege 1 , se citesc din tabelele cuantilele, de exemplu

i se precizeaz intervalul. n prealabil, n funcie de mrimea pentru care se caut

intervalul se precizeaz cu care din repartiiile cunoscute trebuie lucrat.

2.1.Estimarea intervalelor de ncredere pentru medii

Se consider o populaie repartizat normal N ( , 2 ) . Dac se cunoate dispersia se poate

este repartizat N (0,1) . Se noteaz cu z cuantila de ordinul

pentru repartiia N (0,1) . Evident

este un interval de estimare cu coeficientul de ncredere 1 .

dreapta ct i la stnga lor aceeai arie, egal cu

poart numele de eroare i servete la calculul numrului de experiene

atunci cnd este impus eroarea i se alege un coeficient 1

Conform celor artate anterior mrimea

Deoarece repartitia Student este simetric fa de origine t n 1,1 = t n 1,1 i nlocuindu-l pe

T n relaia anterioar, se obine

Dac numrul de experiene este

, se poate folosi aproximaia

2.2.Estimarea intervalului de ncredere 1 pentru diferena a dou medii

Se consider dou selecii din populaii normal repartizate N 1 , 12 i N 2 , 22 .

Estimatorii nedeplasai ai mediilor 1 i 2 sunt: X 1

inut cont c x1i i x 2i sunt independente.

Mai departe, variabila aleatoare

n acest caz, eroarea este E = z

Dispersii necunoscute dar presupuse egale

este raportul ntre o variabila aleatoare repartizat N(0,1)

este repartizat ( n1 1) iar

este repartizat 2 ( n2 1) , deci

2.3. Estimarea intervalelor de ncredere pentru dispersie

2.3.1. Estimarea intervalului de ncredere pentru raportul a dou dispersii

, iar intervalul de estimaie pentru raportul dispersiilor este:

3. Verificarea ipotezelor statistice

Ipoteze asupra mediei

Pentru dispersia lui X inem cont c D 2 ( ax + b ) = a 2 D 2 ( x ) i c rezultatele xi reprezint

n aceste condiii se obine D 1

Ca urmare a teoremei limit central, variabila aleatoare

Avem n acest caz, dac vom alege un risc

, ipotezele i criteriile de acceptare sau respingere

3.2. Ipoteze asupra diferenelor a dou medii

Cazul dispersiilor necunoscute, dar presupuse egale

Dup cum s-a artat anterior, mrimea

Cazul observaiilor perechi

n aceste condiii se aproximeaz c variabila aleatoare

O estimare natural a lui p este p =

Considerm o selecie de volum n dintr-o populaie normal N ( , 2 ) . Conform celor artate

aleatoare x 21 , x 22 ,..., x 2 n2 dintr-o populaie N 2 ,

Conform cu cele artate anterior, raportul F =

unde k i = ni 1 , k = k i i s dispersia ponderat a ntregului set de date, este repartizat

care se compar cu o valoare maxim admis pentru acceptarea ipotezei

In formula de mai sus avem:

Ipoteza H 0 se respinge daca

unde c() se gaseste din tabelele Cochran la

perechea ( k , n 1) grade de libertate si la probabilitatea

unde H () se gaseste din tabelele Hartley la

5. Metoda verosimilitii maxime

rezult c vectorul aleator ( X 1 , X 2 ,..., X n ) va avea funcia de probabilitate

V ( X 1 , X 2 ,..., X n ; 1 , 2 ,..., s ) = f ( X i ; 1 , 2 ,..., s ) i care se numete funcie