You are on page 1of 14

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 1 din 14

STATISTIC

PROCEDURI

DE

ESTIMARE

Statisticile infereniale se clasific n dou categorii principale: proceduri de estimare i proceduri de testare a ipotezelor. n procedurile de estimare, care fac obiectul acestui capitol, pe baza unei statistici calculate pentru un eantion se face o apreciere despre parametrul corespunztor al populaiei de referin. n testarea ipotezelor, care face obiectul capitolelor urmtoare, se verific (se testeaz) o ipotez despre populaie prin raportare la rezultatele obinute pe un eantion. La rndul lor, procedurile de estimare sunt de dou tipuri: puncte estimate i intervale estimate. Un punct estimat este o singur valoare calculat pentru un eantion i folosit pentru a estima parametrul corespunztor al populaiei de referin. Un interval estimat este o amplitudine de valori n care este probabil s se afle un parametru al populaiei de interes. Lund drept exemplu sondajele electorale, a spune c 38% din electorat va vota pentru candidatul X nseamn a raporta un punct estimat, n timp ce a spune c ntre 35% i 42% din electorat va vota pentru candidatul X nseamn a raporta un interval estimat. n ambele tipuri de proceduri, statisticile calculate pentru eantioane servesc drept estimatori. De pild, media aritmetic pentru un eantion este un estimator al mediei aritmetice a populaiei de referin.

6.1 CARACTERISTICI ALE ESTIMATORILOR


Un estimator trebuie s satisfac dou condiii: s fie nedistorsionat i relativ eficient. Se spune c un estimator este nedistorsionat, dac media aritmetic a distribuiei sale de eantionare este egal cu media aritmetic a populaiei de referin. Conform teoremei limitei centrale, mediile aritmetice ale eantioanelor satisfac aceast condiie: media aritmetic a distribuiei de eantionare a mediilor aritmetice, X , este egal cu media aritmetic a populaiei, . Statisticienii au demonstrat c i proporiile eantioanelor, p, sunt nedistorsionate, ntruct media aritmetic a distribuiei de eantionare a proporiilor pentru eantioane, p, este egal cu proporia populaiei, P. Prin contrast, un estimator este distorsionat, dac media aritmetic a distribuiei sale de eantionare este diferit de media aritmetic a populaiei. De pild, abaterea standard a unui eantion este un estimator distorsionat al abaterii standard a populaiei: de regul, dispersia unui eantion este mai mic dect cea a populaiei de referin, astfel c s tinde s subestimeze pe . Dup cum am menionat n capitolul 3, aceast distorsiune poate fi corectat. Un estimator nedistorsionat permite, ntre altele, determinarea probabilitii ca o mrime statistic a unui eantion s se afle la o anumit distan fa de parametrul corespunztor pe care ncercm s-l estimm. Pentru ilustrare, s presupunem c ne intereseaz venitul mediu al unei populaii. Pentru aceasta, alctuim un eantion

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 2 din 14 aleatoriu cu n = 500 i calculm media aritmetic pentru acest eantion. S presupunem c am gsit X = 5000000 . Dup cum am artat, variabila venit prezint o distribuie asimetric. Cu toate acestea, conform teoremei limitei centrale, distribuia de eantionare a X pentru eantioane mari (n 100) aproximeaz normalitatea, avnd media aritmetic, X , egal cu media aritmetic a populaiei, . tim c toate curbele normale conin aproximativ 68% din cazuri ntre 1Z, 95% din cazuri ntre 2Z i 98% din cazuri ntre 3Z fa de medie. Aici, cazurile sunt medii aritmetice ale eantioanelor, astfel c exist o probabilitate mare (aproximativ 68 de anse din 100) ca media aritmetic a eantionului considerat, 5000000, s se afle ntre 1Z, o probabilitate foarte mare (95 din 100) ca aceast medie s se afle ntre 2Z i o probabilitate extrem de mare (98 din 100) ca aceast medie s se afle ntre 3Z fa de media aritmetic a distribuiei de eantionare X , care are aceeai valoare cu : Figura 6.1 Procente din aria de sub curba normal
34,13% 34,13%

68,26%

13,59%

13,59%

0,13%

2,15%

95,44%

2,15%

0,13%

-3

-2

-1

+1

+2

+3

( )
De remarcat c n aproximativ 2% din cazuri, media aritmetic de 5000000 se afl la mai mult de 3Z fa de media aritmetic a distribuiei de eantionare. Practic, putem spune c media aritmetic de 5000000 nu se afl n acea minoritate. Cea de-a doua condiie pe care trebuie s o satisfac un estimator, eficiena, este legat de dispersie. Un estimator este cu att mai eficient, cu ct distribuia de eantionare este mai grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct este mai mic abaterea standard a distribuiei de eantionare. S considerm mediile aritmetice ale eantioanelor. Din teorema limitei centrale tim c abaterea standard a distribuiei de eantionare a mediilor aritmetice ale eantioanelor, X , este egal cu n , deci X este invers proporional cu n: cu ct dimensiunea eantionului este mai mare, cu att este mai mic X . Ca atare, eficiena mediei aritmetice ca estimator poate fi mbuntit (= X poate fi micorat) prin mrirea dimensiunii eantionului. Pentru ilustrare, s considerm urmtorul exemplu:

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 3 din 14

Eantionul 1
X = 5000000

Eantionul 2
X = 5000000

n1 = 100

n2 = 1000

S presupunem c abaterea standard a populaiei, , este de 275000 (evident, valoarea lui este rareori cunoscut n realitate). n privina primului eantion, abaterea standard a distribuiei de eantionare a mediilor aritmetice ale tuturor eantioanelor cu n = 100 este 275000 100 = 27500. n privina celui de-al doilea eantion, abaterea standard a distribuiei de eantionare a mediilor aritmetice ale tuturor eantioanelor cu n = 1000 este considerabil mai mic: 275000 1000 = 8697. Cea de-a doua distribuie de eantionare este mult mai grupat dect prima distribuie1. Rezumnd, ntruct X este invers proporional cu n, cu ct eantionul este mai mare, cu att distribuia de eantionare este mai grupat i eficiena estimatorului este mai mare2.

6.2 ESTIMAREA MEDIEI ARITMETICE CND CUNOSCUT

ESTE

Atunci cnd se estimeaz un punct, se alctuiete un eantion aleatoriu, se calculeaz o medie aritmetic sau o proporie i se estimeaz c valoarea parametrului respectiv este egal cu valoarea calculat pentru eantion. n acest tip de estimare se ine cont faptul c eficiena estimatorului este direct proporional cu dimensiunea eantionului, ceea ce nseamn c probabilitatea ca estimatorul s fie aproximativ egal cu parametrul corespunztor este cu att mai mare, cu ct dimensiunea eantionului este mai mare. Procedura de estimare a intervalelor este relativ mai complicat, dar este mai sigur, n sensul c, atunci cnd se estimeaz un interval, probabilitatea ca n acel interval s se afle parametrul de interes este mai mare i poate fi stabilit cu precizie. Fie o populaie cu media aritmetic i cu abaterea standard . Selectm aleatoriu un eantion de dimensiune n din aceast populaie i calculm media aritmetic pentru eantion, X . Conform teoremei limitei centrale, distribuia de eantionare a mediilor aritmetice ale tuturor eantioanelor posibile de dimensiune n din populaia de referin este aproximativ normal, cu media aritmetic egal cu cea a populaiei de referin i cu abaterea standard egal cu n . Pe baza caracteristicilor distribuiei de eantionare i a tabelului distribuiei normale standard putem formula enunuri de probabilitate despre mediile aritmetice ale eantioanelor. De pild, din tabel aflm c proporia de cazuri (medii aritmetice ale eantioanelor) cuprinse ntre Z = 1,96 i media aritmetic este de 0,475. ntruct curba este simetric, proporia de cazuri cuprinse ntre Z = +1,96 i media aritmetic este tot de 0,475. Astfel, proporia de cazuri cuprinse ntre 1,96 abateri standard fa de medie este de 0,95, iar proporia de
1

Cea de-a doua distribuie conine aproximativ 68% din mediile aritmetice ale tuturor eantioanelor posibile ntre 8697 fa de X , n timp ce prima distribuie conine ce 68% din mediile aritmetice ntrun interval mult mai larg: 27500. 2 Aceste relaii precizeaz ideea intuitiv c putem avea mai mult ncredere n rezultatele obinute pe eantioane mari, dect n cele obinute pe eantioane mici, evident, cu condiia ca i unele i altele s fie selectate aleatoriu.

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 4 din 14 cazuri aflate sub 1,96 i peste +1,96 abateri standard fa de medie este de 0,05 (0,025 + 0,025):

0,025

0,475 0,95

0,475

0,025

1,96

+1,96

Acelai lucru ca mai sus poate fi exprimat spunnd c 95% din mediile aritmetice ale eantioanelor se afl n intervalul dintre 1,96( n ) i +1,96( n ) sau, pe scurt, n intervalul 1,96( n ) . Structura acestui tip de enun de probabilitate poate fi folosit pentru a estima valoarea parametrului , prin construirea unui interval centrat pe valoarea cunoscut pentru eantion, X . Rezultatul este un interval de ncredere estimat o amplitudine de valori n care este probabil (nu sigur) s se afle . Astfel, putem estima c exist o probabilitate de 0,95 (sau 95%) ca media aritmetic a populaiei s se afle n intervalul X 1,96( n ) , ceea ce nseamn c probabilitatea ca media aritmetic a populaiei s nu se afle n acest interval este de 0,05 (sau 5%). Probabilitatea ca media aritmetic a populaiei s nu se afle n intervalul estimat sau, altfel spus, probabilitatea de eroare a estimrii se numete nivel de semnificaie sau nivel alfa (), iar probabilitatea ca intervalul estimat s conin media aritmetic a populaiei se numete nivel de ncredere. Dup cum reiese i din cele de mai sus, nivelul de ncredere este complementarul nivelului alfa, fiind egal cu 1 sau, n procente, cu (1 )100. A stabili, de pild, c = 0,05 nseamn acelai lucru cu a spune c nivelul de ncredere este de 95%. ntruct probabilitatea de eroare este mprit n mod egal n extremitatea inferioar i cea superioar a distribuiei de eantionare, stabilindu-se astfel limita inferioar i limita inferioar de ncredere, vom nota scorul Z corespunztor nivelului ales cu Z/2. Astfel, n cazul n care este cunoscut, formula de construire a unui interval de ncredere estimat ( IE) bazat pe media aritmetic a unui eantion este urmtoarea: Formula 6.1
IE = X Z 2 ( n)

Ca exemplu, s presupunem c dorim s estimm media aritmetic zilnic a orelor de vizionare a programelor TV de ctre femeile casnice. Pentru aceasta, alctuim un eantion aleatoriu de 200 de femei casnice ( n = 200) i aflm c acestea petrec n medie 6 ore pe zi vizionnd programe TV ( X = 6 ). Prin testri extensive tim c abaterea standard a populaiei pentru vizionarea programelor TV este de aproximativ 0,7 ( = 0,7). n aceast cercetare suntem dispui s asumm o ans de a grei de 10%, stabilind = 0,10. Pentru a determina limitele de ncredere inferioar i superioar, trebuie s scdem 0,05 (i.e. /2) din 0,5 (proporia de cazuri aflate de o parte i de alta a

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 5 din 14 mediei aritmetice a distribuiei de eantionare). Rezultatul scderii este 0,450, ceea ce reprezint proporia de cazuri dintre o limit de ncredere i medie:

0,05

0,450 0,90

0,450

0,05

1,65

+1,65

Astfel, pentru = 0,10 trebuie s cutm proporia 0,4500 n tabelul distribuiei normale standard. Gsim ns o proporie de 0,4495, corespunztoare scorului Z/2 = 1,64 i o proporie de 0,4505, corespunztoare scorului Z/2 = 1,65. Scorul Z/2 pe care l cutm se afl undeva ntre aceste dou scoruri. n aceste condiii, se ia cel mai mare dintre cele dou scoruri: 1,65. n acest fel, intervalul de ncredere va fi cel mai mare posibil n circumstanele date. Prin urmare, vom avea:
IE = X Z 2 (

1,65(0,7/14,14) = = 6 1,65 0,0495 = 6 0,08


n ) = 6 1,65(0,7 200 ) = 6

Pe baza mediei aritmetice a eantionului, estimm c femeile casnice petrec n medie ntre 5,92 (6 0,08) i 6,08 (6 + 0,08) ore pe zi vizionnd programe TV. O alt modalitate de a enuna acest interval este 5,92 < < 6,08. Aceast estimare are o ans de 10% de a fi greit, adic de a nu conine media aritmetic a populaiei. n principiu, cercettorul poate folosi orice valoare pentru nivelul de ncredere. Totui, nivelurile de ncredere folosite n mod obinuit sunt 90%, 95% i 99%. n cazul nivelului de ncredere de 99% ne confruntm cu aceeai problem ca n ultimul exemplu de mai sus. n acest caz, = 0,01 i scznd 0,005 (/2) din 0,5 obinem 0,495. n tabel nu apare proporia 0,4950, dar apar proporiile 0,4949 ( Z/2 = 2,57) i 0,4951 (Z/2 = 2,57). Ca mai sus, se ia cel mai mare dintre cele dou scoruri: 2,58. Tabelul urmtor rezum toate datele de care avem nevoie: Tabelul 6.1 Niveluri de ncredere i scoruri Z/2
Nivelul de ncredere (1 ) 100 90% 95% 99%

0,10 0,05 0,01

/2
0,050 0,025 0,005

Z/2 1,65 1,96 2,58

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 6 din 14

6.3 ESTIMAREA MEDIEI ARITMETICE CND ESTE NECUNOSCUT. DISTRIBUIA tSTUDENT


n aproape toate situaiile reale de cercetare, valoarea abaterii standard a populaiei este necunoscut. Se disting aici dou cazuri: cazul n care dimensiunea eantionului este relativ mare, ceea ce nseamn eantioane cu n > 30, i cazul n 30. n cazul eantioanelor cu n > 30, se poate estima prin s (abaterea standard a eantionului). ntruct, dup cum am vzut, s este un estimator distorsionat pentru , formula de construire a intervalului de ncredere estimat este uor modificat fa de formula 6.1, pentru a se corecta distorsiunea. Astfel, formula modificat pentru cazurile (reale) n care este necunoscut i n > 30 este urmtoarea: Formula 6.2
IE = X Z 2 ( s n 1)

nlocuirea lui n cu n 1 reprezint corecia cerut de faptul c s este un estimator distorsionat. Pentru ilustrare, s presupunem c venitul mediu al unui eantion aleatoriu cu n = 500 este de 5000000 de lei ( X = 5000000 ) cu s = 125000. Care este intervalul de ncredere estimat pentru media aritmetic a populaiei respective, la un nivel de ncredere de 95% ( = 0,05)?
IE = X Z 2 ( s n 1) = 5000000 1,96(125000 500 1) =

= 5000000 1,96(125000 22,34) =5000000 1,96 5595,34 =

= 5000000 10967 Pe baza mediei aritmetice a eantionului, estimm c media aritmetic a veniturilor populaiei este cuprins ntre 4989033 lei (5000000 10967) i 5010967 lei (5000000 10967) i exist doar 5% anse ca acest interval s nu conin media aritmetic a populaiei. Atunci cnd eantioanele sunt mici (n 30) i valoarea lui este necunoscut, distribuia normal standard nu poate fi folosit pentru a descrie distribuia de eantionare a mediilor aritmetice. Pentru a construi intervale estimate semnificative n cazul n 30 se folosete o alt distribuie teoretic: distribuia t Student3. Ca i n cazul distribuiei normale, graficul distribuiei tStudent, numit i curba t, este simetric i are form de clopot cu ambele extremiti extinse la infinit. Spre deosebire de graficul distribuiei normale, forma exact a graficului distribuiei t depinde de dimensiunea eantionului. Pentru eantioane mici, graficul distribuiei t este mult mai aplatizat dect cel al distribuiei normale (comparai figura urmtoare cu oricare dintre graficele de mai sus).

Aceast distribuie este datorat lui William S. Gosset, un chimist i statistician care lucra la fabrica de bere Guiness la nceputul secolului al XX-lea. Gosset a descoperit c pentru eantioanele mici, distribuiile de eantionare difer de distribuia normal i depind de dimensiunea eantionului considerat. Gosset i-a publicat rezultatele n 1908 sub pseudonimul Student.

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 7 din 14

Figura 6.2 Un exemplu de curb t

t=0 Pe msur ce dimensiunea eantionului crete, distribuia t seamn din ce n ce mai mult cu distribuia normal, identificndu-se cu aceasta pentru eantioane practic foarte mari (i teoretic infinite). Astfel, ntruct exist o distribuie t specific pentru fiecare eantion de dimensiune dat, distribuia t este, de fapt, o familie de distribuii. Distribuia t particular cerut pentru rezolvarea unei anumite probleme depinde de un concept matematic numit grade de libertate. Acest concept se refer la numrul de valori libere s varieze ntr-o distribuie. De pild, dac tim c o distribuie de cinci scoruri are media aritmetic egal cu 3 i c patru dintre aceste scoruri sunt 1, 2, 3, i 4, atunci valoarea celui de-al cincilea scor este fixat: 5. n general, pentru media aritmetic a unui eantion de dimensiune n, o distribuie are n 1 grade de libertate. Fiecare distribuie t este asociat cu un numr unic de grade de libertate. Mai precis, dac se selecteaz toate eantioanele posibile de dimensiune n dintr-o populaie normal, atunci distribuia de eantionare a cantitii
t= X s n 1

este distribuia tStudent cu n 1 grade de libertate. Distribuia t va fi utilizat ndeosebi n testarea ipotezelor. Deocamdat vom descrie tabelul valorilor critice ale distribuiei t, prezentat n Anexa C, i vom ilustra utilizarea acestui tabel pentru estimarea intervalelor. Schema general a acestui tabel este prezentat n figura 6.3. Figura 6.3 Schema tabelului valorilor critice ale distribuiei t
gl 1 2 3 29 30 2,045 t0,10 t0,05 t0,025 t0,01 t0,005

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 8 din 14 Tabelul valorilor critice ale distribuiei t specific valorile pentru t, ceea ce nseamn valorile lui t pentru care aria aflat la dreapta sub curba t este egal cu :

t Nivelele sunt dispuse pe primul rnd al tabelului Valorile t sunt date pentru grade de libertate (gl), dispuse pe prima coloan din stnga, de la 1 la 30 i apoi 40, 60, 120 i . De notat c, pe msur ce numrul de grade de libertate crete, diferena dintre distribuia t i distribuia normal descrete, precum i c pentru o infinitate de grade de libertate, distribuia t este identic cu distribuia normal. Pentru estimarea intervalelor, ca i pentru alte scopuri, avem nevoie de t/2. Aceast valoare se localizeaz nmulind cu 2 valoarea aflat pe primul rnd. De pild, pentru n = 30 i = 0,05, numrul de grade de libertate este 29; la intersecia coloanei de sub t = 0,025 i liniei corespunztoare pentru gl = 29 gsim valoarea 2,045. Astfel, n acest caz, vom spune c valoarea lui t/2 este 2,045. Formula pentru cazurile n care este necunoscut i n 30 este urmtoarea: Formula 6.3
IE = X t 2 ( s n)

Pentru ilustrare, s presupunem c un eantion aleatoriu de 20 de adolesceni cu dificulti de nvare au obinut urmtoarele rezultate la un test de cunotine la care scorul maxim ce poate fi obinut este de 40: Tabelul 6.2 Scoruri obinute la un test de cunotine de ctre 20 de adolesceni cu dificulti de nvare
18 31 26 24 22 20 32 28 27 33 12 25 23 20 28 30 29 20 19 22

Presupunnd c variabila msurat este normal distribuit n populaia de adolesceni cu dificulti de nvare, care este intervalul de ncredere estimat pentru media aritmetic a acestei populaii, la un nivel de ncredere de 99%? Calculm mai nti media aritmetic a scorurilor din eantion:
X =

X
n

489 = 24,45 20

Abaterea standard la nivelul eantionului este:

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 9 din 14

s=

2 i

nX 2

n 1

12515 20 597,8 = 29,4 = 5,42 19

Pentru n = 20, numrul de grade de libertate este 19; avnd = 0,01, la intersecia coloanei de sub t = 0,005 i liniei corespunztoare pentru gl = 19 gsim valoarea 2,861. Astfel, valoarea lui t/2 este 2,861. Aplicnd formula 6.3, obinem:
IE = X t 2 ( s n ) = 24,45 2,861(5,42 20 ) = 24,45 3,46

Astfel, estimm c media aritmetic pe care o cutm este cuprins ntre 21,03 i 27,91 i exist doar 1% anse ca acest interval s nu conin media aritmetic a populaiei. De reinut c formula 6.3 poate fi aplicat doar dac variabila de interes este normal distribuit.

6.4 ESTIMAREA PROPORIILOR


Pe baza teoremei limitei centrale se demonstreaz c proporiile pentru eantioane (p) au distribuii de eantionare aproximativ normale, cu media aritmetic (p) egal cu proporia pentru populaie (P) i abaterea standard (p) egal cu P (1 P ) n . Teoretic, formula pentru construirea unui interval estimat bazat pe proporii ale eantioanelor este urmtoarea: Formula 6.4
IE = p Z 2 P (1 P ) n

n aceast formul, valorile pentru p i n provin de la eantion, iar valoarea lui Z/2 se determin la fel ca mai sus. Problema cu aceast formul este c valoarea proporiei pentru populaie, P, nu este cunoscut. Pentru a rezolva aceast problem, se poate proceda n dou moduri. Un prim mod de a rezolva problema const n a stabili c P = 0,5. n aceast situaie, 1 P = 0,5 iar P(1 P) = 0,5 0,5 = 0,25. Este important de remarcat c 0,25 este valoarea maxim pe care o poate lua numrtorul fraciei de sub radical, P(1 P). Stabilind pentru P orice alt valoare diferit de 0,5, valoarea expresiei P(1 P) va fi mai mic dect valoarea pentru P = 0,5. De pild, dac P = 0,4, atunci 1 P = 0,6 i P(1 P) = 0,4 0,6 = 0,24. ntruct P(1 P) are valoarea maxim cnd P = 0,5, ne asigurm c intervalul obinut va fi cel mai mare posibil pentru p, Z/2 i n date. Practic, adoptnd aceast soluie, lucrm cu formula urmtoare: Formula 6.5
IE = p Z 2 0,25 n

A doua soluie a problemei menionate const din a estima valoarea lui P prin p, lucrnd cu formula urmtoare: Formula 6.6
IE = p Z 2 p (1 p ) n

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 10 din 14 Oricum, formulele de mai sus pot fi folosite doar dac dimensiunea eantionului considerat estre destul de mare, astfel nct np 5 i n(1 p) 5. S presupunem, de pild, c ne dorim s estimm proporia de studeni de la universitatea X care au lipsit cel puin o zi pe motiv de boal ntr-un anumit semestru i c dintr-un eantion aleatoriu de 200 de studeni, gsim 30 n aceast situaie. Astfel, proporia eantionului pe care ne bazm estimarea este p = 30/200 = 0,15. La un nivel de ncredere de 95%, intervalul estimat cu ajutorul formulei 6.5 este urmtorul:
IE = p Z 2 0,25 0,25 = 0,15 1,96 = 0,15 0,07 n 200

Pe baza proporiei de 0,30 a eantionului, estimm c proporia cutat este cuprins ntre 0,08 i 0,22. Estimarea poate fi exprimat i n termeni de procente, spunnd c ntre 8% i 22% dintre studenii universitii X au lipsit cel puin o zi pe motiv de boal n semestrul considerat. S aplicm acum formula 6.6 la aceleai date, pstrnd nivelul de ncredere de 95%:
IE = p Z 2 p (1 p ) 0,15(1 0,15) 0,15 0,85 = 0,15 1,96 = 0,15 1,96 = n 200 200 0,13 = 0,15 1,96 = 0,15 0,05 200

n acest caz, estimm c proporia cutat este cuprins ntre 0,10 i 0,20 sau, altfel spus, c ntre 10% i 20% dintre studenii universitii X au lipsit cel puin o zi pe motiv de boal n semestrul considerat. De notat c intervalul estimat cu ajutorul formulei 6.5 este mai larg dect cel estimat cu ajutorul formulei 6.6, astfel c prima estimare este cea mai conservatoare soluie posibil, cci este mult mai probabil ca intervalele mai largi s conin parametrul estimat. Prin urmare, din punct de vedere statistic, prima estimare este preferabil celei de-a doua estimri.

6.5 DIMENSIUNI ALE EANTIOANELOR I NIVELE DE PRECIZIE


Formulele 6.1 i 6.5 pot fi manipulate algebric pentru a determina dimensiunea unui eantion la orice nivel de precizie dorit sau, altfel spus, pentru orice limit de eroare stabilit. 6.5.1 CONTROLUL MRIMII INTERVALULUI ESTIMAT Mrimea unui interval de ncredere estimat pentru medii aritmetice sau proporii poate fi controlat prin intermediul a doi termeni ai ecuaiei respective: nivelul de ncredere, care determin scorul Z/2 sau t/2 corespunztor, i dimensiunea eantionului.

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 11 din 14 Relaia dintre nivelul de ncredere i mrimea intervalului este de proporionalitate direct: cu ct nivelul de ncredere crete, cu att intervalul este mai mare. Intuitiv, este mult mai probabil ca intervalele mai largi s conin valoarea pentru populaie, prin urmare putem avea mai mult ncredere n astfel de intervale. Pentru a ilustra aceast relaie, s considerm din nou exemplul privind estimarea venitului mediu al unei populaii: n = 500, X = 5000000 , s = 125000. La un nivel de ncredere de 95% am gsit intervalul 5000000 10967 (i.e. acest interval se extinde la 10967 lei n jurul mediei aritmetice a eantionului). Acum, dac lum un nivel de ncredere de 99%, scorul Z/2 corespunztor crete la 2,58, iar intervalul se mrete: IE = 5000000 2,58 5595,34 = 5000000 14436 (intervalul estimat la un nivel de ncredere de 99% se extinde la 14436 lei n jurul mediei). Exact aceeai relaie se aplic i la proporii. Relaia dintre dimensiunea eantionului i mrimea intervalului este de proporionalitate invers: cu ct dimensiunea eantionului este mai mare, cu att intervalul este mai ngust. Intuitiv, eantioanele mai mari permit estimri mai precise. Pentru ilustrare, s considerm din nou exemplul privind estimarea venitului mediu, modificnd doar dimensiunea eantionului: n = 1000 (95%).
IE = 5000000 1,96(125000 1000 1) = 5000000 1,96 3955,7 = 5000000 7753

Pentru n = 500, la un nivel de ncredere de 95%, intervalul estimat se extinde la 10967 lei n jurul mediei; pentru n = 1000, toate celelalte rmnnd aceleai, intervalul estimat se extinde doar la 7753 lei n jurul mediei. Exact aceeai relaie se aplic i la proporii. De notat c ngustarea intervalului (= creterea preciziei) nu depinde n mod liniar de dimensiunea eantionului. n exemplul nostru am dublat dimensiunea eantionului, dar cel de-al doilea interval nu este de dou ori mai ngust dect primul, ci de aproximativ 1,41 de ori mai ngust. Aceasta nseamn c n trebuie s creasc de trei sau patru ori pentru a obine o dublare a preciziei. ntruct costul unei cercetri este direct proporional cu dimensiunea eantionului, un eantion de, s zicem, 10000 de persoane cost aproximativ de dou ori mai mult dect unul de 5000 de persoane, dar estimarea bazat pe eantionul mai mare nu va fi de dou ori mai precis dect cea bazat pe eantionul mai mic. 6.5.2 PENTRU DETERMINAREA DIMENSIUNII EANTIONULUI

ESTIMAREA MEDIILOR ARITMETICE S considerm formula 6.1:


IE = X Z 2

n aceast formul, membrul Z 2 ( n ) reprezint, n fapt, limita de eroare sau nivelul de precizie a estimrii: Z 2 ( n ) este limita inferioar, iar + Z 2 ( n ) este limita superioar. Notnd limita de eroare cu L, putem scrie urmtoarea ecuaie:

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 12 din 14


L = Z 2

Ridicnd la ptrat ambii membri ai ecuaiei, egalitatea se pstreaz:


2 L2 = Z 2

2 n

Din aceast egalitate l putem obine pe n: Formula 6.7


n=
2 2 Z 2

L2

Pentru a folosi aceast formul trebuie s cunoatem valoarea lui , or, dup cum am mai menionat, n aproape toate cazurile aceast valoare nu este cunoscut. Totui, valoarea lui poate fi aproximat, dac cunoatem amplitudinea variabilei msurate, A. Astfel, o aproximare conservatoare a lui este A/4. S ilustrm. Un psiholog industrial dorete s estimeze durata medie n care un muncitor de la o firm de produse electronice execut un anumit reglaj. Observnd un numr de muncitori care execut reglajul respectiv, psihologul constat c durata cea mai mic este de 10 minute, iar cea mai mare de 22 de minute. Ct de mare trebuie s fie eantionul selectat, dac psihologul dorete s estimeze durata medie de execuie a acelui reglaj cu o precizie de 20 de secunde, la un nivel de ncredere de 95%? n aceast problem, L = 20 i amplitudinea variabilei msurate este A = 22 10 = 12 minute, astfel c A/4 = 12/4 = 3 minute = 180 secunde Acum l putem obine pe n:
n=
2 2 Z 2

L2

(1,96) 2 180 2 = 311,12 300 20 2

Prin urmare, psihologul trebuie s selecteze un eantion aleatoriu de aproximativ 300 de muncitori pentru a estima durata medie de executare a reglajului respectiv cu o precizie de 20 de secunde, la un nivel de ncredere de 95%. S presupunem acum c se dorete dublarea preciziei de la 20 de secunde la 10 secunde, la acelai nivel de ncredere. n acest caz avem:
n=
2 2 Z 2

L2

(1,96) 2 180 2 = 1244,48 1244 10 2

Se observ c dimensiunea eantionului crete mai repede dect precizia: pentru a dubla precizia de la 20 de secunde la 10 secunde, dimensiunea eantionului trebuie s creasc de aproximativ patru ori. Aceast relaie este important pentru planificarea costurilor unei cercetri. Eantioanele impresionant de mari pot constitui o irosire de resurse fr un ctig semnificativ n privina preciziei, n raport cu eantioanele mai mici i deci mai ieftine.

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 13 din 14 6.5.3 PENTRU DETERMINAREA DIMENSIUNII EANTIONULUI

ESTIMAREA PROPORIILOR Am vzut c, practic, n construirea unui interval estimat pentru proporii lucrm cu formula
IE = p Z 2 0,25 n

Aici, limita de eroare a estimrii este Z 2 estimrii, avem ecuaia:


L = Z 2

0,25 . Notnd tot cu L limita de eroare a n

0,25 n

Ridicnd la ptrat ambii membri, avem:


2 L2 = Z 2

0,25 n
2 Z 2 0,25

Din aceast egalitate l obinem pe n: Formula 6.8


n= L2

S presupunem c un institut de sondare a opiniei publice dorete s estimeze rezultatul unor alegeri prezideniale nuntrul unei marje de eroare de 3%. Ct de mare trebuie s fie eantionul cerut pentru a sigura acest nivel de precizie la un nivel de ncredere de 95%? Exprimnd limita de eroare sub form de proporie, obinem:
n= (1,96) 2 0,25 = 1067,11 1000 (0,03) 2

Prin urmare, pentru a obine o precizie (o limit de eroare a estimrii) de 3%, este nevoie de un eantion de aproximativ 1000 de persoane. i aici se poate constata uor c dimensiunea eantionului crete mai repede dect precizia. Tabelul urmtor prezint relaiile dintre precizie i dimensiunea eantionului pentru proporii ale eantioanelor: Tabelul 6.3 Precizia i dimensiunea eantionului ( = 0,05, P = 0,5)
Precizia (Mrimea intervalului) 10% 7% 5% 3% 2% 1% Dimensiunea aproximativ a eantionului 100 200 400 1000 2400 9600

6 PROCEDURI DE ESTIMARE STATISTIC Pagina 14 din 14 Se poate observa, de pild, c pentru a dubla precizia de la 10% la 5%, dimensiunea eantionului trebuie s creasc de patru ori. GLOSAR

You might also like