You are on page 1of 17

PRELUCRAREA STATISTICA A REZULTATELOR

EXPERIMENTALE

Introducere.
Abordarea acestui domeniu necesita unele cunostinte prealabile atat de calcul al
probabilitatilor cat si de statistica.
Cele doua discipline stiintifice mentionate au foarte multe in comun. Ambele au ca obiect de
studiu o stare particulara a unui sistem. Statistica se preocupa de aspectele numerice ale fenomenelor
de masa care au generat (in trecut) aceasta stare iar calculul probabilitatilor analizeaza consecintele
probabile ale acestei stari (in viitor).
In cele ce urmeaza, o serie de probleme de natura teoretica (cum sunt, de exemplu, functiile
de distributie a probabilitatii sau testele de semnificatie pe baza ipotezei de nul) vor fi, pe cat posibil,
evitate (ceea ce nu inseamna ca ele nu sunt importante). Se va da, aici, prioritate modului concret de
aplicare a teoriei in diverse situatii mai des intalnite in practica. Fiecare asemenea situatie va fi
insotita de exemplificari numerice.
Pentru a caracteriza o stare particulara a unui sistem este necesar sa determinam numeric
parametrii de stare ai sistemului (prin parametri intelegandu-se niste marimi masurabile). Aceasta
operatiune se realizeaza, in esenta, prin numarare. Numaram de cate ori isi face aparitia un anumit
eveniment (intr-un anumit interval de timp sau de spatiu, intr-un lot de bolnavi etc.) sau numaram de
cate ori se cuprinde o marime-unitate in marimea care ne intereseaza (adica masuram acea marime
exprimand rezultatul printr-un numar urmat de respectiva unitate de masura).

In practica, atunci cand intentionam sa masuram sau sa numaram ceva, ne aflam intr-una sau
intr-alta din urmatoarele doua situatii:
1. Ne intereseaza sa apreciem din punct de vedere cantitativ un caracter al unui obiect
singular
sau
2. Cautam o valoare cat mai reprezentativa pentru un caracter comun unei multimi de
obiecte similare (unei populatii de obiecte).
In cele ce urmeaza, cele doua situatii mentionate mai sus vor fi tratate in mod unitar. Acest
lucru este permis in baza asa numitei ipoteze ergodice, conform careia functia de probabilitate a unei
masurari repetate de multe ori pe acelasi sistem nu difera de functia de probabilitate a aceleiasi
masurari, realizata pe multe sisteme identice (functia de probabilitate fiind o regula prin care
valorilor unei variabile li se asociaza anumite probabilitati de realizare).
In ambele cazuri avem de a face cu un numar mare de rezultate ale caror frecvente de aparitie
se distribuie cel mai adesea gaussian desi nu de putine ori intalnim si altfel de distributii (de tip
Poisson, binomiala etc.).

1. Estimarea valorii numerice a unui caracter apartinand unui anumit obiect

Ne propunem sa apreciem cantitativ un anumit caracter al unui obiect singular. In statistica,


acest caracter poarta numele de variabila; din cauza erorilor ce intervin in procesul de masurare,
valorile numerice ale unei variabile pot sa difere de la o masurare la alta. De exemplu:

Rezistenta electrica a unui conductor este o variabila care poate lua diferite valori. Efectuand
masurari repetate ale rezistentei electrice a unui conductor, este posibil sa obtinem de fiecare data un
numar diferit de ohmi (Ω).

1
Rezultatul unei prime masurari este un numar x1 , urmat de unitatea de masura Ω. De
exemplu:

Pentru a determina rezistenta electrica a unui conductor, folosim un ohmmetru gradat in ohmi (Ω) si
constatam, de pilda, ca acul ohmmetrului se plaseaza in dreptul celei de a 30-a diviziuni. Rezultatul
acestei prime masurari este 30 Ω (x1 este 30 iar unitatea de masura este Ω)

In toate cazurile, se recomanda sa repetam de n ori masurarea (sau, dupa caz, numararea),
obtinand, astfel, valorile x 1 , x 2 , x 3 ,..... x n , adica un numar de n rezultate xi (unde i poate fi 1, 2,
3,....n), rezultate care vor fi, de cele mai multe ori, diferite fata de valoarea adevarata x a caracterului
studiat. Evident, desi apropiate intre ele, valorile xi nu vor fi identice. De exemplu:

Pentru determinarea rezistentei electrice a conductorului mai sus mentionat, repetam de inca 8 ori
masurarea si, adaugand si rezultatul primei masurari, obtinem urmatoarele rezultate, exprimate in Ω:
x1 = 30, x2=31, x3=28, x4=32, x5=27, x6=32, x7=29, x8=28 si x9=33

Medie aritmetica, deviatie standard, coeficient de variatie si eroare standard

Eroarea absoluta a unei masurari este Δx = | x - x1| , unde x este valoarea adevarata a
variabilei (pe care cel mai adesea nu o cunoastem dinainte sau nu o vom cunoaste niciodata...) iar x1
este rezultatul obtinut in urma masurarii efectuate. Admitem ca fiecare dintre cele n valori xi
(obtinute prin repetarea de n ori a masurarii) va fi afectata de o eroare absoluta Δxi, unde i = 1, 2,
3,...., n.
Se demonstreaza ca exista o anumita valoare pentru care suma patratelor erorilor absolute
n

i=1 (Δxi)2 este minima1.

Aceasta valoare se dovedeste a fi chiar media aritmetica x a valorilor xi :

n
1 1
∑x
x = n ( x1+ x2+ x3+....+ xn) = n i=1 i

Se mai poate demonstra ca media aritmetica x este cu atat mai apropiata de valoarea
adevarata x cu cat numarul n de repetari ale masurarii este mai mare.
Astfel, in ciuda unor erori care pot aparea in mod imprevizibil si aleator, vom reusi, totusi, sa
prezentam un rezultat al masurarii care sa fie cat mai apropiat de valoarea adevarata x a variabilei
studiate.

1
În acest scop, se egaleaza cu zero derivata fata de x a functiei:

f(x) = (x - x 1)2 + ( x - x 2)2 +...+ (x - x n)2

.
n
x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn x
2
Este necesar sa prezentam si gradul de imprastiere (sau de dispersie) al rezultatele noastre,
adica masura in care ele s-au aratat a fi mai mult sau mai putin apropiate, ca valoare, unele de
celelalte.
Cea mai utilizata metoda de a aprecia cantitativ gradul de imprastiere a rezultatelor incepe
prin calcularea variantei (sau dispersiei) s2 a rezultatelor2:
n
∑ ( xi − x )2
s 2 = i=1
n −1

Este usor de calculat, apoi, deviatia standard s a rezultatelor:

s= √ s2 =
√ ∑ ( xi −x )2
i=1
n−1

Daca impartim deviatia standard s la media aritmetica x obtinem coeficientul de


variatie cv care, dupa cum se vede, exprima deviatia standard ca pe un procent din media aritmetica.

s
CV = ×100
x (%)
Coeficientul de variatie nu mai este legat de unitatea de masura a variabilei, astfel incat el
permite compararea rezultatelor unor masurari care se adreseaza unor marimi diferite (avand unitati
de masura diferite). Este de dorit ca acest coeficient de variatie sa nu depaseasca 1%, cu alte
cuvinte, rezultatele sa nu fie prea imprastiate.

Ar fi bine, insa, daca am cunoaste si eroarea asociata mediei aritmetice x deja calculata.
Presupunand ca am fi repetat de un mare numar de ori setul nostru de masurari, am fi obtinut de tot
atatea ori noi medii aritmetice x i . Se poate demonstra ca frecventele de aparitie ale tuturor
mediilor aritmetice x i au o distributie gaussiana.
Devine, astfel, posibil, sa calculam o noua valoare, si anume, eroarea standard se a mediei
aritmetice. Se demonstreaza ca eroarea standard se este:

se=
s
√n
=
√ ∑ ( x i−x )2
i=1
n( n−1)

In cele din urma, vom putea prezenta rezultatul masurarii sub forma a doua valori: media
aritmetica x a rezultatelor si eroarea standard se a mediei aritmetice:

2
La numitor apare n-1 în loc de n, deoarece suma erorilor ∑( i
x −x ) este evident nula, astfel încât numarul de grade
de libertate al rezultatelor se reduce cu o unitate (ramân independente numai n-1 date)
n
G=√ x 1×x 2 ×x 3 ×.. .. . xn x
3
x ± se

cu conditia sa precizam si nivelul de incredere (n.i.) pe care l-am ales pentru prezentarea
rezultatului, adica probabilitatea ca valoarea adevarata a variabilei sa faca parte din intervalul
declarat.

Iata cum se fac, practic, aceste calcule:

In cazul determinarii rezistentei electrice a conductorului despre care s-a vorbit mai sus, in urma
repetarii de 9 ori a masurarii, am obtinut setul de n = 9 valori numerice:
30, 31, 28, 32, 27, 32, 29, 28 si 33

Pe baza acestui set de date vom realiza urmatorul tabel:

nr.crt. xi xi - x (xi - x )2

1 30 0 0

2 31 1 1

3 28 -2 4

4 32 2 4

5 27 -3 9

6 32 2 4

7 29 -1 1

8 28 -2 4

9 33 3 9

n=9 Σxi = 270 Σ (xi - x )=0 Σ (xi - x )2 = 36

n
1
xi
270
x

n i=1
Media aritmetica a rezultatelor va fi = 9 = 30 Ω

4
n
∑ ( xi − x )2 36 36
s 2 = i=1
Varianta rezultatelor va fi n −1 = 9−1 = 8 = 4,5

Deviatia standard va fi
s= √ s2 =
√ ∑ ( xi −x )2
i=1
n−1 = √ 4,5 = 2,12

s 2,12
CV = ×100
Coeficientul de variatie va fi x = 30 ¿ 100= 70%

2 2,12
Eroarea standard a mediei va fi se = √9 = 3 ¿0,7

Reamintim ca numarul de masurari a fost n = 9. Retinem, pentru moment, ca numarul nostru


de masurari este mai mic de 200. Foarte curand vom vedea cum am fi procedat daca numarul nostru
de masurari ar fi fost egal cu 200 sau mai mare de 200.
Rezultatul final al masurarii poate fi prezentat astfel:

R= x ± se; (n = ...)

sau numeric, pentru exemplul dat de noi:

R= (30 ± 0,7) Ω ; (n = 9)

Cunoscand faptul ca nu am facut decat n masurari, cititorul ar putea sa calculeze singur


intervalele de incredere in care este de presupus ca se afla valoarea adevarata x, pentru oricate
nivele de incredere doreste. El trebuie, insa, sa consulte un tabel continand valorile asa numitului
parametru t al lui Student, tabel care exista in orice carte de statistica.
Este bine, insa, sa prezentam noi insine un interval de incredere, alegand fie nivelul de
incredere de 95% (sau pragul de semnificatie de 5%) pentru ca rezultatul sa poata fi considerat
semnificativ, fie nivelul de incredere de 99% (sau pragul de semnificatie de 1%) pentru ca
rezultatul sa poata fi considerat cu totul semnificativ.

Parametru Student, nivel de incredere, prag de semnificatie, interval de incredere


5
Parametrul t al lui Student are formula:

t= √n ( x - μ)/s
unde s este deviatia standard a rezultatelor iar μ este media aritmetica pe care am fi obtinut-o dupa
un numar infinit de masurari ale variabilei (μ se considera a fi, practic, egal cu valoarea adevarata x a
variabilei)
Deoarece, de regula, nu cunoastem valoarea lui μ, valoarea lui t se cauta in tabelul continand
valorile parametrului t al lui Student si se gaseste la intersectia randului ce corespunde numarului
de grade de libertate al rezultatelor noastre (n - 1), cu coloana ce corespunde nivelului de incredere
n.i (sau, daca asa preferam, pragului de semnificatie p.s.) ales.

n.i. 90% 95% 98% 99% 99,9%


n-1 p.s. 10% 5% 2% 1% 0,1%

4 2,132 2,776 3,747 4,604 8,610

5 2,015 2,571 3,365 4,032 6,859

6 1,943 2,447 3,143 3,707 5,959

7 1,895 2,365 2,998 3,499 5,405

8 1,860 2,306 2,896 3,355 5,041

9 1,833 2,262 2,821 3,250 4,781

10 1,812 2,228 2,764 3,169 4,587

11 1,796 2,201 2,718 3,106 4,487

20 1,725 2,086 2,528 2,845 3,850

100 1,660 1,984 2,364 2,626 3,391

200 - ∞ 1,645 1,960 2,326 2,576 3,291

Daca stim ca s-au facut n masurari si dorim sa stim in ce interval de valori poate fi gasita
valoarea adevarata x a variabilei, pentru un nivel de incredere, sa zicem, n.i. = 95%, cautam pe
orizontala in randul corespunzator lui n -1 (n-1 mai poarta numele de grade de libertate ale
rezultatelor) si pe verticala in coloana corespunzatoare pentru n.i. = 95% si aflam valoarea lui t.
Rezultatul final al masurarii R se va prezenta printr-o expresie care deriva direct din formula
lui t si anume:

s
R = x ± t ¿ se = x ± t ¿ √n
6
In cazul nostru, n = 9, deci n -1 = 8, astfel incat vom cauta valorile lui t pe randul care corespunde lui
n -1 = 8 si in coloana 95% si gasim t = 2,306:

n.i. 90% 95% 98% 99% 99,9%


10% 5% 2% 1% 0,1%
n-1 p.s.

8 1,860 2,306 2,896 3,355 5,041

Rezultatul numeric al masurarii noastre va fi:

R = (30 ± 2,306 ¿ 0,7) Ω = (30 ± 1,6) Ω (nivel de incredere n.i. = 95%)

adica, valoarea rezistentei electrice a conductorului se afla, cu o probabilitate de 95%, in intervalul


30 ± 2,306 ¿ 0,7 = 30 ± 1,6. Altfel spus, cu o probabilitate de 95%, rezistenta electrica a
conductorului nu este mai mica de 28,4 Ω dar nici mai mare de 31,6 Ω.

Rezultatul masurarii poate fi prezentat si altfel:

R = (30 ± 2,306 ¿ 0,7) Ω (prag de semnificatie p.s. = 5%)

Aceasta se traduce in felul urmator: din totalitatea rezultatelor pe care le-am obtinut (sau pe care le-
am fi putut obtine) folosind ohmmetrul nostru, doar 5% se plaseaza in afara intervalului 28,4 Ω - 31,6
Ω (2,5% din aceste din urma rezultate sunt mai mici de 28,4 Ω si 2,5% mai mari decat 31,6 Ω).

In cazul in care numarul n de masurari ar fi fost cuprins intre 200 si ∞ , am fi folosit


valorile lui t din randul corespunzator gradelor de libertate n - 1 = 200 - ∞ :

n.i. 90% 95% 98% 99% 99,9%


n-1 p.s. 10% 5% 2% 1% 0,1%

200 - ∞ 1,645 1,960 2,326 2,576 3,291

7
Şi in acest caz, rezultatul masurarii s-ar fi prezentat in functie de nivelul de incredere dorit
sau de pragul de semnificatie ales. In continuare sunt date doar trei exemple:

R= x ± se (pentru n.i.=68,27% sau p.s.=31,73%)

R= x ± 1,96 se (pentru n.i.=95% sau p.s.=5%)

R= x ± 2,58 se (pentru n.i.=99% sau p.s.=1%)

In cazul nostru, valoarea rezistentei electrice a conductorului despre care s-a vorbit mai sus ar fi
putut fi prezentata (daca numarul de masurari ar fi fost 200 sau mai multe) astfel:

R=(30 ± 0,7) cm, adica valoarea rezistentei electrice a conductorului se afla cu o


probabilitate de 68,27% in intervalul de valori cuprins intre 29,3 cm si 30,7 Ω.

R=(30 ± 1.96 ¿ 0,7)=(30 ± 1,37) cm, adica valoarea rezistentei electrice a


conductorului afla cu o probabilitate de 95% in intervalul de valori cuprins intre 28,63 cm si 31,37 Ω.

R=(30 ± 2,58 ¿ 0,7)=(30 ± 1,8) cm, adica valoarea rezistentei electrice a conductorului
afla cu o probabilitate de 99% in intervalul de valori cuprins intre 28,2 cm si 31,8 Ω.

2. Estimarea valorii numerice a unui caracter apartinand unei populatii de obiecte

Tabele de date, histograme, poligoane de frecventa si curbe de frecventa

Ne propunem sa exprimam numeric valoarea unei anumite trasaturi sau insusiri ce


caracterizeaza o populatie de N obiecte de acelasi fel (obiecte care au in comun, cel putin, acea
insusire sau trasatura), astfel incat valoarea acelui caracter sa reprezinte cel mai bine populatia
respectiva. De exemplu:

Cautam o valoare, exprimata in cm, care sa reprezinte cea mai buna estimare a inaltimii
bucurestenilor adulti.

Amploarea unei anumite insusiri caracteristice unei populatii de obiecte se exprima cu


ajutorul unor marimi similare cu cele deja discutate in capitolul precedent, dar care aici poarta
numele de parametri ai populatiei (de exemplu, media aritmetica μ a valorilor acelei insusiri la
nivelul intregii populatii, deviatia standard σ a valorilor acelei insusiri la nivelul intregii populatii
etc.)
8
Deoarece, de cele mai multe ori, N este un numar foarte mare, vom fi nevoiti sa facem
masurari asupra unui numar n mai mic de obiecte alese aleator (la intamplare) din populatia de N
obiecte. Selectam, astfel, printr-o operatiune numita esantionare, o submultime de obiecte, numita
esantion de obiecte.
La nivelul esantionului ales putem efectua (dupa cum consideram mai potrivit in situatia
respectiva):
-cate o singura masurare pentru fiecare obiect in parte
-cate doua, trei sau mai multe masurari pentru fiecare obiect in parte (masurare in duplicat,
triplicat etc.)
-mai multe masurari pentru doar unul din obiecte si mai putine masurari pentru restul
obiectelor etc.
Scopul pe care il urmarim facand masurari pe esantion este acela de a estima parametrii
intregii populatii (in special media aritmetica μ si deviatia standard σ) pe baza indicatorilor
statistici ai esantionului (media aritmetica x si deviatia standard s).
Cele n rezultate obtinute, in urma masurarii la fiecare obiect in parte din esantion a
caracterului care ne intereseaza, alcatuiesc un set de valori care contine informatia bruta dobandita
prin masurare. Anumite valori din acest set de valori apar, de obicei, in mod repetat (de doua sau de
mai multe ori). Valorile trebuie ordonate dupa marime intr-un tabel statistic, in asa fel incat sa se
evidentieze, in randul efectivului total de valori, efectivele de valori care apar cu aceeasi frecventa.
De exemplu:

Ne propunem sa calculam media aritmetica x a inaltimii I a 10 bucuresteni, alesi la intamplare


din randul intregii populatii de bucuresteni adulti, precum si deviatia standard s a rezultatelor
masurarilor efectuate (se efectueaza cate o masurare pentru fiecare din cei 12 bucuresteni).
Presupunem ca am obtinut urmatorul set de 10 date (unitatea de masura este cm):
178; 179; 179; 180 ; 180; 180; 180; 181; 181; 182.

Datele pot fi trecute intr-un tabel statistic:

nr. crt. xi xi - x (xi - x )2

1 178 -2 4

2 179 -1 1

3 179 -1 1

4 180 0 0

5 180 0 0
9
6 180 0 0

7 180 0 0

8 181 1 1

9 181 1 1

10 182 2 4

total n=10 Σxi=1800 Σ (xi - x )=0 Σ(xi - x )2=12

Prin punerea in ordine crescatoare a datelor se constata ca:


-valoarea de 178 cm a aparut o singura data
-valoarea de 179 cm a aparut de doua ori
-valoarea de 180 cm a aparut de patru ori
-valoarea de 181 cm a aparut de doua ori
-valoarea de 182 cm a aparut o singura data

Valoarea inaltimii frecventa absoluta frecventa relativa


178 1 10%
179 2 20%
180 3 40%
181 2 20%
182 1 10%

Este bine sa reprezentam grafic distributia frecventelor cu care apar aceste efective (adica sa
realizam histograma datelor), dupa care vom putea identifica mai usor tipul de distributie a
frecventelor (distributie Gauss, Poisson, distributie binomiala etc.). De exemplu:

10
%
40 40

35

30
30

25
20

20

10
15

10
0
178 179 180 181 182
178 179 180 181 182
valoarea inaltimii in cm
valoarea inaltimii in cm
cminaltimii in cm
histograma cu coloane verticale histograma din puncte

Unind punctele prin linii drepte se obtine poligonul de frecvente al efectivelor. Daca crestem
numarul de masurari, poligonul de frecvente se va netezi si se va transforma, treptat, intr-o curba
neteda de frecvente. Forma cel mai des intalnita in masuratori este cea de clopot (curba lui Gauss.)

40

35

30

25

20

15

10

178 179 180 181 182

valoarea inaltimii in cm

Indicatori statistici pe esantionul de date

Pasul urmator este prelucrarea statistica a rezultatelor, astfel ca in final sa reducem setul de
date la numai cativa indicatori statistici.
Principalii indicatori statistici sunt:

- indicatorii de tendinta centrala a datelor (de obicei media aritmetica x a rezultatelor


dar, uneori, si mediana3, módul4 si media geometrica5)

3 x i−x mediana este acea valoare din setul de date care se afla, valoric, la jumatatea setului de date (divide setul de
date în doua parti egale)
n
G=√ x 1×x 2 ×x 3 ×.. .. . xn x
4 x i−x módul este valoarea care apare cel mai des (cu cea mai mare frecventa) în setul de date
11
- indicatorii de dispersie sau de imprastiere a datelor (de regula deviatia standard s dar,
uneori, si coeficientul de variatie CV, varianta s2, domeniul6 si eroarea standard a mediei
aritmetice se7)

Indicatorii statistici pentru esantionul de 10 bucuresteni sunt:


-domeniul = (182 cm - 178 cm) = 4 cm
-mediana = 180 cm
-módul = 180 cm
n
1
xi
1800

n i=1
-media aritmetica este = 10 = 180 cm

n
∑ ( xi − x )2 12
s 2 = i=1
-varianta n −1 = 9 = 1,333

-deviatia standard este


s= √ s2 =
√ ∑ ( xi −x )2
i=1
n−1 = √ 12
9 =1,154

s 1,154
CV = ×100
-coeficientul de variatie x = 180 = 0,64%

s 1,154 1,154
se=
-eroarea standard este √ n = √10 = 3,16 =0,365

Estimarea valorii celei mai apropiate de media pe intreaga populatie


n
G=√ x 1×x 2 ×x 3 ×.. .. . xn x
n
5 x i−x media geometrica G=√ x 1×x 2 ×x 3 ×.. .. . xn

x
n
6 x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn domeniul este diferenta dintre cea mai mare valoare si cea mai mica valoare
din setul de date
x
n
7 x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn eroarea standard arata cu cât se abate media x a esantionului de la
media μ a populatiei
12
Deoarece cele n rezultate (obtinute dupa tot atatea masurari, cate una pentru fiecare obiect din
esantion) reprezinta numai o mica parte din numarul mare N de rezultate pe care le-am fi putut obtine
daca am fi avut timp sa examinam toate cele N obiecte care alcatuiesc populatia, este necesar sa
estimam cat de departata poate fi media aritmetica x obtinuta de noi la nivelul esantionului fata de
media μ pe care am fi obtinut-o supunand masurarii intreaga populatie.
Ne putem imagina ca repetam masurarea, abordand un numar foarte mare de esantioane
selectate din randul populatiei, calculand de fiecare data cate o noua medie aritmetica x i pe fiecare
esantion. Se poate demonstra ca este corect sa se vorbeasca despre o deviatie standard a mediilor
aritmetice x fata de media μ a populatiei.
Aceasta deviatie standard poarta numele de eroare standard se a mediei:

se=
√ ∑ ( x i −x ) 2
i=1
n ( n−1 )
Asa cum s-a aratat in capitolul precedent, daca numarul n de obiecte din esantion este mai mic
de 200 se ia in considerare parametrul t al lui Student (care se afla din tabelul deja prezentat).
Urmarim in tabel intersectia coloanei care corespunde nivelului de incredere n.i. (sau pragului de
semnificatie p.s.) ales, cu randul care corespunde celor n -1 de grade de libertate ale rezultatelor.

De exemplu, pentru cazul nostru (cel al inaltimii I a bucurestenilor adulti), am selectat din tabelul
valorilor parametrului t al lui Student numai randul care corespunde celor 9 grade de de libertate
(adica 10 - 1 bucuresteni = 9)

n.i. 90% 95% 98% 99% 99,9%


n-1 p.s. 10% 5% 2% 1% 0,1%

9 1,833 2,262 2,821 3,250 4,781

Rezulta ca cele mai bune estimari ale inaltimii I a bucuresteanului adult sunt urmatoarele (in functie
de nivelul de incredere n.i. sau a pragului de semnificatie p.s. pe care le alegem):

I = 180,00 ± 1,833 ¿ 0,365 = 180,00 ± 0,67 cm ( n.i. = 90% sau p.s. = 10%)

I = 180,00 ± 2,262 ¿ 0,365 = 180,00 ± 0,82 cm ( n.i. = 95% sau p.s. = 5%)

I = 180,00 ± 2,821 ¿ 0,365 = 180,00 ± 1,03 cm ( n.i. = 98% sau p.s. = 2%)

I = 180,00 ± 3,250 ¿ 0,365 = 180,00 ± 1,19 cm ( n.i. = 99% sau p.s. = 1%)

I = 180,00 ± 4,781 ¿ 0,365 = 180,00 ± 1,74 cm ( n.i. = 99,9% sau p.s. = 0,1%)

13
Compararea mediei obtinuta pe un esantion cu valoarea teoretica acceptata pentru intreaga
populatie

Presupunem ca stim din literatura de specialitate ca inaltimea medie I a bucuresteanului adult este μ
=179 cm.
Din masurarile noastre efectuate pe 10 bucuresteni a rezultat, la nivelul acestui esantion, o medie
aritmetica a inaltimii de x =180 cm. Ne intrebam daca diferenta de 1 cm este semnificativa sau
este doar rodul intamplarii.
In acest scop se calculeaza valoarea t:

x −μ 180−179 1
s 1 , 154 1,154 1
t = √n = √10 = 3,16 = 0,36 = 2,78
Numarul de grade de libertate, la nivelul esantionului nostru, a fost n -1 = 10 - 1 = 9.
Cautam in tabelul valorilor parametrului t al lui Student, in randul care corespunde lui n - 1 = 9,
valoarea cea mai apropiata (egala sau mai mica) de valoarea t = 2,58 calculata de noi.

n.i. 90% 95% 98% 99% 99,9%


n-1 p.s. 10% 5% 2% 1% 0,1%

9 1,833 2,262 2,821 3,250 4,781

Constatam ca 2,262 (care apartine coloanei cu n.i. 95% sau p.s. 5%), este valoarea cea mai apropiata
de 2,58 (si in acelasi timp mai mica decat 2,58). Aceasta inseamna ca pentru pragul de semnificatie
de 5% (ca de altfel pentru toate pragurile de semnificatie din stanga acestuia, adica pragurile mai
mari de 5%) diferenta dintre inaltimea medie calculata de noi pe esantionul de 10 bucuresteni si
valoarea teoretica a inaltimii acceptata pentru intreaga populatie de bucuresteni este semnificativa si
nu doar rodul intamplarii. Altfel spus, aceasta diferenta este semnificativa pentru un nivel de
incredere de 95% dar nu si pentru un nivel de incredere de 98% sau mai mare (ori pentru un prag
de semnificatie de 2% sau mai mic). Intr-adevar, cercetand intersectia coloanei n.i. = 98% cu randul
n -1 = 9, gasim 2,821. Deoarece valoarea lui t pe care am calculat-o este mai mica (2,78<2,821)
rezulta ca, pentru acest nivel de incredere, diferenta de 1 cm dintre medii este nesemnificativa,
putand fi doar o simpla intamplare.

Compararea a doua medii aritmetice obtinute pe esantioane diferite

Din masurarile noastre efectuate pe na =10 bucuresteni, a rezultat o medie aritmetica a inaltimii de
xa =180 cm cu o varianta (dispersie) a rezultatelor s2a de 1,333. Sa presupunem ca selectionam un alt
esantion de bucuresteni de nb=12 persoane, facem masurari si obtinem o medie a inaltimii de xb = 179

14
cm cu o varianta (dispersie) a rezultatelor s2b =1,5. Dorim sa stim daca diferenta de 1 cm dintre cele
doua medii este semnificativa sau este rodul intamplarii8.
Pentru aceasta calculam parametrul t dupa formula:

x a −x b
1
s s 1 1 1
t(na+nb-2) = √ na
a2
+ b2
nb = √ 1,33 1,5
10 12
+
√0,133+0,125 = √0,258 = 0,507 =1,972

Numarul de grade de libertate este na + nb - 2, adica 10 + 12 - 2 = 20. Cercetand tabelul valorilor


parametrului t al lui Student, in randul din dreptul valorii n -1 = 20 constatam ca 1,725 (care
apartine coloanei cu n.i. 90% si p.s. 10%) este valoarea cea mai apropiata de 1,972 (si in acelasi timp
mai mica decat 1,972).

n.i. 90% 95% 98% 99% 99,9%


n-1 p.s. 10% 5% 2% 1% 0,1%

20 1,725 2,086 2,528 2,845 3,850

Aceasta inseamna ca pentru pragul de semnificatie de 10% (ca de altfel pentru toate pragurile de
semnificatie din stanga acestuia, adica pragurile mai mari de 10%) diferenta dintre inaltimea medie
xa calculata de noi pe esantionul de 10 bucuresteni si inaltimea medie xb calculata de noi pe
esantionul de 12 este semnificativa si nu doar rodul intamplarii. Altfel spus, aceasta diferenta este
semnificativa pentru un nivel de incredere de 90% dar nu si pentru un nivel de incredere de 95%
sau mai mare (ori pentru un prag de semnificatie de 5% sau mai mic). Intr-adevar, cercetand
intersectia coloanei n.i. = 95% cu randul n -1 = 20, gasim 2,086. Deoarece valoarea lui t pe care am
calculat-o este mai mica (1,972<2,086) rezulta ca, pentru acest un nivel de incredere, diferenta de 1
cm dintre medii este nesemnificativa, putand fi intamplatoare.

n
8 x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn x
Trebuie sa aflam, în prealabil, daca variantele celor doua esantioane
difera sau nu semnificativ între ele; utilizam în acest scop testul F (test care poate fi gasit in orice carte de statistica).
Presupunem ca, în exemplul nostru, variantele celor doua esantioane nu difera semnificativ una de alta si ca, deci, putem
continua operatia de comparare a mediilor
15
Bibliografie

1. Cicală, E., - Metode de prelucrare statistică a datelor experimentale, Ed. Politehnica, Timişoara,
1999.
2. Nichici, A., Cicală, E., Mee, R., - Prelucrarea datelor experimentale – curs şi aplicaţii, Lito. UPT,
Timişoara, 1996.
3. Cicală, E., - Metoda experimentelor factoriale, Ed. Politehnica, Timişoara, 2005

16
Student: FURTUN IULIU
MMSM

17

You might also like