Professional Documents
Culture Documents
EXPERIMENTALE
Introducere.
Abordarea acestui domeniu necesita unele cunostinte prealabile atat de calcul al
probabilitatilor cat si de statistica.
Cele doua discipline stiintifice mentionate au foarte multe in comun. Ambele au ca obiect de
studiu o stare particulara a unui sistem. Statistica se preocupa de aspectele numerice ale fenomenelor
de masa care au generat (in trecut) aceasta stare iar calculul probabilitatilor analizeaza consecintele
probabile ale acestei stari (in viitor).
In cele ce urmeaza, o serie de probleme de natura teoretica (cum sunt, de exemplu, functiile
de distributie a probabilitatii sau testele de semnificatie pe baza ipotezei de nul) vor fi, pe cat posibil,
evitate (ceea ce nu inseamna ca ele nu sunt importante). Se va da, aici, prioritate modului concret de
aplicare a teoriei in diverse situatii mai des intalnite in practica. Fiecare asemenea situatie va fi
insotita de exemplificari numerice.
Pentru a caracteriza o stare particulara a unui sistem este necesar sa determinam numeric
parametrii de stare ai sistemului (prin parametri intelegandu-se niste marimi masurabile). Aceasta
operatiune se realizeaza, in esenta, prin numarare. Numaram de cate ori isi face aparitia un anumit
eveniment (intr-un anumit interval de timp sau de spatiu, intr-un lot de bolnavi etc.) sau numaram de
cate ori se cuprinde o marime-unitate in marimea care ne intereseaza (adica masuram acea marime
exprimand rezultatul printr-un numar urmat de respectiva unitate de masura).
In practica, atunci cand intentionam sa masuram sau sa numaram ceva, ne aflam intr-una sau
intr-alta din urmatoarele doua situatii:
1. Ne intereseaza sa apreciem din punct de vedere cantitativ un caracter al unui obiect
singular
sau
2. Cautam o valoare cat mai reprezentativa pentru un caracter comun unei multimi de
obiecte similare (unei populatii de obiecte).
In cele ce urmeaza, cele doua situatii mentionate mai sus vor fi tratate in mod unitar. Acest
lucru este permis in baza asa numitei ipoteze ergodice, conform careia functia de probabilitate a unei
masurari repetate de multe ori pe acelasi sistem nu difera de functia de probabilitate a aceleiasi
masurari, realizata pe multe sisteme identice (functia de probabilitate fiind o regula prin care
valorilor unei variabile li se asociaza anumite probabilitati de realizare).
In ambele cazuri avem de a face cu un numar mare de rezultate ale caror frecvente de aparitie
se distribuie cel mai adesea gaussian desi nu de putine ori intalnim si altfel de distributii (de tip
Poisson, binomiala etc.).
Rezistenta electrica a unui conductor este o variabila care poate lua diferite valori. Efectuand
masurari repetate ale rezistentei electrice a unui conductor, este posibil sa obtinem de fiecare data un
numar diferit de ohmi (Ω).
1
Rezultatul unei prime masurari este un numar x1 , urmat de unitatea de masura Ω. De
exemplu:
Pentru a determina rezistenta electrica a unui conductor, folosim un ohmmetru gradat in ohmi (Ω) si
constatam, de pilda, ca acul ohmmetrului se plaseaza in dreptul celei de a 30-a diviziuni. Rezultatul
acestei prime masurari este 30 Ω (x1 este 30 iar unitatea de masura este Ω)
In toate cazurile, se recomanda sa repetam de n ori masurarea (sau, dupa caz, numararea),
obtinand, astfel, valorile x 1 , x 2 , x 3 ,..... x n , adica un numar de n rezultate xi (unde i poate fi 1, 2,
3,....n), rezultate care vor fi, de cele mai multe ori, diferite fata de valoarea adevarata x a caracterului
studiat. Evident, desi apropiate intre ele, valorile xi nu vor fi identice. De exemplu:
Pentru determinarea rezistentei electrice a conductorului mai sus mentionat, repetam de inca 8 ori
masurarea si, adaugand si rezultatul primei masurari, obtinem urmatoarele rezultate, exprimate in Ω:
x1 = 30, x2=31, x3=28, x4=32, x5=27, x6=32, x7=29, x8=28 si x9=33
Eroarea absoluta a unei masurari este Δx = | x - x1| , unde x este valoarea adevarata a
variabilei (pe care cel mai adesea nu o cunoastem dinainte sau nu o vom cunoaste niciodata...) iar x1
este rezultatul obtinut in urma masurarii efectuate. Admitem ca fiecare dintre cele n valori xi
(obtinute prin repetarea de n ori a masurarii) va fi afectata de o eroare absoluta Δxi, unde i = 1, 2,
3,...., n.
Se demonstreaza ca exista o anumita valoare pentru care suma patratelor erorilor absolute
n
∑
i=1 (Δxi)2 este minima1.
n
1 1
∑x
x = n ( x1+ x2+ x3+....+ xn) = n i=1 i
Se mai poate demonstra ca media aritmetica x este cu atat mai apropiata de valoarea
adevarata x cu cat numarul n de repetari ale masurarii este mai mare.
Astfel, in ciuda unor erori care pot aparea in mod imprevizibil si aleator, vom reusi, totusi, sa
prezentam un rezultat al masurarii care sa fie cat mai apropiat de valoarea adevarata x a variabilei
studiate.
1
În acest scop, se egaleaza cu zero derivata fata de x a functiei:
.
n
x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn x
2
Este necesar sa prezentam si gradul de imprastiere (sau de dispersie) al rezultatele noastre,
adica masura in care ele s-au aratat a fi mai mult sau mai putin apropiate, ca valoare, unele de
celelalte.
Cea mai utilizata metoda de a aprecia cantitativ gradul de imprastiere a rezultatelor incepe
prin calcularea variantei (sau dispersiei) s2 a rezultatelor2:
n
∑ ( xi − x )2
s 2 = i=1
n −1
s= √ s2 =
√ ∑ ( xi −x )2
i=1
n−1
s
CV = ×100
x (%)
Coeficientul de variatie nu mai este legat de unitatea de masura a variabilei, astfel incat el
permite compararea rezultatelor unor masurari care se adreseaza unor marimi diferite (avand unitati
de masura diferite). Este de dorit ca acest coeficient de variatie sa nu depaseasca 1%, cu alte
cuvinte, rezultatele sa nu fie prea imprastiate.
Ar fi bine, insa, daca am cunoaste si eroarea asociata mediei aritmetice x deja calculata.
Presupunand ca am fi repetat de un mare numar de ori setul nostru de masurari, am fi obtinut de tot
atatea ori noi medii aritmetice x i . Se poate demonstra ca frecventele de aparitie ale tuturor
mediilor aritmetice x i au o distributie gaussiana.
Devine, astfel, posibil, sa calculam o noua valoare, si anume, eroarea standard se a mediei
aritmetice. Se demonstreaza ca eroarea standard se este:
se=
s
√n
=
√ ∑ ( x i−x )2
i=1
n( n−1)
In cele din urma, vom putea prezenta rezultatul masurarii sub forma a doua valori: media
aritmetica x a rezultatelor si eroarea standard se a mediei aritmetice:
2
La numitor apare n-1 în loc de n, deoarece suma erorilor ∑( i
x −x ) este evident nula, astfel încât numarul de grade
de libertate al rezultatelor se reduce cu o unitate (ramân independente numai n-1 date)
n
G=√ x 1×x 2 ×x 3 ×.. .. . xn x
3
x ± se
cu conditia sa precizam si nivelul de incredere (n.i.) pe care l-am ales pentru prezentarea
rezultatului, adica probabilitatea ca valoarea adevarata a variabilei sa faca parte din intervalul
declarat.
In cazul determinarii rezistentei electrice a conductorului despre care s-a vorbit mai sus, in urma
repetarii de 9 ori a masurarii, am obtinut setul de n = 9 valori numerice:
30, 31, 28, 32, 27, 32, 29, 28 si 33
nr.crt. xi xi - x (xi - x )2
1 30 0 0
2 31 1 1
3 28 -2 4
4 32 2 4
5 27 -3 9
6 32 2 4
7 29 -1 1
8 28 -2 4
9 33 3 9
n
1
xi
270
x
∑
n i=1
Media aritmetica a rezultatelor va fi = 9 = 30 Ω
4
n
∑ ( xi − x )2 36 36
s 2 = i=1
Varianta rezultatelor va fi n −1 = 9−1 = 8 = 4,5
Deviatia standard va fi
s= √ s2 =
√ ∑ ( xi −x )2
i=1
n−1 = √ 4,5 = 2,12
s 2,12
CV = ×100
Coeficientul de variatie va fi x = 30 ¿ 100= 70%
2 2,12
Eroarea standard a mediei va fi se = √9 = 3 ¿0,7
R= x ± se; (n = ...)
R= (30 ± 0,7) Ω ; (n = 9)
t= √n ( x - μ)/s
unde s este deviatia standard a rezultatelor iar μ este media aritmetica pe care am fi obtinut-o dupa
un numar infinit de masurari ale variabilei (μ se considera a fi, practic, egal cu valoarea adevarata x a
variabilei)
Deoarece, de regula, nu cunoastem valoarea lui μ, valoarea lui t se cauta in tabelul continand
valorile parametrului t al lui Student si se gaseste la intersectia randului ce corespunde numarului
de grade de libertate al rezultatelor noastre (n - 1), cu coloana ce corespunde nivelului de incredere
n.i (sau, daca asa preferam, pragului de semnificatie p.s.) ales.
Daca stim ca s-au facut n masurari si dorim sa stim in ce interval de valori poate fi gasita
valoarea adevarata x a variabilei, pentru un nivel de incredere, sa zicem, n.i. = 95%, cautam pe
orizontala in randul corespunzator lui n -1 (n-1 mai poarta numele de grade de libertate ale
rezultatelor) si pe verticala in coloana corespunzatoare pentru n.i. = 95% si aflam valoarea lui t.
Rezultatul final al masurarii R se va prezenta printr-o expresie care deriva direct din formula
lui t si anume:
s
R = x ± t ¿ se = x ± t ¿ √n
6
In cazul nostru, n = 9, deci n -1 = 8, astfel incat vom cauta valorile lui t pe randul care corespunde lui
n -1 = 8 si in coloana 95% si gasim t = 2,306:
Aceasta se traduce in felul urmator: din totalitatea rezultatelor pe care le-am obtinut (sau pe care le-
am fi putut obtine) folosind ohmmetrul nostru, doar 5% se plaseaza in afara intervalului 28,4 Ω - 31,6
Ω (2,5% din aceste din urma rezultate sunt mai mici de 28,4 Ω si 2,5% mai mari decat 31,6 Ω).
7
Şi in acest caz, rezultatul masurarii s-ar fi prezentat in functie de nivelul de incredere dorit
sau de pragul de semnificatie ales. In continuare sunt date doar trei exemple:
In cazul nostru, valoarea rezistentei electrice a conductorului despre care s-a vorbit mai sus ar fi
putut fi prezentata (daca numarul de masurari ar fi fost 200 sau mai multe) astfel:
R=(30 ± 2,58 ¿ 0,7)=(30 ± 1,8) cm, adica valoarea rezistentei electrice a conductorului
afla cu o probabilitate de 99% in intervalul de valori cuprins intre 28,2 cm si 31,8 Ω.
Cautam o valoare, exprimata in cm, care sa reprezinte cea mai buna estimare a inaltimii
bucurestenilor adulti.
1 178 -2 4
2 179 -1 1
3 179 -1 1
4 180 0 0
5 180 0 0
9
6 180 0 0
7 180 0 0
8 181 1 1
9 181 1 1
10 182 2 4
Este bine sa reprezentam grafic distributia frecventelor cu care apar aceste efective (adica sa
realizam histograma datelor), dupa care vom putea identifica mai usor tipul de distributie a
frecventelor (distributie Gauss, Poisson, distributie binomiala etc.). De exemplu:
10
%
40 40
35
30
30
25
20
20
10
15
10
0
178 179 180 181 182
178 179 180 181 182
valoarea inaltimii in cm
valoarea inaltimii in cm
cminaltimii in cm
histograma cu coloane verticale histograma din puncte
Unind punctele prin linii drepte se obtine poligonul de frecvente al efectivelor. Daca crestem
numarul de masurari, poligonul de frecvente se va netezi si se va transforma, treptat, intr-o curba
neteda de frecvente. Forma cel mai des intalnita in masuratori este cea de clopot (curba lui Gauss.)
40
35
30
25
20
15
10
valoarea inaltimii in cm
Pasul urmator este prelucrarea statistica a rezultatelor, astfel ca in final sa reducem setul de
date la numai cativa indicatori statistici.
Principalii indicatori statistici sunt:
3 x i−x mediana este acea valoare din setul de date care se afla, valoric, la jumatatea setului de date (divide setul de
date în doua parti egale)
n
G=√ x 1×x 2 ×x 3 ×.. .. . xn x
4 x i−x módul este valoarea care apare cel mai des (cu cea mai mare frecventa) în setul de date
11
- indicatorii de dispersie sau de imprastiere a datelor (de regula deviatia standard s dar,
uneori, si coeficientul de variatie CV, varianta s2, domeniul6 si eroarea standard a mediei
aritmetice se7)
n
∑ ( xi − x )2 12
s 2 = i=1
-varianta n −1 = 9 = 1,333
s 1,154
CV = ×100
-coeficientul de variatie x = 180 = 0,64%
s 1,154 1,154
se=
-eroarea standard este √ n = √10 = 3,16 =0,365
x
n
6 x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn domeniul este diferenta dintre cea mai mare valoare si cea mai mica valoare
din setul de date
x
n
7 x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn eroarea standard arata cu cât se abate media x a esantionului de la
media μ a populatiei
12
Deoarece cele n rezultate (obtinute dupa tot atatea masurari, cate una pentru fiecare obiect din
esantion) reprezinta numai o mica parte din numarul mare N de rezultate pe care le-am fi putut obtine
daca am fi avut timp sa examinam toate cele N obiecte care alcatuiesc populatia, este necesar sa
estimam cat de departata poate fi media aritmetica x obtinuta de noi la nivelul esantionului fata de
media μ pe care am fi obtinut-o supunand masurarii intreaga populatie.
Ne putem imagina ca repetam masurarea, abordand un numar foarte mare de esantioane
selectate din randul populatiei, calculand de fiecare data cate o noua medie aritmetica x i pe fiecare
esantion. Se poate demonstra ca este corect sa se vorbeasca despre o deviatie standard a mediilor
aritmetice x fata de media μ a populatiei.
Aceasta deviatie standard poarta numele de eroare standard se a mediei:
se=
√ ∑ ( x i −x ) 2
i=1
n ( n−1 )
Asa cum s-a aratat in capitolul precedent, daca numarul n de obiecte din esantion este mai mic
de 200 se ia in considerare parametrul t al lui Student (care se afla din tabelul deja prezentat).
Urmarim in tabel intersectia coloanei care corespunde nivelului de incredere n.i. (sau pragului de
semnificatie p.s.) ales, cu randul care corespunde celor n -1 de grade de libertate ale rezultatelor.
De exemplu, pentru cazul nostru (cel al inaltimii I a bucurestenilor adulti), am selectat din tabelul
valorilor parametrului t al lui Student numai randul care corespunde celor 9 grade de de libertate
(adica 10 - 1 bucuresteni = 9)
Rezulta ca cele mai bune estimari ale inaltimii I a bucuresteanului adult sunt urmatoarele (in functie
de nivelul de incredere n.i. sau a pragului de semnificatie p.s. pe care le alegem):
I = 180,00 ± 1,833 ¿ 0,365 = 180,00 ± 0,67 cm ( n.i. = 90% sau p.s. = 10%)
I = 180,00 ± 2,262 ¿ 0,365 = 180,00 ± 0,82 cm ( n.i. = 95% sau p.s. = 5%)
I = 180,00 ± 2,821 ¿ 0,365 = 180,00 ± 1,03 cm ( n.i. = 98% sau p.s. = 2%)
I = 180,00 ± 3,250 ¿ 0,365 = 180,00 ± 1,19 cm ( n.i. = 99% sau p.s. = 1%)
I = 180,00 ± 4,781 ¿ 0,365 = 180,00 ± 1,74 cm ( n.i. = 99,9% sau p.s. = 0,1%)
13
Compararea mediei obtinuta pe un esantion cu valoarea teoretica acceptata pentru intreaga
populatie
Presupunem ca stim din literatura de specialitate ca inaltimea medie I a bucuresteanului adult este μ
=179 cm.
Din masurarile noastre efectuate pe 10 bucuresteni a rezultat, la nivelul acestui esantion, o medie
aritmetica a inaltimii de x =180 cm. Ne intrebam daca diferenta de 1 cm este semnificativa sau
este doar rodul intamplarii.
In acest scop se calculeaza valoarea t:
x −μ 180−179 1
s 1 , 154 1,154 1
t = √n = √10 = 3,16 = 0,36 = 2,78
Numarul de grade de libertate, la nivelul esantionului nostru, a fost n -1 = 10 - 1 = 9.
Cautam in tabelul valorilor parametrului t al lui Student, in randul care corespunde lui n - 1 = 9,
valoarea cea mai apropiata (egala sau mai mica) de valoarea t = 2,58 calculata de noi.
Constatam ca 2,262 (care apartine coloanei cu n.i. 95% sau p.s. 5%), este valoarea cea mai apropiata
de 2,58 (si in acelasi timp mai mica decat 2,58). Aceasta inseamna ca pentru pragul de semnificatie
de 5% (ca de altfel pentru toate pragurile de semnificatie din stanga acestuia, adica pragurile mai
mari de 5%) diferenta dintre inaltimea medie calculata de noi pe esantionul de 10 bucuresteni si
valoarea teoretica a inaltimii acceptata pentru intreaga populatie de bucuresteni este semnificativa si
nu doar rodul intamplarii. Altfel spus, aceasta diferenta este semnificativa pentru un nivel de
incredere de 95% dar nu si pentru un nivel de incredere de 98% sau mai mare (ori pentru un prag
de semnificatie de 2% sau mai mic). Intr-adevar, cercetand intersectia coloanei n.i. = 98% cu randul
n -1 = 9, gasim 2,821. Deoarece valoarea lui t pe care am calculat-o este mai mica (2,78<2,821)
rezulta ca, pentru acest nivel de incredere, diferenta de 1 cm dintre medii este nesemnificativa,
putand fi doar o simpla intamplare.
Din masurarile noastre efectuate pe na =10 bucuresteni, a rezultat o medie aritmetica a inaltimii de
xa =180 cm cu o varianta (dispersie) a rezultatelor s2a de 1,333. Sa presupunem ca selectionam un alt
esantion de bucuresteni de nb=12 persoane, facem masurari si obtinem o medie a inaltimii de xb = 179
14
cm cu o varianta (dispersie) a rezultatelor s2b =1,5. Dorim sa stim daca diferenta de 1 cm dintre cele
doua medii este semnificativa sau este rodul intamplarii8.
Pentru aceasta calculam parametrul t dupa formula:
x a −x b
1
s s 1 1 1
t(na+nb-2) = √ na
a2
+ b2
nb = √ 1,33 1,5
10 12
+
√0,133+0,125 = √0,258 = 0,507 =1,972
Aceasta inseamna ca pentru pragul de semnificatie de 10% (ca de altfel pentru toate pragurile de
semnificatie din stanga acestuia, adica pragurile mai mari de 10%) diferenta dintre inaltimea medie
xa calculata de noi pe esantionul de 10 bucuresteni si inaltimea medie xb calculata de noi pe
esantionul de 12 este semnificativa si nu doar rodul intamplarii. Altfel spus, aceasta diferenta este
semnificativa pentru un nivel de incredere de 90% dar nu si pentru un nivel de incredere de 95%
sau mai mare (ori pentru un prag de semnificatie de 5% sau mai mic). Intr-adevar, cercetand
intersectia coloanei n.i. = 95% cu randul n -1 = 20, gasim 2,086. Deoarece valoarea lui t pe care am
calculat-o este mai mica (1,972<2,086) rezulta ca, pentru acest un nivel de incredere, diferenta de 1
cm dintre medii este nesemnificativa, putand fi intamplatoare.
n
8 x i−x G=√ x 1×x 2 ×x 3 ×.. .. . xn x
Trebuie sa aflam, în prealabil, daca variantele celor doua esantioane
difera sau nu semnificativ între ele; utilizam în acest scop testul F (test care poate fi gasit in orice carte de statistica).
Presupunem ca, în exemplul nostru, variantele celor doua esantioane nu difera semnificativ una de alta si ca, deci, putem
continua operatia de comparare a mediilor
15
Bibliografie
1. Cicală, E., - Metode de prelucrare statistică a datelor experimentale, Ed. Politehnica, Timişoara,
1999.
2. Nichici, A., Cicală, E., Mee, R., - Prelucrarea datelor experimentale – curs şi aplicaţii, Lito. UPT,
Timişoara, 1996.
3. Cicală, E., - Metoda experimentelor factoriale, Ed. Politehnica, Timişoara, 2005
16
Student: FURTUN IULIU
MMSM
17