You are on page 1of 89

Statisticˇa - notit ¸e de curs

S¸tefan Balint, Loredana Tˇanasie
Cuprins
1 Ce este statistica? 3
2 Not ¸iuni de bazˇa 5
3 Colectarea datelor 7
4 Determinarea frecvent ¸ei ¸si gruparea datelor 11
5 Prezentarea datelor 14
6 Parametrii ¸si statistici ai tendint ¸ei centrale 19
7 Parametrii ¸si statistici ai dispersiei 22
8 Parametrii ¸si statistici factoriali ai variant ¸ei 25
9 Parametrii ¸si statistici ale pozit ¸iei 26
10 Seria de distribut ¸ie a statisticilor
de e¸santioane 28
11 Teorema limitˇa centralˇa 32
12 O aplicat ¸ie a teoremei limitˇa centralˇa 35
13 Estimarea punctualˇa a unui parametru; intervalul de ˆıncredere 36
14 Generalitˇat ¸i privind ipotezele statistice ¸si problema verificˇarii ipotezelor
statistice 38
1
15 Verificarea ipotezelor statistice: variantˇa clasicˇa 41
16 Verificarea ipotezelor statistice: varianta probabilistˇa 48
17 Inferent ¸ˇa statisticˇa privind media populat ¸iei dacˇa nu se cunoa¸ste
abaterea standard a populat ¸iei 52
18 Inferent ¸ˇa relativˇa la variant ¸ˇa ¸si estimarea variant ¸ei 59
19 Generalitˇat ¸i despre corelat ¸ie. Corelat ¸ie liniarˇa 65
20 Analizˇa de corelat ¸ie liniarˇa 73
21 Inferent ¸ˇa privind coeficientul de corelat ¸ie liniarˇa 76
22 Regresie liniarˇa 80
23 Analiza de regresie liniarˇa 83
24 Inferent ¸ˇa referitoare la panta unei drepte de regresie liniarˇa 87
2
1 Ce este statistica?
Definit ¸ia 1.1. Statistica este ¸stiint ¸a colectˇarii, clasificˇarii, prezentˇarii, interpretˇarii
datelor numerice ¸si a folosirii acestora pentru a formula concluzii ¸si a lua decizii.
Definit ¸ia 1.2. Statistica descriptivˇa se ocupˇa cu colectarea, clasificarea ¸si prezentarea
datelor numerice.
Definit ¸ia 1.3. Statistica inferent ¸ialˇa (inferential statistics) se ocupˇa cu interpretarea
datelor oferite de statistica descriptivˇa ¸si cu folosirea acestora pentru a formula concluzii
¸si lua decizii.
Problema 1.1. Universitatea de Vest din Timi¸soara dore¸ste sˇa facˇa un plan de dezvoltare
a facilitˇat ¸ilor de cazare. Pentru a trece la act ¸iune consiliul de administrat ¸ie hotˇarˇ a¸ste cˇa
este necesar sˇa se rˇaspundˇ a la urmˇatoarea ˆıntrebare: Cˆat ¸i student ¸i vor trebui cazat ¸i ˆın
urmˇatorii zece ani?
Pentru a rˇaspunde la aceastˇa ˆıntrebare trebuie sˇa cunoa¸stem rˇaspunsul la cel put ¸in
urmˇatoarele douˇa ˆıntrebˇ ari: Cˆat ¸i absolvent ¸i de liceu vor fi? Cˆat ¸i vor sˇa vinˇa la
universitate? (S¸i altele poate).
Pentru a rˇaspunde la aceste douˇa ˆıntrebˇ ari e nevoie de date referitoare la numˇ arul de
absolvent ¸i de liceu ˆın urmˇatorii zece ani ¸si de date care indicˇa procentul acelor absolvent ¸i
de liceu care doresc sˇa devinˇa student ¸i la U.V.T. ˆın urmˇatorii zece ani.
O cale de a obt ¸ine date refritoare la numˇ arul de absolvent ¸i de liceu ˆın urmˇatorii zece ani
este de a vedea care a fost acest numˇ ar ˆın ultimii zece ani ¸si a extrapola acest numˇar.
Trebuie remarcat cˇa aceastˇa idee presupune cˇa existˇa o legˇaturˇa dintre trecut ¸si viitor.
Acest lucru nu este ˆıntotdeauna adevˇarat. Oˆıntrebare suplimentarˇa care se pune ˆın acest
context este dacˇa va trebui sˇa numˇ arˇam tot ¸i absolvent ¸ii de liceu din toate ¸scolile din
ultimii zece ani sau ne putem limita sˇa numˇarˇ am doar la anumite ¸scoli? Altfel spus, dacˇa
putem considera doar e¸santioane?
O cale de a obt ¸ine date referitoare la procentul acelor absolvent ¸i care doresc sˇa devinˇa
student ¸i la U.V.T. este aceea de a vedea aceste procente ˆın ultimii zece ani ¸si de a
extrapola.
Alte ˆıntrebˇari care se pun sunt: Cum interpretˇ am aceste date? Cum formulˇ am o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ˆıntrebˇ arilor care pot fi relevante. La acest moment ceea
ce este important este sˇa ˆıncepem sˇa ne gˆandim la asemenea probleme ¸si la ˆıntrebˇ arile
care trebuiesc lˇamurite pentru a obt ¸ine un rˇaspuns.
Remarca 1.1. Relat ¸ia dintre statisticˇa ¸si probabilitˇat ¸i
Statistica ¸si probabilitˇat ¸ile sunt douˇa domenii strˆans legate, dar distincte ale matematicii.
Se spune cˇa ”probabilitˇat ¸ile sunt vehiculul statisticii”. Aceasta este adevˇarat ˆın sensul
cˇa dacˇa nu ar fi legile probabiliste teoria statisticˇa nu ar fi posibilˇa. Pentru a ilustra
ˆınsˇ a diferent ¸a dintre probabilitˇat ¸i ¸si statisticˇa sˇa considerˇam douˇa urne: una probabilistˇa
¸si una statisticˇa.
ˆ
In cazul urnei probabiliste se ¸stie cˇa urna cont ¸ine 5 bile albe, 5 bile
negre ¸si 5 bile ro¸sii; problema de probabilitate este dacˇa scoatem o bilˇa, care este ¸sansa
ca aceasta sˇa fie albˇa?
ˆ
In cazul unei urne statistice nu cunoa¸stem care este combinat ¸ia
de bile din urnˇa. Extragem un e¸santion ¸si din acest e¸santion conjecturˇam ce credem cˇa
se gˇase¸ste ˆın urnˇa. Trebuie ret ¸inutˇ a deosebirea: probabilitatea pune ˆıntrebarea ¸sansei
ca ceva (un eveniment) sˇa se ˆıntˆample atunci cˆand se cunosc posibilitˇat ¸ile (se cunoa¸ste
3
populat ¸ia). Statistica ne cere sˇa facem un e¸santion, sˇa analizˇam e¸santionul ¸si pe urmˇa sˇa
facem predict ¸ie asupra populat ¸iei pe baza informat ¸iei gˇasite ˆın e¸santion.
Remarca 1.2. Folosirea corectˇa ¸si folosirea gre¸sitˇa a statisticii
Utilizarea statisticii este nelimitatˇa. Este greu de gˇasit un domeniu ˆın care statistica nu
se folose¸ste. Iatˇa cˆateva exemple, unde ¸si cum este folositˇa statistica:
• ˆın educat ¸ie; statistica descriptivˇa este adesea folositˇa pentru a prezenta rezultatele;
• ˆın ¸stiint ¸ˇ a; rezultatele experimentale trebuiesc colectate ¸si analizate;
• guvernele; adunˇa diferite date statistice tot timpul.
Mult ¸i oameni sunt indiferent ¸i fat ¸ˇ a de descrierea statisticˇa, alt ¸ii cred cˇa statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente ¸si rezultˇa din folosirea unei
statistici neadecvate sau date obt ¸inute dintr-un e¸santion nepotrivit. Toate acestea conduc
la o ˆınt ¸elegere gre¸sitˇ a a informat ¸iei din partea consumatorului. Folosirea gre¸sitˇa a
statisticii duce uneori la ˆıncurcˇ aturi.
Remarca 1.3. Statistica ¸si calculatorul
ˆ
In ultimul deceniu calculatorul a avut un rol important ˆın aproape toate aspectele viet ¸ii.
Domeniul statististicii nu face except ¸ie. Statistica folose¸ste multe tehnici care au o
naturˇa repetitivˇa; formule pentru a calcula statistici descriptive, proceduri de urmat
pentru a formula predict ¸ii. Calculatorul este foarte bun pentru a face asemenea operat ¸ii
repetitive. Dacˇa calculatorul are un soft standard statistic este mult mai u¸soarˇ a analiza
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program
biomedical), SAS (Sistem de analizˇa statisticˇa), IBM Scientific Subroutine Packages ¸si
SPSS (pachet statistic pentru ¸stiint ¸e sociale).
4
2 Not ¸iuni de bazˇa
Definit ¸ia 2.1. Populat ¸ia este o colect ¸ie (mult ¸ime) de indivizi, obiecte sau date numerice
obt ¸inute prin mˇasurˇ atori ale cˇarei proprietˇat ¸i trebuiesc analizate.
Remarca 2.1. Populat ¸ia este colect ¸ia completˇa de indivizi, obiecte sau date numerice
obt ¸inute prin mˇasurˇatori care prezintˇ a interes (pentru cel care colecteazˇa e¸santionul).
Conceptul de populat ¸ie este fundamental ˆın statisticˇa. Populat ¸ia trebuie definitˇa cu grijˇa
¸si se considerˇa complet definitˇa dacˇa lista membrilor este specificatˇa. Mult ¸imea student ¸ilor
Facultˇat ¸ii de Matematicˇa ¸si Informaticˇa este o populat ¸ie bine definitˇa.
Dacˇa auzim cuvˆantul populat ¸ie de obicei ne gˆandim la o mult ¸ime de oameni.
ˆ
In statisticˇa
populat ¸ia poate fi o mult ¸ime de animale, de obiecte fabricate sau de date numerice
obt ¸inute prin mˇasurˇatori. De exemplu mult ¸imea ”ˆınˇalt ¸imilor” student ¸ilor facultˇat ¸ii de
Matematicˇa ¸si Informaticˇa este o populat ¸ie.
Definit ¸ia 2.2. E¸santionul este o submult ¸ime a unei populat ¸ii.
Remarca 2.2. Un e¸santion constˇa din indivizi, obiecte sau date mˇasurate selectate din
populat ¸ie (de cˇatre colectorul de e¸santion).
Definit ¸ia 2.3. O variabilˇa de rˇaspuns (simplu variabilˇa) este o caracteristicˇa (de
obicei numericˇ a) care prezintˇ a interes ˆın cazul fiecˇarui element (individ) al unei populat ¸ii.
Remarca 2.3. Vˆarsta studentului, media lui, culoarea pˇarului, ˆınˇalt ¸imea, greutatea
¸s.a.m.d. sunt variabile de rˇaspuns ˆın cazul populat ¸iei: student ¸ii de la Facultatea de
Matematicˇa ¸si Informaticˇa.
Definit ¸ia 2.4. O datˇa (la singular) este ”valoarea” unei variabile de rˇaspuns ˆın cazul
unui element al populat ¸iei sau e¸santionului.
Exemplul 2.1. Popescu Nicolae are vˆırsta de ”19 ani”, media 8.50, pˇarul lui este
”castaniu”, ˆınˇ alt ¸imea lui este ”1 m ¸si 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci
”valori” ale celor cinci variabile de rˇaspuns (Remarca 2.3) ˆın cazul lui Popescu Nicolae
sunt ”cinci” date.
Definit ¸ia 2.5. ”Valorile” unei variabile de rˇaspuns ˆın cazul unei populat ¸ii sau a unui
e¸santion constituie un set de date .
ˆ
Intr-un set de date aceea¸si datˇa apare de atˆatea ori
de cˆate ori variabila are aceastˇa ”valoare”.
Exemplul 2.2. Cele 25 de ˆınˇalt ¸imi ˆın cazul unui e¸santion de 25 de student ¸i este un set
de 25 de date nu neapˇarat diferite.
Definit ¸ia 2.6. O activitate planificatˇa ˆın urma cˇareia se obt ¸ine un set de date se nume¸ste
experiment sau sondaj.
Definit ¸ia 2.7. Parametru este o caracteristicˇa numericˇa a unei populat ¸ii.
Exemplul 2.3. Procentul de student ¸i de la Facultatea de Matematicˇa ¸si Informaticˇa care
au promovat toate examenele la sesiunea din iarnˇa este un exemplu de parametru ˆın cazul
populat ¸iei: student ¸ii de la Facultatea de Matematicˇa ¸si Informaticˇa.
Remarca 2.4. Parametrul este o valoare numericˇ a care se referˇa la ˆıntreaga populat ¸ie.
ˆ
In statisticˇa se obi¸snuie¸ste ca parametrul sˇa fie notat cu literˇa greceascˇa.
5
Definit ¸ia 2.8. O statisticˇa este o caracteristicˇa numericˇ a a unui e¸santion
Exemplul 2.4.
ˆ
Inˇalt ¸imea medie gˇasitˇa folosind cele 25 de ˆınˇ alt ¸imi ˆın cazul unui e¸santion
de 25 de student ¸i este un exemplu de statisticˇa (de e¸santion).
Remarca 2.5. O statisticˇa este o valoare numericˇ a care se referˇa la un e¸santion.
Statisticile (de e¸santion) se noteazˇa cu literele alfabetului latin.
6
3 Colectarea datelor
Prima problemˇa a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabilˇa a obiectivelor sondajului (experimentului) a populat ¸iei ¸si a variabilei.
Exemple de obiective:
a) Compararea eficacitˇat ¸ii unui medicament nou cu eficacitatea unui medicament
standard;
b) Estimarea venitului mediu al unei familii din judet ¸.
Exemple de populat ¸ii ¸si variabile corespunzˇatoare:
a) pacient ¸ii care suferˇa de o boalˇa care se trateazˇa cu medicamentul considerat
reprezintˇa populat ¸ia, iar timpul de recuperare reprezintˇa variabila;
b) familiile din judet ¸ reprezintˇa populat ¸ia, iar venitul total al unei familii din judet ¸
reprezintˇa variabila.
Tot ˆınainte de colectarea setului de date trebuie hotˇarˆat dacˇa setul de date se constituie
pentru ˆıntreaga populat ¸ie sau doar pentru un e¸santion. Dacˇa setul de date se constituie
pentru ˆıntreaga populat ¸ie atunci se face un recensˇamˆant.
Definit ¸ia 3.1. Un recensˇamˆant este o enumerare sau o listare a fiecˇarui element al
populat ¸iei ˆımpreunˇ a cu data (valoarea variabilei) corespunzˇatoare elementului.
ˆ
In cazul unei populat ¸ii mari, constituirea unui set de date la nivelul populat ¸iei este dificil
¸si costisitor. De aceea, ˆın cazul ˆın care nu este posibilˇa realizarea unui recensˇamˆ ant,
setul de date se constituie doar pentru o parte a populat ¸iei, pentru un e¸santion. Select ¸ia
elementelor pentru e¸santion se face dintr-un cadru de e¸santionare.
Definit ¸ia 3.2. Cadrul de e¸santionare este o listˇa de elemente care apart ¸in populat ¸iei,
din care va fi extras e¸santionul.
Remarca 3.1. Deoarece numai elementele din cadrul e¸santionului au ¸sansa sˇa fie selectate
pentru e¸santion, din perspectiva variabilei de rˇaspuns cadrul de e¸santion trebuie sˇa fie
reprezentativ pentru populat ¸ie.
Remarca 3.2.
ˆ
In cazul unei populat ¸ii de indivizi listele de alegˇatori sau cˇart ¸ile de telefon
sunt folosite adesea drept cadru de e¸santion.
ˆ
In funct ¸ie de variabila de rˇaspuns acestea
pot fi cadre de e¸santion potrivite sau nepotrivite.
Remarca 3.3. Dupˇa definirea cadrului e¸santionului se trece la stabilirea modului de
alegere a elementelor e¸santionului. Acest proces se nume¸ste proiectarea e¸santionului.
Definit ¸ia 3.3. Proiectarea e¸santionului ˆınseamnˇa stabilirea procedurii de alegere a
elementelor e¸santionului din cadrul e¸santionului.
Existˇa mai multe procedee de alegere a elementelor e¸santionului.
ˆ
In mare aceste procedee
ˆımpreunˇ a cu e¸santioanele corespunzˇatoare se ˆımpart ˆın douˇa categorii: procedee bazate
pe reprezentativitate ¸si procedee probabiliste.
7
Definit ¸ia 3.4. E¸santioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel ˆıncˆ at din perspectiva variabilei de rˇaspuns, elementul ales sˇa fie
reprezentativ pentru populat ¸ie.
Exemplul 3.1. Din perspectiva variabilei de rˇaspuns: ”cursul A este util sau nu ˆın
formarea dumneavoastrˇa profesionalˇa?”, student ¸ii din cadrul unui e¸santion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt ale¸si ˆın e¸santion.
Definit ¸ia 3.5. Un e¸santion pentru care elementele sunt selectate pe bazˇa probabilistˇa;
oricare element din cadrul e¸santionului are o anumitˇ a ¸sansˇ a nenulˇ a sˇa fie selectat; se
nume¸ste e¸santion probabilist.
Remarca 3.4. Inferent ¸e statistice cer ca e¸santionul sˇa fie probabilist. E¸santioanele
probabiliste aleatoare sunt cele mai familiare e¸santioane probabiliste.
Definit ¸ia 3.6. Un e¸santion de mˇarimea n este e¸santion probabilist aleator dacˇa orice
e¸santion de mˇarimea n ales din acela¸si cadru are aceea¸si probabilitate sˇa fie ales.
Remarca 3.5. Cea mai rˇaspˆ anditˇa metodˇa de a colecta date folose¸ste e¸santion aleator
simplu.
Definit ¸ia 3.7. Un e¸santion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru ˆın care elementele au aceea¸si probabilitate sˇa fie alese se nume¸ste e¸santion
aleator simplu.
Remarca 3.6. Atunci cˆand se construie¸ste un e¸santion probabilist aleator simplu trebuie
avutˇ a grijˇa ca fiecare element din cadrul e¸santionului sˇa aibe aceea¸si probabilitate sˇa fie
selectat. Adesea se fac gre¸seli pentru cˇa termenul ”aleator” este confundat cu ”ales
la ˆıntˆamplare”. Un procedeu corect de selectare a unui e¸santion probabilist aleator
simplu este acela care folose¸ste un generator de numere aleatoare sau o tabelˇa de numere
aleatoare. Prima oarˇa se numeroteazˇ a elementele din cadrul de e¸santionare. Dupˇa aceasta
ˆın tabelul cu numere aleatoare se aleg atˆatea numere cˆate sunt necesare pentru e¸santion.
Fiecare element din cadrul de e¸santionare, al cˇarui numˇ ar coincide cu un numˇ ar selectat
din tabelul de numere aleatoare va fi ales pentru e¸santion.
Exemplul 3.2. Dacˇa cadrul e¸santionului este o listˇa de 4265 de student ¸i atunci ei sunt
numerotat ¸i de la 0001; 0002; ...; 4265. Pentru un e¸santion de 50 de student ¸i se aleg 50 de
numere aleatoare cu patru cifre ¸si se identificˇ a student ¸ii din cadrul e¸santionului.
Definit ¸ia 3.8. E¸santionul sistematic se construie¸ste alegˆand fiecare al k-lea element
din cadrul e¸santionului.
Remarca 3.7.
ˆ
In aceastˇa select ¸ie se folose¸ste tabela de numere aleatoare o singurˇa datˇa,
pentru a determina punctul de plecare.
Exemplul 3.3. Dacˇa se considerˇa un cadru de e¸santion de 245 de student ¸i ai Facultˇat ¸ii
de Matematicˇa ¸si Informaticˇa ¸si se dore¸ste un e¸santion sistematic format din 15 student ¸i
atunci:
1) asociem fiecˇarui student un numˇ ar de la 1 la 245;
8
2) se calculeazˇa k (pasul de numˇarare) folosind urmˇatoarea relat ¸ie:
k =
_
numˇ arul de elemente din cadrul e¸santionului
numˇ arul de elemente din e¸santion
_
=
_
245
15
_
= 16
3) se alege punctul de plecare ˆıntre 1 ¸si numˇarul k cu ajutorul unui tabel de numere
aleatoare.
Dacˇa acest numˇ ar este 10, atunci obt ¸inem e¸santionul:
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
Deoarece k =
245
15
= 16, 33, nu este un numˇar ˆıntreg, pasul de numˇ arare poate fi ¸si 17.
ˆ
In
acest caz e¸santionul sistematic obt ¸inut este de numai 14 elemente.
Remarca 3.8. Este o procedurˇa bunˇa pentru a e¸santiona un procentaj ˆın cazul
populat ¸iilor mari. Pentru a selecta un e¸santion sistematic de x% dintr-o populat ¸ie, un
element din 100/x va fi selectat (dacˇa 100/x nu este ˆıntreg se ia partea ˆıntreagˇa).
Remarca 3.9. Folosirea e¸santionului sistematic nu este potrivitˇa dacˇa populat ¸ia este
repetitivˇa sau ciclicˇa ˆın naturˇa.(din perspectiva variabilei de rˇaspuns)
Exemplul 3.4. Dacˇa se dore¸ste estimarea numˇarului student ¸ilor admi¸si la Facultatea de
Matematicˇa ¸si Informaticˇa care au depˇa¸sit vˆarsta de 20 de ani ¸si se folose¸ste e¸santionarea
sistematicˇa extrˇagˆand din lista candidat ¸ilor admi¸si numai pe cei de pe pozit ¸iile care sunt
multiplu de 5, existˇa posibilitatea ca tot ¸i candidat ¸ii admi¸si pe pozit ¸iile respective sˇa aibˇa
sub 20 de ani. Un asemenea e¸santion spune ca nu au fost admi¸si candidat ¸i peste 20 de
ani, ceea ce nu poate fi sust ¸inut.
Cˆand se e¸santioneazˇ a populat ¸ii foarte mari, atunci cˆand este posibil se ˆımparte populat ¸ia
ˆın douˇa subpopulat ¸ii pe baza unor caracteristici. Aceste subpopulat ¸ii se numesc straturi,
iar straturile sunt e¸santionate separat.
Definit ¸ia 3.9. Un e¸santion obt ¸inut ˆın urma stratificˇarii cadrului e¸santionului ¸si prin
selectarea unui numˇ ar dat de elemente din fiecare strat se nume¸ste e¸santion stratificat.
Remarca 3.10. Cˆand se proiecteazˇa un e¸santion stratificat, cadrul seˆımparteˆın douˇa sau
mai multe straturi ¸si ˆın fiecare strat se proiecteazˇa un sube¸santion. Aceste sube¸santioane
pot fi aleatoare, sistematice sau de alt gen. Dupˇa aceea sube¸santioanele sunt asamblate
ˆıntr-un singur e¸santion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populat ¸iei student ¸ilor din Facul-
tatea de Matematicˇa ¸si Informaticˇa, aceastˇa populat ¸ie poate fi ˆımpˇ art ¸itˇa:
- pe domenii: informaticˇa, matematicˇa
- pe ani de studiu.
Definit ¸ia 3.10. E¸santion cotˇa (sau e¸santion proport ¸ional) este un
e¸santion stratificat care se construie¸ste prin selectarea unui numˇar de elemente din fiecare
strat dupˇa o anumitˇa cotˇa sau proport ¸ional cu mˇarimea stratului.
9
Exemplul 3.6. Dacˇa se dore¸ste construirea unui e¸santion de 150 de student ¸i din populat ¸ia
student ¸ilor Facultˇ at ¸ii de Matematicˇa ¸si Informaticˇa putem face stratificarea dupˇa anii de
studiu.
ˆ
In acest caz, numˇ arul de student ¸i ce va fi selectat din fiecare an ce va fi selectat
va fi proport ¸ional cu numˇ arul total de student ¸i din anul respectiv:
Anul de studiu Numˇar student ¸i Cota Nr. student ¸i
selectat ˆın e¸santion:
Anul I 431 36.49% 54
Anul II 303 25.65% 40
Anul III 206 17.44% 26
Anul IV 240 20.40% 30
E¸santionul va fi format din 54 de student ¸i din anul I, 40 de student ¸i din anul II, 26 de
student ¸i din anul III ¸si 30 de student ¸i din anul IV.
O altˇa metodˇa de e¸santionare care pleacˇa de la stratificarea populat ¸iei este e¸santionul
ciorchine.
Definit ¸ia 3.11. E¸santionul ciorchine este un e¸santion stratificat care se construie¸ste
prin selectarea de e¸santioane din anumite straturi (nu din toate).
Exemplul 3.7. Dacˇa se dore¸ste realizarea unui e¸santion ciorchine format din student ¸ii
Universitˇ at ¸ii de Vest din Timi¸soara, aceastˇa populat ¸ie poate fi startificatˇa ˆın funct ¸ie
de specializarea pe care au ales-o student ¸ii select ¸ionˆ and e¸santioane doar de la cˆateva
specializˇari (nu de la toate).
Remarca 3.11. E¸santionul ciorchine se obt ¸ine folosind numere aleatoare sau o metodˇa
sistematicˇa pentru identificarea straturilor (ciorchine) care trebuiesc e¸santionate, dupˇa
care fiecare din aceste straturi este e¸santionat. Sube¸santioanele asamblate formeazˇa un
e¸santion ciorchine.
ˆ
Intr-un caz concret procedeul de e¸santionare care se folose¸ste depinde de populat ¸ie de
variabilˇa de dificultatea e¸santionˇ arii ¸si de cost. Dupˇa determinarea e¸santionului se poate
trece la colectarea setului de date.
10
4 Determinarea frecvent ¸ei ¸si gruparea datelor
Dupˇa colectarea unui set de date urmeazˇa prelucrarea primarˇa a datelor. Determinarea
frecvent ¸ei ¸si gruparea datelor este un procedeu de prelucrae primarˇa a datelor ¸si este
utilizat atunci cˆand numˇarul datelor este mare.
Pentru a prezenta conceptul de frecvent ¸ˇ a sˇa considerˇam urmˇatorul set de date:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Valoarea 0 apare ˆın acest set o singurˇa datˇa prin urmare frecvent ¸a pentru 0 este unu.
Valoarea 1 apare ˆın acest set de trei ori prin urmare frecvent ¸a pentru 1 este trei.
Valoarea 2 apare ˆın acest set de opt ori prin urmare frecvent ¸a pentru 2 este opt.
Valoarea 3 apare ˆın acest set cinci ori prin urmare frecvent ¸a pentru 3 este cinci.
Valoarea 4 apare ˆın acest set de douˇa ori prin urmare frecvent ¸a pentru 4 este doi.
Frecvent ¸a datelor 0,1,2,3,4 care apar ˆın setul de date este redatˇa ˆın tabelul urmˇator:
x f
0 1
1 3
2 8
3 5
4 3
Definit ¸ia 4.1. Frecvent ¸a f (din coloana a doua) aratˇa de cˆate ori apare valoarea variabilei
x ˆın setul de date.
Atunci cˆandˆıntr-un set de date multe sunt distincte (ˆın loc de cˆateva caˆın cazul precedent)
se grupeazˇa datele ˆın clase ¸si apoi se construiesc frecvent ¸e pentru clase.
Pentru a ilustra acest procedeu considerˇam urmˇatorul set de date:
82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78
Vom pune ˆın aceea¸si clasˇa toate datele la care prima cifrˇa este aceea¸si ¸si obt ¸inem
urmˇatoarele cinci clase:
50 −59; 60 −69; 70 −79; 80 −89; 90 −99
(50 −59 este clasa formatˇa cu toate datele la care prima cifrˇa este 5, ¸s.a.m.d.).
Aceste clase nu se intersecteazˇ a (nu existˇa date care sˇa apart ¸inˇ a la douˇa clase) ¸si oricare
din date apart ¸ine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care apart ¸in unei clase sunt mai mari decˆat limita inferioarˇa a clasei ¸si mai mici
decˆat limita superioarˇa a clasei.
11
Definit ¸ia 4.2. Lˇat ¸imea unei clase definitˇa ca diferent ¸a dintre limita inferioarˇa a clasei
urmˇatoare ¸si limita inferioarˇa a clasei (este egalˇa cu 10 ¸si este aceea¸si pentru toate clasele
ˆın exemplul de mai sus) lˇat ¸imea clasei nu este egalˇa cu diferent ¸a dintre limita superioarˇa
¸si limita inferioarˇa a clasei.
Definit ¸ia 4.3. Frontierele unei clase definite ca media aritmeticˇa dintre limita superioarˇa
a clasei ¸si limita inferioarˇa a clasei urmˇatoare sunt:
49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.
Definit ¸ia 4.4. Marca unei clase definitˇa ca media aritmeticˇa dintre limita superioarˇa ¸si
limita inferioarˇa a clasei, ˆın acest caz este:
54.5 =
50 + 59
2
ˆın cazul clasei 50 −59
64.5 =
60 + 69
2
ˆın cazul clasei 60 −69
74.5 =
70 + 79
2
ˆın cazul clasei 70 −79
84.5 =
80 + 89
2
ˆın cazul clasei 80 −89
94.5 =
90 + 99
2
ˆın cazul clasei 90 −99
Frecvent ¸a ˆın acest caz este numˇarul de date dintr-o clasˇa. Frecvent ¸a datelor pe clase este:
ˆın cazul clasei 50 −59 2 date
ˆın cazul clasei 60 −69 3 date
ˆın cazul clasei 70 −79 8 date
ˆın cazul clasei 80 −89 5 date
ˆın cazul clasei 90 −99 2 date
ˆ
In general, ˆın cazul grupˇarii datelor pe clase ¸si a determinˇarii frecvent ¸ei trebuiesc
respectate urmˇatoarele reguli:
1) Clasele nu trebuie sˇa se intersecteze ¸si fiecare datˇa din setul de date trebuie sˇa
apart ¸inˇa la o clasˇa;
2) Fiecare clasˇa trebuie sˇa aibe aceea¸si lˇat ¸ime.
Procedeul concret de grupare este urmˇatorul:
12
i) Se identificˇ a cea mai mare datˇa H ¸si cea mai micˇa datˇa L ¸si se determinˇa plaja:
R = H −L.
ii) Se alege numˇ arul de clase m ¸si lˇat ¸imea clasei c (dacˇa se poate numˇar impar) astfel
ca produsul m c sˇa fie put ¸in mai mare ca plaja R.
iii) Se alege un punct de plecare I care este put ¸in mai mic decˆat cea mai micˇa datˇa L.
Adˇaugˇ am la I multiplii lui c (c este lˇat ¸imea clasei) ¸si obt ¸inem numerele:
I, I + c, I + 2c, I + 3c, ..., I + (m−1)c
Aceste numere sunt limitele inferioare ale claselor.
iv) Limitele superioare se stabilesc astfel ˆıncˆat sˇa fie respectate condit ¸iile 1) ¸si 2).
v) Se determinˇa frecvent ¸a fiecˇarei clase numˇ arˆand elementele din fiecare clasˇa.
13
5 Prezentarea datelor
Prezentarea unui set de date poate fi fˇacutˇa sub diferite forme ¸si face parte din prelucrarea
primarˇa a datelor.
Prezentarea datelor sub formˇa de serii
Definit ¸ia 5.1. Seria de distribut ¸ie este un ansamblu de douˇa ¸siruri finite dintre care
primul este ¸sirul elementelor distincte din setul de date statistice sau ¸sirul claselor obt ¸inute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este ¸sirul de
frecvent ¸e corespunzˇatoare.
Exemplul 5.1.
ˆ
In cazul setului de date statistice:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
seria de distribut ¸ie este:
X
_
0 1 2 3 4
1 3 8 5 3
_
Exemplul 5.2.
ˆ
In cazul claselor 50 −59; 60 −69; 70 −79; 80 −89; 90 −99 obt ¸inute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
seria de distribut ¸ie este:
X
_
50 −59 60 −69 70 −79 80 −89 90 −99
2 3 8 5 2
_
ˆ
In general, o serie de distribut ¸ie aratˇa ˆın felul urmˇator:
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
¸si oricare ar fi nivelul de grupare al datelor, x
i
avˆ and frecvent ¸a f
i
, se nume¸ste termenul
seriei de distribut ¸ie.
Remarca 5.1. Adesea ˆın prezentarea seriilor de distribut ¸ie ˆın locul frecvent ¸ei f
i
se
folose¸ste frecvent ¸a relativˇa:
f

i
=
f
i
n

j=1
f
j
sau sub formˇa procentualˇa:
f

i
= f

i
100
14
Definit ¸ia 5.2. Valoarea datei care apare cu cea mai mare frecvent ¸ˇa ˆıntr-o serie de
distribut ¸ie de date statistice se nume¸ste mod.
Definit ¸ia 5.3. Clasa cu cea mai mare frecvent ¸ˇa ˆıntr-o serie de distribut ¸ie de date grupate
se nume¸ste clasˇa modalˇa.
Definit ¸ia 5.4. Serie bimodalˇa este o serie de distribut ¸ie de date grupate ˆın care apar
douˇa clase modale, separate de clase cu frecvent ¸ˇ a mai joasˇa.
Definit ¸ia 5.5. Frecvent ¸a cumulatˇa a unei clase este suma frecvent ¸elor tutror claselor
cu valori mai mici (marca mai micˇa).
Definit ¸ia 5.6. Seria dinamicˇa (temporalˇa, cronologicˇa) este un ¸sir dublu dintre
care primul este ¸sirul de valori ale variabilei de rˇaspuns, iar cel de-al doilea ¸sir este ¸sirul
de momente de timp la care variabila are aceste valori.
ˆ
In general, o serie dinamicˇa
(temporalˇa) se noteazˇa astfel:
X
_
x
1
x
2
x
3
x
n
t
1
t
2
t
3
t
n
_
Prezentarea datelor sub formˇa de tabele statistice
Tabelele statistice sunt foarte variate ¸si se folosesc pentru ordonarea datelor statistice
dintr-un set de date ˆın vederea aplicˇarii metodelor de calcul ¸si de interpretare statisticˇa.
ˆ
In funct ¸ie de numˇ arul de caracteristici prezentate ˆın tabel existˇa tabele simple, tabele cu
dublˇa intrare, tabele pe grupe, etc.
Prezentarea datelor sub formˇa graficˇa
Existˇa mai multe metode de prezentare graficˇa a unui set de date statistice. Metoda
de prezentare graficˇa este determinatˇa de tipul de date ¸si de ideea de prezentare. De
la ˆınceput trebuie sˇa fie clar cˇa existˇa mai multe cˇai de a dispune grafic anumite date
statistice. Judecata analistului ¸si circumstant ¸ele din jurul problemei joacˇa un rol major
ˆın alegerea modului de dispunere graficˇa a datelor statistice.
Definit ¸ia 5.7. Graficele de reprezentare a seriilor statistice fˇarˇa grupare se numesc
diagrame.
Definit ¸ia 5.8. Diagrama cerc a seriei de distribut ¸ie (fˇarˇ a grupare)
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un cerc ˆımpˇart ¸it ˆın n sectoare de cerc S
1
, S
2
, ..., S
n
astfel ˆıncˆat aria sectorului S
i
este
egalˇa cu
f

i
=
f
i
n

j=1
f
j
100
procente din aria cercului.
15
Exemplul 5.3.
ˆ
In cazul seriei de distribut ¸ie din exemplul 5.1
X
_
0 1 2 3 4
1 3 8 5 3
_
cercul se ˆımparte ˆın cinci sectoare avˆ and ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
Definit ¸ia 5.9. Diagrama coloanˇa a seriei de distribut ¸ie (fˇarˇa grupare):
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe
axa Ox, iar ˆınˇalt ¸imile lor sunt f
1
, f
2
, ..., f
n
Exemplul 5.4.
ˆ
In cazul seriei de distribut ¸ie din exemplul 5.1:
X
_
0 1 2 3 4
1 3 8 5 3
_
diagrama coloanˇa este:
16
Definit ¸ia 5.10. Diagrama linie (ramurˇa-frunzˇa) a seriei de distribut ¸ie (fˇarˇ a grupare)
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe
axa Oy, iar lungimile lor sunt f
1
, f
2
, ..., f
n
.
Exemplul 5.5.
ˆ
In cazul seriei de distribut ¸ie din exemplul 5.1:
X
_
0 1 2 3 4
1 3 8 5 3
_
diagrama linie este:
Definit ¸ia 5.11. Histograma seriei de distribut ¸ie cu grupare
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un set de n dreptunghiuri care reprezintˇ a clasele. Bazele acestor dreptunghiuri
sunt egale (clasele au aceea¸si lˇat ¸ime) ¸si sunt a¸sezate pe axa Ox, iar ˆınˇ alt ¸imile lor sunt
f
1
, f
2
, ..., f
n
.
Exemplul 5.6.
ˆ
In cazul seriei de distribut ¸ie din exemplul 5.2:
X
_
50 −59 60 −69 70 −79 80 −89 90 −99
2 3 8 5 2
_
histograma este:
17
Remarca 5.2.
ˆ
In cazul histogramei o coloanˇa reprezintˇa un numˇ ar de date diferite spre
deosebire de diagrama coloanˇa.
Remarca 5.3. O histogramˇa are urmˇatoarele componente:
i) Un titlu care identificˇ a populat ¸ia la care se referˇa;
ii) O scarˇa orizontalˇ a pe care se identificˇ a variabila X, valorile limitelor claselor,
frontierele claselor, mˇarcile claselor.
iii) O scarˇa verticalˇ a pe care se identificˇ a frecvent ¸ele pentru fiecare clasˇa.
Definit ¸ia 5.12. O histogramˇa de frecvent ¸e relative este o histogramˇa obt ¸inutˇ a dintr-
o histogramˇa ˆınlocuind frecvent ¸ele cu frecvent ¸e relative.
Frecvent ¸a relativˇa (este o mˇasurˇa proport ¸ionalˇ a cu frecvent ¸a ˆın cauzˇa) se obt ¸ine prin
ˆımpˇart ¸irea frecvent ¸ei clasei la numˇarul total de elemente din setul de date.
Definit ¸ia 5.13. Ogiva unei serii de distribut ¸ie de clase cu frecvent ¸e relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale ¸si a¸sezate pe axa Ox, iar
ˆınˇ at ¸imile lor sunt frecvent ¸ele relative cumulate.
Ogiva are urmˇatoarele componente:
1. Un titlu care identificˇ a populat ¸ia.
2. O scarˇa orizontalˇ a pe care sunt marcate frontierele superioare ale claselor.
3. O scarˇa verticalˇa pe care sunt marcate frecvent ¸ele relative cumulate pentru fiecare
clasˇa.
18
6 Parametrii ¸si statistici ai tendint ¸ei centrale
O categorie de caracteristici numerici asociat ¸i unui set de date statistice sunt: parametrii
tendint ¸ei centrale ˆın cazul populat ¸iilor ¸si statistici ale tendint ¸ei centrale ˆın cazul
e¸santioanelor.
ˆ
Intrucˆ at ace¸stia au definit ¸ii analoage vom prezenta doar statistici ale
tendint ¸ei centrale.
Definit ¸ia 6.1. Statistici ale tendint ¸ei centrale sunt valori numerice asociate unui set
de date statistice care localizeazˇa ˆıntr-un anumit sens mijlocul mult ¸imii de date statistice.
Definit ¸ia 6.2. Media aritmeticˇa a setului de date statistice ¦x
1
, x
2
, ..., x
n
¦ este prin
definit ¸ie suma acestor date ˆımpˇ art ¸itˇ a la numˇ arul datelor
x =
n

i=1
x
i
n
Remarca 6.1. Atunci cˆand datele sunt prezentate sub forma unei serii de distribut ¸ie
(fˇarˇa grupare ˆın clase), media aritmeticˇa se gˇase¸ste cu formula:
x =
m

j=1
x
j
f
j
m

j=1
f
j
Remarca 6.2.
ˆ
In cazul unei serii de distribut ¸ie (cu grupare ˆın clase) formula de calcul a
mediei este:
x =

x f
x

f
x
ˆın care x reprezintˇ a marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma se extinde pe
ansamblul claselor.
Definit ¸ia 6.3. Media pˇatraticˇa a setului de date statistice ¦x
1
, x
2
, ..., x
n
¦ este prin
definit ¸ie numˇ arul:
x
p
=
¸
¸
¸
¸
_
n

i=1
x
2
i
n
Remarca 6.3. Dacˇa datele sunt prezentate sub forma unei serii de distribut ¸ie (fˇarˇa
grupare ˆın clase), media pˇatraticˇa se gˇase¸ste cu formula:
x
p
=
¸
¸
¸
¸
¸
¸
¸
¸
_
m

j=1
x
2
j
f
j
m

j=1
f
j
19
Remarca 6.4.
ˆ
In cazul unei serii de distribut ¸ie cu grupare ˆın clase media pˇatraticˇ a este
prin definit ¸ie:
x
p
=
¸
¸
¸
¸
_

x
2
f
x

f
x
ˆın care x reprezintˇ a marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma se extinde pe
ansamblul claselor.
Definit ¸ia 6.4. Media armonicˇa a setului de date statistice ¦x
1
, x
2
, ..., x
n
¦ este prin
definit ¸ie numˇ arul:
x
h
=
n
n

i=1
1
x
i
Remarca 6.5. Dacˇa datele sunt prezentate sub forma unei serii de distribut ¸ie (fˇarˇa
grupare ˆın clase), media armonicˇa se gˇase¸ste cu formula:
x
h
=
m

j=1
f
j
m

j=1
1
x
j
f
j
Remarca 6.6.
ˆ
In cazul unei serii de distribut ¸ie cu grupare ˆın clase media armonicˇa este
prin definit ¸ie:
x
h
=
n

i=1
f
x
n

i=1
1
x
f
x
ˆın care x reprezintˇ a marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma se extinde pe
ansamblul claselor.
Definit ¸ia 6.5. Media geometicˇa a setului de date statistice ¦x
1
, x
2
, ..., x
n
¦ este prin
definit ¸ie numˇ arul:
x
p
=
n
¸
¸
¸
_
n

i=1
x
i
Remarca 6.7. Dacˇa datele sunt prezentate sub forma unei serii de distribut ¸ie (fˇarˇa
grupare ˆın clase), media geometricˇa se gˇase¸ste cu formula:
Remarca 6.8.
ˆ
In cazul unei serii de distribut ¸ie cu grupare ˆın clase media geometricˇa este
prin definit ¸ie: ˆın care x reprezintˇa marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma
se extinde pe ansamblul claselor.
20
Definit ¸ia 6.6. Mediana m
e
a unui set de date statistice distincte ordonate dupˇa mˇarime
x
1
< x
2
< ... < x
n
este numˇarul care ˆımparte setul de date ˆın douˇa grupe egale ca numˇar:
- dacˇa n = 2 k + 1, atunci m
e
este valoarea de rangul k + 1: m
e
= x
k+1
;
- dacˇa n = 2 k, atunci orice numˇar ˆıntre valorile x
k
¸si x
k+1
satisface condit ¸ia din
definit ¸ia lui m
e
.
ˆ
In acest caz se convine ca m
e
sˇa fie media aritmeticˇa a valorilor
x
k
¸si x
k+1
: m
e
=
x
k
+ x
k+1
2
.
Exemplul 6.1.
ˆ
In cazul setului de date statistice:
4 7 12 26 32 38 59
mediana este m
e
= 26.
ˆ
In cazul setului de date statistice:
4 7 12 26 32 38
mediana este m
e
=
12 + 26
2
= 19.
Remarca 6.9. Mediana m
e
ˆın acest caz are proprietatea cˇa suma frecvent ¸elor valorilor
mai mari decˆat m
e
este egalˇa cu suma frecvent ¸elor valorilor mai mici decˆat m
e
.
Remarca 6.10. Dacˇa datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sˇa nu fie adevˇaratˇa.
ˆ
In cazul setului de date statistice:
1 1 1 2 3 3 4
Seria de distribut ¸ie corespunzˇatoare este:
1 2 3 4
3 1 2 1
Conform definit ¸iei lui m
e
ˆın acest caz m
e
= 2, 5. Aceastˇa valoare a lui m
e
nu rˇaspunde
cerint ¸ei cˇa m
e
este o valoare cu proprietatea cˇa valorile mai mari sau mai mici decˆat ea
apar cu frecvent ¸e cumulate egale; frecvent ¸a celor mai mici este 4, iar frecvenˇ a celor mai
mari este 3.
Remarca 6.11. Cˆand datele sunt prezentate sub forma unei serii de distribut ¸ie cu sau fˇarˇa
grupare m
e
se calculeazˇa prin procedeul interpolˇarii liniare, bazate pe ipoteza repartit ¸iei
uniforme a frecvent ¸elor ˆın intervalul median.
Definit ¸ia 6.7. Mijlocul plajei este prin definit ¸ie numˇarul:
M
r
=
L + H
2
unde L este cea mai micˇa valoare, iar H este cea mai mare valoare a variabilei X
21
7 Parametrii ¸si statistici ai dispersiei
Dupˇa ce ”mijlocul” unui set de date a fost stabilit urmˇatoarea ˆıntrebare naturalˇa este:
care sunt parametrii ¸si statisticile care caracterizeazˇa dispersia (ˆımprˇ a¸stierea) datelor.
Parametrii ¸si statisticile dispersiei sunt: plaja, deviat ¸ia medie absolutˇa, variant ¸a, deviat ¸ia
standard ¸si coeficientul de variat ¸ie. Aceste valori numerice descriu mˇarimea ˆımprˇa¸stierii
ori a variabilitˇ at ¸ilor datelor. Datele strˆans grupate vor avea ˆımprˇ a¸stiere micˇa, iar cele
care nu sunt grupate (sunt ˆımprˇ a¸stiate) vor avea o dispersie mai mare.
Definit ¸ia 7.1. Plaja P este diferent ¸a dintre cea mai mare (H) ¸si cea mai micˇa (L) valoare
a valorilor x
i
dintr-un set de date:
P = H −L
Deviat ¸ia medie absolutˇa, variant ¸a ¸si deviat ¸ia standard mˇasoarˇa dispersia fat ¸ˇ a de media
aritmeticˇa.
Definit ¸ia 7.2. Deviat ¸ia fat ¸ˇa de media aritmeticˇa x a valorii x
i
a variabilei X este
d
i
= x
i
−x.
Deviat ¸ia este zero dacˇa ¸si numai dacˇa x
i
= x.
Deviat ¸ia este pozitivˇa dacˇa ¸si numai dacˇa x
i
> x.
Deviat ¸ia este negativˇa dacˇa ¸si numai dacˇa x
i
< x.
S-ar putea crede cˇa suma deviat ¸ilor
n

i=1
(x
i
−x) poate servi ca mˇasurˇ a a dispersiei fat ¸ˇ a de
media aritmeticˇa. Dar aceastˇa sumˇa este zero ˆıntotdeauna:
n

i=1
(x
i
−x) =
n

i=1
x
i
−n x = n x −n x = 0
Reducerea deviat ¸iilor poate fi eliminatˇa prin folosirea valorii absolute a deviat ¸iilor: x
i
−x.
Definit ¸ia 7.3. Deviat ¸ia medie absolutˇa a setului de date statistice distincte ¦x
1
, x
2
, ..., x
n
¦
este prin definit ¸ie:
d =
n

i=1
[x
i
−x[
n
Remarca 7.1. Deviat ¸ia medie absolutˇa, ˆın cazul ˆın care datele sunt prezentate sub forma
unei serii de distribut ¸ie fˇarˇ a grupare de date se calculeazˇa cu formula:
d =
m

j=1
[x
j
−x[ f
j
m

j=1
f
j
22
Remarca 7.2. Deviat ¸ia medie absolutˇa, ˆın cazul ˆın care datele sunt prezentate sub forma
unei serii de distribut ¸ie cu grupare de date se calculeazˇa cu formula:
d =

[x −x[ f
x

f
x
ˆın care x reprezintˇ a marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma se extinde pe
ansamblul claselor.
Cu toate cˇa acest parametru al ˆımprˇa¸stierii nu se folose¸ste frecvent, el este o mˇasurˇ a a
ˆımprˇ a¸stierii ¸si aratˇa distant ¸a medie la care se aflˇa o valoare a variabilei X fat ¸ˇa de media
aritmeticˇa.
Mai existˇa o cale de eliminare a reducerii deviat ¸iilor. Ridicˆand la pˇatrat deviat ¸iile
individuale acestea devin pozitive (sau zero). Cˆand aceste pˇatrate sunt adunate rezultatul
este pozitiv. Suma pˇatratelor deviat ¸iilor fat ¸ˇa de media aritmeticˇa
n

i=1
(x
i
−x)
2
este folositˇa
ˆın definirea variant ¸ei.
Definit ¸ia 7.4. Variant ¸a s
2
a setului de date statistice distincte ¦x
1
, x
2
, ..., x
n
¦ este prin
definit ¸ie:
s
2
=
n

i=1
(x
i
−x)
2
n
Remarca 7.3. Dacˇa setul de date este prezentat sub forma unei serii de distribut ¸ie fˇarˇ a
grupare de date variant ¸a s
2
se calculeazˇa cu formula:
s
2
=
m

j=1
(x
j
−x)
2
f
j
m

j=1
f
j
Remarca 7.4. Dacˇa setul de date este prezentat sub forma unei serii de distribut ¸ie cu
grupare de date variant ¸a s
2
se calculeazˇa cu formula:
s
2
=

(x −x)
2
f
x

f
x
ˆın care x reprezintˇ a marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma se extinde pe
ansamblul claselor.
Definit ¸ia 7.5. Deviat ¸ia standard (abaterea standard) s a setului de date statistice
distincte ¦x
1
, x
2
, ..., x
n
¦ este prin definit ¸ie:
s =
_
¸
¸
¸
¸
_
n

i=1
(x
i
−x)
2
n
_
¸
¸
¸
¸
_
1
2
23
Remarca 7.5. Dacˇa setul de date este prezentat sub forma unei serii de distribut ¸ie fˇarˇ a
grupare de date deviat ¸ia standard s se calculeazˇa cu formula:
s =
_
¸
¸
¸
¸
_
m

j=1
(x
j
−x)
2
f
j
m

j=1
f
j
_
¸
¸
¸
¸
_
1
2
Remarca 7.6. Dacˇa setul de date este prezentat sub forma unei serii de distribut ¸ie cu
grupare de date deviat ¸ia standard s se calculeazˇa cu formula:
s =
_
_

(x −x)
2
f
x

f
x
_
_
1
2
ˆın care x reprezintˇ a marca clasei ¸si f
x
frecvent ¸a corespunzˇatoare, iar suma se extinde pe
ansamblul claselor.
Remarca 7.7. Deviat ¸ia standard a fost definitˇa cu o formulˇa. Se poate pune ˆıntrebarea
ce reprezintˇa ea ˆın realitate? Un rˇaspuns la aceastˇa ˆıntrebare poate fi dat cu inegalitatea
lui Cebˆı¸sev din care rezultˇa cˇa pentru orice serie de distribut ¸ie fract ¸iunea de date situatˇa
la cel mult k unitˇat ¸i de deviat ¸ie standard fat ¸ˇa de medie este cel put ¸in 1 −
1
k
2
, unde k este
un numˇar pozitiv oarecare mai mare ca 1. Rezultˇa ˆın particular cˇa pentru orice serie de
distribut ¸ie fract ¸iunea de date situatˇa la cel mult k = 2 unitˇat ¸i de deviat ¸ie standard fat ¸ˇa de
medie este de cel put ¸in 75% din totalul de date. Dacˇa k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice dacˇa o serie de repartit ¸ie este normalˇa atunci fract ¸iunea de date
situate la cel mult o unitate de deviat ¸ie standard σ fat ¸a de medie este aproximativ 68%,
iar fract ¸iunea de date situate la cel mult douˇa unitˇat ¸i de deviat ¸ie standard σ fat ¸ˇa de medie
este aproximativ 95%.
Definit ¸ia 7.6. Coeficientul de variat ¸ie V este prin definit ¸ie:
V =
s
x
100
Remarca 7.8. Coeficientul de variat ¸ie este o statisticˇa relativˇa a dispersiei ¸si se folose¸ste
la compararea dispersiei diferitelor variabile (caracteristici).
Remarca 7.9. V poate lua valori ˆıntre 0 ¸si 100%. Dacˇa V este aproape de zero
(V < 35%), atunci populat ¸ia studiatˇa statistic este omogenˇa ¸si media x este reprezentativˇa
pentru aceastˇa populat ¸ie. Dacˇa V este aproape de 100% (V > 75%), atunci populat ¸ia
studiatˇa statistic este eterogenˇa ¸si media x nu este reprezentativˇ a. De cele mai multe
ori ˆın asemenea cazuri este necesarˇa separarea populat ¸iei statistice ˆın mai multe grupe
omogene, care se studiazˇa separat.
24
8 Parametrii ¸si statistici factoriali ai variant ¸ei
ˆ
In analiza variant ¸ei unui set de date statistice se folosesc urmˇatorii parametrii factoriali
ai variant ¸ei:
- variant ¸a de grupˇa (part ¸ialˇa) s
2
j
- media variant ¸elor de grupˇa s
2
- variant ¸a mediilor de grupˇa fat ¸ˇ a de media generalˇa δ
2
- variant ¸a totalˇa (generalˇa) s
2
.
Definit ¸ia 8.1. Pentru o grupˇa de m date x
1
, x
2
, ..., x
m
, variant ¸a de grupˇa este definitˇa
cu formula:
s
2
j
=
m

i=1
(x
i
−x
j
)
2
n
ij
m

i=1
n
ij
ˆın care j este indicele grupei, x
j
este media grupei, x
i
sunt datele din grupa j avˆ and
frecvent ¸ele n
ij
Remarca 8.1. Variant ¸ele de grupˇa sunt mai mici decˆat variant ¸a ¸si au valori mai mari
sau mai mici ˆın funct ¸ie de eterogenitatea grupei.
Definit ¸ia 8.2. Prin definit ¸ie media variant ¸elor de grupˇa este:
s
2
=
k

j=1
s
2
j
n
j
k

j=1
n
j
ˆın care k este numˇ arul de grupe, n
j
=
m

i=1
n
ij
este numˇ arul de date din grupˇa.
Definit ¸ia 8.3. Variant ¸a mediilor de grupˇa fat ¸ˇa de media generalˇa este prin
definit ¸ie:
δ
2
=
k

j=1
(x
j
−x)
2
n
j
k

j=1
n
j
25
9 Parametrii ¸si statistici ale pozit ¸iei
Parametrii ¸si statistici ai pozit ¸iei se folosesc pentru a descrie locat ¸ia unei date ˆın raport
cu celelalte date.
Definit ¸ia 9.1. Quantilele sunt valori numerice care ˆımpart setul de date ˆın q grupe
egale. Constanta q se nume¸ste ordinul quantilei.
Mediana este quantila de ordinul doi.
Quantilele de ordinul patru ˆımpart setul de date ˆın patru grupe egale ¸si se numesc
quartile. Quartilele sunt ˆın numˇ ar de trei, notate de obicei cu Q
1
, Q
2
, Q
3
.
Quartila Q
1
este un numˇar cu proprietatea cˇa o pˇatrime din date au valori mai mici decˆat
Q
1
¸si trei pˇatrimi din date au valori mai mari decˆat Q
1
.
Quartila Q
2
este un numˇ ar cu proprietatea cˇa jumˇatate din date au valori mai mici decˆat
Q
2
¸si jumˇatate din date au valori mai mari decˆat Q
2
. Quartila Q
2
este chiar mediana.
Quartila Q
3
este un numˇar cu proprietatea cˇa trei pˇatrimi din date au valori mai mici
decˆat Q
3
¸si o pˇatrime din date au valori mai mari decˆat Q
3
.
Alte categorii de quantile folosite sunt:
- decilele care ˆımpart setul de date ˆın 10 grupe egale.
- centilele care ˆımpart setul de date ˆın 100 grupe egale.
- promilele care ˆımpart setul de date ˆın 1000 grupe egale.
Orice set de date are 99 de centile P
k
, k = 1..99. Centila P
k
este o valoare numericˇa cu
proprietatea cˇa k% din date are valori mai mici decˆat P
k
, iar (100 − k)% din date au
valori mai mari decˆat P
k
.
Remarca 9.1. Q
1
= P
25
; Q
3
= P
75
; m
e
= Q
2
= P
50
Remarca 9.2. Procedeul de determinare a centilei P
k
este urmˇatorul:
1) datele se ordoneazˇa crescˇator;
2) trebuie gˇasitˇa pozit ¸ia i a centilei k. Prima oarˇa se determinˇa numˇ arul
n k
100
, unde
n este numˇ arul de date. Dacˇa
n k
100
nu este un numˇar ˆıntreg, atunci i este numˇ arul
ˆıntreg urmˇator (
n k
100
= 17.2 → i = 18). Dacˇa
n k
100
este un numˇar ˆıntreg, atunci i
este
n k
100
+ 0.5 (
n k
100
= 23 →
i = 23.5).
3) localizarea valorii P
k
: se numˇ arˇa de la valoarea L (cea mai micˇa valoare a datelor) i
valori dacˇa i este ˆıntreg. Dacˇa i nu este ˆıntreg atunci este un ˆıntreg plus o jumˇatate.
ˆ
In acest caz valoarea P
k
este semisuma datelor de pe locurile
n k
100
¸si
n k
100
+ 1
O statisticˇa adit ¸ionalˇ a a pozit ¸iei este scorul standard sau z-scor.
26
Definit ¸ia 9.2. Scorul standard sau z-scorul este pozit ¸ia valorii x fat ¸ˇa de mediana x
ˆın unitˇat ¸i de deviat ¸ie standard:
z =
x −x
s
27
10 Seria de distribut ¸ie a statisticilor
de e¸santioane
Pentru a face inferent ¸ˇ a (predict ¸ie) asupra parametrilor populat ¸iei, este necesar sˇa analizˇam
statisticile de e¸santioane. Media xˆın cazul unui e¸santion nu este neaparat egalˇa cu media µ
a populat ¸iei. Suntemˆınsˇ a mult ¸umit ¸i dacˇa media x este apropiatˇa de µ. Dacˇa se considerˇa
media x/ ˆın cazul unui al doilea e¸santion aceasta poate sˇa fie diferitˇa de x ¸si de µ. Ceea ce
putem spera este ca aceasta sˇa fie apropiatˇa de valoarea µ ¸si de x. Valabilitatea acestui
tip de comportament intereseazˇ a pentru orice populat ¸ie ¸si orice statisticˇa.
ˆ
Intrebarea care se na¸ste ˆın mod natural este ce ˆınseamnˇ a aproape? Cum se mˇasoarˇ a ¸si se
determinˇa aceastˇa apropiere? Care este seria de distribut ¸ie a statisticilor de e¸santioane?
Definit ¸ia 10.1. Seria de distribut ¸ie a statisticilor de e¸santioane este seria de
distribut ¸ie a statisticilor de un anumit tip obt ¸inute pentru e¸santioane de aceea¸si mˇarime.
Tipul de statisticˇa poate fi oricare din statisticile prezentate ˆın sect ¸iunile 6 ¸si 7.
Exemplul 10.1. Se considerˇa o populat ¸ie de N elemente de la care se pot obt ¸ine
urmˇatoarele date statistice distincte: ¦0, 2, 4, 6, 8¦.
ˆ
In cazul acestei populat ¸ii formˇam
e¸santioane de mˇarime 2 de la care putem avea urmˇatoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste e¸santioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
E¸santioanele fiind aleatoare fiecare e¸santion, are probabilitatea 1/25 sˇa fie ales ¸si seria de
distribut ¸ie a mediilor acestor e¸santioane este:
x f

(x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04
unde f

(x) este frecvent ¸a relativˇa a mediei x. Diagrama coloanˇa a mediilor e¸santioanelor
este:
28
Pentru acela¸si set de 25 de e¸santioane putem determina seria de distribut ¸ie a plajelor R
a acestor e¸santioane.
Plajele R ale e¸santioanelor sunt date ˆın tabelul urmˇator:
0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0
Seria de distribut ¸ie a plajelor acestor e¸santioane este:
R f

(R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08
iar diagrama coloanˇa a plajei e¸santioanelor este:
29
Exemplul 10.2.
ˆ
In cazul aruncˇarii zarului de un numˇ ar de N ori, setul de date statistice
care se referˇa la numˇ arul de pe fat ¸ˇa care apare este 1, 2, 3, 4, 5, 6.
Formˇam e¸santioane care constau din 5 aruncˇari. Fiecare din aceste e¸santioane are media
x. Considerˇam 30 de e¸santioane de acest fel (ˆınseamnˇa 30 5 = 150 aruncˇari) ¸si ˆıntr-un
tabel reprezentˇam rezultatele precum ¸si mediile corespunzˇatoare:
ˆ
Incercare E¸santion x
ˆ
Incercare E¸santion x
1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2
2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6
3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8
4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0
5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6
6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8
7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2
8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6
9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8
10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4
11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4
12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0
13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0
14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8
15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2
Histograma seriei de distribut ¸ie a mediilor celor 30 de e¸santioane este reprezentatˇa ˆın
figura urmˇatoare:
30
Aceastˇa lege de repartit ¸ie pare sˇa aibe caracteristicile unei legi de repartit ¸ie normalˇa; este
maxim ¸si este simetric fat ¸ˇ a de media proprie 3.5.
31
11 Teorema limitˇa centralˇa
ˆ
In sect ¸iunea precedentˇ a am prezentat seria de distribut ¸ie a mediei ¸si plajei unui set de
e¸santioane. Media este statistica folositˇa cel mai frecvent ˆın cazul e¸santioanelor ¸si de aceea
este foarte importantˇ a. Teorema limitˇa centralˇa se referˇa la seria de distribut ¸ie a mediei
tuturor e¸santioanelor aleatoare de aceea¸si mˇarime n.
Sˇa formulˇam ce anume intereseazˇ a ˆın cazul acestei serii de distribut ¸ie:
1) Unde este centrul datelor?
2) Cˆat de mare este dispersia datelor?
3) Care este caracterul seriei de distribut ¸ie?
Teorema limitˇa centralˇa oferˇa rˇaspuns la aceste trei ˆıntrebˇ ari.
Teorema 11.1. Teorema limitˇa centralˇa
Fie µ media ¸si σ deviat ¸ia standard a unei variabile ˆın cazul unei populat ¸ii. Dacˇa se
considerˇa toate e¸santioanele aleatoare de mˇarime n din aceastˇa populat ¸ie, atunci seria de
distribut ¸ie a mediilor acestor e¸santioane are urmˇatoarele proprietˇat ¸i:
a) media µ
x
a acestei serii de distribut ¸ie este egalˇa cu µ;
b) deviat ¸ia standard σ
x
a acestei serii de distribut ¸ie este
σ

n
.
c) dacˇa seria de distribut ¸ie a variabilei ˆın cazul populat ¸iei este normalˇa, atunci seria
de distribut ¸ie a mediilor e¸santioanelor este normalˇa; dacˇa seria de distribut ¸iei a
variabilei ˆın cazul populat ¸iei nu este normalˇa, atunci seria de distribut ¸ie a mediilor
e¸santioanelor este aproximativ normalˇa pentru e¸santioane de mˇarime mai mare ca
30. Tendint ¸a cˇatre o serie de distribut ¸ie normalˇa cre¸ste dacˇa mˇarimea e¸santionului
cre¸ste.
Pe scurt, teorema limitˇa centralˇa stabile¸ste urmˇatoarele:
1) µ
x
= µ, unde x este media e¸santionului x;
2) σ
x
= σ/

n, deviat ¸ia standard a mediei este egalˇa cu deviat ¸ia standard a populat ¸iei
ˆımpˇ at ¸itˇ a cu rˇadˇ acina pˇatratˇ a a mˇarimii e¸santionului.
3) seria de distribut ¸iei a mediei e¸santioanelor este aproximativ normalˇa indiferent de
seria de distribut ¸iei a variabilei ˆın cazul populat ¸iei.
Remarca 11.1. Deviat ¸ia standard σ
x
a seriei de distribut ¸ie a mediilor e¸santioanelor
este deviat ¸ia standard a mediilor e¸santioanelor fat ¸ˇa de media seriei de distribut ¸ie a
e¸santioanelor.
Nu vom face demonstrat ¸ie teoremei limitˇa centralˇ a. Vom ilustra ˆınsˇ a validitatea ei
examinˆand un caz ilustrativ.
32
Considerˇam o populat ¸ie pentru care seria de distribut ¸ie de date statistice cu frecvent ¸e
relative ˆın cazul variabilei X este:
X :
_
2 4 6
1/3 1/3 1/3
_
Media µ ¸si deviat ¸ia standard σ pentru aceastˇa variabilˇ a sunt:
µ =
3

j=1
x
j
f

x
j
σ =
¸
¸
¸
_
3

j=1
x
2
j
f

x
j

_
3

j=1
x
j
f

x
j
_
2
µ =
12
3
= 4 σ = 1, 63
ˆ
In cazul acestei populat ¸ii oricare e¸santion de mˇarime doi are urmˇatoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
E¸santioanele au urmˇatoarele medii:
2 3 4
3 4 5
4 5 6
E¸santion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6
E¸santioanele fiind aleatoare fiecare e¸santion are probabilitatea
1
9
sˇa fie ales ¸si seria de
distribut ¸ie a mediilor e¸santioanelor este:
X
_
2 3 4 5 6
1/9 2/9 3/9 2/9 1/9
_
Media seriei de distribut ¸ie a mediilor e¸santioanelor µ
x
este µ
x
= 36/9 = 4, 0. Prin urmare
µ = µ
x
, iar deviat ¸ia standard a repartit ¸iilor mediilor e¸santioanelor este:
σ
x
=
¸
¸
¸
_
5

j=1
x
2
j
f

x
j

_
5

j=1
x
j
f

x
j
_
2
=
¸
156
9

_
36
9
_
2
= 1, 15
σ

n
=
1, 63

2
=
1, 63
1, 44
= 1, 15 = σ
x
Reprezentˆ and seria de distribut ¸ie a mediilor e¸santioanelor obt ¸inem:
33
Aceastˇa diagramˇa aratˇa cˇa seria de distribut ¸ie a mediilor e¸santioanelor este normalˇa.
34
12 O aplicat ¸ie a teoremei limitˇa centralˇa
Teorema limitˇa centralˇa oferˇa informat ¸ii asupra seriei de distribut ¸ie a mediilor e¸san-
tioanelor descriind forma repartit ¸iei mediilor tuturor e¸santioanelor (aproape normalˇa).
Ea stabile¸ste relat ¸ia dintre media µ a populat ¸iei ¸si media µ
x
a seriei de distribut ¸ie a
mediilor tuturor e¸santioanelor ¸si relat ¸ia dintre deviat ¸ia standard σ a populat ¸iei ¸si deviat ¸ia
standard σ
x
a seriei de distribut ¸ie a mediilor e¸santioanelor. Deoarece seria de distribut ¸ie
a mediilor e¸santioanelor este aproape normalˇa putem stabili legˇaturi probabiliste dintre
media populat ¸iei ¸si media unui e¸santion.
Exemplul 12.1. Considerˇam o populat ¸ie normalˇa cu µ = 100 ¸si σ = 20. Dacˇa se alege
un e¸santion aleator de mˇarime n = 16 care este probabilitatea ca valoarea medie a acestui
e¸santion sˇa fie ˆıntre 90 ¸si 110? Altfel spus, cˆat este P(90 < x < 110)?
Solut ¸ie: Conform teoremei limitˇa centralˇ a repartit ¸ia valorilor medii ale e¸santioanelor
este normalˇa. Prin urmare va trebui sˇa transformˇam condit ¸ia P(90 < x < 110) ˆıntr-o
condit ¸ie care sˇa permitˇa folosirea tabelului de distribut ¸ie normalˇa standard. Aceasta se
face scriind:
P(90 < x < 110) = Φ
_
110 −µ
x
σ
x
_
−Φ
_
90 −µ
x
σ
x
_
=
= Φ
_
110 −100
σ
x
_
−Φ
_
−10
σ
x
_
= 2 Φ
_
10
σ
x
_
−1 = F
_
10
σ
x
_
unde Φ(X) =
1


X
_
−∞
e

1
2
t
2
dt ¸si F(X) = Φ(X) −
1
2
.
Deoarece σ
x
=
σ

n
, avem σ
x
=
20

16
= 5 ¸si astfel obt ¸inem:
P(90 < x < 110) = 2 Φ(2) −1 = 2F(2) = 0.9544
Efectul cre¸sterii dimensiunii n a e¸santionului nu afecteazˇa µ
x
= µ ¸si mic¸soreazˇ a σ
x
. Prin
urmare P(90 < x < 110) cre¸ste, dacˇa n cre¸ste.
Exemplul 12.2.
ˆ
Inˇalt ¸imea copiilor la o grˇadinit ¸ˇa are o distribut ¸ie normalˇa avˆand o medie
µ = 100 cm cu o deviat ¸ie standard de 12, 5 cm. Pentru un e¸santion aleator de 25 de copii
se determinˇa media x. Care este probabilitatea ca aceastˇa medie sˇa fie ˆıntre 90 cm ¸si 110
cm?
Solut ¸ie:
P(90 < x < 110) = 2 Φ
_
10
σ
x
_
−1 = 2 Φ(4) −1 = 2 F(4) = 2 0.499968
35
13 Estimarea punctualˇa a unui parametru; intervalul
de ˆıncredere
Considerˇam o populat ¸ie a cˇarei medie µ nu o cunoa¸stem ¸si ne punem problema s-o gˇasim.
Pentru acest scop considerˇam un e¸santion aleator de dimensiune n pentru care determinˇam
media x. Media x a e¸santionului este o estimare punctualˇa a mediei µ a populat ¸iei.
Definit ¸ia 13.1. O estimare punctualˇa a parametrului γ a unei populat ¸ii este o
valoare g a unei statistici corespunzˇatoare.
Remarca 13.1. Dacˇa x este media e¸santioanului cu care estimˇam media necunoscutˇa µ
a populat ¸iei, aceasta nu ˆınseamnˇ a cˇa x = µ.
ˆ
In general, x ,= µ ¸si la ceea ce ne putem
a¸stepta este ca x sˇa fie aproape de µ. Aceastˇa apropiere poate fi fixatˇa prin specificarea
unui interval (centrat ˆın µ) numit interval de estimare.
Definit ¸ia 13.2. Un interval mˇarginit (a, b) folosit pentru a estima valoarea unui anumit
parametru γ a populat ¸iei se nume¸ste interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din e¸santion care este folosit pentru estimare.
Cum anume se poate specifica un interval centrat ˆın µ care este necunoscut folosind doar
date furnizate de un e¸santion va fi lˇamurit ˆın continuare.
Exemplul 13.1. Considerˇam o populat ¸ie avˆ and o deviat ¸ie standard σ cunoscutˇa, o medie
µ necunoscutˇa ¸si un e¸santion aleator simplu de mˇarime n ¸si medie x cunoscute. Condit ¸ia
x ∈ (µ −1, µ + 1) ˆınseamnˇ a cˇa scorul standard z (pentru mediile e¸santioanelor) dat de:
z =
x −µ
x
σ
x
=
x −µ
σ

n
sˇa verifice:
z ∈ (−
1
σ

n
,
1
σ

n
) = (−

n
σ
,

n
σ
)
Astfel ˆın termenii scorului standard intervalul de estimare este intervalul (a, b) cu a =


n
σ
¸si b =

n
σ
.
Mai general condit ¸ia x ∈ (µ − δ, µ + δ), ˆınseamnˇa cˇa scorul standard z (pentru mediile
e¸santioanelor) dat de:
z =
x −µ
x
σ
x
=
x −µ
σ

n
sˇa verifice:
z ∈ (−
δ

n
σ
,
δ

n
σ
)
Intervalul de estimare este (−
δ

n
σ
,
δ

n
σ
).
Definit ¸ia 13.3. Nivelul de neˆıncredere α este probabilitatea ca statistica e¸santionului
sˇa aibe valoarea ˆın afara intervalului de estimare.
36
Conform teoremei de limitˇa centralˇa, repartit ¸ia lui x este normalˇa sau aproape normalˇa
¸si avem:
P(µ −1 < x < µ + 1) = P
_


n
σ
< z <

n
σ
_
=
2 P
_
0 < z <

n
σ
_
= 2 F
_√
n
σ
_
unde F(z) =
1

2 π
z
_
0
e

1
2
t
2
dt.
Deci nivelul de neˆıncredere α este 1 −2 F
_√
n
σ
_
.
Definit ¸ia 13.4. Nivelul de ˆıncredere (coeficient de ˆıncredere) 1−α este probabilitatea
ca statistica e¸santionului sˇa se afle ˆın intervalul de estimare ales.
Definit ¸ia 13.5. Intervalul de ˆıncredere este un interval de estimare cu un nivel de
ˆıncredere 1 −α specificat.
Exemplul 13.2.
ˆ
In cazul exemplului 13.1, intervalul de estimare
_


n
σ
,

n
σ
_
este un
interval de ˆıncredere cu coeficientul de ˆıncredere 1 −α = 2 F
_√
n
σ
_
.
Definit ¸ia 13.6. Eroarea maximˇa de estimare este jumˇatatea lungimii intervalului de
ˆıncredere cu nivelul de ˆıncredere 1 −α.
ˆ
In termen de scor standard aceastˇa eroare se exprimˇa cu formula:
E = z
_
α
2
_

σ

n
unde z
_
α
2
_
este solut ¸ia ecuat ¸iei F(z) =
1 −α
2
, iar intervalul de ˆıncredere 1 −α pentru µ
este:
_
x −z
_
α
2
_

σ

n
, x + z
_
α
2
_

σ

n
_
x−z
_
α
2
_

σ

n
este limita inferioarˇa de ˆıncredere, iar x+z
_
α
2
_

σ

n
este limita superioarˇa
de ˆıncredere.
37
14 Generalitˇat ¸i privind ipotezele statistice ¸si proble-
ma verificˇarii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii ˆın privint ¸a credibilitˇat ¸ii unei
asert ¸iuni (numitˇ a verificarea ipotezelor statistice) sˇa considerˇam urmˇatorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sˇa completeze un formular test cu zece
ˆıntrebˇ ari. Fiecare ˆıntrebare are cinci rˇaspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul ¸si din cele zece ˆıntrebˇ ari el a rˇaspuns corect la ¸sapte. El
sust ¸ine cˇa a completat formularul fˇarˇ a sˇa citeascˇa ˆıntrebˇarile ¸si rˇaspunsurile la ele ¸si a
marcat rˇaspunsurile aleator.
ˆ
Intrebarea esteˆın ce mˇasurˇa putem da crezare spuselor cˇa el a marcat rˇaspunsurile aleator?
O asemenea ˆıntrebare ne determinˇa sˇa analizˇam ¸si sˇa hotˇarˆ am: este sau nu este rezona-
bil ca Popescu Nicolae sˇa obt ¸inˇa ¸sapte rˇaspunsuri corecte alegˆand aleator rˇaspunsurile la
ˆıntrebˇ ari? Descriem ˆın cele ce urmeazˇa o analizˇa, care se nume¸ste verificarea ipotezelor
statistice ¸si care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, ˆın general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentatˇ a ¸si ilustratˇa ˆın cazul exemplului considerat.
Etapa 1. Formularea ipotezei nule H
0
Prin ipotezˇa ˆınt ¸elegem o afirmat ¸ie care sust ¸ine cˇa ceva este adevˇarat.
ˆ
In
general, ipoteza nulˇa este o afirmat ¸ie relativˇa la un parametru al unei
populat ¸ii ¸si afirmˇa cˇa parametrul are o valoare datˇa. Adesea expresia
”nu diferˇa” este folositˇa ˆın formularea ei, de aici vine numele de ipotezˇa
nulˇ a. (diferent ¸a este nulˇ a)
Etapa 2. Formularea ipotezei alternative H
a
Ipoteza alternativˇa H
a
este o afirmat ¸ie relativˇa la acela¸si parametru al
populat ¸iei care apare ˆın ipoteza nulˇ a H
0
.
ˆ
In ipoteza H
a
se afirmˇa cˇa
parametrul are o valoare diferitˇa de cea sust ¸inutˇ a ˆın H
0
.
Ipoteza H
0
¸si ipoteza H
a
se formuleazˇ a dupˇa o analizˇa a asert ¸iunii care trebuie inves-
tigatˇa.
ˆ
In cazul exemplului considerat, asert ¸iunea care trebuie analizatˇa este: Popescu a comple-
tat formularul aleator.
Populat ¸ia este o mult ¸ime de 5
10
elemente (distincte). Un element este un sistem ordonat
de 10 rˇaspunsuri (R

i
1
, R

i
2
, . . . , R

i
10
), i
1
, i
1
, . . . , i
10
∈ ¦1, 2, 3, 4, 5¦; R

i
1
este unul din cele
cinci rˇaspunsuri posibile la prima ˆıntrebare, . . . , R

i
10
este unul din cele cinci rˇaspunsuri
posibile la cea de-a zecea ˆıntrebare.
Pentru o persoanˇa care marcheazˇ a rˇaspunsurile aleator (fˇarˇ a sˇa le citeascˇa), toate
rˇaspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci rˇaspunsuri la o ˆıntrebare
are aceea¸si ¸sansˇ a ca sˇa fie corect. Din afirmat ¸ia lui Popescu Nicolae rezultˇa cˇa el a marcat
rˇaspunsurile aleator, deci a admis cˇa probabilitatea (parametrul p) este
1
5
10
pentru fiecare
element al populat ¸iei.
Analiza afirmat ¸iei lui Popescu Nicolae conduce la urmˇatoarea formulare a ipotezei nule:
H
0
: p(X) =
1
5
10
= p pentru orice Popescu Nicolae a completat
element X al populat ¸iei ⇔ formularul aleator.
38
Ipoteza alternativˇa este:
H
a
: existˇa douˇa elemente X
1
, X
2
ˆın populat ¸ie Popescu Nicolae nu a completat
pentru care p(X
1
) ,= p(X
2
) ⇔ formularul aleator
De la acest punct ˆıncepˆ and se admite cˇa ipoteza nulˇ a este adevˇaratˇa. Situat ¸ia poate fi
comparatˇa cu un proces la judecˇatorie, ˆın care acuzatul este presupus nevinovat pˆanˇa
cˆand se dovede¸ste contrariul.
Doar ˆın etapa a 5-a a verificˇarii ipotezelor, vom lua una din cele douˇa decizii posibile:
vom decide ˆın concordant ¸ˇ a cu ipoteza nulˇ a H
0
¸si spunem cˇa acceptˇam H
0
sau decidemˆın
concordant ¸ˇ a cu H
a
¸si spunem cˇa respingem ipoteza H
0
.
ˆ
In funct ¸ie de valoarea de adevˇar a ipotezei H
0
¸si de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate ˆın tabelul urmˇator:
Decizia Ipoteza H
0
este
Adevˇaratˇ a Falsˇ a
Nu respingem H
0
decizie eroare
(acceptˇam) corectˇa
Tip A Tip II
Respingem H
0
eroare decizie
corectˇa
Tip I Tip B
O decizie corectˇa de tip A: apare cˆand H
0
este adevˇaratˇ a ¸si nu respingem H
0
O decizie corectˇa de tip B: apare cˆand H
0
este falsˇa ¸si respingem H
0
O eroare de tip I: apare cˆand H
0
este adevˇaratˇ a ¸si H
0
este respinsˇa
O eroare tip II: apare cˆand H
0
este falsˇa ¸si H
0
nu este respinsˇa
Ar fi foarte frumos ca de fiecare datˇa cˆand luˇam decizii sˇa luˇam decizii corecte, dar aceasta
este statistic imposibil pentru cˇa ne bazˇam pe informat ¸ii furnizate de e¸santioane. Cel mai
bun lucru la ce putem spera este sˇa controlˇ am riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignatˇa limitˇarii comiterii unei erori de tip I se noteazˇa cu α ¸si cea asignatˇa
comiterii unei erori de tip II cu β:
Eroarea Tipul de eroare Probabilitate
Respingerea unei ipoteze adevˇarate I α
Acceptarea unei ipoteze false II β
Etapa 3 Metodologia de verificare a ipotezelor: aceasta constˇa din (1)
identificarea unui test statistic; (2) specificarea valorii lui α; (3) de-
terminarea regiunii critice.
(1) Un test statistic este o variabilˇ a aleatoare folositˇa pentru a respinge
sau nu ipoteza H
0
. Testul statistic este o statisticˇa de e¸santioane sau
alte valori rezultate dintr-un e¸santion. Probabilitˇat ¸ile care apar ˆın acest
test statistic sunt determinate presupunˆand cˇa H
0
este adevˇaratˇa.
39
ˆ
In cazul exemplului considerat, variabila aleatoare ”X= numˇ arul de rˇaspunsuri corecte”
este folosit ca test statistic. Probabilitˇat ¸ile pentru fiecare valoare x ale variabilei X ˆın
ipoteza cˇa H
0
este adevˇaratˇa sunt date ˆın tabelul urmˇator:
X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.9210
−4
7.3810
−5
4.09810
−6
1.0210
−7
Aceastˇa repartit ¸ie aratˇa cˇa probabilitatea sˇa ghice¸sti rˇaspunsul corect la 5 sau mai multe
ˆıntrebˇ ari este 0.0327, iar la 4 sau mai put ¸in decˆat 4 ˆıntrebˇari este 0.9673. Putem spune
cˇa aparit ¸ia valorilor 5, 6, 7, 8, 9, 10 nu sust ¸ine ipoteza H
0
. Dacˇa cineva spune cˇa a ghicit
rˇaspunsul corect la 0, 1, 2, 3, 4ˆıntrebˇ ari, spunem cˇa este foarte probabil. Dacˇa cineva spune
cˇa a ghicit rˇaspunsul corect la 5, 6, 7, 8, 9, 10 ˆıntrebˇari spunem cˇa este put ¸in probabil.
Nivelul de semnificat ¸ie este probabilitatea α de a face o eroare de tip I, adicˇa de a
respinge H
0
adevˇarat.
ˆ
In mod curent α se dˇa la ˆınceput ¸si acesta determinˇa regiunea
criticˇa.
ˆ
In cazul exemplului, dacˇa α = 0.033, atunci din P(x ≥ 5) = 0.0327 rezultˇa
regiunea criticˇa x = 5, 6, 7, 8, 9, 10.
Regiunea criticˇa: este mult ¸imea de valori (W) pentru care P(X ∈ W) ≤ α ¸si care ne
determinˇa sˇa respingem ipoteza H
0
. (nu sust ¸in ipoteza H
0
)
Valoarea criticˇa: este prima valoare din regiunea criticˇa.
Dacˇa pentru un e¸santion valoarea testului statistic X depˇa¸se¸ste valoarea criticˇa ipoteza
H
0
este respinsˇa.
Dupˇa ce Etapa 3 a fost epuizatˇa, putem trece la Etapa 4.
Etapa 4. Determinarea valorii testului statistic
Dupˇa ce am parcurs etapele 1,2,3 observˇam sau calculˇam valoarea x a
testului statistic.
ˆ
In cazul exemplului x = 7 (numˇ arul de rˇaspunsuri corecte) este valoarea testului sta-
tistic ¸si este dat. Uzual valoarea testului statistic se calculeazˇa pe baza informat ¸iilor
oferite de e¸santion.
Etapa 5. Luarea unei decizii ¸si interpretarea ei
Decizia se ia comparˆand valoarea testului statistic determinatˇa la Etapa
4 cu regiunea criticˇa gˇasitˇ a la Etapa 3.
Regula de decizie: Dacˇa valoarea testului statistic este ˆın regiunea
criticˇa respingem ipoteza H
0
, dacˇa nu, atunci acceptˇam ipoteza H
0
.
Ansamblul de valori ale testului statistic care nu sunt ˆın regiunea criticˇa
formeazˇa regiunea de acceptabilitate. Testul este terminat prin luarea
¸si justificarea deciziei luate.
ˆ
In cazul exemplului: x = 7 este ˆın regiunea criticˇa ¸si respingem ipoteza H
0
.
Remarca 14.1. Cu aceasta nu am demonstrat cˇa Popescu Nicolae nu a ghicit cele 7
rˇaspunsuri. Am arˇatat doar cˇa dacˇa el le-a ghicit este foarte norocos pentru cˇa acesta
este un eveniment rar ¸si are probabilitatea cel mult 0.033.
40
15 Verificarea ipotezelor statistice:
variantˇa clasicˇa
ˆ
In sect ¸iunea precedentˇ a am prezentat generalitˇat ¸i privind verificarea ipotezelor statis-
tice.
ˆ
In aceastˇa sect ¸iune trecem la prezentarea verificˇarii ipotezelor statistice ˆın cazul
asert ¸iunilor referitoare la media µ a unei populat ¸ii. Pentru a simplifica aceastˇa prezentare
la ˆınceput presupunem cˇa deviat ¸ia standard σ a populat ¸iei este cunoscutˇa.
Urmˇatoarele trei exemple se referˇa la diferite formulˇari ale ipotezei H
0
¸si a ipotezei H
a
.
Exemplul 15.1. Un ecologist sust ¸ine cˇa ora¸sul Timi¸soara are o problemˇa privind poluarea
aerului. Concret, el sust ¸ine ca nivelul mediu al monoxidului de carbon ˆın aer ˆın centrul
ora¸sului depˇa¸se¸ste valoarea 4, 9/10
6
= valoarea medie normalˇa.
Pentru a formula ˆın acest caz, ipotezele H
0
¸si H
a
, trebuie sˇa identificˇ am: populat ¸ia,
parametrul populat ¸iei ˆın cauzˇa ¸si valoarea cu care aceasta urmeazˇa sˇa fie comparatˇa.
Populat ¸iaˆın acest caz poate fi mult ¸imea locurilor din centrul ora¸sului Timi¸soara. Variabila
X este concentrat ¸ia monoxidului de carbon ale cˇarei valori x variazˇa ˆın funct ¸ie de loc,
iar parametrul populat ¸iei este valoarea medie µ a acestei variabile. Valoarea specificˇa cu
care aceastˇa medie trebuie comparatˇa este 4, 9/10
6
egalˇa cu valoarea (medie) normalˇa.
Ecologistul face o asert ¸iune privind valorea lui µ. Aceastˇa valoare poate fi: µ < 4, 9/10
6
sau µ = 4, 9/10
6
sau µ > 4, 9/10
6
. Cele trei situat ¸ii pot fi cuprinse ˆın douˇa afirmat ¸ii dintre
care una exprimˇa ceea ce ecologistul sust ¸ine, iar cealaltˇa exprimˇa contrariul.
Inegalitatea µ > 4, 9/10
6
este afirmat ¸ia: ”valoarea medie este mai mare ca 4, 9/10
6
”.
Inegalitatea µ ≤ 4, 9/10
6
este echivalentˇ a cu ”µ < 4, 9/10
6
sau µ = 4, 9/10
6
” ¸si este
afirmat ¸ia contrarˇ a: ”valoarea medie nu este mai mare ca 4, 9/10
6
”.
Ecologistul sust ¸ine cˇa µ > 4, 9/10
6
. Pentru a formula ipoteza H
0
¸si ipoteza H
a
reamintim
cˇa:
1)
ˆ
In general, ipoteza H
0
sust ¸ine cˇa media µ (parametrul ˆın chestiune) are o valoare
specificˇa anume.
2) Inferent ¸a privind media µ a populat ¸iei se bazeazˇa pe media unui e¸santion ¸si mediile
e¸santioanelor au o distribut ¸ie aproximativ normalˇa. (conform teoremei limitˇa
centralˇa).
3) O distribut ¸ie normalˇa este complet determinatˇa dacˇa valoarea medie ¸si deviat ¸ia
standard a distribut ¸iei sunt cunoscute.
Cele de mai sus sugereazˇa cˇa afirmat ¸ia µ = 4, 9/10
6
ar trebui sˇa fie ipoteza nulˇ a ¸si afirmat ¸ia
µ > 4, 9/10
6
ar trebui sˇa fie ipoteza alternativˇa:
H
0
: µ = 4, 9/10
6
H
a
: µ > 4, 9/10
6
Reamintim cˇa dupˇa ce ipoteza nulˇ a H
0
este formulatˇ a, ˆın testul statistic identificat se
presupune cˇa H
0
este adevˇaratˇa. Aceasta ˆınseamnˇ a cˇa µ = 4, 9/10
6
este egalˇa cu media
41
distribut ¸iei mediilor e¸santioanelor µ
x
¸si este o rat ¸iune ˆın plus pentru care ipoteza H
0
trebuie scrisˇa doar cu semnul egal
H
0
: µ = 4, 9/10
6
.
Dacˇa admitem cˇa afirmat ¸ia ”µ = 4, 9/10
6
sau µ < 4, 9/10
6
” este ipoteza nulˇ a H
0
, atunci:
H
0
: µ ≤ 4, 9/10
6
H
a
: µ > 4, 9/10
6
.
Remarca 15.1. Semnul egal trebuie sˇa fie inclus totdeauna ˆın ipoteza nulˇa.
ˆ
In acest
exemplu asert ¸iunea ecologistului este exprimatˇa de fapt ˆın H
a
¸si aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua asert ¸iune; de exemplu al Camerei de
Comert ¸, care sust ¸ine cˇa nivelul mediu al monoxidului de carbon ˆın centrul ora¸sului
Timi¸soara este mai mic decˆat 4, 9/10
6
(valoare normalˇa). Aceasta este o reclamˇa bunˇa
pentru turism.
S¸i ˆın acest caz parametrul este media µ a repartit ¸iei monoxidului de carbon. Valoarea
specificˇa este 4, 9/10
6
care este valoare normalˇa.
”µ < 4, 9/10
6
” ⇔ ”valoarea medie este mai micˇa decˆat valoarea medie normalˇa”
”µ ≥ 4, 9/10
6
” ⇔ ”valoarea medie este mai mare sau egalˇa decˆat valoarea
medie normalˇa”
H
0
, H
a
pot fi formulate astfel:
H
0
: µ ≥ 4, 9/10
6
H
a
: µ < 4, 9/10
6
S¸i de data aceasta asert ¸iunea Camerei de Comert ¸ este exprimatˇa ˆın H
a
¸si aceasta trebuie
analizatˇa.
Exemplul 15.3. O a treia asert ¸iune (mai neutrˇa) sust ¸ine doar cˇa nivelul mediu µ al
monoxidului de carbon ˆın aerul din centrul ora¸sului Timi¸soara este diferit de 4, 9/10
6
(valoarea normalˇa diferitˇa de µ).
ˆ
In acest caz:
H
0
: µ = 4.9/10
6
¸si H
a
: µ ,= 4, 9/10
6
Cele trei exemple aratˇa cˇa asert ¸iunea care trebuie analizatˇa determinˇaˆıntr-un anumit sens
formularea ipotezelor H
0
, H
a
. Mai exact: ˆın aceste cazuri asert ¸iunea sust ¸ine cˇa valoarea
parametrului µ este diferitˇa de cea normalˇa, iar ipoteza nulˇa sust ¸ine cˇa este aceea¸si (nu
diferˇa).
ˆ
In cazul acestor exemple, cei care ˆı¸si formuleazˇ a asert ¸iunea se a¸steaptˇ a la respingerea
ipotezei nule H
0
¸si la acceptarea ipotezei alternative H
a
care este o afirmat ¸ie conformˇa cu
asert ¸iunea lor.
Situat ¸iile de la procesele juridice prezintˇa o oarecare asemˇanare cu cele relatate. Dacˇa
procurorul nu crede ˆın vinovˇat ¸ia inculpatului nu intenteazˇ a proces (ipoteza H
0
prezumt ¸ia
de nevinovˇat ¸ie este presupusˇa adevˇaratˇ a). Procesul se declan¸seazˇ a doar dacˇa procurorul
are suficiente probe pentru a face proces.
42
S¸i ˆın statisticˇa dacˇa ”experimantatorul” crede ˆın ipoteza H
0
nu face test pentru investi-
garea lui H
0
. El testeazˇa ipoteza nulˇa doar dacˇa dore¸ste sˇa arate cˇa H
a
este corectˇa.
Exemplul care urmeazˇa ilustreazˇa toate cele cinci etape de verificare a ipotezelor statistice
ˆın cazul unei asert ¸iuni care se referˇa la media unei populat ¸ii.
Exemplul 15.4. Un profesor a ˆınregistrat pe mai mult ¸i ani rezultatul elevilor ¸si media
µ a acestor rezultate este 72 ¸si abaterea standard este σ = 12. Clasa de 36 de elevi pe
care-i ˆınvat ¸ˇa la momentul actual are o medie x = 75, 2 (mai ridicatˇa decˆat media µ = 72)
¸si profesorul afirmˇa cˇa aceastˇa clasˇa este superioarˇa celor de pˆanˇ a acum.
ˆ
Intrebarea este
dacˇa media clasei x = 75, 2 este un argument suficient pentru a sust ¸ine afirmat ¸ia profe-
sorului la nivelul de semnificat ¸ie α = 0, 05.
Ment ¸ionˇ am cˇa pentru ca aceastˇa clasˇa sˇa fie superioarˇa trebuie sˇa aibe o medie mai mare
decˆat toate clasele dinainte. Dacˇa media ei este egalˇa sau mai micˇa decˆat media unei
clase anterioare, atunci ea nu este superioarˇa.
Dacˇa se considerˇa e¸santioane aleatoare de mˇarime n = 36 dintr-o populat ¸ie cu media
µ = 72, multe e¸santioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decˆat 72 vor sust ¸ine afirmat ¸ia profesorului.
De aceea:
Etapa 1. H
0
: µ
x
= µ = 72 ⇔ clasa nu este superioarˇa
Etapa 2. H
a
: µ
x
= µ > 72 ⇔ clasa este superioarˇa
Etapa 3. - Atunci cˆand ˆın ipoteza nulˇ a H
0
media populat ¸iei ¸si deviat ¸ia
standard sunt cunoscute scorul standard z este folosit ca ¸si test
statistic.
- Nivelul de semnificat ¸ie α = 0, 05 este dat;
- Reamintim cˇa ˆın baza teoremei limitˇa centralˇ a distribut ¸ia
mediilor e¸santioanelor este aproape normalˇa. Prin urmare,
distribut ¸ia normalˇa va fi folositˇa pentru determinarea regiu-
nii critice. Regiunea criticˇa este egalˇa cu mult ¸imea valo-
rilor scorului standard z care determinˇa respingerea ipotezei
H
0
¸si este situatˇa la extremitatea dreaptˇa a distribut ¸iei nor-
male. Regiunea criticˇa este la dreapta deoarece valori mari
ale mediei e¸santionului sust ¸in ipoteza H
0
ˆın timp ce valori
apropiate ori sub 72 sust ¸in ipoteza nulˇ a.
Figura 1:
43
Valoarea criticˇa ce desparte zona valorilor ”nu este superior” de zona valorilor ”este su-
perior” este determinatˇa de probabilitatea α de a comite o eroare de tip I. α = 0, 05 a
fost datˇa. Astfel regiunea criticˇa ha¸suratˇ a pe Figura 2. are aria 0, 05 ¸si valoarea criticˇa
1, 65 este solut ¸ia ecuat ¸iei:
1

2 π

_
z
e

t
2
2
dt = 0, 05.
Figura 2:
Etapa 4. Valoarea testului statistic este dat de:
z

=
x −µ
σ

n
=
75, 2 −72
12/6
= 1, 6
Etapa 5. Comparˇam valoarea gˇasitˇ a 1, 6 cu valoarea criticˇa 1, 65 ¸si gˇasim 1, 6 <
1, 65. Decizia este cˇa nu putem respinge ipoteza H
0
. Testul se ˆıncheie
cu formularea concluziei.
Concluzie: Probele nu sunt suficiente pentru a sust ¸ine cˇa actuala clasˇa
este superioarˇa claselor anterioare.
Pare aceastˇa concluzie realistˇa ˆın condit ¸iile ˆın care ˆın mod evident, 75, 2 este mai mare
ca 72. Nu trebuie sˇa uitˇam x = 75, 2 este media unui e¸santion de 36 de indivizi extras
dintr-o populat ¸ie cu media µ = 72 ¸si deviat ¸ia standard σ = 12 ¸si analiza aratˇa cˇa proba-
bilitatea ca media e¸santionului sˇa fie mai mare decˆat mediile tuturor e¸santioanelor este
mai mare decˆat riscul α cu care noi acceptˇam o eroare de tip I.
Exemplul 15.5. La un colegiu s-a stabilit cˇa greutatea medie a studentelor este µ = 54, 4
kg, iar abaterea standard σ = 5, 4 kg. Profesorul de sport nu crede aceastˇa afirmat ¸ie.
Pentru a face un test select ¸ioneazˇ a un e¸santion aleator de 100 de studente ¸si gˇase¸ste cˇa
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmat ¸ia la nivelul de
semnificat ¸ie α = 0, 05?
Etapa 1. H
0
: µ = 54, 4 kg
Etapa 2. H
a
: µ ,= 54, 4 kg
44
Etapa 3. - deoarece folosim o distribut ¸ie de medii de e¸santioane testul statistic
va fi scorul standard.
- nivelul α = 0, 05 este dat;
- media e¸santionului este o estimare a mediei populat ¸iei. Ipoteza
alternativˇa ”nu este egal” este sust ¸inutˇa de medii de e¸santioane
considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nulˇ a
este sust ¸inutˇ a de medii de e¸santioane ˆın jurul valorii 54, 4. Regiunea
criticˇa este formatˇa din douˇa pˇart ¸i egale situate la cele douˇa extremitˇat ¸i
ale distribut ¸iei normale. Aria corespunzˇatoare fiecˇarei port ¸iuni este
α
2
¸si probabilitatea fiecˇarei pˇart ¸i a regiunii critice este 0, 025. Rezultˇa
z
_
α
2
_
= 1, 96
_
_
_
z
_
α
2
_
este solut ¸ia ecuat ¸iei:
1

2 π

_
z
e

t
2
2
dt =
α
2
_
_
_
.
Figura 3:
Etapa 4. Se determinˇa valoarea testului statistic:
z

=
x −µ
σ

n
= −1, 204
a cˇarei locat ¸ie este datˇa pe figura urmˇatoare:
45
Figura 4:
Reamintim: Dacˇa valoarea testului statistic este ˆın regiunea criticˇa respingem ipoteza
H
0
dacˇa nu, nu putem respinge ipoteza H
0
.
Etapa 5. Valoarea testului statistic nu este ˆın regiunea criticˇa.
Decizia: Nu respingem ipoteza H
0
.
Justificarea deciziei: Valoarea testului nu este ˆın dezacord cu H
0
la
nivel de risc α = 0, 05. Aceasta nu ˆınseamnˇ a cˇa H
0
este adevˇaratˇa.
Concluzie: Media x gˇasitˇ a de profesor nu contravine ipotezei cˇa media µ este 54,4
kg, cˆand dispersia σ este 5, 4 kg.
O decizie de respingere a lui H
0
ˆınseamnˇa cˇa valoarea testului implicˇa cˇa H
0
este falsˇa ¸si
indicˇa H
a
.
Rezumat privind verificarea ipotezelor statistice asupra mediei ˆın variantˇa
clasicˇa:
1. Ipoteza H
0
specificˇa o valoare particularˇa a mediei populat ¸iei.
2. Ipoteza H
a
are trei forme. Fiecare dintre acestea determinˇa o locat ¸ie specificˇa a
regiunii critice a¸sa cum apare ˆın tabelul de mai jos:
Semne ˆın ipoteza < ,= >
alternativˇa
Regiunea criticˇa O regiune Douˇa regiuni O regiune
la stˆanga de fiecare la dreapta
parte cˆate una
test unilateral test bilateral test unilateral
stˆanga dreapta
3. Pentru multe cazuri semnul din ipoteza H
a
indicˇa direct ¸ia ˆın care regiunea criticˇa
se gˇase¸ste
Valoarea lui α se nume¸ste nivel de semnificat ¸ie ¸si reprezintˇa riscul (probabilitatea)
respingerii lui H
0
atunci cˆand aceasta estea adevˇaratˇa. Nu putem determina
46
dacˇa ipoteza H
0
este adevˇaratˇa sau falsˇa. Putem doar decide cˇa o respingem
sau cˇa o acceptˇam.
Probabilitatea cu care respingem ipoteza adevˇaratˇa este α, dar nu ¸stim probabilitatea cu
care facem o decizie eronatˇa. O eroare de tip I ¸si o eroare ˆın decizie sunt lucruri diferite.
47
16 Verificarea ipotezelor statistice:
varianta probabilistˇa
ˆ
In sect ¸iunea precedentˇ a am descris varianta clasicˇa de verificare a ipotezelor statistice
ˆın cazul asert ¸iunilor referitoare la media µ a unei populat ¸ii. O variantˇ a probabilistˇa
constˇa ˆın determinarea unei probabilitˇat ¸i numitˇa p-valoarea (prob-valoare) referitoare
la o statisticˇa observatˇ a, care este comparatˇa cu nivelul de semnificat ¸ie α dat.
Definit ¸ia 16.1. P-valoarea unui test statistic este cea mai micˇa valoare a nivelului
de semnificat ¸ie α pentru care informat ¸ia extrasˇa din e¸santion este semnificativˇa (H
0
adevˇaratˇa se respinge).
Considerˇam din nou exemplul 15.4 din sect ¸iunea precedentˇ a ¸si-l analizˇam din acest punct
de vedere.
Exemplul 16.1. Un profesor a ˆınregistrat pe mai mult ¸i ani rezultatul elevilor ¸si media
µ a acestor rezultate este 72 ¸si dispersia σ = 12. Clasa de 36 de elevi pe care-i ˆınvat ¸ˇ a
la momentul actual are o medie x = 75, 2 . Aceastˇa medie fiind mai ridicatˇa decˆat 72
profesorul vrea sˇa arate cˇa aceastˇa clasˇa este superioarˇa celor de pˆanˇ a acum.
ˆ
Intrebarea
este dacˇa media clasei x = 75, 2 este un argument suficient pentru a sust ¸ine afirmat ¸ia
profesorului la nivelul de semnificat ¸ie α = 0, 05?
Precizˇam cˇa pentru a putea sust ¸ine cˇa actuala clasˇa este mai bunˇa decˆat toate celelalte
clase anterioare trebuie ca media clasei actuale sˇa fie mai mare decˆat media oricˇarei clase
dinainte. Dacˇa media clasei actuale este mai micˇa sau egalˇa cu media unei clase anterioare,
atunci clasa actualˇa nu este mai bunˇa decˆat toate celelalte.
Etapa 1. Formularea ipotezei H
0
: H
0
: µ
x
= µ = 72.
Aceastˇa ipotezˇa corespunde asert ¸iunii cˇa actuala clasˇa nu este superioarˇa
celorlalte clase.
Etapa 2. Formularea ipotezei alternative H
a
: H
a
: µ
x
= µ > 72.
Aceastˇa ipotezˇa corespunde asert ¸iunii cˇa actuala clasˇa este superioarˇa
celorlalte clase.
Remarcˇam faptul cˇa etapele 1 ¸si 2 sunt acelea¸si ˆın variantˇ a probabilistˇa ca ¸si ˆın variantˇa
clasicˇa de verificare a ipotezelor statistice.
Etapa 3. Specificarea nivelului de semnificat ¸ie α, a probabilitˇat ¸ii erorii de tip I:
α = 0, 005.
Etapa 4. Folosind formula scorului standard (z-scorului) ¸si media x = 75, 2 a
e¸santionului de mˇarime n = 36 se determinˇa valoarea testului statistic:
z

=
x −µ
σ

n
= 1, 60
Remarcˇam aici cˇa Etapa 4 ˆın varianta probabilistˇa este aceea¸si ca ¸si
varianta clasicˇa de verificare a ipotezelor statistice.
48
Etapa 5. Se reprezintˇ a distribut ¸ia normalˇa a mediilor (testul statistic) ˆın acest
caz ¸si se localizeazˇa valoarea z

determinatˇa ˆın Etapa 4 (care ˆımparte
distribut ¸ia ˆın douˇa pˇart ¸i) ¸si se determinˇa care parte a distribut ¸iei
reprezintˇ a p−valoarea.
Dupˇa care se determinˇa p−valoarea. Ipoteza alternativˇa H
a
aratˇa cˇa ˆın
cazul nostru:
p = P(z > z

) = P(z > 1, 6) = 0, 0548
Etapa 6. p-valoarea ˆın cazul nostru este 0, 0548. Prin urmare pentru
orice nivel de semnificat ¸ie α ≤ 0, 0548 nu putem respinge
ipoteza nulˇ a ¸si concluzia este cˇa nu avem probe suficiente pen-
tru a demonstra superioritatea clasei actuale. Dacˇa ˆınsˇa nivelul de
semnificat ¸ie α fixat la ˆınceput este mai mare ca 0, 0548 (de ex. α = 0, 1)
atunci decizia noastrˇa va fi de respingere a ipotezei H
0
¸si concluzia de
superioritate a clasei actuale.
Figura 5:
ˆ
Inainte sˇa trecem la un al doilea exemplu recapitulˇam cˆateva detalii privind verificarea
ipotezelor statistice ˆın varianta probabilistˇa:
1. Ipotezele H
0
¸si H
a
se formuleazˇa ˆın aceea¸si manierˇa ca ¸si ˆın varianta clasicˇa.
2. Se specificˇa nivelul de semnificat ¸ie α care va fi folosit.
3. Valoarea testului statistic se calculeazˇaˆın Etapa 4 de aceea¸si manierˇa caˆın varianta
clasicˇa.
4. P-valoarea este aria aflatˇaˆıntre curba de densitate de probabilitate axa Oz ¸si z = z

.
Existˇa trei cazuri posibile: douˇa unilaterale ¸si unul bilateral. Direct ¸ia (sau semnul)
ˆın ipoteza H
a
este indiciul:
Cazul 1. Dacˇa H
a
este unilateralˇa la dreapta (” > ”) atunci p = P(z > z

) ¸si aria este
ˆın dreapta lui z

.
Cazul 2. Dacˇa H
a
este unilateralˇa stˆanga (” < ”), atunci p = P(z < z

) este aria din
stˆanga lui z

.
Cazul 3. Dacˇa H
a
este bilateralˇa (” ,= ”), atunci p = P(z < −[z

[) + P(z > [z

[) =
2 P(z > [z

[)
49
5. Decizia se ia comparˆand P-valoarea cu nivelul de semnificat ¸ie α:
a) Dacˇa P ≤ α atunci H
0
se respinge;
b) Dacˇa P > α atunci H
0
se acceptˇa.
6. Concluzia se formuleazˇa de aceea¸si manierˇa ca ¸si ˆın varianta clasicˇa.
Considerˇam acum un exemplu ˆın care H
a
este bilateral.
Exemplul 16.2. Companii mari folosesc agent ¸ii specializate pentru a testa candidat ¸ii
care doresc sˇa fie angajat ¸i. Agent ¸ia A folose¸ste un test de select ¸ie pentru care ˆın decursul
timpului s-a stabilit o medie de 82 ¸si o deviat ¸ie standard de 8. Agent ¸ia B a dezvoltat
o nouˇa metodˇa de testare care este mai rapidˇa, mai u¸sor de aplicat ¸si costˇa mai put ¸in.
Agent ¸ia B sust ¸ine cˇa testul lor dˇa acelea¸si rezultate ca ¸si testul agent ¸iei A.
Mai multe companii, pentru a reduce costul, se gˆandesc sˇa treacˇa de la agent ¸ia A la
agent ¸ia B, dar ei nu doresc sˇa facˇa aceastˇa trecere dacˇa media cu teste B diferˇa de cea
cu teste A. O agent ¸ie independentˇa C a testat cu noul test 36 de indivizi ¸si a obt ¸inut o
medie de 80.
Care este p−valoarea asociatˇa acestui test?
Rezultatul testului agent ¸iei B este acela¸si dacˇa µ = 82 ¸si este diferit dacˇa µ ,= 82. Prin
urmare:
Etapa 1. H
0
: µ = 82 (testele au aceea¸si medie)
Etapa 2. H
a
: µ ,= 82 (testele au medii diferite)
Etapa 3. Este omisˇa dacˇa se cere p-valoarea fˇarˇa luarea unei decizii.
Etapa 4. Informat ¸ia din e¸santion: n = 36 ¸si x = 80:
z

=
x −µ
σ

n
=
−2
8
6
= −
12
8
= −
3
2
= −1.5
Etapa 5. Se localizeazˇa z

pe o distribut ¸ie normalˇa ¸si deoarece H
a
este bilateral
vom considera P(z < −[z

[) ¸si P(z > [z

[) ¸si obt ¸inem:
p = P(z < −1, 50) + P(z > 1, 50)
= 0, 5 −0, 4332 + 0, 5 −0, 4332 = 0, 1336
deci p− valoarea este 0, 1336.
50
Figura 6:
Fiecare companie va lua propria decizie: a) continuˇa cu A sau b) schimbˇa ¸si trece la
B. Fiecare va trebui sˇa stabileascˇa propriul nivel de semnificat ¸ie ¸si sˇa ia o decizie ˆın
consecint ¸ˇ a.
51
17 Inferent ¸ˇa statisticˇa privind media populat ¸iei dacˇa
nu se cunoa¸ste abaterea standard a populat ¸iei
Pˆanˇa acum am prezentat douˇa tipuri de inferent ¸ˇ a statisticˇa privind media populat ¸iei:
evaluarea intervalului de ˆıncredere ¸si verificarea ipotezelor statistice.
ˆ
In cele douˇa
tipuri de inferent ¸e statistice abaterea standard σ este consideratˇa cunoscutˇa.
ˆ
In general
ˆınsˇ a abaterea standard σ nu este cunoscutˇa. Subiectul acestei sect ¸iuni este inferent ¸a
statisticˇa privind media µ dacˇa abaterea standard σ nu este cunoscutˇa.
Dacˇa dimensiunea e¸santionului este suficient de mare (ˆın general vorbind, e¸santioane
a cˇaror mˇarimi este mai mare decˆat n = 30 de date sunt considerate suficient de mari),
deviat ¸ia standard s a e¸santionului este o estimare bunˇa a deviat ¸iei standard a populat ¸iei ¸si
putem susbstitui σ cu s ˆın procedura discutatˇa deja. Dacˇa populat ¸ia pe care o investigˇ am
este aproape normalˇa ¸si n ≤ 30, atunci procedeul se bazeazˇa pe distribut ¸ia Student t.
Distribut ¸ia Student t (sau simplu t distribut ¸ia) este distribut ¸ia statisticii t, definitˇa prin:
t =
x −µ
s

n
ˆ
In anul 1908 W.S. Gosset un funct ¸ionar la o fabricˇa de bere ˆın Irlanda a publicat o
lucrare relativˇa la aceastˇa distribut ¸ie sub pseudonimul ”Student”.
ˆ
In lucrarea lui Gosset
se presupune cˇa populat ¸ia este normalˇa. Aceastˇa restrict ¸ie s-a dovedit ulterior restrictivˇa,
ˆıntrucˆ at se obt ¸in rezultate satisfˇacˇatoare ¸si pentru multe populat ¸ii care nu sunt normale.
Ecuat ¸ia care define¸ste distribut ¸ia t nu o dˇam aici, doar dˇam cˆateva proprietˇat ¸i ale lui t:
1) distribut ¸ia t are media 0;
2) distribut ¸ia t este simetricˇa fat ¸ˇa de medie;
3) distribut ¸ia t are variant ¸a supraunitarˇa, dar dacˇa dimensiunea e¸santionului cre¸ste,
variant ¸a tinde la 1;
4) distribut ¸ia t ˆın jurul mediei este sub ¸si departe de medie este deasupra distribut ¸iei
normale;
5) fiecˇarei mˇarimi de e¸santion ˆıi corespunde o distribut ¸ie t separatˇa care depinde de
mˇarimea e¸santionului. Dacˇa mˇarimea e¸santionului cre¸ste atunci t- distribut ¸ia tinde
la distribut ¸ia normalˇa.
52
Figura 7:
Cu toate cˇa pentru fiecare mˇarime de e¸santion (n=2,3,4,...) avem o distribut ¸ie t separatˇa
completˇa, ˆın practicˇa doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate ˆın dreapta mediei sunt redate ˆın tabelul urmˇator:
α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015
53
α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
Figura 8:
ˆ
In acest tabel df are valorile de la 1 la 29 ¸si este numˇ arul gradelor de libertate.
Apropierea valorilor din liniile corespunzˇatoare lui df = 29 ¸si z se datoreazˇa faptului
cˇa dacˇa n ≥ 30 distribut ¸ia t este cea normalˇa (teorema limitˇa centralˇa).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se folose¸ste pentru a identifica distribut ¸ia care trebuie folositˇa.
ˆ
In considerat ¸iile
noastre df = n − 1, unde n este mˇarimea e¸santionului. Valoarea criticˇa a testului t care
trebuie folositˇa ˆın estimarea intervalului de ˆıncredere precum ¸si ˆın verificarea ipotezelor
statistice se obt ¸ine din tabelul prezentat. Pentru a obt ¸ine aceastˇa valoare este nevoie de
a cunoa¸ste:
1) df - numˇarul gradelor de libertate;
2) α aria determinatˇa de curba de repartit ¸ie aflatˇa ˆın dreapta valorii critice. Aceastˇa
valoare este notatˇa t(df, α).
54
Exemplul 17.1. Determinat ¸i t(10, 0.05) din tabel. Avem df = 10 ¸si α = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate ˆın stˆanga mediei se obt ¸in cu formula: −t(df, α),
t ¸inˆ and seama de simetria distribut ¸iei t.
Figura 9:
Se observˇa u¸sor cˇa −t(df, α) = t(df, 1 −α). Astfel: −t(df; 0, 05) = t(df; 0, 95).
Exemplul 17.2. Determinat ¸i t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.
Figura 10:
Statistica t este folositˇa ˆın verificarea ipotezelor statistice privind asert ¸iuni relative la
media µ de aceea¸si manierˇa ca ¸si statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: ”nivelul monoxidului de carbon ˆın aer este mai mare decˆat 4, 9/10
6
”.
Un e¸santion de 25 de determinˇari cu media x = 5, 1/10
6
¸si s = 2, 1/10
6
este un argument
suficient pentru a sust ¸ine afirmat ¸ia? Se folose¸ste nivelul de semnificat ¸ie α = 0, 05.
Etapa 1. H
0
: µ = 4, 9/10
6
Etapa 2. H
a
: µ > 4, 9/10
6
55
Etapa 3. α = 0, 05; df = 25 −1 = 24 ¸si t(24; 0, 05) = 1, 71 din tabel.
Etapa 4.
t

=
x −µ
s

n
=
5, 1 −4, 9
2, 1/

25
=
0, 20
0, 42
= 0, 476 · 0, 48
Etapa 5. Decizia: Nu putem respinge H
0
(t

nu este ˆın regiunea criticˇa).
Concluzie: Nu avem suficiente argumente pentru ca sˇa respingem
ipoteza cˇa nivelul monoxidului de carbon este 4, 96/10
6
.
Figura 11:
Remarca 17.1. Dacˇa valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea
criticˇa a lui t(df, α) este foarte apropiatˇa de z(α) (scorul z este listat la capˇatul tabelului)
¸si prin urmare ˆın loc de t(df, α) se folose¸ste z(α). Deoarece tabelul considerat cont ¸ine doar
valorile critice ale distribut ¸iei t, p-valoarea nu poate fi gˇasitˇa din tabel ˆın cazul verificˇarii
ipotezei statistice pentru cˇa aceasta necesitˇa distribut ¸ia t completˇa. P-valoarea poate fi
ˆınsˇ a estimatˇa folosind tabelul.
Exemplul 17.4. Sˇa revenim la exemplul 17.3. Ret ¸inem t

= 0, 48, df = 24 ¸si H
a
: µ > 49.
Astfel pentru a rezolva problema folosind varianta probabilistˇa pentru Etapa 5 cu p-
valoarea avem:
p = P(t > 0, 48, ¸stiind df = 24)
56
Figura 12:
Rˆandul df = 24 din tabel aratˇa cˇa p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel aratˇa cˇa P(t > 0, 685) = 0, 25 a¸sa cum aratˇa figura urmˇatoare:
Figura 13:
Comparˆand t

= 0, 48, vedem cˇa p− valoarea este mai mare ca 0, 25.
Exemplul 17.5. Sˇa se determine p−valoarea pentru urmˇatoarea ipotezˇa statisticˇa:
H
0
: µ = 55
H
a
: µ ,= 55
ˆın condit ¸iile ˆın care df = 15 ¸si t

= −1, 84.
Solut ¸ie: p = P(t < −1, 84) + P(t > 1, 84) = 2 P(t > 1, 84). Rˆandul df = 15 din tabel
aratˇa cˇa P(t > 1, 84) este ˆıntre 0, 025 ¸si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populat ¸iei poate fi estimatˇa dacˇa σ este necunoscut de o manierˇa similarˇa cu cazul
σ cunoscut. Diferent ¸a este cˇa se folose¸ste distribut ¸ia t ˆın loc de distribut ¸ia z ¸si deviat ¸ia
standard s ca estimare a lui σ. Formula pentru intervalul de ˆıncredere 1 −α este:
_
x −t(df,
α
2
)
s

n
, x + t(df,
α
2
)
s

n
_
57
Figura 14:
unde df = n −1.
Exemplul 17.6.
ˆ
In cazul unui e¸santion aleator de 20 de noi nˇascut ¸i, media greutˇat ¸ii lor
este 3, 4 kg ¸si deviat ¸ia standard este 0, 9 kg. Sˇa se estimeze cu o ˆıncredere de 95% media
greutˇat ¸ii noilor nˇascut ¸i.
Solut ¸ie: x = 3, 4 kg, s = 0, 9 kg ¸si n = 20, iar 1 −α = 0, 95, implicˇa: α = 0, 05; df = 19,
iar din tabel gˇasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:
x ±t(19; 0, 025)
s

n
= 3, 4 ±2, 09
0, 9

20
3, 4 ±2, 09
0, 9
4, 472
= 3, 4 ±0, 46
Intervalul de ˆıncredere de 95% este (2, 94; 3, 86).
58
18 Inferent ¸ˇa relativˇa la variant ¸ˇa ¸si estimarea variant ¸ei
Adesea se pun probleme care cer sˇa facem inferent ¸ˇ a asupra variant ¸ei. De exemplu, o
companie de produse rˇacoritoare are o ma¸sinˇ a de ˆımbuteliat, care umple cu rˇacoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusˇa ˆın fiecare butelie este importantˇa, dar
cantitatea medie corectˇa nu asigurˇa cˇa ma¸sina lucreazˇa corect. Dacˇa variant ¸a este mare,
vor fi multe butelii care sunt prea umplute ¸si multe butelii care nu sunt bine umplute.
De aceea, compania dore¸ste sˇa controleze variant ¸a σ
2
a cantitˇat ¸ii x de rˇacoritoare pusˇa ˆın
fiecare butelie ¸si sˇa ment ¸inˇa variant ¸a la un nivel cˆat mai scˇazut posibil.
Vom prezenta ˆın aceastˇa sect ¸iune o inferent ¸ˇ a privind variant ¸a unei populat ¸ii. Adesea ˆın
cazul acestei inferent ¸e se vorbe¸ste despre deviat ¸ia standard ˆın loc de variant ¸ˇ a. Trebuie sˇa
subliniem cˇa deviat ¸ia standard este rˇadˇ acinˇa pˇatratˇa a variant ¸ei; a¸sadar a vorbi despre
variant ¸ˇa este comparabil cu a vorbi despre deviat ¸ie standard.
Sˇa revenim la exemplul companiei de produse rˇacoritoare. Sˇa ne imaginˇam cˇa aceastˇa
companie dore¸ste sˇa detecteze cˆand variabilitatea cantitˇat ¸ii de rˇacoritoare pusˇa ˆın fiecare
butelie scapˇa de sub control. O variant ¸ˇ a de 0, 0004 este consideratˇa acceptabilˇa ¸si
compania va regla ma¸sina de ˆımbuteliat dacˇa variant ¸a devine mai mare decˆat aceastˇa
valoare. Decizia va fi luatˇa folosind verificarea ipotezelor statistice. Ipoteza H
0
este cˇa
variant ¸a are valoarea 0, 0004, iar ipoteza H
a
este cˇa variant ¸a depˇa¸se¸ste valoarea 0, 0004:
H
0
: σ
2
= 0, 0004 (variant ¸a este controlatˇ a)
H
a
: σ
2
> 0, 0004 (variant ¸a nu este controlatˇa)
Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H
0
este testul χ
2
.
Valoarea calculatˇa a lui χ
2
se va obt ¸ine folosind formula:
χ
2
=
n s
2
σ
2
unde s
2
este variant ¸a e¸santionului, n este mˇarimea e¸santionului, iar σ
2
este valoarea
specificatˇa ˆın ipoteza nulˇ a.
Dacˇa se iau e¸santioane de mˇarime n dintr-o populat ¸ie normalˇa, avˆand variantˇa σ
2
, atunci
cantitatea n s
2

2
are o distribut ¸ie care se nume¸ste distribut ¸ia χ
2
. Formula care define¸ste
distribut ¸ia χ
2
nu o vom da aici, dar pentru a folosi distribut ¸ia χ
2
, prezentˇam urmˇatoarele
proprietˇat ¸i ale acesteia:
1. distribut ¸ia χ
2
are valori nenegative, este zero sau este pozitivˇa;
2. distribut ¸ia χ
2
nu este simetricˇa, este asimetricˇa la dreapta;
3. existˇa mai multe repartit ¸ii χ
2
. Ca ¸si pentru distribut ¸iile t existˇa o distribut ¸ie χ
2
pentru fiecare grad de libertate. Inferent ¸a pe care o discutˇam aici se referˇa la cazul
df = n −1.
Valorile critice ale lui χ
2
sunt date ˆın tabelul urmˇator:
59
df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0
60
Figura 15:
Valorile critice vor fi identificate prin douˇa valori: grade de libertate ¸si aria situatˇa sub
curbˇa ˆın dreapta valorii critice. Astfel χ
2
(df, α) este simbolul folosit pentru identificarea
valorii critice χ
2
cu df grade de libertate ¸si cu aria α sub grafic ¸si ˆın dreapta, a¸sa cum
este prezentat pe figura urmˇatoare:
Figura 16:
Exemplul 18.1. Folosind tabelul determinat ¸i χ
2
(20; 0, 05) ¸si χ
2
(14; 0, 90).
Din tabel se obt ¸ine: χ
2
(20; 0, 05) = 31, 4 ¸si χ
2
(14; 0, 90) = 7, 79.
Remarca 18.1. Dacˇa df > 2 valoarea medie a lui χ
2
este df. Valoarea medie este
localizatˇa ˆın dreapta modului (locul ˆın care curba atinge valoarea maximˇa).
61
Figura 17:
Exemplul 18.2. Reluˇam cazul companiei de produse rˇacoritoare care doresc sˇa controleze
variant ¸a ca sˇa nu depˇa¸seascˇ a 0, 0004. Un e¸santion de mˇarime 28 cu o variant ¸ˇa de 0, 0010
indicˇa oare la nivelul de semnificat ¸ie 0, 05 cˇa procesul de ˆımbuteliere nu este sub control
(referitor la variant ¸ˇ a)?
Solut ¸ie:
Etapa 1. H
0
: σ
2
= 0, 0004 (procesul este sub control)
Etapa 2. H
0
: σ
2
> 0, 0004 (procesul nu este sub control)
Etapa 3. α = 0, 05, n = 28, df = 27 ¸si obt ¸inem din tabel:
χ
2
(27; 0, 005) = 40, 1.
Etapa 4.
χ
2

=
n s
2
σ
2
=
28 0, 0010
0, 0004
= 70
Etapa 5. Luarea deciziei.
Figura 18:
62
Concluzia: Procesul de ˆımbuteliere este sub control ˆın ceea ce prive¸ste variant ¸a.
Exemplul 18.3. Specificat ¸iile unui anumit medicament indicˇa cˇa fiecare comprimat
trebuie sˇa cont ¸inˇ a 2,5 g de substant ¸ˇ a activˇa. 100 de comprimate alese la ˆıntˆ amplare
din product ¸ie sunt analizate. Ele cont ¸in ˆın media 2,6 g de substant ¸ˇ a activˇa cu o deviat ¸ia
standard de s = 0, 4g.
Se poate spune cˇa medicamentul respectˇa specificat ¸iile (α = 0, 05)?
Etapa 1. Ipoteza H
0
este ca medicamentul respectˇa specificat ¸iile:
H
0
: µ = 2, 5
Etapa 2. Ipoteza H
a
este ca medicamentul nu respectˇa specificat ¸iile:
H
0
: µ ,= 2, 5
Etapa 3. Statistica folositˇa este media x, iar nivelul de semnificat ¸ie este α = 0, 05.
Regiunea criticˇa este:
Etapa 4. Testul statistic este:
z =
x −µ
s

n
=
2, 6 −2, 5
0, 4
10
=
0, 1
0, 04
= 2, 5
Valoarea lui z ˆın tabel este: z
0,975
= 1, 96 < 2, 5.
Etapa 5. Ipoteza H
0
este respinsˇa, a¸sadar nu putem spune cˇa medicamentul
respectˇa specificat ¸iile.
Abordarea probabilistˇa a inferent ¸ei statistice asupra variant ¸ei, p-valoarea poate fi estimatˇa
pentru verificarea ipotezelor statistice folosind tabelul statistic χ
2
de aceea¸si manierˇa ca
¸si ˆın cazul testului Student.
Exemplul 18.4. Sˇa se determine p-valoarea ˆın cazul urmˇatoarelor ipoteze statistice:
H
0
: σ
2
= 150
H
a
: σ
2
> 150
Se cunosc: df = 18 ¸si χ
2

= 32, 7.
Solut ¸ie: p = P(χ
2
> 32, 7) ∈ (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit ˆın determinarea utilitˇat ¸ii unui examen ca mˇasurˇa
a abilitˇat ¸ii student ¸ilor este ”ˆımprˇ a¸stierea” rezultatelor. Un set de rezultate al unui test
are valoare micˇa dacˇa plaja notelor este micˇa. Din contrˇ a dacˇa plaja notelor este mare,
este o diferent ¸ˇa mare ˆıntre rezultatul cel mai bun ¸si rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maximˇa este de 100 de puncte s-a pretins
cˇa o deviat ¸ie standard de 12 puncte este de dorit. Pentru a vedea dacˇa un anume test
de o orˇa a fost sau nu un test bun din acest punct de vedere un profesor verificˇ a aceastˇa
ipotezˇa statisticˇa la nivelul de semnificat ¸ie α = 0, 05 folosind rezultatele obt ¸inute de clasˇa.
Au fost 28 de rezultate ¸si deviat ¸ia standard gˇasitˇa a fost 10, 5. Constituie aceasta o probˇa
la nivelul de semnificat ¸ie α = 0, 05 cˇa examenul nu are deviat ¸ia standard specificatˇa?
Solut ¸ie: n = 28, s = 10, 5 ¸si α = 0, 05
Etapa 1. H
0
: σ = 12
63
Etapa 2. H
0
: σ ,= 12
Etapa 3. α = 0, 05, df = 27 ¸si obt ¸inem valorile critice din tabel:
χ
2
1
(27; 0, 975) = 14, 6 ¸si χ
2
2
(27; 0, 025) = 43, 2.
Etapa 4.
χ
2

=
n s
2
σ
2
=
28 (10, 5)
2
(12)
2
=
3087
144
= 21, 43
Etapa 5. Nu se poate respinge H
0
.
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H
0
64
19 Generalitˇat ¸i despre corelat ¸ie.
Corelat ¸ie liniarˇa
ˆ
In statisticˇa adesea apar probleme de genul urmˇator: pentru aceea¸si populat ¸ie avem douˇa
seturi de date corespunzˇatoare la douˇa variabile distincte ¸si se pune ˆıntrebarea dacˇa ˆıntre
cele douˇa variabile existˇa vreo legˇaturˇa (relat ¸ie)? Dacˇa da, care este aceastˇa relat ¸ie? Cum
sunt aceste variabile corelate? Relat ¸iile pe care le discutˇam aici nu sunt neapˇarat de tip
cauzˇa-efect. Ele sunt relat ¸ii matematice care permit anticiparea comportamentului unei
variabile ˆın funct ¸ie de comportamentul celeilalte. Iatˇa cˆateva exemple:
Exemplul 19.1.
-
ˆ
In general o persoanˇa care cre¸steˆınˆınalt ¸ime cre¸ste ¸si ˆın greutate. Se puneˆıntrebarea:
existˇa vreo relat ¸ie ˆıntre ˆınalt ¸ime ¸si greutate?
- Student ¸ii ˆı¸si petrec timpul la universitate ˆınvˇ at ¸ˆand sau dˆand examene. Se pune
ˆıntrebarea: studiind mai mult, obt ¸ii note mai mari?
- Doctorii care testeazˇa un nou medicament prescriu cantitˇat ¸i diferite ¸si observˇa
rˇaspunsul pacient ¸ilor; se pune ˆıntrebarea: cantitatea de medicament prescrisˇa
determinˇa oare timpul de ˆınsˇ anˇato¸sire al pacientului?
Problemele din exemplul precedent cer analiza corelat ¸iei dintre douˇa variabile.
ˆ
In cazul ˆın care pentru o populat ¸ie avem douˇa seturi de date corespunzˇatoare la douˇa
variabile distincte se formeazˇa perechile de date (x, y), ˆın care x este valoarea primei
variabile ¸si y este valoarea celei de-a doua variabile. De exemplu, x este ˆınˇat ¸imea ¸si y este
greutatea.
O pereche ordonatˇa de date (x, y) se nume¸ste datˇa bidimensionalˇa.
ˆ
In mod tradit ¸ional, variabila X (avˆ and valorile x) se nume¸ste variabilˇa de intrare
(variabilˇa independentˇa), iar variabila Y (avˆand valorile y) se nume¸ste variabilˇa de
ie¸sire (variabilˇa dependentˇa).
Variabila de intrare X este cea mˇasuratˇ a sau controlatˇ a pentru a prezice variabila Y .
ˆ
In cazul testˇarii medicamentului doctorii (mˇasoarˇa) controleazˇ a cantitatea de medicament
prescrisˇa ¸si deci aceastˇa cantitate x este valoarea variabilei de intrare (independentˇ a) X.
Timpul de recuperare y este valoarea variabilei de ie¸sire (dependente) Y .
ˆ
In cazul ˆınˇalt ¸imii ¸si greutˇat ¸ii oricare din variabile poate fi atˆat variabilˇ a de intrare cˆat ¸si
variabilˇa de ie¸sire. Rezultatele analizei vor fi ˆınsˇa funct ¸ie de alegerea fˇacutˇ a.
ˆ
In cazul problemelor de analizˇa a corelat ¸iei dintre douˇa variabile datele e¸santionului se
prezintˇ a sub forma unei diagrame de ˆımprˇ a¸stiere.
Definit ¸ia 19.1. O diagramˇa de ˆımprˇa¸stiere sau nor de puncte este reprezentarea
graficˇa a perechilor de dateˆıntr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de ie¸sire Y sunt
reprezentate pe axa Oy.
65
Exemplul 19.2. Pentru un e¸santion de 15 student ¸i urmˇatorul tabel de date reprezintˇa
numˇ arul de ore de studiu x pentru un examen ¸si nota y obt ¸inutˇa la acel examen:
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
Diagrama de ˆımprˇ a¸stiere ˆın acest caz este:
Exemplul 19.3. Diagrama de ˆımprˇa¸stiere ˆın cazul tabelului de date:
x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9
este:
Analiza de corelat ¸ie are ca obiectiv sˇa stabileascˇa legˇatura dintre cele douˇa variabile.
Vom prezenta cˆateva diagrame de ˆımprˇa¸stiere pentru a ilustra corelat ¸ii posibile dintre
variabila de intrare X ¸si variabila de ie¸sire Y .
Definit ¸ia 19.2. Dacˇa pentru valorile x crescˆande ale variabilei de intrare X nu existˇa o
deplasare clarˇa (bine definitˇa) ale valorilor y ale variabilei Y , atunci zicem cˇa nu avem
corelat ¸ie sau cˇa nu existˇa legˇaturˇa ˆıntre X ¸si Y .
66
Diagrama de ˆımprˇ a¸stiere ˆın cazul ˆın care nu avem corelat ¸ie este urmˇatoarea:
Definit ¸ia 19.3. Dacˇa pentru valorile x crescˆande ale variabilei de intrare X existˇa o
deplasare clarˇa (bine definitˇa) ale valorilor y ale variabilei Y zicem cˇa avem o corelat ¸ie.
Zicem cˇa avem o corelat ¸ie pozitivˇa dacˇa y tinde sˇa creascˇa ¸si avem o corelat ¸ie
negativˇa dacˇa y tinde sˇa descreascˇa odatˇa cu cre¸sterea lui x.
Precizia schimbˇarii lui y atunci cˆand x cre¸ste determinˇa cˆat de puternicˇa este corelat ¸ia.
Diagramele de ˆımprˇ a¸stiere care urmeazˇa ilustreazˇa aceste idei:
Figura 19: Diagramˇa de ˆımprˇ a¸stiere ˆın cazul unei corelat ¸ii pozitive
67
Figura 20: Diagramˇa de ˆımprˇa¸stiere ˆın cazul unei corelat ¸ii pozitive strˆanse
Figura 21: Diagramˇa de ˆımprˇ a¸stiere ˆın cazul unei corelat ¸ii negative
Figura 22: Diagramˇa de ˆımprˇ a¸stiere ˆın cazul unei corelat ¸ii negative strˆanse
Definit ¸ia 19.4. Dacˇa perechile (x, y) tind sˇa urmeze o dreaptˇa zicem cˇa avem o corelat ¸ie
liniarˇa.
Definit ¸ia 19.5. Dacˇa toate perechile (x, y) se gˇasesc pe o dreaptˇa (care nu este nici
orizontalˇ a nici verticalˇ a) atunci zicem cˇa avem o corelat ¸ie liniarˇa perfectˇa.
68
Figura 23: Diagramˇa de ˆımprˇ a¸stiere ˆın cazul unei corelat ¸ii pozitive liniare perfecte
Remarca 19.1. Dacˇa toate perechile (x, y) se gˇasesc pe o dreaptˇa orizontalˇa sau verticalˇa
nu existˇa corelat ¸ie intre cele douˇa variabile. Aceasta ˆıntrucˆ at schimbarea uneia nu
afecteazˇa valoarea celeilalte variabile.
Remarca 19.2. Diagramele de ˆımprˇ a¸stiere nu sunt totdeauna de genul celor prezentate
pˆanˇa acum ¸si sugereazˇa corelat ¸ii care sunt de altˇa naturˇa.
Figura 24: Diagramˇa de ˆımprˇ a¸stiere ˆın cazul unei corelat ¸ii neliniare
Definit ¸ia 19.6. Coeficientul de corelat ¸ie liniarˇa r mˇasoarˇa cˆat de puternicˇa este
corelat ¸ia liniarˇa dintre cele douˇa variabile. Reflectˇa consistent ¸a efectului pe care-l are
schimbarea valorii variabilei independente X asupra variabilei dependente Y .
Remarca 19.3. Valoarea coeficientului de corelat ¸ie liniarˇa r permite sˇa se formuleze
un rˇaspuns la ˆıntrebarea: existˇa o corelat ¸ie liniarˇa ˆıntre cele douˇa variabile considerate?
Coeficientul de corelat ¸ie liniarˇa r are valoarea ˆıntre −1 ¸si +1. Valoarea r = +1 ˆınseamnˇ a
o corelat ¸ie liniarˇa pozitivˇa perfectˇa, iar valoarea r = −1 ˆınseamnˇ a o corelat ¸ie liniarˇa
negativˇa perfectˇa.
Dacˇa pentru x crescˆand rezultˇa o cre¸stere generalˇa a valorilor lui y, atunci r indicˇa o
corelat ¸ie liniarˇa pozitivˇa.
De exemplu, ˆın cazul copiilor dacˇa x este vˆarsta ¸si y este ˆınˇ alt ¸imea, atunci ne a¸steptˇam ca
r sˇa fie pozitiv, pentru cˇa ˆın mod natural, ˆınˇ at ¸imea copilului cre¸ste o datˇa cu vˆarsta.
ˆ
In
69
cazul automobilelor de serie, dacˇa x este vˆarsta, iar y este valoarea, atunci ne a¸steptˇ am
ca r sˇa fie negativ pentru cˇa ˆın mod uzual valoarea automobilului descre¸ste cu vˆarsta lui.
Definit ¸ia 19.7. Coeficientul de corelat ¸ie liniarˇa r ˆın cazul unui e¸santion este prin
definit ¸ie:
r =

(x −x) (y −y)
n s
x
s
y
ˆın care s
x
, s
y
sunt deviat ¸iile standard ale variabilelor x, y, iar n este numˇarul de perechi
(x, y).
Remarca 19.4. Pentru a calcula r de obicei se folose¸ste o formulˇ a alternativˇa echivalentˇa:
r =
SS(x, y)
_
SS(x) SS(Y )
unde: SS(x) =

x
2

1
n

_

x
_
2
, SS(y) =

y
2

1
n

_

y
_
2
, SS(x, y) =

x y −
1
n

_

x

y
_
.
Exemplul 19.4. Sˇa se determine coeficientul de corelat ¸ie liniarˇa r ˆın cazul unui e¸santion
aleator de mˇarime 10, dacˇa tabelul de date este:
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Folosind aceste date avem:
SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0
de unde gˇasim:
r =
919, 0
_
(1396, 9) (858, 0)
= 0, 8394 ≈ 0, 84.
Remarca 19.5. Dacˇa valoarea calculatˇa r este apropiatˇa de 0, atunci nu existˇa corelat ¸ie
liniarˇa.
Dacˇa valoarea calculatˇa r este aproape de +1 sau −1, atunci bˇanuim cˇa ˆıntre cele douˇa
variabile exista corelat ¸ie liniarˇa.
ˆ
Intre 0 ¸si 1 existˇa o valoare numitˇ a punct de decizie care indicˇa dacˇa existˇa sau nu existˇa
corelat ¸ie liniarˇa. Un punct simetric existˇa ¸si ˆıntre −1 ¸si 0. Valoarea punctului de decizie
depinde de mˇarimea e¸santionului.
ˆ
In tabelul urmˇator sunt trecute puncte de decizie pozitive pentru diferite mˇarimi de
e¸santionare cuprinse ˆıntre 5 ¸si 100.
70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelat ¸ie liniarˇa
Valorile punctelor de decizie descresc dacˇa n cre¸ste.
Dacˇa r se gˇase¸ste ˆıntre punctul de decizie negativ ¸si cel pozitiv nu avem argumente ca sˇa
sust ¸inem cˇa ˆıntre cele douˇa variabile existˇa o corelat ¸ie liniarˇa.
Dacˇa r este mai mare decˆat punctul de decizie pozitiv sau mai mic decˆat punctul de
decizie negativ atunci ˆıntre cele douˇa variabile existˇa o corelat ¸ie liniarˇa.
Existent ¸a unei corelat ¸ii ˆıntre cele douˇa variabile nuˆınseamnˇa cˇa existˇa o relat ¸ie
cauzˇa efect. Astfel, de exemplu, dacˇa X este alocat ¸ia pentru copii ˆın ultimii 10 ani ¸si
Y este consumul de bˇauturi alcoolice ˆın ultimii 10 ani, un e¸santion de aceste date aratˇa
o corelat ¸ie pozitivˇa strˆansˇa fˇarˇa ca alocat ¸ia pentru copii sˇa fie cauza vˆanzˇarii bˇauturilor
alcoolice sau viceversa.
O metodˇa rapidˇa de estimare a coeficientului de corelat ¸ie liniarˇa r ˆın cazul unui e¸santion
este urmˇatoarea:
a) Se deseneazˇa o curbˇa ˆınchisˇa ˆın jurul valorii mult ¸imii de perechi (x, y):
71
b) Se determinˇa lungimea D a diametrului maxim:
c) Se determinˇa lungimea diametrului minim d:
d) Valoarea r se estimeazˇa cu ±
_
1 −
d
D
_
, ˆın care semnul se alege ˆın funct ¸ie de
orientarea diametrului D:
Trebuie subliniat cˇa aceastˇa estimare este grosierˇa. Este foarte sensibilˇa la ˆımprˇ a¸stiere.
Cu toate acestea dacˇa plaja de valori a lui X este aproximativ aceea¸si ca plaja de valori
a lui Y aproximat ¸ia este utilˇa.
72
20 Analizˇa de corelat ¸ie liniarˇa
ˆ
In sect ¸iunea 20 am vˇazut care este formula coeficientului de corelat ¸ie liniarˇa r ˆıntre douˇa
variabile X, Y menit sˇa mˇasoare cˆat de strˆansˇa este relat ¸ia de dependent ¸ˇ a liniarˇa dintre
cele douˇa variabile.
ˆ
In cele ce urmeazˇa vom prezenta o analizˇa mai amˇanunt ¸itˇ a a acestei formule. Considerˇam
pentru ilustrat ¸ie urmˇatorul set de date bidimensionale:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
Diagrama de ˆımprˇ a¸stiere ˆın acest caz este:
Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.
Punctul (x, y) este punctul (7, 3) ¸si se nume¸ste centroid al datelor:
73
Dacˇa prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se ˆımparte ˆın patru submult ¸imi. Fiecare datˇa (x, y) se gˇase¸ste la o anumitˇa distant ¸ˇ a
de aceste linii; x − x este distant ¸a cu semn de la (x, y) la paralela la axa Oy ¸si y − y
este distant ¸ˇa cu semn de la (x, y) la paralela Ox. distant ¸ele cu semn sunt pozitive sau
negative ˆın funct ¸ie de pozit ¸ia lui (x, y) fat ¸ˇ a de (x, y).
O mˇasurˇ a a dependent ¸ei liniare ar putea fi covariant ¸a. Covariant ¸a dintre X ¸si Y este
definitˇa ca suma produselor distant ¸elor cu semn x−x ¸si y−y a tuturor datelor la centroid
ˆımpˇ art ¸itˇa la n:
covar(x, y) =
n

i=1
(x
i
−x) (y
i
−y)
n
Covariant ¸a ˆın cazul tabelului de date considerate este 0, 6.
Covariant ¸a pozitivˇa ˆınseamnˇa cˇa diagrama de dispersie este dominatˇa de date care se
gˇasesc deasupra ¸si ˆın dreapta centroidului sau dedesubt ¸si ˆın stˆanga acestuia. Aceasta
ˆıntrucˆ at produsele (x −x) (y −y) ˆın puncte din aceste regiuni sunt pozitive.
Dacˇa diagrama de dispersie este dominatˇa de date care se gˇasesc deasupra ¸si ˆın stˆanga sau
dedesubt ¸si ˆın dreapta centroidului atunci covariant ¸a este negativˇa pentru cˇa produsele
(x −x) (y −y) pentru puncte din aceste regiuni sunt negative.
Covariant ¸a ˆınsˇ a nu este convenabilˇa pentru a mˇasura cˆat este de strˆansˇ a relat ¸ia de
dependent ¸ˇ a liniarˇa ˆıntre douˇa variabile fiindcˇa depinde de unitˇat ¸ile de mˇasurˇ a ale datelor.
Covariant ¸a nu are o unitate de mˇasurˇ a standardizatˇa ¸si ˆımprˇa¸stierea datelor influent ¸eazˇa
foarte mult mˇarimea covariant ¸ei.
Astfel de exemplu dacˇa ˆınmult ¸im datele din tabelul considerat anterior cu 10 obt ¸inem
tabelul de date:
x 20 30 60 80 110 120
y 10 50 30 20 60 10
Covariant ¸a ˆın cazul acestui tabel de date este 60, dar aceasta nu ˆınseamnˇa nicidecum cˇa
relat ¸ia de dependent ¸ˇ a liniarˇa ˆıntre X, Y este mai strˆansˇ a. Relat ¸ia de dependent ¸ˇ a liniarˇa
74
este aceea¸si ¸si doar datele sunt mai ˆımprˇa¸stiate. Aceasta este problema cu covariant ¸a
atunci cˆand vrem sˇa mˇasurˇ am cu ajutorul ei dependent ¸a liniarˇa ˆıntre douˇa variabile.
Trebuie sˇa gˇasim o cale de eliminare a efectului ˆımprˇa¸stierii datelor atunci cˆand mˇasurˇam
dependent ¸a.
Dacˇa standardizˇam X ¸si Y ˆımpˇart ¸ind deviat ¸ia fiecˇareia de la media sa cu deviat ¸ia
standard:
x

=
x −x
s
x
¸si y

=
y −y
s
y
¸si calculˇam covariant ¸a lui X

¸si Y

, vom avea o covariant ¸ˇa care nu mai este influent ¸atˇa de
ˆımprˇ a¸stierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelat ¸ie liniar r. Astfel coeficientul de corelat ¸ie liniar este:
r = covar(X

, Y

) =
covar(X, Y )
s
x
s
y
Coeficientul de corelat ¸ie liniarˇa standardizeazˇa mˇasura dependent ¸ei ¸si ne permite sˇa com-
parˇam cˆat de strˆansˇa este dependent ¸a liniarˇa a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelat ¸ie liniarˇa adesea poartˇa denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelat ¸ie liniarˇa r ˆın cazul setului de date considerat la ˆınceput
este:
r =
0, 6
(4, 099) (2, 098)
= 0, 07
Pentru cˇa determinarea coeficientului de corelat ¸ie liniarˇa cu ajutorul formulei:
r =
covarX, Y
s
x
s
y
este greoaie, ˆın locul ei se folose¸ste una practicˇa:
r =
SS(X, Y )
_
SS(X) SS(Y )
Aceasta din urmˇa formulˇ a evitˇa calculul separat al lui x, y, s
x
, s
y
precum ¸si calculul
deviat ¸iilor de la medie.
75
21 Inferent ¸ˇa privind coeficientul de corelat ¸ie liniarˇa
Dupˇa ce coeficientul de corelat ¸ie liniarˇa r a fost calculat pentru un e¸santion se pune ˆın
mod natural ˆıntrebarea: valoarea lui r indicˇa oare cˇa existˇa o dependent ¸ˇ a liniarˇa ˆıntre
cele douˇa variabile ˆın cazul populat ¸iei din care e¸santioanele au fost luate?
Pentru a rˇaspunde la aceastˇa ˆıntrebare facem o verificare a ipotezelor statistice.
Etapa 1. Formularea ipotezei nule H
0
:
”Cele douˇa variabile sunt liniar necorelate.”
Aceasta ˆınseamnˇ a ρ = 0, ρ fiind coeficientul de corelat ¸ie pentru
populat ¸ie.
Etapa 2. Formularea ipotezei alternative.
Aceasta poate fi unilateralˇa sau bilateralˇa. Cel mai frecvent este
bilateralˇa ρ ,= 0. Cu toate acestea dacˇa suspectˇam cˇa avem doar o
singurˇa corelat ¸ie pozitivˇa ori o singurˇa corelat ¸ie negativˇa trebuie sˇa
folosim test unilateral. Ipoteza alternativˇa ˆın cazul testului unilateral
este: ρ > 0 sau ρ < 0.
Etapa 3. Regiunea criticˇa pentru testul statistic este ˆın partea dreaptˇa dacˇa ne
a¸steptˇ am la o corelat ¸ie pozitivˇa ¸si este ˆın stˆanga dacˇa ne a¸steptˇ am la o
corelat ¸ie negativˇa.
Testul statistic folosit pentru testarea ipotezei nule este scorul standard ¸si valoarea tes-
tului statistic este valoarea lui r calculatˇa din e¸santion. Valorile critice pentru r se gˇasesc
ˆın urmˇatorul tabel la intersect ¸ia coloanei corespunzˇatoare valorii lui α ¸si a liniei core-
spunzˇatoare gradului de libertate df = n −2:
76
Valorile critice pentru r dacˇa ρ = 0
df[α 0,10 0,05 0,02 0,01
1 0,988 0,997 1,000 1,000
2 0,900 0,950 0,980 0,980
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,662 0,707 0,789 0,834
7 0,582 0,666 0,750 0,798
8 0,549 0,632 0,716 0,765
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,590
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,360 0,423 0,492 0,537
25 0,323 0,381 0,445 0,487
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se folose¸ste ˆın verifi-
carea ipotezelor statistice.
Etapa 4. Se determinˇa r din e¸santion.
Etapa 5. Se determinˇa dacˇa r este ˆın regiunea criticˇa sau nu.
Neacceptarea ipotezei nule ˆınseamnˇ a cˇa existˇa o probˇa a dependent ¸ei dintre cele douˇa
variabile ale populat ¸iei
Ment ¸iune: Aceasta nu ˆınseamnˇa cˇa am stabilit o relat ¸ie de tip cauzˇa efect ci
doar o relat ¸ie matematicˇa care permite sˇa se prezicˇa comportamentul variabilei
77
de ie¸sire Y din comportamentul variabilei de intrare X.
Exemplul 21.1.
ˆ
In cazul tabelului de date:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
avem n = 6, iar r = 0, 07.
ˆ
Intrebarea este dacˇa aceastˇa valoare a lui r diferˇa de zero ˆın
mod semnificativ dacˇa nivelul de semnificat ¸ie este α = 0, 02?
Etapa 1. H
0
: ρ = 0
Etapa 2. H
0
: ρ ,= 0
Etapa 3. Avem α = 0, 02 ¸si df = n − 2 = 6 − 2 = 4. Valorile critice din tabel
sunt: −0, 882 ¸si 0, 882.
Etapa 4. Valoarea calculatˇa a lui r este r

= 0, 07
Etapa 5. Se acceptˇa H
0
.
Concluzie: Nu am putut arˇata cˇa X, Y sunt corelate. Dacˇa acceptˇam ipoteza nulˇa
ˆınseamnˇ a cˇa independent ¸a liniarˇa dintre cele douˇa variabile a fost arˇatatˇa.
Ca ¸si ˆın alte probleme, uneori se cere estimarea unui interval de ˆıncredere pentru
coeficientul de corelat ¸ie ρ. Este posibilˇa estimarea coeficientului de corelat ¸ie ρ folosind
un tabel care ne dˇa centuri de ˆıncredere. Tabelul urmˇator reprezintˇa asemenea centuri
de ˆıncredere pentru intervale de ˆıncredere de 95%: Exemplul urmˇator aratˇa cum trebuie
citit un asemenea tabel.
Exemplul 21.2. Pentru un e¸santion de 15 perechi de date o valoare calculatˇa a lui r este
r = 0, 35. Sˇa se determine intervalul de ˆıncredere 95% pentru coeficientul de corelat ¸ie
liniar ρ a populat ¸iei?
1) Se localizeazˇa 0, 35 pe axa orizontalˇ a (axa coeficientului de corelat ¸ie liniarˇa) ¸si se
duce linia verticalˇa.
78
2) Se determinˇa intersect ¸ia liniei verticale cu centurile corespunzˇatoare mˇarimii
e¸santionului (aceasta fiind 15) ¸si se obt ¸in douˇa puncte pe linia verticalˇa.
3) Intervalul de ˆıncredere este intervalul determinat de ordonatele acestor puncte
(−0, 20, −0, 72) (axa ordonatelor este axa coeficientului de corelat ¸ie a populat ¸iei).
79
22 Regresie liniarˇa
Dacˇa valoarea coeficientului de corelat ¸ie liniarˇa r indicˇa o corelat ¸ie liniarˇa strˆansˇ a atunci se
pune problema stabilirii unei relat ¸ii numerice exacte. Aceastˇa relat ¸ie exactˇa este obt ¸inutˇa
prin regresie liniarˇa.
ˆ
In general statisticianul cautˇa o ecuat ¸ie care exprimˇa relat ¸ia dintre douˇa variabile. Ecuat ¸ia
aleasˇa este cea mai bunˇa fitare a diagramei de dispersie. Ecuat ¸iile gˇasite se numesc ecuat ¸ii
de predict ¸ie, iar ˆın continuare sunt prezentate cˆateva asemenea ecuat ¸ii:
y = b
0
+ b
1
x - liniarˇa
y = a + b x + c x
2
- pˇatraticˇa
y = a b
x
- exponent ¸ialˇ a
y = a log
b
x - logaritmicˇa.
Obiectivul final este ca folosind ecuat ¸ii sˇa se facˇa predict ¸ii.
ˆ
In general valoarea exactˇa a
variabilei Y nu este prezisˇa. Ne mult ¸umim dacˇa predict ¸ia este suficient de apropiatˇa.
Definit ¸ia 22.1. Regresia liniarˇa stabile¸ste dependent ¸a liniarˇaˆın medie a lui y ˆın funct ¸ie
de x.
Vom descrie ˆın continuare cum se stabile¸ste cea mai bunˇa dependent ¸ˇ a liniarˇa pentru un
set de date (x, y).
Dacˇa relat ¸ia de dependent ¸ˇ a liniarˇa pare potrivitˇa, cea mai bunˇa relat ¸ie liniarˇa se stabile¸ste
cu metoda celor mai mici pˇatrate.
Sˇa presupunem cˇa ˆ y = b
0
+b
1
x este cea mai bunˇa relat ¸ie liniarˇa. Metoda celor mai mici
pˇatrate cere ca b
0
¸si b
1
sˇa fie astfel ˆıncˆat

(y − ˆ y)
2
sˇa fie minimˇa.
Din teorema lui Fermat rezultˇa cˇa valorile minime ale funct ¸iei:
F(b
0
, b
1
) =

(y −b
0
−b
1
x)
2
se obt ¸in pentru
b
1
=

(x −x) (y −y)

(x −x)
2
, b
0
=
1
n

_

y −b
1

x
_
b
1
este panta dreptei, iar b
0
este ordonata la origine.
Pentru determinarea pantei b
1
de obicei se folose¸ste formula echivalentˇa:
b
1
=
SS(x, y)
SS(x)
unde: SS(x) =

x
2

1
n

_

x
_
2
¸si SS(x, y) =

x y −
1
n

_

x

y
_
.
Ment ¸ionˇ am aici cˇa expresiile SS(x, y) ¸si SS(x) apar ¸si ˆın formula de calcul al coeficientului
de corelat ¸ie liniarˇa. De aceea ˆın momentul calculˇarii lui r putem afla ¸si valoarea pantei
b
1
.
80
Exemplul 22.1.
ˆ
In cazul unui e¸santion de 10 indivizi considerˇam urmˇatorul set de date.
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Pentru a determina cea mai bunˇa relat ¸ie liniarˇa ˆ y = b
0
+ b
1
x se calculeazˇa SS(x, y) ¸si
SS(x) ¸si se obt ¸ine:
SS(x, y) = 919, 0 ¸si SS(x) = 1396, 9
de unde panta b
1
este:
b
1
=
919, 0
1396, 9
= 0, 6599 ≈ 0, 66.
Pentru a determina ordonata ˆın origine b
0
se folose¸ste formula de calcul a acesteia ¸si
rezultˇa:
b
0
=
1
10
[380 −0, 65 351] = 14, 9077 ≈ 14, 9
Astfel cea mai bunˇa relat ¸ie liniarˇa este:
ˆ y = 14, 9 + 0, 66 x
Remarca 22.1.
a) Panta b
1
reprezintˇa schimbarea prezisˇa a variabilei y corespunzˇatoare unei cre¸steri
cu o unitate a variabilei x.
b) Ordonata b
0
reprezintˇ a valoarea lui y ˆın x = 0. Doar dacˇa x = 0 este ˆın domeniul
de date putem spune cˇa b
0
este valoarea prezisˇa a lui y pentru x = 0.
c) Cea mai bunˇa relat ¸ie liniarˇa este o dreaptˇa ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci cˆand se traseazˇa graficul celei
mai bune relat ¸ii liniare.
Exemplul 22.2.
ˆ
In cazul unui e¸santion aleator de 8 indivizi considerˇam urmˇatorul tabel
de date
x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130
Diagrama de ˆımprˇ a¸stiere a acestui set de date sugereazˇa o corelat ¸ie liniarˇa.
81
Pentru a gˇasi cea mai bunˇa relat ¸ie de dependent ¸ˇa liniarˇa calculˇam SS(x, y) ¸si SS(x) ¸si
gˇasim:
SS(x, y) = 230, 0 ¸si SS(x) = 48, 875
De aici avem:
b
1
=
230, 0
48, 875
= 4, 706 ≈ 4, 71.
b
0
=
1
n
_

y −b
1

x
_
= −186, 478 ≈ 186, 5
de unde:
ˆ y = −186, 5 + 4, 71 x
Remarca 22.2. O estimare ”grosierˇa” a celei mai bune relat ¸ii de dependent ¸ˇa liniarˇa se
poate face ˆın felul urmˇator:
- ca ¸si ˆın cazul aproximˇarii coeficientului de corelat ¸ie r se considerˇa o curbˇa ˆınchisˇ a
ˆın jurul mult ¸imii de perechi (x, y);
- diametrul maxim al mult ¸imii este o aproximare a graficului de dependent ¸ˇa liniarˇa;
- se scrie ecuat ¸ia de dependent ¸ˇa liniarˇa ca ecuat ¸ia unei drepte ce trece prin douˇa
puncte de pe acest diametru;
- ca ¸si ˆın cazul estimˇarii lui r aceastˇa estimare este una grosierˇa ¸si trebuie folositˇa ca
atare.
82
23 Analizˇa de regresie liniarˇa
Modelul liniar folosit pentru a explica dependent ¸a liniarˇa a douˇa variabile referitoare la
aceea¸si populat ¸ie este definit de ecuat ¸ia:
y = β
0
+ β
1
x + ε
Aceastˇa ecuat ¸ie reprezintˇa relat ¸ia liniarˇa dintre douˇa variabile x ¸si y ˆıntr-o populat ¸ie.
ˆ
In
aceastˇa relat ¸ie:
- β
0
este ordonata la origine;
- β
1
este panta;
- y este valoarea observatˇ a la o valoare datˇa a lui x;
- β
0
+ β x este media lui y pentru valoarea datˇa a lui x
Remarcˇam cˇa eroarea ε depinde de x. Pentru valorile x
1
, x
2
, . . . , x
n
ale lui x modelul liniar
se scrie:
y
i
= β
0
+ β
1
x
i
+ ε
i
, i = 1, 2, . . . , n
- ε este eroarea aleatoare a valorii observate y la o valoare datˇa a lui x care reprezintˇ a
deviat ¸ia valorii observate y de la medie.
Dreapta de regresie liniarˇa obt ¸inutˇ a ˆ y = b
0
+ b
1
x pe baza datelor (x
i
, y
i
), i = 1, 2, . . . , n
ne dˇa b
0
care este o estimare pentru β
0
¸si b
1
care este o estimare pentru β
1
. Atunci vom
putea scrie y
i
= b
0
+ b x
i
+ e
i
. Erorile sunt estimate prin y
i
− ˆ y
i
care este diferent ¸a
dintre valoarea observatˇa y
i
¸si valoarea prezisˇa ˆ y
i
a lui y la o valoare datˇa a lui x. Fiindcˇa
ˆ y
i
= b
0
+ b
1
x
i
avem cˇa:
e
i
= y
i
− ˆ y
i
Erorile e
i
sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmˇatoarele proprietˇat ¸i:
• e > 0 ⇐⇒ y > ˆ y;
• e < 0 ⇐⇒ y < ˆ y;
• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecint ¸ˇ a a metodei celor mai mici pˇatrate; ¸si astfel media erorilor
experimentale este zero:
n

i=1
e
i
= 0.
Notˇam cu σ
2
ε
variant ¸a erorilor aleatoare a datelor observate ¸si ne propunem sˇa estimˇam
aceastˇa variant ¸ˇ a.
ˆ
Inainte ˆınsˇa sˇa trecem la estimarea variant ¸ei σ
2
ε
sˇa analizˇam put ¸in ce reprezintˇ a eroarea
ε? ε reprezintˇa diferent ¸a dintre valoarea observatˇ a y ¸si valoarea medie a lui y pentru o
valoare datˇa a lui x.
ˆ
Intrucˆat nu cunoa¸stem valoarea medie a lui y, vom folosi ecuat ¸ia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ˆ y valoarea prezisˇa
de ecuat ¸ia de regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ˆ y.
83
Dacˇa pentru o valoare datˇa x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala ˆın x pe axa Ox.
O distribut ¸ie similarˇa apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x ¸si se estimeazˇa cu ˆ y.
Altfel spus, deviat ¸ia standard a distribut ¸iei datelor y de la medie este aceea¸si pentru orice
x:
84
Reamintim cˇa variant ¸a s
2
a unui set de date statistice x
1
, x
2
, . . . , x
n
a fost definitˇa cu
formula:
s
2
=
1
n
n

i=1
(x
i
−x)
2
Determinarea variant ¸ei setului de date y introduce o complicat ¸ie pentru cˇa media datelor
y diferˇa de la un x la altul. Pentru fiecare x media este estimatˇa prin valoarea prezisˇa ˆ y ce
corespunde la x prin dreapta de regresie. Astfel variant ¸a erorii ε se estimeazˇa cu formula:
s
2
ε
=
1
n
n

i=1
(y
i
− ˆ y
i
)
2
care aratˇa cˇa variant ¸a erorii ε este variant ¸a variabilei y ˆın jurul dreptei de regresie.
Variant ¸a erorii s
2
ε
poate fi scrisˇa sub forma:
s
2
ε
=
1
n

(y −b
0
−b
1
x
i
)
2
=
1
n
_

y
2
i
−b
0

y −b
1
x
i
y
i
_
¸si este o estimare a lui σ
2
ε
Exemplul 23.1. O persoanˇa care se mutˇa la Timi¸soara ¸si se angajeazˇa la o companie
dore¸ste sˇa ¸stie ˆın cˆat timp poate sˇa ajungˇa dimineat ¸a cu ma¸sina de la locuint ¸ˇ a la locul de
muncˇ a. Pentru a gˇasi un rˇaspuns la aceastˇa ˆıntrebare el ˆıntreabˇa un numˇ ar de 15 colegi la
ce distant ¸ˇa stau de locul de muncˇa ¸si ˆın cˆat timp ajung la serviciu ¸si ˆıntocme¸ste urmˇatorul
tabel de date statistice:
coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distant ¸a
(ˆın km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(ˆın min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45
Pentru a gˇasi un rˇaspuns la problemˇa persoana ˆın cauzˇa trebuie sˇa determine dreapta de
regresie ¸si variant ¸a s
2
e
.
Folosind formulele de calcul el gˇase¸ste:
SS(x) = 2, 616 −
(184)
2
15
= 358, 9333
85
SS(x, y) = 5, 623 −
(184) (403)
15
= 679, 53333
b
1
=
358, 9333
679, 53333
= 1, 893202 ≈ 1, 89
b
0
=
1
15
[403 −(1, 893202) (184)] = 3, 643387 ≈ 3, 64
ˆ y = 3, 64 + 1, 89 x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu ˆın funct ¸ie de distant ¸a x la care locuie¸ste.
Pentru a gˇasi abaterea standard de la valoarea estimatˇa el va trebui sˇa calculeze ¸si variant ¸a
s
2
ε
. Folosind formulele de calcul el gˇase¸ste: s
2
ε
= 29, 17.
86
24 Inferent ¸ˇa referitoare la panta unei drepte de re-
gresie liniarˇa
Dupˇa ce ecuat ¸ia dreptei de regresie liniarˇa a fost determinatˇa ne ˆıntrebˇ am cˆand putem
folosi aceastˇa ecuat ¸ie pentru a prezice valorile variabilei y ˆın funct ¸ie de x?
Rˇaspunsul laˆıntrebare ˆıl vom da parcurgˆand procedeul de verificare a ipotezelor statistice.
ˆ
Inainte de a face inferent ¸ˇ a privind dreapta de regresie facem urmˇatoarele ipoteze:
- pentru fiecare x distribut ¸ia datelor y observate este aproximativ normalˇa;
- pentru fiecare x variant ¸a distribut ¸iei datelor y observate este aceea¸si.
ˆ
Inainte sˇa trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sˇa analizˇam distribut ¸ia pantelor ce se obt ¸in pentru e¸santioane aleatoare de
mˇarime n. Aceste pante b
1
au o distribut ¸ie aproape normalˇa avˆand media β
1
panta ˆın
cazul populat ¸iei ¸si variant ¸a σ
2
b
1
datˇa de:
σ
2
b
1
=
σ
2
ε

(x −x)
2
Un estimator adecvat s
2
b
1
a lui σ
2
b
1
se obt ¸ine prin ˆınlocuirea lui σ
2
ε
cu s
2
e
:
s
2
b
1
=
s
2
e

(x −x)
2
Aceastˇa formulˇa poate fi scrisˇa sub forma:
s
2
b
1
=
s
2
e
SS(x)
=
s
2
e

x −
_
(

x)
2
/n
¸
Eroarea standard a regresiei (pantei) este σ
b
1
¸si este estimatˇa prin s
b
1
.
Putem trece acum la verificarea ipotezelor statistice:
Etapa 1. Formularea ipotezei H
0
. Ipoteza nulˇ a va fi β
1
= 0. Dacˇa β
1
= 0
atunci ecuat ¸ia liniarˇa nu poate fi folositˇa pentru a prezice valoarea lui
y aceasta ˆınseamnˇ a cˇa: ˆ y = y.
Etapa 2. Ipoteza alternativˇa poate fi unilateralˇa sau bilateralˇa. Dacˇa bˇanuiala
este cˇa panta este pozitivˇa atunci un test unilateral este potrivit:
H
a
: β
1
> 0.
Etapa 3. Ca test statistic folosim testul t. Numˇarul gradelor de libertate pentru
test este df = n − 2.
ˆ
In cazul Exemplului 23.1 care se referˇa la timpul
necesar pentru a ajunge cu ma¸sina la servici df = 15−2 = 13. La nivelul
de semnificat ¸ie α = 0, 05, valoarea criticˇa a lui t este t(13; 0, 05) = 1, 77.
Formula de calcul folosit pentru valoarea testului statistic t pentru
inferent ¸ˇ a este:
t

=
b
1
−β
1
s
b
1
87
Etapa 4. Avˆand ˆın vedere egalitatea s
2
b
1
=
s
2
e
SS(X)
ˆın cazul exemplului considerat
gˇasim cˇa valoarea testului statistic este:
t

=
b
1
−β
1
s
b
1
=
1, 89 −0

0, 0813
= 6, 629 ≈ 6, 63
Etapa 5. Decizie: ipoteza H
0
se respinge pentru cˇa t

este ˆın regiunea criticˇa.
Concluzie: Panta dreptei de cea mai bunˇa aproximat ¸ie este mai mare
ca zero. Probele statistice aratˇa cˇa existˇa o relat ¸ie liniarˇa ˆıntre distant ¸a
locuint ¸ˇa-serviciu ¸si perioada de timp necesarˇa pentru a ajunge cu ma¸sina
la serviciu ¸si aceastˇa perioadˇa de timp este predictibilˇa.
Panta β
1
a dreptei de regresie liniarˇa a populat ¸iei poate fi estimatˇa cu ajutorul inter-
valului de ˆıncredere. Capetele acestui interval de ˆıncredere sunt date de formula:
b
1
±t(n −2;
α
2
) s
b
1
ˆ
In cazul Exemplului 23.1 la nivelul de semnificat ¸ie α = 0, 05:
1, 89 ±2, 16
_
0, 0813 = 1, 89 ±0, 62
capetele intervalului de ˆıncredere sunt 1, 27 ¸si 2, 51.
Deci intervalul de ˆıncredere pentru β
1
este (1, 27; 2, 51) la nivelul de semnificat ¸ie 0, 05.
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statisticˇa - teorie ¸si aplicat ¸ii, Editura All, 1995,
Bucure¸sti
[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,
1991,Paris
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lect ¸ii de statisticˇa descrip-
tivˇa, Universitatea de Vest, 1998, Timi¸soara
[5] Boc¸san Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,
1995, Timi¸soara
[6] Yule G. Udny, Kendall, M.G., Introducere ˆın teoria statisticii, Editura S¸tiint ¸ificˇa,
1969, Bucure¸sti
89