Professional Documents
Culture Documents
Capitolul 1
INTRODUCERE ÎN STATISTICĂ
CONŢINUT:
3
Statistică – curs universitar ID
4
Statistică – curs universitar ID
5
Statistică – curs universitar ID
- continue;
- discontinue (discrete).
7
Statistică – curs universitar ID
8
Statistică – curs universitar ID
Capitolul 2
CONŢINUT:
1. Locul şi rolul observării în cadrul cercetării statistice;
2. Structura şi funcţionarea sistemului informaţional
statistic;
3. Metode de observare statistică;
4. Proiectarea unei observări statistice;
5. Eroarea în statistică;
6. Generalităţi privind prelucrarea statistică;
7. Planul prelucrării statistice;
8. Tehnici de prelucrare.
10
Statistică – curs universitar ID
11
Statistică – curs universitar ID
12
Statistică – curs universitar ID
13
Statistică – curs universitar ID
5. Eroarea în statistică
Ca în toate domeniile, eroarea este prezentă şi în statistică. Din
acest motiv controlul calităţii datelor statistice trebuie realizat pe
parcursul cercetării statistice.
Notând cu x0 o valoare reală şi cu x o valoare statistică
determinată, valoarea
e = x – x0
e = x / x0
IeI <= ε
14
Statistică – curs universitar ID
15
Statistică – curs universitar ID
8. Tehnici de prelucrare
16
Statistică – curs universitar ID
17
Statistică – curs universitar ID
18
Statistică – curs universitar ID
A = x max – x min.
Frecvenţa sau ponderea reprezintă numărul de unităţi la care
se întâlneşte acelaşi nivel de dezvoltare sau aceeaşi formă de
manifestare. Această mărime poate fi exprimată fie prin valori
absolute (în care o anumită valoare se înregistrează de un anumit
număr de ori) , fie prin mărimi relative de structură (în care o anumită
valoare se înregistrează în x% din cazuri).
19
Statistică – curs universitar ID
20
Statistică – curs universitar ID
Capitolul 3
CLASIFICAREA ŞI GRUPAREA
STATISTICĂ
CONŢINUT:
1. Generalităţi;
2. Clasificarea statistică;
3. Modalităţi practice de obţinere a grupării
statistice.
1. GENERALITĂŢI
21
Statistică – curs universitar ID
2. CLASIFICAREA STATISTICĂ
3. MODALITĂŢI PRACTICE
DE OBŢINERE A GRUPĂRII STATISTICE
Intervin în prelucrarea datelor de masă culese într-o observare
special organizată. În asemenea cazuri, de obicei, nu există grupări cu
caracter permanent şi fiecare grupare se elaborează ca un element de
sine stătător.
Practic gruparea statistică presupune împărţirea colectivităţii în
funcţie de o caracteristică numerică , împărţire necesară în cazul unui
număr mare sau foarte mare de valori distincte ale caracteristicii de
22
Statistică – curs universitar ID
X1 inf – x1 sup F1
X2 inf – x2 sup F2
Xi inf – xi sup Fi
Xn inf – xn sup Fn
Total n
∑ fi
i =1
23
Statistică – curs universitar ID
sup inf
- în primul caz: hi = xi − xi
inf sup
- în al doilea caz: hi = xi +1 − xi +1
În statistica economico-socială este posibil ca limita inferioară
a primului interval, notată cu x1inf, sau limita superioară a ultimului
interval (xn sup) să fie omise. Se spune că respectivele intervale sunt
deschise, fiind necesară închiderea lor pe baza ipotezei egalităţii
intervalelor vecine.
În calculele ulterioare, intervalul de grupare este reprezentat
prin centrul sau mijlocul intervalului, stabilit astfel:
Caz I: prin media aritmetică simplă a limitelor de interval;
Caz II: prin adunarea la limita inferioară a jumătăţii
intervalului respectiv.
Reprezentarea grafică a seriilor de repartiţie se face prin
histogramă sau poligonul frecvenţelor, situaţie în care pe axa
absciselor se reprezintă caracteristica, iar pe axa ordonatelor se va
reprezenta frecvenţa acesteia.
Reprezentarea grafică a seriilor e foarte importantă şi
sugestivă, fiind deseori utilizată în vederea creşterii expresivităţii şi
puterii de înţelegere a fenomenelor social-economic. În multe situaţii,
gruparea pe intervale egale este neconcludentă.
În procesul de elaborare a grupării apar intervale neegale de
grupare. Acestea nu rezultă prin aplicarea unor reguli mecanice şi se
fundamentează pe argumentele analizei calitative de conţinut a
materialului statistic.
Dacă scopul grupării este evidenţierea tipurilor calitative, vor
fi utilizate intervale neegale. În acest caz, gruparea se numeşte
tipologică. În statistica socio-economică apar adesea şi grupări după o
caracteristică teritorială. Aceste grupări sunt în general grupări
mecanice. Tot prin acest procedeu se fac şi grupările după o
caracteristică temporală.
24
Statistică – curs universitar ID
25
Statistică – curs universitar ID
26
Statistică – curs universitar ID
Capitolul 4
INDICATORI STATISTICI
CONŢINUT:
1. Necesitatea folosirii indicatorilor statistici
2. Indicatorii statistici primari şi derivaţi
3. Mărimile relative ca indicatori statistici
4. Mărimile medii
27
Statistică – curs universitar ID
28
Statistică – curs universitar ID
29
Statistică – curs universitar ID
30
Statistică – curs universitar ID
4. Mărimile medii
Un loc important în categoria indicatorilor derivaţi şi în
categoria indicatorilor sintetici îl ocupă mărimile medii, utilizate pe
scara larga, atât in activitatea de planificare şi conducere, cât si în
cercetările statistice diverse.
31
Statistică – curs universitar ID
∑
i =1
xi ⋅ f i ∑f i
x= i =1
n xh = n
∑ i =1
fi ∑x
1
i
⋅ fi
i =1
c) Media pătratică d) Media geometrică
∑ fi n
∏x
i =1
x p = n xg = i =1
i
fi
∑
i =1
fi i =1
APLICAŢIE 1
Calculul mediilor în statistică
Media este valoarea care conţine tot ceea ce este esenţial şi
stabil într-o mulţime de valori individuale care caracterizează un
fenomen sau un proces statistic.
Media mai este numită speranţa matematică a datelor şi
reprezintă valoarea cu care s-ar putea înlocui toţi termenii unei serii de
distribuţie dacă aceşti termeni nu ar fii supuşi unor factori complecşi
de influenţă, care diferenţiază valorile individuale ale seriilor după
diferite atribute.
Cele mai utilizate medii în statistică sunt: media aritmetică,
media armonică, media pătratică, media geometrică. Toate pot fii
calculate ca medii simple sau medii ponderate.
Mediile simple se calculează în cazul seriilor simple, în care
fiecare valoare particulară apare o singură dată sau de un număr
limitat de ori, în aşa fel încât să poată fi introdusă separat în calcul.
Mediile ponderate se calculează în cazul seriilor de repartiţie
de frecvenţe, în care valorile individuale sunt grupate pe intervale,
32
Statistică – curs universitar ID
∑x
i =1
i
x1 , x 2 K xi K x n
x= = Media aritmetică se
n n calculează astfel
xi se not valoarea individuala i a caracteristicii x
b) media aritmetică ponderată se calculează după formula
n
∑x
i =1
i fi
x1 f 1 + x 2 f 2 + + xifi + + xnfn
x= =
n
f 1 + f 2 + + fi + + fn
∑f
i =1
i
∑x
i =1
i fi
27660
x= = = 48,35
572
∑f i
x' =
∑ ( xi ± a) f i = x ± a x' =
13360
= 23,25 = 48,35 − 25
∑ fi 572
b) dacă înmulţim sau împărţim frecvenţele absolute ale unei serii de
repartiţie cu aceeaşi constantă k, media recalculată a seriei pe baza
noilor frecvenţe rămâne nemodificată.
33
Statistică – curs universitar ID
fi
∑x i
k = 6915 = 48,35
x' ' =
f 143
∑ ki
Cele două proprietăţi ale mediei aritmetice ponderate sunt utilizate
pentru aplicarea unei a formule de calcul prescurtat mediei,scăzând
eventual o anumită valoare sau termenul cel mai mic al seriei din toţi
termenii seriei şi adăugându-l la media finală obţinută şi simplificând
de obicei frecvenţele absolute cu cel mai mare divizor comun al
acestora.
Media armonică.
Se aplică în general în seriile de distribuţie care au repartiţie
hiperbolică a termenilor.
fI
1
∑f
i =1
i
x hp = n = n
1 1
∑
i =1 x i
fi ∑x
i =1
fi
i
n
∑f
i =1
i
572
x hp = = 4,31 x hp ≤ x
12,624
Observaţie: media armonică este mai mică sau cel mult egală cu media
aritmetică a aceleiaşi serii de repartiţie.
34
Statistică – curs universitar ID
APLICAŢIA 2
Despre un eşantion de unităţi comerciale selectat întâmplător şi
nerepetat şi care reprezintă 10% din numărul total al unităţilor se
cunosc următoarele:
Se cere:
1. Să se calculeze indicatorii statistici care caracterizează
distribuţia unităţilor comerciale după valoarea vânzărilor..
2. Să se arate dacă eşantionul este omogen din punct de
vedere al vânzărilor realizate.
3. Caracterizaţi şi măsuraţi asimetria eşantionului după
valoarea vânzărilor realizate.
4. Calculaţi mărimile posibile pe baza datelor de mai sus şi
efectuaţi reprezentarea lor grafică.
REZOLVARE:
Distribuţia unităţilor menţionate formează o serie de repartiţie
unidimensională , cu frecvenţe absolute, cu intervale egale, principalii
indicatori care caracterizează această serie fiind indicatorii tendinţei
centrale.
Indicatorii tendinţei centrale sunt: mărimile medii, indicatorul mediu
de poziţie, indicatorul variaţiei, indicatorul de asimetrie şi exces.
În distribuţia prezentată se observă că valoarea inferioară a primului
interval şi limita superioară a ultimului interval nu au fost precizate.
Este necesară precizarea acestor valori, deoarece în calculele
ulterioare va intra şi centrul de interval drept valoare a caracteristicii
atributive. Operaţiunea de precizare a celor 2 limite nu reprezintă
închiderea limitelor. Ea se efectuează astfel: dacă seria de distribuţie
este cu intervale egale atunci limitele primului şi ultimului interval se
precizează egalizând cele două intervale cu toate celelalte.
Dacă intervalele nu sunt egale şi se cunoaşte legea de repartiţie
a unităţilor statistice, atunci mărimea intervalelor va fi luată cu
aproximaţie în conformitate cu această lege.
Dacă nu se cunoaşte legea de repartiţie, atunci primul interval
va fi luat egal cu al doilea, iar ultimul cu penultimul.
O problemă importantă în calcului statistic este legată de
numărul de zecimale cu care se lucrează deoarece calculele pot fi
distorsionate în urma rotunjirilor.
Se recomandă lucrul cu cât mai multe zecimale pentru exactitate,
numărul minim al acestora fiind 3.
35
Statistică – curs universitar ID
Calculul mediilor
Media aritmetică
xi xi f i xi2 f i 1 f i lg x i
fi
xi
30 540 16200 0,6 26,588
32 768 24576 0,75 36,124
34 850 28900 0,735 38,287
36 468 16848 0,361 20,232
38 304 11552 0,210 12,638
40 280 11200 0,175 11,214
42 210 8920 0,119 8,186
3420 118096 2,95 153,1996
2. media pătratică
xp =
∑x 2
i
;
∑x f 2
i i
= 34,365
n ∑f i
3. media armonică
n
∑f
i =1
i
100
xh = n
= = 33,898
1 2,95
∑x f
i =1
i
4. media geometrică
n
n
∑ fi n
∏ xi ; ∏x
fi
xg = n x g = i =1 i
i =1 i =1
log aritmare
⎛ 1 ⎞
x g = anti lg⎜
⎜∑ f ∑ f i lg x i ⎟
⎟
⎝ i ⎠
regula în cadrul mediilor este: x h < x g < x < x p
Pe lângă medii, indicatorii de poziţie centrală sunt completaţi
de mediană şi modul.
Mediana este valoarea seriei care o împarte pe aceasta în 2
părţi egale. Altfel spus, numărul termenilor seriei care au o valoarea
mai mică decât mediana este egal cu numărul termenilor seriei care
are o valoare mai mare.
Locul medianei:
n
∑f
i =1
i +1
U Me = = 50.5 (33 − 35)
2
36
Statistică – curs universitar ID
valoarea medianei:
1⎡ n ⎤ me −1
∑ i ⎥⎦ − ∑
2 ⎢⎣ i =1
f + 1
i =1
fi
Me = x 0 + h
f me
h – lungimea intervalului medianei
f me –index, frecvenţa medianei
me −1
∑f
i =1
i - suma frecvenţelor anterioare intervalului medianei
Modul
Reprezintă valoarea seriei a cărei frecvenţe de apariţie este cea
mai mare.
Modulul se va plasa în intervalul cu frecvenţa cea mai mare
din cadrul seriei.
Formula de calcul:
Δ1 25 + 24
Mo = x0 + = 33 + = 33,07
Δ1 + Δ2 (25 + 24) + 25 − 13
Δ1 = f mo + f mo−1 ( frecventa int ervaluluiprecedentceluimodal )
Δ2 = f mo + f mo+1 (intervalulsuccesorceluimodal )
37
Statistică – curs universitar ID
38
Statistică – curs universitar ID
Capitolul V
Conţinut:
1. Probleme generale ale seriilor de repartiţie de
frecvenţă
2. Indicatori de frecvenţe
3. Indicatori ai tendinţei centrale
4. Indicatori ai variaţiei
5. Indicatorii variaţiei într-o colectivitate împărţită
pe grupe. Regula adunării dispersiilor.
2. Indicatori de frecvenţă
O serie de frecvenţe arată astfel:
Grupa I fi f ir n
Grupa n
fn f nr f nc = ∑f
i=1
i =n f nrc = 1
∑f*
n
= 1(100)
TOTAL ∑f
i =1
i =F i =1
i
40
Statistică – curs universitar ID
n
∑xi =1
i
x=
Media simplă: n
n
∑x ⋅ f
i =1
i i
x= n
∑f i
Media ponderată: i =1
∑f
i =1
i +1
U Me = = 50.5 (33 − 35)
Locul medianei: 2
1⎡ n ⎤ me −1
∑
2 ⎢⎣ i =1
f i + 1⎥ − ∑ fi
⎦ i =1
Me = x 0 + h
Valoarea medianei: f me
h – lungimea intervalului medianei;
f me –index, frecvenţa intervalului medianei;
me −1
∑f i
i =1 - suma frecvenţelor anterioare intervalului medianei.
Modul reprezintă valoarea seriei cu probabilitatea cea mai
mare de apariţie
Modulul se va plasa în intervalul cu frecvenţa cea mai mare
din cadrul seriei.
Formula de calcul:
41
Statistică – curs universitar ID
Δ
Mo = x 0 + h
Δ1 + Δ 2
Δ 1 = f mo + f mo −1 ( frecventa int ervalului precedent celui mod al )
4. Indicatori ai variaţiei
( −) x min − x
d max %= ⋅ 100
Abaterea maximă negativă relativă:: x
(+)
d max = xmax − x
Abaterea maximă pozitivă dmax(+) :
(+) x max − x
d max %= ⋅ 100
Abaterea maxima negativă relativă : x
42
Statistică – curs universitar ID
∑x
i =1
i −x
d=
1.1. Pentru o serie simplă : n
n
∑
i =1
xi − x ⋅ fi
d = n
∑ fi
1.2.Pentru o serie cu frecvenţe absolute: i =1
∑x
i =1
i − x ⋅ f ir %
d=
procente: 100
2. Abaterea medie pătratică, numită şi abatere medie tip sau
abaterea standard; se notează cu σ (sigma) şi se calculează ca o medie
pătratică din abaterile tuturor variantelor seriei de la media lor
aritmetică.
n
∑ (x
i =1
i − x) 2
σ=
2.1. Pentru o serie simplă n
n
∑ (x
i =1
i − x) 2 ⋅ f i
σ= n
∑f i
2.2. Pentru o serie de frecvenţe absolute: i =1
∑ (x i
2 r
− x) ⋅ f i (%) ∑ (x
i =1
i − x) 2 ⋅ f i r (%)
i =1
σ= =
100 10
De menţionat că abaterea medie pătratică va fi întotdeauna mai
mare decât abaterea medie lineară.
Prin ridicarea la pătrat a abaterilor liniare, abaterea medie
pătratică scoate în evidenţă tocmai valorile cele mai mari ale acestora.
Din acest motiv, abaterea medie pătratică va fi totdeauna mai mare
decât abaterea medie liniară.
3. Dispersia este un indicator sintetic al variaţiei extrem de
important deoarece cumulează gradul de împrăştiere al valorilor seriei Definiţia dispersiei
faţă de media lor. Ea este legată de abaterea medie pătratică fiind
43
Statistică – curs universitar ID
∑ ( x − x) i
2
σ2 = i =1
n
3.2. Pentru seriile de repartiţie cu frecvenţe absolute:
n
∑ ( xi − x ) 2 ⋅ fi
σ 2
= i =1
n
∑ i =1
fi
∑ (x
i =1
i − x) 2 ⋅ f i r %
σ2 =
in procente: 100
44
Statistică – curs universitar ID
nk1
nk 2 yk ο k2
xk nki nkm nk
i = n⋅ j n ⋅1 n ⋅ 2
n⋅m
n = ∑ n k = ∑ ∑ nij
n⋅i y ⇒
j =1 i j
2 2
⇒σ y = σ y / x + α y / x
∑n
i
ij = ni . Pentru o astfel de situaţie, se obţine o medie generală y ,
45
Statistică – curs universitar ID
∑ (yj =1
i − y i ) ⋅ n ij
2
cu frecventele de grupă: σ i = m . Vor exista k astfel
∑n
j =1
ij
∑(y i − y ) 2 ni
α y2 / x = i =1
k
∑n i =1
i
46
Statistică – curs universitar ID
APLICAŢIA 3
4 f cu1
Indicatorii variaţiei
Pe lângă indicatorii tendinţei centrale, o importanţă deosebită
pentru caracterizarea seriilor o au indicatorii variaţiei.
Aceştia se împart în 2 categorii: indicatori simplii ai variaţiei
şi indicatori sintetici.
Indicatorii simplii sunt: amplitudinea A = x max – x min
(diferenţa dintre valoarea maximă şi valoarea minimă a seriei), şi
abaterile individuale liniare ale valorilor seriei de la medial lor.
Indicatorii sintetici sunt:
- abaterea medie liniară – calculată ca media aritmetică simplă sau
ponderată între valorile absolute ale abaterilor liniare ale valorilor
seriei de la media acesteia.
47
Statistică – curs universitar ID
∑x
i =1
i −x
Pentru o serie simplă: d = ; pentru o serie de distribuţie cu
n
n
∑x
i =1
i − x fi
frecvenţe absolute: d = n
..
∑f
i =1
i
∑ (x i − x) 2
ϑ2 = i =1
n
Scrieţi dispersia pentru o serie de repartiţie cu frecvenţe absolute!
∑ (x i − x) 2 ∑ (x i − x) 2 f i
ϑ = i =1
; ϑ= i =1
n
--
n
∑f
i =1
i
Exemplu:
X ( x i − x) ( x i − x) f i ( x i − x) 2 f i
30 4,2 75,6 317,5
32 2,2 52,8 116,16
34 0,2 5 1
36 1,8 23,4 42,12
38 3,8 30,4 115,52
40 5,8 40,6 235,48
42 7,8 39 304,2
Σ = 266,8 Σ = 1132
48
Statistică – curs universitar ID
266,8
d= = 2.668
100
1132
ϑ2 = = 11,32
100
ϑ = 11,32 = 3,36
d
V= 100 = 7,8%
x
ϑ
V= 100 = 9,82%
x
Prin ambele metode coeficientul de variaţie este sub 10% deci,
seria poate fii apreciată ca o serie foarte omogenă.
APLICAŢIA 4
Considerăm 400 de salariaţi care formează un eşantion de 10%
selectat întâmplător şi nerepetat din numărul total al salariaţilor unei
firme. Se cunosc următoarele date referitoare la vechimea în muncă şi
timpul nelucrat:
SUBGRUPE
GRUPE TOTAL
35-45 45-55 55-65
0-10 0 25 75 100
10-20 24 80 56 160
20-30 126 14 0 140
Total 150 119 131 400
49
Statistică – curs universitar ID
⎛ x1 x2 xi xp ⎞
distributi a X ⎜⎜ ⎟ pe grupe;
⎝ f1 f2 fi f p ⎟⎠
⎛y y2 yi yn ⎞
distributi a Y ⎜⎜ 1 ⎟ pe subgrupe
⎝ f1 f2 fi f n ⎟⎠
Pentru fiecare subgrupă trebuie să calculăm: x, y,℘2 ,℘,℘i , Vi
Subgrupa I
Yi Frecvenţe
40 0
50 25
60 75
Subgrupa II
Yi Frecvenţe
40 24
50 80
60 56
Subgrupa III
Yi Frecvenţe
40 126
50 14
60 0
5740
y3 = = 41 ℘2 = 9 ℘ = 3
140
Colectivitatea generală
Yi frecvenţe
40 150
50 119
60 131
y = 49,525 ℘ = 70,02 ℘ = 8,36
2
Vi = 7,31
50
Statistică – curs universitar ID
Indicatori yi ℘2 ℘ Vi
Grupa
0-10 57,5 18,75 4,33 7,5
10-20 52 46 6,78 13,04
20-30 41 9 3 7,31
Colectiv. 49,52 70,02 8,36 16,88
Totală
2
Regula adunării dispersiilor: ℘T2 = ℘i + δ 2
Dispersia colectivităţi totale este egală cu suma dintre media
dispersiilor de grupă şi dispersia dintre grupe.
℘T2 = 70,02 .
Media dispersiilor de grupă se calculează ca o medie
ponderată, ponderând dispersiile fiecărei grupe cu frecvenţele de
apariţie.
℘i2 f
18,75 100
46,0 160
9 140
∑(y i − y) 2 f i
(57,5 − 49,52) 2 x100 + (52 − 49,5) 2 x160 + (41 − 49,52) 2 x140
δ2 = i =1
n
= = 43,78
400
∑f
i =1
i
51
Statistică – curs universitar ID
52
Statistică – curs universitar ID
Capitolul VI
SONDAJUL STATISTIC ŞI
UTILIZAREA LUI ÎN ECONOMIE
Conţinut:
1. Generalităţi
2. Noţiuni şi importanţă
3. Procedee şi modalităţi de alcătuire a
eşantioanelor
4. Estimarea mediei şi dispersiei populaţiei
folosind sondajul statistic
5. Precizia estimaţiei, probabilitatea de
încredere, intervalul de încredere
1. Generalităţi
53
Statistică – curs universitar ID
2. Noţiuni si importantă
n ∑ (x i − x) 2 m sW2 = W ⋅ (1 − W )
V=
Colectivitatea
n
∑ j =1
xi s =
2 i =1
n n
de selecţie x= n m S 2 = f (1 − f )
n
∑ (x − x) 2 f =
i
n
s2 = i =1
n −1
N N
Colectivitatea ∑x i ∑ (x i − x0 ) M σ P2 = P ⋅ (1 − P)
generală
N
x0 =
j =1
σ =
2 i =1 P=
N N N
55
Statistică – curs universitar ID
56
Statistică – curs universitar ID
Concluzie:
Cu aceeaşi probabilitate, se găseşte pentru media teoretică un
interval mai mic de acoperire în cazul sondajului A decât în cazul
sondajului B, motiv pentru care spunem că sondajul A este mai
eficient şi îl preferăm sondajului B.
57
Statistică – curs universitar ID
58
Statistică – curs universitar ID
59
Statistică – curs universitar ID
60
Statistică – curs universitar ID
S2 Sˆ
a) ℘ =2
x
; b) ℘x = , iar abaterea media pătratică este:
2
n n
S Sˆ
a ) ℘x = ; b ) ℘x =
n n
În aceste condiţii
P ( x − m < ∂ ) = P ( −∂ < x − m < ∂ ) =
⎛ ∂ x−m ∂ ⎞⎟
P⎜ − < < ) = 1−α
⎜ ℘ ℘ ℘ ⎟
⎝ x x x ⎠
61
Statistică – curs universitar ID
∂
no tan d = zα ⇒ ∂ = zα ⋅℘x
℘x
zα - valoarea tabelară a distribuţiei normale care satisface ecuaţia:
2φ ( zα ) = 1 − α
De aici rezultă că intervalul de încredere pentru medie este
următorul: x − zα ⋅℘x < m < x + zα ⋅℘x
De asemenea lungimea intervalului de încredere corespunzător
volumului n al eşantionului şi probabilităţii P va fii dat de relaţia:
x + zα ⋅℘x − x + zα ⋅℘x = 2 zα ⋅℘x = 2∂
62
Statistică – curs universitar ID
℘ 2
=
(xl min −x ) + (x
2
max −x )
2
max
2
Pentru caracteristicile binare ℘ = f (1 − f ) = 0,5(1 − 0,5) = 0.25
2
max
APLICAŢIA 5
∑x
i =1
i
3. Determinarea mediei colectivităţii de selecţie x = = 17,449
75
4. Determinarea dispersiei colectivităţii de selecţie
n
1
Sˆ 2 = ∑ ( xi − x) 2 = 0,6197
n − 1 i =1
64
Statistică – curs universitar ID
65
Statistică – curs universitar ID
66
Statistică – curs universitar ID
Capitolul VII
67
Statistică – curs universitar ID
68
Statistică – curs universitar ID
B. Metoda grupărilor
Deja studiată, este o metodă calitativă surprinzând esenţa
fenomenelor.
În gruparea statistică se poate vedea caracterul legăturilor,
direcţia lor, deoarece grupele sunt ordonate automat şi se poate estima
chiar intensitatea legăturii.
C. Tabelul de corelaţie
Este un tabel cu dublă intrare, sinonim cu o formă specială a
grupării combinate în care separarea pe grupe a unităţilor se face după
variaţia ambelor caracteristici (factorială şi rezultativă).
Valoarea caracteristicilor factoriale se trece în capul coloanelor
în ordine descrescătoare, iar valoarea caracteristicilor rezultative se
trece în capul liniilor în aceeaşi ordine.
La intersecţia dintre linii şi coloane se trec frecvenţele absolute
de apariţie.
În funcţie de modul în care se grupează aceste frecvenţe, se
poate trage o concluzie referitoare la direcţia legăturii şi forma ei.
x xn xn-1 ……………… x2 ,
x1
ym fmn fm,n-1 0
ym-1 fm-1,n-1 D1
.
.
.
. D2
y2 0 f22
y1 f11
y
**
**
**
*
69
Statistică – curs universitar ID
3. Metoda regresiei
y α+βx
θ
α
x
70
Statistică – curs universitar ID
71
Statistică – curs universitar ID
y=α+βx+δx2 ;
Y=a+bx+cx2
⎪
⎪⎩ a ∑ x i + b ∑ x i + c ∑ x i = ∑ x i y i
2 3 4 2
sistemul.
b) regresia multifactorială
⎨
⎪ a 0 ∑ x 2 + a 1 ∑ x1 x 2 + a 2 ∑ x 2 ....
2
⎪
⎩ a 0 ∑ x p + a 1 ∑ x1 x p + a 2 ∑ x 2 x p + ... + a p ∑ x p = ∑ x p y
2
∑ (x i − x)( y i − y )
este următorul: rxy =
i =1
n℘x℘y
unde ℘x℘y sunt abaterile medii pătratice ale variabilelor x şi y.
Faţă de covarianţă, relaţia dintre coeficient şi aceasta este:
cov( x, y )
rxy =
℘x℘y
Altfel spus, covarianţa abaterilor normate, zx şi zy se
transformă în coeficientul de corelaţie liniară simplă. În vederea
calculării facile a coeficientului de corelaţie, în practică se utilizează
74
Statistică – curs universitar ID
următoarea
relaţie:
n n n
n ∑ xi yi − ∑ xi ∑ yi
r xy = i =1 i =1 i =1
⎡ n 2 ⎛ n ⎞ ⎤⎡ n ⎞ ⎤
2 2
⎛ n
⎢n ∑ xi − ⎜ ∑ xi ⎟ ⎥ ⎢n ∑ yi −⎜ ∑ yi ⎟ ⎥
2
⎢⎣ i = 1 ⎝ i =1 ⎠ ⎥⎦ ⎢⎣ i = 1 ⎝ i =1 ⎠ ⎥⎦
Când intervin seriile de distribuţie cu frecvenţe absolute
această relaţie devine:
⎛ ⎞⎛ ⎞
n ∑ ∑ f xy x i y i − ⎜⎜ ∑ x i f xi ⎟⎟⎜⎜ ∑ y i f yi ⎟⎟
x y ⎝ x ⎠⎝ y ⎠
rxy =
⎡ ⎞ ⎤⎡ ⎞ ⎤
2 2
⎛ ⎛
⎢ n ∑ x i f xi − ⎜⎜ ∑ x i f xi ⎟⎟ ⎥ ⎢ n ∑ y i2 f yi
2
−⎜⎜ ∑ y i f yi ⎟⎟ ⎥
⎢⎣ x ⎝ x ⎠ ⎥⎦ ⎢⎣ y ⎝ y ⎠ ⎥⎦
η= 1−
∑(y −Y ) i xi
2
sau η = 1−
∑ (Yxi − y) 2
∑ ( y − y) i
2
∑(y i − y) 2
75
Statistică – curs universitar ID
℘ =℘ 2 2
+℘ 2
⇒
∑ ( y − y) 2
=
∑(y −Y) 2
+
∑ (Y − y) 2
y y /Y y /Y
n n n
- din această relaţie rezultă valoarea calculată a coeficienţilor, care
se poate nota astfel:
℘2y / Y ℘Y2 / y
η = 1− sau η = 1 − . În acest caz dispersiile au
℘2y ℘2y
următoarele semnificaţii:
- ℘2y - este dispersia totală şi măsoară acţiunea factorilor, luaţi în
totalitatea lor, care au influenţat variabila rezultativă.
- ℘2y / Y - măsoară variaţia valorilor y sub influenţa celorlalţi
factori, a căror acţiune este considerată constantă. Se mai numeşte
şi dispersie reziduală.
- ℘2y / Y = ℘Y2 / y Æ măsoară numai influenţa variabilei independente
(factoriale, x) asupra variabilei rezultative y.
Raportul de corelaţie poate lua valori între 0 şi 1. Cu cât
valoarea acestui raport este mai apropiată de 1 corelaţia este mai
puternică, iar cu cât raportul este mai aproape de 0, corelaţia este mai
slabă (se pierde).
d) raportul de corelaţie multiplă.
Măsoară intensitatea legăturii dintre o caracteristică rezultativă
y şi 2 sau mai multe caracteristici factoriale notate cu x1, x2, .... xi
,....i = 1,p.
Se notează cu
R x1, x 2, xp = 1−
∑ ( y1 − Y x1, x 2 ,.. xp )2
, unde Yx1, x 2... xp este
∑ y − y) i
2
76
Statistică – curs universitar ID
utilizează criteriul t =
a
n în care s =
∑ (y − Y )2
şi semnifică
s n−2
abaterea medie pătratică a valorilor înregistrate ale caracteristicii y
faţă de lina de regresie Y, n fiind numărul perechilor x,y înregistrate.
Valoarea t astfel calculată se compară cu valoarea tabelară tqf
(corespunzătoare nivelului de semnificaţie q şi numărului f de grade
de liberate (f = (n-2)).
77
Statistică – curs universitar ID
℘ =S 2 2
=
∑ ( y − y) 2
℘ 2
= S1
2
=
∑ (Y − y) 2
℘ 2
= S2
2
=
∑ (y −Y) 2
78
Statistică – curs universitar ID
eşantionului.
Valoarea calculată cu această relaţie se compară cu valoarea
tabelară corespunzătoare nivelului de semnificaţie q şi numărului de
grade de liberate f1=p şi f2=n-p-1 t tabelat = tqf1,f2
Dacă t calculat > ca t tabelat, se consideră că variabilele xi;
i= 1,p au o influenţă semnificativă asupra caracteristicii rezultative y,
iar în caz contrar influenţa lor e nulă.
(q= nivelul de semnificaţie = 1 – p).
Aplicaţia 6 :
a) graficul de corelaţie
- se utilizează pentru a estima existenţa şi forma legăturii dintre o
variabilă factorială cauzală x şi o variabilă dependentă sau
rezultativă y.
79
Statistică – curs universitar ID
80
70
60
50
40
30
20
10
0
0 50 100 150 200 250
a = 16,58, b = 0,28
folosim metoda lui Cramer: Æ Y = 16,58 + 0,28bxi
Ex. Să se estimeze cheltuielile totale efectuate de 3 familii care au
următoarele venituri:
Nr. Venituri
crt.
1. 200 Y1=16,58+0,58 . 200
2. 215 Y2=16,58+0,58 . 215
3. 230 Y3=16,58+0,58 . 230
Rxy = 1−
∑ ( yi − Y )x
2
= 0,89
∑ ( yi − y) 2
rxy =
∑ ( xi − x)( yi − y)
Pentru a evita calcularea unor
n℘x℘y
indicatori intermediari, abateri medii pătratice şi cele două medii ale
variabilelor, în practică se utilizează:
80
Statistică – curs universitar ID
n∑ xiyi − ∑ xi ⋅ ∑ yi
rxy =
⎡ ⎞ ⎤⎡ ⎞ ⎤
2 2
⎛ ⎛
⎢n∑ x i − ⎜ ∑ xi ⎟ ⎥ ⎢n∑ y i − ⎜ ∑ yi ⎟ ⎥
2 2
⎢⎣ ⎜ ⎟ ⎥⎢ ⎜ ⎟ ⎥
⎝ ⎠ ⎦⎣ ⎝ ⎠ ⎦
n = 15
O altă modalitate de calcul a coeficientului de corelaţie dacă
sunt cunoscute abaterile medii pătratice şi coeficientul de corelaţie
℘x
liniară simplă. rxy = b rxy = 0,89
℘y
În cazul corelaţiei liniară simplă, raportul de corelaţie este egal
cu coeficientul de corelaţie, fiind cuprins între 0,75 şi 0,95.
Coeficientul de corelaţie arată o legătură puternică de tip liniar şi
direct între venituri şi cheltuieli. De altfel reprezentativitatea acestui
coeficient poate fii demonstrată aplicând testul “t” bazat pe funcţia de
distribuţie Student.
Această funcţie este tabelată pentru un anumit nivel de
semnificaţie ∝ şi un număr egal cu n-2 grade de libertate. În funcţie de
∝ şi n-2 se găseşte argumentul t al funcţiei Student din tabel. Această
rxy
valoare se compară cu un t calculat = n−2.
1 − rxy2
Dacă t calculat este mai mare decât t tabelat, valoarea
coeficientului de corelaţie este reprezentativă pentru analiza
legăturii dintre cele 2 variante.
t calculat = 7,037
t tabelat = 0,05 ( 13 grade de libertate).
Rezultă că valoarea coeficientului de corelaţie este
reprezentativă.
81