You are on page 1of 43

BAZELE STATISTICII

- anul universitar 2020-2021 -


Programa analitică
1. Noţiuni introductive
2. Analiza unei serii statistice unidimensionale, folosind
metode grafice şi numerice (variabile cantitative:
indicatori ai tendinţei centrale, indicatori ai dispersiei,
indicatori ai formei; variabile calitative).
3. Analiza unei serii statistice bidimensionale.
3. Analiza unei serii bidimensionale
3.1. Prezentarea seriei
 O serie bidimensională prezintă variaţia unităţilor unui
eşantion după două variabile de grupare în mod simultan:
- variabilele Xi cu valorile xi , i  1, m şi Yj cu valorile y j , j  1, p
Efectivele (unităţile) eşantionului care poartă simultan
valoarea xi şi valoarea y j sunt nij .
Distribuţia bivariată este definită de:
xi , y j , nij , i  1, m, j  1, p
Variaţii pe coloană – variaţii după i, intrucât nivelul j este constant, este acelasi
Variaţii pe linii – variaţii după j, intrucât nivelul i este acelaşi
Variabila X are m niveluri de variatie (m valori distincte)
Variabila Y are p niveluri de variatie (p valori distincte)
Distribuţia unui eşantion de pacienţi care suferă de dureri musculare după
intensitatea durerii, masurata pe o scala de la 1 la 10 (X) şi tipul de
medicament administrat (Y)
yj Aspirina Paracetamol Ibuprofen Total
xi
0-2 1 6 9 16

2-4 3 10 19 32

4-6 8 18 7 33

6-8 15 4 3 22

8-10 9 2 1 12

Total 36 40 39 115

Nivelurile de variaţie ale variabilei X sunt pe randuri – cele 5 intervale de intensitate a


durerii.
Nivelurile de variatie ale variabilei Y sunt pe coloane – cele trei tipuri de medicamente
administrate (aspirina, paracetamol si ibuprofen).
Avem un total de 115 pacienti, care pot fi impartiti in trei grupuri in functie de tipul de
medicament administrat, sau in 5 grupuri, in functie de intensitatea durerii resimtite.
3. Analiza unei serii bidimensionale
3.2. Tipuri de variabile
- o variabilă numerică şi o variabilă nenumerică;
- ambele variabile numerice;
- ambele variabile nenumerice.

3.3. Distribuţia după o variabilă cantitativă şi o variabilă


calitativă
În cadrul unei distribuţii bidimensionale se disting:
a). Două distribuţii marginale
 Distribuţia marginală în X: X : xi , ni   , i  1,..., m
p
ni    nij
j 1
3. Analiza unei serii bidimensionale
  
Distribuţia marginală în Y: Y : y j , n j , j  1,..., p

m
n j   nij
i 1

 In exemplul nostru, avem două distributii marginale:


 una in X: distributia pacientilor in functie de intensitatea durerii
resimtite
 Una in Y: distributia pacientilor in functie de medicamentul
administrat.
3. Analiza unei serii bidimensionale
b) Distribuţii condiţionate (m+p distribuţii)
 Distribuţiile condiţionate ale variabilei X în funcţie de
valorile variabilei Y
- este definită pentru fiecare valoare yj

X / Y  y j  : xi, nij , i  1,..., m si j valoare fixă

In exemplul nostru, avem trei distributii conditionate ale lui X in functie de


nivelurile variabilei Y: distributia pacientilor cărora li s-a administrat aspirina –
36 la numar, distribuţia pacientilor cărora li s-a administrat paracetamol – 40 de
pacienti şi distribuţia pacientilor cărora li s-a administrat ibuprofen – 39 de
pacienti.
3. Analiza unei serii bidimensionale
 Distribuţiile condiţionate ale variabilei Y în functie de valorile
variabilei X
- sunt definite pentru fiecare valoare xi

Y / X  xi  : y j , nij , j  1,..., p şi i valoare fixă

In exemplul nostru, avem cinci distributii conditionate ale lui Y in functie de


nivelurile variabilei X: distributia pacientilor pentru care intensitatea durerii este
intre 0 si 2 – 16 la numar, distribuţia celor cu intensitate intre 2-4 – 32 pacienti, a
celor cu durere intre 4-6 – 33 pacienti, a celor cu durere intre 6-8 – 22 pacienti şi
ultima, distributia pacientilor care au durere intre 8-10, cu un efectiv de 12 persoane.
3. Analiza unei serii bidimensionale
3.4 Frecvenţe absolute
 Frecvenţe absolute marginale

ni. şi n.j

Frecventele absolute marginale sunt efectivele grupurilor


create de valorile lui X sau ale lui Y.
3. Analiza unei serii bidimensionale
3.5 Frecvenţe relative
 Frecvenţe relative marginale

ni n j
f i  ; f j 
n n

Se calculeaza prin raportarea efectivului unui grup la totalul general.

 nij
Frecvenţe relative parţiale: fij
f ij 
n
3. Analiza unei serii bidimensionale

 Frecvenţe relative condiţionate


nij
fi / j  j valoare fixa, i  1,...,m
n j

nij
f j /i  i valoare fixa, j  1,..., p
ni

Se calculeaza prin raportarea frecventelor absolute partiale (nij) la totalul grupului din care fac parte.
Distribuţia unui eşantion de pacienţi care suferă de dureri
musculare după intensitatea durerii (X) şi tipul de medicament
administrat (Y)
yj Aspirina Paracetamol Ibuprofen Total
xi
0-2 1 6 9 16

2-4 3 10 19 32

4-6 8 18 7 33

6-8 15 4 3 22

8-10 9 2 1 12

Total 36 40 39 115
Distribuţii marginale
xi ni. fi. yj n.j f.j
Aspirina 36 31.3
0-2 16 13.9
Paracetamol 40 34.8
2-4 32 27.9 Ibuprofen 39 33.9

Total 115 100


4-6 33 28.7

6-8 22 19.1
13.9% din totalul pacientilor
8-10 12 10.4 resimt o durere intre 0-2.

Total 115 100 31.3% din totalul pacientilor au


primit aspirina.
Distribuţii condiţionate X / Y  y  : x j i, 
nij , i  1,..., m si j valoare fixă

Aspirină (j=1) Paracetamol (j=2) Ibuprofen (j=3)

xi ni j xi ni j xi nij
0-2 1 0-2 6 0-2 9
2-4 3 2-4 10 2-4 19
4-6 8 4-6 18 4-6 7
6-8 15 6-8 4 6-8 3
8-10 9 8-10 2 8-10 1
Total 36 Total 40 Total 39
Distribuţii condiţionate   
Y / X  xi  : y j , nij , j  1,..., p şi i valoare fixă

0-2 (i=1) 2-4 (i=2) 4-6 (i=3)


yj nij yj nij yj ni j
Aspirina 1 Aspirina 3 Aspirina 8
Paracetamol 6 Paracetamol 10 Paracetamol 18
Ibuprofen 9 Ibuprofen 19 Ibuprofen 7
Total 16 Total 32 Total 33

6-8 (i=4) 8-10 (i=5)

yj nij yj nij
Aspirina 15 Aspirina 9
Paracetamol 4 Paracetamol 2
Ibuprofen 3 Ibuprofen 1
Total 22 Total 12
Frecvenţe relative condiţionate
Frecvenţe relative condiţionate fi/j

xi Aspirina Paracetamol Ibuprofen

0-2 2.8 15 23
2-4 8.3 25 48.8
4-6 22.2 45 18
6-8 41.7 10 7.7
8-10 25 5 2.5
Total 100 100 100

2.8% din totalul pacientilor care au primit aspirina au resimt durere intre 0-2.
25% din totalul pacientilor care au primit paracetamol resimt durere intre 2-4.
7.7% din totalul pacientilor care au primit ibuprofen resimt durere intre 6-8.
Frecvenţe relative condiţionate
Frecvenţe relative condiţionate fj/i

yj fj|i (0-2) fj|i (2-4) fj|i (4-6) fj|i (6-8) fj|i (8-10)

Aspirina 6.2 9.4 24.3 68.2 75

Paracetamol 37.5 31.2 56.4 18.2 16.7

Ibuprofen 56.3 59.4 21.3 13.6 8.3

Total 100 100 100 100 100

6.2% din totalul pacientilor cu durere intre 0-2 au primit aspirina.


9.4% din totalul pacientilor cu durere intre 2-4 au primit aspirina.
13.6% din totalul pacientilor cu durere intre 6-8 au primit ibuprofen.
Frecvenţe relative parţiale
Frecvenţe relative parţiale fij

xi Aspirina Paracetamol Ibuprofen


0-2 0.8 5.2 7.8
2-4 2.6 8.6 16.5
4-6 6.9 15.6 6
6-8 13 3.4 2.6
8-10 7.8 1.7 0.8

0.8% din totalul pacientilor resimt durere intre 0-2 si au primit aspirina.
15.6% din totalul pacientilor resimt durere intre 4-6 si au primit paracetamol.
2.6% din totalul pacientilor resimt durere intre 6-8 si au primit ibuprofen.
3.6. Medii condiţionate (medii de grupă)

m
 xi  nij m
i 1
xj  , cu n j   nij , j  1, p
n j i 1

3.7. Varianţe condiţionate (varianţe de grupă)


-Măsoară, pentru fiecare grup, diferentele dintre indivizii care fac parte din acelasi
grup (intragrupă).
m

 (x  x )
i j
2
 nij
s 2j  i 1 pentru Y  yj
n j
3.8. Media pe total
p

x
j 1
j  n j
x p

n j 1
j

3.9. Media varianţelor de grupă (varianţa intra-grupe)


- masoara, la nivel general, diferentele dintre indivizii de acelasi fel (din acelasi grup)

 j  n j
s 2

j
s2 
n j
j
3.10. Varianţa între grupe (varianţa inter-grupe sau
varianţa mediilor de grupă)
 masoara, la nivel general, diferentele dintre indivizii din grupe diferite
p
2
 ( x j  x )  n j
j 1
s x2 j  p
 n j
j 1

3.11. Varianţa generală – masoara, la nivelul populatiei, diferentele dintre


indivizi, negrupati
2 2 2
s s s
X xj
Măsurarea gradului de influenţă a celor două categorii de factori
 Coeficientul influenţei sx2j
factorului de grupare k1  2
100
s X

 Coeficientul influenţei s2
k2  2 100
factorilor întâmplători sX

k1+k2=100%

Dacă k1>k2, atunci factorul de grupare (Y) explică mai mult din variaţia variabilei
studiate (X) decât factorii întâmplători.
Exemplu

Intensitate durere Aspirina Paracetamol Ibuprofen


Media grupei j xa  6.55 x p  4.3 xi  3.35

Varianţa grupei j 2
s  4.12 2
s  4.2 si2  3.72
a p

Volumul grupei j 36 40 39
 Media generală 6,55*36  4,3* 40  3,35*39
x  4,12
115
 Varianta intra-grupe 4,12*36  4, 2* 40  3, 72*39
s2   4, 01
115
Este masura care arata cat de diferit se comporta indivizii din acelasi grup

 Varianta inter-grupe
6,55  4,12  *36   4,3  4,12  * 40  3,35  4,12  *39
2 2 2
2
s xj   2, 06
115
Este masura care arata cat de diferit se comporta grupurile intre ele (indivizii din grupuri diferite)

 Varianta generala s X2  4, 01  2, 06  6, 07
2, 06
k1  100  33,93%
6, 07

4, 01
k2  100  66, 07%
6, 07

Coeficientul k1<k2, ceea ce inseamna ca varianţa din interiorul grupelor este mai
mare decat varianţa dintre grupe. Există diferenţe mai mari de comportament între
indivizii din aceeaşi grupă decât între indivizii din grupuri diferite. Prin urmare, nu
putem spune că gruparea indivizilor în funcţie de medicamentul administrat a dus la
o omogenizare a pacientilor privind intensitatea durerii. Rezultatul este că, cel mai
probabil, medicamentul administrat nu influenţează variaţia intensităţii durerii.
Aplicaţii
1. Se cunoaşte distribuţia salariaţilor unor firme după
vâ rstă , pe medii de rezidenţă , prezentată astfel:

Vârsta (ani) Urban Rural


25-35 5 0
35-45 3 2
45-55 2 5
55-65 1 10
Aplicaţii
a) Să se calculeze vâ rsta medie a persoanelor din mediul
urban;

b) Să se calculeze vâ rsta medie a persoanelor din mediul


rural;

c) Să se calculeze vâ rsta medie a persoanelor din eșantion;

d) Factorul de grupare (mediul de rezidență ) are influență


semnificativă asupra vâ rstei?
- Discretizarea variabilei numerice

Vâ rsta Urban Rural yj y1 y2


(ani) xi
30 5 0 x1 n11 n12
40 3 2
x2 n21 n22
50 2 5
x3 n31 n32
60 1 10
x4 n41 n42
m=4: numă rul de valori distincte ale variabilei numerice (vâ rsta)
p=2: numă rul de valori distincte ale variabilei nenumerice (mediul de rezidență)
- Construirea celor două distribuţii condiţionate ale
variabilei numerice (vârsta) în funcţie de valorile posibile
ale variabilei nenumerice (zona de rezidență)

Urban xi ni1 Rural xi ni2


j=1 j=2
30 5 30 0
40 3 40 2
50 2 50 5
60 1 60 10
total(n.1) 11 total(n.2) 17
Calculul mediilor condiţionate (medii pe grupe)

m
 xi  nij m
i 1
xj  , cu n j   nij , j  1, p
n j i 1

: vâ rsta medie a persoanelor din mediul urban


: vâ rsta medie a persoanelor din mediul rural
Calculul mediilor condiţionate (medii pe grupe)

Urban
j=1

Interpretare: Persoanele din mediul urban au, în medie, vâ rsta de 39,09 ani

Rural
j=2

Interpretare: Persoanele din mediul rural au, în medie, vâ rsta de 54,70 ani
Calculul mediilor pe total
p
 x j  n j
j 1
x p
.
 n j
j 1
2
 x j  n j
j 1 x1  n1  x2  n2
x 2

n1  n2
 n j
j 1

Interpretare: Persoanele din eșantion au, în medie, vârsta de 48,57 ani

33
Calculul varianţelor condiţionate
(varianţe de grupă)
- mă soară variaţia în cadrul unei grupe
(intragrupă ).
m

 (x i
2
 x j )  nij
s 2j  i 1
n j

s12: Varianța persoanelor din mediul urban;

s22: Varianța persoanelor din mediul rural.


Calculul varianţelor condiţionate (varianţe de grupă)
măsoară diferențele dintre indivizii unei grupe (intragrupă)
Urban
j=1

Rural
j=2
Calculul mediei varianţelor de grupă
măsoară, la nivel general, diferențele dintre indivizii de același fel (din aceeași grupă)

p
2
 s j  n j
j 1
s2  p
 n j
j 1

2
2
 s j  n j
j 1 s12  n1  s 22  n2
s2  2

n1  n 2
 n j
j 1
Calculul varianţei între grupe (varianţa intergrupe)
măsoară, la nivel general, diferențele dintre indivizii din grupe diferite

p
2
 ( x j  x )  n j
j 1
s x2 j  p
 n j
j 1

2
2
 ( x j  x )  n j
j 1 ( x1  x ) 2  n1  ( x2  x ) 2  n 2
s x2 j  2

n1  n 2
 n j
j 1
Calculul varianţei generale
măsură generală a diferențelor dintre indivizi (la nivelul populatiei)

2 2 2
s s s
X xj
Mă surarea gradului de influenţă a celor două categorii de
factori 2
 Coeficientul influenţei s x
k1  2j 100
factorului de grupare sX

 Coeficientul influenţei s2
k2  2 100
factorilor întâ mplă tori sX

Dacă k1<k2, atunci factorul de grupare nu are o influență semnificativă


asupra variației variabilei numerice; în acest caz, varianţa din interiorul
grupelor este mai mare decâ t varianţa dintre grupe.
Există diferenţe mai mari de comportament între unită țile statistice din
aceeaşi grupă decâ t între unită țile statistice din grupuri diferite.
Prin urmare, nu putem spune că gruparea salariaților în funcţie de
mediul de rezidență a dus la o omogenizare privind vâ rsta.
Rezultatul este că , cel mai probabil, mediul de rezidență nu
influenţează variaţia vâ rstei.
Aplicaţii

1. 2. Se cunoaşte distribuţia salariaţilor unei firme după


salariu, pe sexe, prezentată astfel:

Salariu (sute lei) Masculin Feminin


8 2 0
9 1 0
14 0 2
15 0 1
16 0 2
25 2 0
Aplicaţii
Se cere să se calculeze:
 Ponderea persoanelor de sex feminin. Ce tip de frecvență este aceasta?

 Ponderea persoanelor care au un salariu de 14 sute lei. Ce tip de frecvență este aceasta?

 Ponderea persoanelor de sex feminin cu salariul de 15 sute lei. Ce tip de frecventa este
aceasta?
 Ponderea persoanelor cu salariul de 9 sute lei, care sunt de sex masculin. Ce tip de
frecventa este aceasta?
 Ponderea persoanelor care sunt de sex feminin si au salariu de 14 sute lei. Ce tip de
frecventa este aceasta?
 Salariul mediu al persoanelor de sex masculin și feminin.

 Salariul mediu pe total eșantion.

 Coeficientul k1.
Aplicaţii
3. Pentru o firmă se cunosc x  10 mil.lei, s x2  4 şi datele de mai jos:

Domeniul de activitate n.j


s 2j
A 1,2 20
B 0,9 30
C 1,4 50
TOTAL - 100

Să se afle varianţa care cuantifică diferențele dintre


domeniile de activitate.
Aplicaţii

4. Pentru o firmă se cunosc: s = 4 milioane lei şi datele


x

prezentate în tabelul de mai jos:

Domeniul de activitate xj n.j

A 12 20

B 9 30

C 14 50

TOTAL - 100

Să se afle coeficientul k .
2

You might also like