You are on page 1of 19

MJERE DISPERZIJE

Disperzija je stupanj varijabilnosti statističkih


podataka.

Mjerama disperzije se brojčano opisuje stupanj


varijabilnosti podataka. Što je niz vrijednosti
podataka varijabilniji, disperzija je veća, a
reprezentativnost prosjeka manja i obratno. Što je
niz homogeniji, disperzija je manja, a
reprezentativnost prosjeka veća.

Mjere disperzije mogu biti izražene u istim mjernim


jedinicama kao i numerička varijabla (apsolutne
mjere disperzije) ili u obliku relativnog broja
(relativne mjere disperzije).

Mjere disperzije izražene u istim mjernim jedinicama


kao i obilježje:

Raspon varijacije R  xmax  xmin

Interkvartilni raspon I Q  Q3  Q1

(varijanca), standardna devijacija


k
N  f i  xi  x  2
  xi  x  2  2  i 1    2
2 i 1 k
 
N  fi
i 1

Mjere disperzije izražene relativno:

1
Q Q
Koeficijent kvartilne devijacijeVQ  Q33  Q11

Koeficijent varijacije V  x  100
Te mjere se zasnivaju na različitim podlogama i nisu
usporedive.

2
Raspon varijacije

R  xmax  xmin

Ako se računa kao razlika razrednih sredina


posljednjeg i prvog razreda distribucije ili kao razlika
gornje granice posljednjeg i donje granice prvog
razreda distribucije moguće su pogreške koje
proizlaze iz postupka grupiranja.
R  xk  x1
R  Lk , 2  L1,1

Raspon varijacije numeričkog niza je razlika između


najveće i najmanje vrijednosti niza. To je nepotpuna
mjera disperzije jer se pri njenom izračunavanju
koriste samo dvije krajnje vrijednosti niza. Te
vrijednosti mogu biti netipične pa je raspon
varijacije vrlo gruba mjera disperzije.

Raspon varijacije se kao mjera disperzije preporuča


koristiti u mjerenju varijabilnosti cijena, praćenju
valutnih tečajeva, vrijednosti dionica i sl.

3
Interkvartilni raspon (interkvartil), koeficijent
kvartilne devijacije

I Q  Q3  Q1

Q3  Q1
VQ 
Q3  Q1 ,
0  VQ  1

Interkvartilni raspon je raspon varijacija središnjih


50% vrijednosti (isključeno je 25% najvećih i 25%
najmanjih vrijednosti obilježja). To je apsolutna
mjera disperzije, a pridružena relativna mjera zove
se koeficijent kvartilne devijacije (koji poprima
vrijednosti na  0,1 i koristi se za usporedbu
disperzije središnjih 50% podataka dviju ili više
raznorodnih distribucija frekvencija. Nedostatak
interkvartilnog raspona je što je to nepotpuna mjera
jer se računa samo pomoću dvije vrijednosti niza.
Raspon varijacije i interkvartilni raspon prikazuju se
grafički B-P dijagramom (Box-Plot).

VIDI ZADATKE 4.2 I 4.3.

4
Interdecilni raspon i interpercentilni raspon

Interdecilni raspon je razlika dvaju decila. Npr.


I D8  D2  D8  D2 mjeri raspon varijacije središnjih 60%
vrijednosti.
Interprercentilni raspon je razlika percentila. Npr.
I P90  P10  P90  P10 je raspon varijacije središnjih 80%
podataka.

5
Varijanca, standardna devijacija, koeficijent
varijacije

Varijanca je srednje kvadratno odstupanje


vrijednosti numeričke varijable od njenog prosjeka.
To je potpuna mjera disperzije jer se računa polazeći
od svih vrijednosti niza.  2   2 . Iz nje se izvode
standardna devijacija i koeficijent varijacije.
Standardna devijacija je prosječno odstupanje od
prosjeka izraženo apsolutno (u istim mjernim
jedinicama kao i varijabla), 
Koeficijent varijacije je prosječno odstupanje od
prosjeka izraženo relativno (u postotcima), V. Koristi
se za usporedbu disperzije podataka dviju ili više
raznorodnih distribucija frekvencija.

Varijanca

za negrupirane numeričke za grupirane numeričke


podatke podatke
N k
  xi  x  2  f i  xi  x  2
 2  i 1  2  i 1 k
N
 fi
i 1

Standardna devijacija,    2

6

Koeficijent varijacije, V  x  100

MAD – srednje apsolutno odstupanje


¸N ¸k
 xi  x  f i xi  x
i 1 i 1
MAD  MAD  k
N
 fi
i 1

7
Zadatak 4.2. (podaci iz zadatka 3.54.)

Prosječna dnevna stanja, izražena u tisućama kuna


u jednom mjesecu na žiroračunima 79 komitenata
jedne poslovnice banke R&E:

126 130 160 46 183 97 171 135


81 67 164 126 108 131 14 35
42 139 136 33 164 163 36 96
125 187 47 67 43 84 66 147
165 66 169 110 29 33 185 95
42 136 143 153 21 74 25 145
134 111 79 88 78 66 135 102
54 157 97 77 171 72 40 28
53 153 159 126 97 137 24 79
182 131 99 188 74 95 75

Rezultati obrade programskom potporom SAS


(primijenjena procedura UNIVARIATE)

data stope;
input stope@@;
cards;
(ovdje upišite podatke)
;
proc univariate plot;
title1 DESKRIPTIVNA STATISTIKA
run;

8
The UNIVARIATE Procedure
Variable: stope

Moments

N 79 Sum Weights 79
Mean 102.544304 Sum Observations 8101
Std Deviation 49.4971632 Variance 2449.96917
Skewness -0.0108174 Kurtosis -1.172736
Uncorrected SS 1021809 Corrected SS 191097.595
Coeff Variation 48.2690519 Std Error Mean 5.56886595

Basic Statistical Measures

Location Variability

Mean 102.5443 Std Deviation 49.49716


Median 97.0000 Variance 2450
Mode 66.0000 Range 174.00000
Interquartile Range 77.00000

NOTE: The mode displayed is the smallest of 3 modes with a count of 3.

Tests for Location: Mu0=0

Test -Statistic- -----p Value------

Student's t t 18.41386 Pr > |t| <.0001


Sign M 39.5 Pr >= |M| <.0001
Signed Rank S 1580 Pr >= |S| <.0001

Quantiles (Definition 5)

Quantile Estimate

100% Max 188


99% 188
95% 183
90% 169
75% Q3 143
50% Median 97
25% Q1 66
10% 33
5% 25
1% 14
0% Min 14

9
The UNIVARIATE Procedure
Variable: stope

Extreme Observations

----Lowest---- ----Highest---

Value Obs Value Obs

14 62 182 10
21 46 183 41
24 69 185 65
25 66 187 14
28 78 188 40

Stem Leaf # Boxplot


18 23578 5 |
17 11 2 |
16 034459 6 |
15 3379 4 |
14 357 3 +-----+
13 0114556679 10 | |
12 5666 4 | |
11 01 2 | |
10 28 2 | + |
9 5567779 7 *-----*
8 148 3 | |
7 24457899 8 | |
6 66677 5 +-----+
5 34 2 |
4 022367 6 |
3 3356 4 |
2 14589 5 |
1 4 1 |

U primijenjenoj proceduri uzima se da su podaci uzorak. PAZI za


standardnu devijaciju i varijancu.

Mean = aritmetička sredina


SUm Wgts = zbroj pondera
Sum = zbroj vrijednosti varijable
Skewness = koeficijent asimetrije
Kurtosis = koeficijent zaobljenosti (K)
USS = zbroj kvadrata vrijednosti varijable
CSS = zbroj kvadrata odstupanja vrijednosti varijable od
aritmetičke sredine
CV = koeficijent varijacije)

10
raspon varijacije R  xmax  xmin

R=188-14=174 tis. kn
Interpretacija:
Razlika između najvećeg i najmanjeg prosječnog stanja na
žiro računu je 174 tis. kn.

Interkvartil I Q  Q3  Q1

Q1  66, Q3  143, I Q  143  66  77

Interpretacija:
Raspon varijacije središnjih pedeset posto podataka o
prosječnom stanju na žiro računu je 77 tisuća kuna.

Q3  Q1
Koeficijent kvartilne devijacije VQ 
Q3  Q1

77
VQ   0,36842
143  66

Raspon varijacije središnjih pedeset posto podataka o


prosječnom stanju na žiro računu je 77 tisuća kuna,
odnosno 36,842%.

DISPERZIJA SREDIŠNJIH 50% VRIJEDNOSTI MJERENA


INTERKVARTILOM I KOEFICIJENTOM KVARTILNE
DEVIJACIJE , UJERENOG JE STUPNJA (NAJVEĆA JE
VRIJEDNOST KOEFICIJENTA KVARTILNE DEVIJACIJE 1).

11
BOX-PLOT DIJAGRAM – VIDI ISPIS IZ SAS-a!!!!

varijanca, standardna devijacija i koeficijent varijacije


N
 x i2
i 1 1021809
2   x2   102,5443042  2418,96
N 79
  49,18
k
  xi  x  2
i 1 191097,595
2    2418,96
N 79
  49,18
 49,18
V   100   100  47,96%
x 102,5443

Interpretacija:
Prosječno stanje na žiro računu je 102,5443 tis. kn, a
prosječno odstupanje od tog prosjeka je 49,18 tis. kn, ili
47,96%. To znači da je disperzija podataka o stanju na
računima velika, a reprezentativnost prosjeka mala.

12
Primjer 4.3.

- različitost rasporeda podataka i stupnja disperzije

13
ZADATAK 3.
Distribucija frekvencija, obilježje dano u razredima
Frekvencije zadane relativno

Nepismeno stanovništvo u RH (starije od 10 godina) prema


životnoj dobi (po popisu 2001. godine)

Starost struktura Razredne


sredine
Pi xi Pi xi Pi xi2
1 2 3 4 5
10-35 7,2 22,5 162 3645
35-50 6,4 42,5 272 11560
50-65 15,9 57,5 914,25 52569,375
65-100 i 70,5 82,5 5816,25 479840,625
nepoznato
100 - 7164,5 567615
Izvor: prema SLJRH - 2003, str.96
k
 Pi xi
7164,5
i 1
x k
  71,65 god .
100
 Pi
i 1
k
 P i xi2
i 1
2  k
 x 2  m 2  m12 
 Pi
i 1
567615
 71,65 2  5676,15  5133,72  542,43
100
  542,43  23,29 godina
23,29
V   100  32,5%
71,65

Interpretacija:

14
STANDARDIZIRANA VARIJABLA

Standardizirana varijabla z linearna je transformacija numeričke varijable


X. Transformacija je dana izrazom:
zi -standardizirane vrijednosti
varijable X
xi  x xi - vrijednost numeričke
zi  , z  0,  z  1
 varijable X
x - aritmetička sredina
 - standardna devijacija

To je odstupanje vrijednosti numeričkog obilježja od


aritmetičke sredine izraženo u jedinicama standardne
devijacije. Na taj se način eliminira problem različitih
raspona varijacija, a i neovisno je o mjernim jedinicama.

Standardizirana varijabla omogućuje:


 usporedbu numeričkih nizova izraženih u istim
mjernim jedinicama s različitim stupnjem
varijabilnosti,
 usporedbu raznorodnih numeričkih nizova,
 usporedbu relativnog položaja podataka u jednom
nizu i u različitim numeričkim nizovima.

POGLEDATI FORMULE NA STR. 10.

15
ZADATAK 1.

Prosječna mjesečna plaća u poduzeću N u listopadu


2004. godine je 4534 kn, s prosječnim odstupanjem od
prosjeka 657 kn. U poduzeću K je prosječna plaća u
istom mjesecu 6043 kn s prosječnim odstupanjem od
895 kn.

a) U kojem poduzeću je prosječna plaća


reprezentativnija (odnosno u kojem je poduzeću veća
disperzija plaća)?

b) Zaposlenik poduzeća N imao je u listopadu 2004.


godine plaću u iznosu od 5003 kn, a zaposlenih istih
kvalifikacija u poduzeću K je imao plaću 6505 kn.
Usporedite relativni položaj promatranih zaposlenika u
navedenim poduzećima s obzirom na primljene plaće u
listopadu 2004. godine.

c) Može li se plaća od 11575 kn u poduzeću N smatrati


tipičnom za to poduzeće? Zašto?
x N  4534 x K  6043
 N  657  K  895

a) Disperzija plaća je veća u


VN   100  %

VK   100  %

poduzeću______ jer je

5003  4534
zN  
657
b) 6505  6043
zK  
895

16
U povoljnijem položaju s obzirom na primljenu plaću je
zaposlenih u poduzeću ______ jer je
11575  4534
c) z
657
 10,72 Ova plaća je netipična za poduzeće
jer odstupa od prosječne plaće za više od tri standardne
devijacije (ako je distribucija plaća normalnog oblika ili
za više od dvije standardne devijacije za sve ostale
oblike distribucije).

Normalna distribucija
netipično -3_______tipično_______3 netipično
(99,7% svih podataka)

Bilo koja distribucija


netipično -2_______tipično_______2 netipično

17
PRAVILO ČEBIŠEVA

Pravilo Čebiševa govori da je najmanja proporcija


članova bilo kojeg niza obuhvaćenih intervalom x  k , k  1
 1 
jednaka  1  k 2  .
 1 
Alternativno pisano: p( x  k  x  x  k )   1  2  , k  1 .
 k 

k interval najmanja proporcija podataka


 1  1 3
2 x  2  x  x  2  1  2   1    0.75  75%
 2  4 4
 1  1 8
3 x  3  x  x  3  1  2   1    0.8889  88.89%
 3  9 9
 1 1 15
4 x  4  x  x  4  1  2   1    0.94  94%
 4  16 16

Prema pravilu Čebiševa interval od x  2 obuhvaća


najmanje proporciju od 0.75, odnosno 75 % svih
podataka, a interval od x  3 sadrži najmanje
proporciju od 0.8889, odnosno 88.89 % svih podataka.

Prosudba o netipičnosti donosi se na temelju pravila


Čebiševa i standardizirane vrijednosti.
Za uporabu pravila Čebiševa je karakteristično da
ono vrijedi za bilo koji raspored podataka.

SVOJSTVA NORMALNE DISTRIBUCIJE

Kada je distribucija podataka unimodalna i približno


simetrična, u istu se svrhu mogu iskoristiti svojstva

18
normalne ditribucije. Ako se podaci raspoređuju po
normalnoj distribuciji, u intervalu x   nalazi se oko 68%
podataka, u intervalu x  2 ima 95% podataka, a u
intervalu x  3 ima 99.74% podataka.

proporcije
k interval
podataka
1 x  1  x  x  1 0.6826
2 x  2  x  x  2 0.9544
3 x  3  x  x  3 0.9974

Navedeno pravilo primjenjuje se samo kada postoji


pretpostavka o simetričnosti distribucije. Ukoliko je
nema koristi se pravilo Čebiševa.

19

You might also like