Professional Documents
Culture Documents
Uvod
1
2 Uvod
Rješenje:
a) Broj šestica je diskretno obilježje jer smo njihov broj, u tri bacanja,
utvdili prebrojavanjem.
N N (N − 1) . . . (N − n + 1)
(1.1) = .
n 1 · 2 · ... · n
6 6·5·4
= = 20 .
3 1·2·3
Deskriptivna statistika
13
14 GLAVA 2. DESKRIPTIVNA STATISTIKA
fi
(2.1) ri = .
i fi
6
5
4
3
2
1
0
1 2 3 4 5
5
3
2
18 GLAVA 2. DESKRIPTIVNA STATISTIKA
Primjer 2 Uprava nekog restorana želi da ispita koji meni privlači više
gostiju. U tom cilju su poslije ponude menija, u petnaesto minutnim inter-
2.2. GRUPISANJE KVANTITATIVNIH PODATAKA 19
7 6 6 6 4 6 2 6
5 6 6 11 4 5 7 6
2 7 1 2 4 8 2 6
6 5 5 3 7 5 4 6
2 2 9 7 5 9 8 5
(2.2) k = 1 + 3, 3 · log n ,
xmax − xmin
(2.3) i= .
k
i
(2.4) x0 = xmin − .
2
dobijamo
k = 1 + 3, 3 · 1, 54 = 6, 082 = 7 .
63 − 32, 5
i= = 5, 014 = 6 .
6, 082
5, 014
x0 = 32, 5 − = 29, 996 = 30 .
2
Interval fi ri F
30-35 ||| 3 0,09 3
35,01-40 |||| 4 0,11 7
40,01-45 |||| 4 0,11 11
45,01-50 ||| 3 0,09 14
50,01-55 ||||||||| 9 0,26 23
55,01-60 |||||| 6 0,17 29
60,01 -65 |||||| 6 0,17 35
Ukupno 35 1
6
4
2
0
30 35 40 45 50 55 60 65
Intervali
10 15
5
0
30 35 40 45 50 55 60 65
Ocjene
Mjere centralne tendencije, kao što sam naziv kaže, predstavljaju centar
osnovnog skupa. Ove mjere daju informaciju o onome što je tipično, za-
jedničko za sve elemente jednog skupa. Prednost ovih mjera je što se vri-
jednosti u populaciji ili uzorku svode na jednu jedinu vrijednost. Postoji
više mjera centralne tendencije i svaka ima svoje prednosti i nedostatke.
24 GLAVA 2. DESKRIPTIVNA STATISTIKA
x1 + x2 + . . . + xN i xi
(2.5) µ= = .
N N
x1 + x2 + . . . + xn i xi
(2.6) x= = .
n n
Rješenje:
a) Računamo sredinu koristeći formulu (2.5). Dakle,
85 + 72 + 75 + 68 + 91 + 55 + 78 + 82 + 89 + 59
µ= = 75, 4 .
10
formuli (2.6)
72 + 68 + 91 + 78 + 59
x= = 73, 6 .
5
Vrijednosti obilježja x1 x2 .. . xN
Frekvence f1 f2 .. . fN
x1 · f 1 + x2 · f2 + . . . + xN · fN i f i · xi
(2.7) µ= = .
N N
x1 · f1 + x2 · f2 + . . . + xn · fn i fi · xi
(2.8) x= = .
n n
xi−1 +xi
2 . Tada se aritmetička sredina računa po formuli
x1 · f1 + x2 · f2 + . . . + xN · fN i fi · xi
(2.9) µ= = .
N N
Tabela 2.11: Primjer tabele u slučaju kada su podaci dati u obliku intervala
Vrijednosti obilježja (x1 , x2 ] (x2 , x3 ] . . . (xN , xN −1 ]
Frekvence f1 f2 ... fN
x1 · f1 + x2 · f2 + . . . + xn · fn i fi · xi
(2.10) x= = .
n n
Rješenje:
Postupak rada dat je Tabelom 2.13.
Sredinu intervala dobijamo tako što saberemo početnu i krajnju tačku
intervala i podijelimo sa 2.
40+50
Tako je na primjer, sredina drugog intervala xi = 2 = 45.
2.3. MJERE CENTRALNE TENDENCIJE 27
xi fi xi xi · fi
30-40 2 35 70
40,01-50 5 45 225
50,01-60 10 55 550
60,01-70 12 65 780
70,01-80 10 75 750
80,01-90 9 85 765
90,01-100 2 95 190
Ukupno 50 3330
28 GLAVA 2. DESKRIPTIVNA STATISTIKA
Uzoračka sredina je
i fi · xi 3330
x= = = 66, 6 .
n 50
Uzorak A(ar.sred.=3)
0 2 4 6 8 10
Uzorak B(ar.sred.=4)
0 2 4 6 8 10
2.3.2 Mod
Rješenje: Serija a) nema mod jer se svaka vrijednost javlja jednak broj
puta (u ovom slučaju to je 1).
30 GLAVA 2. DESKRIPTIVNA STATISTIKA
Uzorak A(mod=9)
0 2 4 6 8 10 12 14
0 2 4 6 8 10
f2
(2.11) m = ai + (bi − ai ) ,
f1 + f2
Rješenje: Modalni interval je (60, 70] jer njegova frekvenca najveća. Tada
je bi = 70, ai = 60 i bi − a1 = 10, odnosno f2 = 10 i f1 = 10. Pomoću (2.11)
dolazimo do
10
m = 60 + 10 · = 65.
20
Dakle, modalni promet je 65 000 EUR.
2.3.3 Medijana
(2.12) M = x n+1 .
2
Ako realizovani uzorak ima paran broj članova tada je medijana arit-
metička sredina centralna dva člana, odnosno
x n2 + x n2 +1
(2.13) M= .
2
129, 4 + 147, 81
M= = 138, 61.
2
n
2 − Fj
(2.14) M = aj + (bj − aj ) · ,
fj
25 − 17
M = 60 + 10 · = 66, 67.
12
Najmanja Najveća
vrijednost vrijednost
u uzorku P1 P2 P98 P99 u uzorku
...
prvih poslednjih
1% 1%
prvih poslednjih
2% 2%
U praksi se najviše koriste kvartili. Prvi kvartil ili P25 dijeli vrijednosti
uzorka tako da se ispod P25 nalazi 25% njegovih vrijednosti . Takod̄e, važi
M = P50 . Analogno, treći kvartil, P75 , dijeli uzorak tako da se ispod nalazi
75% njegovih vrijednosti. Sa Slike (2.9) možemo da vidimo kako kvartili
dijele uzorak.
k·n
(2.15) i= ,
100
k·n 35 · 12
i= = = 4, 2 = 5 .
100 100
Dakle, 35. percentil se nalazi na petoj poziciji, pa je P35 = 138.
Zaključujemo da je 35% učenika niže od 138 cm, a da je visina 65%
učenika veća ili jednaka od 138.
k·n
(2.16) p= .
100
p − Fj
(2.17) Pk = aj + (bj − aj ) ,
f
85·50
Rješenje: Percentilni interval odred̄ujemo tako što računamo p = 100 =
42, 5 . Prva vrijednost kumulativa koja je veća ili jednaka od 42,5 je 48, pa
36 GLAVA 2. DESKRIPTIVNA STATISTIKA
42, 5 − 39
P85 = 80, 01 + (90 − 80, 01) = 83, 90.
9
Dakle, 85. percentil je 83 900 EUR, što znači da 85% radnji ima promet
manji od 83 900 EUR.
L · 100
(2.18) Pr = ,
n
6 · 100
Pr = = 66, 7% .
9
Fj · 100 Y − aj f · 100
(2.19) Pr = + ,
n i n
Dakle, radnja koja ima promet od 57 500 EUR ima promet veći od
28, 98% drugih radnji.
Uzorak A
1 2 3 4 5
Uzorak B
Na slici 2.10 data su dva uzorka koja imaju istu aritmetičku sredinu
(x = 3), ali su različite varijacije. Evidentno je da elementi uzorka A
imaju veću varijaciju u odnosu na aritmetičku sredinu. Kada bi aritmetička
sredina bila dovoljna karakterizacija nekog uzorka, mogli bi da kažemo da
uzorci A i B potiču iz iste populacije, što, naravno, nije tačno. Zato se
uvode mjere mjere varijacije, koje opisuju koliko se vrijednosti nekog uzorka
med̄usobom razlikuju.
Reprezentativnost neke numeričke karakteristike uzorka (npr. aritmetičke
sredine) zavisi od stepena varijabiliteta. Ukoliko je varijabilnost manja,
utoliko su vrijednosti obilježja manje odstupaju od aritmetičke sredine i
ona je reprezentativnija, a za takav uzorak kažemo da je homogen. Obr-
nuto, ako je varijabilnost veća, odstupanje pojedinačnih vrijednosti od arit-
metičke sredine je veće, pa je reprezentativnost aritmetičke sredine manja.
Za takav skup kažemo da je heterogen.
Na primjer, ako imamo informaciju da je prosjek liječenja u jednoj bol-
nici 8 dana, a u drugoj takod̄e 8 dana, mogli bi da dod̄emo do pogrešnog
zaključka da je dužina trajanja liječenja jednaka u obije bolnice. Med̄utim,
2.4. MJERE VARIJABILITETA 39
to može ali ne mora da bude. Znači, da bi smo mogli da poredimo dva ili
više uzoraka, pored informacije o aritmetičkoj sredini, moramo da imamo
i informaciju o odstupanju pojedinačnih vrijednosti od prosjeka.
Apsolutne mjere disperzije varijabilnosti su:
1. raspon,
3. standardna devijacija,
4. interkvartilni rang.
2.4.1 Raspon
Najprostija mjera varijacije naziva se raspon. Raspon R se definiše kao
razlika najveće i najmanje vrijednosti u uzorku, tj.
R = Xmax − Xmin .
Izračunati raspon.
IQR = Q3 − Q1 .
233 + 237
Q2 = = 235.
2
Sada je IQR=618-180=438.
1. Izračunava se IQR.
D = Q1 − 1, 5 · IQR
i
G = Q3 + 1, 5 · IQR.
Primjer 17 Da li u uzorku
180, 189, 370, 618, 735, 802, 1 185, 1 414, 1 657, 1 953, 2 332, 2 336, 3
461, 4 668, 6 751, 9 908, 10 034, 21 147
postoje nestandardne opservacije?
Gornja vrijednost je
2.4.3 Disperzija
1
(2.20) Mk = (xi − µ)k .
N
i
1
(2.21) σ2 = (xi − µ)2 .
N
i
1
(2.23) Mk = fi (xi − µ)k .
N
i
1
(2.24) σ2 = fi (xi − µ)2 .
N
i
fi x2i
(2.25) σ2 = i
− µ2 .
N
1
(2.26) mk = (xi − x)k .
n
i
1
(2.27) s2 = (xi − x)2 .
n−1
i
x1 + x2 + x3
= x
3
4 + 7 + x3
= 11
3
11 + x3 = 33
x3 = 22 .
2
2 ( xi ) 4162
i xi − 29986 −
i
2 n 6
s = = = 228, 67 .
n−1 5
momenat reda k je
1
(2.29) mk = fi (xi − x)k .
n
i
1
s2 = fi (xi − x)2 .
n−1
i
1
(2.30) s2 = fi x2i − n x2 .
n−1
i
Ocjena 5 4 3 2 1
Frekvenca 4 8 9 6 3 30
94
Kao što je pokazano ranije aritmetička sredina je x = 30 = 3, 13. Sada
je
1 1
s2 = fi x2i − n x2 = 336 − 30 · 3, 132 = 1, 43 .
n−1 29
i
a)
2
2 ( xi )
i xi −
i
N
σ= = 182, 92 = 13, 52 .
N
b)
2
2 ( xi )
−
i xi
i
n
s= = 228, 67 = 15, 12 .
n−1
10 12 14 16 18 20 22
10 12 14 16 18 20 22
10 12 14 16 18 20 22
σ
CV = .
µ
s
CV = .
x
zatim Summary statistics. Na kraju se otvara novi radni list koji sadrži
rezultate analize (vidjeti Sliku 2.13).
Primjer 23 Naći percentilnog ranga vrijednosti 16,8 u uzorku 14, 21, 19,
25, 13, 25, 17.