Professional Documents
Culture Documents
UVOD
1
Deskriptivna statistika se odlikuje potpunim obuhvatom statističkog skupa.Prosudbe
koje se pri tome donose odnose se isključivo na prikupljeni statistički materijal.
Metodama sažimanja raspoložive podatke pokuša učiniti što preglednijim,
razumljivijim,podesnijim za daljnju obradu.Pri tome se koriste metode grafičke
analize kako za prikaz sređene statističke građe tako i za predočavanje rezultata
provedene obrade iste.
Inferencijalnu statistiku odlikuje nepotpuni (parcijalni) obuhvat statističke građe.Tu
se osobine osnovnog skupa (populacije) procjenjuju pomoću rezultata analize
provedene na dijelu tog skupa (uzorku).U pravilu,statistička građa je izrazito obimna
pa bi njeno prikupljanje i obradu pratili visoki materijalni troškovi.Odabir te
„reprezentacije“ statističkog skupa prate ograničenja vezana uz stupanj
reprezentativnosti te predstavničke skupine podataka.Naravno,tu je i neizbježan rizik
pri poopćavanju,tako dobivenih rezultata,na čitav skup.Rizik i nesigurnost ovog
induktivnog postupka se procjenjuju uz pomoć metoda teorije vjerojatnosti.
pojmovno
prostorno
vremenski
Pojmovno definirati statistički skup znači navesti osobine koje mora imati jedinica da bi
bila obuhvaćena tim skupom. Prostornom definicijom statističkog skupa se označava
prostor uz koji su vezane sve jedinice statističkog skupa,a vremenskom definicijom
statističkog skupa određuje se vrijeme uz koje su vezane sve promatrane statističke
jedinice (malodobne osobe u Hrvatskoj,stanje 31.prosinca 2008.g.).Statistički skup je
homogen ako je sastavljen od statističkih jedinica koje zadovoljavaju sva tri zahtjeva
gornje definicije.Samo homogeni skupovi mogu biti predmet statističke analize.
Ponekad se svjesno reducira pojmovna,prostorna ili pak jedna i druga
istovremeno,definicija statističkog skupa.Smanjenje troškova postupka je razlog tog
svjesnog isključivanja iz obrade dijela jedinica statističkog skupa.
Obilježja jedinica statističkog skupa su svojstva po kojima te jedinice sliče ili se
međusobno razlikuju.Statistička obrada se provodi samo na obilježjima koja se odlikuju
varijabilnošću.Ona se manifestira u različitim pojavnim oblicima (modalitetima) tog
obilježja.
Brojevi kojima se iskazuje učestalost pojedinog modaliteta,bilo u apsolutnom,bilo u
relativnom iznosu,zovu se apsolutnim,odnosno relativnim frekvencijama.
Svojstva jedinica statističkog skupa se mjere.Riječ je o postupku kojim se jedinicama
statističkog skupa pridjeljuju slovne ili brojčane oznake u skladu s pojavnim oblikom
mjerenog obilježja,a prema utvrđenim pravilima koje zovemo mjernim skalama.
Razlikujemo nominalnu,ordinarnu,intervalnu i omjernu skalu.
Nominalna skala je dana u obliku nenumeričkog skupa,odnosno niza naziva
(atributa,kategorija,slovnih oznaka) koji se pridjeljuju statističkim jedinicama u skladu s
2
izmjerenim obilježjem.Modaliteti se najčešće navode abecednim redom ili prema
učestalosti istih ili na neki drugi način.Iznimno,modalitetima nominalnog obilježja se
3
Pored kvalitativnih i kvantitativnih varijabli postoji i vremenska varijabla vezana uz
kronološki uređenu skalu modaliteta.
2. UNOS,GRUPIRANJE,TABLIČNO I GRAFIČKO
PRIKAZIVANJE STATISTIČKIH PODATAKA
4
Ako kvantitativno kontinuirano obilježje ima vrijednost 0,nulu treba i napisati.Ni u
kom slučaju zamijeniti je praznom ćelijom koja u MS Excelu znači odsustvo
promatranog obilježja.
Decimalni brojevi se pišu s decimalnim zarezom.Broj decimala ovisi o
konkretnom slučaju.Preporučljivo je podatke i rezultate homogenizirati obzirom na
taj moment te taj ujednačen broj decimala svesti na razumnu mjeru ( obično dva ili
tri decimalna mjesta osim u slučaju vrlo malih brojeva).
Iz sigurnosnih razloga dobro je,s vremena na vrijeme,podatke pohraniti u vanjsku
memoriju.
Primjer 2.1
Studij
Filozofski=1
Medicina=2
Veterina=3 Godine
Redni broj Prezime i ime Strojarstvo=4 studiranja
1 Brčić Mate 4 4
2 Miščić Mia 1 5
3 Kadić Tina 2 6
4 Turić Tadej 3 5
5 Cvitić Florijan 3 7
6 Dragić Karolina 2 4
7 Pavlović Ana 1 5
8 Runje Rino 1 5
9 Križanac Krsto 3 4
10 Karlović Drago 4 7
5
Strukturu podataka je moguće proučavati određivanjem udjela pojedinih modaliteta u
opsegu skupa.U tu svrhu se koriste relativne frekvencije
f ( ai )
k
fi
∑fj
pi = p(ai ) = N = j =1 , i = 1,2,….,k
Radi lakšeg tumačenja,često se relativne frekvencije iskazuju u postocima (množe se sa
100) ili,nešto rjeđe,u promilima (množe se sa 1000).
f ( ai )
100
Pi = P(ai ) = p(ai ) 100 = N
2.2.1 GRUPIRANJE KVANTITATIVNIH PODATAKA
( xi ,fi ) , i = 1,2,…,k
k
∑ fi
i=1 = N
Primjer 2.2
Podaci o broju gostiju u malom obiteljskom hotelu Plava laguna u gradu X tijekom srpnja
i kolovoza 2008.godine dani su slijedećom tablicom:
6
Tablica 2.1.
Datum Broj gostiju Datum Broj gostiju Datum Broj gostiju Datum Broj gostiju
1.07. 5 16.07. 12 1.08. 15 16.08. 15
2.07. 5 17.07. 12 2.08. 15 17.08. 10
3.07. 10 18.07. 12 3.08. 15 18.08. 10
4.07. 10 19.07. 12 4.08. 15 19.08. 10
5.07. 10 20.07. 12 5.08. 15 20.08. 15
6.07. 10 21.07. 14 6.08. 15 21.08. 10
7.07. 15 22.07. 15 7.08. 15 22.08. 10
8.07. 15 23.07. 15 8.08. 15 23.08. 10
9.07. 15 24.07. 15 9.08. 15 24.08. 10
10.07. 15 25.07. 14 10.08. 15 25.08. 15
11.07. 15 26.07. 14 11.08. 15 26.08. 15
12.07. 15 27.07. 14 12.08. 15 27.08. 15
13.07. 15 28.07. 14 13.08. 10 28.08. 10
14.07. 15 29.07. 15 14.08. 10 29.08. 10
15.07. 12 30.07. 15 15.08. 15 30.08. 10
31.07. 15 31.08. 10
Rješenje:
a) Najprije ćemo unijeti podatke u novi radni list programa MS Excel i to u stupac A od
A2 do A63.U ćeliju A1 upišemo naslov Broj gostiju.Prije pokretanja postupka
grupiranja podataka,moramo utvrditi modalitete našeg obilježja.Najmanji broj gostiju
je 5,a najveći 15.Ne vjerujemo li svojoj moći zapažanja,te brojeve ćemo dobiti
pomoću funkcija za izračun maksimuma i minimuma (=MAX(raspon podataka),
=MIN(raspon podataka) ).Naslov iz ćelije A1 kopiramo u ćeliju B1.U ćeliju B2
upišemo najmanju vrijednost modaliteta,a zatim,redom,do zaključno sa ćelijom
B12,preostale modalitete prema rastućim vrijednostima.
7
Procedura koju koristimo za grupiranje podataka zove se Histogram.Nalazi se u sklopu
Data Analysis koji aktiviramo klikom lijevom tipkom miša sa padajućeg izbornika Tools.
Napomena:Moguće je da opcija Dana Analysis ne bude u ponudi padajućeg izbornika
Tools.U tom slučaju na istom izborniku biramo Add-Ins,pa u ponuđenom okviru
označimo opcije Analysis ToolPak i Analysis ToolPak-VBA.OK je potvrda
izbora.Kliknemo li ponovo na Tools,njegov izbornik će imati i nama potrebnu opciju Data
Analysis.U njenoj ponudi je Histogram koji ćemo označiti i potvrditi izbor.Na ekranu će
se pojaviti dijaloški okvir Histograma koji se sastoji iz dva dijela. U prvom dijelu ( Input )
unosimo podatke koje želimo obraditi,a u drugom ( Output options ) biramo mjesto i
rezultate koje želimo dobiti.
Kliknuli smo unutar okvira gornjeg dijela dijaloškog okvira i unijeli adrese ćelija koje
sadrže naše podatke (A1:A63).Slično,nakon klika u okvir Bin Range upisali smo adrese
ćelija sa modalitetima (B1:B12).Zbog obuhvata ćelija sa naslovima ( A1 i B1 ),moramo na
to upozoriti računalo aktiviranjem opcije Labels.U protivnom će se pobuniti jer će ih
tretirati kao podatke nenumeričke prirode kojima procedura Histogram nije vična.
8
U drugom dijelu dijaloškog okvira Histogram – Output options odabrali smo mjesto
tablice s grupiranim podacima.Kako je želimo imati na istom radnom listu,jer tu gužve
očito nema,mišem smo označimo opciju Output Range.U prozorčić koji smo na taj način
otvorili,upisali smo adresu ćelije koju želimo kao krajnu lijevu gornju ćeliju dijela radnog
lista na kojem će biti smještena tablica sa rezultatima obrade (D3).Rezultate smo mogli
smjestiti i na novi radni list naše radne knjige.Za takav izbor je potrebno odabrati opciju
New Worksheet Ply.U slučaju da rezultate trebamo u novoj radnoj knjizi,koristit ćemo
opciju New Workbook.Od tri ponude iz donjeg dijela Output Options
Pareto (sorted histogram) - u izlaznoj tablici frekvencije razvrsta u padajući niz
Cumulative Percentage - tablicu proširi nizom kumulativnih frekvencija
Chart Output – uz izlaznu tablicu da i grafički prikaz grupiranih podataka
odabrali smo,u skladu sa traženjem,drugu od navedenih.
Tablica.2.2
Broj Frequenc
gostiju y
5 2
6 0
7 0
8 0
9 0
10 17
11 0
12 6
13 0
14 5
15 32
More 0
62
Interpretacija:
Dobili smo numerički statistički niz odnosno distribuciju frekvencija.Jedna od numeričkih
grupa je (15,32).Znači da 32 statističke jedinice imaju vrijednost obilježja 15.Preciznije
kazano,čak u 32 dana, tijekom srpnja i kolovoza u malom obiteljskom hotelu u gradu X,je
bravilo po 15 gostiju.
9
smo mogli uraditi i pomoću naredbe za zbrajanje = SUM(E4:E15) koju možemo upisat u
E16.Pritiskom na tipku Enter,u istoj ćeliji,pojavi se tražena suma.Relativne frekvencije
ćemo
interpolirati između stupca apsolutnih i stupca kumulativnih frekvencija.S tom nakanom
ćemo na to mjesto umetnuti stupac.Najprije označimo stupac F klikom na njegovu
oznaku,a zatim Insert/Column na padajućem izborniku.U „novu“ ćeliju F3 upišemo
Rel.Frekv.U F4 ćemo upisati =F4/$E$16 i unos potvrditi pritiskom na tipku
Enter.Dobivene brojeve ćemo pretvoriti u postotke pomoću ikonice % na vrpci sa alatima
Formating. Na istoj vrpci imamo i ikonicu za podešavanje broja decimala u skladu sa
željenom točnošću rezultata.Ostale relativne frekvencije ćemo odrediti korištenjem jedne
od prednosti programa MS Excela koji nam omogućava određivanje niza vrijednosti koje
se računaju pomoću iste formule na način da izračunamo samo jednu od njih,a ostale
dobijemo kopiranjem.Kopiranje postupka se provede tako da označimo ćeliju izračuna (u
našem slučaju F4),a zatim pokazivač miša dovučemo do donjeg desnog kuta iste ćelije do
pojave križića (+),te „prošetajmo“ njime kroz ćelije u kojima očekujemo preostale
relativne frekvencije.Kontrole radi,zbrojimo upravo dobivene vrijednosti.Zbroj mora biti
100.Apsolutna adresa ćelije sa opsegom statističkog skupa je upotrijebljena kako bi se pri
kopiranju osigurala postojanost njenog sadržaja (opsega skupa).Kumulativni niz relativnih
frekvencija već imamo u prvoj varijanti „izlazne“tablice.
Tablica 2.3
Broj gostiju Broj dana Rel.Fekv. Cumulative %
5 2 3,23% 3,23%
6 0 0,00% 3,23%
7 0 0,00% 3,23%
8 0 0,00% 3,23%
9 0 0,00% 3,23%
10 17 27,42% 30,65%
11 0 0,00% 30,65%
12 6 9,68% 40,32%
13 0 0,00% 40,32%
14 5 8,06% 48,39%
15 32 51,61% 100,00%
More 0 0,00% 100,00%
62 100,00%
Interpretacija:
U 6 dana promatranog razdoblja,u malom obiteljskom hotelu u gradu X, bilo je 12 gostiju
što znači da je učestalost (apsolutna frekvencija) modaliteta a = 12 iznosi f = 6.Udio tih
dana u ukupnom broju N = 62 iznosi 9,68% (pripadna relativna frekvencija.Pripadna
kumulativna frekvencija iznosi 40,32% i znači udio dana u kojima je bilo najviše 12
gostiju u tom hotelu,odnosno udio dana u kojima broj gostiju nije premašio 12.
10
stupcu H počevši od posljednje ćelije kreiramo niz „više od“.U H15 upisujemo 0,a u
prethodnoj ćeliji H14 pišemo
=H15+E14.Potvrda sa Enter i kopiranje ćelije H14 u preostale ćelije ovog stupca tablice
do H4 u kojoj mora pisati opseg skupa.
Tablica 2.4
Interpretacija:
Broj dana, u kojima broj gostiju u malom obiteljskom hotelu u gradu X tijekom srpnja i
kolovoza,nije bio veći od 12 iznosi 25,dok tijekom 43 dana u istom hotelu ,u istom
razdoblju, je boravilo 12 ili više od 12 gostiju.
________________________________________________________
*Napomena:Ubuduće će nam frekvencije značiti apsolutne frekvencije
11
Primjer 2.3
Podaci o broju djece po obiteljima su dani slijedećom tablicom:
Tablica 2.5
Tablica 2.6
Broj djece Broj obitelji
1 18
2 15
(3–8) 7
U slučaju izrazito velikog broja različitih vrijednosti koje može poprimiti diskretno
numeričko obilježje,svi modaliteti će se predočiti razredima.Bit će to razredi sa nepravim
Primjer 2.4
Podaci o broju osoba u naselju X koje nisu starije od 30 godina su dani tablicom:
12
i njima pridruženih frekvencija fi .Razredi koji se formiraju za kontinuirano numeričko
obilježje imaju prave ili precizne granice što znači da broj kojim završava jedan razred je
ujedno broj kojim počinje slijedeći razred.Među razredima nema diskontinuiteta.
Primjer 2.5
Podaci o kaznama za prometne prekršaje načinjene tijekom jednog vikenda u mjestu X
dani su tablicom:
Tablica 2.8
Iznos kazne Broj počinitelja
300 - 500 12
500 - 800 7
800 - 1200 5
1200 - 2000 5
2000 - 4
13
Primjer 2.6
Tablica 2.9
Redni broj Vrijeme čekanja Redni broj Vrijeme čekanja Redni broj Vrijeme čekanja
(u mjesecima) (u mjesecima) (u mjesecima)
1 5 31 14 61 8
2 21 32 13 62 18
3 7 33 33 63 22
4 13 34 25 64 20
5 9 35 24 65 34
6 10 36 21 66 29
7 21 37 22 67 19
8 28 38 17 68 16
9 35 39 11 69 10
10 18 40 7 70 7
11 6 41 3 71 4
12 2 42 1 72 14
13 11 43 21 73 18
14 14 44 16 74 21
15 10 45 19 75 29
16 4 46 11 76 23
17 5 47 8 77 19
18 9 48 6 78 18
19 9 49 22 79 9
20 12 50 2 80 10
21 17 51 13 81 13
22 22 52 15 82 17
23 21 53 15 83 42
24 30 54 25 84 4
25 32 55 39 85 7
26 39 56 31 86 12
27 28 57 34 87 13
28 21 58 22 88 25
29 20 59 39 89 22
30 19 60 21 90 30
Rješenje:
a) Prije statističke obrade unijet ćemo podatke u stupac B,stupac A ćemo upotrijebiti za
unos rednih bojeva.Zaglavne ćelije koristimo za odgovarajuće naslove.I ovo je slučaj
diskretnog numeričkog obilježja.Podaci bi bili osjetno pregledniji ako ih grupiramo u
14
razrede.U tu svrhu moramo znati ekstremalne vrijednosti obilježja koje ćemo dobiti
pomoću odgovarajućih funkcija ( =MIN(B2:B91) odnosno =MAX(B2:B91)) koje ćemo
unijeti u neku ćeliju sa strane ( recimo A93 i A94).Traženi ekstremi su 1 i 42.Sada
moramo donijeti odluku o širini razreda.Pri tome ne treba pretjerivati ni u kom
smislu.Preuzak razred ne doprinosi preglednosti,a preširok bi doveo do odveć neprecizne
tablice.Kompromisni izbor bi mogao biti 6 (mjeseci).Nakon te odluke ćemo načiniti i
posljednji pripremni korak tako da naslov iz B1 kopiramo u C1 a u blok ćelija počevši od
C2 (6) do C8 (42) upišemo gornje granice razreda.I sada pokrećemo proceduru iz
prethodnog primjera.To znači biramo Tools na glavnom izborniku,Data Analysis na
njegovom padajućem izborniku i Histogram u dobivenom okviru.U gornjem dijelu
otvorenog prozora,u okviru Input Range mora stajati B2:B91 a u Bin Range C2:C8
Naslove smo izostavili pa ne trebamo označiti Labels.U Output Range neka bude E2 u
otvorenom prozorčiću.Ne smijemo zaboraviti označiti tražene Cumulative Percentage.
Tablica 2.10
15
Interpretacija: Među nezaposlenim osobama u gadu X,broj onih koje čekaju na posao
maksimalno dvije godine (24 mjeseca) ili manje od toga,iznosi 71,dok 41 osoba na posao
čeka najmanje dvije godine ili više od toga.
c) Mjesto za relativne frekvencije smo već pripremili.Preostaje nam odrediti ih.U F11 smo
pohranili opseg skupa pa ćemo u I3 upisati =F3/$E$11.Nastavak je poznat (Enter i
kopiranje upisanog sadržaja u blok I4:I10).Nakon toga ćemo ih zbrojiti.
Interpretacija: Udio osoba koje čekaju na posao najviše dvije godine (24 mjeseca) i ne
manje od 19 mjeseci,iznosi 24,44%.
Tablica 2.11
Prethodna dva primjera su nam pokazala kako se može formirati distribucija frekvencija
diskretnog numeričkog obilježja.U prvom slučaju smo imali numeričko obilježje čija je
svaka vrijednost (modalitet) tvorila zasebnu numeričku grupu.U drugo slučaju,zbog
znatno većeg boja tih vrijednosti i očekivane glomaznosti tablice,formirali smo razrede
kako bi dimenzije rezultirajuće tablice smjestili u poželjne okvire.Naravno,mogli smo se
zadovoljiti i sa manje „elegantnom“ (čitaj:preglednom) tablicom.
Takovih dilema nećemo imati u slučajevima kontinuiranog numeričkog
obilježja.Grupiranje u razrede je, u tom slučaju, naš usud.Postupak je posve analogan
onom koji smo upravo upoznali sa posebnim osvrtom na nešto drugačiju prirodu granica
razreda koja je usklađena sa kontinuiranim karakterom obilježja.
16
Primjer 2.7
U poduzeću X 80 zaposlenika planira mjesec u kojem želi koristiti godišnji odmor.Plan
„želja“ za 2005.godinu je dan slijedećom tablicom:
Tablica 2.12
Redni broj Mjesec Redni broj Mjesec Redni broj Mjesec Redni broj Mjesec
1 veljača 21 kolovoz 41 siječanj 61 ožujak
2 lipanj 22 prosinac 42 siječanj 62 travanj
3 lipanj 23 prosinac 43 svibanj 63 ožujak
4 srpanj 24 rujan 44 kolovoz 64 studeni
5 kolovoz 25 listopad 45 kolovoz 65 kolovoz
6 siječanj 26 srpanj 46 srpanj 66 kolovoz
7 siječanj 27 srpanj 47 srpanj 67 prosinac
8 svibanj 28 srpanj 48 srpanj 68 kolovoz
9 kolovoz 29 prosinac 49 kolovoz 69 srpanj
10 kolovoz 30 kolovoz 50 kolovoz 70 srpanj
11 srpanj 31 kolovoz 51 kolovoz 71 srpanj
12 srpanj 32 lipanj 52 kolovoz 72 srpanj
13 srpanj 33 srpanj 53 srpanj 73 kolovoz
14 kolovoz 34 srpanj 54 srpanj 74 siječanj
15 kolovoz 35 srpanj 55 srpanj 75 siječanj
16 srpanj 36 srpanj 56 srpanj 76 svibanj
17 srpanj 37 srpanj 57 rujan 77 lipanj
18 srpanj 38 siječanj 58 rujan 78 kolovoz
19 travanj 39 svibanj 59 listopad 79 lipanj
20 lipanj 40 siječanj 60 veljača 80 rujan
a)Grupirajte podatke prema mjesecima u godini i objasnite značenje dobivenog podatka za
srpanj.
b)Izračunajte relativne frekvencije i objasnite dobivenu vrijednost za siječanj.
Rješenje:
Kvalitativnim modalitetima (mjeseci u godini) pridijelit ćemo privremene brojčane
„naljepnice“.Najjednostavnije bi bilo mjesecima pridružiti njihove redne brojeve:siječanj
= 1,veljača = 2 idt do prosinac = 12.Tablica tako „maskiranih“ podataka će biti:
17
Tablica 2.13
18
Tablica 2.14
19
Tablica 2.16
Interpretacija:
Udio zaposlenika koji planiraju godišnji odmor u siječnju iznosi 10%.
20
2.3.1 DVODIMENZIONALNA PIVOT TABLICA
Primjer 2.8
Podaci o bolničkom liječenju i iznosu participacije za 90 bolesnika internog odjela bolnice
Novi život u gradu X dani su tablicom:
Tablica 2.17
21
Rješenje
je već obavljen potrebni izbor ( točnije navedeno je mjesto pohrane podataka koji su
spremni za obradu-Mirosoft Excel list or database i svrha obrade-Pivot Table).Next je
prijelaz na drugi korak.U otvorenom prozorčiću dobivenog okvira upisat ćemo adrese
bloka ćelija sa podacima.Preciznije,to su adrese krajnjih ćelija lijeve glavne dijagonale tog
bloka B1:C91.
22
Sada smo u prilici „dizajnirati“ našu tablicu i izabrati izlaznu „lokaciju“.Radni list je
dovoljno prostran te ćemo i rezultate smjestiti na njemu.Potvrdimo tu odluku klikom na
Existing Worksheet te upišemo adresu E4.Da bi odredili izgled tablice moramo pokrenuti
Layout.Dobit ćemo mogućnost razmještanja obilježja čiji nazivi se nalaze u okvirima na
desnoj strani otvorenog prozora po osobnom izboru.
Kliknut ćemo lijevom tipkom miša na Broj dana i,držeći tipku,mišem „odvući“ to
obilježje u polje Row.Postupajući na isti način,Iznos participacije ćemo smjestiti u polje
Column.Jedno od raspoloživih obilježja mora biti i u središnjem polju Data.U našem
slučaju su oba obilježja jednako prikladna za taj izbor.Poželjno bi bilo u središnje
područje smjestiti „nesumabilno“obilježje jer,bez obzira na ponudu obilježja,nužno je
kreirati tablicu tako da se varijabla u polju Data javi s opcijom Count.Svako od naših
obilježja nosi sa sobom opciju Sum pa ćemo Broj danae „odvući“ u Data.Nakon toga
moramo provesti zamjenu opcija Sum i Count,jer ne trebamo ukupan zbroj svih dana već
distribuciju njihovih frekvencija.Zamjena počinje dvostrukim klikom mišem na Sum of
Broj dana.U otvorenom dijaloškom prozoru
23
biramo Count.OK.Finish.
Tablica 2.18
24
Iznosi participacije se kreću od 50 do 3300 kuna.Zadana širina razreda je 800 kuna.Zbog
toga ćemo zamijeniti ekstremalne vrijednosti višekratnicima širine razreda imajući na umu
princip iscrpnosti.Za početnu vrijednost uzmemo prvi takav višekratnik širine razreda
manji od startne vrijednosti,a za završnu vrijednost prvi broj djeljiv s širinom razreda,i
istovremeno veći od najveće vrijednosti obilježja.Dakle,umjesto 50 pišemo 0,umjesto
3300 pišemo 4000 sa korakom 800.OK.
Na analogan način grupiramo i Broj dana.Znači,desni klik miša na sivo polje Broj dana.A
onda Group and Outline/Group.Ekstreme 1 i 41 zamjenjujemo sa 0 i 49 jer je korak 7.OK.
Tablica 2.19
Interpretacija:
25
U otvorenom dijaloškom okviru
Kliknut ćemo na Options te,u otvorenom donjem dijelu istog okvira,pomoću strelice na
desnom kraju prvog dijela polja Show data as konačno dobiti mogućnost izbora tražene
opcije
26
Biramo % of total.OK.Kopija naše pivot tablice je postala tablica relativnih frekvencija.U
donjem desnom kutu,u kojem se sastaju dva Grand totala stoji 100% ,kao što,uostalom,i
mora biti.
Tablica 2.20
Interpretacija:
Udio ispitanika koji su boravili u bolnici između 7 i 14 dana i za to platili između 800 i
1600 kuna participacije,iznosi 18,89%.
Strukturu redaka ćemo dobiti ponavljanjem gornjeg postupka na drugoj kopiji Pivot
tablice.Jedina razlika od gornjeg postupka je u izboru % of row u izborniku Show data as.
27
Tablica 2.21
Interpretacija:
Među bolesnicima koji su u bolnici boravili između 21 i 28 dana,0% njih je u troškovima
liječenja participiralo između 0 i 800 kuna.
I još jednom,sada na trećoj kopiji ponovimo isti postupak uz jedinu razliku u posljednjem
koraku kada ćemo odabrati % of column.Na taj način ćemo dobiti tablicu sa određenom
strukturom stupaca.
Tablica 2.22
Interpretacija:
Među bolesnicima koji su na ime participacije za bolničko liječenje platili između 2400 i
3200 kuna,40% je onih koji su u bolnici boravili između 21 i 28 dana.
Primjer 2.9
28
Tablica 2.23
Redni Spol Duljina Mjesto Troškovi Redni Spol Duljina Mjesto Troškovi
broj odmora odmora smještaja broj odmora odmora smještaja
1 M 5 Split 1500 26 Ž 7 Brela 1360
2 M 7 Hvar 1600 27 M 7 Brela 1500
3 Ž 14 Brela 2000 28 Ž 7 Hvar 1600
4 M 21 Makarska 3000 29 Ž 7 Hvar 1700
5 M 6 Split 1600 30 M 3 Hvar 800
6 Ž 7 Hvar 1700 31 M 3 Makarska 500
7 Ž 7 Makarska 1600 32 M 7 Makarska 1200
8 Ž 14 Hvar 2100 33 Ž 7 Makarska 1300
9 M 14 Milna 2000 34 Ž 14 Split 2100
10 M 7 Milna 1300 35 Ž 14 Split 2200
11 M 7 Hvar 1700 36 M 20 Makarska 2800
12 M 3 Split 700 37 Ž 12 Makarska 2000
13 Ž 3 Split 600 38 Ž 12 Makarska 1700
14 M 14 Hvar 2500 39 M 3 Split 700
15 Ž 14 Brela 2500 40 M 3 Hvar 1000
16 M 7 Brela 1500 41 Ž 5 Hvar 1500
17 M 7 Milna 1600 42 Ž 3 Hvar 900
18 Ž 3 Milna 700 43 Ž 10 Makarska 1600
19 Ž 3 Hvar 900 44 Ž 3 Makarska 600
20 Ž 14 Hvar 2100 45 M 5 Makarska 800
21 M 14 Hvar 2100 46 M 10 Brela 2300
22 M 21 Makarska 2800 47 Ž 10 Brela 2000
23 M 21 Makarska 3000 48 M 14 Hvar 2600
24 M 14 Brela 2000 49 Ž 10 Hvar 2800
25 Ž 14 Brela 2100 50 Ž 5 Hvar 1400
Rješenje:
Next.I već smo u prilici odrediti mjesto na kojem želimo izlaznu tablicu.Neka bude
postojeći radni list,dolje desno počevši od ćelije H2.
29
Pomoću opcije Layout presudit ćemo,po osobnom izboru, o izgledu tablice.Kako smo to
već radili,mišem razmjestimo obilježja.Spol i Duljinu odmora ćemo odvući među retke,a
ostala dva obilježja (Mjesto odmora i Troškove smještaja) ćemo smjestiti u stupce.Za
polje Data „konkuriraju“ sva četiri obilježja,ali u prednosti su kvalitativna (Spol i Mjesto
odmora).
Odabrat ćemo Spol.
Tablica 2.24
30
Unatoč posljednjoj intervenciji,ona je i dalje glomazna i ne baš pregledna.
Možemo poraditi na njenoj preglednosti i skrivanjem podtotala.To ćemo obaviti tako da
desnim klikom,na ma koji od njih (i to jednom u retku,a nakon toga u stupcu)
„prizovemo“ plutajući izbornik u kojem sada biramo Hide.
31
Tablica 2.25
Interpretacija:
U Hvaru su 2 muškarca provela odmor u trajanju između 1 i 7 dana uz troškove smještaja
između 1600 i 2400 kuna.
32
Podaci o turističkoj ponudi grada X u Splitsko-Dalmatinskoj županiji krajem prosinca
2006.godine dani su narednom tablicom:
Tablica 2.26
Vrsta objekta Broj objekata
Sobe u privatnom smještaju 80
Apartmani u privatnom smještaju 100
Hotelske sobe *** 420
Hotelski apartmani 130
Obiteljske vile 10
Rješenje:
Podatke ćemo smjestiti u prva dva stupca zadržavši ćelije A1 i B1 za pripadne
naslove.Modalitete ćemo unijeti u blok ćelija A2:A6 a pripadne frekvencije u blok
B2:B6.Počinjemo označavanjem bloka ćelija sa podacima A2:B6 (naslove i totale ne
zahvaćamo) te uključivanjem „crtača“ klikom lijevom tipkom miša na ikonicu Chart
Wizard na vrpci sa alatima.Pojavit će se dijaloški okvir
sa ponudom vrste (Chart type) i podvrste (Chart sub-type) grafikona.Kako smo se odlučili
za strukturni krug,odabrat ćemo Pie i to prvi podtip (krajnji gornji lijevi).Prvi korak je
učinjen,stoga Next za prelazak na drugi u kojem imamo mogućnost preliminatornog uvida
u traženi grafički prikaz te,po potrebi,a na osnovu viđenog,eventualno mijenjali način
učitavanja podataka (po recima ili stupcima).Opet Next i pokrenuli smo treću fazu
grafičkog prikaza u kojoj ćemo ga opskrbiti naslovom i,po potrebi,tumačenjima sadržaja
33
osi ili nekim drugim dopunama.Zbog prirode našeg grafikona nećemo trebati obrazlagati
što je na osima.Naslov je neophodan.Stoga biramo Titles te,u otvoreni prozorčić upišemo
naslov po želji (to bi trebala biti precizna definicija statističkog skupa).Poželjno bi bili
znati i udio pojedinih modaliteta.Apsolutne frekvencije ,jer o njima je riječ,ovdje
jednostavno dobijemo pomoću Percentage unutar opcije Data Labels.Tumač oznaka je
nužan.Dobit ćemo ga pomoću Show legend sa kartice Legend.U zadnjem koraku biramo
mjesto na kojem želimo rezultate prethodnih koraka.Ostat ćemo na istom radnom listu (As
object in).Finish.
34
35
2.4.2 Položeni stupci
Primjer 2.11
Godišnji izvještaj o dijelu dežurstava medicinskog osoblja u splitskoj bolnici Firule (stanje
31.prosinca 2006.g.) dan je slijedećom tablicom:
Tablica 2.27
Odjel Broj dežurstava
otorinolaringologija 730
hitni kirurški 1200
ginekologija 1600
kardiovaskularni 1360
ortopedija 1000
okulistika 650
psihijatrija 1400
onkologija 2160
nuklearna medicina 360
pedijatrija 950
interna-gastro 770
interna-endokrinologija 710
interna-hepatobilijarna 760
hematologija 720
radiologija i RTG dijagnostika 750
dermatologija 520
neurlogija 1310
traumatologija 1100
jedinica intenzivne njege 2050
kirurgija 1300
Rješenje:
36
Zbog velikog broja modaliteta,neki od njih neće biti navedeni.Ako želim da na grafikonu
budu svi,morat ćemo dodatno intervenirati.S tom nakanom,grafikon ćemo
povečeti,točnije,“izdužiti“pomoću hvataljki koje se nalaze na polovištima gornje i donje
stranice.Njih,kao i sve ostale, ćemo mu priskrbiti označavanjem.Rastezati ćemo ga u vis
tako dugo dok se ne pojave imena svih odjela navedenih u tablici.Naravno,od pomoći će
nam biti i odabir prikladne veličine slova u tekstualnom dijelu grafikona.Pomoću trake s
alatima Formatting možemo provesti željene preinake.Obično koristimo font Ariel.Što se
veličine slova tiče,obično je 12 za naslov,9 za oznake na osima.U slučajevima kao što je
ovaj,umjesto 9 ćemo odabrati 6,ponekad čak i nešto manji.
37
2.4.3 Histogram
38
Tablica 2.5
Redni broj Mjesec Redni broj Mjesec Redni broj Mjesec Redni broj Mjesec
1 veljača 21 kolovoz 41 siječanj 61 ožujak
2 lipanj 22 prosinac 42 siječanj 62 travanj
3 lipanj 23 prosinac 43 svibanj 63 ožujak
4 srpanj 24 rujan 44 kolovoz 64 studeni
5 kolovoz 25 listopad 45 kolovoz 65 kolovoz
6 siječanj 26 srpanj 46 srpanj 66 kolovoz
7 siječanj 27 srpanj 47 srpanj 67 prosinac
8 svibanj 28 srpanj 48 srpanj 68 kolovoz
9 kolovoz 29 prosinac 49 kolovoz 69 srpanj
10 kolovoz 30 kolovoz 50 kolovoz 70 srpanj
11 srpanj 31 kolovoz 51 kolovoz 71 srpanj
12 srpanj 32 lipanj 52 kolovoz 72 srpanj
13 srpanj 33 srpanj 53 srpanj 73 kolovoz
14 kolovoz 34 srpanj 54 srpanj 74 siječanj
15 kolovoz 35 srpanj 55 srpanj 75 siječanj
16 srpanj 36 srpanj 56 srpanj 76 svibanj
17 srpanj 37 srpanj 57 rujan 77 lipanj
18 srpanj 38 siječanj 58 rujan 78 kolovoz
19 travanj 39 svibanj 59 listopad 79 lipanj
20 lipanj 40 siječanj 60 veljača 80 rujan
Rješenje:
Podatke već imamo pohranjene u računalu,kako izvorne tako i tablicu sa zamjenskim
oznakama modaliteta koje smo supstituirali brojčanim oznakama
39
siječanj=1 siječanj=1 siječanj=1 siječanj=1
veljača=2 veljača=2 veljača=2 veljača=2
ožujak=3 ožujak=3 ožujak=3 ožujak=3
travanj=4 travanj=4 travanj=4 travanj=4
svibanj=5 svibanj=5 svibanj=5 svibanj=5
srpanj=7 srpanj=7 srpanj=7 srpanj=7
kolovoz=8 kolovoz=8 kolovoz=8 kolovoz=8
rujan=9 rujan=9 rujan=9 rujan=9
listopad=10 listopad=10 listopad=10 listopad=10
studeni=11 studeni=11 studeni=11 studeni=11
Redni prosinac=12 Redni prosinac=12 Redni prosinac=12 Redni prosinac=12
broj broj broj broj
1 2 21 8 41 1 61 3
2 6 22 12 42 1 62 4
3 6 23 12 43 5 63 3
4 7 24 9 44 8 64 11
5 8 25 10 45 8 65 8
6 1 26 7 46 7 66 8
7 1 27 7 47 7 67 12
8 5 28 7 48 7 68 8
9 8 29 12 49 8 69 7
10 8 30 8 50 8 70 7
11 7 31 8 51 8 71 7
12 7 32 6 52 8 72 7
13 7 33 7 53 7 73 8
14 8 34 7 54 7 74 1
15 8 35 7 55 7 75 1
16 7 36 7 56 7 76 5
17 7 37 7 57 9 77 6
18 7 38 1 58 9 78 8
19 4 39 5 59 10 79 6
20 6 40 1 60 2 80 9
Podatke ćemo smjestiti u stupac A,a modalitete u stupac B.Naslov iz zaglavne ćelije A1
kopiramo u ćeliju B1.Ponovimo poznatu proceduru:Tools/Data
Analysis/Histogram.OK.Ni u nastavku ništa bitno novo.Adrese ćelija sa podacima su
A2:A81 (Input Range),a adrese ćelija sa modalitetima (Bin Range) su B2:B13.Grafikon
ćemo smjestiti na istom radnom listu počevši od D2.Naslove nismo obuhvatili te ne
trebamo kvačicu na prozorčić uz Labels,ali je zato trebamo na Chart Output.OK.
40
Grafikon ćemo dotjerati kako bi bio što informativniji.Počinjemo sa krajnje bezličnim
naslovom.Klik na bezlični Histogram te,nakon pojave okvira,zamjena starog naslova
novim (po mogućnosti što bližim definiciji statističkog skupa):Distribucija planiranih
godišnjih odmora zaposlenika poduzeća X za 2005.godinu.Jednako tako bezličan Bin
zamijenimo sa oznakom obilježja Mjesec,a Frequency sa Broj zaposlenika.Veličinu slova
prilagoditi željama i ukloniti nepotrebnu legendu.
41
Primjer 2.13
Tablica 2.3
Redni broj Vrijeme čekanja Redni broj Vrijeme čekanja Redni broj Vrijeme čekanja
(u mjesecima) (u mjesecima) (u mjesecima)
1 5 31 14 61 8
2 21 32 13 62 18
3 7 33 33 63 22
4 13 34 25 64 20
5 9 35 24 65 34
6 10 36 21 66 29
7 21 37 22 67 19
8 28 38 17 68 16
9 35 39 11 69 10
10 18 40 7 70 7
11 6 41 3 71 4
12 2 42 1 72 14
13 11 43 21 73 18
14 14 44 16 74 21
15 10 45 19 75 29
16 4 46 11 76 23
17 5 47 8 77 19
18 9 48 6 78 18
19 9 49 22 79 9
20 12 50 2 80 10
21 17 51 13 81 13
22 22 52 15 82 17
23 21 53 15 83 42
24 30 54 25 84 4
25 32 55 39 85 7
26 39 56 31 86 12
27 28 57 34 87 13
28 21 58 22 88 25
29 20 59 39 89 22
30 19 60 21 90 30
Rješenje:
Postupak primijenjen pri grupiranju ovih podataka u razrede (širine 6) ponavljamo gotovo
u cijelosti.Razlika je jedino u tome što što ćemo u donjem dijelu odgovarajućeg dijaloškog
okvira staviti kvačicu u otvor uz Chart Output.
Grafikon dodatno dotjeramo kao i u prethodnom slučaju.Naslov:Razdioba nezaposlenih
osoba u gradu X prema vremenu čekanja na posao.Na x osi ćemo napisati:Vrijeme
čekanja na posao,a na Y osi:Broj nezaposlenih.Opcija More ovdje nema odveć smisla pa
ćemo je ukloniti kao i nepotrebnu legendu.Svi podaci grupirani u razrede ,neovisno o
tome da li je riječ o diskretnom ili kontinuiranom numeričkom obilježju,se predočuju
grafikonom spojenih stupaca.MS Excel to neće sam uraditi pa smo prisiljeni na
intervenciju u vidu dvostrukog klika lijevom tipkom miša na ma koji od ponuđenih
42
stupaca.U dobivenom dijaloškom okviru biramo Data Series i karticu Options.Razdaljinu
stupaca svedemo na nulu sa Gap width.
43
2.4.4 Grafički prikaz podataka iz pivot tablice višestrukim stupcima
Skup podataka koji se odnose na dvije ili više varijabli smo grupirali pomoću rutine Pivot
Table and Pivot Chart Report.Tako sređene podatke je moguće i grafički prikazati.
Primjer 2.14
Podatke iz primjera 2.8 grafički prikažite višestrukim stupcima.
Rješenje:
Problem možemo riješiti pomoću opcije Pivot Chart (with Pivot Table).Međutim,mi ćemo
to uraditi na nešto jednostavniji način.U tu svrhu trebamo posebnu kopiju pivot tablice i to
onu koja će biti tablica alfanumeričkih podataka,oslobođenu „duha“ postupaka koji su je
44
stvorili.Postupak počinje označavanjem tablice (sjetimo se:pokazivač miša na krajnju
lijevu gornju ćeliju te,nakon što se pojavi ona strelica,klik lijevom tipkom miša,i tablica je
plava,tj.označena).Nastavak već poznat:Edit/Copy i klik na ćeliju koju smo odabrali kao
krajnju gornju lijevu naše kopije (F15).Nastavak uključuje neke promjene.Na padajućem
izborniku Edit umjesto dosadašnjeg Paste sada biramo Paste Special.Među ponuđenim
opcijama Odabrat ćemo Values.OK.Dobivena kopija je posve zadovoljavajuća.Doduše
nema okvira,pa ako nam se to ne sviđa,možemo ih osigurati ponavljanjem prethodne
procedure s tom razlikom što ćemo u zadnjem koraku odabrati Formats umjesto
Values.Ovo je čisto
„kozmetička“ intervencija važna jedino za formalno obličje naše kopije.Slijed narednih
koraka je već viđen.Prvi od njih je označavanje podataka u našoj kopiji (blok F16:P24)
I klik na Chart Wizard.U ponudi biramo Columns i prvi podtip (gornji krajnji lijevi).U
drugom koraku donosimo odluku o načinu učitavanja podataka.Sada ćemo odabrati
Columns.U trećem koraku slijedi tekstualna dorada u vidu naslova (Razdioba frekvencija
bolesnika liječenih u bolnici Novi život,prema duljini bolničkog liječenja i iznosu
participacije),oznake na koordinatnim osima (Broj dana na x osi i Broj bolesnika na Y
osi).Nema potrebe otvarati novi radni list,pa ćemo ga smjestiti na istom.Finish
Ponovimo li gornji postupak s jedinom razlikom u trećem koraku ( biramo Series in Rows
i,sukladno tome,na x os pišemo Iznos participacije),dobit ćemo slijedeći grafikon:
45
Zadaci za vježbu 1.
46
b)Navedite obilježje i vrstu promatranog obilježja jedinica statističkog skupa
c)Navedite jedan od modaliteta.Koliko jedinica statističkog skupa ima tu vrijednost
obilježja?
d)Podatke iz tablice predočite grafički strukturnim krugom,navedite sve potrebne
oznake.Koliki je udio službenih putovanja koja su obavljena uz avionski prevoz?
3.Anketirani su članovi kluba liječenih alkoholičara u gradu X dana 1.srpnja 2004.g.
vezano za neuspjele pokušaje apstinencije.Podaci su dani tablicom:
Redni broj Dan Redni broj Dan Redni broj Dan Redni broj Dan
1 ponedjeljak 16 petak 31 petak 46 petak
2 ponedjeljak 17 subota 32 petak 47 nedjelja
3 utorak 18 subota 33 petak 48 nedjelja
4 srijeda 19 subota 34 subota 49 nedjelja
5 srijeda 20 četvrtak 35 srijeda 50 petak
6 četvrtak 21 petak 36 četvrtak 51 petak
7 četvrtak 22 petak 37 nedjelja 52 petak
8 petak 23 petak 38 utorak 53 subota
9 petak 24 nedjelja 39 utorak 54 subota
10 petak 25 nedjelja 40 utorak 55 subota
11 petak 26 nedjelja 41 ponedjeljak 56 subota
12 subota 27 nedjelja 42 ponedjeljak 57 subota
13 subota 28 srijeda 43 nedjelja 58 subota
14 subota 29 četvrtak 44 nedjelja 59 subota
15 subota 30 četvrtak 45 četvrtak 60 subota
47
a) Grupirajte podatke o životnoj dobi korisnika u razrede širine 10 (godina).Rezultate
grupiranja predočite tablicom.
b) Dane podatke predočite grafički odgovarajućim grafikonom.
c) Odredite udio osoba starih između 70 i 80 godina te udio onih koji nisu stariji od 70
godina.
Redni Godine Redni Godine Redni Godine Redni Godine Redni Godine
broj starosti broj starosti broj starosti broj starosti broj starosti
1 72,3 21 41,3 41 55,7 61 27,4 81 37,3
2 77,8 22 40,6 42 45,8 62 64,9 82 44,6
3 81,3 23 43,7 43 33,5 63 76,2 83 62,7
4 88,5 24 37,8 44 28,6 64 70,9 84 66,6
5 69,8 25 33,5 45 22,7 65 86 85 45,8
6 56,8 26 34,8 46 26,8 66 83,6 86 52,3
7 66,7 27 55,9 47 37,3 67 27,6 87 20,6
8 90,2 28 62,8 48 44,6 68 92,5 88 38,8
9 81,7 29 70,5 49 62,7 69 76,9 89 46,9
10 30,5 30 84,5 50 66,6 70 90,2 90 84,8
11 25,4 31 76,7 51 37,8 71 81,7 91 80,6
12 33,1 32 88,9 52 34,8 72 30,5 92 87,4
13 45,8 33 51,8 53 29,5 73 25,4 93 57,9
14 52,3 34 46,8 54 59,5 74 37,3 94 90,2
15 20,6 35 72,6 55 68,4 75 44,6 95 81,7
16 48,9 36 77,7 56 78,5 76 62,7 96 30,5
17 58,9 37 83,2 57 71,3 77 66,6 97 25,4
18 62,7 38 86,4 58 79,4 78 45,8 98 44,6
19 74,6 39 92,3 59 85,2 79 52,3 99 62,7
20 73,2 40 29,5 60 86,7 80 20,6 100 66,6
6. Podaci o spolu i životnoj dobi malodobnih prekršitelja u gradu X, dani su tablicom:
Redni broj Spol Dob Redni broj Spol Dob Redni broj Spol Dob
1 M 17,5 16 M 16,5 31 Ž 13,4
2 M 15,7 17 Ž 12,5 32 Ž 15,3
3 Ž 16,3 18 Ž 17,2 33 M 12,8
4 Ž 17,2 19 M 13,4 34 M 16,4
5 Ž 15,2 20 M 15,3 35 Ž 16,5
6 M 13,1 21 M 12,8 36 M 12,5
7 M 14,2 22 Ž 16,4 37 M 17,2
8 M 12,9 23 Ž 17,3 38 M 13,4
9 Ž 13,7 24 M 12,2 39 M 13,7
10 M 14,8 25 M 12,9 40 M 15,3
11 M 14,3 26 M 13,7 41 M 17,4
12 M 16,5 27 M 14,8 42 Ž 14,4
13 M 12,5 28 M 14,3 43 Ž 12,7
14 M 17,2 29 Ž 16,5 44 M 16,2
15 M 13,4 30 Ž 13,4 45 M 16
a) Formirajte pivot tablicu navedenih podataka (dob grupirajte u razrede širine 2 godine)
b) Odredite udio malodobnih prekršitelja koji su muškog spola starost između 14 i 16
godina.
c) Podatke iz pivot tablice prikažite grafički dvostrukim stupcima te interpretirajte graf.
48
7.Rezultati vikend kontrola prometne policije provedenih u Splitu tijekom
2005.godine.dani su slijedećom tablicom.
a) Formirajte pivot tablicu (iznos naplaćenih kazni grupirajte u razrede širine 500,a broj
prekršaja u razrede širine 2).
b) Odredite udio prekršitelja koji su načinili između 2 i 4 prekršaja i za to platili između
1000 i 1500 kuna .
Rješenja:
49
2. a) Statistički skup čine službena putovanja u poduzeću X stanje 31.prosinca 2005.g.
b) Promatrano obilježje je vrsta prijevoza.Riječ je o
kvalitativnom/nominalnom/atributivnom obilježju
c) Službeni automobil; 170 jedinica je tog modaliteta
d) Udio službenih putovanja koja su se odvijala avionom iznosi 19%
50
4. a)
Broj
Dan kupaca
1 4
2 4
3 4
4 7
5 16
6 15
7 10
More 0
5a)
51
b)
c) Kako je opseg skupa 100 to je iznos relativnih i apsolutnih frekvencija isti te je 14%
udio osoba starosti između 70 i 80 godina,dok je 65% udio onih koji nisu stariji od 70
godina.
6. a)
b)
52
Udio malodobnih prekršitelja muškog spola starosti između 14 i 16 godina iznosi 17,78%.
c)
a)
b)
53
54
MJERE CENTRALNE TENDENCIJE
Zbog izrazite sklonosti ka gomilanju oko neke neke istaknute vrijednosti,moguće je niz
varijabilnih podataka predočiti jednom takovom,dominantnom,srednjom vrijednošću.Tu
zamjensku,predstavničku ulogu će uspješno obaviti ona vrijednost koja je krajnje tipična
varijabilnim podacima iste vrste.Obzirom na način izbora,srednje vrijednosti se dijele na
potpune i položajne.U izračun potpunih srednjih vrijednosti su uključeni svi članovi
niza.Potpune srednje vrijednosti su:
aritmetička sredina
geometrijska sredina
harmonijska sredina
mod
medijan
Odabir srednjih vrijednosti i njihova primjena ovise o prirodi statističkih podataka i vrsti
obilježja.Naime,u slučaju kvalitativnog obilježja nisu dopuštene računske operacije nad
modalitetima te je time krajnje sužen izbor srednjih vrijednosti.Kod kvantitativnih
varijabli takovih ograničenja nema,ali zato neke od njih pokazuju izuzetnu osjetljivost na
ekstremne vrijednosti obilježja.
U programskom paketu koji koristimo postoje gotove funkcije za izračunavanje svih
srednjih vrijednosti negrupiranih podataka.Nažalost,tako nije i sa grupiranim podacima pa
ćemo morati sami to uraditi pomoću odgovarajućih formula.
55
Tablica 3.1
Navršene Navršene Navršene Navršene
Redni Redni Redni Redni
godine godine godine godine
broj broj broj broj
života života života života
1 43 14 22 27 27 40 55
2 55 15 25 28 18 41 31
3 41 16 32 29 44 42 33
4 31 17 42 30 54 43 28
5 27 18 50 31 55 44 52
6 18 19 55 32 31 45 31
7 44 20 31 33 33 46 42
8 54 21 33 34 28 47 29
9 49 22 28 35 52 48 27
10 35 23 52 36 22 49 18
11 27 24 36 37 37 50 44
12 24 25 37 38 28 51 54
13 38 26 37 39 43 52 56
Rješenje:
=AVERAGE (B2:B53)
i,naravno,Enter.
Traženi prosjek je moguće odrediti i pomoću izvorne formule
x + x +¿⋅¿+ x N
x̄= 1 2
N
Tako da u ćeliji u kojoj želimo rezultat,upišemo =SUM(B2:B53).Enter.
U slučaju grupiranih numeričkih podataka,odnosno distribucije frekvencija,imamo vaganu
ili ponderiranu srednju vrijednost.Ako je riječ o distribuciji
{ }
k
( x i, f i ),i=1 , 2 ,. . ., k ; ∑ f i=N
i=1
vagana aritmetička sredina se računa po formuli
56
k
∑ f i xi
i=1
f 1 x 1 + f 2 x 2 +¿⋅¿+ f k x k k
x̄=
f 1 + f 2 + ¿⋅¿+ f k ∑ fi
= i=1 .
Apsolutne frekvencije imaju ulogu pondera.Ovaj način računanja srednje vrijednosti ćemo
morati provesti sami jer u MS Excelu ne postoji direktna formula kao u slučaju
negrupiranih podataka.
U slučaju podataka grupiranih u razrede,suočeni smo s problemom „usrednjavanja“
podataka na nivou svakog razreda s ciljem dobivanja „predstavničke“ vrijednosti,za nama
nepoznate, podatke unutar razreda.To znači da ćemo sve vrijednosti unutar razreda
¿
zamijeniti sa sredinom razreda xi (koriste se i oznake xi ili mi ) koju dobijemo kao
aritmetičku sredinu razrednih granica (donje i gornje).Formula za izračun te ponderirane
srednje vrijednosti je,formalno,ista kao i u prethodnom slučaju
k
∑ f i xi
i=1
k
x̄ =
∑ fi
i=1 .
Primjer 3.2
Podatke iz prethodnog primjera treba grupirati u razrede širine 4 te,za tako grupirane
podatke izračunati aritmetičku sredinu i usporediti je s aritmetičkom sredinom
negrupiranih podataka.Objasnite nastalu razliku.
Rješenje:
Najprije ćemo pomoću procedure Histogram grupirati podatke iz tablice 3.1 te rezultate
grupiranja smjestiti na postojeći radni list počevši od E2.Da bi pripremili podatke
potrebne za izračun tražene aritmetičke sredine u G2 ćemo upisati xi a u H2 xi *fi .Kako u
stupcu E imamo gornje granice razreda čije sredine xi trebamo za izračun traženog
prosjeka,to ćemo u G3 upisati =(16+E3)/2, u G4 =(E3+E4)/2.Razredi su jednako široki
pa možemo,na poznati način,izračunati ostale razredne sredine.To znači,mišem kopirati
sadržaj ćelije G4 u blok ćelija G5:G13.Nakon toga punimo stupac H počevši od H3gdje
upisujemo =F3*G3.Enter.I,opet,kopiranje,mišem,sada sadržaja ove ćelije u blok ćelija
H4:H13.Da bi formulu pretočili u traženi broj,trebamo sume brojeva u stupcima F i
H.Brojnik je zbroj sadržaja bloka ćelija H3:H13,a nazivnik opseg statističkog
skupa,odnosno zbroj frekvencija u bloku ćelija F3:F13.U nekoj od praznih ćelija (recimo
E18) izračunat ćemo traženi prosjek =H14/F14.Odlučimo li se za dva decimalna
mjesta,dobit ćemo da je prosječna dob računata iz grupiranih podataka jednaka
36,62.Odstupanje od prethodnog (točnog) prosjeka izvornih vrijednosti je posljedica
grupiranja podataka u razrede,što ima za posljedicu neprecizne (čitaj:netočne) ulazne
veličine (sredine razreda zamjenjuju stvarne vrijednosti iz tih razreda i time je načinjena
neotklonjiva greška koja se nužno odražava na rezultatu).
Unatoč nekim,nesumnjivim,manjkavostima zamjene stvarnih veličina „zastupnicima“ ,ma
kako oni bili pouzdani i reprezentativni,aritmetička sredina je najčešće korištena srednja
vrijednost.Zbog toga,nije na odmet,naglasiti njene prednosti i nedostatke.
Prednosti su slijedeće:
57
Aritmetička sredina je uvijek barem jednaka najmanjoj vrijednosti obilježja i,
istovremeno,nikada ne premašuje maksimalnu vrijednost istog.Ustvari,ona će
podcijeniti vrijednosti obilježja dijela statističkih jedinica i istovremeno precijeniti
vrijednost obilježja drugog dijela statističkih jedinica.
Posljedica ovog dvojakog kriterija prema vrijednostima obilježja koje imaju
statističke jedinice jest svojstvo aritmetičke sredine, koje ima jedino ona među
mjerama centralne tendencije,a to je
N
∑ ( x i− x̄ )
i=1 = 0
k
∑ f i ( x i − x̄ )
odnosno i=1 = 0 tj.
Nedostaci:
√
N
N
∏ xi
G = √ x 1⋅x2⋅¿⋅¿ x N = i=1
N
.
U MS Excelu geometrijska sredina se računa pomoću funkcije
G = √ x ⋅x
N f1
1
f2
2
f
¿⋅¿⋅x kk
58
3.3 Harmonijska sredina
59
Rješenje:
=MODE(B2:B53)
Enter.
Dobili smo Mo = 31.Među osobama prijavljenim na zavodu za zapošljavanje u Zadru
1.srpnja 2003.godine,najveći je broj onih koji imaju 31 godinu.
Ovaj podatak nije odveć reprezentativan za naš skup.Zapravo,prilično je atipičan.To je
svojstveno i mnogim drugim slučajevima.Zbog tako slabe zastupljenosti statističkog
skupa i zbog činjenice da mod ne pruža informacije o ostalim članovima skupa,veoma se
rijetko koristi kao srednja vrijednost.
3.5 Medijan
Primjer 3.4
Za podatke iz tablice 3.1 izračunati medijan i obrazložite značenje dobivene vrijednosti.
Rješenje:
=MEDIAN(B2:B53)
Enter.Dobili smo Me = 35,5 Što znači da 50% osoba prijavljenih na Zavodu za
zapošljavanje u Zadru 1.srpnja 2003.g. ima najviše 35,5 godina,a %0% njih ima više od
35,5 godina.
3.6 Kvantili
60
3.6.1 Kvartili
3.6.2 Centili
3.6.3 Decili
Decili su kvantili reda 10.Ima ih 9.Za njihov izračun u MS Excelu ne postoji posebna
1 1
=10⋅
funkcija.Međutim,obzirom na veoma dobru „komunikaciju“ sa centilima ( 10 100 )
to ih je je moguće računati pomoću funkcije za izračun pripadnog centila.
Primjer 3.5
Za podatke dane tablicom 3.1 izračunajte i obrazložite dobivene vrijednosti:
a) donji kvartil
b) gornji kvartil
c) 13. centil
d) 3.decil
Rješenje:
a) U ćeliji gdje želimo traženu vrijednost ( F20) upišemo:
=QUARTILE(B2:B53;1)
Enter.Q1 = 28.Dakle,25% osoba prijavljenih na Zavodu za zapošljavanje nije starije od 28
godina.
b) U ćeliju F21 upisujemo
=QUARTILE(B2:B53;3)
Enter. Q3 = 45,25 što znači da 75% osoba prijavljenih na Zavodu za zapošljavanje ima
maksimalno 45,25 godina.
61
c) U ćeliju F22 upisujemo
=PERCENTILE(B2:B53;13)
Enter.P13 = 26,26.Među osobama prijavljenim na Zavodu za zapošljavanje,13% njih ima
maksimalno 26,26 godina.
d) U F23 upisujemo
=PERCENTILE(B2:B53;30)
Enter.P30 = 29,6.Među osobama prijavljenim na Zavodu za zapošljavanje,30% njih ima
maksimalno 29,6 godina.
31 MOD
MEDIJA
35,5 N
28 Q1
45,25 Q3
26,26 P13%
29,6 P30%
Primjer 3.6
Zadani su podaci o odobrenim stambenim kreditima štedišama stambeno-štedne zadruge
Stanogradnja (Tablica 3.2).
a) Izračunajte prosječni iznos odobrenih kredite
b) Kreditne iznose grupirajte u razrede širine 20000 EU te izračunajte aritmetičku
sredinu tako grupiranih podataka.Usporedite je sa aritmetičkom sredinom
izvornih podataka i obrazložite nastalu razliku.
c) Odredite koji je iznos kredite najčešće odobravan.
d) Izračunajte medijan.
e) Izračunajte donji i gornji kvartil.
f) Izračunajte koliki je maksimalno iznos prvih 70%,po veličini
razvrstanih,kredita.
g) Izračunajte 4 i 6 decil.
h) Grafički predočite dane podatke.
Obrazložite značenje svake od traženih vrijednosti.
62
Tablica 3.2
Redni Iznos kredita Redni Iznos kredita Redni Iznos kredita Redni Iznos kredita
broj ( u eurima ) broj ( u eurima ) broj ( u eurima ) broj ( u eurima )
1 80320 19 90140 37 160190 55 45950
2 50450 20 60290 38 113110 56 90250
3 110890 21 30220 39 48360 57 130380
4 150220 22 38114 40 72920 58 180950
5 200180 23 50250 41 116260 59 73390
6 45950 24 55180 42 120380 60 90180
7 90250 25 68290 43 190210 61 40290
8 130380 26 73390 44 220110 62 92120
9 180950 27 90180 45 150220 63 110390
10 220100 28 40290 46 30220 64 140400
11 130250 29 92120 47 130250 65 170200
12 140180 30 110390 48 100000 66 48360
13 110200 31 140400 49 140400 67 72920
14 100000 32 170200 50 130250 68 116260
15 88010 33 250380 51 100000 69 120380
16 90220 34 210190 52 140400 70 190210
17 100110 35 170179 53 150220 71 220110
18 70770 36 130180 54 200180 72 150000
Rješenje:
Podatke ćemo unijeti na uobičajeni način.Znači,u stupac A upisujemo redne brojeve,a u
stupac B iznose odobrenih kredita zadržavši pri tome prve ćelije,u svakom od njih,za
odgovarajuće naslove.
a) Prosječan iznos odobrenih kredita ćemo izračunati upisom
=AVERAGE(B2:B73)
u ćeliju D20.Nakon pritiska na tipku Enter dobit ćemo traženi prosjek izvornih
podataka.Iznosi 116058,79 EU.U ćeliji E20 ćemo napisati Prosječni iznos
negrupiranih podataka.
b) Sada ćemo grupirati iznose kredita u razrede širine 20000 (EU).Najprije moramo
znati iznos najmanjeg i najvećeg odobrenog kredita.Dakle,negdje sa strane,u dvije
slobodne ćelije,pomoću poznatih funkcija za izračun najveće i najmanje vrijednosti
skupa numeričkih podataka,dobi ćemo da se iznosi odobrenih kredita kreću u
granicama od najmanjeg 30220,do,najvećeg odobrenog,250380.Sada možemo
formirati granice razreda ( sjetimo se da navodimo samo gornje granice tekućih
razreda).Naslov iz B1 kopiramo u ćeliju C1,a u C2 unesemo gornju granicu prvog
razreda (40000).Potom,u C3 pišemo 60000 i,tako redom,do ćelije C13 u kojoj će biti
gornja granica zadnjeg razreda (260000).Sada smo spremni za pokretanje
Histograma.Slijed koraka znamo:Tools/Data Analysis/Histogram.U gornjem dijelu
dobivenog okvira,u prozorčić Input Range upisujemo B1:B73,a u otvor uz Bin Range
C1:C13.Obuhvatili smo i naslove,zato ne smijemo zaboraviti kvačicu uz Labels.Ostat
ćemo na istom radnom listu pa zato biramo Output Range i E2.Trebamo i grafički
prikaz,pa ćemo kliknuti i na Chart Output .Uredit ćemo ga poslije,pa ćemo ga
izmaknuti negdje desno,na radnom listu.U izlaznoj tablici možemo,eventualno,u ćeliji
F2 umjesto frekvencija napisati Broj odobrenih kredita.U G2 pišemo xi a u H2 xi* fi..
Nakon toga „punimo“ostale ćelije stupca G.U G3 pišemo sredinu pvog razreda gornje
granice 40000 (širine 20000).Naravno,to je 30000.Algoritam za izračun ostalih sredina
63
proizlazi iz njihove prirode (aritmetička sredina razrednih granica).Zato,u G4 pišemo
=(E3+E4)/2 i,kopiramo mišem do G15.Potom zbrojimo frekvencije iz stupca F i u F15
dobijemo poznati opseg skupa 72.Sada ćemo popuniti potrebna mjesta u stupcu H
počevši od H3 gdje upisujemo =F3*G3.Nakon tipke Enter,“hod“ mišem prema dole
do H15.Nakon toga zbrojimo brojeve iz stupca H i u H16 imamo brojnik razlomka
kojim ćemo,u D21izračunati aritmetičku sredinu grupiranih podataka pomoću
=H16/F16.Enter.Dobivenih 117361,11,naravno,odstupa od pravog prosjeka koji smo
dobili iz izvornih podataka jer,kao što znamo,grupiranjem podataka u razrede načinili
smo neotklonivu grešku.U E21 ćemo napisati Aritmetička sredina grupiranih
podataka.
c) Najčešće odobreni iznos kredita je ustvari modalna vrijednost pa,ne zaboravivši
slabosti ovog programskog paketa u slučaju višemodalnih distribucija,računamo
=MODE(B2:B73)
Enter.Traženu vrijednost 140400 ćemo izračunati u ćeliji D22 ,desno od koje,u E22
pišemo MOD.
d) U D23 pišemo
=MEDIAN(B2:B73)
Enter i dobili smo 110640 vrijednost sa svojstvom da 50% odobrenih kredita ne
premašuje taj iznos.U E23 upisujemo MEDIJAN.
e) U E24 i E25,redom,pišemo Donji kvartil odnosno Gornji kvartil.Računamo ih u
ćelijama D24,odnosno D25 pozivom pripadnih funkcija
=QUARTILE(B2:B73;1)
=QUARTILE(B2:B73;3)
Dobili smo 73390 za donji,odnosno 150055 za gornji kvartil što znači da 25%
odobrenih kredita ne premašuje 73390,dok 75% njih nije veće od 150055 EU.
f) U E26 pišemo P70%,a u D26
=PERCENTILE(B2:B73;70%)
P70% = 140400 znači da prvih 70%,po veličini razvrstanih kredita,ne premašuje
140400 EU.
g) Decile računamo pomoću odgovarajućih percentila.Znači,četvrti decil je
P40%,odnosno deveti decil je P90%.Stoga,redom,u D27,odnosno D28 upisujemo
=PERCENTILE(B2:B73;40%)
=PERCENTILE(B2:B73;90%)
Dobiveni iznosi su P40% = 92272,odnosno P90% = 130222 što predstavlja
maksimalne iznose prvih 40%,odnosno prvih 90% odobrenih kredita.
h) Grafikon ćemo dotjerati na uobičajeni način ( naslov,oznake na osima).Ono što je
bitno,ne smijemo zaboraviti.To se odnosi na položaj stupaca koji obavezno
moraju biti spojeni.Kako?To smo već vidjeli.Dvostruki klik lijevom tipkom miša
na ma koji od njih i,nakon što smo odabrali Options,širinu koraka svesti na nulu.
64
130222 P60%
14
12
Broj odobrenih kredita
10
0
40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000 260000 More
Iznos kredita
( u eurima )
65
Zadaci za vježbu 2.
1. Na pitanje o tome koliko puta tjedno jedu ribu,92 ispitanika je dalo slijedeće odgovore:
Tablica 3.3
Redni Broj Redni Broj Redni Broj Redni Broj
broj obroka broj obroka broj obroka broj obroka
1 1 24 1 47 0 70 3
2 0 25 5 48 0 71 3
3 0 26 5 49 0 72 2
4 1 27 2 50 1 73 2
5 1 28 2 51 1 74 2
6 1 29 3 52 1 75 2
7 1 30 3 53 3 76 5
8 2 31 3 54 3 77 5
9 2 32 0 55 1 78 1
10 1 33 0 56 0 79 0
11 1 34 1 57 1 80 0
12 3 35 0 58 1 81 7
13 3 36 1 59 0 82 0
14 4 37 1 60 0 83 0
15 5 38 1 61 0 84 1
16 0 39 7 62 2 85 1
17 1 40 7 63 1 86 1
18 7 41 2 64 2 87 1
19 0 42 2 65 2 88 1
20 0 43 2 66 1 89 2
21 0 44 2 67 1 90 3
22 1 45 1 68 1 91 5
23 1 46 1 69 4 92 4
66
f) Odredite najveću težinu koju ma prvih 55%,po težini razvrstane,djece.
Tablica 3.4
Rješenja:
1.
Broj
Broj
ispitanik
obroka
a
0 20 1,79
1 33
2 16
3 10
4 3 2,25
5 6
6 0
7 4
More 0
2.
Broj Broj xi xi*fi
obroka ispitanika
0 20 0 0
2 49 1 49
4 13 3 39
6 6 5 30
8 4 7 28
More 0 146
92
67
Aritmetička sredina
1,59 grupiranih podataka
Aritmetička sredina
1,79 izvornih podataka
3.
a) 21,76 Prosječna težina
b) 24 Najčešća težina
c) 22,00 MEDIJAN
d1) 20,16 Q1
d2) 24 Q3
e) 22,9 P70%
f) 22,365 P55%
4. Mjere disperzije
Slika statističkog skupa koju dobijemo posredovanjem srednjih vrijednosti može biti
veoma manjkava i neprecizna.Posebno će se to dogoditi u slučajevima kada podaci
nemaju osobine koje pogoduju zamjenskoj ulozi srednjih vrijednosti ( npr. upotreba
aritmetičke sredine kao zamjenske veličine podataka velikog varijabiliteta).Da bi tako
nastala slika što vjernije odražavala prirodu podataka,preporučljivo je usporedo sa
srednjim vrijednostima ispitati i raspršenost podataka oko izračunatih stožernih vrijednosti
koje često imaju osobine gomilišta statističkog skupa.
Raspršenost (disperzija) podataka se može mjeriti na različite načine.Niz parametara
utječe na odabir pokazatelja disperzije.Ako mjerom disperzije ocjenjujemo pouzdanost
izračunate srednje vrijednosti numeričkog niza,tada obično,odabiremo neku od apsolutnih
mjera disperzije kao što su raspon varijacije,interkvartil,varijanca i,iz nje
izvedena,standardna devijacija.Apsolutne mjere disperzije se iskazuju u jedinicama mjere
aktualne numeričke varijable.Zbog toga nisu prikladne mjere disperzije pri usporedbi
varijabiliteta dviju ili više distribucija različitih obilježja ili,pak,istih obilježja različitih
modaliteta.Tada,obavezno,koristimo relativne mjere disperzije koje su neimenovani
brojevi.Obično se iskazuju u postotku.To su koeficijent varijacije i koeficijent kvartilne
devijacije.Iznimno,ako uspoređujemo distribucije istih obilježja (sa sličnim vrijednostima)
možemo koristiti i apsolutne mjere disperzije.
U slučaju podataka grupiranih u razrede računa se kao razlika gornje granice posljednjeg
razreda i donje granice prvog razreda.Najmanja moguća vrijednost je 0 (potpuno odsustvo
68
varijabilnosti) a najveća nije definirana.Zbog načina izračuna,za raspon varijacije se često
kaže da je mjera „totalne raspršenosti“ u skupu podataka.Jednostavnost izračuna i
interpretacije je najveća prednost ove mjere disperzije.S druge pak strane,najveći
nedostatak proizlazi iz činjenice da se računa pomoću samo dvije vrijednosti obilježja i
to,često nepouzdane,ekstremne.Naime,one su,obično,atipične ili je njihovo postojanje
problematično (u slučajevima distribucija s razredima,posebno ako je prvi,posljednji,ili
čak obadva,razreda otvorena) te se zbog raspon varijacije ne može smatrati pouzdanom
mjerom disperzije.
U programu MS Excel-u nemamo funkciju za direktan izračun raspona
varijacije.Međutim,jednostavnim „prijevodom“ formule lako se računa:
= MAX(raspon varijacije) – MIN(raspon varijacije)
Unatoč navedenim nedostacima,raspon varijacije je prikladan pokazatelj disperzije u
slučajevima kada je gruba procjena statističkog skupa zadovoljavajuća procjena.
69
N
∑ x 2i
σ 2= i =1 − x̄ 2
N .
Za grupirane podatke
k k
∑ f i ( x i− x̄ )2 ∑ f i x 2i
σ 2= i =1 k
i=1
k
− x̄ 2
∑ fi ∑ fi
i =1 = i=1 .
√ √
N N
∑ ( x i− x̄ )2 ∑ x 2i
i=1 i =1
σ= = − x̄ 2
N N
odnosno,za grupirane podatke,
√ √
k k
∑ f i ( x i − x̄ )2 ∑ f i x 2i
i=1 i=1
σ= k
= k
− x̄ 2
∑ fi ∑ fi
i =1 i=1
Ova definicija je matematički netočna,ali se ustalila u upotrebi.U programu MS Excel za
izračun standardne devijacije se koristi funkcija
=STDEVP(raspon podataka)
U praksi se standardna devijacija najčešće koristi kao potpuna apsolutna mjera
disperzije.Koliko će uspješno odgovoriti na očekivanja koja se pred nju postavljaju,ovisi o
reprezentativnosti aktualne aritmetičke sredine kao zamjenske veličine. Znači,eventualne,
teškoće „dijeli“ sa aritmetičkom sredinom,a one su,kao što znamo,vezane za nazočnost
atipičnih ekstremnih vrijednosti obilježja te,kod grupiranih podataka,nazočnost otvorenih
razreda ( s teško odredivim granicama).
70
Može poprimiti vrijednosti iz segmenta [ 0,1 ] .Ako nema disperzije (odsustvo
varijabilnosti), jednak je 0.S porastom raspršenosti podataka njegova vrijednost raste
prema jedinici. U slučajevima kada ne premašuje vrijednost od 0,2 kažemo da središnjih
50% elemenata promatranog uređenog skupa iskazuje vrlo slab,ili relativno
slab,varijabilitet.O umjerenom varijabilitetu govorimo ako Vq poprima vrijednosti između
0,2 i 0,3.Ako,pak, se kreće između 0,3 i 0,5,govorimo o relativno jakom
varijabilitetu.Vrijednosti iznad 0,5 su znak vrlo jakog varijabiliteta ovog,izdvojenog,dijela
statističkog skupa (središnjih 50% elemenata).Ni
za ovu mjeru disperzije u MS Excel-u nema funkcije za izravan izračun te se snalazimo
korištenjem poznatih naredbi i definicione formule.Tako,za negrupirane podatke,će to biti
=(QUARTILE(raspon podataka;3) - QUARTILE(raspon podataka;1))/
(QUARTILE(raspon podataka;3) + QUARTILE(raspon podataka;1))
Kao i interkvartil,i koeficijent varijacije je relativna mjera disperzije te je ,zbog
toga,pogodan za usporedbu stupnja varijabilnosti podataka u raznorodnim statističkim
nizovima.Označavamo ga sa V,a računamo po formuli
σ
⋅100
V = x̄
te iskazuje u postocima.Ne može biti manji od nule (jednak je nuli za stacionarne
statističke nizove).Premda gornja granica nije određena,u praksi je obično 100%.Ako ima
vrijednost manju od 50%,pripadni skup se odlikuje slabim do umjerenim
varijabilitetom.Varijabilitet je relativno jak,odnosno vrlo jak ako vrijednost koeficijenta
varijacije premašuje 50%,odnosno 70%.Ni za ovu mjeru disperzije ne postoji u MS Excel-
u funkcija za direktan izračun.Postupamo na isti način kao i u prethodnom slučaju pa će
naredba za izračun koeficijenta varijacije biti
=STDEVP(raspon podataka)/AVERAGE(raspon podataka)*100
Primjer 4.1
71
d) U ćeliji D31 pišemo
=STDEVP(B2:B73)
i dobijemo σ = 52621,38 a znači prosječno odstupanje od prosječnog iznosa odobrenog
kredita.
e) Za koeficijent varijacije imamo sve potrebne podatke u D20 (aritmetička sredina) i u
D31 (standardna devijacija) pa ćemo,u ćeliju D33 upisati
=D31/D20
i dobiveni iznos,pomoću odgovarajuće ikonice,pretvoriti u postotke te dodati dvije
decimale.Tako dobiveni broj je 45,34% što znači prilično veliku disperziju odobrenih
kredita.
Primjer 4.2
Anketirano je 20 obitelji vezano za njihova mjesečna izdvajanja za kulturu i sport.
Dobiveni podaci su dani slijedećom tablicom:
Tablica 4.1
Mjesečna Mjesečna Mjesečna Mjesečna
Redni Redni
izdvajanja izdvajanja izdvajanja izdvajanja
broj broj
za kulturu za sport za kulturu za sport
1 500 600 11 300 600
2 300 200 12 280 300
3 100 250 13 380 350
4 150 150 14 200 290
5 280 180 15 450 300
6 500 210 16 200 400
7 200 200 17 180 300
8 300 300 18 350 400
9 600 400 19 400 250
10 450 500 20 500 300
Rješenje:
Kako imamo dva različita skupa (doduše,istovrsna i to kontinuirana numerička
obilježja),za usporedbu varijabiliteta moramo koristiti neku od relativnih mjera
disperzije.Najpouzdaniji je koeficijent varijacije kao potpuna mjera relativne
disperzije.Reprezentativnost aritmetičke sredine kao srednje vrijednosti i standardne
devijacije kao apsolutne mjere disperzije,nisu upitne zbog odsustva faktora koji bi ih
mogli ugroziti (odsustvo ekstremnih vrijednosti;otvoreni razredi nisu ni mogući jer podaci
nisu grupirani u razrede)
Podatke unosimo na uobičajeni način u stupce B i C zadržavši zaglavne ćelije za
naslove.Dakle,u B1 pišemo ime jednog od obilježja Mjesečna izdvajanja za kulturu,a u
C1 Mjesečna izdvajanja za sport.U skladu s sadržajem zaglavnih ćelija,punimo ćelije
bloka B2:C21.Sada ćemo u dvije slobodne ćelije (a ima ih jako,jako puno) izračunati
tražene vrijednosti.Odaberimo B25 i C25.U B25 upisujemo:
=STDEVP(B2:B21)/AVERAGE(B2:B21).
Potvrda sa Enter i pretvorba dobivenog broja u postotak sa dva decimalna mjesta 40,67.
Posve analogno,u C25 upisujemo
=STDEVP(C2:C21)/AVERAGE(C2:C21).
i,analognim slijedom koraka,dobijemo 38,49%.
72
Dobivene vrijednosti koeficijenata varijacije ukazuju na znatnu disperziju obiteljskih
izdvajanja kako za kulturu tako i za sport.Pri tome,disperzija je izrazitija kada su u pitanju
obiteljska izdvajanja za kulturu što znači da se promatrane obitelji više međusobno
razlikuju u izdvajanjima za kulturu nego u onima za sport.
Primjer 4.3
Podaci o mjesečnoj (veljača 2006.g.) prodaji goriva na benzinskoj crpki Smokovik u
Splitu,dani su narednom tablicom.
Tablica 4.2
Iznos računa Broj
( u kunama ) kupaca
50 - 100 230
100 - 150 510
150 - 200 800
200 - 250 860
250 - 300 750
300 - 400 450
400 - 500 380
500 - 600 250
Izračunajte:
a) aritmetičku sredinu
b) standardnu devijaciju
c) koeficijent varijacije
Rješenje:
a) Unošenjem podataka smo davno ovladali pa ćemo i ovdje ponoviti uobičajeni
postupak.Iznos računa ćemo upisati u A1,a u B1Broj kupaca.Sukladno tome i podatke
smještamo u blok ćelija A2:B8.U C1 ćemo upisati xi a u C2 izračunati sredinu prvog
razreda =(50 + 100)/2.Enter.I tako,redom,računamo sredine ostalih razreda kao
aritmetičku sredinu njihovih granica.Trebat ćemo i opseg skupa,te stoga zbrojimo
apsolutne frekvencije u stupcu B.U B10 ćemo imati potrebni opseg 4230.U D1
upisujemo fi*xi ,u E1 (xi - xpro)2 te,u F1 fi *(xi - xpro)2 .Za izračun aritmetičke sredine
moramo popuniti odgovarajuće ćelije stupca D i to počevši sa D2 gdje pišemo
=B2*C2,a,nakon Enter,kopiramo njen sadržaj u blok ćelija D3:D9 te zbrojimo upravo
izračunate podatke u stupcu D.Sada ćemo u A12 unijeti =D10/B10 i dobili smo da je
prosječni račun na benzinskoj crpki Smokovik,tijekom veljače 2006.godine,iznosio
256,91 kunu.
b) Već smo „rezervirali“ mjesta na radnom listu za izračun podataka nužnih za dobivanje
standardne devijacije naših podataka grupiranih u razrede.I krenimo sa punjenjem
ćelija u stupcu E počevši sa E2 Gdje unosimo =(C2-$A$12)^2.Enter.I kopiranje
upravo unesenog sadržaja u blok E3:E9.Nakon toga se „prebacujemo“ na susjedni
stupac F i u F1 unosimo =B2*E2.Kopiranje tog sadržaja u blok F3:F9 i zbrajanje
izračunatih vrijednosti iz stupca F.Sada u A13 unosimo =SQRT(F10/B10).
Enter,i,nakon zaokruživanja na dvije decimale dobijemo da je prosječno odstupanje od
prosječnog iznosa računa za uliveno gorivo, na benzinskoj crpki Smokovik,tijekom
veljače 2006.godine,iznosi 121,57 kuna.
c) Izračun koeficijenata varijacije je sada šala mala.Naime,sve potrebite podatke već smo
priredili i zato,u A14 samo unesemo =A13/A12.Enter,i pretvaranje u postotak sa dvije
decimale.Dobivenih 47,32% upozorava na prilično veliku disperziju iznosa računa za
uliveno gorivo na promatranoj crpki.
73
Tablica 4.3
256,91 xpr
121,57 St.dev.
koef.varijacij
47,32% e
Zadaci za vježbu 3.
a) raspon varijacije
b) interkvartil
c) koeficijent kvartilne devijacije
d) standardnu devijaciju
e) koeficijent varijacije
74
Tablica 4.4
75
Tablica 4.5
Tablica 4.6
Starost automobila Broj vlasnika
0 - 4 530
4 - 8 670
8 - 12 750
12 - 16 420
16 - 20 330
20 - 30 300
Rješenja:
1.
76
e) Vrijednost koeficijenta varijacije u iznosu od 14,23% ukazuje na relativno slab
varijabilitet maksimalnih postignutih brzina učesnika.
2.a)
1939,29 Prosječna stipendija
517,01 Standardna devijacija
26,66% Koeficijent varijacije
Koeficijent varijacije ukazuje na relativno slab varijabilitet ostvarenih stipendija što znači
da se prosječna stipendija može prihvatiti kao prikladna zamjenska vrijednost.
b)
725 Interkvartil
Raspon varijacije središnjih 50% ,po veličini svrstanih,stipendija iznosi 725 kuna.
c)
10,66 Koef.var. za prosječne
% ocjene
3.
Starost Broj
automobila vlasnika xi xi*fi fi*(xi-xpro)^2
0 - 4 530 2 1060 39472,757
4 - 8 670 6 4020 14362,723
8 - 12 750 10 7500 297,675
12 - 16 420 14 5880 4769,898
16 - 20 330 18 5940 17924,577
20 - 30 300 25 7500 61949,07
3000 31900 138776,7
Prosječna 10,63
starost
Varijanca 46,2589
Standardna 6,801389564
devijacija
Koeficijent 63,96%
varijacije
77
Numerički podaci pokazuju sklonost gomilanja oko istaknute, „centralne“,točke.Zbog
toga,srednje vrijednosti i raspršenost numeričkih statističkih jedinica oko njih,imaju
značajnu ulogu u opisu statističkog skupa.Taj opis se može upotpuniti mjerenjem načina i
oblika raspoređivanja podataka u numeričkim statističkim nizovima.
78
Za podatke iz primjera 4.2 izračunajte mjere zaobljenosti i asimetrije i obrazložite
dobivene vrijednosti.
Mjesečna izdvajanja za Mjesečna izdvajanja za
kulturu sport
Asimetrija 0,20 0,96
Zaobljenos
t -0,87 0,43
Y = f ( x1,x2,…..,xk ) + u
79
(nezavisne i zavisne),dijagram rasipanja je ravninski grafički prikaz danih
podataka.Točnije,dijagram rasipanja je skup od N točaka (xi,yi) ( tj N uređenih parova
(xi,yi),i = 1,2,..,N).Način na koji su te točke raspoređene sugerira tip moguće veze između
promatranih veličina.Slutnje koje se tako rode,mogu se potvrditi ili odbaciti u ovisnosti o
vrijednosti koeficijenta korelacije.Ako raspored točaka nalikuje na zamišljeni
pravac,očekivana veza između varijabli je linearna.Pretpostavka se provjerava pomoću
koeficijenta jednostavne linearne korelacije.Njegova svojstva su,uglavnom,očuvana i u
slučajevima drugih oblika korelacije.Može poprimiti vrijednosti iz segmenta [ −1,1 ]
.Pozitivne vrijednosti koeficijenta korelacije su znak upravo proporcionalnog odnosa
između varijabli ( tj.porast jedne je praćen porastom druge,odnosno ako X pada,tada
pada i Y),dok negativne vrijednosti prati obrnuto proporcionalni odnos (rast jedne prati
smanjenje druge,i obratno).Jačina veze je upravo proporcionalna apsolutnoj vrijednosti
koeficijenta korelacije.Ako je |r| blizu nuli,veza je slaba ili je uopće nema (r = 0).Ako je |r|
= 1 veza je uzročno-posljedična (funkcionalna).
Tablica 6.1
80
Redni Visina Troškovi prijevoza Redni Visina Troškovi prijevoza
broj ( u cm ) ( u kn ) broj ( u cm ) ( u kn )
1 184 1200 11 173 900
2 192 260 12 178 350
3 178 580 13 188 420
4 185 830 14 182 860
5 180 280 15 178 900
6 170 360 16 185 280
7 190 900 17 180 400
8 195 290 18 183 320
9 177 1200 19 176 280
10 188 1200 20 193 1500
Rješenje:
Podatke ćemo unijeti na uobičajeni način u prva tri stupca novog radnog lista.Prve ćelije
svakog od njih ćemo zadržati za odgovarajuće naslove.Znači,u stupcu A ćemo smjestiti
redne brojeve,u stupcu B podatke o visini ispitanika,a u stupcu C podatke vezane za
troškove prijevoza.
Tablica 6.2
Troškovi
Visina prijevoz
( u cm ) a
( u kn )
Visina
( u cm ) 1
Troškovi
prijevoza 0,13811336
( u kn ) 6 1
81
korelacije je u tome što je moguće istovremeno procijeniti jačinu veze između većeg broja
varijabli za razliku od prethodnog koji se odnosio isključivo na dvije varijable.
c) Zajednička osobina,preciznije zajednički nedostatak,već navedenih načina određivanja
koeficijenta korelacije jest potpuno ignoriranje veličine uzorka za koji se
računa.Posljedica toga je činjenica da,za tako određen koeficijent korelacije,nismo u
stanju procijeniti koliko je on statistički značajan.Naime,ta činjenica bitno ovisi i o
veličini uzorka što je vidljivo iz formule koja tome služi
t = √ N −2
1−r 2
N je broj parova varijabli X i Y.U praksi se značajnost koeficijenta korelacije procjenjuje
na razini značajnosti od 1% i (ili) 5% .U MS Excel-u se ta procjena provodi proširenjem
već poznatog slijeda koraka Tools/Data Analysis i onda Regression.OK.U gornjem dijelu
dobivenog prozora,u okvir Input Y Range unosimo raspon podataka zavisne varijable
(C1:C21),a u Input X Range,analogno,adrese bloka sa podacima nezavisne varijable
(B1:B21).Zbog obuhvata zaglavnih ćelija,klik na prozorčić uz Labels.Kao i u prethodnom
slučaju,u donjem dijelu otvorenog prozora,u Output options navedemo odluku o mjestu na
kojem želimo izlaznu tablicu (E15).OK.
Tablica 6.3
SUMMARY OUTPUT
Regression Statistics
0,1381133
Multiple R 7
R Square 0,0190753
-
Adjusted R 0,0354205
Square 1
403,31661
Standard Error 3
Observations 20
ANOVA
Significance
df SS MS F F
56937,7735 56937, 0,3500 0,56145255
Regression 1 2 8 3 3
2927957,22
Residual 18 6 162664
Total 19 2984895
82
smjera regresijskog pravca.Značajnost koeficijenta korelacije možemo očitati na dva
mjesta u ovoj tablici:Significante F i P-value za X varijablu.U oba slučaja iznosi 0,561453
što daleko premašuje 0,05 (5%) te zaključujemo da između naših varijabli ne postoji
statistički značajna veza .Provjera značajnosti koeficijenta korelacije je neizostavan dio
ozbiljne korelacijske analize.Veći uzorak uz manju vrijednost koeficijenta korelacije može
rezultirati jednakom značajnošću kao i osjetno veće vrijednosti koeficijenta korelacije
izračunatog na znatno manjem uzorku.Zbog toga,rezultati analize provedene na osnovu
vrijednosti koeficijenta korelacije izračunatog na malom uzorku,su,blago rečeno,upitni.
Količina Količina
Redni broj Osvojeno Redni broj Osvojeno
proizvedenog ulja proizvedenog ulja
natjecatelja mjesto natjecatelja mjesto
( u litrama ) ( u litrama )
1 5 560 16 33 250
2 7 320 17 39 490
3 1 150 18 45 565
4 13 980 19 6 790
5 2 410 20 11 940
6 19 380 21 22 610
7 20 180 22 35 840
8 31 715 23 40 410
9 48 890 24 41 375
10 21 400 25 9 245
11 17 317 26 10 168
12 8 290 27 18 173
13 53 800 28 11 575
14 14 750 29 24 770
15 27 330 30 37 425
83
proizvedenog ulja).Počinjemo sa izračunom ranga svake od varijabli.,točnije,u stupcu D
ćemo to napraviti za X varijablu,a u stupcu E za Y varijablu.Pripadne naslove Rang X i
Rang Y ćemo upisati u ćelije D1 i E1.Rangove određujemo pomoću funkcije
=RANG(traženi broj;raspon podataka;način rangiranja)
Što se tiče zadnje „stavke“ u ovoj funkciji (način rangiranja),možemo birati rangiranje u
padajućem ili rastućem nizu.Ako se odlučimo za padajući niz,tada ćemo za mačin
rangiranja pisati 0 ili ćemo ostaviti prazno.U protivnom,želimo li rangirati podatke u
rastućem nizu,tada ćemo na mjesto načina rangiranja upisati ma koji prirodni broj (1,2,3,
….)Izbor je naš.Jedino moramo voditi računa o tome da kada smo odabrali način
rangiranja za jednu od varijabli,tada i drugu moramo rangirati na isti način.Stoga,u ćeliju
D2 upisujemo =RANK(B2;$B$2:$B$31;1).Raspon podataka mora biti naveden
apsolutnim adresama zato
jer mjesto na rangiranoj skali proizlazi iz neprestanog uspoređivanja sa svim,uvijek istim,
vrijednostima promatrane varijable. Odabrali smo razvrstavanje u rastući niz jer je logično
najbolje plasiranom natjecatelju pridijeliti prvo mjesto ( rang 1).Nakon toga,vrijednosti
ranga za preostale vrijednosti varijable X dobijemo kopiranjem sadržaja ćelije D2 u blok
ćelija D3:D31.Analogno ćemo postupiti i sa varijablom Y.U E2 upišemo
=RANK(C2;$C$2:$C$31;1) i kopiranje ovog sadržaja u blok E3:E31.Sada možemo
izračunati razlike rangova naših varijabli u stupcu F.U F1 naslov di ,a u F2 upisujemo
recept za rutinu =D2 – E2.Enter i kopiranje sadržaja ćelije F2 u naredne ćelije stupca F
do,zaključno F31.Ustvari,mi trebamo sumu kvadrata upravo izračunatih razlika,te u G1
2
smještamo naslov di ,a u G2 upisujemo =F2^2 te kopiramo taj sadržaj u preostale ćelije
istog stupca do,zaključno,F31.I,konačno,zbroj upravo dobivenih vrijednosti u G32,a u
G35 traženi Spearmanov koeficijent korelacije ranga dobijemo pomoću =1-
6*G32/(30^2-30) .
Iznosi 0,284093 što znači da između osvojenog mjesta i količine proizvedenog ulja postoji
veoma slaba pozitivna (proporcionalna) veza.
84
Tablica 6.5
Količina
Redni broj Osvojeno proizvedenog
Rang X Rang Y di di^2
natjecatelja mjesto ulja
( u litrama )
1 5 560 3 18 -15 225
2 7 320 5 9 -4 16
3 1 150 1 1 0 0
4 13 980 11 30 -19 361
5 2 410 2 14 -12 144
6 19 380 15 12 3 9
7 20 180 16 4 12 144
8 31 715 21 22 -1 1
9 48 890 29 28 1 1
10 21 400 17 13 4 16
11 17 317 13 8 5 25
12 8 290 6 7 -1 1
13 53 800 30 26 4 16
14 14 750 12 23 -11 121
15 27 330 20 10 10 100
16 33 250 22 6 16 256
17 39 490 25 17 8 64
18 45 565 28 19 9 81
19 6 790 4 25 -21 441
20 11 940 9 29 -20 400
21 22 610 18 21 -3 9
22 35 840 23 27 -4 16
23 40 410 26 14 12 144
24 41 375 27 11 16 256
25 9 245 7 5 2 4
26 10 168 8 2 6 36
27 18 173 14 3 11 121
28 11 575 9 20 -11 121
29 24 770 19 24 -5 25
30 37 425 24 16 8 64
0 3218
Zbroj razlika rangova mora biti jednak nuli.Pomoću tog podatka možemo provjeriti da li
smo dobro odredili rangove.Ponekad se dogodi odstupanje od očekivane vrijednosti zbroja
rangova.To može biti posljedica poteškoća koje MS Excel ima sa tzv.vezanim rangovima
koji se javljaju u slučaju kada nekoliko članova niza imaju istu vrijednost.Znači,morali bi
„dijeliti isto mjesto“.Ako je to,na primjer,drugo,treće i četvrto mjesto,MS Excel će svima
dati vrijednost ranga 2 što ne odgovara pravoj vrijednosti ovih vezanih
rangova.Naime,ona je ustvari njihova aritmetička sredina (2 + 3 + 4)/3 = 3.Vrijednost
Spearmanovog koeficijenta korelacije ranga ne smije ovisiti o načinu rangiranja
varijabli,a,upravo se to zbude,kod rješavanju problema vezanih rangova na način kako to
radi MS Excel.
85
Osnovni zadatak regresijske analize jest izgradnja statističkog modela koji će opisati vezu
između regresorskih i regresand varijabli,a,k tomu,će moći poslužiti u svrhu
predviđanja,odnosno prognoziranja.Promatrat ćemo samo neke tipove jednostavnih
regresijskih modela.Opći oblik takovog modela je
Y = f(x) + u
odnosno Y = Y^ + u
Odabir tipa regresijskog modela znači izbor vrste funkcije f ( X ) koja predočuje vezu
između parova vrijednosti varijabli X i Y uz minimalna odstupanja od funkcionalnog
odnosa.
86
Pozitivna vrijednost koeficijenta je svojstvena upravo proporcionalnom odnosu varijabli X
i Y,a negativni predznak koeficijenta smjera znači da su varijable X i Y u obrnuto
proporcionalnom odnosu.Za regresijski pravac b znači očekivanu prosječnu promjenu
zavisne varijable (Y) kada se nezavisna varijabla (X) poveća za jedinicu (mjerenja).
Parametre regresijskog pravca možemo odrediti na nekoliko načina u MS Excel-u.
Primjer 6.3
Dani su podaci o broju stanovnika i broju ugostiteljskih objekata za 20 gradova.Nađite
jednadžbu modela linearne regresije za dane podatke.Objasnite značenje dobivenih
parametara.Podatke prikažite dijagramom rasipanja.
Tablica 6.6
Redni Broj stanovnika Broj ugostiteljskih Redni Broj stanovnika Broj ugostiteljskih
broj ( 000 ) objekata broj ( 000 ) objekata
1 50,48 60 11 440,12 500
2 37,22 41 12 370,45 400
3 100,13 105 13 520,75 600
4 220,48 240 14 630,42 700
5 500,6 590 15 270,45 300
6 310,44 320 16 814,67 900
7 290,48 300 17 730,28 750
8 180,85 200 18 700,48 700
9 65,44 70 19 73,49 68
10 95,88 100 20 44,82 52
Prije no što unesemo podatke na način kako to inače radimo,moramo utvrditi koja je od
danih varijabli nezavisna (X),a koja je zavisna (Y).Kako je prirodna pretpostavka da broj
otvorenih ugostiteljskih objekata ovisi o broju stanovnika,to ćemo broj stanovnika
proglasiti nezavisnom varijablom X,a broj ugostiteljskih objekata će nam biti zavisna
varijabla
Y.U ovom slučaju nemamo dilema oko odabira tipa regresijskog modela (traži se
linearni).Isto tako,moramo podatke i grafički predočiti dijagramom rasipanja,pa ćemo
početi od njega,jer on i inače igra ključnu ulogu u inicijalnim odlukama o jačini i tipu veze
između promatranih varijabli.Počinjemo kao i kod svakog drugog grafičkog prikaza
označavanjem podataka koje moramo predočiti grafikonom (B2:C21) i
pokretanjem„crtača“Chard Wizard.Od,nama znane ponude,sada ćemo se odlučiti za XY
(Scatter) ,njegov prvi podtip.Nastavak se ni u čemu ne razlikuje od ma kojeg grafikona :
naslov (Dijagram rasipanja),sadržaji osi (X-Broj stanovnika;Y-Broj ugostiteljskih
objekata).
87
Dijagram rasipanja
1000
Broj ugostiteljskih 900
800
700
objekata
600
500
400
300
200
100
0
0 200 400 600 800 1000
88
Tablica 6.6
SUMMARY OUTPUT
Regression Statistics
0,99632633
Multiple R 1
0,99266615
R Square 8
Adjusted R 0,99225872
Square 3
24,2382959
Standard Error 3
Observations 20
ANOVA
Significance
df SS MS F F
2436,37531 1,14208E-
Regression 1 1431358,29 1431358,29 5 20
587,494989
Residual 18 10574,90981 6
Total 19 1441933,2
Prepoznajemo tražene koeficijente u dijelu tablice Coefficients .Tablica sadrži puno više
podataka od onih koje ,za sada,trebamo.Izdvojit ćemo podatak o značajnosti (Significace
F i /ili P-value) statističke veze između naših varijabli.Broj koji smo dobili (1,14 E-20) je
puno,puno manji od 0,05 što znači da među našim varijablama postoji statistički značajna
veza.
Najjednostavniji način iznalaženja jednadžbe regresijskog modela je neposredno iz
dijagrama rasipanja.Graf označimo klikom na njegovu pozadinu.Na vrpci izbornika se
dogodi preobrazba Data u Chart.Klikom na njega,dobivamo padajući izbornik u kojem
biramo Add Trendline.
89
Međutim,ponuda ovog dijaloškog okvira je nešto bogatija.Ona nudi i neke druge
mogućnosti na svojoj drugoj kartici Options.Okoristiti ćemo se njome kako bi dobili
jednadžbu modela na grafikonu (Display equation on chart) i brojčani pokazatelj njegove
uspješnosti R2 (Display R-squared).
90
Lakoća kojom se dobije traženi regresijski model na ovaj način je razlog što se on i
najčešće koristi.I na kraju ,ostaje nam obrazložiti značenje dobivenih parametara.
Parametar a =1,88 47 znači očekivani broj ugostiteljskih objekata u „mrtvom“gradu tj.u
gradu sa X = 0 stanovnika se mogu očekivati približno dva ugostiteljska objekta (to je
jedna od onih ne baš smislenih situacija o kojima smo govorili).
Parametar b = 1,0752 znači očekivanu promjenu (ovdje je to povećanje) broja
ugostiteljskih objekata u slučaju jedinične promjene nezavisne varijable tj,na svakih novih
1000 (jer je jedinica mjere 1000) stanovnika može se očekivati približno jedan novi
ugostiteljski objekt.
Osnovni zadatak regresijske analize je prognoza.Model je i izgrađen upravo zato da bi što
bolje opisao vezu između promatranih veličina te,što je moguće uspješnije,predvidio kako
će ta veza funkcionirati za neku vrijednost (jedne od varijabli) koja nije među
navedenima.
Primjer 6.3.1
Uz podatke iz prethodnog primjera,treba prognozirati,pomoću linearnog regresijskog
modela,broj ugostiteljskih objekata u gradu sa 80000 stanovnika.
X = 80 (000)
Y = 1.0792 * 80 + 1,8847
U gradu sa 80000 stanovnika očekuje se 88 ( preciznije 88,2207) ugostiteljskih objekata.
Odstupanje zadanih vrijednosti od procijenjenih modelom,se mjeri na isti način kao i kod
disperzije statističkih jedinica oko aritmetičke sredine.Te mjere su ujedno i pokazatelji
uspješnosti modela.Mogu biti apsolutne (varijanca,standardna devijacija) ili relativne
(koeficijent varijacije i koeficijent determinacije) mjere disperzije.
Varijanca
91
N
∑ ( y i− ^yi )2
σ^ 2^y = i=1
N −2
Je prosječno kvadratno odstupanje empirijskih vrijednosti od pripadnih
regresijskih.Standardna devijacija
σ^ y (ili standardna greška ocjene) je drugi korijen iz
varijance
√
N
∑ ( y i− ^y i )2
i=1
σ^ y = N−2
92
odgovarajućih funkcija,tada ćemo i koeficijent determinacije odrediti pomoću njemu
namijenjene funkcije
=RSQ(raspon varijable Y; raspon varijable X)
2
Ako pak parametre linearnog modela tražimo uz pomoć rutine Regression,tada ćemo R
dobiti u izlaznoj tablici.Treći način nam omogućava izračun, i prikaz na
2
grafu,koeficijenta determinacije (Display R-squared value on chart).Sama oznaka R
sugerira nenegativnost koeficijenta determinacije,dok sastav razlomka koji ga
definira,ukazuje na njegove ekstremne vrijednosti (0 i 1).Model je to reprezentativniji što
mu je vrijednost koeficijenta determinacije bliža jedinici (to znači da protumačena
odstupanja iz brojnika neznatno zaostaju za ukupnim odstupanjima iz nazivnika).
Ponekad regresijska analiza prethodi korelacijskoj.Tada se koeficijent korelacije računa iz
relacije
r 2 = R2
odnosno r =± R √ 2
93
Promjena zavisne varijable uzrokovana povećanjem nezavisne varijable za jedinicu
(mjere) može značiti povećanje ili smanjenje u ovisnosti da li je b>1 ili b<1 (to je
x
posljedica utjecaja baze eksponencijalne funkcije b na tip monotonosti te funkcije).Zbog
toga,prikladnija je interpretacija parametra b pomoću prosječne stope promjena iskazane u
postocima.
S = (b – 1)¿ 100
Pozitivna stopa će značiti očekivano,u postocima iskazano, povećanje,a negativna stopa
smanjenje vrijednosti zavisne varijable pri jediničnom porastu nezavisne varijable.
Primjer 6.4
Zadani su podaci o broju ovisnika i broju oboljelih od Aids-a među njim,u 14 hrvatskih
gradova.Nađite jednadžbu eksponencijalnog modela regresije.Objasnite značenje
dobivenih parametara.Na temelju dobivene jednadžbe procijenite koliko se oboljelih od
Aids-a može očekivati u gradu s 10000 ovisnika.
Tablica 6.8
Rješenje:
Podatke ćemo unijeti u prva tri stupca novog radnog lista na način kako smo i do sada to
činili.Naslovi u zaglavnim ćelijama tih stupaca će biti (kao i inače) tumači sadržaja ćelija.
Označimo blok ćelija sa podacima B2:C15 i pokrenemo poznatu rutinu za kreiranje
dijagrama rasipanja :Chart Wizard/XY Scater-prvi podtip.Nastavak je uobičajen i
uključuje „tekstualno“ opremanje grafa,uklanjanje nepotrebne legende.
94
Jednadžbu traženog eksponencijalnog modela ćemo dobiti na najjednostavniji
način.Znači,označit ćemo dijagram rasipanja i,nakon što Chart smijeni Data na vrpci
izbornika,kliknutu na Add Trendline te odabrati eksponencijalni model,
95
U narednom koraku ćemo dobiti
96
b = 1,8643 S = ( 1,8643 – 1)*100 =86,43% što znači da,ako se broj ovisnika poveća za
1(000),može se očekivati povećanje broja oboljelih od Aids-a od 86,43%
Koeficijent determinacije R2 = 0,9761 ukazuje na izrazitu reprezentativnost ovog modela.
Očekivani broj oboljelih od Aids-a,za grad sa 10(000) ovisnika) iznosi
Y = 2,5925*1,8642^10 = 1315,04 ¿ 1315
Rješenje:
Koristit ćemo postojeći dijagram rasipanja te,gotovo u cijelosti ,ponoviti slijed koraka iz
prethodnog slučaja s jedinom razlikom u odabiru tipa regresijskog modela.U našem
slučaju,trebamo u dijaloškom okviru Add Trendline birati Power.
97
a = 5,4985 ¿ 6 i znači da se u gradu sa 1(000) ovisnika može očekivati oko 6 oboljelih
od Aids-a
b = 1,3984 znači očekivano,u postocima iskazano,povećanja broja oboljelih od Aids-a u
slučaju da broj ovisnika poraste za 1%.
Koeficijent determinacije R2 = 0,9345 zaostaje za vrijednošću istog kod eksponencijalnog
modela što ima za posljedicu nešto slabiju reprezentativnost ovog regresijskog
modela.Očekivani broj oboljelih,za istu vrijednost nezavisne varijable X = 10(000),
Y = 5,5592*10^1,3341 = 137,61 ¿ 138
znatno odstupa od prognostičke vrijednosti 1315 dobivene eksponencijalnim modelom za
istu vrijednost X.
Zadaci za vježbu 4.
1. Dani su podaci o broju vozača mlađih od 25 godina i broju prometnih nesreća sa
smrtnim ishodom na području županije X tijekom razdoblja od 1994. do 2007. godine
Tablica 6.9
98
Broj vozača Broj prometnih
mlađih od 25 godina nesreća sa
Godina (000) smrtnim ishodom
1994 20,10 12
1995 21,50 13
1996 25,00 13
1997 28,00 15
1998 30,00 17
1999 30,10 19
2000 32,80 21
2001 35,60 24
2002 37,30 27
2003 39,20 30
2004 40,32 33
2005 44,72 36
2006 51,12 40
2007 55,25 45
Tablica 6.10
Tablica 6.11
Broj Broj
Fond novčanih Fond novčanih
Redni prodanih novina Redni prodanih novina
nagrada nagrada
broj (000) broj (000)
(000 kn) (000 kn)
1 200 150 6 80 60
2 300 260 7 350 319
3 460 300 8 510 380
4 220 160 9 290 250
5 150 100 10 780 400
99
b) Izračunajte Pearsonov koeficijent linearne korelacije i koeficijent determinacije za
zadane varijable.Obrazložite dobivene vrijednosti.
c) Odredite jednadžbu linearnog regresijskog modela za zadane vrijednosti.
d) Objasnite značenje dobivenih parametara.
e) Pomoću dobivenog modela procijenite koliko se može očekivati prodanih novina u
slučaju da fond novčanih nagrada bude 600(000) kuna.
4.Podaci o broju cijepljenih i broju oboljelih od gripe u gradu X tijekom proteklih deset
godina,dani su slijedećom tablicom:
Tablica 6.12
Tablica 6.13
6 2 22 10
11 4 28 10
12 5 31 15
13 5 35 18
15 7 37 20
18 7 40 22
100
b) Izračunajte Pearsonov koeficijent linearne korelacije za zadane varijable te
interpretirajte dobivenu vrijednost.
c) Nađite jednadžbu linearnog regresijskog modela za zadane vrijednosti te obrazložite
značenje dobivenih parametara.
d) Odredite jednadžbu eksponencijalnog regresijskog modela i interpretirajte dobivene
vrijednosti parametara.
e) Odredite jednadžbu dvostruko logaritamskog regresijskog modela i interpretirajte
dobivene vrijednosti parametara.
f) Procijenite koji od ova tri modela najbolje opisuje vezu između zadanih varijabli.
siječanj 30 3 srpanj 70 17
veljača 30 5 kolovoz 85 20
ožujak 38 5 rujan 90 25
travanj 45 7 listopad 105 30
svibanj 50 10 studeni 120 40
lipanj 60 14 prosinac 150 60
Rješenja:
1.
SUMMAR
Y
OUTPUT
Regressio
n Statistics
koeficijent
Multiple R 0,985737 korelacije
0,971677
R Square 5
Adjusted R 0,969317
Square 2
Standard 1,888593
Error 7
Observatio 14
101
ns
ANOVA
Significan
df SS MS F ce F
Regressio 1468,4128 1468, 411,6907 1,17881E-
n 1 51 41 41 10
42,801434 3,566
Residual 12 29 79
1511,2142
Total 13 86
2.
Redni Prosječno Rang
broj Osvojeno vrijeme vježbanja Rang X di di^2
Y
natjecatelja mjesto (u satima)
1 11 1,0 11 1 10 100
2 8 2,0 8 5 3 9
3 1 3,8 1 11 -10 100
4 9 1,5 9 4 5 25
5 1 4,0 1 12 -11 121
6 10 1,2 10 3 7 49
7 6 3,0 5 8 -3 9
8 3 3,5 3 9 -6 36
9 6 2,5 5 6 -1 1
10 6 2,8 5 7 -2 4
11 12 1,0 12 1 11 121
12 4 3,6 4 10 -6 36
611
-1,136364 rS
Veza je izrazito jaka i negativna ( tj.više sati vježbanja prati manja (čitaj:bolji plasman)
vrijednost ranga osvojenog mjesta ).Ovdje nam se javlja i problem s vezanim rangovima
što se odrazilo i na „probijanje“ donje granice -1.
3. a)
102
Dijagram rasipanja
450
b)
0,913880 r
0,835176 R2
c)
450
400
350
300
250
200
150
100
50
0
0 100 200 300 400 500 600 700 800 900
Y = 0,5189 X + 64,595
d)
a = 0,51 89 i znači da pri povećanju fonda novčanih nagrada za jedinicu (a ovdje je to
1000),može se očekivati povećanje broja prodanih novina u iznosu od 518,9 tj.519
primjeraka
b = 64,595 što znači da u slučaju praznog fonda novčanih nagrada ( X = 0 ) može se
očekivati prodaja 64595 primjeraka.
e)
103
600 X
375,93
Y 5
U slučaju fonda nagradnih igara u iznosu od 600(000) kuna može se očekivati prodaja
375935 primjeraka.
4. a)
Dijagram rasipanja
12,00
Broj oboljelih ( 000 )
10,00
8,00
6,00
4,00
2,00
0,00
0,00 5,00 10,00 15,00 20,00
Broj cijepljenih ( 000 )
b)
r -0,894682
Dijagram rasipanja
12,00
y = -0,4771x + 10,565
10,00 R2 = 0,8005
Broj oboljelih (000)
8,00
6,00
4,00
2,00 y = 11,868e-0,0759x
R2 = 0,8968
0,00
0,00 5,00 10,00 15,00 20,00
Y = -0,4771 X + 10,565
a = -0,4771 znači da se može očekivati da će se smanjiti broj oboljelih od gripe u slučaju
da se broj cijepljenih poveća za jedinicu ( 1000 )
b = 10,565 U slučaju da se ne provodi cijepljenje protiv gripe ( X = 0 ),može se očekivati
10565 oboljelih
d) a = 11,868
104
U slučaju neprovođenja cijepljenja protiv gripe ( X = 0 ) može se očekivati 11868
oboljelih
b = EXP(-0,0759) = 0,9269 S = (0,9269 – 1 ) * 100 = - 7,31%
U slučaju povećanja broja cijepljenih za jedinicu (1000),može se očekivati smanjenje
broja oboljelih od gripe za 7,31%.
x
Y = 11,868 ¿0,9269
e) Usporedbom koeficijenata determinacije vidljiva je osjetno veća reprezentativnost
eksponencijalnog regresijskog modela.
5. a)
Dijagram rasipanja
25
20
Broj oboljelih
15
10
0
0 5 10 15 20 25 30 35 40 45
b)
r 0,97986
c)
105
Veza između navršenih godina radnog staža i
y = 2,1188e0,0615x broja oboljelih y = 0,5735x - 2,3905
R2 = 0,9369 R2 = 0,9601
30
25
Broj oboljelih
20
15
10
0
0 5 10 15 20 25 30 35 40 45
y = 0,2208x 1,2267
Navršene godine radnog staža
R2 = 0,979
Y = 0,5735 X – 2,3905
a = 0,5735
U slučaju produljena radnog staža za jednu godinu u isto tvornici,može se očekivati
0,5735 ( ¿ 1) novooboljeli
b= -2,3905
Među populacijom koja nije provela ni jednu godinu u navedenoj tvornici (X = 0) može se
očekivati -2,395 oboljelih ( to je jedna od onih besmislenih situacija o kojima smo
govorili)
d)
a = 2,1188 znači očekivani broj oboljelih među onima koji nisu radili u navedenoj tvornici
(X = 0)
b = EXP(0,0615) = 1,0634
S = (1,0634 – 1)*100 = 6,34%
Dobivena stopa znači da se može očekivati povećanje broja oboljelih od 6,34% među
zaposlenicima koji imaju jednogodišnje povećanje radnog staža u istoj tvornici.
x
Y = 2,1188 * 1,0634
e) a = 0,2208
Među zaposlenicima sa jednogodišnjim stažem u navedenoj tvornici,može se očekivati
0,2208 ¿ 0 oboljelih
b = 1,2267
Sa produljenjem navršenih godina radnog staža,u problematičnoj tvornici,za 1%,može se
očekivati jedan novi oboljeli ( preciznije 1,2267 novooboljelih).
f) Najveća vrijednost koeficijenta determinacije od 0,979 čini dvostruko logaritamski
model najreprezentativnijim.
5.
106
a)
Dijagram rasipanja
b)
r 0,982454
60
50
40
30
20
10
0
20 40 60 80 100 120 140 160
y = 0,0117x 1,6996
Reklamno vrijeme (u minutama)
R2 = 0,9788
Y =0,4376 X – 12,172
a = 0,4376
U slučaju jednominutnog povećanja reklamnog vremena,može se očekivati povećanje
broja prodanih automobila za 0,4376
b = -12,172
U slučaju odsustva ma koje reklame,očekivani broj prodanih automobila će biti -12,172
d)
a = 0,2208
Očekivani broj prodanih automobila će biti 0,2208 u slučaju odsustva ma koje reklame
( X = 0)
107
B = EXP(0,0223) = 1,0226
S = (1,0226 – 1)*100 = 2,26%
U slučaju povećanja reklamnog vremena za jednu minutu,može se očekivati povećanje
broja prodanih automobila za 2,26%.
x
Y = 0,2208 ¿1,0226
e)
a = 0,0117
U slučajevima jednominutne reklame,može se očekivati 0,0117 ( ¿ 0 ) prodanih
automobila.
b = 1,6996
Uz povećanje reklamnog vremena od 1%,može se očekivati 1,6996% povećanje broja
prodanih automobila.
g) Uz vodeću vrijednost koeficijenta determinacije od 0,9788,dvostruko logaritamski
model je najreprezentativniji.
108
Vremenski niz očituje sezonsku komponentu ako se pojava opisana nizom obnavlja u
periodu od jedne godine.Elementi niza će biti rezultati mjesečnih ili kvartalnih mjerenja
pojave.Za mnoge sezonske pojave (broj noćenja u
turizmu,potrošnja,proizvodnja…)postoji dovoljno podataka zbog čega je ovu komponentu
lako prepoznati.Sve navedene komponente su determinističke prirode i daju se iskazati
funkcijama vremena.Ako pojava opisana vremenskim nizom uključuje i neku
neočekivanu vrijednost (nepravilnost), to je signal nazočnosti
nesistematske,nedeterminističke slučajne komponente.
U pravilu,vremenski niz ne sadrži sve navedene komponente.Zapravo,moglo bi se reći da
je jedino nazočnost slučajne komponente sigurna jer se razvoj pojave u vremenu ne da
objasniti isključivo funkcijama vremena.
Jedan od mogućih načina analize vremenskih nizova je izgradnja modela koji će biti
statistički zapis te pojave u vremenu.Njegova uloga je potpuno analogna onoj koju je imao
regresijski model tj.opis pojave i predviđanje razvoja iste.Drugi mogući pristup analizi
vremenskih nizova naglašava dinamičku strukturu pojave.
Vremenski nizovi se grafički najčešće prikazuju linijskim grafikonima.Koriste se i
površinski grafikoni te neki specijalni grafikoni (polarni,polulogaritamski).Grafički prikaz
je veoma korisno pomagalo za uočavanje osobina vremenskih nizova te,na taj
način,olakšava odabir prikladnog modela.
109
¿
Δ¿ Y t
t= ⋅¿ ¿
S Y t−1 100 , t = 1,2,3,…,n
Primjer 7.1
Podaci o broju diplomanata na sveučilištu u gradu X tijekom razdoblja od 1995. do 2005.g
dani su tablicom:
Tablica 7.1
Godina Broj diplomanata Godina Broj diplomanata
1995 63 2001 103
1996 78 2002 85
1997 92 2003 96
1998 59 2004 98
1999 88 2005 107
2000 96 2006 110
Rješenje:
110
Tablica 7.2
Relativni pokazatelji dinamike jedne ili skupine pojava su neimenovani brojevi koje
zovemo indeksima.Ako se njima iskazuje odnos stanja jedne pojave u različitim
razdobljima,riječ je o individualnim indeksima.Skupnim indeksima se prati dinamika
heterogene skupine pojava.Obzirom na način praćenja jedne pojave ,individualni indeksi
se dijele na lančane (verižne) i bazne.Indeksi su relativni brojevi iskazani (ali ne i
napisani) u postocima.Ishodišna vrijednost je 100.Ako indeks prekoračuje tu vrijednost
tada je promatrana pojava porasla upravo za iznos tog prekoračenja iskazan u
postocima.Analogno,ako vrijednost indeksa ne dosiže ishodišnu vrijednost,tada se
vrijednost promatrane pojave smanjila u navedenom razdoblju i to upravo za,u postocima
iskazan,iznos otklona od ishodišnih 100.Svaka interpretacija ovih relativnih pokazatelja
dinamike nužno mora uključiti podatke o razdoblju na koje se odnosi.
111
Tablica 7.3
Rješenje:
Kao i u većini primjera,podatke ćemo unijeti u prva dva stupca novog radnog lista i to od
drugog retka.Ćelije u prvom retku su,naravno sačuvane za odgovarajuće naslove,pa tako u
C1 upišemo Vt ,a u D1 St .Budući da je drugi član vremenskog niza prvi član koji ima
prethodnika,niz lančanih indeksa počinje od njega.U C2 ćemo upisati nepoznat ili samo
staviti crticu (--),a u C3
= B3/B2*100 te,uneseni sadržaj mišem kopirati u blok ćelija C4:C13.I kod izračuna
stopa,u startu imamo isti problem,uzrokovan istim razlozima,te stoga u D2 crtica ili
upišemo nepoznata.U D3 unosimo obrazac rutine = C3 – 100.I,opet,kopiranje sada
sadržaja ćelije D3 u blok D4:D13.
Tablica 7.4
Broj stambenih
Godina kvadrata Vt St
( 000)
nepozna nepoznat
1996 8,00 t a
1997 8,34 104,25 4,25
1998 9,42 112,95 12,95
1999 10,67 113,27 13,27
2000 12,45 116,68 16,68
2001 15,72 126,27 26,27
2002 13,12 83,46 -16,54
2003 14,08 107,32 7,32
2004 16,42 116,62 16,62
2005 11,37 69,24 -30,76
2006 16,77 147,49 47,49
2007 18,32 109,24 9,24
112
7.2.2 Bazni indeksi
Yt
It = Y b * 100 t = 1,2,….,n
Izračunu baznih indeksa prethodi odabir baznog razdoblja.Ako nije unaprijed zadano,za
bazno razdoblje treba odabrati razdoblje „normalne“ vrijednosti pojave.Razdoblja
ekstremnih vrijednosti pojave nisu prikladni kandidati za bazno razdoblje.Naime,oni će
dati nerealno velike ili nerealno male vrijednosti baznim indeksima ovisno o tome da li je
riječ o maksimalnim ili minimalnim vrijednostima pojave u tako odabranom baznom
razdoblju.
Pripadna stopa promjena pojave u tekućem,u odnosu na bazno razdoblje,je
¿
St = It - 100 , t = 1,2,…,n
Primjer 7.3
Za podatke iz prethodnog primjera izračunajte bazne indekse i pripadne stope promjena
uzimajući 2002.godinu za baznu godinu.Objasnite značenje dobivenih vrijednost indeksa i
pripadne stope za 1998. i 2004. godinu.
Rješenje:
¿
Koristit ćemo postojeću tablicu te u ćelije E1 i F1,redom,upisati It ,2002 = 100 i St .U E8
(koja pripada baznoj godini 2002 ) upišemo 100 a u E2 obrazac za izračun traženih
indeksa
=B2/$B$8*100.Vrijednosti baznih indeksa za preostale godine razmatranog razdoblja
dobijemo kopiranjem sadržaja ćelije E2 u odgovarajuće ćelije stupca E.Pripadne stope
računamo u stupcu F,počevši od F2 u koju upišemo = E2-100 te kopiramo taj sadržaj u
blok E3:E13.
Tablica 7.5
113
Vrijednost baznog indeksa za 1998.godinu iznosi 71,80 a pripadna stopa je -28,20 što
znači da je u 1998 godini izgrađeno 28,20% manje stanova nego u baznoj 2002.godini dok
je istovremeno,u 2004.godini izgrađeno 25,19% više stanova nego u 2002.godini(I2004 =
¿
125,15, S2004 = 25,15%).
Kako su formule za izračun baznih indeksa po staroj bazi (SB) i novoj bazi (NB) redom
SB
Yt NB
Yt SB
Yb
t = ∗100 t = ∗100 b = ∗100
I Y SB i I Y NB te I Y SB
to je
NB I SB
t
t =
I Y SB
b * 100
a to znači da se transformacija baza provodi na način da bazni indeksi (po staroj bazi)
preuzimaju ulogu originalnih frekvencija.
Primjer 7.4
Koristeći bazne indekse za 2002.godinu izračunajte brojčane pokazatelje dinamike
stanogradnje na bazi 2000.godine.
Rješenje:
Rezultirajuću tablicu 7.5 ćemo kopirati na novi radni list i u prvom slijedećem slobodnom
stupcu G izračunati nove bazne indekse.Stoga u G1 unosimo It ,2000 = 100,a u G2
=E2/$E$6*100 i taj sadržaj kopiramo u blok ćelija G3:G13.
Tablica 7.6
Broj stambenih
It It
Godina kvadrata Vt St St*
2002 = 100 2000 = 100
( 000)
1996 8,00 nepoznat nepoznata 60,98 -39,02 64,26
1997 8,34 104,25 4,25 63,57 -36,43 66,99
1998 9,42 112,95 12,95 71,80 -28,20 75,66
1999 10,67 113,27 13,27 81,33 -18,67 85,70
2000 12,45 116,68 16,68 94,89 -5,11 100,00
2001 15,72 126,27 26,27 119,82 19,82 126,27
2002 13,12 83,46 -16,54 100,00 0,00 105,38
2003 14,08 107,32 7,32 107,32 7,32 113,09
2004 16,42 116,62 16,62 125,15 25,15 131,89
2005 11,37 69,24 -30,76 86,66 -13,34 91,33
2006 16,77 147,49 47,49 127,82 27,82 134,70
2007 18,32 109,24 9,24 139,63 39,63 147,15
114
7.2.3.2 Pretvaranje bazni indeksa u lančane
Tablica 7.7
It Godin It
Godina 2001 = 100 a 2001 = 100
1998 88,62 2003 142,16
1999 90,28 2004 153,16
2000 95,13 2005 160,12
2001 100,00 2006 162,29
2002 130,48 2007 90,43
Rješenje:
U prva dva stupca novog radnog lista ćemo smjestiti podatke,a u stupcima C i D računati
lančane indekse i pripadne stope.Naslove u zaglavne ćelije;u C2 i D2 napisati
nepoznat,odnosno nepoznata a u C3 unosimo =B3/B2*100 i kopiramo taj sadržaj u
preostale ćelije istog stupca do,zaključno,C11.Analogno,u D3 upisujemo =C3-100 te taj
sadržaj mišem kopiramo u blok ćelija D4:D11.
Tablica 7.8
It
Godina 2001 = 100 Vt St
nepozna nepoznat
1998 88,62 t a
1999 90,28 101,87 1,87
2000 95,13 105,37 5,37
2001 100,00 105,12 5,12
2002 130,48 130,48 30,48
2003 142,16 108,95 8,95
2004 153,16 107,74 7,74
2005 160,12 104,54 4,54
2006 162,29 101,36 1,36
2007 90,43 55,72 -44,28
115
cijene prethodne godine što znači smanjenje od 44,28% u odnosu na cijenu iz
2006.godine.
Lančane indekse računamo iz poznatih baznih dvojako ovisno o tome da li se oni odnose
na razdoblja koja prethode baznom razdoblju ili ga slijede.
It
t−1= ⋅100
I Vt , t<b
It = 100 , t=b
I t−1⋅V t
t =
I 100 , t>b
Primjer 7.6
Zadani su lančani indeksi prosječnih plaća u ustanovi X tijekom razdoblja od 1992. do
2001. godine.Izračunajte pokazatelje dinamike promjena plaća u odnosu na 1998.godinu.
Tablica 7.9
Godina Vt Godina Vt
1992 --- 1997 110,92
1993 98,32 1998 102,73
1994 101,45 1999 95,37
1995 103,82 2000 107,49
1996 106,58 2001 112,81
Rješenje:
U stupce A i B novog radnog lista smjestimo zadane podatke sačuvavši zaglavne ćelije za
naslove.U C1 upišemo It , 1998 = 100.Izračun baznih indeksa iz zadanih lančanih
počinjemo od bazne 1998 godine kojoj ( C8) pridijelimo vrijednost I1998 = 100.Sada ćemo
pomoću odgovarajućih formula odrediti ostale vrijednosti baznih indeksa i to počevši od
razdoblja koja neposredno prethode,odnosno slijede,bazno razdoblje.Za godine koje
prethode baznoj 1998.godini,u C7 ćemo upisati
I 1998
⋅100
= C8 / B8*100 što odgovara formuli I1997 = V 1998 .Poslije Enter ćemo ovaj sadržaj
kopirati u ćelije stupca C koje prethode aktualnoj C7 do,zaključno,C2.Sada prelazimo na
„poslijebazna“ razdoblja.Početak je u ćeliji C9 u koju unesemo = C8*B9/100 što je
„jezikom“ relativnih adresa iskazana formula
I 1998⋅V 1999
I1999 = 100 .
Ovaj sadržaj ćemo kopirati u naredne dvije ćelije C10 i C11.
116
Tablica 7.10
Godina Vt It
1998 = 100
nepozna
1992 t 79,51
1993 98,32 78,18
1994 101,45 79,31
1995 103,82 82,34
1996 106,58 87,76
1997 110,92 97,34
1998 102,73 100,00
1999 95,37 95,37
2000 107,49 102,51
2001 112,81 115,65
Yt
t−1= ⋅100
Y Vt
dok se članovi niza koji slijede zadanu vrijednost računaju na način
Y t−1⋅V t
t=
Y 100 .
Primjer 7.7
Verižni indeksi prosječnih plaća zaposlenika u ustanovi X,u razdoblju od 1992 do 2001
godine,dani su tablicom 7.9.Znajući da je prosječna plaća u toj ustanovi,1997 godine
iznosila 3752 kn,izračunajte prosječne plaće u toj ustanovi,za sve preostale godine
promatranog razdoblja.
Rješenje:
Kopirat ćemo tablicu 7.9 na novi radni list te u C1 upisati Prosječna plaća u ustanovi X ,a
u C7 unijeti zadanu vrijednost prosječne plaće 3752.U C6 upišemo = C7/B7*100 te taj
sadržaj kopiramo u prethodne ćelije C6 do,zaključno,C2.Izračun frekvencija preostalog
dijela niza počinjemo s ćelijom C8 u koju ćemo upisati =C7*B8/100 što ćemo kopirati u
naredni blok ćelija C9:C11.Izlazna tablica je:
117
Tablica 7.11
Godina Vt Prosječna plaća u ustanovi X
1992 --- 3064,80
1993 98,32 3013,31
1994 101,45 3057,01
1995 103,82 3173,78
1996 106,58 3382,62
1997 110,92 3752
1998 102,73 3854,43
1999 95,37 3675,97
2000 107,49 3951,30
2001 112,81 4457,46
Pri izračunu baznih indeksa istaknutu ulogu ima vrijednost pojave u baznom razdoblju.Ta
se činjenica odražava na relacije za rekonstrukciju niza.Frekvencije niza zadanih baznih
indeksa i poznate vrijednosti pojave baznog razdoblja se računaju na način
Y b⋅I t
t=
Y 100 , t = 1,2,….,n
U slučaju kada nije poznata vrijednost pojave u baznom razdoblju već u nekom trenutku t
(Yt ),tada će rekonstrukciji niza,prema već navedenoj formuli,prethoditi izračun
frekvencije baznog razdoblja
Yt
b= ⋅100
Y I t .
Primjer 7.8
Zadani su bazni indeksi (1994 = 100) godišnjeg ulova plave ribe u županiji X za razdoblje
od 1990 do 2001 godine.Izračunajte količinu ulovljene ribe u svakoj od godina navedenog
razdoblja znajući da je 1996 godine ulovljeno 13,42 tone plave ribe.
Tablica 7.12
It It
Godina Godina
1994 = 100 1994 = 100
1990 83,47 1996 105,79
1991 92,73 1997 104,91
1992 98,42 1998 91,67
1993 99,72 1999 110,13
1994 100 2000 112,62
1995 102,37 2001 115,43
Rješenje:
Na novom radnom listu,u prva dva stupca,na način svih prethodnih primjera,unesemo
podatke iz gornje tablice.Niz ćemo rekonstruirati u stupcu C pa u C1 upišemo naslov
Godišnji ulov ribe (000 kg)a u C8 unesemo zadanu vrijednost 13,42.Kako se taj ulov nije
zbio u baznoj 1994 godini,to ćemo najprije izračunati ulov u baznoj godini na način da u
C6 upišemo = C8/B8*100.Sad možemo krenuti sa prvim članom niza.Stoga u C2
pišemo =$C$6*B2/100
118
I taj sadržaj kopiramo u blok ćelija C3:C5.Ne znamo ulov u 1995,a poznati su nam
članovi niza koji joj prethode te član niza koji joj neposredno slijedi.Sadržaj ma koje od
ćelija početnog bloka C2:C5 ćemo kopirati u C7 pokretanjem poznatih koraka
(Copy/Paste) desnom tipkom miša.Zadnji blok ćelija ćemo popuniti tako da
najprije,ponavljanjem upravo opisane procedure,kopiramo (opet desnom tipkom miša)
sadržaj ma koje od ćelija bloka C2:C5 u C9,a nakon toga,njen sadržaj mišem kopiramo u
ćelije bloka C10:C13.Izlazna tablica je:
Tablica 7.13
It
Godina Godišnji ulov ribe
1994 = 100
( 000 kg )
1990 83,47 10,59
1991 92,73 11,76
1992 98,42 12,49
1993 99,72 12,65
1994 100 12,69
1995 102,37 12,99
1996 105,79 13,42
1997 104,91 13,31
1998 91,67 11,63
1999 110,13 13,97
2000 112,62 14,29
2001 115,43 14,64
119
7.3.1 Skupni indeksi cijena
Skupni indeks cijena mjeri prosječnu promjenu cijena skupine pojava u dva različita
vremenska razdoblja i to na bazi nepromijenjenih količina.
Laspeyresov skupni indeks cijena
k
∑ pi1 qi0
i=1
01 ( q 0 )= k ⋅100
∑ pi0 qi0
P i=1
predstavlja relativni brojčani iskaz ukupne promjene cijena tekućeg razdoblja u odnosu na
bazno razdoblje uz nepromijenjene količine tekućeg razdoblja.
Teorijske kriterije kakvoće indeksa zadovoljava svojevrsna izvedenica iz navedenih oblika
skupnih indeksa.Riječ je o geometrijskoj sredini Laspeyresovog i Pascheovog skupnog
indeksa poznatog kao Fischerov idealni indeks cijena.Istina da je on sljedbenik prednosti i
jednog i drugog,ali je njegova interpretacija prilično složena.
Dakle, Laspeyresov skupni indeks količina iskazuje prosječnu relativnu promjenu količina
promatranih pojedinačnih pojava uz neizmijenjene cijene baznog razdoblja,dok Pascheov
oblik skupnog indeksa količina pokazuje za koliko su se u prosjeku promijenile količine
skupine pojava,uzrokovane promjenama količina pojedinih pojava u skupini pri čemu se
cijene održavaju nepromijenjene na nivou tekućeg razdoblja.
120
Analogno,kao i u slučaju skupnog indeksa cijena,i ovdje možemo načiniti novi skupni
indeks količina pomoću geometrijske sredine Laspeyresovog i Pascheovog oblika
skupnog količina.Naravno,sada je to Fischerov indeks količina sa analognim pratećim
svojstvima.
Ponovimo još jednom činjenicu da skupni indeksi znače relativne pokazatelje promjena
vrijednosti skupne pojava uzrokovanih promjenama cijena ili količina pojedinih pojava
unutar skupine.Skupni indeksi cijena su to radili na način da su,tijekom postupka,količine
držali nepromijenjenim bilo na nivou baznog bilo na nivou tekućeg razdoblja i tako
otklonili opasnost od utjecaja njihove,eventualne,promjene na vrijednost skupine
pojava.Ista ideja vodilja je nazočna i pri konstrukciji skupnih indeksa količina samo što su
sada cijene pod „blokadom“ kako ne bi svojim možebitnim izmjenama utjecale na
vrijednost skupine pojava.
Skupni indeksi vrijednosti mjere promjene uzrokovane istodobnim mijenjanjem cijena i
količina promatrane skupine pojava.
k
∑ pi 1 q i 1
i=1
01 = k ⋅100
∑ pio q io
V i =1
Primjer 7.9
Podaci o cijenama i broju stomatoloških usluga obavljenih u ambulanti X tijekom 2003 i
2004 godine,dani su tablicom:
Tablica 7.14
Broj Broj
cijene cijene
Vrsta usluge zahvata zahvata
2003 2004
2003 2004
Vađenje zuba 300 320 150 200
Liječenje zuba 900 1200 200 300
Uklanjanje karijesa 600 800 80 100
Postavljanje ispuna 1000 1100 150 200
Izrada klasične proteze 50 53 1100 1300
Izračunajte:
a) za koliko su se promijenile cijene pruženih usluga u 2004. u odnosu na prethodnu
2003.godinu,računajući s neizmijenjenim količinama iz 2003.godine
b) za koliko su se promijenile cijene pruženih usluga u 2004. u odnosu na prethodnu
2003.godinu,ako se promjena računa s neizmijenjenim količinama iz 2004.godine
c) za koliko se promijenio broj svih obavljenih usluga u 2004.godini u odnosu na
prethodnu godinu računajući s neizmijenjenim cijenama iz bazne 2003.godine
d) za koliko su se promijenile količine svih obavljenih usluga u 2004.godini u odnosu na
prethodnu godinu uz neizmijenjene cijenama iz 2004.godine
121
e) za koliko su se promijenile vrijednosti svih vrsta obavljenih usluga u 2004.godini u
odnosu na 2003.godinu.
Rješenje:
Na novom radnom listu,na način prethodnih primjera,unesemo podatke.U A1 upišemo
Vrsta usluge,a u B1,ispod već postojećeg naslova Broj zahvata 2003, navest ćemo i q0.
Na isti način,u C1,D1 i E1,ispod pripadnih naslova, upisujemo redom q1,p0,p1Nakon toga
p q p q pq
opskrbimo naslovim 0 0 , 0 1 , 1 0 , p1 q 1 ,redom,stupce F,G,H i I.
a) Da bi odredili traženi Laspeyresov skupni indeks cijena,trebamo popuniti
odgovarajuće ćelije stupaca F i H.Počet ćemo s F2 u koju ćemo unijeti =B2*D2.Enter
i kopiranje sadržaja ćelije F2 u blok ćelija F3:F6 te zbrajanje upravo izračunatih
vrijednosti u F7.Analogno,u H2 unosimo =C2*D2,Enter,kopiranje sadržaja iz H2 u
blok H3:H6 i zbroj izračunatih umnožaka u H7.U B10 pišemo =H7/F7*100.Tražena
vrijednost, Laspeyresov skupni indeks cijena iznosi 137,03,što znači da je u
2004.godini zabiležen rast cijena svih obavljenih usluga za 37,03% računajući s
neizmjenjenim brojem usluga iz 2003.godine.
b) Ovdje je riječ o Paascheovom obliku skupnog indeksa cijena za što trebamo zbroj
umnožaka iz stupaca I i G.Stoga,najprije u G2 upišemo =C2*D2.Nastavak
znamo.Kopiranje ovog sadržaja u sklop ćelija G3:G6 i zbroj upravo izračunatih
umnožaka u G7.U I2 unosimo =C2*E2.Poznatim slijedom koraka dolazimo do sume
u I7,te do tražene vrijednosti indeksa u B11pomoću naredbe =I7/G7*100.
Dobivena vrijednost Paascheovog skupnog indeksa cijena 137,82 pokazuje da je rast
cijena stomatoloških usluga u 2004. godini,računat uz nepromijenjene količine iz
2004.godine,iznosi 37,82% te neznatno odstupa od Laspeyresov oblika istog skupnog
indeksa cijena.
e) I za ovaj skupni indeks imamo već priređene potrebne vrijednosti u I7 i F7,pa ćemo u
B14 upisati =I7/F7*100.Dobivena vrijednost od 168,88 znači da je u 2004.godini
porasla vrijednost svih obavljenih stomatoloških usluga za čak 68,88% u odnosu na
prethodnu 2003.godinu.
Tablica 7.15
122
Broj Broj
cijene cijene
zahvata zahvata
Vrsta usluge 2003 2004 p0q0 p0q1 p1q0 p1q1
2003 2004
p0 p1
q0 q1
Vađenje zuba 300 320 150 200 45000 48000 60000 64000
Liječenje zuba 900 1200 200 300 180000 240000 270000 360000
Uklanjanje karijesa 600 800 80 100 48000 64000 60000 80000
Postavljanje ispuna 1000 1100 150 200 150000 165000 200000 220000
Izrada klasične proteze 50 53 1100 1300 55000 58300 65000 68900
478000 575300 655000 792900
P01(q0) 137,03
P01(q1) 137,82
Q01(p0) 120,36
Q01(p1) 121,05
V01 165,88
√ V 2 V 3⋅¿⋅V N =
N−1
√
N−1 YN
Y 1 * 100
123
Znači da u izračunu prosječne stope promjena sudjeluju samo prva i posljednja vrijednost
niza što,pored već navedene osjetljivosti na varijabilnost pojedinačnih stopa,predstavlja
najveći nedostatak prosječne stope promjena kao mjere prosječnog tempa promjene
opisane vremenskim nizom.Rado sveg navedenog nije preporučljivo koristiti je u
prognostičke svrhe.
Primjer 7.10
Lančani indeksi cijena i podaci o ostvarenoj dobiti u tekućim cijenama turističkog naselja
Maslina u gradu X,dani su slijedećom tablicom:
Tablica 7.16
Lančan Lančan
Ostvarena dobit
i Ostvarena dobit i
Godin Godin u tekućim
indeksi u tekućim cijenama indeksi
a a cijenama
( 000 )
( 000 )
cijena cijena
1991 ----- 352,14 1999 111,18 810,37
1992 101,12 360,81 2000 108,02 821,37
1993 107,17 371,13 2001 106,12 850,68
1994 116,12 400,42 2002 113,62 900,04
1995 120,30 490,48 2003 115,48 953,68
1996 121,43 592,63 2004 121,31 1001,21
1997 130,28 700,48 2005 122,14 1200,32
1998 121,41 790,68 2006 123,23 1350,54
Izračunajte:
a) ostvarenu dobit iskazanu u stalnim cijenama iz 2001.godine.
b) prosječnu stopu promjena.
Rješenje:
Zadatak ćemo riješiti na novom radnom listu na kojem ćemo prethodno,na već uhodani
način,smjestiti naše podatke.Da bi mogli ostvarenu dobit izraziti u stalnim cijenama iz
2001.godine,trebamo bazne indekse cijena iz iste godine.Stoga,u prvi slijedeći slobodni
stupac D,preciznije,u ćeliju D1 upišemo obrazloženje vrijednosti koje ćemo smjestiti u taj
stupac : It 2001 = 100,a zatim u D12 unesemo 100.Prisjetimo se,ostale vrijednosti baznih
indeksa ovise,između ostalog,i o tome da li se odnose na godine koje prethode baznoj ili je
slijede.Odlučimo li najprije za „predbazne“ godine,morat ćemo početi sa D11 u koju ćemo
upisati =D12/B12*100.Poslije Enter ćemo ovaj sadržaj,mišem,kopirati u ćelije
„prethodnice“ do,zaključno,D2.Izračun baznih indeksa za „poslijebazne“ godine počinje u
D13 gdje moramo napisati = D12*B13/100.Opet Enter,i opet kopiranje mišem,ali sada u
blok ćelija D14:D17.
124
Tablica 7.17
Model vremenske pojave je analitički zapis njenog razvoja u vremenu.Izbor modela ovisi
o svrsi analize i osobinama vremenskog niza kojim je predočena pojava.Svaki model je
analitički zapis pretpostavke o očekivanom tijeku pojave u vremenu.Veliki broj
vremenskih nizova iskazuje osnovnu razvojnu tendenciju (trend).S metodološkog
stanovišta,većina trend modela se ubrajaju u regresijske modele te se analiziraju na isti
način kao i ti modeli.Pri tome je uvijek nezavisna varijabla vrijeme.Osim regresijskih
metoda,koriste se i specifične statističke metode primjerene upravo toj vrsti statističkog
niza i postavljenim ciljevima njihove analize.Uz određene uvjete,model se koristi u
prognostičke svrhe.
125
7.4.1 Linearni trend modeli
b = Ȳ - a X̄ .
Pri tome parametar a znači očekivanu prosječnu promjenu (povećanje ili smanjenje ovisno
o predznaku) varijable Y pri povećanju nezavisne varijable xt za jedinicu vremena.
Parametar b predstavlja očekivanu vrijednost (trend vrijednost) varijable Y u ishodištu
vremenskog razdoblja (xt = 0).
Reprezentativnost trend modela se procjenjuje na isti način kao i regresijskog modela.Ista
napomena vrijedi i za mjere odstupanja stvarnih od trend vrijednosti.
Već smo kazali da je postupak izgradnje linearnog trend modela potpuno analogan
postupku izgradnje linearnog regresijskog modela s postojanom prirodom nezavisne
varijable (uvijek i jedino to je vrijeme).Obično se ne koriste izvorne vrijednosti nezavisne
varijable već transformirane koje,najčešće ali ne i jedino,ishodište postavljaju u početak
promatranog razdoblja.
Primjer 7.11
Podaci o broju razvrgnutih brakova u županiji X,u razdoblju od 1994 do 2007 godine,dani
su narednom tablicom:
Tablica 7.18
Godina Broj razvoda Godina Broj razvoda
1994 68 2001 113
1995 72 2002 121
1996 83 2003 130
1997 89 2004 138
1998 95 2005 145
1999 101 2006 151
2000 108 2007 158
126
e) Uz pretpostavku da će broj razvoda zadržati uočeni trend,odredite u kojoj godini se
može očekivati 315 razvoda.
f) Provjerite reprezentativnost dobivenog trend modela.
Rješenje:
Na novom radnom listu,kao i u svim prethodnim primjerima,smjestimo podatke iz tablice
u prva dva stupca s odgovarajućim naslovom u prvoj ćeliji svakog od njih.
a) Vremenski nizovi se prikazuju najčešće (naravno,ne i jedino) linijskim
grafikonima.Postupak počinje jednako,kao i kod ostalih grafičkih
prikaza,označavanjem skupa podataka A2:B15 i pokretanjem „alata“ za izradu
grafikona Chart Wizard .Od ponuđenih opcija biramo XY (Scatter) i to donji lijevi
podtip.Nastavak je uobičajeno „šminkanje“ s ciljem što veće informativnosti
grafikona.Legenda je nepotrebna pa ćemo je ukloniti,a na kartici Titles upisati naslov
Kretanje broja razvoda brakova u županiji X u razdoblju od 2004 do 2007,na osi
apscisa su Godine a na y-osi Broj razvoda.Po potrebi možemo povećati preglednost
grafikona „izostavljanjem“ dijela ravnine u kojem nema zadanih podataka.S istom
nakanom ćemo mijenjati skale na obje,ili nekoj od koordinatnih osi.Želimo li to uraditi
na y-osi,kliknut ćemo desnom tipkom miša na ma koju od vrijednosti na toj osi.U
ponuđenom plutajućem izborniku biramo Format Axis ,a unutar njega opciju Scale
unutar koje možemo podešavati,po osobnom izboru,vrijednosti parametara.Na našem
grafikonu možemo uočiti da vrijednosti na y-osi nisu manje od 60 niti veće od 160 te,u
skladu s tom činjenicom,možemo prepraviti ponuđene ekstremne vrijednosti (umjesto
0 pisati 60,a umjesto maksimuma 180 staviti 160).
160
150
140
130
Broj razvoda
120
110
100
90
80
70
60
1992 1994 1996 1998 2000 2002 2004 2006 2008
Godine
127
Godina xt Broj razvoda
1994 0 68
1995 1 72
1996 2 83
1997 3 89
1998 4 95
1999 5 101
2000 6 108
2001 7 113
2002 8 121
2003 9 130
2004 10 138
2005 11 145
2006 12 151
2007 13 158
120
110
100
90
80
70
60
0 2 4 6 8 10 12 14
xt
128
godini,naravno uz pretpostavku da će promatrana pojava zadržati prepoznati
„stil“ponašanja i u buduće,iskoristiti ćemo dobivenu jednadžbu trend modela
(Y -
Godina xt Broj razvoda Yoček Yoček)^2
1994 0 68 66,857 1,306
1995 1 72 73,846 3,408
1996 2 83 80,835 4,687
1997 3 89 87,824 1,383
1998 4 95 94,813 0,035
101,80
1999 5 101 2 0,643
108,79
2000 6 108 1 0,626
2001 7 113 115,78 7,728
122,76
2002 8 121 9 3,129
129,75
2003 9 130 8 0,059
136,74
2004 10 138 7 1,570
143,73
2005 11 145 6 1,598
150,72
2006 12 151 5 0,076
157,71
2007 13 158 4 0,082
164,70
2008 14 3 26,330
171,69
2009 15 2
178,68
2010 16 1
2011 17 185,67
192,65
2012 18 9
199,64
2013 19 8
206,63
2014 20 7
213,62
2015 21 6
220,61
2016 22 5
227,60
2017 23 4
234,59
2018 24 3
241,58
2019 25 2
248,57
2020 26 1
2021 27 255,56
129
262,54
2022 28 9
269,53
2023 29 8
276,52
2024 30 7
283,51
2025 31 6
290,50
2026 32 5
297,49
2027 33 4
304,48
2028 34 3
311,47
2029 35 2
318,46
2030 36 1
6,989 a
66,857 b N = 14
X Y 1,481 Standardna greška ocjene trenda
21 213,6 1,32% koeficijent varijacije
35,5 315
√
N
∑ ( Y i −Y^ i )2
i=1
σ= N−2
U stupcu D izračunamo očekivane vrijednosti zavisne varijable.U D1 unesemo oznaku
Yoček,a u D2 obrazac za izračun tih vrijednosti =6,989*B2 + 66,857.Taj sadržaj mišem
kopiramo u blok ćelija D3:D13.U slijedećem stupcu izračunamo kvadrate odstupanja
zadanih vrijednosti od očekivanih,a njihov zbroj ćemo dobiti u E14.Broj podataka N =
14.Prema gore navedenoj formuli,dobit ćemo da je standardna greška ocjene trenda
1,481,a koeficijent varijacije,kojeg ćemo dobiti pomoću izračunate greške i prosjeka
σ
⋅¿ ¿
zadanih vrijednosti ,( V = Ȳ 100) iznosi 1,32% .Dakle, prosječno odstupanje stvarnih
vrijednosti od trend vrijednosti iznosi 1,481.Modelom linearnog trenda protumačeno je
99,76% odstupanja.(R2 =0,9976).
Ako se pojava opisana vremenskom nizom mijenja iz razdoblja u razdoblje za gotovo isti
relativni iznos tj. ako pojedinačne stope promjena pokazuju neznatan varijabilitet,ili su
130
približno konstantne,tada je eksponencijalna funkcija prikladan iskaz trenda koji iskazuje
promatrana pojava.Naime,eksponencijalna funkcija se mijenja za isti relativni iznos pri
konstantnoj promjeni nezavisne varijable.Model je oblika
Y^ =ab x
Interpretacija parametara je posve analogna onoj koju smo sreli kod eksponencijalnog
regresijskog modela.
a predstavlja očekivanu (trend) vrijednost nezavisne varijable Y u ishodištu promatranog
vremenskog razdoblja ( xt = 0 )
b znači prosječan ritam promjene zavisne varijable Y pri jediničnoj promjeni nezavisne
varijable.Pomoću ovog parametra računamo prosječnu periodičnu stopu promjena za
promatrano razdoblje
S̄ = ( b – 1 ) * 100
Kao i kod linearnog modela,nezavisna varijabla xt se transformira.Obično je prvo
razdoblje i ishodišno.Isto tako,pomoću logaritama,i ovaj model se linearizira kao i
analogni regresijski model.
Primjer 7.12
Podaci o broju registriranih vozila u gradu X,u razdoblju od 1991. do 2002.godine su dani
slijedećom tablicom.
a) Prikažite navedeni niz linijskim grafikonom
b) Nađite jednadžbu eksponencijalnog trend modela s ishodištem u 1991.godini
c) Obrazložite značenje parametara u dobivenoj jednadžbi
d) Uz pretpostavku da će broj registriranih vozila slijediti eksponencijalni
trend,prognozirajte broj registriranih vozila u 2012.godini
e) Eksponencijalnim trend modelom prognozirajte u kojoj godini se može očekivati
275168 registriranih vozila
f) Procijenite reprezentativnost ovog trend modela
Tablica 7.19
Rješenje:
a) Po inerciji,podatke smo stalno unosili na isti način,koristeći gornji lijevi dio novog
radnog lista.Postupimo li tako i u ovom primjeru,a nema posebnog razloga da to ne
učinimo,traženi linijski grafikon ćemo dobiti poznatim slijedom koraka.Označit ćemo
blok ćelija sa podacima (A2:B13),/XY (Scatter)treći podtip. Zatim ćemo grafikon
„tekstualno“opremiti naslovom (Kretanje broja registriranih vozila u gradu X u razdoblju
od 1991. do 2002.godine),sadržajem osi (na x osi Godine,a na y osi Broj vozila).Po
želji,promijeniti granice skala na koordinatnim osima.Ovdje ima jako malo
„praznog“hoda te takovi zahvati ne pridonose bitno preciznosti grafa.
131
Kretanje broja registriranih vozila u gradu X u
razdoblju od 1991. do 2002. godine
210
190
170
150
Broj vozila
130
110
90
70
50
30
10
1990 1992 1994 1996 1998 2000 2002
Godine
200
Broj registriranih vozila
180
160
140
120
100
80
60
40
20
0 2 4 6 8 10 12
xt
132
što znači da je jednadžba traženog trend modela
Y^ = 24,961 ¿1,222 x
c) Parametar a = 24,961 kaže da je u ishodišnoj 1991.godini registrirano 24961 vozilo
Kako je prosječna periodična stopa promjena S̄ = (1,222 – 1) * 100 = 22,21 to znači
da prosječno godišnje raste broj registriranih vozila za 22,21%.
d) Transformirana vrijednost varijable xt za 2012 iznosi 21 (2012 – 1991),pa će očekivani
broj registriranih vozila u 2012 godini biti 1685664 (naravno,uz pretpostavku da će
broj registriranih vozila i u buduće zadržati isti trend rasta)
(= 4,961*1,222^21 = 1685,664)
e) Uz pretpostavku da će rast broja registriranih vozila i u buduće zadržati isti trend,
godinu u kojoj se očekuje 275 168 vozila će se dobiti pomoću
= LN (275,168/24,961)/0,2006 = 11,964
Kako je dobiveni podatak je jako blizak cjelobrojnom 12 što znači je tražena godina
2003. ( 1991 + 12 ).
f) Koeficijent determinacije iznosi 0,9963 i znači da je 99,63% odstupanja stvarnih
vrijednosti od trend vrijednosti protumačeno modelom.Suvišno je naglasiti da je riječ o
izrazito reprezentativnom modelu.
Već je rečeno da svaki model vremenske pojave predstavlja analitički iskaz teze o tijeku
promatrane pojave u vremenu te,upravo zato,svaki takav,dovoljno reprezentativni model
tj. mode koji nas je“uvjerio“ da upravo on najbolje zna što „nas je snašlo“,može poslužiti
za predviđanja nastavka aktualnih događanja.Kako smo od množine mogućih trend
modela
Primjer 7.13
133
Podaci o broju osoba s kardiovaskularnim poteškoćama u gradu X,u razdoblju od 1994.
do 2005.godine,dani su slijedećom tablicom:
Tablica 7.20
Godine Broj oboljelih Godine Broj oboljelih
1994 142 2000 203
1995 153 2001 215
1996 165 2002 228
1997 174 2003 240
1998 186 2004 252
1999 157 2005 270
Primjer 7.14
Pomoću linearnog trenda prognozirajte broj kardiovaskularnih bolesnika u gradu X,u
razdoblju od 2012. do 2020. godine.
Rješenje:
Najprije ćemo upisati u odgovarajuće stupce godine (od 2012 do 2020) i njihove
transformirane vrijednosti (od 18 do 26),a zatim označit dio postojećeg radnog lista na
kojem želimo izlazne rezultate (C14:C22).Nakon toga,u vrpci formula upisujemo
=TREND(C2:C13;B2:B13;A14:A22)
Tablica 7.21
Godine Xt Broj oboljelih
1994 0 142
1995 1 153
134
1996 2 165
1997 3 174
1998 4 186
1999 5 197
2000 6 203
2001 7 215
2002 8 228
2003 9 240
2004 10 252
2005 11 270
2012 18 341
2013 19 353
2014 20 364
2015 21 375
2016 22 386
2017 23 397
2018 24 408
2019 25 419
2020 26 431
= GROWTH(C2:C13;B2:B13;A14:A22)
Zadaci za vježbu 5.
135
1. Podaci o godišnjoj prodaji piva u gradu X,u razdoblju od 1993. do 2002.godine,dani
su tablicom:
Tablica 7.22
Tablica 7.23
Godina Vt Godina Vt
1995 ---- 2002 107,48
1996 103,42 2003 112,57
1997 110,74 2004 120,61
1998 120,17 2005 117,14
1999 110,19 2006 119,53
2000 128,43 2007 115,53
2001 110,71 2008 100,98
Tablica 7.24
It It
Godina Godina
1998.=100 1998.=100
1992 83,27 1999 102,33
1993 87,92 2000 108,74
1994 89,29 2001 110,37
1995 92,45 2002 11,29
1996 97,52 2003 113,37
1997 93,87 2004 118,29
1998 100 2005 121,42
136
a)Izračunajte brojčane pokazatelje dinamike promjene cijena u uzastopnim godinama
promatranog razdoblja.
b)Nađite brojčane pokazatelje promjena cijena uslužnih djelatnosti u odnosu na
1995.godinu.
4.Verižni indeksi obavljenih estetskih zahvata na odjelu plastične kirurgije u bolnici X,u
razdoblju od 1996. do 2005. godine,dani se slijedećom tablicom:
Tablica 7.25
Godina Vt Godina Vt
1996 -- 2001 109,19
1997 108,23 2002 110,42
1998 110,12 2003 112,49
1999 93,89 2004 103,52
2000 105,37 2005 107,83
Tablica 7.26
Tablica 7.27
137
1994 5,12 101,82 2001 7,20 108,92
1995 5,80 102,36 2002 7,25 110,37
1996 6,10 104,48 2003 7,30 111,48
1997 6,30 105,52 2004 7,50 111,92
1998 6,80 105,68 2005 8,00 112,46
Tablica 7.28
Godina Broj stanovnika Godina Broj stanovnika
1930 1638 1970 950
1940 1510 1980 800
1950 1350 1990 660
1960 1100 2000 570
Tablica 7.29
Površine povrtnjaka Površine povrtnjaka
Godina Godina
(u 00 m 2) (u 00 m 2)
1994 1190,21 2000 451,88
1995 1079,68 2001 340,13
1996 960,49 2002 290,48
1997 820,33 2003 180,39
1998 695,48 2004 110,48
1999 573,49 2005 79,53
Rješenja:
1. Tablica 7.30
138
Prodano It
Godina pivo 1996.=10
(000 l) 0 S*t Vt St
nepoznat
1993 18,42 62,61 -37,39 nepoznat a
1994 22,67 77,06 -22,94 123,07 23,07
1995 26,38 89,67 -10,33 116,37 16,37
1996 29,42 100,00 0,00 111,52 11,52
1997 33,62 114,28 14,28 114,28 14,28
1998 36,43 123,83 23,83 108,36 8,36
1999 37,71 128,18 28,18 103,51 3,51
2000 41,92 142,49 42,49 -57,51 -157,51
2001 44,03 149,66 49,66 105,03 5,03
2002 51,31 174,41 74,41 116,53 16,53
2.
Tablica 7.31
Stvarni broj
Godina Vt It S*t zaposlenih
1995 ---- 65,94 -34,06 113884
1996 103,42 68,20 -31,80 117779
1997 110,74 75,52 -24,48 130428
1998 120,17 90,75 -9,25 156735
1999 110,19 100 0,00 172707
2000 128,43 128,43 28,43 221807
2001 110,71 142,18 42,18 245563
2002 107,48 152,82 52,82 263931
2003 112,57 172,03 72,03 297107
2004 120,61 207,49 107,49 358341
2005 117,14 243,05 143,05 419760
2006 119,53 290,52 190,52 501739
2007 115,53 335,63 235,63 579660
2008 100,98 338,92 238,92 585340
3.
It It
Godina 1998.=10 1995.=10
0 0 Vt
nepozna
1992 83,27 90,07 t
1993 87,92 95,10 105,58
1994 89,29 96,58 101,56
1995 92,45 100 103,54
1996 97,52 105,48 105,48
139
1997 93,87 101,54 96,26
1998 100 108,17 106,53
1999 102,33 110,69 102,33
2000 108,74 117,62 106,26
2001 110,37 119,38 101,50
2002 11,29 12,21 10,23
2003 113,37 122,63 1004,16
2004 118,29 127,95 104,34
2005 121,42 131,34 102,65
4.
It Stvarni
Godina Vt 1999=10 broj
0 S*t zahvata
1996 -- 89,36 -10,64 927
1997 108,23 96,72 -3,28 1003
1998 110,12 106,51 6,51 1105
1999 93,89 100,00 0,00 1037
2000 105,37 105,37 5,37 1093
2001 109,19 115,05 15,05 1194
2002 110,42 127,04 27,04 1318
2003 112,49 142,91 42,91 1483
2004 103,52 147,94 47,94 1535
2005 107,83 159,52 59,52 1655
S 6,65
a)Broj estetskih zahvata obavljen u 2003.godini je bio za 42,91% veći nego u baznoj
1999.godini.
c)Broj estetskih zahvata je prosječno godišnje rastao po stopi od 6,65%
140
.
5.
Iznos
Broj kazni Broj kazni Iznos kazne
Vrsta prekršaja kazne p0*q0 p1*q0 p1*q1
2005. q0 2007. q1 2005. p0
2007. p1
Prekoračenje 26500
brzine 530 700 500 700 0 371000 490000
15200
Vožnja bez pojasa 760 820 200 300 0 228000 246000
16800
Prolaz kroz crveno 210 180 800 1200 0 252000 216000
26700
Vožnja bez kacige 890 910 300 500 0 445000 455000
Parkiranje na
zabranjenom 11700
mjestu 780 1020 150 200 0 156000 204000
96900 145200 161100
0 0 0
a) P01(q0) 149,85
b) Q01(p1) 110,95
c) V01 166,25
6.
Proizvodnja
grožđa Proizvodnja grožđa
Lančani indeksi
Godina u tekućim u stalnim cijenama
cijena
cijenama It iz 2001.
(000 kn) 2001.=100 xt
1992 4,52 nepoznat 70,46 0 6,415
1993 4,80 101,02 71,17 1 6,744
1994 5,12 101,82 72,47 2 7,065
1995 5,80 102,36 74,18 3 7,819
1996 6,10 104,48 77,50 4 7,871
1997 6,30 105,52 81,78 5 7,703
1998 6,80 105,68 86,43 6 7,868
1999 6,80 102,36 88,47 7 7,687
2000 7,00 103,78 91,81 8 7,624
2001 7,20 108,92 100,00 9 7,200
2002 7,25 110,37 110,37 10 6,569
2003 7,30 111,48 123,04 11 5,933
2004 7,50 111,92 137,71 12 5,446
2005 8,00 112,46 154,87 13 5,166
2006 14
2007 15
2008 16
2009 17
2010 18
b) S 6,25
c) X 18
Y 5,591
141
7.
Godin Broj
a xt stanovnika
1930 0 1638
1940 1 1510
1950 2 1350
1960 3 1100
1970 4 950
1980 5 800
1990 6 660
2000 7 570
2010 8 348
2020 9 187
2030 10 26
2040 11 -135
2050 12 -296
X 10,16
Y 0
a)
Y = -161,02 *X +1635,8
a = -161,02 znači da očekivano prosječno smanjenje broja stanovnika u naselju X tijekom
desetljeća iznosi 161 osobu
b = 1635,8 ( ¿ 1636 ) trend broj stanovnika,u ishodišnoj 1930.godini,iznosi 1636 osoba.
b)R2 =0,9892 ukazuje na značajnu reprezentativnost modela
c) U 2010.godini se može očekivati 348 stanovnika u slučaju da opadanje njihovog broja
zadrži linearni trend.
d) U razdoblju od 2030. do 2040. će naselje potpuno opustiti ako se nastave započeta
demografska kretanja.
142
8.
Površine
povrtnjak
Godina xt
a
(u 00 m2)
1994 0 1190,21
1995 1 1079,68
1996 2 960,49
1997 3 820,33
1998 4 695,48
1999 5 573,49
2000 6 451,88
2001 7 340,13
2002 8 290,48
2003 9 180,39
2004 10 110,48
2005 11 79,53
2006 12
2007 13
2008 14
2009 15
2010 16 32,53
2011 17 25,50 a 1593,3
2012 18 20,00 b 0,78411 X 18 14,23
2013 19 15,68 S -21,59% Y 86,07 50
2014 20 12,29
2015 21 9,64
2016 22 7,56
a)
a = 1593,3 znači trend vrijednost u ishodišnoj 1994. ( X = 0 ) godini
S = -21,59 znači da se prosječno,godišnje,očekuje smanjenje povrtnjaka u iznosu od
21,59%
b) Koeficijent determinacije iznosi 0,9491 te ukazuje na osjetnu reprezentativnost
modela.
MATERIJALE PRIPREMILA:
143