You are on page 1of 14

Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

6. Šesti čas
Vežbe Microsoft Office Excel 2003, Statistika

2 časa Min, max, kvartili, percentili, standardna devijacija, histogrami,...

6.1. Analiza test skupa podataka


Datoteka sa podacima za vežbu sadrži podatke iz opservacije erupcija gejzira
"Old Faithful" u Jelostounskom nacionalnom parku u SAD tokom vremenskog perioda
od približno dve nedelje. U svakoj opservaciji merene su vrednosti dve promenljive:
eruptions koja predstavlja vreme trajanja erupcije gejzira i waiting koja predstavlja
period do naredne erupcije. Obe vrednosti izražene su u minutima. Vremena erupcije
data su sa tri decimale, a periodi između erupcija zaoruženi na ceo broj minuta.

Na prvom listu (faithful) se nalaze podaci o merenjima, prva kolona je redni broj
merenja, druga eruptions i treća waiting. Drugi list nazvati analiza, pa u njemu u ćeliji
C2 izračunati broj merenja funkcijom

=COUNT(faithful!A2:faithful!A273)

Imenovati ćeliju C2 i nazvati je BrMerenja. U ćeliji E2 napisati rečenicu:


„Prebrojali smo ... merenja“ koristeći promenljivu BrMerenja.

=" Prebrojali smo " & TEXT(BrMerenja;"###0") & " merenja "

Podesiti da font bude italik, crvene boje.

Imenovati opseg ćelija u kojima se nalaze podaci o trajanju erupcije


(faithful!B2:faithful!B273) i nazvati ga erupcije. Slično, opseg ćelija sa periodima do
naredne erupcije nazovite cekanje.

Pronaći min, max, srednju vrednost za erupcije i čekanje na dva načina:

1. bez imenovanih promenljivih, navodeći adrese ćelija


(=MIN(faithful!B2:faithful!B273), =MAX(faithful!B2:faithful!B273),
=AVERAGE(faithful!B2:faithful!B273), (=MIN(faithful!C2:faithful!C273),
=MAX(faithful!C2:faithful!C273), =AVERAGE(faithful!C2:faithful!C273) ).

2. koristeći imenovane promenljive


(=MIN(erupcije), =MAX(erupcije), =AVERAGE(erupcije), (=MIN(cekanje),
=MAX(cekanje), =AVERAGE(cekanje) )

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 1


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Na slici 6.1 je prikazan izgled dela lista sa rezultatom.

Slika 6. 1

6.2. Histogrami
Raspodela frekvencija kvalitativne promenljive u nekom skupu podataka je
ukupan broj pojavljivanja pojedinačnih vrednosti te promenljive u određenim klasama
podataka. U skupu podataka faithful, raspodela frekvencija promenljive erupcije je
ukupan broj erupcija po pojedinim klasama, shodno ustanovljenoj klasifikaciji dužine
erupcija.

Da bismo dobili ovu raspodelu frekvencija potrebno je definisati klase u koje se


svrstavaju dužine erupcija. Za definisanje klase, prethodno treba odrediti opseg u kome
se nalaze vremena trajanja erupcija. To se može videti iz prethodno dobijenog
rezultata [min,max] [1.6, 5.1] minuta. Interval se može podeliti na klase (podintervale)
na različite načine postavljanjem graničih tačaka podintervala. Obično se granične
vrednosti zaokruže, ali tako da obavezno obuhvate ceo opseg promenljive.

Za podatke o dužini trajanja erupcije jedna je mogućnost da se krajnje tačke


intervala trajanja erupcija zaokruže na polovinu minuta, dakle na vrednosti 1.5 i 5.5, i
da se umesto intervala [1.6, 5.1] posmatra interval [1.5, 5.5]. U našem slučaju interval
ćemo podeliti na podintervale od po pola minuta, odnosno podintrevale čije granične
tačke pripadaju skupu {1.5, 2.0, 2.5, ..., 5.5}. Skup graničnih tačaka formiraćemo u
opsegu ćelija od H5 do H13.

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 2


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Slika 6. 2

Za izračunavanje frekvencija ćemo koristiti funkciju FREQUENCY koja ima dva


parametra: data_array i bins_array. Kao data_array se navodi opseg ćelija koje
sadrže podatke koje analiziramo, u našem primeru erupcije (odnosno opseg ćelija
faithful!A2:faithful!A273), a kao bins_array ćemo navesti granice intervala, u našem
primeru H5:H13. U ćeliju I5 unesite

=FREQUENCY(erupcije;H5:H13)

Formula FREQUENCY treba da se unosi kao formula niza. Selektujte oblast


I5:I13, pritisnite F2, potom CTRL+SHIFT+ENTER. Ukoliko formula nije unetata kao
formula niza imaćete samo jedan rezultat, a ako je uneta kao je opisano dobićete
sledeći rezultat.

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 3


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Slika 6. 3

Funkcija FREQUENCY ne uključuje donju granicu intervala, a uključuje gornju


tako da su intervali: (-∞ ,1.5], (1.5,2], (2,2.5], (2.5,3],...

Histogram se sastoji od paralelnih vertikalnih stubića koji grafički prikazuju


raspodelu frekvencija za kvantitativnu promenljivu. Površina svakog stubića
proporcionalna je broju pojavljivanja vrednosti u svakoj od definisanih klasa. U skupu
podataka faithful, histogram za pormenljivu eruptions je skup vertikalnih stubića koji
pokazuju broj erupcija svrstanih u klase prema njihovom trajanju.

Na slici je prikazan grafički prikaz rezultata. Obratite pažnju da labele na x-osi


pokazuju na intervale i da se frekvencije ispisuju iznad stubića.

Slika 6. 4

6.3. Raspodela relativnih frekvencija


Raspodela relativnih frekvencija kvalitativne promenljive u nekom skupu
podataka je ukupan broj pojavljivanja pojedinačnih vrednosti te promenljive u
određenim klasama podataka podeljen sa ukupnom veličinom uzorka.

Odnos između frekvencije i relativne frekvencije je:

Frekvencija
Re lativnaFrekvencija 
BrojUzoraka

U skupu podataka faithful, raspodela relativnih frekvencija promenljive


eruptions predstavlja frekvencije erupcija u okviru definisanih klasa vremenskog
trajanja erupcija. Raspodela relativnih frekvencija se izračuna na osnovu raspodela

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 4


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

frekvencija formulom, npr. u ćeliji J5=I5*100/BrMerenja. Rezultat treba da izgleda kao


na slici

Slika 6. 5

Uvek je korisno proveriti da li se sabirenjem relativnih frekvencija dobija 100.


Grafički predstaviti relativne frekvencije erupcija. Obratiti pažnju na x-osu i labele iznad
stubića.

Slika 6. 6

Vežba

Izračunati frekvenciju i relativnu frekvenciju za promenljivu erupcije koristeći


granice od 1.5 do 5.5 sa korakom 0.25, a potom grafički predstaviti rezultat.
Izračunati frekvenciju i relativnu frekvenciju za promenljivu cekanje koristeći
granice od 40 do 100 sa korakom 10, a potom grafički predstaviti rezultat.
Izračunati frekvenciju i relativnu frekvenciju za promenljivu cekanje koristeći
granice od 40 do 100 sa korakom 5, a potom grafički predstaviti rezultat.

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 5


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

6.4. Kumulativne frekvencije


Raspodela kumulativnih frekvencija kvantitativne promenljive jednaka je
ukupnom broju pojavljivanja vrednosti pojedinačnih podataka manjih od određene
vrednosti. U skupu podataka faithful, raspodela kumulativnih frekvencija promenljive
eruptions predstavlja ukupan broj erupcija čije je vremensko trajanje manje od
vrednosti gornje granice određenog intervala. Postaviti vrednost ćelija na sledeći način

K5=I5, K6=I6+K5, K7=I7+K6,... kopirati dalje

L5=J5, L6=J6+L5, L7=J7+L6,... kopirati dalje

Dodati zagavlje i urediti kao na slici.

Slika 6. 7

Grafik kumulativnih frekvencija kvantitativne promenljive je kriva koja grafički


prikazuje raspodelu kumulativnih frekvencija. U slučaju skupa podataka faithful, tačka
na grafu kumulativnih frekvencija za promenljivu eruptions pokazuje ukupan broj
erupcija čije je trajanje bilo manje ili od određene vrednosti. Grafički prikaz može da
bude i pomoću linija. Slično se prikazuju rezultati kumulativnih relativnih frekvencija.

Slika 6. 8

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 6


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Vežba

Izračunati kumulativnu frekvenciju i kumulativnu relativnu frekvenciju za


promenljivu erupcije koristeći granice od 1.5 do 5.5 sa korakom 0.25, a potom
grafički predstaviti rezultat.
Izračunati kumulativnu frekvenciju i kumulativnu relativnu frekvenciju za
promenljivu cekanje koristeći granice od 40 do 100 sa korakom 10, a potom
grafički predstaviti rezultat.
Izračunati kumulativnu frekvenciju i kumulativnu relativnu frekvenciju za
promenljivu cekanje koristeći granice od 40 do 100 sa korakom 5, a potom
grafički predstaviti rezultat.

6.5. Tačkasti ili rasuti dijagram


Tačkasti ili rasuti dijagram (scatter plot) sastoji se od parova vrednosti dve
kvalitativne promenljive prikazanih kao tačke u Dekartovoj ravni. Kada je u pitanju skup
podataka faithful, parovi se formiraju od promenljivih eruptions (vreme trajanja erupcije)
i waiting (vremena izmedju dve erupcije) za svaku pojedinačnu opservaciju, koje
postaju (x,y) koordinate tačke.

Napraviti dijagram kao na slici: selektovati kolone sa erupcijama i čekanjem pa


potom kreirati Scatter dijagram. Modifikovati granice x ose da budu kao na slici: od 1.5
do 5.5, a za y osu da budu od 40 do 100.

Grafiku se može pridružiti linija ili kriva koja opisuje funkcionalnu zavisnost ova
dva skupa podataka. Selektujte tačkice na grafiku, pa iz konteksnog menija izaberite
“Add trendline”, dobićete panel kao na slici: neka ostane izabrano Linear, ali selektujte
u dnu opcije da se prikaže oblik jednačine i R2.

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 7


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Slika 6. 9

Dijagram treba da izgleda kao na sledećoj slici:

Slika 6. 10

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 8


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Vežba

Po uzoru na grafik iz vežbe, napraviti novi rasuti dijagram tako da na x-osi bude
čekanje a na y-osi erupcije.

6.6. Kvartili, percentili


Квантили су вредности нумеричке променљиве које низ уређен по величини
деле на q једнаких делова. Квантили који деле статистички низ на 4 једнака дела
називају се квартилима. Како је у овом случају ред квантила q=4 постоје три
квартила, први или доњи, други квартил или медијана и трећи (горњи) квартил.

Интерквартил је разлика горњег и доњег квартила:

IQ = Q3 – Q1

.....

Slika 6. 11

Slika 6. 12

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 9


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

6.7. Varijansa, standardna devijacija, koeficijent varijacije


Varijansa populacije je aritmetička sredina kvadrata odstupanja vrednosti
numeričkog obeležja od njihove aritmetičke sredine

Varijansa uzorka u količniku umesto n ima n-1. Excel funkcija VAR računa varijansu
uzorka.

Standardna devijacija populacije predstavlja srednje ili prosečno kvadratno


odstupanje vrednosti numeričkog obeležja od aritmetičke sredine, odnosno predstavlja
kvadratni koren varijanse. Računa se po formuli:

Standardna devijacija uzorka u količniku umesto n ima n-1. Ova vrednost je


apsolutna mera disperzije. Excel funkcija STDEV računa standardnu devijaciju uzorka.

Koeficijent varijacije se računa se po formuli:

tako da dobijemo vrednost u procentima.

Napomena: standardna devijacija je izražena u istim jedinicama mere u kojima i


aritmetička sredina, tako da je ona apsolutna mera disperzije i kao takva nije pogodna
za poređenje veličina disperzije dve distribucije sa različitim obeležjima.

Na sledećoj slici su prikazane formule kojima se izračunavaju Varijansa,


Standardna devijacija, koef.varijacije:

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 10


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Slika 6. 13

Na sledećoj slici su prikazane vrednosti varijanse, standardne devijacije i


koeficijenta varijacije za erupcije i čekanje:

Slika 6. 14

6.8. Kovarijansa i koeficijent korelacije


Kovarijansa predstavlja meru jačine veze između promene dve promenljive.
Varijansa je poseban slučaj kovarijansa kada su dve promenljive iste. Funkcija kojom
se kovarijansa izračunava u Excelu je COVAR(x,y), gde je x opseg ćelija prve
promenljive a y opseg ćelija druge promenljive. Izračunava se po formuli:

Koeficijent korelacije je mera zajedničkog variranja dve ili više promenljivih i


stepena njihove povezanosti. Pokazuje da li postoji povezanost između promenljivih,
kao i kvalitet povezanosti. Pozitivna je ako je porast mera jedne promenljive praćen
porastom mera druge. Negativna povezanost postoji ako je porast mera jedne
promenljive praćen opadanjem mera druge. Funkcija kojom se koeficijent korelacije

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 11


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

izračunava u Excelu je CORREL(x,y), gde je x opseg ćelija prve promenljive a y opseg


ćelija druge promenljive. Izračunava se po formuli:

Na slikama su prikazane formule i vrednosti kovarijanse i koeficijenta korelacije


promenljivih erupcije i čekanje

Slika 6. 15

6.8. Treći centralni momenat, asimetričnost i zakrivljenost


Pojam varijanse može se uopštiti. Naime, ako se kvadrat u formuli za varijansu
populacije zameni sa k, gde je k bilo koji prirodan broj, dobija se k-ti centralni momenat
(momenat oko srednje vrednosti) jedne populacije veličine N:

N k
1
k 
N
 (x
i 1
i  )

U excelu ne postoji funkcija koja računa automatski k-ti centralni moment, tako da
za k>=3 je potrebno napraviti odgovarajuće formule.

Za razliku od varijanse, k-ti centralni momenat za uzorak se izračunava na isti


način kao za populaciju i jednak je:

N k
1
mk 
N
 ( xi  x )
i 1

Asimetrija jednog skupa podataka se definiše pomoću drugog i trećeg centralnog


3
momenta kao:  1  3
.
2 2

Ukoliko se radi o skupu podataka koji je unimodalan, odnosno čiji histogram ima
samo jednu maksimalnu vrednost, onda važi sledeće pravila. Negativna asimetrija
ukazuje na to da je aritmetička sredina manja od medijane i da je histogram
asimetričan ulevo. Nasuprot tome, pozitivna asimetrija ukazuje na to da je aritmetička

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 12


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

sredina veća od medijane a da je histogram asimetričan udesno.

Za izračunavanje asimetrije u excelu se koristi funkcija SKEW.

Za skup vrednosti neke promenljive spljoštenost se računa na osnovu drugog i


4
četvrtog centralnog momenta, po sledećoj formuli:  2  3
22

Spljoštenost se posmatra u odnosu na normalnu (Gausovu) raspodelu, koja se


grafički predstavlja pomoću tzv. Gausovog zvona. Za tu normalnu raspodelu je
spljoštenost jednaka nuli, tako da se za svaku raspodelu čija je spoljoštenost jednaka
nuli kaže da je normalno spljoštena (eng. mesokurtic). Ukoliko je spljoštenost
negativna, raspodela podataka će u odnosu na normalnu biti više spljoštena (eng.
platykurtic), dok pozitivna spljoštenost ukazuje na raspodelu koja će u odnosu na
normalnu biti idužena (eng. leptokurtic).

Za izračunavanje spljoštenosti u excelu koristi se funkcija KURT.

Vežba

Izračunati treći centralni momenat za vreme trajanja erupcija i čekanje. Porediti


rezultate sa rezultatima iz R-a.
Izračunati asimetriju za vreme trajanja erupcija i čekanje. Porediti rezultate sa
rezultatima iz R-a.
Izračunati spljoštenost za vreme trajanja erupcija i čekanje. Porediti rezultate sa
rezultatima iz R-a.

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 13


Skripta iz Informatike I, Aplikativni softver Rudarsko-geološki fakultet Beograd

Sadržaj časa
6. Šesti čas ............................................................................................................................ 1

6.1. Analiza test skupa podataka ........................................................................................ 1

6.2. Histogrami ................................................................................................................... 2

6.3. Raspodela relativnih frekvencija .................................................................................. 4

6.4. Kumulativne frekvencije ............................................................................................... 6

6.5. Tačkasti ili rasuti dijagram ............................................................................................ 7

6.6. Kvartili, percentili.......................................................................................................... 9

6.7. Varijansa, standardna devijacija, koeficijent varijacije ................................................ 10

6.8. Kovarijansa i koeficijent korelacije ............................................................................. 11

6.8. Treći centralni momenat, asimetričnost i zakrivljenost................................................ 12

Sadržaj časa ..................................................................................................................... 14

Prof.dr Ivan Obradović, dipl.mat, Doc.dr. Ranka Stanković, dipl.mat 14

You might also like