You are on page 1of 43

Eksploracija podataka

∑ Katedra za medicinsku
statistiku i informatiku
Eksploracija podataka

Prve dve faze analize podataka:


• Priprema podataka za analizu
• Deskriptivna statistika –opisivanje
osnovnih karakteristika podataka

∑ Katedra za medicinsku
statistiku i informatiku
Priprema podataka za analizu

1. Razvoj i dokumentovanje strukture baze


podataka
2. Unos podataka
3. Provera podataka - skrining podataka

4. eventualne Modifikacije podataka

∑ Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka

Istraživačka baza podataka – matrični zapis


čija veličina zavisi od broja jedinica
posmatranja i broja varijabli

• Redovi = jedinice posmatranja


• Kolone = varijable u istraživanju

∑ Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka
1. Izbor redosleda varijabli

• jedinstvena identifikacija jedinica posmatranja (matični


broj, broj istorije bolesti..)

• Demografske i socioekonomske varijable


(pol, starost, ekonomski status, bračni status, zanimanje)

• Nezavisne varijable koje nisu od direktnog interesa u


istraživanju ( pridruženi faktori, spoljašnji faktori)

• Nezavisne varijable koje su od direktnog interesa za


istraživanje (faktori) i rezultujuće (ishodne) varijable

Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka
2. Način kodiranja varijabli merenih nominalnom ili ordinalnom
skalom merenja
npr. za varijablu pol u bazu se mogu unositi:
• alfanumerički kodovi “m” i “ž”
• numerički kodovi “1” i “2”

3. Određivanje broja cifarskih mesta (uključujući i broj decimalnih


mesta) svake varijable. Zavisi od preciznosti sa kojom je izvršeno
merenje.

4. Kodovi za nedostajuće vrednosti (prazno polje, tačka ili vrednost


koja je inače nemoguća kao vrednost varijable npr. 999)

∑ Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka

Kodeks ili šifarnik – informacije o:


• redosledu
• imenima varijabli,
• opisu varijabli,
• skali merenja,
• mernim jedinicama
• broju i nazivima kategorija, i načinu kodiranja
kategorija

∑ Katedra za medicinsku
statistiku i informatiku
Provera podataka (skrining)

• Detekcija nedostajućih vrednosti


• Analiza frekvencija
• Otkrivanje neobičnih vrednosti –
”autlajera”
• Ispitivanje logičkih veza

∑ Katedra za medicinsku
statistiku i informatiku
Analiza nedostajućih vrednosti

• Opisuje i identifikuje učestalost i obrazac po


kome se nedostajuće vrednosti pojavljuju
• Razlozi: smrt pacijenta ili eksperimentalne
životinje, preseljenje pacijenta, odsustvo
odgovora, gubitak podatka . . .
• Mogu imati veliki uticaj na rezultate i zaključke
analize
• Za ishodne varijable dopustivo do nekoliko
procenata, a za ostale varijable do 30%
nedostajućih vrednosti

∑ Katedra za medicinsku
statistiku i informatiku
Analiza nedostajućih vrednosti

Obrazac pojavljivanja nedostajućih vrednosti


• manji problem su nedostajuće vrednosti koje su
na slučajan način raspoređene u bazi podataka
• veći problem su nedostajuće vrednosti koje nisu
na slučajan način raspoređene u bazi podataka
(npr. ako ispitanici sa većom zaradom odbijaju da
saopšte podatak o svojoj zaradi to će umanjiti
mogućnost generalizacije svakog zaključka u
analizama koje su uključivale ekonomski status)
∑ Katedra za medicinsku
statistiku i informatiku
Analiza nedostajućih vrednosti

• Zamena aritmetičkom sredinom ili medijanom


• Ocena nedostajuće vrednosti regresionom
metodom
• Isključivanje iz analize jedinica posmatranja
koje imaju nedostajuće vrednosti

∑ Katedra za medicinsku
statistiku i informatiku
Analiza frekvencija

• Tabelarni ili grafički prikaz distribucija


frekvencija omogućava otkrivanje odredjenih
tipova greški

• numerička vrednost unešena kao slovo


• numeričke vrednosti koje su van mogućeg
opsega (kod 3 za pol ispitanika)

∑ Katedra za medicinsku
statistiku i informatiku
Otkrivanje neobičnih vrednosti –
”autlajera”
Neuobičajeno velika ili neuobičajeno mala vrednost
Uzroci:
1. Pogrešan podatak (najčešći uzrok)
2. Greška u merenju
3. Stvarna vrednost

Otkrivanje neobičnih vrednosti: odredjivanje


minimuma, maksimuma i raspona vrednosti
svake varijable

∑ Katedra za medicinsku
statistiku i informatiku
Otkrivanje neobičnih vrednosti – ”autlajera ”

• Da li je potrebno ukloniti ih ili ne?

• Zadržavanje pogrešnog podatka ili uklanjanje


ispravnog podatka može dovesti do pogrešnog
zaključka

• Zasebna analiza neobičnih opservcija

• Dvostruka analiza – sa i bez neobičnih vrednosti i


otkrivanje eventualnih razlika medju analizama

∑ Katedra za medicinsku
statistiku i informatiku
Ispitivanje logičkih veza

• Ukrštanje kategorija dve varijable u obliku


tablica kontingencija (npr. pol i trudnoća)
• Popravljanje greške ili ako nije moguće
izbacivanje podatka ili jedinice posmatranja

∑ Katedra za medicinsku
statistiku i informatiku
Modifikacija podataka

Priprema za dalju analizu podataka

• Redefinicija podataka

• Transformacija podataka

∑ Katedra za medicinsku
statistiku i informatiku
Redefinicija podataka

• Zamena pogrešnih ili nedostajućih vrednosti


• Izbacivanje i/ili sažimanje pojedinih kategorija
obeležja (male učestalosti)
• Formiranje novih varijabli – nastaju kao
rezultat logičkih i algebarskih operacija
postojećih varijabli (npr. BMI)

∑ Katedra za medicinsku
statistiku i informatiku
Transformacije podataka
• primenjuju se u cilju postizanja normalnosti
rapodele ili neke druge pretpostavke

1. Linearne transformacije (z transformacija)


2. Nelinearne transformacije (log.)
3. Transformacije rangova (neparametarske
metode)

∑ Katedra za medicinsku
statistiku i informatiku
Analiza empirijskih raspodela

• Opisivanje podataka zasniva se na identifikaciji


empirijskih raspodela

• Empirijske raspodele su raspodele učestalosti


vrednosti obeležja posmatranja
• Nastaju razvrstavanjem i prebrojavanjem
opservacija u definisanim grupnim (klasnim)
intervalima ili kategorijama obeležja
• Mogu biti: apsolutne, relativne, parcijalne i
kumulativne

∑ Katedra za medicinsku
statistiku i informatiku
Analiza empirijskih raspodela

• Koraci formiranja raspodele frekvencija


(distribucije učestalosti):

1. Izbor klasa (intervala ili kategorija)


2. Grupisanje - razvrstavanje podataka
3. Prebrojavanje podataka

∑ Katedra za medicinsku
statistiku i informatiku
Raspodela frekvencija

1. Za nominalnu i ordinalnu skalu merenja


grupisanje se obavlja po kategorijama –
modalitetima

2. Za intervalnu i omernu skalu merenja


grupisanje se obavalja po grupama koje
odgovaraju diskretnim vrednostima ili po
klasnim intervalima

∑ Katedra za medicinsku
statistiku i informatiku
Raspodela frekvencija
• Apsolutne učestalosti – nastaju prebrojavanjem
• Relativne učestalosti – odnos apsolutnih učestalosti i
ukupnog broja jedinica posmatranja

• Parcijalne učestalosti – učestalosti pojedinačnih


kategorija ili grupnih intervala
• Kumulativne učestalosti – sukcesivni zbirovi učestalosti
pojedinih kategorija ili grupnih intervala

∑ Katedra za medicinsku
statistiku i informatiku
Distribucije frekvencija – nominalna
skala merenja (tabelarni prikaz)

POL Apsolutne Relativne


frekvencije frekvencije (%)
muški 12 24

ženski 38 76

Ukupno 50 100

∑ Katedra za medicinsku
statistiku i informatiku
Distribucije frekvencija – ordinalna skala
merenja
Zadovoljstvo Apsolutne Kumulativne Relativne Kumulativne
tretmanom frekvencije frekvencije frekvencije relativne
frekvencije
potpuno 70 70 0.4142 0.4142
zadovoljan
zadovoljan 47 117 0.2781 0.7023

delimično 36 153 0.2130 0.9153


zadovoljan
nezadovoljan 16 169 0.0947 1.000

Ukupno 169 ∑
1.000Katedra za medicinsku
statistiku i informatiku
Distribucije frekvencija – omerna skala
merenja

Starost Apsolutne Kumulativne Relativne Kumulativne


(godine) frekvencije frekvencije frekvencije relativne
(%) frekvencije
20-29 38 38 0.1631 0.1631
30-39 47 85 0.2017 0.3648
40-49 66 151 0.2832 0.6480
50-59 40 191 0.1717 0.8197
60-69 32 223 0.1373 0.9571
70-79 10 233 0.0429 1.000
Ukupno 233 1.000

∑ Katedra za medicinsku
statistiku i informatiku
Identifikacija empirijskih raspodela
Identifikacija empirijskih raspodela je ispitivanje sa ciljem da
se dobiju potpune informacije o njihovom obliku i da se
odrede njihove karakteristike.

1. Odredjivanje oblika empirijske raspodele


• Osnovne informacije o obliku empirijske raspodele mogu se
dobiti iz grafičkih prikaza (histogram, poligon frekvencija,
štapićasti dijagrm, stubičasti dijagram) ili iz tabele
empirijske raspodele
• Oblik se obično klasifikuje kao unimodalan, bimodalan ili
multimodalan
• Unimodalan oblik može biti simetričan ili asimetričan
(pozitivno ili desno iskošen, negativno ili levo iskošen)

∑ Katedra za medicinsku
statistiku i informatiku
20 18
17
16
14
15
12
11 11

Učestalost
9
10 8
6
5 5
4 4
5 3 3
2 2
1 1
0

10

11

12

13

14

15

16

17

18

19

20
unimodalna raspodela

20 18 18

15 13
12 12
11
Učestalost

10
9
10
7
6
4 4
5 3 3
2 2
1 1 1 1
0
1

10

11

12

13

14

15

16

17

18

19

20
∑ Katedra za medicinsku
bimodalna raspodela
statistiku i informatiku
Asimetričan oblik raspodele
desna iskošenost

leva iskošenost

Vrednost skjunisa veća od 1 ukazuje na desnu iskošenost, a


vrednost manja od -1 na levu iskošenost

Katedra za medicinsku
statistiku i informatiku
Zašiljenost” / “zaravnjenost”
raspodele

• Mezokurtična
• Leptokurtična (zašiljena)
• Platikurtična (zaravnjena)

Vrednosti kurtosisa veće od 1 ukazuju na šiljatu


raspodelu, a manje od -1 ukazuju na zaravnjenu
raspodelu
∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
nominalna skala merenja

40 38

12 35

30

25

Učestalost
20

15 12
10
38
5

0
muški ženski
muški ženski

∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
ordinalna skala merenja

ne zadov oljan 16

de limično
zadov oljan 36

zadov oljan 47

potpuno
zadov oljan 70

0 20 40 60 80

∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
omerna skala merenja

70 66
60

50 47
Učestalost

38 40
40
32
30

20
10
10

Starost (godine)
∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
omerna skala merenja

grafikon kutije “boxplot”∑ statistiku i informatiku


Katedra za medicinsku
• Prikazuje minimalnu i maksimalnu vrednost (produžeci),
kvartile (dužina kutije) i medijanu (linija koja preseca kutiju)
• Produžeci pokazuju minimalnu i maksimalnu vrednost ako su
one unutar 1.5 dužine kutije od same kutije (interkvartilni
opseg).
• Vrednosti koje su udaljene od kutije 1.5 do 3 njene dužine
oznavačavaju se kao neobične vrednosti (“outlier”), a
vrednosti koje su udaljene više od 3 dužine kutije nazivaju
ekstremnim vrednostima

∑ Katedra za medicinsku
statistiku i informatiku
Identifikacija empirijskih raspodela

2. Deskriptivne mere:

• Mere centralne tendencije


• Mere varijabiliteta
• Mere oblika raspodele
• Mere korelacije za dve varijable
• Mere korelacije za više od dve varijable
• Relativni brojevi
∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije

Aritmetička sredina

x=
 x i

• omerna i intervalna skala merenja


• simetrična raspodela

∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije

Medijana
•Ordinalna skala merenja
•Srednja vrednost po položaju
•Centralna vrednost u nizu podataka poređanih po
veličini
•Deli distribuciju na dva jednaka dela
(50% vrednosti se nalazi ispod medijane, a 50%
vrednosti iznad medijane)
•Iskošena raspodela ili sadrži ekstremne vrednosti

∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije
Kvantili
• dele raspodelu učestalosti na n jednakih delova

Frakcija Naziv
1/2 Medijana
1/3 Tercil
1/4 Kvartil
1/5 Kvintil
1 / 10 Decil
1 / 100 Percentil

∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije

Mod

• Tipična ili dominantna vrednost


• Vrednost obeležja sa najvećom frekvencijom
• nominalna i ordinalna skala merenja

∑ Katedra za medicinsku
statistiku i informatiku
Apsolutne mere varijabiliteta

• Opseg I = xmax - xmin

• Varijansa s 2
=
 (xi −x ) 2

n −1

 (x − x )
2

• Standardna devijacija s= i

n −1

• Interkvartilni opseg Q3-Q1


∑ Katedra za medicinsku
statistiku i informatiku
Relativne mere varijabilliteta

• Koeficijent varijacije
s
CV = 100
x

• Standardizovana z vrednost
xi − x
zi =
s

∑ Katedra za medicinsku
statistiku i informatiku
Relativni brojevi

Proporcija je broj observacija sa datom karakteristikom


(a) podeljen sa ukupnim brojem observacija u
ispitivanoj grupi (a+b)
a
a+b
Odnos je broj (a) observacija u datoj grupi sa datom
karakteristikom podeljen sa brojem (b) observacija bez
date karakteristike
a
b
∑ Katedra za medicinsku
statistiku i informatiku
Relativni brojevi

• Stopa je proporcija pomnožena sa nekim multiplikatorom


- k (1 000, 10 000, 100 000) za specifični vremenski period

a
 bazna vrednost
a+b

∑ Katedra za medicinsku
statistiku i informatiku

You might also like