Professional Documents
Culture Documents
∑ Katedra za medicinsku
statistiku i informatiku
Eksploracija podataka
∑ Katedra za medicinsku
statistiku i informatiku
Priprema podataka za analizu
∑ Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka
∑ Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka
1. Izbor redosleda varijabli
∑ Katedra za medicinsku
statistiku i informatiku
Razvoj i dokumentovanje baze podataka
∑ Katedra za medicinsku
statistiku i informatiku
Provera podataka (skrining)
∑ Katedra za medicinsku
statistiku i informatiku
Analiza nedostajućih vrednosti
∑ Katedra za medicinsku
statistiku i informatiku
Analiza nedostajućih vrednosti
∑ Katedra za medicinsku
statistiku i informatiku
Analiza frekvencija
∑ Katedra za medicinsku
statistiku i informatiku
Otkrivanje neobičnih vrednosti –
”autlajera”
Neuobičajeno velika ili neuobičajeno mala vrednost
Uzroci:
1. Pogrešan podatak (najčešći uzrok)
2. Greška u merenju
3. Stvarna vrednost
∑ Katedra za medicinsku
statistiku i informatiku
Otkrivanje neobičnih vrednosti – ”autlajera ”
∑ Katedra za medicinsku
statistiku i informatiku
Ispitivanje logičkih veza
∑ Katedra za medicinsku
statistiku i informatiku
Modifikacija podataka
• Redefinicija podataka
• Transformacija podataka
∑ Katedra za medicinsku
statistiku i informatiku
Redefinicija podataka
∑ Katedra za medicinsku
statistiku i informatiku
Transformacije podataka
• primenjuju se u cilju postizanja normalnosti
rapodele ili neke druge pretpostavke
∑ Katedra za medicinsku
statistiku i informatiku
Analiza empirijskih raspodela
∑ Katedra za medicinsku
statistiku i informatiku
Analiza empirijskih raspodela
∑ Katedra za medicinsku
statistiku i informatiku
Raspodela frekvencija
∑ Katedra za medicinsku
statistiku i informatiku
Raspodela frekvencija
• Apsolutne učestalosti – nastaju prebrojavanjem
• Relativne učestalosti – odnos apsolutnih učestalosti i
ukupnog broja jedinica posmatranja
∑ Katedra za medicinsku
statistiku i informatiku
Distribucije frekvencija – nominalna
skala merenja (tabelarni prikaz)
ženski 38 76
Ukupno 50 100
∑ Katedra za medicinsku
statistiku i informatiku
Distribucije frekvencija – ordinalna skala
merenja
Zadovoljstvo Apsolutne Kumulativne Relativne Kumulativne
tretmanom frekvencije frekvencije frekvencije relativne
frekvencije
potpuno 70 70 0.4142 0.4142
zadovoljan
zadovoljan 47 117 0.2781 0.7023
Ukupno 169 ∑
1.000Katedra za medicinsku
statistiku i informatiku
Distribucije frekvencija – omerna skala
merenja
∑ Katedra za medicinsku
statistiku i informatiku
Identifikacija empirijskih raspodela
Identifikacija empirijskih raspodela je ispitivanje sa ciljem da
se dobiju potpune informacije o njihovom obliku i da se
odrede njihove karakteristike.
∑ Katedra za medicinsku
statistiku i informatiku
20 18
17
16
14
15
12
11 11
Učestalost
9
10 8
6
5 5
4 4
5 3 3
2 2
1 1
0
10
11
12
13
14
15
16
17
18
19
20
unimodalna raspodela
20 18 18
15 13
12 12
11
Učestalost
10
9
10
7
6
4 4
5 3 3
2 2
1 1 1 1
0
1
10
11
12
13
14
15
16
17
18
19
20
∑ Katedra za medicinsku
bimodalna raspodela
statistiku i informatiku
Asimetričan oblik raspodele
desna iskošenost
leva iskošenost
• Mezokurtična
• Leptokurtična (zašiljena)
• Platikurtična (zaravnjena)
40 38
12 35
30
25
Učestalost
20
15 12
10
38
5
0
muški ženski
muški ženski
∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
ordinalna skala merenja
ne zadov oljan 16
de limično
zadov oljan 36
zadov oljan 47
potpuno
zadov oljan 70
0 20 40 60 80
∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
omerna skala merenja
70 66
60
50 47
Učestalost
38 40
40
32
30
20
10
10
Starost (godine)
∑ Katedra za medicinsku
statistiku i informatiku
Grafički prikaz distribucije frekvencija –
omerna skala merenja
∑ Katedra za medicinsku
statistiku i informatiku
Identifikacija empirijskih raspodela
2. Deskriptivne mere:
Aritmetička sredina
x=
x i
∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije
Medijana
•Ordinalna skala merenja
•Srednja vrednost po položaju
•Centralna vrednost u nizu podataka poređanih po
veličini
•Deli distribuciju na dva jednaka dela
(50% vrednosti se nalazi ispod medijane, a 50%
vrednosti iznad medijane)
•Iskošena raspodela ili sadrži ekstremne vrednosti
∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije
Kvantili
• dele raspodelu učestalosti na n jednakih delova
Frakcija Naziv
1/2 Medijana
1/3 Tercil
1/4 Kvartil
1/5 Kvintil
1 / 10 Decil
1 / 100 Percentil
∑ Katedra za medicinsku
statistiku i informatiku
Mere centralne tendencije
Mod
∑ Katedra za medicinsku
statistiku i informatiku
Apsolutne mere varijabiliteta
• Varijansa s 2
=
(xi −x ) 2
n −1
(x − x )
2
• Standardna devijacija s= i
n −1
• Koeficijent varijacije
s
CV = 100
x
• Standardizovana z vrednost
xi − x
zi =
s
∑ Katedra za medicinsku
statistiku i informatiku
Relativni brojevi
a
bazna vrednost
a+b
∑ Katedra za medicinsku
statistiku i informatiku