Professional Documents
Culture Documents
2009/2009
DESKRIPTIVNA STATISTIKA
2009/2009
Osobine numeričkih podataka- mere
medijana varijansa
standardna devijacija
modus
koeficijent varijacije
geometrijska
srednja vrednost
3
2009/2009
Osobine numeričkih podataka
Centralna tendencija
(lokacija centra)
Varijacija (Rasipanje)
Asimetrija
2009/2009
Mere centralne tendencije
Centralna tendencija
N
xi x G ( x1 x 2 x n )1/ n
x i 1
N
sredina rangiranih najfrekventnija
vrednosti vrednost
2009/2009
Aritmetička srednja vrednost (average, mean)
• Najčešće korišćena mera
• Ponaša se kao ”ravnotežna tačka”
• Na njenu vrednost utiču ekstremne vrednosti (”outliers”)
• Izražava se u istim jedinicama kao i osnovni podaci
• Izraz za izračunavanje:
x
x
x1 x 2 x N
N N
broj podataka dobijena vrednost
6
2009/2009
Aritmetička srednja vrednost
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 15 1 2 3 4 10 20
3 4
5 5 5 5
7
2009/2009
Medijana (Me)
• Medijana je centralna vrednost u nizu podataka
• 50% vrednosti je iznad, 50% ispod medijane
• Pre određivanje medijane podaci se urede po veličini
• Na Me ne utiču ekstremne vrednosti
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
medijana = 3 medijana = 3
2009/2009
Određivanje medijane
• Pozicija medijane (u uređenim podacima):
N1
pozicija medijane
2
• Napomena:
N1
2
9
• izraz nije vrednost medijane, već redni broj vrednosti koja
predstavlja medijanu
2009/2009
Modus (Mo)
• Vrednost koja se pojavljuje najčešće
• Na Mo ne utiču ekstremne vrednosti
• U skupu može biti jedan ili više modusa
• Skup može biti bez modusa
• Mo može da se odredi i za numeričke i kategoričke podatke
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
2009/2009
Kvartili
• Kvartili dele skup uređenih podataka na četiri jednaka dela
• Pozicione veličine
Q1 Q2 Q3
2009/2009
Mere varijacije
varijacija
2009/2009
Raspon
• Najjednostavnija mera varijacije
• Raspon – razlika između najveže i najmanje vrednosti u
skupu
primer:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
13
raspon = 14 - 1 = 13
2009/2009
• Ignoriše oblik raspodele podataka
Nedostatak raspona
7 8 9 10 11 12 7 8 9 10 11 12
raspon = 12 - 7 = 5 raspon = 12 - 7 = 5
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 120
raspon = 120 - 1 = 119 14
2009/2009
Standardna devijacija
• Najčešće korišćena mera varijacije
• Pokazuje varijaciju oko srednje vrednosti
• Kvadratni koren iz varijanse
• Izražava se u istim jedinicama kao i osnovni podaci
N N
(xi x)2 x 2 N x 2
Sd i 1 i 1
Sd
N-1 N 1
15
2009/2009
Značenje standardne devijacije
16
2009/2009
Poređenje standardnih devijacija
grupa A
sr. vrednost = 15.5
SD = 3,338
11 12 13 14 15 16 17 18 19 20 21
grupa B
sr. vrednost = 15.5
Sd = 0,926
11 12 13 14 15 16 17 18 19 20 21
grupa C
sr. vrednost = 15.5
Sd = 4,567
11 12 13 14 15 16 17 18 19 20 21
17
2009/2009
Asimetrija raspodele
• Pokazuju kako su podaci distribuirani
• zakrivljenost i zašiljenost
18
2009/2009
t-tests, ANOVA & Regresija
2009/2009
Poređenje među grupama
Da li se ove dve
grupe razlikuju?
2009/2009
t-test
comp
infer
12
10
95% CI
8
Exp. 1 Exp. 2
lesion site
2009/2009
Formula
x1 x 2
t
s x1 x2
Reporting convention: t= 11.456, df= 9, p< 0.001
2009/2009
Vrste t-testa
Nezavisne Ponovljena
grupe merenja
Reci mi da li
postoji razlika
izmešu ove tri
grupe
Thank God I
have ANOVA
2009/2009
ANOVA
• ANalysis Of VAriance (ANOVA)
• Poredi razlike među grupama ali za odluku o različitosti
koristi varijansu
• F- statistik
• p-vrednost uz F test govori o tome postoji li negde značajna
razlika
• Mora postojati post-hoc test (ANOVA ne govori gde su te
razlike)
Regresija
- Koliko dobro linearni model predviđa podatke?
(inferncijalna statistika)
2009/2009
Korelacija:
- Koliko vrednost jedne varijable zavisi od vrednosti druge
varijable?
2009/2009
Pearson correlation coefficient (r)
cov( x, y )
rxy (S = st dev of sample)
sx s y
- r može da ima vrednosti od -1 (potpuna negativna korelacija) to 1
(potpuna pozitivna korelacija). r=0 nema korelacije
2009/2009
29
2009/2009