Professional Documents
Culture Documents
!osnovni Statistike VRH!!!! PDF
!osnovni Statistike VRH!!!! PDF
uzorak
- Opisivanje,
ocenjivanje i
testiranje
Jelena Marinković,
maj 2012.
Statistika
p Nauka
o generisanju informacija i
znanja kroz prikupljanje, analizu i
interpretaciju podataka koji su
podložni slučajnom variranju.
Biostatistika
p Biostatistika
je statistika primenjena
u oblastima povezanim sa zdravljem
i bolešću (biomedicinske i
javnozdravstvene nauke), kao i
nauka koja razvija nove alate i
metode za istraživanje ovih oblasti.
NIVOI ZNANJA PROCESNE AKTIVNOSTI
ODLUKA
Vrednovanje
DONOSIOCI
ODLUKA
PROSUĐIVANJE
Poređenje alternativa
RAZUMEVANJE
Interpretacija
ZNANJE
(i druge metode)
BIOSTATISTIKA
Analiza
INFORMACIJE
Sortiranje, selekcija,
asocijacija
PODACI
Merenje, posmatranje,
prikupljanje
(ŽIVOTNI) DOGAĐAJI Statistika za istraživače
Marinković J. Biostatistics. In: Encyclopedia of Public Health.
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Springer-Verlag, 2008.
Statistički metod
p Naučni metod = Statistički metod
( ≠ statističke metode)
p Statistika kao naučni jezik
n semantika: gde (na kojim mestima u
istraživačkom procesu), šta, zašto, značenje i
interpretacija
n sintaksa: u kom obliku
A danas?
p Kratka istorija
p Statistički pojmovnik
p Istraživački podaci, uzorkovanje, merenje
p Deskripcija podataka
p Inferencijalna statistika / statističko
zaključivanje:
n Ocenjivanje nepoznatih parametara osnovnog
skupa
n Testiranje hipoteza
Statistika za istraživače
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Kratka istorija
Početak moderne statistike
p početak 20-tog veka
n Karl Pearson
(1857-1936)
n Sir Ronald Aylmer
Fisher (1890-1962)
p velike korelacione
studije (Pearson) vs
male eksperimentalne
studije (Fisher)
n eksperimentalne
studije: moć testa
n faktorska analiza:
konfirmatorno ili
eksplanatorno
Početak moderne biostatistike
p Sir Austin Bradford Hill
(1897-1991)
p 1946. prvi pravi
randomizovani klinički ogled
(streptomicin u lečenju
plućne tuberkuloze)
p 1959. “statistika –
odlučivanje u uslovima
nesigurnosti”
Poreklo statistike - veština
upravljanja državom (I)
p popisi (prebrojavanje ljudi, porezi, bolesti)
još pre nove ere
p William Petty (1623-1687), statistički ured
p John Graunt (1620-1674), London, Bill of
mortality, zaključivanje na osnovu uzorka,
izračunavanje očekivanog trajanja života
p 1801, prvi moderni popis stanovništva
Poreklo statistike – teorija
verovatnoće (II)
p matematički tretman
sistematskih studija na
osnovu podataka o
mortalitetu i studija o
igrama na sreću
p Blaise Pascal (1623-1662)
p Jakob Bernoulli
(1654-1705), 1713. teorija
verovatnoće, zakon velikih
brojeva
p Rev Thomas Bayes
(1702-1761), induktivno
rezonovanje, uslovne
verovatnoće, Bajesova
teorema
Poreklo statistike – teorija merenja
(III)
p Abraham de Moivre
(1667-1754),
normalna raspodela
p Pierre Simon Laplace
(1749-1827),
centralna granična
teorema
p Carl Fridrich Gauss
(1777-1855),
statističko
zaključivanje
Izazovi novog milenijuma
p metode statističkog
učenja
p ponovno uzorkovanje
(resampling)
p frekvencionistička i
bajesovska statistika
Statistički pojmovnik
Sadržaj pojmovnika
p Podaci
p Variranje, varijabilitet, neizvesnost,
nesigurnost
p Varijabla (promenljiva) - obeležje
p Populacija - uzorak
p Parametar – statistika (statistik)
p Statistički model
p Biostatistički dizajn studija
SAS i DS 2010/2011
Podaci
p Bilokoja činjenica ili zapažanje.
p Predmet statistike.
p Kako se generiše?
p Model podataka.
p Izvori podataka.
Variranje-Varijacija-Varijabilitet-
Neizvesnot
analitička biološka
ukupni varijabilitet
Obeležje posmatranja –
Varijabla (promenljiva)
p Obeležje je bilo koja kvantitativna ili kvalitativna
karakteristika, svojstvo ili osobina jedinica
posmatranja.
p Obeležja se dele na konstantna i varijabilna
(promenljiva, slučajno promenljiva).
p Klasifikacije varijabli (promenljivih):
n kvantitativne i kvalitativne
n neprekidne i prekidne
n zavisne i nezavisne.
Populacija vs uzorak
jedinice posmatranja
Parametar vs statistik(a)
jedinice posmatranja
Karakteristi Simbol za Simbol za
x ka parametar statistiku
Aritmetička
µ
sredina
p Istraživanje
p Uzorkovanje
p Merenje
Istraživanje
p Kontinuirani saznajni proces zasnovan na
određenoj metodi i proceduri.
p Sastoji se iz: izbora istraživačkog problema; formulacije
preciznih ciljeva istraživanja i hipoteza; istraživačkog plana
(dizajna); prikupljanja podataka; eksploracije podataka;
analize podataka; interpretacije i zaključivanja, te
saopštavanja rezultata istraživanja.
p Podele: primarna i integrativna; eksperimentalna i
opservaciona; sa i bez hipoteza; retrospektivna i
prospektivna; longitudinalna i presečna; kvantitativna i
kvalitativna; ...
Tipovi istraživanja
p Preventivne, dijagnostičke, terapijske /
interventne, laboratorijske, genetske, …
p Ili:
n Eksperimentalne studije: A. Kontrolisani ogledi (1.
Randomizovani i nerandomizovani ogledi; 2. Cross-
over studije; 3. Spoljašnja kontrola) i B.
Nekontrolisani ogledi
n Opservacione studije: A. Deskriptivne studije i B.
Analitičke studije (1. Anamnestičke studije; 2.
Studije preseka; 3. Kohortne studije; 4. Istorijske
kohortne studije)
Uzorkovanje
p Proces
formiranja (reprezentativnog)
uzorka.
Merenje
p Postupak po kome se proizvode podaci kroz
opservaciju ili eksperimentaciju.
p Proces dodeljivanja brojeva ili drugih simbola
specifičnim karakteristikama jedinica
posmatranja (objekata, osoba ili događaja).
p Greške merenja: sistematske i slučajne.
Statistika i merenje
p Karakteristike
merenja: nivo merenja,
proces merenja, uslovljenost merenja,
nedostajući podaci
n Karakteristike procesa merenja:
(a) operacionalna definicija varijable;
(b) ocena pouzdanosti i valjanosti
merenja;
(c) izabrana skala merenja i
(d) ocena tačnosti i preciznosti
instrumenata merenja.
Operacionalna definicija
varijable
p Iskazo tome kako istraživač u pojedinoj
studiji bira da je meri.
n ...“ hipotenzivni, normotenzivni i hipertenzivni ispitanici
podeljeni su prema kriterijumima visine sistolnog i
dijastolnog pritiska prema podeli SZO "...
n ...” ispitanici su označeni kao depresivni ako je njihov
skor na skali depresivnosti manji od 50 ” ...
A kako istraživač može da je meri?
p Objektivnei subjektivne mere
p Adekvatnost izabrane mere
n Pouzdanost / ponovljivost / reliability
n Validnost / valjanost / validity
n Senzitivnost i specifičnost (dg testova)
Standardizovane mere i testovi
Pouzdanost merenja
p Pouzdanost označava p sd ili sd2
do koje se mere
p Koeficijent varijacije
metoda merenja
konzistentno i p Cronbach-ov alpha
postojano ponaša a koeficijent
uključuje: p Kuder-Ričardsonova
n unutar ili formula – KR20
međuposmatračku
pouzdanost, p slaganje (kappa
n pouzdanost unutrašnje koeficijent, Pirsonov
konzistencije, koeficijent linearne
n pouzdanost korelacije, intraklasni
alternativnih formi i
koeficijent korelacije)
n test-retest pouzdanost.
Valjanost merenja
p Valjanost označava p Poređenje sa
odnos između onoga referentnim
što se pretpostavlja da tehnikama, zlatni
bi test trebalo da meri standard
i onog što on stvarno (senzitivnost,
meri a uključuje: specifičnost, pozitivna
n konstrukcionu, i negativna
n sadržinsku i prediktivna vrednost)
n kriterijumsku validnost. p slaganje (kappa
koeficijent i Pirsonov
koeficijent linearne
korelacije)
Razlike između pouzdanosti i
valjanosti
Frekvencija
A C
B D
Merenje
Prava vrednost
Razlike između pouzdanosti i
valjanosti
Frekvencija
A C A- Validno i pouzdano
B- Validno ali nepouzda.
C- Nije valid. ali je pouzd
Nepouzd. D- Nije valid. i nije pouzd
Nevalid.
B D
Merenje
Istina
Skale merenja
Stevens-ova klasifikacija:
p instrument,
alat • prava vrednost - istina
• merenje
merenje – tačno (valjano)
n bez
pristrasnosti – precizno (pouzdano)
ili greške
n minimizacija
bajasa
.... . .
. . . . .
....
. . .. .
Skale merenja
Statističke mere**
Omerna i Intervalna Ordinalna Nominalna
Aritmetička sredina Medijana
Mere centralne
Geometrijska i Kvartili, Mod
tendencije
harmonijska sredina decili, percentili
Opseg
Interkvartilni opseg
Varijansa
Kvartilna devijacija
Mere varijabiliteta Standardna devijacija Binomna* varijansa
Koeficijent kvartilne
Koeficijent varijacije
varijacije
Z skor
Binomni* koeficijenti
Mere asimetrije i Pirsonov koeficijent
asimetrije i
spljoštenosti asimetričnosti α 3 i α4
spljoštenosti
Mere korelacije Koeficijent linearne Spirmanov koeficijent Koeficijent
za dve varijable korelacije korelacije rangova kontingencije
Koeficijent višestruke Kendalov koeficijent
Mere korelacije
linearne korelacije konkordanse Koeficijent
za više od dve
Parcijalni koeficijenti Kendalov kontingencije
varijable
korelacije tau koeficijent
Proporcije
Indeksi i statistički
Relativni brojevi Odnosi
koeficijenti
Stope
*samo za binarne varijable
**podrazumeva se da se sve statističke mere izračunate u manje informativnim skalama mogu izračunati i kod onih
informativnijih
Mere centralne tendencije
Statitička mera Negrupisani podaci –grupisani podaci
n k
Aritmetička ∑x i ∑ fx
s =1
s
sredina x= i =1
ili x =
n ∑f
n
Harmonijska H= n
1
sredina ∑
i =1 x i
Geometrijska
sredina G= n x1 ⋅ x 2 ⋅ x 3 ⋅ x 4 ⋅ ⋅ ⋅ ⋅ ⋅ x n
Vrednost koja odgovara srednjem članu niza uređenog po veličini, mesto
medijane određujemo kao
Medijana
n +1 ∑ f +1
MMed= ili MMed=
2 2
Kvartili QI (i =1,2,3) = i ×n / 4
Decili DI (i =1,2,3,..,9) = i ×n / 10
Percentili PI (i =1,2,3,..,99) = i ×n / 100
Mod Opservacija sa najvećom učestalošću
xs je sredina klasnog ili grupnog intervala
Mere varijabiliteta
Statistička mera Negrupisani podaci-grupisani podaci
Opseg I = max – min
n k
2 2
Varijansa 2
∑ (x
i =1
i −x ) ∑ (
s =1
f xs − x )
SD = ili SD2=
n −1 ∑f
n k
2 2
Standardna devijacija
∑ (x
i =1
i −x ) ∑ (
s =1
f xs − x )
SD= ili SD =
n −1 ∑f
SD
Koeficijent varijacije CV= × 100
x
x−x
Z skor z=
SD
Interkvartilni opseg IO=Q3 –Q1
Q 3 − Q1
Kvartilna devijacija KD=
2
Q − Q1
Koeficijent kvartilne varijacije Vq = 3 × 100
Q3 + Q1
Binomna varijansa SD2 = npq
xs je sredina klasnog ili grupnog intervala
Mere oblika raspodele
p PKA = 3 (aritmetička sredina - medijana) /
standardna devijacija
p Mera asimetričnosti i mera spljoštenosti
Mere korelacije
Formula
Statistička mera
Uzoračka populacija
Analiza
Uzorak Zaključak
Ocenjivanje populacionih
parametara
p Ocenjivanje je proces korišćenja
informacija iz slučajnog uzorka u cilju
donošenja zaključka o vrednosti
populacionog parametra.
p Ocene mogu biti tačkaste i intervalne.
p Intervalne ocene, koje sadrže tačkastu
ocenu i varijabilitet te ocene u drugim
uzorcima, zovu se intervali poverenja a
njihovi krajevi su granice poverenja.
x − z(ili)t × SE ≤ µ ≤ x + z(ili)t × SE
Najčešće korišćeni intervali poverenja
Izabrana Popula-
Uzoračka
deskriptivna cioni Donja granica poverenja Gornja granica poverenja
statistika
statistička parametar S - k1-α/2 SE S + k1-α/2 SE
(S)
mera (P)
Aritmetička
sredina;
(n≥30) ili σ σ
x µ x - z × x + z ×
populaciona 1−
α
n 1−
α
n
2 2
varijansa
poznata
Aritmetička
sredina;
(n<30) ili SD SD
x µ x - t × x + t ×
populaciona n −1;1−
α
n n −1;1−
α
n
2 2
varijansa
nepoznata
Razlika dve
aritmetičke ( x 1 - x 2 ) – ( x 1 - x 2 )+
sredine sa & σ 2 # & σ 2 #
poznatim x - x µ1 - µ2 σ 22 σ 22
1 2
z α ×$ 1
+ ! z α ×$ 1
+ !
populacionim 1−
2
$ n n2 ! 1−
2
$ n n2 !
varijansama % 1 " % 1 "
Razlika dve
aritmetičke ( x 1 - x 2 ) - ( x 1 - x 2 )
sredine sa
nepoznatim, x 1 - x 2
µ1 - µ2 & 1 1 # & 1 1 #
ali približno t α × SD 2 $
$n + n !
! +t α × SD 2 $
$n + n !
!
n1 + n 2 − 2 ;1 − n1 + n 2 − 2 ;1 −
sličnim, 2 % 1 2 " 2 % 1 2 "
varijansama
Prosečna
razlika, σd σd
varijansa d δ d - z α × d + z α ×
razlika je
1−
2 n 1−
2 n
poznata
Prosečna
razlika, SDd SDd
varijansa d δ d - t α × d + t α ×
razlika je
n −1;1−
2 n n −1;1−
2 n
nepoznata
Standardna ( n − 1) s 2 ( n − 1) s 2
devijacija SD σ 2
χ1−α / 2 χα / 2 2
Odnos
varijansi dve
& # & #
& SD12 # $ 1 ! & SD12 # $ 1 !
normalno SD12/SD22 2
σ1 /σ2 2
$ !×$ ! $ !×$ !
raspodeljene
$ SD 2 ! $ F ! $ SD 2 ! $F
% 2 " $ α ; DF1 ; DF2 ! % 2 " $ 1− α ; DF1 ; DF2 !
!
populacije % 2 " % 2 "
Broj uspeha
(povoljnih x − nπ − 1 / 2 x − nπ + 1 / 2
ishoda X nπ*
nπ (1 − π nπ (1 − π
događaja)
Proporcija p − π − 1 /( 2 n ) p − π + 1 /( 2 n )
p = x/n π*
uspeha π (1 − π ) / n π (1 − π ) / n
p Ponekad je u istraživanjima ocenjivanje jedini
metod statističkog zaključivanja koji je potreban i
dovoljan. To se posebno odnosi na istraživanja
čiji je cilj opisivanje novog entiteta ili fenomena,
ili opisivanje već poznatih entiteta ali u novim
sredinama, različitim okruženjima ili na novim
ispitanicima.
p I u situacijama kada ovo nije jedini metod
statističkog zaključivanja, obavezno se koristi jer
daje važnu informaciju o veličini greške, tj.
informaciju o odstupanju dobijene ocene -
rezultata od prave populacione vrednosti samo
zbog slučajnosti (okolnosti da smo formirali taj, a
ne neki drugi mogući uzorak iste veličine iz iste
populacije).
Testiranje hipoteza
p Testiranje hipoteza je deo statističkog
zaključivanja koji koristi uzoračke podatke
za evaluaciju istinitosti hipoteza o
populaciji.
p Kao i kod ocenjivanja cilj procesa
testiranja hipoteza je generalizacija sa
uzorka na populaciju iz koje je uzorak
slučajno izabran.
Hipoteza
p Hipoteza je jednostavno iskaz o jednoj ili više
populacija.
p Istraživačka hipoteza je pretpostavka o
predikciji ishoda eksperimenta (pretpostavka koja
je pokretač istraživanja).
p Statistička hipoteza je hipoteza formulisana na
takav način da može biti evaluirana
odgovarajućim statističkim tehnikama.
p Statistička teorija poznaje i proste i složene,
jednodimenzionalne i višedimenzionalne hipoteze.
Proces testiranja hipoteza
1. Podaci
2. Pretpostavke
3. Hipoteze
4. Izbor test statistike
5. Raspodela test statistike
6. Pravilo odlučivanja
7. Izračunavanje test statistike
8. Statistička odluka
9. Istraživački zaključak
4. Izbor odgovarajućeg
statističkog testa
p Izbor statističkog testa zavisi od:
p a) kriterijuma na osnovu kojih ćemo birati
statistički test (vrstu i tip) te koju test
statistiku će taj test imati i
p b) optimalnog izbora u slučajevima kada
su za isti istraživački dizajn (i posledično,
istraživačko pitanje) mogući alternativni
statistički testovi (dva, tri, ili više).
4. Izbor odgovarajućeg
statističkog testa a)
p Prvi od kriterijuma je svakako samo istraživačko pitanje,
odnosno već izabrani studijski plan.
n a) testiranje razlike/a, testiranje sličnosti oblika raspodela i testiranje
povezanosti koje u potpunosti određuju vrstu statističkog testa i
n b) broj raspoloživih ili potrebnih uzoraka (1, 2, i više)
n c) odnos među uzorcima (zavisni i nezavisni uzorci) i
n d) deskriptivna statistička mera (ili mere), ako ih uopšte ima ili ako su
uopšte potrebne, koje su nosilac bilo razlika, bilo sličnosti, bilo
povezanosti koje testiramo, koje delimično određuju tip statističkog
testa i njegovu test statistiku.
p Drugi kriterijum odnosi se na definisanje statističkog
modela (određivanja prirode populacije iz koje ćemo uzorak
izabrati i načina njegovog izbora), kao i načina merenja
(neka od četiri skale merenja) varijable (varijabli) od
interesa.
p Ova dva kriterijuma tada u potpunosti određuje i tip
statističkog testa i njegovu test statistiku.
4. Izbor odgovarajućeg
statističkog testa b)
Prvi kriterijum za biranje jednog (između više)
statističkih testova je njegova moć (snaga). Podsetimo se da
je moć statističkog testa definisana kao verovatnoća
odbacivanja H0 kada je ona stvarno netačna (i zato i treba da
bude odbačena), tj.,:
p Moć = 1 - verovatnoća greške II tipa = 1 - β
p Drugi kriterijum za biranje jednog između više
statističkih testova je njegova efikasnost. Meri se količina
porasta broja jedinica posmatranja u uzorku koja je
potrebna da bi jedan test (B) bio isto toliko moćan koliko i
drugi (A):
p E (B/A) = (nA / nB ) x 100
Izbor statističkog testa
Karakteristike
procesa merenja
Rangovi, skorovi
ili kvantitativno
Kvantitativno
(iz kontinuirano ali ne Kategorijalni – Binomni
Cilj istraživanja (iz Gausovski
Gausovski (dva moguća ishoda)
raspodeljene populacije)
raspodeljene
populacije)
Medijana, Proporcija,
Aritmetička sredina, SD
interkvartilni opseg binomna varijansa
Opisivanje jedne grupe
Tačkaste i intervalne
ocene
Poređenje jedne grupe
Jednouzorački z Kolmogorov-Smirnov Hi-kvadrat ili
sa hipotetičkom
ili t-test test Binomni test
vrednošću
Poređenje dva z ili t-test za dva Man-Vitnijev test ili Fišerov test ili
nezavisna uzorka nezavisna uzorka Test sume rangova hi-kvadrat test
z ili t-test za dva
Poređenje dva Vilkoksonov test
zavisna (mečovana) MekNemarov test
zavisna uzorka ekvivalentnih parova
uzorka
Poređenje tri ili više
Jednofaktorska ANOVA Kraskal-Volisov test Hi-kvadrat test
nezavisnih grupa#
Poređenje tri ili više ANOVA u blokovima ili
Fridmanov test Kohranov Q test
mečovanih grupa# za nezavisna merenja
Kvantifikacija
Pirsonova linearna Spirmanova Koeficijent
povezanosti
# korelacija korelacija rangova kontingencije
između dve varijable
Predviđanje vrednosti
jedne varijable na Jednostavna
Linearna ili Neparametarska
osnovu (univarijantna)
nelinearna regresija regresija
izmerenih vrednosti logistička regresija
#
druge varijable
Predviđanje vrednosti
jedne na osnovu Višestruka linearna ili Višestruka (multipla)
izmerenih vrednosti nelinearna regresija logistička regresija
dve ili više varijabli#
#
Neki od ciljeva istraživanja, pa prema tome i njima odgovarajuće statističke metode, biće izložene u
sledećim poglavljima ovog udžbenika.
Najčešće korišćeni statistički testovi u istraživanjima sa jednim uzorkom u funkciji
izabranih skala merenja.
Skala merenja Statistički testovi
omerna ili intervalna z-test; t-test; Test varijanse
Kolmogorov-Smirnovljev test;
ordinalna
Jednouzorački test nizova
nominalna Binomni test; Hi-kvadrat test slaganja
Najčešće korišćeni statistički testovi i njihove test statistike u funkciji istraživačkog cilja (u
istraživanjima sa jednim uzorkom)
Kada je H0 tačna test
statistika se raspodeljuje
Istraživački cilj Statistički test Test statistika
kao ? raspodela (sa ? broja
stepena slobode)
Standardna normalna
H 0: µ = µ 0 z-test z = x - µ0 / (σ/√n)
raspodela
Standardna normalna
H0: π = π0 z-test z = p - π0 / (σ/√n)
raspodela
t-raspodela sa DF=n-1
H 0: µ = µ 0 t-test t = x - µ0 / (SD/√n)
Tablica XII
H0: π = π0 t-test t = p - π0 / (SD/√n) t-raspodela sa DF=n-1
H 0: σ 2 = σ 20 Test varijanse χ2 = (n-1)SD2 / σ20 χ2 raspodela sa DF=n-1
Slaganje empirijske sa
χ2 = ∑ (f-F)2 / F ili χ2 = ∑ (f-f,)2 /
hipotetičkom raspodelom χ2 - test slaganja χ2 raspodela sa DF=k - r
f, ili često kao χ2 = ∑(O-E)2 / E
0.95
α/2 α/2
Kritična Kritična
vrednost vrednost
Matrica statističkog odlučivanja
U prirodi
Nulta hipoteza Nulta hipoteza
Naš zaključak tačna pogrešna
Prihvatamo β
nultu hipotezu 1- α greška drugog
tipa
Odbacujemo α
nultu hipotezu greška prvog 1- β
tipa