You are on page 1of 76

Populacija vs.

uzorak
- Opisivanje,
ocenjivanje i
testiranje
Jelena Marinković,
maj 2012.
Statistika

p  Nauka
o generisanju informacija i
znanja kroz prikupljanje, analizu i
interpretaciju podataka koji su
podložni slučajnom variranju.
Biostatistika

p  Biostatistika
je statistika primenjena
u oblastima povezanim sa zdravljem
i bolešću (biomedicinske i
javnozdravstvene nauke), kao i
nauka koja razvija nove alate i
metode za istraživanje ovih oblasti.
NIVOI ZNANJA PROCESNE AKTIVNOSTI

ODLUKA
Vrednovanje
DONOSIOCI
ODLUKA

PROSUĐIVANJE
Poređenje alternativa
RAZUMEVANJE
Interpretacija
ZNANJE
(i druge metode)
BIOSTATISTIKA

Analiza
INFORMACIJE
Sortiranje, selekcija,
asocijacija
PODACI
Merenje, posmatranje,
prikupljanje
(ŽIVOTNI) DOGAĐAJI Statistika za istraživače
Marinković J. Biostatistics. In: Encyclopedia of Public Health.
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Springer-Verlag, 2008.
Statistički metod
p  Naučni metod = Statistički metod
( ≠ statističke metode)
p  Statistika kao naučni jezik
n  semantika: gde (na kojim mestima u
istraživačkom procesu), šta, zašto, značenje i
interpretacija
n  sintaksa: u kom obliku
A danas?
p  Kratka istorija
p  Statistički pojmovnik
p  Istraživački podaci, uzorkovanje, merenje
p  Deskripcija podataka
p  Inferencijalna statistika / statističko
zaključivanje:
n  Ocenjivanje nepoznatih parametara osnovnog
skupa
n  Testiranje hipoteza
Statistika za istraživače
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Kratka istorija
Početak moderne statistike
p  početak 20-tog veka
n  Karl Pearson
(1857-1936)
n  Sir Ronald Aylmer
Fisher (1890-1962)
p  velike korelacione
studije (Pearson) vs
male eksperimentalne
studije (Fisher)
n  eksperimentalne
studije: moć testa
n  faktorska analiza:
konfirmatorno ili
eksplanatorno
Početak moderne biostatistike
p  Sir Austin Bradford Hill
(1897-1991)
p  1946. prvi pravi
randomizovani klinički ogled
(streptomicin u lečenju
plućne tuberkuloze)
p  1959. “statistika –
odlučivanje u uslovima
nesigurnosti”
Poreklo statistike - veština
upravljanja državom (I)
p  popisi (prebrojavanje ljudi, porezi, bolesti)
još pre nove ere
p  William Petty (1623-1687), statistički ured
p  John Graunt (1620-1674), London, Bill of
mortality, zaključivanje na osnovu uzorka,
izračunavanje očekivanog trajanja života
p  1801, prvi moderni popis stanovništva
Poreklo statistike – teorija
verovatnoće (II)
p  matematički tretman
sistematskih studija na
osnovu podataka o
mortalitetu i studija o
igrama na sreću
p  Blaise Pascal (1623-1662)
p  Jakob Bernoulli
(1654-1705), 1713. teorija
verovatnoće, zakon velikih
brojeva
p  Rev Thomas Bayes
(1702-1761), induktivno
rezonovanje, uslovne
verovatnoće, Bajesova
teorema
Poreklo statistike – teorija merenja
(III)
p  Abraham de Moivre
(1667-1754),
normalna raspodela
p  Pierre Simon Laplace
(1749-1827),
centralna granična
teorema
p  Carl Fridrich Gauss
(1777-1855),
statističko
zaključivanje
Izazovi novog milenijuma
p  metode statističkog
učenja
p  ponovno uzorkovanje
(resampling)
p  frekvencionistička i
bajesovska statistika
Statistički pojmovnik
Sadržaj pojmovnika
p  Podaci
p  Variranje, varijabilitet, neizvesnost,
nesigurnost
p  Varijabla (promenljiva) - obeležje
p  Populacija - uzorak
p  Parametar – statistika (statistik)
p  Statistički model
p  Biostatistički dizajn studija

SAS i DS 2010/2011
Podaci
p  Bilokoja činjenica ili zapažanje.
p  Predmet statistike.
p  Kako se generiše?
p  Model podataka.
p  Izvori podataka.
Variranje-Varijacija-Varijabilitet-
Neizvesnot

intra inter intra inter intra inter

instrumentalna ocenjivačka individualna

analitička biološka

ukupni varijabilitet
Obeležje posmatranja –
Varijabla (promenljiva)
p  Obeležje je bilo koja kvantitativna ili kvalitativna
karakteristika, svojstvo ili osobina jedinica
posmatranja.
p  Obeležja se dele na konstantna i varijabilna
(promenljiva, slučajno promenljiva).
p  Klasifikacije varijabli (promenljivih):
n  kvantitativne i kvalitativne
n  neprekidne i prekidne
n  zavisne i nezavisne.
Populacija vs uzorak
jedinice posmatranja
Parametar vs statistik(a)
jedinice posmatranja
Karakteristi Simbol za Simbol za
x ka parametar statistiku
Aritmetička
µ
sredina

Standardna SD (ili s ili


σ
devijacija sd)

SD2 (ili s2 ili


Varijansa σ2
sd2)
Korelacija ρ r
Proporcija π p
Statistički model
p  Formalni, simbolički, opis odnosa između
rezultujuće (izlaz) i jedne ili više
eksplanatornih (diskriminatornih,
klasifikatornih, prediktivnih) varijabli
(ulaz).
p  Vrste:
deterministički i verovatnosni, statistički,
parametarski i neparametarski, linearni i
nelinearni, ...
Biostatistički dizajn studija
p  Zajedničko svim vrstama studija:
n  identifikacija podataka koji se prikupljaju (podrazumeva
izbor varijabli koje se mere, njihovu ulogu u studiji, način
merenja, broj jedinica posmatranja tj. veličinu uzorka, i
način njihovog izbora i praćenje);
n  odgovarajući statistički model za opisivanje i analizu
podataka; i
n  listu pitanja na koje studija treba da da odgovor (Koje
zaključke istraživači očekuju iz istraživanja? Koji zaključci se
mogu izvući naosnovu studije? Na koju populaciju (e) je(su)
zaključak(čci) primenljiv?...)
p  Posebne metode za posebne vrste studija, RKO npr.
p  “Jedini aspekt koji je van statistike per se je
formulacija istraživačkog problema”.
Statistika za istraživače
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Istraživački podaci;
uzorkovanje;
merenje
Istraživački podaci

p  Istraživanje
p  Uzorkovanje
p  Merenje
Istraživanje
p  Kontinuirani saznajni proces zasnovan na
određenoj metodi i proceduri.
p  Sastoji se iz: izbora istraživačkog problema; formulacije
preciznih ciljeva istraživanja i hipoteza; istraživačkog plana
(dizajna); prikupljanja podataka; eksploracije podataka;
analize podataka; interpretacije i zaključivanja, te
saopštavanja rezultata istraživanja.
p  Podele: primarna i integrativna; eksperimentalna i
opservaciona; sa i bez hipoteza; retrospektivna i
prospektivna; longitudinalna i presečna; kvantitativna i
kvalitativna; ...
Tipovi istraživanja
p  Preventivne, dijagnostičke, terapijske /
interventne, laboratorijske, genetske, …
p  Ili:
n  Eksperimentalne studije: A. Kontrolisani ogledi (1.
Randomizovani i nerandomizovani ogledi; 2. Cross-
over studije; 3. Spoljašnja kontrola) i B.
Nekontrolisani ogledi
n  Opservacione studije: A. Deskriptivne studije i B.
Analitičke studije (1. Anamnestičke studije; 2.
Studije preseka; 3. Kohortne studije; 4. Istorijske
kohortne studije)
Uzorkovanje
p  Proces
formiranja (reprezentativnog)
uzorka.
Merenje
p  Postupak po kome se proizvode podaci kroz
opservaciju ili eksperimentaciju.
p  Proces dodeljivanja brojeva ili drugih simbola
specifičnim karakteristikama jedinica
posmatranja (objekata, osoba ili događaja).
p  Greške merenja: sistematske i slučajne.
Statistika i merenje
p  Karakteristike
merenja: nivo merenja,
proces merenja, uslovljenost merenja,
nedostajući podaci
n  Karakteristike procesa merenja:
(a) operacionalna definicija varijable;
(b) ocena pouzdanosti i valjanosti
merenja;
(c) izabrana skala merenja i
(d) ocena tačnosti i preciznosti
instrumenata merenja.
Operacionalna definicija
varijable
p  Iskazo tome kako istraživač u pojedinoj
studiji bira da je meri.
n  ...“ hipotenzivni, normotenzivni i hipertenzivni ispitanici
podeljeni su prema kriterijumima visine sistolnog i
dijastolnog pritiska prema podeli SZO "...
n  ...” ispitanici su označeni kao depresivni ako je njihov
skor na skali depresivnosti manji od 50 ” ...
A kako istraživač može da je meri?
p  Objektivnei subjektivne mere
p  Adekvatnost izabrane mere
n  Pouzdanost / ponovljivost / reliability
n  Validnost / valjanost / validity
n  Senzitivnost i specifičnost (dg testova)
Standardizovane mere i testovi
Pouzdanost merenja
p  Pouzdanost označava p  sd ili sd2
do koje se mere
p  Koeficijent varijacije
metoda merenja
konzistentno i p  Cronbach-ov alpha
postojano ponaša a koeficijent
uključuje: p  Kuder-Ričardsonova
n  unutar ili formula – KR20
međuposmatračku
pouzdanost, p  slaganje (kappa
n  pouzdanost unutrašnje koeficijent, Pirsonov
konzistencije, koeficijent linearne
n  pouzdanost korelacije, intraklasni
alternativnih formi i
koeficijent korelacije)
n  test-retest pouzdanost.
Valjanost merenja
p  Valjanost označava p  Poređenje sa
odnos između onoga referentnim
što se pretpostavlja da tehnikama, zlatni
bi test trebalo da meri standard
i onog što on stvarno (senzitivnost,
meri a uključuje: specifičnost, pozitivna
n  konstrukcionu, i negativna
n  sadržinsku i prediktivna vrednost)
n  kriterijumsku validnost. p  slaganje (kappa
koeficijent i Pirsonov
koeficijent linearne
korelacije)
Razlike između pouzdanosti i
valjanosti
Frekvencija
A C

B D
Merenje
Prava vrednost
Razlike između pouzdanosti i
valjanosti
Frekvencija
A C A- Validno i pouzdano
B- Validno ali nepouzda.
C- Nije valid. ali je pouzd
Nepouzd. D- Nije valid. i nije pouzd
Nevalid.

B D
Merenje
Istina
Skale merenja
Stevens-ova klasifikacija:

p  Nominalna skala


p  Ordinalna skala
p  Intervalna skala
p  Omerna skala (skala odnosa)
Nominalna skala merenja
p  dodeljivanje imena, opisa ili određivanje
kategorija mogućih pojavnih oblika obeležja
p  relacija ekvivalencije
p  kodiranje
p  dihotomna skala je najčešća
p  parametri i statistike
p  ....”pol, uzrok smrti, dijagnoza, krvna grupa, ...
Ordinalna skala merenja
p  uključuje i redosled, hijerarhiju, vrednosti
obeležja
p  relacije ekvivalencije i poretka
p  rangiranje
p  parametri i statistike
p  ....”težina kliničke slike, starosne grupe, ...
Intervalna skala merenja
p  razlike između sukcesivnih vrednosti
varijable su uvek jednake ali bez
apsolutne nulte tačke
p  identifikacija intervala između bilo koje
dve vrednosti ( a-b = b-c, a=/ 3c)
p  parametri i statistike
p  ....”IQ, temperatura u C, ...
Omerna skala merenja
p  pored svega prethodnog ima i apsolutnu
nulu
p  parametri i statistike
p  ....”visina, masa, pritisak, ...
Instrumenti merenja
p  Tehnologija koja se koristi za merenje.
p  Enkoduje procedure koje se koriste za
određivanje prisustva, odsustva ili količine
varijable u jedinici posmatranja.
p  Najčešće korišćene tehnologije su: upitnik,
intervju, opservacija, objektivne i
subjektivne mere, te standardizovane
mere i testovi
Koliko je dobar instrument ili
alat merenja?

p  instrument,
alat •  prava vrednost - istina
•  merenje
merenje – tačno (valjano)
n  bez
pristrasnosti – precizno (pouzdano)
ili greške
n  minimizacija
bajasa
.... . .
. . . . .
....
. . .. .

Ilustracija razlike između


Preciznosti i Tačnosti
.... . .
. . . . ....
. . .. .
dobra preciznost loša preciznost dobra preciznost loša preciznost

loša tačnost dobra tačnost dobra tačnost loša tačnost

Ilustracija razlike između


Preciznosti i Tačnosti
1. Osnovni skup
Jedinica posmatranja
2. Uzorak

Zavisno od Karakteristike, Tipovi varijabli:


ciljeva 1.  Kvalitativne
istraživanja:
Varijable
2.  Kvantitativne
•  Zavisne
•  Nezavisne
Skala, nivo:
Merenje 1.  Nominalna
1.  Fizičko 2.  Ordinalna
Adekvatnost: 2.  Prebrojavanje 3.  Intervalna
1.  Valjanost, tačnost 3.  Ocenjivanje 4.  Omerna
4.  Rangiranje
2.  Pouzdanost, preciznost
Tipovi podataka:
Podaci 1.  Kvalitativni
2.  Kvantitativni
Transformacije, rekodiranje
Statistika za istraživače
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Eksploracija podataka
p  Eksploracija podataka uključuje prve dve faze
u analizi istraživačkih podataka, tj. pripremu
podataka za analizu i njihovo opisivanje, a važna
je za razumevanje kvaliteta podataka u bazi i kao
početak detekcije onih oblasti u kojima ima
najviše informacija.
p  Priprema podataka za analizu uključuje razvoj i
dokumentovanje strukture baze podataka,
unošenje podataka u računar, proveru podataka i
njihovu eventualnu modifikaciju (promenu,
zamenu, transformaciju).
p  Deskriptivna statistika opisuje osnovne
karakteristike podataka.
Preliminarni pregled ili skrining
podataka
n  a) detekcije nedostajućih vrednosti
n  b) analize frekvencija (učestalosti)
n  c) otkrivanja neobičnih vrednosti - "autlajera" (engl.
outlier) i
n  d) ispitivanja logičkih veza.
p  Deo pregleda podataka je i primena različitih
operacija modifikacije podataka, kao pripreme za
dalji skrining podataka i analizu. Modifikacija
obuhvata:
n  a) redefiniciju podataka
n  b) transformaciju podataka i
n  c) procenu nezavisnosti merenja.
Statističko opisivanje podataka
p  Mere kondenzovanja podataka
n  Raspodele empirijskih učestalosti
n  Tabeliranje
n  Grafičko prikazivanje
n  Relativni brojevi (odnosi, proporcije, stope)
p  Mere centralne tendencije (računske i položajne)
n  Aritmetička sredina, medijana, mod, geometrijska sredina,
harmonijska sredina, percentili
p  Mere varijabiliteta (apsolutne i relativne)
n  Standardna devijacija, varijansa, interkvartilni opseg, binomna
varijansa, koeficijent varijacije, standardizovana vrednost,
kovarijansa
p  Mere oblika raspodele
n  Modalnost, asimetričnost, spljoštenost
p  Mere korelacije
n  …
Izbor statističkih mera u funkciji skala merenja u istraživačkom uzorku.

Skale merenja
Statističke mere**
Omerna i Intervalna Ordinalna Nominalna
Aritmetička sredina Medijana
Mere centralne
Geometrijska i Kvartili, Mod
tendencije
harmonijska sredina decili, percentili
Opseg
Interkvartilni opseg
Varijansa
Kvartilna devijacija
Mere varijabiliteta Standardna devijacija Binomna* varijansa
Koeficijent kvartilne
Koeficijent varijacije
varijacije
Z skor
Binomni* koeficijenti
Mere asimetrije i Pirsonov koeficijent
asimetrije i
spljoštenosti asimetričnosti α 3 i α4
spljoštenosti
Mere korelacije Koeficijent linearne Spirmanov koeficijent Koeficijent
za dve varijable korelacije korelacije rangova kontingencije
Koeficijent višestruke Kendalov koeficijent
Mere korelacije
linearne korelacije konkordanse Koeficijent
za više od dve
Parcijalni koeficijenti Kendalov kontingencije
varijable
korelacije tau koeficijent
Proporcije
Indeksi i statistički
Relativni brojevi Odnosi
koeficijenti
Stope
*samo za binarne varijable
**podrazumeva se da se sve statističke mere izračunate u manje informativnim skalama mogu izračunati i kod onih
informativnijih
Mere centralne tendencije
Statitička mera Negrupisani podaci –grupisani podaci
n k

Aritmetička ∑x i ∑ fx
s =1
s
sredina x= i =1
ili x =
n ∑f
n
Harmonijska H= n
1
sredina ∑
i =1 x i
Geometrijska
sredina G= n x1 ⋅ x 2 ⋅ x 3 ⋅ x 4 ⋅ ⋅ ⋅ ⋅ ⋅ x n
Vrednost koja odgovara srednjem članu niza uređenog po veličini, mesto
medijane određujemo kao
Medijana
n +1 ∑ f +1
MMed= ili MMed=
2 2
Kvartili QI (i =1,2,3) = i ×n / 4
Decili DI (i =1,2,3,..,9) = i ×n / 10
Percentili PI (i =1,2,3,..,99) = i ×n / 100
Mod Opservacija sa najvećom učestalošću
xs je sredina klasnog ili grupnog intervala
Mere varijabiliteta
Statistička mera Negrupisani podaci-grupisani podaci
Opseg I = max – min
n k
2 2

Varijansa 2
∑ (x
i =1
i −x ) ∑ (
s =1
f xs − x )
SD = ili SD2=
n −1 ∑f
n k
2 2

Standardna devijacija
∑ (x
i =1
i −x ) ∑ (
s =1
f xs − x )
SD= ili SD =
n −1 ∑f
SD
Koeficijent varijacije CV= × 100
x
x−x
Z skor z=
SD
Interkvartilni opseg IO=Q3 –Q1
Q 3 − Q1
Kvartilna devijacija KD=
2
Q − Q1
Koeficijent kvartilne varijacije Vq = 3 × 100
Q3 + Q1
Binomna varijansa SD2 = npq
xs je sredina klasnog ili grupnog intervala
Mere oblika raspodele
p  PKA = 3 (aritmetička sredina - medijana) /
standardna devijacija
p  Mera asimetričnosti i mera spljoštenosti
Mere korelacije

Formula
Statistička mera

Pirsonov koeficijent linearne SD xy n ∑ x i y i − (∑ x i )(∑ y i )


r = r2 = =
korelacije SD x SD y 2 2
n ∑ x i2 − (∑ x i ) n ∑ y i2 − (∑ y i )
2
Spirmanov koeficijent korelacije 6∑ d i
rangova ρ =1−
n (n 2 − 1)
χ2
Koeficijent kontigencije C=
n+ χ2
2
Koeficijent višestruke linearne
R y .12...k = R 2 y .12...k =
∑ (yˆ − y )
korelacije 2
∑ (y − y )
i

Parcijalni koeficijenti korelacije


(primer za dve nezavisne varijable -
parcijalni koeficijent korelacije ry1.2 = (ry1 − ry 2 r12 ) / (1 − r )(1 − r )
2
y2
2
12
izmedju Y i X1 pri konstantnom X2)
SD
W=
Kendalov koeficijent konkordanse 1 2 3
k (n − n )
12
Kendalov tau koeficijent
χ2
τ xy . z =
n
Statistika za istraživače
SAS i DS 2010/2011 Katedra za medicinsku statistiku i informatiku
Statističko zaključivanje
p  Statističkozaključivanje je proces
kojim, koristeći rezultate iz uzorka
(podatke koje smo dobili istraživanjem),
govorimo nešto o populaciji (ukupnost
hipotetičkih podataka koje bi mogli dobiti
ponavljanjem istraživanja beskonačan broj
puta).
n  Ocenjivanje nepoznatih parametara osnovnog
skupa (procenu izgleda populacije samo na
osnovu uzorka )
n  Testiranje hipoteza (procena verovatnoće da je
opservirana razlika između grupa zavisna ili
Generalizacija
Ciljna populacija

Uzoračka populacija

Analiza
Uzorak Zaključak
Ocenjivanje populacionih
parametara
p  Ocenjivanje je proces korišćenja
informacija iz slučajnog uzorka u cilju
donošenja zaključka o vrednosti
populacionog parametra.
p  Ocene mogu biti tačkaste i intervalne.
p  Intervalne ocene, koje sadrže tačkastu
ocenu i varijabilitet te ocene u drugim
uzorcima, zovu se intervali poverenja a
njihovi krajevi su granice poverenja.

x − z(ili)t × SE ≤ µ ≤ x + z(ili)t × SE
Najčešće korišćeni intervali poverenja
Izabrana Popula-
Uzoračka
deskriptivna cioni Donja granica poverenja Gornja granica poverenja
statistika
statistička parametar S - k1-α/2 SE S + k1-α/2 SE
(S)
mera (P)
Aritmetička
sredina;
(n≥30) ili σ σ
x µ x - z × x + z ×
populaciona 1−
α
n 1−
α
n
2 2
varijansa
poznata
Aritmetička
sredina;
(n<30) ili SD SD
x µ x - t × x + t ×
populaciona n −1;1−
α
n n −1;1−
α
n
2 2
varijansa
nepoznata
Razlika dve
aritmetičke ( x 1 - x 2 ) – ( x 1 - x 2 )+
sredine sa & σ 2 # & σ 2 #
poznatim x - x µ1 - µ2 σ 22 σ 22
1 2
z α ×$ 1
+ ! z α ×$ 1
+ !
populacionim 1−
2
$ n n2 ! 1−
2
$ n n2 !
varijansama % 1 " % 1 "
Razlika dve
aritmetičke ( x 1 - x 2 ) - ( x 1 - x 2 )
sredine sa
nepoznatim, x 1 - x 2
µ1 - µ2 & 1 1 # & 1 1 #
ali približno t α × SD 2 $
$n + n !
! +t α × SD 2 $
$n + n !
!
n1 + n 2 − 2 ;1 − n1 + n 2 − 2 ;1 −
sličnim, 2 % 1 2 " 2 % 1 2 "
varijansama
Prosečna
razlika, σd σd
varijansa d δ d - z α × d + z α ×
razlika je
1−
2 n 1−
2 n
poznata
Prosečna
razlika, SDd SDd
varijansa d δ d - t α × d + t α ×
razlika je
n −1;1−
2 n n −1;1−
2 n
nepoznata

Standardna ( n − 1) s 2 ( n − 1) s 2
devijacija SD σ 2
χ1−α / 2 χα / 2 2
Odnos
varijansi dve
& # & #
& SD12 # $ 1 ! & SD12 # $ 1 !
normalno SD12/SD22 2
σ1 /σ2 2
$ !×$ ! $ !×$ !
raspodeljene
$ SD 2 ! $ F ! $ SD 2 ! $F
% 2 " $ α ; DF1 ; DF2 ! % 2 " $ 1− α ; DF1 ; DF2 !
!
populacije % 2 " % 2 "
Broj uspeha
(povoljnih x − nπ − 1 / 2 x − nπ + 1 / 2
ishoda X nπ*
nπ (1 − π nπ (1 − π
događaja)
Proporcija p − π − 1 /( 2 n ) p − π + 1 /( 2 n )
p = x/n π*
uspeha π (1 − π ) / n π (1 − π ) / n
p  Ponekad je u istraživanjima ocenjivanje jedini
metod statističkog zaključivanja koji je potreban i
dovoljan. To se posebno odnosi na istraživanja
čiji je cilj opisivanje novog entiteta ili fenomena,
ili opisivanje već poznatih entiteta ali u novim
sredinama, različitim okruženjima ili na novim
ispitanicima.
p  I u situacijama kada ovo nije jedini metod
statističkog zaključivanja, obavezno se koristi jer
daje važnu informaciju o veličini greške, tj.
informaciju o odstupanju dobijene ocene -
rezultata od prave populacione vrednosti samo
zbog slučajnosti (okolnosti da smo formirali taj, a
ne neki drugi mogući uzorak iste veličine iz iste
populacije).
Testiranje hipoteza
p  Testiranje hipoteza je deo statističkog
zaključivanja koji koristi uzoračke podatke
za evaluaciju istinitosti hipoteza o
populaciji.
p  Kao i kod ocenjivanja cilj procesa
testiranja hipoteza je generalizacija sa
uzorka na populaciju iz koje je uzorak
slučajno izabran.
Hipoteza
p  Hipoteza je jednostavno iskaz o jednoj ili više
populacija.
p  Istraživačka hipoteza je pretpostavka o
predikciji ishoda eksperimenta (pretpostavka koja
je pokretač istraživanja).
p  Statistička hipoteza je hipoteza formulisana na
takav način da može biti evaluirana
odgovarajućim statističkim tehnikama.
p  Statistička teorija poznaje i proste i složene,
jednodimenzionalne i višedimenzionalne hipoteze.
Proces testiranja hipoteza
1.  Podaci
2.  Pretpostavke
3.  Hipoteze
4.  Izbor test statistike
5.  Raspodela test statistike
6.  Pravilo odlučivanja
7.  Izračunavanje test statistike
8.  Statistička odluka
9.  Istraživački zaključak
4. Izbor odgovarajućeg
statističkog testa
p  Izbor statističkog testa zavisi od:
p  a) kriterijuma na osnovu kojih ćemo birati
statistički test (vrstu i tip) te koju test
statistiku će taj test imati i
p  b) optimalnog izbora u slučajevima kada
su za isti istraživački dizajn (i posledično,
istraživačko pitanje) mogući alternativni
statistički testovi (dva, tri, ili više).
4. Izbor odgovarajućeg
statističkog testa a)
p  Prvi od kriterijuma je svakako samo istraživačko pitanje,
odnosno već izabrani studijski plan.
n  a) testiranje razlike/a, testiranje sličnosti oblika raspodela i testiranje
povezanosti koje u potpunosti određuju vrstu statističkog testa i
n  b) broj raspoloživih ili potrebnih uzoraka (1, 2, i više)
n  c) odnos među uzorcima (zavisni i nezavisni uzorci) i
n  d) deskriptivna statistička mera (ili mere), ako ih uopšte ima ili ako su
uopšte potrebne, koje su nosilac bilo razlika, bilo sličnosti, bilo
povezanosti koje testiramo, koje delimično određuju tip statističkog
testa i njegovu test statistiku.
p  Drugi kriterijum odnosi se na definisanje statističkog
modela (određivanja prirode populacije iz koje ćemo uzorak
izabrati i načina njegovog izbora), kao i načina merenja
(neka od četiri skale merenja) varijable (varijabli) od
interesa.
p  Ova dva kriterijuma tada u potpunosti određuje i tip
statističkog testa i njegovu test statistiku.
4. Izbor odgovarajućeg
statističkog testa b)
Prvi kriterijum za biranje jednog (između više)
statističkih testova je njegova moć (snaga). Podsetimo se da
je moć statističkog testa definisana kao verovatnoća
odbacivanja H0 kada je ona stvarno netačna (i zato i treba da
bude odbačena), tj.,:
p  Moć = 1 - verovatnoća greške II tipa = 1 - β
p  Drugi kriterijum za biranje jednog između više
statističkih testova je njegova efikasnost. Meri se količina
porasta broja jedinica posmatranja u uzorku koja je
potrebna da bi jedan test (B) bio isto toliko moćan koliko i
drugi (A):
p  E (B/A) = (nA / nB ) x 100
Izbor statističkog testa

Karakteristike
procesa merenja
Rangovi, skorovi
ili kvantitativno
Kvantitativno
(iz kontinuirano ali ne Kategorijalni – Binomni
Cilj istraživanja (iz Gausovski
Gausovski (dva moguća ishoda)
raspodeljene populacije)
raspodeljene
populacije)
Medijana, Proporcija,
Aritmetička sredina, SD
interkvartilni opseg binomna varijansa
Opisivanje jedne grupe
Tačkaste i intervalne
ocene
Poređenje jedne grupe
Jednouzorački z Kolmogorov-Smirnov Hi-kvadrat ili
sa hipotetičkom
ili t-test test Binomni test
vrednošću
Poređenje dva z ili t-test za dva Man-Vitnijev test ili Fišerov test ili
nezavisna uzorka nezavisna uzorka Test sume rangova hi-kvadrat test
z ili t-test za dva
Poređenje dva Vilkoksonov test
zavisna (mečovana) MekNemarov test
zavisna uzorka ekvivalentnih parova
uzorka
Poređenje tri ili više
Jednofaktorska ANOVA Kraskal-Volisov test Hi-kvadrat test
nezavisnih grupa#
Poređenje tri ili više ANOVA u blokovima ili
Fridmanov test Kohranov Q test
mečovanih grupa# za nezavisna merenja
Kvantifikacija
Pirsonova linearna Spirmanova Koeficijent
povezanosti
# korelacija korelacija rangova kontingencije
između dve varijable
Predviđanje vrednosti
jedne varijable na Jednostavna
Linearna ili Neparametarska
osnovu (univarijantna)
nelinearna regresija regresija
izmerenih vrednosti logistička regresija
#
druge varijable
Predviđanje vrednosti
jedne na osnovu Višestruka linearna ili Višestruka (multipla)
izmerenih vrednosti nelinearna regresija logistička regresija
dve ili više varijabli#
#
Neki od ciljeva istraživanja, pa prema tome i njima odgovarajuće statističke metode, biće izložene u
sledećim poglavljima ovog udžbenika.
Najčešće korišćeni statistički testovi u istraživanjima sa jednim uzorkom u funkciji
izabranih skala merenja.
Skala merenja Statistički testovi
omerna ili intervalna z-test; t-test; Test varijanse
Kolmogorov-Smirnovljev test;
ordinalna
Jednouzorački test nizova
nominalna Binomni test; Hi-kvadrat test slaganja
Najčešće korišćeni statistički testovi i njihove test statistike u funkciji istraživačkog cilja (u
istraživanjima sa jednim uzorkom)
Kada je H0 tačna test
statistika se raspodeljuje
Istraživački cilj Statistički test Test statistika
kao ? raspodela (sa ? broja
stepena slobode)
Standardna normalna
H 0: µ = µ 0 z-test z = x - µ0 / (σ/√n)
raspodela
Standardna normalna
H0: π = π0 z-test z = p - π0 / (σ/√n)
raspodela
t-raspodela sa DF=n-1
H 0: µ = µ 0 t-test t = x - µ0 / (SD/√n)
Tablica XII
H0: π = π0 t-test t = p - π0 / (SD/√n) t-raspodela sa DF=n-1
H 0: σ 2 = σ 20 Test varijanse χ2 = (n-1)SD2 / σ20 χ2 raspodela sa DF=n-1
Slaganje empirijske sa
χ2 = ∑ (f-F)2 / F ili χ2 = ∑ (f-f,)2 /
hipotetičkom raspodelom χ2 - test slaganja χ2 raspodela sa DF=k - r
f, ili često kao χ2 = ∑(O-E)2 / E

Slaganje empirijske sa Kolmogorov- D = maximum


Tablica XI
hipotetičkom raspodelom Smirnovljev test Fs ( X ) − Ft ( X )
& r #
H 1: ρ ≠ 0 t-test t= $ n − 2 !) t raspodela sa DF=n-2
$ 1− r 2 !
% "
H0: α = α0 t-test t = | a - α0 | / SEa t raspodela sa DF=n-2
H0: β = β0 t-test t = | b - β0 | / SEb t raspodela sa DF=n-2
1 Standardna normalna
H 0: ρ = c z-test z = z - zc /
n−3 raspodela

određivanje broja nizova u, u


n ispitanika Tačne verovatnoće
Jednouzorački test
Slučajnost opservacija a za n1 ili n2 veće od 20 Standardna normalna
nizova
u − µ u − 0 .5 raspodela
z=
σu
x
( n % i n −i
∑& #p q ;
i =0 ' i $ Tačne verovatnoće iz
za n≥25 i p između 0.3 i 0.7; za p binomne raspodele
H0: π = π0 Binomni test
manje od 0.3 i veće od 0.7 i Standardna normalna
npq≥9 raspodela
z= (x±0.5) -np / √npq
Najčešće korišćeni statistički testovi u istraživanjima sa dva uzorka u funkciji izabranih
skala merenja.

Skale merenja dva zavisna uzorka dva nezavisna uzorka


z-test; t-test; F-test za odnos dve
z-test; t-test; Randomizacioni
omerna ili intervalna varijanse; Randomizacioni test za
test za vezane uzorke
dva nezavisna uzorka
Test predznaka; Vilkoksonov Test medijane; Test sume
ordinalna
test ekvivalentnih parova rangova; Man-Vitnijev test
Fišerov test tačne verovatnoće;
nominalna MekNemarov test Hi-kvadrat test nezavisnosti i
homogenosti
Najčešće korišćeni statistički testovi i njihove statistike u funkciji istraživačkog cilja (u
istraživanjima sa dva zavisna uzorka).
Kada je H0 tačna test statistika se
Istraživački cilj Statistički test Test statistika raspodeljuje kao ? raspodela (sa
? broja stepena slobode)
H1: µd ≠ 0* z-test (
z = d − µd 0 / σ d / n ) Standardna normalna raspodela

H1: µd ≠ 0* t-test t = d − µd 0 / SEd t-raspodela sa DF=n-1


Test ekvivalentnih T, = m(n+1) – T Posebne tablice
H1: µd ≠ 0*
parova za n>25: z = T - µT / σT Standardna normalna raspodela
2 2 2
H1: a ≠ d** MekNemarov test χ = ( | a - d |- 1) / a+d χ sa DF=1
d (za n manje od 13) Tačna verovatnoća p
H1: µd ≠ 0* Randomizacioni test
z =( ∑d - µ ) / σ Standardna normalna raspodela
H 1: Tačne verovatnoće binomne
za n <12 i p=0.5, ili za n ≤25:
P(XA>XB)≠P(XB>XA) raspodele
Test predznaka P(k ≤ x | n,p) = nCk pkqn-k
ili
, inače z =( k ± 0.5) - 0.5n / 0.5√n
P(+) ≠ P(- ) ≠ 0.5** Standardna normalna raspodela
*ovo je za dvosmerno testiranje; inače može biti samo >0 ili <0; ** isto, samo P(+) < P(- ) ili P(+) > P(- )
Najčešće korišćeni statistički testovi i njihove statistike u funkciji istraživačkog cilja (u
istraživanjima sa dva nezavisna uzorka)

Kada je H0 tačna, test


statistika se
Istraživački cilj Statistički test Test statistika raspodeljuje kao ?
raspodela (sa ? broja
stepena slobode)
z = ( x1 − x2 ) - ( µ1 - µ2 )0 /
Standardna normalna
H1: µ1 - µ2 ≠ 0* z-test & σ 12 # & σ 22 ## raspodela
$ !+$ !!
$ n ! $ n !!
% 1 " % 2 ""
Standardna normalna
H1: π1 - π2 ≠ 0* z-test z = (p1 - p2 ) - (π1 - π2 )0 / σp1-p2
raspodela
H1: µ1 - µ2 ≠ 0* t-test t = ( x1 − x2 ) - ( µ1 - µ2 )0 / SEx1-x2 t-raspodela sa DF=n1+n2-2
t-raspodela sa DF= n1+n2-
H1: π1 - π2 ≠ 0* t-test t = (p1 - p2 ) - (π1 - π2 )0 / SEp1-p2
2
Test varijansnog F raspodela sa DF1=n1-1 i
H1: σ21 / σ22 ≠ 1* F = SD21 / SD22
količnika DF2=n2-1
Standardna normalna
H1: ρ1 - ρ2 ≠ 0* t-test Z = z1 - z2 / SE z1 - z2
raspodela
t raspodela sa DF= n1+n2-
H1: α1 - α2 ≠ 0* t-test a1 - a2 / SE a1 - a2
3
H1: β1 - β2 ≠ 0* t-test b1 - b2 / SE b1 - b2 t raspodela sa DF=n1+n2-4
H1: dva kriterijuma χ = ∑∑(O-E)2 / E; Jejtsova korekcija i
2
Hi-kvadrat test χ2-raspodela sa DF=(k-
klasifikacije nisu nezavisnosti Mood-ov izraz 1)(r-1)
nezavisna
H1: Uzorci ne potiču iz Hi-kvadrat test χ2 = ∑∑(O-E)2 / E; Jejtsova korekcija i χ2-raspodela sa DF=(k-
iste populacije homogenosti Mood-ov izraz 1)(r-1)
H1: Učestalost ispitanika p1 = (a+b)!(c+d)!(a+c)!(b+d)! /
sa karakteristikom od Fišerov test tačne Tačna verovatnoća zbira
a!b!c!d!n!
interesa nije ista u obe verovatnoće p-ova
i svi p za još ekstremnije slučajeve
populacije
χ2 = n ( | ad - bc | - n/2)2 /
(a+b)(c+d)(a+c)(b+d) χ2 -raspodela sa DF=(k-
H1: Med1 ≠ Med2 ** Test medijane
gde je tablica kontingencije formirana 1)(r-1)
po značenju medijane
Test sume U = n1n2 + n1(n1+1)/2 - R1 Posebne tablice
rangova
H1: Med1 ≠ Med2 ** z =( U - µU ) / σU za velike uzorke, Standardna normalna
Man-Vitnijev U
preko 20 raspodela
test
Randomizacioni
p = 1 / (n1 + n2 nad n1 ) Tačna verovatnoća
H1: µ1 - µ2 ≠ 0* test nizova za dva t-statistika t-raspodela da DF=n1+n2-2
nezavisna uzorka
*dvosmerna radna hipoteza, a može biti i jednosmerna oblika µ1 - µ2 < 0 ili µ1 - µ2 > 0; ** može i > ili < kada je
jednosmerno testiranje u pitanju
Testiranje
hipoteza

0.95

α/2 α/2

Kritična Kritična
vrednost vrednost
Matrica statističkog odlučivanja
U prirodi
Nulta hipoteza Nulta hipoteza
Naš zaključak tačna pogrešna

Prihvatamo β
nultu hipotezu 1- α greška drugog
tipa
Odbacujemo α
nultu hipotezu greška prvog 1- β
tipa

You might also like