You are on page 1of 164

Medicinska statistika i informatika

za doktorske akademske studije

Biostatistika I
Školska 2022/23. godina

Neda Delić
Osnovni statistički pojmovi
Statistika je nauka o generisanju informacija i znanja kroz prikupljanje, analizu i interpretaciju podataka
koji su podložni slučajnom variranju. Predstavlja opšti intelektualni metod koji se primenjuje kad god
postoje podaci sa osobinama variranja i slučajnošću pojavljivanja. Ukratko, moglo bi se reći da je statistika
nauka o odlučivanju u uslovima nesigurnosti.

Medicinska statistika je statistika primenjena u oblastima povezanim sa zdravljem i bolešću


(biomedicinske i javnozdravstvene nauke), kao i nauka koja razvija nove alate i metode za istraživanje
ovih oblasti. Kraće, medicinska statistika je nauka o odlučivanju u uslovima nesigurnosti u oblastima
povezanim sa zdravljem i bolešću.

Osnovni skup je skup svih istovrsnih elemenata sa zajedničkom promenljivom karakteristikom.


Elementi osnovnog skupa, odnosno njegovi sastavni delovi, nazivaju se jedinice posmatranja. U kliničkim
istraživanjima, jedinica posmatranja je najčešće pojedinačna obolela osoba (ispitanik, pacijent), u
eksperimentalnim istraživanjima može biti laboratorijska životinja ili bakterijska kolonija, kao i bolnica u
javnozdravstvenim istraživanjima. Osnovni skup (populacija) je dakle, kompletan skup jedinica
posmatranja od interesa u istraživanju, npr. svi oboleli od osteoporoze, svi učenici osnovnih škola itd. To
je stvaran i konačan skup. Isti naziv se takođe odnosi i na beskonačan skup svih mogućih rezultata
posmatrane karakteristike, npr. u teorijskom smislu beskonačan broj merenja koncentracije hemoglobina
u krvi.

Jedinice posmatranja su nosioci brojnih obeležja (karakteristika, osobina). Obeležje posmatranja je bilo
koja kvantitativna ili kvalitativna karakteristika (osobina) jedinica posmatranja. Obeležje može imati
konstantne vrednosti (konstanta) ili promenljive vrednosti (varijabla). Varijable su obeležja koja su
podložna variranju. Pod variranjem (varijabilitetom, varijacijom) podrazumeva se promenljivost
obeležja posmatranja od jedinice do jedinice posmatranja.

Zadatak:
U etiološkoj studiji istraživani su faktori koji doprinose nastanku osteoporoze kod žena. Obeležja od
interesa u istraživanju su bila: starost ispitanica, fizička aktivnost, prisustvo osteoporoze.
Objašnjenje: Obzirom da su u istraživanje uključene isključivo osobe ženskog pola, pol predstavlja
konstatno obeležje. Obeležje starost ima promenljive vrednosti, koje variraju od ispitanice do ispitanice.

Istraživači retko donose zaključke na osnovu ispitivanja


kompletnog osnovnog skupa. To se uglavnom čini na
osnovu uzorka, koji predstavlja podskup osnovnog skupa
biran na određen način. Zaključke, dobijene analizom
podataka na osnovu uzorka, istraživač zatim generalizuje na
čitav osnovni skup. Da bi takva generalizacija zaključka bila
valjana, uzorak mora biti reprezentativan za osnovni skup,
odnosno uzorak mora biti sličan osnovnom skupu u odnosu
na ispitivano obeležje. Na slici 1 prikazani su odnosi
osnovnih pojmova u medicinskoj statistici: osnovnog skupa
i uzorka, jedinica posmatranja, varijabli, merenja i podataka.

Slika 1. Prikaz odnosa osnovnih pojmova u statistici


U istraživanju uvek treba definisati osnovni skup, jer se na osnovu njega određuju (1) kriterijumi za biranje
jedinica posmatranja u uzorak i (2) na koji osnovni skup se mogu generalizovati zaključci. Na primer, cilj
istraživanja bio je ocena efektivnosti leka za hipertenziju u populaciji hipertoničara starijih od 55 godina.
Istraživanje je sprovedeno na uzorku od 7000 ispitanika, a dobijeni zaključak, da lek značajno smanjuje
krvni pritisak, može se generalizovati na osnovni skup - populaciju hipertoničara starijih od 55 godina.

Predmet statistike je podatak, pojedinačna činjenica ili zapažanje (opservacija) koji se dobija
merenjem. Merenje predstavlja proces dodeljivanja brojeva ili drugih simbola specifičnim
karakteristikama jedinica posmatranja (osoba, objekata...).

Podaci se mogu generisati u mernom procesu na različite načine:


• Direktnim merenjem primenom instrumenta, npr. merenje telesne mase ili koncentracije
holesterola u plazmi
• Opservacijom, npr. zapažanja o patološkim promenama na koži
• Intervjuom u kojem ispitanik odgovarajući na pitanja ispitivača daje tražene podatke, npr. da li je
ispitanik pušač
• Upitnikom, na kojem ispitanik sam daje odgovore na postavljena pitanja.

Prilikom merenja može doći do grešaka u merenju, koje mogu biti: sistematske ili slučajne.

Do primarnih podataka dolazi se kroz istraživanja, dok se termin sekundarni medicinski podaci odnosi
na podatke u medicinskoj/zdravstvenoj dokumentaciji i medicinskim bazama podataka.

Podaci i varijable, po tipu mogu biti kategorijalni ili numerički:

1. Kategorijalni (kvalitativni) podaci postoje kada se svaka jedinica posmatranja može svrstati u samo
jednu od više kategorija varijable. Mogu biti:

a) Nominalni podaci – kategorije su označene imenima i nemaju poredak. Primeri su:


• Pol (ženski, muški)
• Krvna grupa (A, B, AB, O)
• Ishod lečenja (izlečen, neizlečen)
• Navika pušenja (nepušač, pušač)
• Lokalizacija patoloških promena na koži (glava, trup, ekstremiteti)

b) Ordinalni podaci – kategorije su uređene ili rangirane na neki način (od manjeg ka većem ili
obrnuto). Primeri su:
• Zadovoljstvo pacijenata zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan,
zadovoljan, vrlo zadovoljan)
• Stadijum bolesti (bez bolesti, početni stadijum, uznapredovali stadijum)
• Navika pušenja (nepušač, umereni pušač, prekomerni pušač)
• Uhranjenost (pothranjenost, normalna uhranjenost, gojaznost)

Kategorijalni podaci koji imaju samo dve međusobno isključive kategorije, jesu binarni odnosno
dihotomni. Primeri su pol (ženski, muški) i ishod lečenja (izlečen, neizlečen).

2. Numerički (kvantitativni) podaci – nastaju merenjem ili prebrojavanjem. Mogu biti:

a) Diskretni (diskontinuirani, prekidni) numerički podaci – kada varijabla može imati samo određene
celobrojne vrednosti. Primeri su:
• Broj dece u porodici
• Broj porođaja
• Broj poseta lekaru
• Broj obolelih
• Frekvencija srca
• Broj trombocita

b) Kontinuirani (neprekidni) numerički podaci – varijabla može imati bilo koju vrednost iz intervala
variranja. Primeri su:
• Telesna masa
• Telesna visina
• Starost
• Telesna temperatura
• Pritisak

Kod merenja neprekidnih varijabli, preciznost merenja zavisi od preciznosti mernog instrumenta i
potreba samog istraživanja. Na primer, krvni pritisak predstavlja numeričku kontinuiranu varijablu, iako
se najčešće zapisuje u obliku celih brojeva, međutim ukoliko se koristi precizniji merni instrument mogli
bismo zabeležiti i decimalne vrednosti. Broj decimala zavisi ponovo od preciznosti mernog instrumenta.

Numerički podaci se mogu transformisati u kategorijalne podatke (nominalne ili ordinalne). Tada dolazi
do gubitka jednog dela informacija. Na primer, podaci o uhranjenosti mogu biti izraženi kao indeks
telesne mase (kg/m2), odnosno u vidu kontinuiranih numeričkih podataka. Ovi podaci se mogu
transformisati u kategorijalne podatke, sa mogućim kategorijama: pothranjenost, normalna uhranjenost
i gojaznost. Ovde dolazi do gubitka jednog dela informacija, jer više nije poznato u kojoj meri se jedinice
posmatranja unutar kategorija, npr. unutar kategorije pothranjenih, razlikuju prema indeksu telesne
mase.

Dva su osnovna razloga da se kontinuirane varijable beleže po tipu kategorijalnih podataka:


1. sa kategorijalnim podacima je lakše opisivanje osnovnog skupa (npr. koliki je procenat gojaznih
u populaciji), i
2. donošenje odluka o nekoj intervenciji je olakšano kada su podaci grupisani na neki način, npr. da
se gojazni podvrgnu preventivnom delovanju.

Instrumenti merenja mogu biti:


o Uređaj/aparat
o Opservacija
o Svi ponuđeni odgovori su tačni
o Intervju i upitnik
Ako su podaci o arterijskom pritisku zabeleženi u mmHg radi se o:
o Kontinuiranim numeričkim podacima
o Ordinalnim podacima
o Diskretnim numeričkim podacima
o Nominalnim podacima
Odaberite odgovarajući tip podataka za navedene primere:
o 38 godina --> Kontinuirani numerički podatak
o 72 otkucaja/minut --> Diskretni numerički podatak
o IV stadijum tumora --> Ordinalni podatak
o Dijagnoza: srčana insuficijencija --> Nominalni podatak
Eksploracija podataka
Priprema podataka za analizu
U analizi istraživačkih podataka postoje tri uočljive faze: priprema podataka za analizu, opisivanje
podataka (deskriptivna statistika) i ocenjivanje i testiranje hipoteza i modela (inferencijalna statistika).

Eksploracija podataka obuhvata prve dve faze analize istraživačkih podataka: pripremu podataka za
analizu i njihovo opisivanje, a važna je za ispitivanje kvaliteta podataka u bazi , otkrivanje opštih obrazaca
ponašanja ili ekstremnih izuzetaka od tih obrazaca.

Eksploracija podataka koristi grafičke i numeričke tehnike. Po pravilu svaku varijablu analiziramo zasebno,
počevši od oblika njene raspodele i izračunavanja niza mera koje opisuju raspodele.

Priprema podataka za analizu podrazumeva:


1. Razvoj i dokumentovanje strukture baze podataka
2. Unos podataka
3. Proveru podataka - skrining podataka
4. Eventualne modifikacije podataka

Istraživačka baza podataka – matrični zapis čija veličina zavisi od broja jedinica posmatranja i broja
varijabli
Redovi = jedinice posmatranja
Kolone = varijable u istraživanju

Provera podataka (skrining)


Provera podataka je preduslov za svaku dalju analizu. Mali skup podataka moguće je pregledati u celini
dok se kod većih skupova češće bira slučajan uzorak jedinica koje se detaljno kontrolišu. Pregled
podataka se sastoji od:

1. Detekcije nedostajućih vrednosti


2. Analize frekvencija
3. Otkrivanja neobičnih vrednosti – ”autlajera”
4. Ispitivanja logičkih veza

Analiza nedostajućih vrednosti opisuje i identifikuje učestalost i obrazac po kome se nedostajuće


vrednosti pojavljuju. Mogu imati veliki uticaj na rezultate i zaključke analize. Za ishodne varijable
dopustivo je do nekoliko procenata, a za ostale varijable do 30% nedostajućih vrednosti.

Kada se analizira obrazac pojavljivanja nedostajućih vrednosti, manji problem su nedostajuće vrednosti
koje su na slučajan način raspoređene u bazi podataka. Veći problem su nedostajuće vrednosti koje nisu
na slučajan način raspoređene u bazi podataka (npr. ako ispitanici sa većom zaradom odbijaju da saopšte
podatak o svojoj zaradi to će umanjiti mogućnost generalizacije svakog zaključka u analizama koje su
uključivale ekonomski status). Nedostajuće vrednosti se mogu zameniti aritmetičkom sredinom ili
medijanom ili oceniti regresionom metodom.

Tabelarni ili grafički prikaz distribucija frekvencija omogućava otkrivanje odredjenih tipova greški,
npr. numerička vrednost može biti unešena kao slovo ili se mogu pojaviti numeričke vrednosti koje su
van mogućeg opsega (kod 3 za pol ispitanika).
Otkrivanje neobičnih vrednosti – ”autlajera” moguće je odredjivanjem minimuma, maksimuma i raspona
vrednosti svake varijable. Uzroci pojave neuobičajeno velike ili neuobičajeno male vrednosti mogu biti:
pogrešan podatak (najčešći uzrok), greške u merenju i stvarna vrednost. Odluka o zadržavanju pogrešnog
podatka ili uklanjanju ispravnog podatka može dovesti do pogrešnog zaključka. Zato se najčešće takve
opservacije zasebno analiziraju. Druga mogućnost je dvostruka analiza podataka– sa i bez neobičnih
vrednosti i otkrivanje eventualnih razlika medju analizama.

Ispitivanje logičkih veza vrši se ukrštanjem kategorija dve varijable u obliku tablica kontingencija (npr. pol
i trudnoća). Kada je greška uočena, donosi se odluka o popravljanju greške ili ako nije moguće izbacivanju
podatka ili jedinice posmatranja.

Modifikacija podataka
Redefinicija podataka je oblik modifikacije podataka koji se koristi kod zamene pogrešnih ili
nedostajućih vrednosti, kod izbacivanja i/ili sažimanja pojedinih kategorija obeležja (male učestalosti) i
kod formiranja novih varijabli (nastaju kao rezultat logičkih i algebarskih operacija postojećih varijabli
(npr. BMI)

Transformacija podataka se obično primenjuju u cilju postizanja normalnosti rapodele ili realizacije neke
druge pretpostavke.

• Linearne transformacije (z transformacija)


• Nelinearne transformacije (logaritamska transformacija)
• Transformacije rangova

Analiza empirijskih raspodela


Identifikacija empirijskih raspodela je ispitivanje sa ciljem da se dobiju potpune informacije o njihovom
obliku i da se odrede njihove karakteristike.

1. Odredjivanje oblika empirijske raspodele

Osnovne informacije o obliku empirijske raspodele mogu se dobiti iz grafičkih prikaza (histogram,
poligon frekvencija, štapićasti dijagram, stubičasti dijagram) ili iz tabele empirijske raspodele. Oblik se
obično klasifikuje kao unimodalan, bimodalan ili multimodalan.
Unimodalan oblik može biti simetričan ili asimetričan (pozitivno ili desno iskošen, negativno ili levo
iskošen).

desna iskošenost leva iskošenost

2. Deskriptivne mere:

• Mere centralne tendencije


• Mere varijabiliteta
• Mere oblika raspodele
• Mere korelacije za dve varijable
• Mere korelacije za više od dve varijable
• Relativni brojevi
Istraživačka baza podataka
Baza podataka, bez obzira da li je u papirnoj ili elektronskoj formi, konfigurisana je kao matrični zapis, u
kome se svaki red odnosi na jedinicu posmatranja, a svaka kolona predstavlja varijablu. Na taj način
dimenzije matrice definisane su brojem jedinica posmatranja (a to je najčešće broj ispitanika/pacijenata)
što odgovara broju redova u bazi podataka, i brojem varijabli koje su predmet ispitivanja što odgovara
broju kolona.

Istraživačka baza podataka praćena je šifarnikom koji sadrži informacije o nazivu i redosledu varijabli,
opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni, numerički). Osim toga u šifarniku
su, za kategorijalne varijable, date informacije o broju kategorija i kodovima tih kategorija.

Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna datoteka, zatim se
definišu varijable prema šifarniku i na kraju se u datoteku unesu podaci dobijeni u istraživanju.

Formiranje baze podataka

Postoji nekoliko načina da se formira baza podataka i učita u R programsko okruženje. Ovde će biti
prikazano formiranje baze u programima kao što su MS Office Excel, OpenOffice Calc i LibreOffice Calc i
učitavanje u R programsko okruženje.

1. U navedenim programima se nazivi varijabli unose u prvi red. Preporučuje se da ovi nazivi budu u formi
jedne reči. Ukoliko je potrebno da naziv varijable ima više reči nazive varijabli treba pisati ili spojenim
rečima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr. navika_pusenja) ili tačkom. U slučaju da
se reči ukucaju odvojeno, prilikom učitavanja EZR automatski svaki razmak zamenjuje tačkom (npr. ako
u nazivu varijable ukucamo navika pusenja EZR će učitati kao navika.pusenja).

2. U prvu kolonu unose se oznake za identifikaciju jedinica posmatranja.

3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojčane vrednosti bez naziva mernih
jedinica (npr. podatak o telesnoj masi uneti kao broj bez oznake kg).

4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao numerički kodovi.

Nominalni podaci se unose kao tekstualni nazivi kategorija (npr. za pol: muski, zenski ili mesto boravka
tokom studiranja: kod_roditelja, privatan_smestaj, studentski_dom).

Ordinalni podaci se unose kao numerički kodovi koji odražavaju poredak kategorija. Npr. za podatke o
zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan, zadovoljan i vrlo
zadovoljan) upotrebiti kodove za taj uređeni niz počev od najmanjeg do najvećeg nivoa što mora biti
zabeleženo u šifarniku zbog jednostavnije interpretacije podataka i rezultata statističke analize.

Kodiranje ordinalnih podataka: Vrlo nezadovoljan-1; Nezadovoljan-2; Neutralan-3; Zadovoljan-4; Vrlo


zadovoljan-5.

5. Nakon formiranja baze i unošenja podataka, datoteku sačuvati na računaru klikom na File→Save As…

MS Office Excel 2007-2016 svoje datoteke čuva sa ekstenzijom .xlsx.


MS Office Excel 2003 svoje datoteke čuvaju sa ekstenzijom .xls.
NAPOMENA:
R programsko okruženje nema podršku za naša slova (č, ć, š, ž, đ) pa ih ne treba koristiti za nazive varijabli i
unos podataka.
Obratiti pažnju da R pravi razliku između malih i velikih slova, što treba uzeti u obzir prilikom upotrebe naziva
datoteka i varijabli u komandama.

Učitavanje baze podataka


EZR ima mogućnost učitavanja baza podataka iz više formata, kreiranih u različitim programima. Ovde
će biti prikazano učitavanje baze podataka formirane u MS Excel programu.

1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set. Otvoriće se prozor u kome
treba ukucati naziv za aktivnu bazu podataka i kliknuti na dugme OK.

Program nudi naziv Dataset, koji se može promeniti. To je privremeni naziv baze koji formira EZR i na
kome se izvršavaju komande.

2. Locirati na računaru Excel bazu podataka, označiti je i kliknuti na dugme Open.

3. Ukoliko Excel baza sadrži više listova (Sheet), označiti iz kojeg se preuzima baza (najčešće Sheet1) pa
kliknuti na dugme OK.

4. Ako je baza učitana dobiće se poruka (u prozoru za poruke) sa informacijom koliko baza ima redova i
kolona.

5. EZR može da radi sa jednom učitanom bazom podataka. Prilikom pokušaja učitavanja druge baze dok
je prethodna otvorena, biće postavljeno pitanje da li da se druga baza učita preko prethodne. Preporučuje
se da se na početku rada uvek proveri koja je baza aktivna i pogleda struktura baze. To se može uraditi
klikom na dugme View na traci sa alatima, nakon čega će se u novom prozoru otvoriti aktivna baza
podataka.
Grupisanje i prikazivanje podataka
Sređivanje podataka obuhvata njihovo grupisanje i tabelarno i grafičko prikazivanje.

Grupisanje je proces razvrstavanja (organizovanja, klasifikovanja) podataka.

• Za nominalne i ordinalne podatake grupisanje se obavlja po kategorijama.


• Za numeričke diskontinuirane podatke grupisanje se obavlja po grupama koje odgovaraju
diskretnim vrednostima, a ako je raspon veliki, grupisanje se obavlja po klasnim intervalima.
• Za numeričke kontinuirane podatke grupisanje se obavlja po klasnim intervalima.

Broj podataka u svakoj kategoriji/klasnom intervalu predstavlja apsolutnu učestalost (frekvenciju).


Deljenjem apsolutnih učestalosti ukupnim brojem podataka nastaju relativne učestalosti
(frekvencije), koje mogu biti iskazane u vidu proporcija ili procentualno.

Statističke tabele se koriste za pregledno prikazivanje podataka. Sastoje se od horizontalnih i vertikalnih


površina koje čine redove i kolone.

Grafičko prikazivanje je metod prikazivanja podataka u vizuelnoj formi.

Postoje brojni programi za grafičko prikazivanje podataka. U skladu sa materijalima na kursu, ovde će
biti prikazani određeni tipovi grafikona i način njihove izrade u EZR-u. R programsko okruženje ima
moćne pakete za grafičko prikazivanje podataka (npr. ggplot2, lattice), međutim, rad sa dodatnim
paketima prevazilazi obim nastave, pa se zainteresovanim studentima preporučuje da istražuju grafičke
mogućnosti R-a samostalno ili u konsultaciji sa nastavnim osobljem.

TABELARNO I GRAFIČKO PRIKAZIVANJE NOMINALNIH PODATAKA


Grupisanje kategorijalnih (nominalnih i ordinalnih) podataka obavlja se prema kategorijama. Učestalost
navike pušenja - nominalni podaci prikazana je u Tabeli 1. U prvoj koloni date su kategorije ispitivane
varijable (pušač, nepušač), u drugoj koloni apsolutne učestalosti, a u trećoj koloni relativne učestalosti
iskazane u procentima. Na primer, apsolutnoj učestalosti od 23 pušača, odgovara relativna učestalost od
(23/50) x 100 = 46%.

Ista učestalost može se prikazati i grafički kružnim dijagramom ili stubičastim dijagramom.

Na kružnom dijagramu ugao kružnog isečka koji odgovara nekoj kategoriji dobija se množenjem relativne
učestalosti (iskazanih kao proporcije) sa 360°. Na primer, apsolutnoj učestalosti od 23 pušača, odgovara
ugao kružnog isečka od (23/50)x360°=166°) (Grafikon 1).
Stubičasti dijagram je sastavljen od razdvojenih vertikalnih pravougaonika (ili horizontalnih), od kojih
svaki reprezentuje jednu kategoriju, a čije visine (dužine) odgovaraju učestalostima (Grafikon 2).

Procedura u EZR: tabelarno i grafičko prikazivanje nominalnih podataka


U ovoj lekciji, u primerima, biće upotrebljeni podaci iz baze podataka pod nazivom zadovoljstvo
zdravstvenom zaštitom.xlsx.

Podaci se unose u EZR po proceduri navedenoj u prethodnoj lekciji, a koja podrazumeva sledeće korake:

1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set.


2. Locirati na računaru Excel bazu podataka zadovoljstvo zdravstvenom zaštitom.xlsx, označiti je i
kliknuti na dugme Open.
3. Pošto Excel baza sadrži više listova (Sheet), označiti Sheet1 iz kojeg se preuzima baza, pa kliknuti
na dugme OK.

Za prikaz učestalosti nominalnih podataka varijable pol:

1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions.


2) U dijalog prozoru označiti varijablu pol.
3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama). Ukoliko ne
želimo prikaz nedostajućih vrednosti odčekirati polje Show missing data.
4) Kliknuti na dugme OK.

U prozoru za skripte prikazuje se niz komandi koji je izvršen. Posle bilo koje statističke procedure u EZR-
u, u prozoru za skripte prikazaće se komande koje koristi primenjena procedura. U okviru tog prozora,
komande je moguće menjati, i tako izmenjene startovati ponovo. EZR omogućava da se skripte sačuvaju
u spoljašnju datoteku i kasnije ponovo učitaju i koriste. Rad sa skriptama prevazilazi nivo potrebnog
znanja za studente i neće biti detaljnije obrađivan.

U prozoru za rezultate prikazuju se rezultati primenjenih statističkih procedura. U našem primeru


prikazane su apsolutne i relativne učestalosti varijable pol.
Tabela sa prikazom apsolutnih i relativnih učestalosti se zatim kreira u MS Word-u ili nekom drugom
programu za obradu teksta:

Tabela 2. Učestalost po polu

Grafički prikaz varijable pol u vidu stubičastog dijagrama prikazan je u posebnom prozoru. EZR po
podrazumevanim podešavanjima prikazuje učestalosti nominalnih varijabli stubičastim dijagramom.

Grafikon 3. Učestalost po polu

Procedura u EZR: grafičko prikazivanje nominalnih podataka - kružni dijagram


Kružni dijagram se može dobiti klikom na liniju menija Graphs and tables nakon
čega se na padajućem meniju odabere željeni tip grafikona, u ovom slučaju Pie
chart(Frequencies).

U dijalog prozoru koji se otvorio, označiti varijablu koja se prikazuje u vidu kružnog
dijagrama, po želji označiti Draw in color za prikaz u boji, pa kliknuti na
dugme OK.
Kružni dijagram varijable pol prikazuje se u posebnom prozoru. Na sličan
način se mogu izraditi i drugi tipovi grafikona.

Ovaj grafikon se može izraditi i u okviru originalnog menija R Commandera


klikom na Original menu→Graphs.

Procedura u EZR: čuvanje grafikona


Grafikoni se u EZR-u prikazuju u posebnom prozoru, iz koga se mogu izvesti u neki drugi format ili
prekopirati u MS Word program.

1) Grafikone je moguće sačuvati u više formata (PDF, Png, Bmp, TIFF ili Jpeg), što se postiže preko
komandi iz prozora grafikona: File→Save as→Jpeg→100% quality… nakon čega treba imenovati
grafikon i odabrati mesto gde se čuva.

2) Grafikone je moguće i direktno prekopirati u MS Word program, što se postiže preko


komandi File→Copy to the clipboard→as a Metafile.

U MS Word programu kliknuti desnim tasterom miša na mesto gde se kopira grafikon, pa u
padajućem meniju koji se otvorio, kliknuti levim tasterom miša na dugme Paste .
TABELARNO I GRAFIČKO PRIKAZIVANJE ORDINALNIH PODATAKA
Raspodela učestalosti ordinalnih podataka, na primeru zadovoljstva zaposlenih uslovima rada u Domu
zdravlja, prikazana je u Tabeli 3. Kategorije ispitivane varijable date su po uređenom redosledu, u ovom
slučaju od kategorije “nezadovoljan”, preko “neutralan”, do “zadovoljan”.

Tabela 3. Raspodela učestalosti prema zadovoljstvu uslovima rada u Domu zdravlja

Za grafičko prikazivanje raspodela učestalosti ordinalnih podataka koriste se, kao i u slučaju nominalnih
podataka, kružni ili stubičasti dijagram (Grafikoni 4 i 5).

Grafikon. Raspodela učestalosti prema zadovoljstvu uslovima rada u Domu zdravlja

Procedura u EZR: tabelarno i grafičko prikazivanje ordinalnih podataka


Prikaz raspodele učestalosti ordinalnih podataka se izvodi na identičan način kao kod nominalnih
podataka.

Za prikaz raspodele učestalosti ordinalnih podataka varijable zadovoljstvo zdravstvenom zaštitom:

1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions.

2) U dijalog prozoru označiti varijablu zadovoljstvo_zz.

3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama). Ukoliko ne
želimo prikaz nedostajućih vrednosti odčekirati polje Show missing data.

4) Kliknuti na dugme OK.


Tabela sa prikazom apsolutnih i relativnih učestalosti se zatim kreira u MS Word-u ili nekom drugom
programu za obradu teksta, pri čemu umesto numeričkih kodova treba napisati originalne nazive
kategorija.

Tabela 4. Raspodela učestalosti prema zadovoljstvu zdravstvenom zaštitom

Grafički prikaz varijable zadovoljstvo_zz u vidu stubičastog dijagrama prikazan je u posebnom prozoru.

Grafikon 6. Raspodela učestalosti prema zadovoljstvu zdravstvenom zaštitom


TABELARNO I GRAFIČKO PRIKAZIVANJE NUMERIČKIH DISKONTINUIRANIH
PODATAKA
Za numeričke diskontinuirane podatke raspodela učestalosti prikazuje se po grupama koje odgovaraju
diskretnim vrednostima varijable. Na primer, raspodela učestalosti broja respiratornih infekcija u toku
jedne godine prikazana je u Tabeli 5, a grafički prikazana stubičastim dijagramom (Grafikon 7).

Tabela 5. Raspodela učestalosti prema broju respiratornih infekcija

Grafikon 7. Raspodela učestalosti prema broju respiratornih infekcija

Procedura u EZR: tabelarno i grafičko prikazivanje numeričkih diskontinuiranih podataka


Za prikaz raspodele učestalosti numeričkih diskontinuiranih podataka varijable hr_bronhitis:

1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions.

2) U dijalog prozoru označiti varijablu hr_bronhitis.

3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz stubičastog dijagrama).
Ukoliko ne želimo da prikažemo nedostajuće podatke odčekirati polje Show missing data.

4) Kliknuti na dugme OK.


Tabela sa prikazom apsolutnih i relativnih učestalosti se zatim kreira u MS Word-u ili nekom drugom
programu za obradu teksta..

Tabela 6. Raspodela učestalosti prema broju egzacerbacija hroničnog bronhitisa

Grafikon 8. Raspodela učestalosti prema broju egzacerbacija hroničnog bronhitisa .


TABELARNO I GRAFIČKO PRIKAZIVANJE NUMERIČKIH KONTINUIRANIH PODATAKA
Za numeričke kontinuirane podatke raspodela učestalosti prikazuje se po klasnim intervalima. Na primer,
raspodela učestalosti po klasnim intervalima starosti prikazana je u Tabeli 7, a grafički prikazana
histogramom i poligonom frekvencija (Grafikoni 9 i 10).

Tabela 7. Raspodela učestalosti prema starosti

Grafikon 9. Raspodela učestalosti prema starosti

Grafikon 10. Raspodela učestalosti prema starosti

Granice i širine klasnih intervala određuju se prema određenim pravilima:

1. Utvrditi minimalnu i maksimalnu vrednost i izračunati opseg (razlika maksimalne i minimalne


vrednosti).
2. Doneti odluku o broju klasnih intervala. Prikaz raspodele sa manjim brojem klasnih intervala je
pregledniji, a sa većim brojem klasnih intervala je informativniji o karakteristikama raspodele.
3. Doneti odluku o širini klasnih intervala. Dobija se tako što se opseg podeli brojem klasnih
intervala, a dobijena vrednost po potrebi zaokruži. Na primer, dobijena vrednost od 2.8 može biti
zaokružena na širinu 3. Alternativno, istraživač može sam odrediti šitinu intervala zbog bolje
preglednosti ili poređenja sa drugim rezultatima.
4. Doneti odluku o donjoj granici prvog klasnog intervala. Ta granica mora biti odabrana tako da
prvi klasni interval obuhvati podatak sa minimalnom vrednošću. Preporučljivo je da donja granica
bude deljiva širinom klasnih intervala.
5. Donja granica svakog sledećeg klasnog intervala se dobija sabiranjem donje granice prethodnog
klasnog intervala i širine klasnog intervala. Poslednji klasni interval mora da obuhvati podatak sa
maksimalnom vrednošću.
6. Klasni intervali su najčešće jednake širine, a granice moraju biti tako odabrane da obezbede da
svaka jedinica opservacije pripadne samo jednom intervalu.

Za prikaz raspodele učestalosti numeričkih kontinuiranih podataka, varijable starost:

1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions.

2) U dijalog prozoru označiti varijablu starost

3) Čekirati polja Show percent (za prikaz procenata). Ukoliko ne želimo da prikažemo nedostajuće
podatke odčekirati polje Show missing data.

4) Kliknuti na dugme OK.

Tabela sa prikazom apsolutnih i relativnih učestalosti se zatim kreira u MS Word-u ili nekom drugom
programu za obradu teksta.

Tabela 8. Raspodela učestalosti prema kategorijama starosti


Raspodela učestalosti numeričkih kontinuiranih varijabli grafički se može predstaviti u vidu histograma
na sledeći način:

1) Kliknuti na liniji sa komandama: Graphs and tables→Histogram

2) U dijalog prozoru označiti varijablu starost

3) U polje Number of sections (when not grouped) ukucati broj željenih klasnih intervala. Ukoliko se
ne ukuca ništa program će sam automatski odrediti broj klasnih intervala.

4) Kliknuti na dugme OK.

Grafički prikaz varijable starost u vidu histograma prikazan je u posebnom prozoru.

DODATNO GRADIVO: Kumulativne učestalosti


Kumulativne učestalosti (frekvencije) su sukcesivni zbirovi učestalosti pojedinih grupa ili grupnih
intervala. Dobijaju se na taj način što se učestalosti sledećih u nizu grupa sukcesivno sabiraju sa
prethodnim učestalostima, tako da se kumulativna učestalost najviše grupe izjednačuje sa zbirom
učestalosti.

Kumulativne učestalosti omogućavaju da znamo koliko jedinica posmatranja ima vrednost jednaku ili
manju od određene vrednosti varijable od interesa.

Kumulativna učestalost se može izračunati za apsolutne i za relativne učestalosti.

Grafički se prikazuju linijskim kumulativnim dijagramom gde se na X-osi nanose vrednosti obeležja a na
Y-osi kumulativne učestalosti.

Primer: Prikazati kumulativnim dijagramom distribuciju učestalosti broja povreda kod 20 sportista.

Tabela 9. Raspodela učestalosti prema broju povreda i kumulativne učestalosti


Grafikon 13. Kumulativne učestalosti broja povreda

Grafikon 11. Raspodela učestalosti prema kategorijama starosti

Apsolutne učestalosti nastaju:


o Deljem relativnih učestalosti sa veličinom uzorka.
o Deljenjem relativnih učestalosti ukupnim brojem jedinica posmatranja.
o Prebrojavanjem podataka u svakoj kategoriji/klasnom intervalu.
o Na bilo koji od navedenih načina, važno je samo jasno definisati na koji način su dobijene.
Kružni dijagram prikazuje:
o Proporciju delova u odnosu na celinu.
o Variranje podataka unutar određenog opsega.
o Ukupan broj jedinica posmatranja u svakoj kategoriji.
o Distribuciju minimalnih i maksimalnih vrednosti skupa.
Za grafičko prikazivanje raspodela učestalosti ordinalnih podataka koristi se:
o Kružni ili stubičasti dijagram
o Histogram
o Tabela
o Poligon frekvencija
Mere centralne tendencije
U statističkom smislu prosek, srednja vrednost, odnosno mera centralne tendencije je jedan broj, jedna
vrednost koja kao reprezentativna zamenjuje sve druge vrednosti obeležja posmatranja.

Osobine srednjih vrednosti:

• Ne mogu biti veće od najveće, niti manje od najmanje pojedinačne vrednosti u datom skupu
podataka.
• Spadaju u apsolutne mere jer se iskazuju u istim mernim jedinicama u kojima su iskazani i podaci
za koje se izračunavaju.
• Mogu imati vrednost koja ne postoji u skupu podataka.
• Mogu biti iskazane i decimalnim brojem, bez obzira da li su u pitanju numerički kontinuirani ili
diskontinuirani podaci.

Prema načinu izračunavanja srednje vrednosti se dele u dve grupe:

1. Matematičke (računske) srednje vrednosti – izračunavaju se na osnovu svih vrednosti:


• aritmetička sredina
• geometrijska sredina
• harmonijska sredina

2. Pozicione (lokacione) srednje vrednosti – određuju se na osnovu položaja u nizu podataka i


raspodeli učestalosti:
• medijana
• mod (modus, tipična vrednost)

ARITMETIČKA SREDINA
Aritmetička sredina je količnik zbira svih podataka i ukupnog broja podataka. Poznata je i kao prosečna
vrednost, prosek. Obeležava se sa 𝑥̅ (čita se iks bar). Izračunava se prema formuli:
∑ 𝑥!
𝑥̅ =
𝑛
gde je 𝑥! pojedinačan podatak, a n broj podataka.

Primer 1. Data je telesna visina 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171, 175. Izračunati
aritmetičku sredinu.
Aritmetička sredina iznosi:
∑ #! %&&'%&('%)*'%+,'%&-'%./'%.+'%)%'%&%'%&/ %&/&
𝑥̅ = $
= %,
= %,
= 175.7cm
Algebarski, zbir odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine jednak je nuli, a zbir
kvadrata odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine manji je od zbira kvadrata
odstupanja od bilo koje druge vrednosti.

Prednost aritmetičke sredine je jednostavno izračunavanje i reflektovanje svih vrednosti u skupu


podataka.

Nedostaci aritmetičke sredine su (1) da se ne može koristiti sa nominalnim i ordinalnim podacima, i (2)
da je pod značajnim uticajem ekstremnih vrednosti - na malom broju podataka samo jedna ekstremna
vrednost može učiniti aritmetičku sredinu nereprezentativnom, kao što je to prikazano u primeru 2.
Primer 2. Za pet vrednosti amilaze u serumu (U/L): 51, 79, 62, 37 i 42, aritmetička sredina iznosi 54 U/L.
Dodavanjem nove vrednosti od 279 U/L, aritmetička sredina postaje 92 U/L. Dodavanje ekstremnog
podatka učinilo je da nova aritmetička sredina nije više valjan reprezent skupa podataka.

Aritmetička sredina za grupisane podatke se izračunava se prema formuli:


∑ 𝑓𝑥
𝑥̅ =
𝑓
U ovoj formuli f predstavlja frekvenciju, a x predstavlja diskretnu vrednost obeležja/sredinu klasnog
intervala.

Primer 1. (Izračunavanje aritmetičke sredine podataka grupisanih u klasne


intervale)
U Tabeli je prikazana distribucija frekvencija vrednosti hemoglobina (g/L) po
klasnim intervalima za 50 ispitanika:

Izračunati aritmetičku sredinu.

Rešenje:
U prethodnu Tabelu dodati kolonu koja prikazuje vrednost sredine klasnog intervala (zbir donje i gornje
granice intrevala podeliti sa 2). Na primer, za prvi klasni interval, sredina iznosi (106+110)/2=108. Zatim
dodati kolonu fx (pomnožiti frekvenciju sa sredinom klasnog intervala).

Aritmetička sredina je:


∑ 0# .,./
𝑥̅ = 0
= /,
= 121.3g/L

U nekim slučajevima potrebno je izračunati objedinjenu aritmetičku sredinu zasnovanu na već


izračunatim aritmetičkim sredinama u ispitivanim grupama.
∑ 𝑛𝑥̅
𝑥̿ =
∑𝑛
Primer 2. (Izračunavanje aritmetičke sredine aritmetičkih sredina)
Date su vrednosti aritmetičkih sredina BMI učenika tri škole u jednoj opštini:

Kolika je aritmetička sredina BMI učenika u toj opštini?

Rešenje
Objedinjena aritmetička sredina iznosi:
(//×((.&'*,&×%+.-'/%%×(,.+
𝑥̅ = (//'*,&'/%%
= 21.1
Kada bi u Primeru sve tri škole imale jednak broj učenika, aritmetička sredina bi se dobila prostim
sabiranjem aritmetičkih sredina i deljenjem sa brojem grupa: (22.7+19.4+20.9)/3= 21.3.
MEDIJANA
Medijana ili centralna vrednost predstavlja srednju pozicionu vrednost. Deli niz podataka poređanih po
veličini na dva jednaka dela. Jednaka je drugom kvartilu, odnosno pedesetom percentilu.

Zbir apsolutnih odstupanja svake pojedinačne vrednosti od medijane manji je od zbira odstupanja od
bilo koje druge vrednosti.

U skupu sa neparnim brojem podataka medijana je uvek stvarna i postojeća vrednost. Na primer, ako je
broj podataka 9, medijana će imati vrednost petog podatka kada su oni poređani po veličini. U skupu sa
parnim brojem podataka vrednost medijane se izračunava tako što se saberu dva centralna podatka, i
dobijeni zbir podeli sa dva. Na primer, ako je broj podataka 10, vrednost medijane se dobija tako što se
zbir petog i šestog podatka podeli sa dva.

Medijana ne zavisi od vrednosti obeležja posmatranja već od njihovog mesta tj. od broja podataka.
Upotrebljava se u onim slučajevima kada treba izbeći nerealnu aritmetičku sredinu ili kada postoji
posebna zainteresovanost za mesto podataka kao što je lociranje optimalnog položaja.

Nedostaci medijane, u odnosu na aritmetičku sredinu, jesu (1) da je manje pogodna za dalje statističke
analize, i (2) da ignoriše relativan uticaj svake pojedinačne vrednosti, uključujući i ekstremne vrednosti,
tako da nije pogodna kada istraživač želi da srednja vrednost reflektuje svaku vrednost iz skupa podataka.

Određivanje medijane:
1. Urediti podatke od minimalne do maksimalne vrednosti.
𝒏'𝟏
2. Odrediti mesto (položaj) medijane prema formuli: 𝑚𝑚𝑒𝑑 = 𝟐
3. Pročitati ili izračunati vrednost koja odogovara mestu medijane.
Þ kod neparnog broja podataka medijana je vrednost srednjeg tj. centralnog podatka;
Þ kod parnog broja podataka vrednost medijane se izračunava kao aritmetička sredina dva
centralna podatka.

Primer 1: Date su vrednosti Hgb (g/L) u krvi 5 bolesnika: 142, 131, 152,
137, 148. Odrediti medijanu.

$'% /'%
mmed = (
= (
=3
Medijana hemoglobina iznosi 142g/L.

Primer 2: Izračunati medijanu telesne visine 10


osoba.

$'% %,'%
mmed = (
=(
=5.5
%&-'%&/
Med = = 174.5
(
Medijana telesne visine iznosi 174.5 cm.
MOD
Mod (tipična vrednost) je vrednost podatka sa najvećom učestalošću. Određivanje moda može biti
olakšano ako su podaci sređeni po rastućem ili opadajućem nizu. Na primer, za sledeće podatke:

vrednost moda iznosi 4 (to je vrednost koja se naučestalije javlja - tri puta).

Kod grupisanih podataka približna vrednost moda je vrednost grupe ili sredine klasnog intervala sa
najvećom frekvencijom – modalna grupa ili modalni interval.

Ako se pojavljuje samo jedna maksimalna frekvencija grupe ili grupnog intervala radi se o unimodalnoj
raspodeli, a ako se pojavljuju dve ili više maksimalnih frekvencija grupa ili grupnih intervala radi se o
bimodalnoj ili multimodalnoj raspodeli.

Prednosti moda su (1) da nije pod uticajem ekstremnih vrednosti, i (2) da je to jedina mera centralne
tendencije koja se može primeniti kod nominalnih podataka.

Nedostaci moda su (1) da može postojati više od jednog moda u datom skupu podataka, što otežava
interpretaciju, (2) da se ne može odrediti ako ne postoje bar dva podataka sa istim vrednostima, (3) da
nije pogodan za dalje statističke analize, i (4) da ignoriše relativan uticaj svake pojedinačne vrednosti.

Primer. Dat je broj povreda 20 sportista: 2, 0, 5, 4, 4, 3, 1, 1,3, 1, 2, 0, 2, 1, 3, 2, 2, 3, 2, 1. Odrediti mod za


broj povreda.

Mod = 2

Vrednost moda broja povreda sportista iznosi 2.


ODNOS MERA CENTRALNE TENDENCIJE
Uzajamni odnosi srednjih vrednosti najviše zavise od oblika raspodele učestalosti. Kod simetrične
raspodele aritmetička sredina, medijana i mod imaju slične vrednosti (slika 3).

Slika 3. Jednakost mera centralne tendencije kod simetrične raspodele

Kod desno (pozitivno) iskošene raspodele, aritmetička sredina je veća od medijane i moda (x̄ > Med >
Mod), a kod kod levo (negativno) iskošene raspodele, aritmetička sredina je manja od medijane i moda
(x̄ < Med < Mod) (slika 4).

Slika 4. Nejednakost mera centralne tendencije kod asimetričnih raspodela

Izbor srednje vrednosti, kao reprezenta skupa podataka, zavisi od tipa podataka i osobina raspodele:.

1. Za numeričke podatke sa simetričnom raspodelom i bez ekstremnih vrednosti, upotrebiti


aritmetičku sredinu.
2. Za numeričke podatke sa asimetričnom raspodelom, ili kada postoje ekstremne vrednosti,
upotrebiti medijanu.
3. Za ordinalne podake upotrebiti medijanu.
4. Za ordinalne podatke sa malim brojem kategorija (na primer 3 kategorije) upotrebiti mod.
5. Za nominalne podatke upotrebiti mod.

Na primer, za podatke o BMI, ako je raspodela simetrična i bez ekstremnih vrednosti, treba upotrebiti
aritmetičku sredinu. Ako je rapodela asimetrična ili ima ekstremnih vrednosti, treba upotrebiti medijanu.
Za istu varijablu, ako je umesto BMI, iskazana ordinalnim podacima sa pet kategorija (1-teška
pothranjenost, 2-pothranjenost, 3-normalna uhranjenost, 4- gojaznost, 5-preterana gojaznost) može se
upotrebiti medijana ili mod. Ali ako je ista varijabla iskazana ordinalnim podacima sa samo tri kategorije
(1-pothranjenost, 2-normalna uhranjenost, 3-gojaznost) onda je upotreba moda najadekvatnija srednja
vrednost.
Aritmetička sredina spada u:
o Pozicione srednje vrednosti
o Matematičke srednje vrednosti
o Mere varijabiliteta
Prednost aritmetičke sredine je:
o Uvek je veća od najveće vrednosti u skupu podataka.
o Jednostavna je za izračunavanje i reflektuje sve vrednosti u skupu podataka.
o Osetljiva je na ekstremne vrednosti.
Medijana je:
o Poziciona mera centralne tendencije.
o Računska mera centralne pozicije.
Raspodela može biti:
o Unimodalna
o Sve navedeno
o Bimodalna
o Multimodalna
Najčešće korišćena srednja vrednost je:
o Medijana
o Aritmetička sredina
o Mod
Mere varijabiliteta
Mere varijabiliteta (mere varijacije, mere disperzije, mere raspršenja) opisuju variranje vrednosti skupa
podataka, u smislu odstupanja od srednjih vrednosti i opsega međusobnih razlika.

Mere varijabiliteta možemo podeliti na apsolutne mere varijabiliteta koje su iskazane u jedinicima mere
obeležja i relativne mere varijabiliteta koje su iskazane neimenovanim brojevima:

Apsolutne mere varijabiliteta su:


a) Interval (raspon) varijacije
b) Kvantili, percentili, decili, kvartili
c) Srednje apsolutno odstupanje
d) Varijansa
e) Standardna devijacija

Relativne mere varijabiliteta su:


a) Koeficijent varijacije
b) Standardizovane (normalizovane) vrednosti

INTERVAL VARIJACIJE
Interval varijacije je razlika najveće i najmanje vrednosti u skupu podataka.
𝐼=𝑥max−𝑥min

gde je: xmax – najveća vrednost u skupu podataka, xmin – najmanja vrednost u skupu podataka.

Interval varijacije je najjednostavnija i najmanje informativna mera disperzije. Pruža opšte i elementarne
informacije koje služe za orjentacionu procenu homogenosti obeležja.

Nedostaci intervala varijacije su (1) da zavisi od postojanja ekstremnih vrednosti, (2) da ne daje informaciju o
grupisanju unutar intervala, i (3) da njegova vrednost raste sa povećanjem uzorka.

Primer 1: Odrediti interval varijacije telesne visine 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171 i
175.

𝐼=𝑥max−𝑥min = 190−165 = 25
Interval varijacije telesne visine je 25 cm.
KVANTILI I GRAFIKON KUTIJE
Kvantili predstavljaju pozicione vrednosti numeričkog obeležja koje niz uređen po veličini dele na k-
jednakih delova. Broj kvantila uvek je jednak k-1. Potupak određivanja kvantila analogan je postupku
određivanja medijane. Služe za određivanje ili upoznavanje sa raspodelom frekvencija i podataka unutar
skupa.
Percentili su kvantili koji statistički niz dele na 100 jednakih delova (broj percentila je 99).
Decili su kvantili koji statistički niz dele na 10 jednakih delova (broj decila je 9).
Kvartili su kvantili koji statistički niz dele na 4 jednaka dela.
Broj kvartila je 3:
• Q1 -prvi ili donji kvartil jednak je 25. percentilu
• Me -drugi kvartil ili medijana odnosno 50. percentil (5. decil)
• Q3 -treći ili gornji kvartil jednak je 75. percentilu.

Interkvartilni opseg (IQ) jednak je razlici 75. i 25. percentila, odnosno jednak je Q3-Q1 i u njemu se nalazi
50% observacija.

Kvantile (percentile, decile i kvartile) određujemo uz pomoć relativnih kumulativnih distribucija


frekvencija.

Grafikon kutije (Box-and-Whisker-Plot, Box-plot, B-P)

Grafikonom kutije prikazujemo numeričke podatke. Grafikon kutije dizajnirao je John Tukey.

Grafikon se sastoji od kutije (engl. box), čija je stranica dužine interkvartilnog opsega (IQ) i čiji se krajevi
prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara trećem kvartilu (Q3).
Unutar kutije je oznaka, obično linija koja preseca kutiju, koja odgovara vrednosti medijane. Kutija
predstavlja 50% opserviranih slučajeva.

Iz kutije na obe strane izlazi po jedan produžetak, tzv. brk ( engl.whisker, mačji brk) koji se prostire u
opsegu najmanje i najveće vrednosti koje nisu neobične ili ekstremne. Za određivanje dužine produžetaka
služe nam unutrašnje i spoljašnje granice. Unutrašnje granice su udaljene od krajeva kutije po 1,5 a
spoljašnje po 3 interkvartilna opsega. Granice se ne ucrtavaju u grafikon već služe za određivanje dužine
produžetaka i identifikaciju neobičnih i ekstremnih vrednosti.

Neobične vrednosti (engl. outlier) su sve vrednosti koje su od ivica kutije udaljene više od 1,5 a manje od
3 dužine kutije (interkvartilnog opsega) i na grafikonu se označavaju 0. Ekstremne vrednosti su one koje
su od ivice kutije udaljene više od 3 njegove dužine i na grafikonu se obeležavaju sa * ili x.
Za unimodalne distribucije frekvencija očekuje se da iza unutrašnjih granica bude manje od 1% podataka,
dok je verovatnoća pojavljivanja podataka iza spoljašnjih granica 1 ‰ .

Treba proveriti da li je vrednost ekstremnih vrednosti moguća ili je u pitanju greška prilikom zapisivanja
i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih vrednosti date promenljive.

Shematski prikaz grafikona kutije

Primer grafikona kutije


VARIJANSA I STANDARDNA DEVIJACIJA
Varijansa je srednje kvadratno odstupanje od aritmetičke sredine. Obeležava se sa sd2 ili s2. Izračunava se po
formuli:
∑(#6 $ #̅ )7
𝑠𝑑2= ($)
gde je:
𝑥! vrednost pojedinačnog podatka,
(𝑥̅ ) aritmetička sredina
n broj podataka
Kada je n veće od 30, u imeniocu se može staviti n umesto n-1 jer su tada izračunate vrednosti približno
jednake.

Standardna devijacija (obeležava se sa sd) izračunava se kao kvadratni koren iz varijanse, odnosno kao
kvadratni koren iz srednjeg kvadratnog odstupanja od aritmetičke sredine:

𝑠𝑑=√𝑠𝑑(

∑(#6 $ #̅ )7
𝑠𝑑=!
($)

Standardna devijacija je najvažnija i najčešće primenjivana mera varijacije. Standardna devijacija se može
interpretirati kao srednje odstupanje od aritmetičke sredine. Što je standardna devijacija manja, manje je i
odstupanje vrednosti podataka od aritmetičke sredine.
Varijansa i standardna devijacija ne mogu biti negativne (zbog kvadriranja odstupanja), i mogu biti jednake
nuli samo ako svi podaci imaju istu vrednost.

Prednost varijanse i standardne devijacije, kao mera varijabiiteta, je u tome što odražavaju variranje svih
vrednosti skupa podataka.

Nedostaci varijanse i standardne devijacije su: (1) osetljivost na ekstremne vrednosti, (2) nepodesne su za
podatke sa asimetričnom raspodelom i (3) mogu se koristiti samo za numeričke podatke.

Nedostatak varjanse u odnosu na standardnu devijaciju, je u tome što se iskazuje kvadriranim mernim
jedinicama (na primer, ako su dati podaci o koncentraciji neke supstance iskazani kao mmol/L, varijansa tih
podataka biće iskazana kao mmol2/L2), zbog čega je otežana interpretacija varijabiliteta. Za razliku od
varijanse, standardna devijacija ima iste merne jedinice kao i podaci (u pomenutom primeru standardna
devijacija podataka bila bi iskazana kao mmol/L) i lakše ju je zbog toga interpretirati.
KOEFICIJENT VARIJACIJE
Koeficijent varijacije (CV) je relativna mera varijacije. Izračunava se kao količnik standardne devijacije i
aritmetičke sredine, i obično je iskazan u procentima:
!"
𝐶𝑉= #̅ ×100%

Koeficijent varijacije pokazuje varijabilitet podataka u odnosu na aritmetičku sredinu. CV je bezdimenziona


mera, odnosno iskazuje se brojem bez bilo kakve merne jedinice, za razliku od standardne devijacije koja je
apsolutna mera varijabiliteta iskazana istim mernim jedinicama kao i podataci. Zbog toga je koeficijent
varijacije, kao relativna mera, pogodan za poređenje varijabiliteta različitih skupova podataka, čak i kada su
oni mereni potpuno različitim mernim jedinicima.

Kada je CV manji ili jednak od 30% za skup podataka se može reći da je homogen (manje varijabilan,
konzistentan, uniforman). Ako je CV veći od 30%, za skup podataka se može reći da je heterogen (više
varijabilan).

ZED VREDNOST
Zed vrednost (zed skor, standardizovana vrednost) je odstupanje od aritmetičke sredine iskazano
standardnim devijacijama. Izračunava se pomoću formule:

#6 $#̅
𝑧= *+
gde je:
xi aktuelna vrednost za koju se izračunava zed vrednost,
𝑥̅ je aritmetička sredina
sd standardna devijacija

Zed vrednost je pokazatelj relativne pozicije neke vrednosti u skupu podataka. Predznak zed vrednosti
pokazuje da li je neka konkretna vrednost manja (negativna zed vrednost) ili veća (pozitivna zed vrednost) od
aritmetičke sredine.

Standardna devijacija je:


o apsolutna mera varijacije
o relativna mera varijacije
Označiti apsolutne mere varijacije (5)
o Interval varijacije
o Standardna devijacija
o Varijansa
o Koeficijent varijacije
o Standardizovane vrednosti
o Kvantili, percentili, decili, kvartili
o Srednje apsolutno odstupanje
Najvažnija i najčešće primenjivana mera varijabiliteta je:
o Interval varijacije
o Standardna devijacija
o Aritmetička sredina
o Varijansa
EZR - deskripcija podataka
U ovoj lekciji, u primerima, biće korišćeni podaci iz baze podataka pod nazivom: zadovoljstvo
zdravstvenom zastitom.xlsx.

Za varijablu starost izračunati mere centralne tendencije i varijabiliteta.

Aritmetička sredina, standardna devijacija, koeficijent varijacije, medijana, minimalna i maksimalna


vrednost mogu se dobiti na sledeći način:

1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries.

2) U dijalog prozoru koji se pojavio:


• u okviru kartice Data označiti varijablu starost.

• u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient of Variation i
Quantiles, pa kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.


gde je:
mean aritmetička sredina (34.7)
sd standardna devijacija (9.9)
cv koeficijent varijacije (0.28)
0% minimalna vrednost (18.0)
50% medijana (33.0)
100% maksimalna vrednost (54.0)
n broj ispitanika

Mod se može dobiti primenom komande za ispisivanje učestalosti (table) koja je objašnjena u prethodnoj
lekciji:

1) Kliknuti na liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions.

2) U dijalog prozoru označiti varijablu starost pa kliknuti na dugme OK.

Mod je vrednost sa najvećom učestalošću.

Interval varijacije se dobija kao razlika maksimalne i minimalne vrednosti.

U našem primeru: Interval varijacije=54-18=36 godina.

Interval varijacije se može izračunati direktno u R konzoli.

R omogućava izračunavanje različitih matematičkih operacija direktno u komandnoj liniji. Procedura je


jednostavna, ukucati vrednosti i operatore pa kliknuti na dugme Enter kako bi se dobio rezultat.

Prikaz rezultata statističke analize:


Deskriptivne vrednosti varijable starost iznose:
• aritmetička sredina±standardna devijacija: 37,4±9,9 godina.
• medijana (minimalna vrednost-maksimalna vrednost): 33,0 godine (opseg, 18,0-54,0).
EZR - deskripcija podataka po grupama
Kada je potrebno prikazati deskripciju podataka po grupama, npr. deskripciju varijable starost prema
polu (grupe) iz našeg primera, to se može postići na sledeći način:

1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries

2) U dijalog prozoru koji se pojavio:


• u okviru kartice Data označiti varijablu starost, pa kliknuti na dugme Summarize by groups…

U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.

• u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient of Variation i
Quantiles, pa kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Izračunavanje različitih matematičkih operacija moguće je obaviti direktno:


o u okviru Output prozora EZR-a
o u komandnoj liniji R Konzole
Verovatnoća i teorijske raspodele verovatnoće
U prirodi postoje dve vrste događaja: sigurni i slučajni. Sigurni (deterministički) događaji su oni u kojima
određeni uslovi delovanjem nekog zakona deterministički (jednoznačno) vode u određeni ishod. Na
primer, sigurno je da neunošenje vitamina C u ljudski organizam vodi u bolest pod nazivom skorbut.

Slučajni (nedeterministički, stohastični) događaji su oni u kojima određeni uslovi zavisno od slučajnosti
mogu voditi u različite ishode. Ovi ishodi su međusobno isključivi, odnosno može se ostvariti samo jedan
od njih. Skup svih mogućih ishoda, u određenim uslovima, nazivamo skup elementarnih ishoda (skup
elementarnih događaja).

Primer 1: Za tip krvne grupe mogući ishodi su: krvna grupa O, A, B i AB. Ova četiri ishoda su
međusobno isključiva, odnosno jedna osoba može imati samo jednu krvnu grupu. Ove četiri krvne
grupe čine skup elementarnih ishoda.

Predmet ispitivanja teorije verovatnoće jesu slučajni događaji. Verovatnoća je mera očekivanja nekog
slučajnog događaja. Kvantitativno se iskazuje na skali od 0 (nemoguć događaj) do 1 (siguran događaj), ili
u procentima od 0% do 100%. Verovatnoća malo verovatnih događaja bliska je nuli, dok je verovatnoća
visoko verovatnih događaja bliska jedinici.

Verovatnoća slučajnog događaja se može definisati i izračunati na više načina:

1. Objektivna verovatnoća
o Teorijska (klasična, matematička, a priori) verovatnoća
o Empirijska (statistička, frekvencijska, a posteriori) verovatnoća
2. Subjektivna verovatnoća

Teorijska verovatnoća zasniva se na pretpostavci da su svi mogući ishodi jednako verovatni. Ova
verovatnoća naziva se a priori, jer se određuje pre bilo kakvog merenja ili opservacije samih ishoda.
Teorijska verovatnoća izračunava se kao količnik broja očekivanih ishoda i broja svih jednako mogućih
ishoda.

Primer 2: U istraživanju, u kojem je cilj bio ocena efektivnosti tretmana A i B, ispitanici su na slučajan
način, svrstavani u jednu od grupa: A, B ili kontrolnu (placebo). Kolika je verovatnoća da jedan
ispitanik bude svrstan u kontrolnu grupu?

Rešenje: Broj svih jednako mogućih ishoda iznosi tri (grupa A, grupa B i kontrolna grupa). Broj očekivanih
ishoda iznosi jedan (kontrolna grupa). Verovatnoća da jedan ispitanik bude svrstan u kontrolnu grupu
iznosi:
(broj očekivanih ishoda)/(broj svih jednako mogućih ishoda) = 1/3 = 0.33

Empirijska verovatnoća (relativna frekvencija) se određuje posle ostvarivanja posmatranog događaja, a


izračunava se kao odnos broja ostvarenih (očekivanih) ishoda prema ukupnom broju mogućih ishoda:
p=m/n
gde je p relativna učestalost, m broj očekivanih ishoda, a n ukupan broj mogućih ishoda.

Primer 3: Ispitivana je učestalost tipova krvnih grupa u određenoj populaciji. Na uzorku od 2700
ispitanika nađene su sledeće relativne učestalosti:
Krvna grupa Relativna učestalost
O 45%
A 39%
B 12%
AB 4%
Ove relativne učestalosti istovremeno su i verovatnoće da slučajno izabrana osoba ima neku
konkretnu krvnu grupu.

Subjektivna verovatnoća izražava stepen uverenja određene osobe o mogućnosti ostvarenja nekog događaja.
Zasniva se na teorijskom znanju u datoj oblasti, i raspoloživim informacijama. Primenjuje se kada nije moguće
neku pojavu opservirati više puta, i na taj način odrediti relativne frekvencije, kod veoma retkih ili događaja
koji se do sada nisu desili. Subjektivna verovatnoća se može razlikovati od jedne do druge osobe, zavisno od
usvojenog teorijskog modela posmatrane pojave i raspoloživih informacija. Na primer, pojedini naučnici
mogu dati svoje lične procene verovatnoće da će u periodu od narednih pet godina doći do mutacije virusa
SARS-CoV2.

Osobine verovatnoće:

• Nenegativnost: ne može biti negativna i uvek je u intervalu od 0 (nemoguć događaj) do 1 (siguran


događaj)
• Normiranost: zbir verovatnoća svih mogućih međusobno isključivih događaja iznosi 1 (Za tip krvne
grupe postoje četiri moguća događaja. Svaki tip krvne grupe ima određenu verovatnoću da baš on
bude nađen kod slučajno odabrane osobe. Zbir verovatnoća sva četiri tipa krvne grupe iznosi 1)
• Aditivnost: ako su dva događaja međusobno isključiva, verovatnoća da će se ostvariti bilo koji od njih
dobija se kao zbir njihovih verovatnoća

Verovatnoća događaja koji je predmet istraživanja naziva se verovatnoćom očekivanog događaja i obično se
obeležava sa p. Verovatnoća događaja koji nije predmet istraživanja naziva se verovatnoćom suprotnog
događaja i obeležava se sa q. Obe verovatnoće su komplementarne parcijalne verovatnoće pa za njih važi:
p+q=1.

Zakoni verovatnoće:

1. Zakon adicije (zakon sabiranja verovatnoća): zakonom adicije izračunava se verovatnoća da će se dogoditi
jedan, bilo koji (ili ovaj ili onaj), očekivani događaj.

• Za međusobno isključive događaje (ne mogu se ostvariti istovremeno): P(A∪B)=P(A)+P(B)


• Za događaje koji nisu međusobno isključivi: P(A∪B)=P(A)+P(B)−P(A∩B)

2. Zakon multiplikacije (zakon množenja verovatnoća). Ovaj zakon se odnosi na složenu verovatnoću tj.
verovatnoću istovremene ili uzastopne pojave dva ili više događaja. Verovatnoća da će nastupiti očekivana
kombinacija događaja (i ovaj i onaj) jednaka je proizvodu verovatnoća svakog od tih događaja.

• Za nezavisne događaje (nastupanje događaja ne zavisi od nastupanja ili nenastupanja drugog


događaja): P(A∩B)=P(A)×P(B)
• Za zavisne događaje (nastupanje događaja zavisi od nastupanja ili nenastupanja drugog događaja):
P(A∩B)=P(A)×P(B/A)=P(B)×P(A/B)

Relativna verovatnoća P(A/B) naziva se još i uslovna ili kondicionalna verovatnoća i predstavlja verovatnoću
uslovljenog događaja. Uslovna verovatnoća je verovatnoća očekivanog događaja koji je uslovljen
prethodnom pojavom nekog drugog događaja. Uslovna verovatnoća je osnovni tip verovatnoće u
prirodnim naukama pa prema tome i u medicini.
NAPOMENA:
o R podržava izračunavanje klasičnih računskih operacija u komandnoj liniji u okviru R Konzole, pa će se
taj način izračunavanja i koristiti u primerima na kursu. Moguće je raditi i složenija izračunavanja.
o Prilikom izračunavanja prioritet ima ono što je u zagradi.
o Od računskih operacija prvo se množi i deli, a zatim sabira i oduzima.
o Od matematičkih simbola koristiti: + za sabiranje, - za oduzimanje, * za množenje i / za deljenje.

Primer 4 (komplementarni događaji): Verovatnoća da slučajno izabrana osoba ima koronarnu bolest srca
iznosi 0.12. Kolika je verovatnoća komplementarnog događaja, odnosno da osoba nema koronarnu bolest
srca?
Rešenje:
P(B)=0.12
P(B¯)=1−0.12=0.88

Primer 5 (adicija međusobno isključivih događaja): Kolika je verovatnoća da slučajno izabrana osoba ima ili
krvnu grupu O ili krvnu grupu B (Tabela iz Primera 3)?

Rešenje:
P(O)=0.45
P(B)=0.12
Tip krvne grupe su međusobno isključivi događaji, pa je
verovatnoća da slučajno izabrana osoba ima ili krvnu
grupu O ili krvnu grupu B:

P(O)+P(B) = 0.45 + 0.12 = 0.57

Primer 6 (multiplikacija nezavisnih događaja): Učestalost deformacija skeleta u školskoj populaciji iznosi 5%, a
učestalost anemije 3%. Kolika je verovatnoća da će neki učenik imati i deformaciju skeleta i anemiju?

Rešenje:
P(D)=0.05
P(A)=0.03
Pod pretpostavkom da su deformacija skeleta i anemija
nezavisni događaji u školskoj populaciji, verovatnoća da
će neki učenik imati i deformaciju skeleta i anemiju
iznosi:

P(D i A) = P(D) x P(A) = 0.05 x 0.03 = 0.0015

Primer 7 (adicija događaja koji nisu međusobno isključivi): Kolika je verovatnoća da će jedan slučajno izabrani
učenik imati ili deformaciju skeleta ili anemiju?

Rešenje: Događaji nisu međusobno isključivi. Verovatnoća


njihovog istovremenog javljanja iznosi 0.0015 pa je
verovatnoća da će jedan slučajno izabrani učenik imati ili
deformaciju skeleta ili anemiju:

P(D ili A) = P(D) + P(A) – P(DA) = 0.05 + 0.03 – 0.0015 = 0.0785


Teorijske raspodele verovatnoća su specifični matematički modeli raspodela (distribucija) verovatnoća. U
teorijskoj statistici formulisan je veći broj raspodela verovatnoća, od kojih neke imaju široku primenu u
medicini, kao što su to binomna i normalna raspodela.

Statističke procedure zasnovane su na pretpostavci da empirijske raspodele podataka slede neku od teorijskih
raspodela, a zatim se osobine te teorijske raspodele mogu primeniti na empirijsku raspodelu. Raspodele
empirijskih podataka nikada nisu identične teorijskim raspodelama, koje su definisane matematički, već manje
ili više odstupaju od njih. Da bi osobine neke teorijske raspodele mogle biti iskorišćene za analizu empirijskih
podataka, potrebno je da empirijska raspodela bude dovoljno slična teorijskoj raspodeli.

Binomna raspodela

Binomna raspodela predstavlja raspored verovatnoća vrednosti prekidne slučajne promenljive dihotomnog
(binomnog) karaktera. Da bi neka slučajna promenljiva mogla da sledi zakone binomnog raspoređivanja
neophodno je da: 1) prost događaj ima dva međusobno isključiva ishoda, 2) je verovatnoća očekivanog ishoda,
koja se obeležava sa p, konstantna u svakom prostom događaju i 3) su događaji nezavisni. Binomna raspodela
pokazuje verovatnoću ostvarivanja svake vrednosti slučajno promenljive u određenom broju uzastopno
ponovljenih nezavisnih događaja. Svaka binomna raspodela je definisana sa dva parametra: n i p, gde je n
broj prostih nezavisnih događaja, a p verovatnoća očekivanog događaja. Deskriptivne mere binomne
raspodele su aritmetička sredina (np) i varijansa np(1–p).

Binomna verovatnoća predstavlja verovatnoću da će se očekivani binomni ishod (X), sa stalnom prostom
verovatnoćom (p), ostavriti x puta pri ponavljanju n nezavisnih prostih događaja.

Binomna verovatnoća x uspeha od n prostih nezavisnih događaja dobija se primenom funkcije binomne
verovatnoća:

$!
𝑃(𝑋=𝑥) = #!($:#)! 𝑝 # 𝑞$:#
U ovoj formuli je

$!
binomni koeficijent, koji daje broj kombinacija sa x uspeha iz n događaja.
#!($:#)!

Izračunavanje faktorijela:
0! = 1
1! = 1
2! = 1 x 2 = 2
3! = 1 x 2 x 3 = 6
itd.

Primer 8: Učestalost hipertenzije u populaciji starijih od 65 godina iznosi 42% (p=0.42).

a) Kolika je verovatnoća da u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, dve osobe
imaju hipertenziju?

U našem primeru: x=2, n=7 i p=0.42.

Binomna verovatnoća se u EZR izračunava na sledeći način:

1) Kliknuti na liniji sa komandama: Original menu→Distributions→Discrete distributions→Binomial


distributions→Binomial probabilities...
2) U dijalog prozoru koji se pojavio:

o u polje Binomial trials ukucati vrednost za n


o u polje Probability of success ukucati p

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure. EZR prikazuje verovatnoće
za svaki broj mogućih događaja istovremeno.

Rešenje:
P(X = 2) = 0.243

b) Kolika je verovatnoća da u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, bar pet osoba
ima hipertenziju?
U našem primeru: x≥5, n=7 i p=0.42.

Rešenje:
P(X≥5)=0.092+0.022+0.002=0.116

c) Kolika je verovatnoća da u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, najviše dve
osobe imaju hipertenziju?
U našem primeru: x≤2, n=7 i p=0.42.

Rešenje:
P(X≤2)=0.022+0.112+0.243=0.377.

Aritmetička sredina i standardna devijacija binomne raspodele


Primer 10: U kliničkom ogledu 10 mg leka primilo je 863 pacijenta. U ovoj populaciji verovatnoća dobijanja
simptoma gripa iznosila je 0.019. Izračunajte aritmetičku sredinu i standardnu devijaciju broja pacijenata za
koje se može očekivati da imaju simptome gripa?

U našem primeru: n=863 i p=0.019.

Rešenje:
Aritmetička sredina jednaka je: np

Standardna devijacija jednaka je: ,𝑛𝑝(1 − 𝑝)

Aritmetička sredina se izračunava pomoću komande: n*p

Standardna devijacija se može dobiti pomoću komande: sqrt(n*p*(1-p)).

sqrt(x) je funkcija za izračunavanje kvadratnog korena iz vrednosti x.

U našem primeru komanda je:

sqrt(863*0.019*(1-0.019))

Aritmetička sredina broja pacijenata iznosi 16 a standardna devijacija 4.

NORMALNA RASPODELA
Normalna raspodela je najvažnija raspodela u statistici. To je kontinuirana raspodela verovatnoća,
matematički opisana formulom:

gde su μ i σ aritmetička sredina i standardna devijacija raspodele, e je osnova prirodnog logaritma (2.72), a x
je vrednost kontinuirane varijable.

Karakteriše se zvonastom simetričnom raspodelom oko njene aritmetičke sredine (Slika 1). Normalna
raspodela je kompletno određena parametrima normalne raspodele: aritmetičkom sredinom i standardnom
devijacijom. Njena aritmetička sredina i medijana su jednake, i odgovaraju najvišoj tački na krivi normalne
raspodele. Na udaljenosti od jedne standardne devijacije od aritmetičke sredine nalazi se tačka infleksije –
mesto gde kriva prelazi iz konkaviteta u konveksitet, i obrnuto. Krajevi (repovi) krive produžavaju se
beskonačno na obe strane ali nikada ne dotiču apscisu.

.
Slika 1. Kriva normalne raspodele

Za normalnu raspodelu važi da se 68% opservacija nalazi unutar intervala aritmetička sredina±1sd, 95%
opservacija unutar intervala aritmetička sredina±2sd, i 99.7% unutar intervala aritmetička sredina±3sd (Slika
2).

Slika 2. Procenat opservacija unutar intervala ±1sd, ±2sd i ±3sd normalne raspodele

Mnoge varijable u medicini imaju tendenciju da prate normalnu raspodelu, sa vrednostima grupisanim oko
aritmetičke sredine i sa smanjivanjem njihove učestalosti ka krajevima raspodele.

Normalna raspodela je široko korišćena u statistici. Primeri su (a) klasični statistički testovi bazirani na
pretpostavci o normalnosti raspodele podataka, (b) određivanje nivoa značajnosti u mnogim statističkim
testovima i intervalima poverenja, i (c) aproksimacije drugih raspodela verovatnoća normalnom raspodelom,
kao što je to binomna raspodela. Ono što omogućava primenu normalne raspodele u aproksimacijama jeste
centralna granična teorema, po kojoj bez obzira na karakteristike raspodele neke populacije, raspodela njenih
uzoračkih aritmetičkih sredina teži normalnoj za velike uzorke.

Specijalan tip normalne raspodele je standardna normalna raspodela (zed raspodela) čiji su parametri μ=0 i
σ=1. Bilo koja normalna raspodela može biti konvertovana u standardnu normalnu raspodelu
transformacijom: z=(x−μ)/σ. Ovom formulom, bilo koja vrednost originalne raspodele može biti konvertovana
u zed vrednost (z-skor, standardan skor). Zed vrednost je pokazatelj relativnog položaja neke vrednosti u
raspodeli kojoj pripada.

Standardna normalna raspodela se može iskoristiti za određivanje verovatnoća koje se odnose na empirijske
podatke, uz pretpostavku da oni slede normalnu raspodelu. Površina između apscise i krive normalne
raspodele ekvivalentna je verovatnoći. Totalna površina ispod krive jednaka je jedan. Verovatnoća da se
vrednost varijable nađe u intervalu između dve vrednosti jednaka je površini između ovih vrednosti. Prvo je
potrebno ove vrednosti transformisati u z-vrednosti, a zatim pročitati površine, a samim tim i verovatnoće, iz
tabela površina ispod krive standardne normalne raspodele. U tabeli (u prilogu) površine su date počev od
aritmetičke sredine do odgovarajauće zed-vrednosti (Slika 3).
Površine ispod krive standardizovane normalne raspodele
Čitanje površine ispod krive standardizovane normalne raspodele

1. Preuzeti dokument pod nazivom Tablice.pdf


2. Otvoriti dokument i naći stranicu na kojoj se nalaze Površine ispod krive standardizovane
normalne raspodele.
3. U pretkoloni tablice su upisane: celobrojna i vrednost prve decimale zed vrednosti.
4. U zaglavlju tablice su upisane vrednosti druge decimale zed vrednosti.
5. Površina ispod krive standardizovane normalne raspodele se čita tako što se u pretkoloni odredi
red gde se nalazi celobrojna i vrednost prve decimale zed vrednosti a u zaglavlju odredi kolona u
kojoj se nalazi druga decimala zed vrednosti. Na preseku odgovarajućeg reda i odgovarajuće
kolone nalazi se broj koji predstavlja verovatnoću posmatrane tačke.
6. Ispred brojeva koji se čitaju u poljima tablice se podrazumeva 0, jer su to vrednosti parcijalne
verovatnoće.
7. Tablica površina prikazuje polovinu površine ispod krive i ima maksimalnu verovatnoću 0.5.
8. Kod dvosmernog testiranja pomoću ove tablice, pročitane verovatnoće množe se sa 2 , a zadate
verovatnoće dele se sa 2.

Procedura u EZR
U EZR verovatnoća površine ispod krive normalne raspodele izračunava se na sledeći način:

1) Kliknuti na liniji sa komandama: Original menu→ Distributions→Continuous distributions→Normal


distributions→ Normal probabilities...

2) U dijalog prozoru koji se pojavio:

• u polje Variable value(s) ukucati vrednost varijable za koju se traži verovatnoća javljanja u
populaciji
• u polje Mean ukucati aritmetičku sredinu varijable u populaciji
• u polje Standard deviation ukucati standardnu devijaciju varijable u populaciji
• čekirati polje Lower tail za izračunavanje verovatnoće javljanja vrednosti manjih od zadate
vrednosti varijable
• čekirati polje Upper tail za izračunavanje verovatnoće javljanja vrednosti većih od zadate vrednosti
varijable.

Primer 11: Telesna masa jedne populacije odraslih osoba je normalno raspoređena sa aritmetičkom
sredinom 70 kg i standardnom devijacijom 10kg.

a) Kolika je verovatnoća da će slučajno izabrana osoba iz ove populacije imati t. masu veću od 85 kg?

Slika 3. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase veće od
85 kg

P(x>85) =0.07

b) Kolika je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost telesne mase između
67 i 85 kg?

Slika 4. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase između
67 i 85 kg
Izračunati verovatnoću za vrednost telesne mase manju od 85.

Izračunati verovatnoću za vrednost telesne mase manju od 67.

Izračunati razliku verovatnoća za vrednost telesne mase manju od 85 i manju od 67.

P(67 ≤ x ≤ 85) = 0.55

c) Kolika je verovatnoća da slučajno izabrana osoba iz ove populacije ima telesnu masu manju od 95 kg?

Slika 5. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase manje
od 95kg

P( x ≤ 95) = 0.99
Kolika je verovatnoća da jedan ispitanik, iz Primera 2, bude svrstan u grupu A ili grupu B?
o 0.50
o 0.25
o 0.66
Kolika je verovatnoća da slučajno izabrana osoba ima ili krvnu grupu O ili krvnu grupu A, ako je
P(O)=0.45 i P(A)=0.39 (Tabela iz Primera 3)?
o 0.72
o 0.84
o 0.91
Poznato je da je uspešnost IVFa (vantelesne oplodnje) iznosi 19%. Kolika je verovatnoća da od pet
slučajno izabranih žena, posle IVFa, zatrudne četiri?
o 0.39
o 0.21
o 0.005
Letalitet od neke bolesti iznosi 0.3. Kolika je verovatnoća da će doći do smrtnog ishoda kod sva tri
pacijenta sa ovim oboljenjem?
o 0.020
o 0.027
o 0.039
U populaciji žena starosti između 25 i 50 godina vrednosti mokraćne kiseline u serumu su normalno
raspoređene sa aritmetičkom sredinom 333 mmol/L i standardnom devijacijom 30 mmol/L. Kolika
je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost mokraćne kiseline u
serumu veću od 410 mmol/l?
o 0.011
o 0.002
o 0.005
U populaciji žena starosti između 25 i 50 godina vrednosti mokraćne kiseline u serumu su normalno
raspoređene sa aritmetičkom sredinom 333 mmol/L i standardnom devijacijom 30 mmol/L. Kolika
je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost mokraćne kiseline u
serumu između 303 i 393 mmol/L?
o 0.818
o 0.265
o 0.968
Provera normalnosti raspodele
Provera normalnosti raspodele
Pretpostavka za primenu mnogih statističkih metoda je normalna raspodela podataka. Ne postoji
opšteprihvaćeni postupak na osnovu kojeg bi se jednostavno proverila normalnost raspodele. Postoji
nekoliko metoda, od kojih su neke računske a neke grafičke. Poželjno je da se istraživač osloni na više od
jedne metode za proveru normalnosti. Preporuka je da se odabere bar jedna grafička i bar jedna računska
metoda provere normalnosti raspodele.

Računske metode za proveru normalnosti raspodele:


1. Koeficijent varijacije (CV)
2. Vrednosti skjunisa i kurtozisa
3. Statističko testiranje normalnosti: Kolmogorov-Smirnov test i Shapiro-Wilk test

Grafičke metode za proveru normalnosti raspodele:


1. Histogram
2. Normalni Q–Q grafikon
3. Grafikon kutije (“BoxPlot”)

Računske metode za proveru normalnosti


3. Koeficijent varijacije je količnik standardne devijacije i aritmetičke sredine izražen procentualno.
𝐶𝑉=𝑠𝑑𝑥¯×100CV=sdx¯×100
Koeficijent varijacije (CV) veći od 30% ukazuje na odstupanje od normalne raspodele.

4. Vrednosti skjunisa i kurtozisa od -1 do 1 ukazuju na normalnu raspodelu.

Vrednosti skjunisa i kurtozisa veće od 3 i manje od -3 ukazuju na odstupanje od normalne raspodele.


Kod pozitivno iskošene raspodele aritmetička sredina je veća od medijane. Kod negativno iskošene
raspodele aritmetička sredina je manja od medijane

Primer. Prikupljeni su podaci o prirastu telesne mase (g) i vrednostima trombocita (x 109/L) za dve grupe
eksperimentalnih životinja pri čemu je jedna grupa bila na standardnoj ishrani, a druga na ishrani obogaćanoj
vitaminima (Primer baze za proveru normalnosti raspodele.xlsx)

Procedura u EZR:
1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries

2) U dijalog prozoru koji se pojavio:

• u okviru kartice Data označiti varijablu Prirast, pa liknuti na dugme Summarize by groups…
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.

• u okviru kartice Statistics čekirati polja za Coefficient of Variation, Skewness i Kurtosis, pa kliknuti na
dugme OK.

3) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

5. Statističko testiranje normalnosti: Kolmogorov-Smirnov test i Shapiro-Wilk test. Kada je p > 0.05 ispitivana
varijabla ima normalnu raspodelu.

1) Kliknuti na liniji sa komandama: Statistical analysis→Continuous variables→Kolmogorov-Smirnov test for


normal distribution
2) U dijalog prozoru koji se pojavio:

o u okviru polja Variable (pick one) označiti varijablu Prirast


o u polju Condition to limit samples for analysis ukucati:
§ naziv varijable koja definiše grupe
§ dva znaka ==
§ pod znacima navoda naziv kategorije od interesa varijable koja definiše grupe.

3) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Grafičke metode za proveru normalnosti


1. Histogram. Metod je zasnovan na vizuelnoj proceni. Kada je raspodela ispitivane varijable normalna,
očekuje se da histogram ima zvonast i simetričan izgled, slično krivoj teorijske normalne raspodele.
Ako izgled nije zvonast nego, na primer bimodalan, ili je asitmetričan, to ukazuje na odstupanje od
normalne raspodele.

1) Učitati bazu podataka Primer baze za proveru normalnosti


raspodele.xlsx

2) Kliknuti na liniji sa komandama: Graphs and tables→Histogram

3) U dijalog prozoru koji se pojavio:


• u okviru polja Variable (pick one) označiti varijablu Prirast
• u polju Condition to limit samples for analysis ukucati: Ishrana=="Standardna ishrana"
• kliknuti na dugme OK.

4) U posebnom prozoru pojaviće se histogram podskupa slučajeva na Standardnoj ishrani za varijablu


Prirast.

2. Normalni Q–Q grafikon. Kada je raspodela normalna tačke se nalaze na pravoj liniji. Odstupanje tačaka
od prave linije ukazuje na odstupanje raspodele od normalne.

1) Učitati bazu podataka Primer baze za proveru normalnosti raspodele.xlsx. Na osnovu


varijable Ishrana selektovati grupu na Standardnoj ishrani.

2) Kliknuti na liniji sa komandama: Graphs and tables→Quantile-comparison plot

3) U dijalog prozoru koji se pojavio:


o u okviru polja Variable (pick one) označiti varijablu Prirast
o kliknuti na dugme OK

4) U posebnom prozoru pojaviće se Q-Q grafikon grupe na Standardnoj ishrani za varijablu Prirast.

3. Grafikon kutije (“boxplot”). Postojanje nekoliko ekstremnih vrednosti ili neobičnih vrednosti na bilo
kom kraju raspodele ukazuje na odstupanje od normalne raspodele. Ako medijana nije u centru
grafikona kutije već je znatno bliža jednom od krajeva kutije to ukazuje na odstupanje od normalne
raspodele.

1) Učitati bazu podataka Primer baze za proveru normalnosti raspodele.xlsx

2) Kliknuti na liniji sa komandama: Graphs and tables→Boxplot

3) U dijalog prozoru koji se pojavio:


o u okviru polja Variable (pick one) označiti varijablu Prirast
o u okviru polja Grouping variable (pick 0 or 1) označiti varijablu koja definiše grupe, u našem
primeru to je varijabla Ishrana
o u delu Whisker range označiti (1Q-1.5xIQR)-(3Q+1.5xIQR)
o kliknuti na dugme OK.

4) U posebnom prozoru pojaviće se grafikon kutije varijable Prirast u odnosu na grupišuću varijablu
Ishrana.

Koji oblik raspodele prikazan histogramom ukazuje na odstupanje od normalne raspodele?


o Asimetrična raspodela
o Simetrična raspodela
Koji izgled normalnog Q-Q grafikona ukazuje na odstupanje od normalne raspodele?
o tačke su na pravoj liniji
o tačke znatno odstupaju od prave linije
Koji izgled grafikona kutije ukazuje na odstupanje od normalne raspodele?
o Medijana je na sredini kutije
o Medijana je pomerena ka jednom kraju kutije a postoje i ekstremne vrednosti
o Nema ekstremnih vrednosti
Transformacija podataka
Transformacija podataka je računska operacija koja se izvodi sa podacima u cilju ispunjavanja
pretpostavki za primenu određenih statističkih metoda.
Primenjuje se nad svakim individualnim podatkom u uzorku, pri čemu se od postojećih podataka x
dobijaju transformisani podaci t, npr., t = log x.

Najčešći ciljevi transformacije podataka su:


1. Normalizacija raspodele podataka
2. Stabilizacija varijanse (homogenost varijansi) – izjednačavanje varijansi različitih grupa
3. Postizanje linearnosti odnosa dve varijable

Normalnost raspodele podataka je pretpostavka za primenu parametarskih metoda. Normalnost


raspodele podataka se može proveriti računskim metodama (koeficijent varijacije, mere asimetrije i
zaravnjenosti - skjunis i kurtozis, testovi Kolmogorov-Smirnov, Shapiro-Wilk) i grafičkim metodama
(histogram, normalni Q–Q grafikon, grafikon kutije).

Homogenost varijansi je pretpostavka za izvođenje nekih statističkih testova, npr., t-testa ili analize
varijansi. Homogenost varijansi pre izvođenja t-testa može biti proverena F-testom, a pre izvođenja
analize varijanse B-testom (Bartlett) i Leveneovim testom.

Posle transformacije podataka potrebno je proveriti da li transformisani podaci ispunjavaju pretpostavke


za primenu statističkih metoda zbog kojih je vršena transformacija.

Statističke mere (npr. aritmetička sredina i/ili 95%CI) dobijene analizom transformisanih podataka mogu
se obrnutom transformacijom vratiti na nivo originalnih podataka. Na primer, ako je upotrebljen
logaritam za osnovu 10 ili e, obrnuta transformacija se izvodi stepenovanjem broja deset, odnosno e
(2.72).

Zaključci dobijeni statističkom analizom transformisanih podataka odnose se takođe i na originalne


podatke.

Nekoliko različitih transformacija se može primeniti u cilju normalizacije raspodele podataka.

Logaritamska transformacija
Najčešće korišćena transformacija koja se izvodi po formuli t = log x. U transformaciji se najčešće
primenjuju logaritmi sa osnovom 10 ili e (e=2.72).

Logaritamskom transformacijom može da postići normalizacija kod desno iskošene raspodele,


stabilizacija varijanse kada je ona proporcionalna kvadratu aritmetičke sredine (konstantan odnos sd i
aritmetičke sredine) i linearizacija eksponencijalnog odnosa dve varijable.
Transformacija je moguća samo sa pozitivnim vrednostima. Originalni podaci koji su jednaki nuli ili
negativni neće biti transformisani, a u koloni transformisanih podataka obeleženi kao nedostajuće
vrednosti. Ako broj takvih vrednosti nije zanemarljiv treba pre transformacije dodati konstantu svim
vrednostima, npr. ako je minimalna vrednost -8 treba svim vrednostima dodati konstantu 9 .

Nakon analize transformisanih podataka potrebno je uraditi obrnutu transformaciju rezultata


(aritmetičke sredine i 95%CI). Aritmetička sredina posle obrnute transformacija postaje geometrijska
sredina. Obrnuta transformacija se obavlja stepenovanjem brojeva 10 ili e, u zavisnosti od primenjene
osnove logaritmovanja.

Primer
U bazi Titar.xlsx nalaze se vrednosti titra antitela dve grupe ispitanika.

Primenom Shapiro-Wilk testa i grafičkim prikazom utrvrđeno je da


raspodela podataka odstupa od normalne u obe ispitivane grupe.

U cilju normalizacije raspodele podataka primenjena je logaritamska


transformacija.

Koraci transformacije u Excelu


1. Dodati novu kolonu u Excelu desnim klikom preko zaglavlja kolone, a
zatim levim klikom na “Insert” – nova kolona biće ubačena levo od kolone
koja je bila selektovana pokazivačem miša.

2. U prvi red ukucati ime varijable sa transformisanim podacima, npr., “logtitar”

3. Pozicionirati se na ćeliju koja se nalazi desno od ćelije čiju vrednost treba transformisati i ukucati
funkciju logaritma za osnovu 10:
4. Sa “Copy” i “Paste” iskopirati sadržaj ćelije sa transformisanim podatkom (na slici gore iskopirati sadržaj
ćelije “C2”) u sve preostale ćelije.

5. Kliknuti “Save” i ponovo učitati podatke u EZR

6. Proveriti normalnost transformisanih podataka.

Zaključujemo da je transformacijom postignuta normalnost


raspodele podataka.

Aritmetičke sredine posle transformacije log(10) iznose:


Grupa 1: 2.04
Grupa 2: 1.73

Poželjno je rezultate analize transformisanih vrednosti, obrnutom


transformacijom vratiti na nivo originalnih podataka. Na primer,
unosom vrednosti aritmetičke sredine 2.04 u
kalkulator Obrnuta_transformacija.xlsx dobijamo vrednost
obrnuto transformisane aritmetičke sredine: 109.

Grupa 1: 109
Grupa 2: 54

Rezultati dobijeni analizom transformisanih podataka vraćaju se na nivo originalnih podataka


postupkom:
o Logaritmovanja prirodnim logaritmom
o Obrnute transformacije
o Sabiranja vrednosti
o Stepenovanja vrednosti
Uzorak i populacija
Populacija predstavlja skup svih istovrsnih elemenata (jedinica posmatranja: ljudi, objekata, dogadjaja)
koji imaju neku zajedničku karakteristiku od interesa.

Ciljna populacija predstavlja skup elemenata za koji želimo da generalizujemo zaključak. Uzoračka
populacija je populacija koja je dostupna i koja predstavlja ciljnu populaciju (blisko koliko je to moguće),
i iz koje potiče uzorak.

Uzorak predstavlja podskup osnovnog skupa (populacije) koji je izabran na osnovu određenog
kriterijuma.

Cilj i primena uzorka u statistici je ispitivanje određene osobine i generalizacija zaključka na populaciju.

Razlozi za sprovođenje istraživanja na uzorku, a ne na populaciji, su višestruki:

• manji troškovi istraživanja,


• kraće vreme trajanja istraživanja,
• podaci dobijeni na reprezentativnom uzorku često mogu biti tačniji, jer se za manji broj ispitanika
mogu angažovati bolje obučeni kadrovi ili primeniti naprednije metode koje obezbeđuju veću
tačnost merenja i
• negativnog ishoda za jedinice posmatranja npr. žrtvovanje laboratorijskih životinja radi
histolopatoloških analiza.

Neophodan uslov za generalizaciju zaključka sa uzorka na populaciju jeste reprezentativnost uzorka,


odnosno njegova sličnost sa populacijom. Uzorkovanje predstavlja proces odabira reprezentativnog dela
cele populacije. Reprezentativan uzorak poseduje karakteristike slične onima u populaciji. Osnovni
preduslovi reprezentativnosti su:

1. Način izbora jedinica posmatranja u uzorak mora biti nezavisan od vrednosti posmatranog
obeležja.
2. Verovatnoća odabira jedinica posmatranja da se nađu u uzorku mora biti unapred poznata.

Kada ovi uslovi nisu ispunjeni radi se o pristrasnom uzorku, koji je izabran na takav način da su neke
jedinice iz uzoračke populacije imale veću verovatnoću da uđu u uzorak.
UZORKOVANJE
Tehnike uzorkovanja - Prema načinu uzorkovanja (biranja jedinica posmatranja u uzorak) uzorci mogu
biti:

§ sa verovatnoćom (slučajni) - sve jedinice posmatranja (npr. osobe, domaćinstva) u populaciji imaju
šansu da budu uključene u uzorak, a verovatnoća da bilo koja od njih bude u uzorku može biti tačno
izračunata i
§ bez verovatnoće (neslučajni) - jedinice posmatranja iz populacije se biraju po principu njihove
dostupnosti ili istraživač smatra da one dobro predstavljaju populaciju. U ovom slučaju nepoznati
deo populacije je isključen, a uzorak može biti pristrasan.

Primer: Cilj istraživanja je bila ocena redovnog uzimanja terapije kod obolelih od arterijske hipertenzije.
Uzorak je formiran od pacijenata koji dolaze na kontrolne preglede. U ovom istraživanju uzorak je
pristrasno biran, jer se može pretpostaviti da pacijenti koji dolaze na kontrolne preglede redovnije
uzimaju terapiju. Zaključak takvog istraživanja bi mogao da se generalizuje samo na populaciju
hipertoničara koji dolaze na kontrolne preglede. Ukoliko bi istraživač želeo da zaključak generalizuje na
ukupnu populaciju obolelih od arterijske hipertenzije, morao bi da u istraživanje uključi ne samo
pacijenate koji dolaze na kontrolne preglede, već i pacijente koji ne dolaze, i na taj način dobije
reprezentativan uzorak za tu populaciju (obolelih od arterijske hipertenzije).

SLUČAJNI UZORCI
U ovom tipu uzoraka vrši se slučajna selekcija jedinica posmatranja i svaka jedinica posmatranja u
populaciji ima poznatu (jednaku i nezavisnu) verovatnoću (šansu) da uđe u uzorak. Razlozi zbog kojih
treba dati prednost slučajnim uzorcima u odnosu na neslučajne su:

1. slučajan način biranja jedinica redukuje pristrasnost u procesu biranja jedinica posmatranja za
uzorak i
2. prilikom korišćenja analitičkih statističkih metoda pretpostavlja se da su uzorci birani na slučajan
način.

Slučajan način biranja jedinica posmatranja za uzorak doprinosi većem kvalitetu studije. Tipovi slučajnih
uzoraka su:

• prost slučajan uzorak,


• sistematski uzorak,
• stratifikovani uzorak,
• klaster uzorak i drugi.

Prost slučajan uzorak


U prostom slučajnom uzorku sve jedinice posmatranja uzoračke populacije imaju jednaku verovatnoću
da uđu u uzorak, što se postiže korišćenjem tabela slučajnih brojeva ili, češće kompjuterski generisanog
procesa odabiranja (takođe korišćenjem slučajnih brojeva). Proces uključuje definisanje populacije i
identifikaciju uzoračkog okvira tj. numerisanog spiska svih dostupnih jednica posmatranja uzoračke
populacije. U uzorak se biraju one jedinice iz uzoračkog okvira čiji brojevi su izvučeni od strane generatora
slučajnih brojeva. Ukoliko se formira uzorak bez ponavljanja, jednom izabrani broj u daljem odabiru se
preskače tj. jedna jedinica može ući samo jednom u uzorak, a ukoliko se formira uzorak sa ponavljanjem
jedna jedinica posmatranja može ući više puta u uzorak.
Slika: Uzoračka populacija Slika: Prost slučajan uzorak

Primer: Istraživač raspolaže podacima bolničkog registra za obolele od multiple skleroze, u kome je
registrovano 150 obolelih. Na osnovu prethodno izračunate veličine uzorka od 30 ispitanika, istraživač
želi da odabere prost slučajan uzorak. Odlučuje da koristi generator slučajnih brojeva koji se nalazi na
Internet adresi www.random.org. Za minimalnu vrednost u generatoru unosi broj 1, a za maksimalnu
150. Postupak ponavlja do potrebne veličine uzorka od 30 ispitanika. Pacijente koji se u registru nalaze
na izvučenim brojevima uključuje u istraživanje.

Drugi generatori slučajnih brojeva na Internetu:

https://www.randomizer.org/

http://www.mathgoodies.com/calculators/random_no_custom.html

Sistematski uzorak
U ovom tipu uzorka, jedinice posmatranja se biraju sa liste uzoračke populacije izborom svake K-te
jedinice.
K predstavlja korak izbora (uzorački interval), koji zavisi od veličine uzoračke populacije i željene veličine
uzorka.
K = N / n, gde je N veličina uzoračke populacije, a n veličina uzorka

Kao i kod prostog slučajnog uzorka, najpre se formira uzorački okvir tj. numerisani spisak svih dostupnih
jednica posmatranja uzoračke populacije. Zatim se izračunava korak K=N/n . Prva jedinica posmatranja
odabira se pomoću generatora slučajnih brojeva (slučajni početak), a zatim se automatski odabira svaka
K-ta jedinica u uzorak.
Slika: Sistematski uzorak

Sistematski uzorak može dati korisne informacije ako kod jedinica u uzoračkoj populaciji postoji
uređenost po intenzitetu posmatrane karakteristike. Međutim, nije pogodan ako postoje ciklične
varijacije posmatrane karakteristike.
Primer: U istraživanju iz prethodnog primera, istraživač je odlučio da umesto prostog slučajnog, formira
sistematski uzorak veličine 30 ispitanika. Izračunao je korak: 150/30=5. Uz pomoć generatora slučajnih
brojeva odabrao je prvog pacijenta sa brojem 132 u registru. Dalje je iz registra odabran svaki peti
pacijent: 137, 142, 147, 2, 7, 12, 17, 22 itd.

Stratifikovani uzorak
Stratifikovani uzorak se primenjuje kod heterogenih populacija u odnosu na neku varijablu, npr. starosna
grupa, pol, geografska lokacija (stratifikujuća varijabla). Zbog toga se populacija deli na stratume iz kojih
se zatim bira slučajni uzorak (kao prost slučajan ili sistematski uzorak). Ovakav način odabira jedinica
posmatranja osigurava da svaka subpopulacija bude odgovarajuće zastupljena u uzorku.
Slika: Stratifikovani uzorak

Primer: Planirano je istraživanje čiji je cilj ispitivanje navika u ishrani. Na osnovu prethodnog iskustva zna
se da postoje određene razlike u navikama u ishrani između urbanih i ruralnih područja. Ova područja
nisu na reprezentativan način zastupljena u uzoračkoj populaciji. Zbog toga je populacija podeljena na
dva stratuma (urbano i ruralno područje) iz kojih su zatim odabrane jedinice posmatranja tako da uzork
bude reprezentativan.

Klaster uzorak
Kod ovog tipa uzorka, najpre se populacija deli na klastere (grupe), a zatim se na slučajan način biraju
klasteri koji ulaze u uzorak (tako da se na slučajan način biraju grupe - klasteri, a ne individue). Koristan
je kada je populacija velika ili geografski široko rasprostranjena. Često se primenjuje u istraživanjima gde
se populacija može podeliti prema teritorijalnom principu. Npr., klasteri mogu biti škole na teritoriji jedne
države, gde se prvo na slučajan način biraju klasteri (škole), a zatim se sve jedinice posmatranja (učenici)
iz klastera uključuju u uzorak, ili se odabira slučajan uzorak jedinica posmatranja (učenika) iz svakog od
izabranih klastera (višeetapni uzorak).

Slika: Prost slučajan uzorak Slika: Klaster uzorak


NESLUČAJNI UZORCI
Kada istraživači nisu u mogućnosti da izvrše uzorkovanje na slučajan način (zbog nedostupnosti jedinica
posmatranja, ograničenih resursa i dr.), istraživanja se sprovode na neslučajnim uzorcima.
Kod neslučajnih uzoraka verovatnoća odabira jedinica posmatranja u uzorak nije poznata, već postoji
tzv. selekciona pristrasnost. Elementi uzorka su odabrani na bazi sopstvene procene istraživača, pa
nedostaje objektivnost u odabiru uzorka. Rezultati sprovođenja istraživanja na ovom tipu uzoraka su
pristrasni, jer uzorci nisu sasvim pouzdani. Međutim, ove tehnike su pogodne i ekonomične za korišćenje.
Važno je napomenuti da valjanost generalizacije zaključaka sa neslučajnih uzoraka na osnovni skup
ostaje nepoznata.

U cilju smanjenja pristranosti istraživač bi trebalo:

1. da jasno definiše kriterijume za uključenje/isključenje jedinica u/iz uzorka;


2. da uzorak učini raznovrsnijim, npr. organizovanjem multicentrične studije;
3. da upotrebi statističke tehnike za otkrivanje pristranosti i pravilnu analizu podataka, kao što je
npr. analiza kovarijanse.

Tipovi neslučajnih uzoraka su:

• prigodni uzorak,
• kvota uzorak i
• namerni uzorak.

Prigodni uzorak
U prigodan uzorak istraživač uključuje lako dostupne jedinice posmatranja, npr. pacijente koji su lečeni
na odeljenju na kome radi. U ovom tipu uzorka može postojati pristrasnost u smislu da se lako dostupne
jedinice na neki način razlikuju od ostalih jednica, npr. pacijenti lečeni u bolnici imaju teže oblike bolesti
od onih koji se leče van bolnice. Varijanta ovog uzorka je uzorak po tipu “grudve snega” u kojem inicijalno
odabrane jedinice posmatranja angažuju druge jedinice npr. inicijalno anketirani angažuju za anketu
druge pogodne osobe.

Kvota uzorak
Populacija se najpre deli na kategorije, slično stratifikovanom uzorku, npr. po polu, a zatim se na
neslučajan način biraju jedinice posmatranja iz tih kategorija prema unapred utvrđenom broju (kvota),
čime se kontroliše broj jedinica posmatranja iz određene kategorije u konačnom uzorku.

Namerni uzorak
Istraživač bira one jedinice posmatranja koje poseduju određene karakteristike za koje smatra da
zadovoljavaju specifične zahteve istraživanja. U ovom tipu uzorka može postojati značajna pristrasnost u
postupku biranja jedinica posmatranja, ali se u medicini često koriste u tzv. pilot studijama, kada se
upravo želi određeni tip jedinica posmatranja u uzorku (za istraživanje inovativnog načina lečenja
pacijenata u terminalnom stadijumu karcinoma).
UZORAK I POPULACIJA
Parametri su numeričke karakteristike ili deskriptivne mere populacije, (npr. mere centralne tendencije i
mere varijabiliteta izračunate za populaciju). Parametri su nepromenljive vrednosti u populaciji.

Odgovarajuće numeričke karakteristike ili deskriptivne mere uzoraka (npr. mere centralne tendencije i
mere varijabiliteta izračunate za uzorak) nazivaju se (uzoračkim) statistikama.

Uobičajeno se populacioni parametri označavaju grčkim slovima, a uzoračke statistike latiničnim slovima:

Parametri populacije su često nepoznati i nepristupačni za merenje. Npr, prosečna visina studenata u
Srbiji je nepoznata i teško merljiva. Zbog toga računamo uzoračku statistiku koja se odnosi na parametar
od interesa, i na osnovu nje donosimo zaključak o populaciji.

Uzoračke raspodele
Raspodela uzoračkih statistika naziva se uzoračkom raspodelom:

• Uzoračka raspodela je raspodela verovatnoća svih mogućih vrednosti uzoračke statistike.


• Svaki uzorak sadrži različite elemente, te se vrednost uzoračke statistike razlikuje između različitih
uzoraka.
• Ove statistike prikazuju različite procene populacionih parametara.
• Uzoračka raspodela prikazuje kako se ove različite vrednosti raspodeljuju.

Dve vrlo važne uzoračke raspodele jesu uzoračka raspodela aritmetičkih sredina i uzoračka raspodela
proporcija. Poznavanje ovih raspodela je potrebno zbog ocene aritmetičke sredine ili proporcije u populaciji
(ocena parametra). U praksi bi bilo teško formirati veliki broj uzoraka u cilju dobijanja empirijske raspodele
aritmetičkih sredina ili proporcije, ali to i nije neophodno, jer se na osnovu aritmetičke sredine ili proporcije
jednog uzorka i poznavanja statističkih osobina uzoračkih raspodela može dati ocena nepoznatog parametra
u populaciji.
Statističke osobine uzoračkih raspodela sadržane su u jednoj od najvažnijih teorema u statistici – u centralnoj
graničnoj teoremi. Osobine centralne granične teoreme, na primeru uzoračke raspodele aritmetičke sredine,
su sledeće:

1. Aritmetička sredina uzoračke raspodele jednaka je aritmetičkoj sredini u populaciji μ


2. Standardna devijacija uzoračke raspodele aritmetičkih sredina naziva se standardnom greškom
aritmetičke sredine i jednaka je:
.
σ,- =
√(
Označava se takođe sa SD\bar{x}, SE\bar{x} ili SEM.
3. Ako je raspodela u populaciji normalna, uzoračka raspodela aritmetičkih sredina takođe teži ka
normalnoj raspodeli. Za dovoljno velike uzorke uzoračka raspodela aritmetičkih sredina teži ka
normalnoj raspodeli bez obzira na oblik raspodele u populaciji.
U formuli za standardnu grešku potrebno je poznavati standardnu devijaciju populacije. Kako je ona retko
poznata umesto nje koristimo standardnu devijaciju uzorka sd:

𝑠𝑑
𝑆𝐸#̅ =
√𝑛
EZR: Uzorkovanje

Primer: U bazi podataka Sistolni pritisak date su vrednosti sistolnog arterijskog pritiska 99 bolesnika sa
akutnim koronarnim sindromom.

1. Iz uzoračke populacije od 99 bolesnika sa akutnim koronarnim sindromom izabrati prost slučajan


uzorak od 10 bolesnika koristeći generator pseudo slučajnih brojeva u R konzoli.

Generisati 10 jedinstvenih brojeva bez ponavljanja za formiranje uzorka koristeći sledeću komandu:
sample(1:99,10,replace=F)

U navedenoj komandi 1:99 je uzorački okvir, odnosno, opseg dostupnih statističkih jedinica uzoračke
populacije, a sledeći broj 10 je broj traženih slučajnih brojeva. Sa svakom ponovljenom primenom
ove komande mala je verovatnoća da će biti dobijena ista kombinacija brojeva, a konkretan primer
generisanih brojeva izgledao bi:

Jedinice posmatranja sa tim rednim brojevima u uzoračkom okviru biće izabrane za uzorak.

Redni broj iz uzoračkog okvira:


95 62 79 19 58 25 76 32 11 23
Sistolni pritisak:
145 125 160 130 130 135 125 150 140 150

2. Iz uzoračke populacije od 99 bolesnika sa akutnim koronarnim sindromom izabrati sistematski


uzorak od 10 bolesnika:

Izračunati korak K=N/n=99/10=9,9≈10.


Prvu statističku jedinicu odabrati pomoću generatora pseudo slučajnih brojeva u R programu:
sample(1:99,1,replace=F)

U konkretnoj primeni ove komande generisan je slučajan broj 2. a dalje se izvlači svaka K-ta jedinica
tj. svaka 10-ta jedinica: 2, 12, 22, itd.
Redni broj iz uzoračkog okvira:
2 12 22 32 42 52 62 72 82 92
Sistolni pritisak:
140 125 140 150 170 115 125 145 140 135

3. Na osnovu izabranih jedinica posmatranja napraviti bazu podataka i uneti vrednosti za oba
uzorka.
4. Izračunati i uporediti deskritivne statističke mere za osnovni skup i oba uzorka.

Deskritivne statističke mere slučajnog uzorka u primeru iznose:

Deskritivne statističke mere sistematskog uzorka u primeru iznose:

Deskritivne statističke mere osnovnog skupa u primeru iznose:

Može se zapaziti da mere centralne tendencije (aritmetička sredina i medijana) imaju slične vrednosti
u sva tri slučaja. Standardna devijacija dobijena iz prostog slučajnog uzorka je manja od one u
osnovnom skupu. Interval varijacije dobijen na osnovu prostog slučajnog uzorka i sistematskog
slučajnog uzorka je manji nego u osnovnom skupu.

Prosečna vrednost glikemije u uzorku od 140 bolesnika iznosi 5.8 mmol/L. Navedena vrednost je:
o Populacioni parametar
o Uzoračka statistika
Statističko zaključivanje – ocenjivanje
populacionih parametara
Statističko zaključivanje:
• ocena parametara populacije i
• testiranje hipoteza.

Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa) donosimo
zaključke o populaciji (statističko zaključivanje).

Jedan od najvažnijih istraživačkih zadataka jeste ocena parametara u populaciji, najčešće aritmetičke sredine
ili proporcije. Parametre ne možemo izračunavati direktno, ali možemo dati njihovu ocenu korišćenjem
uzoračkih statistika. Uzoračka aritmetička sredina ili proporcija predstavljaju tačkaste ocene ovih parametara
u populaciji. Tačkasta procena predstavlja jednu vrednost kojom se aproksimira populacioni parametar.

Intervalna procena pruža više informacija o populacionoj karakteristici od tačkaste procene. Ona obezbeđuje
nivo poverenja za ovu procenu. Takva intervalna procena se naziva interval poverenja. Krajnje tačke intervala
poverenja nazivaju se granicama poverenja, a verovatnoća sa kojom se parametar nalazi unutar intervala
poverenja nivoom poverenja. Intervali poverenja se najčešće izračunavaju za nivo poverenja od 0.95 i 0.99
(95% i 99%).

Interval poverenja (IP)


• Prikazuje čitav raspon vrednosti kojima se procenjuje prava vrednost populacionog parametra
• Uzima u obzir varijacije u uzoračkoj statistici od uzorka do uzorka
• Zasnovan je na opservaciji dobijenoj iz jednog uzorka
• Pruža informaciju o tome koliko je uzoračka statistika blizu nepoznatog populacionog parametra
• Prikazuje se u smislu zadatog nivoa poverenja (Ne može nikad biti 100% IP)

Tumačenje IP
• Ukoliko bismo uzeli sve moguće uzorke veličine n i izračunali njihove aritmetičke sredine i
intervale, 95% (99%) svih intervala bi sadržalo pravu vrednost nepoznatog populacionog parametra
• Određeni interval može ali ne mora da sadrži pravu vrednost populacionog parametra

Opšta formula za sve IP:


tačkasta procena± (kritična vrednost)(standardna greška)

Kritična vrednost predstavlja broj koji granično razdvaja uzoračke statistike za koje je verovatno da će se
pojaviti od onih za koje to nije verovatno.
Standardna greška (SE) je mera odstupanja/variranja uzoračke statistike od prave vrednosti populacionog
parametra.

99% interval poverenja je sigurniji, ima manji rizik greške u odnosu na 95% interval poverenja. Istraživači ipak
češće koriste 95% interval poverenja jer su oni precizniji (uži interval) u odnosu na 99% interval poverenja.
Osim toga, na širinu intervala poverenja utiču veličina uzorka i varijabilitet. Širina intervala poverenja opada
sa povećanjem veličine uzorka i sa smanjenjem varijabiliteta.
Interval poverenja aritmetičke sredine

gde je:
𝑥̅ aritmetička sredina uzorka
sd standardna devijacija
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
μ aritmetička sredina populacije
𝑠𝑑3 predstavlja standardnu grešku aritmetičke sredine (SE)
√𝑛
t ∙ 𝑠𝑑3 predstavlja preciznost procene (E), koji odgovara polovini širine intervala poverenja
√𝑛

Primer 1: Baza Sistolna TA.xlsx sadrži podatke o sistolnom arterijskom pritisku slučajnog uzorka od 10
ispitanika sa akutnim koronarnim sindromom. Odrediti 95% interval poverenja aritmetičke sredine sistolnog
arterijskog pritiska za tu populaciju bolesnika.

Procedura u EZR-u
1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test

2) U dijalog prozoru koji se pojavio:

• u okviru polja Variable (pick one) odabrati varijablu


• u polju Confidence Level: ukucati traženi nivo poverenja

95% interval poverenja aritmetičke sredine sistolnog arterijskog pritiska u populaciji ispitanika sa akutnim
koronarnim sindromom:
130.4mmHg ≤ μ ≤147.6 mmHg
Interval poverenja proporcije

gde je:
p proporcija posmatranog događaja u uzorku
n veličina uzorka
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
=(%:=)
5 predstavlja standardnu grešku proporcije
$

=(%:=)
𝑡∙5 predstavlja preciznost ocene, što je istovremeno i polovina širine intervala poverenja.
$

Primer 2: Na uzorku od 155 učenika u jednoj opštini deformiteti skeleta su pronađeni kod 19 učenika. Odrediti
interval poverenja u kome se sa verovatnoćom 0.95 nalazi proporcija učenika sa deformitetom skeleta u toj
opštini.

Procedura u EZR-u
1) Kliknuti na: Statistical analysis→Discrete variables→Confidence interval for a proportion

2) U dijalog prozoru koji se pojavio:

• u polju Total number of samples ukucati veličinu uzorka


• u polju Number of events ukucati broj događaja od interesa
• u polju Confidence interval ukucati traženi nivo poverenja

Prozor sa rezultatima:

95% interval poverenja proporcije učenika sa deformitetom skeleta:

0.07≤ π ≤ 0.19
Testiranje hipoteza
Hipoteza je pretpostavka koja zahteva dokazivanje tj. donošenje zaključka o prihvatanju ili odbacivanju
hipoteze. Hipoteza koju postavlja istraživač je predikcija izvedena iz teorije koja se testira. U medicini
istraživačke hipoteze se najčešće proveravaju na osnovu podataka dobijenih iz uzorka, a zaključci se zatim
generalizuju na osnovni skup iz kojeg je dobijen uzorak. Istraživačke hipoteze u medicini mogu se
odnositi na različite istraživačke ciljeve:

1. U etiološkim studijama je cilj ispitati povezanost izloženosti nekom faktoru rizika i određenog ishoda:

a. Na primer, može biti postavljena istraživačka hipoteza da se pušači i nepušači razlikuju prema
učestalosti hroničnog bronhitisa. U ovom primeru, faktor rizika je navika pušenja, a ishod je pojava
bolesti – hroničnog bronhitisa.

b. U drugom primeru, može biti postavljena istraživačka hipoteza da se pušači i nepušači razlikuju
prema nivou karboksihemoglobina u krvi. Kao i u prethodnom, i u ovom primeru faktor rizika je
navika pušenja, a ishod je nivo karboksihemoglobina.

2. U prognostičkim studijama cilj je, za definisanu populaciju ispitanika, analizirati učestalost događaja i
vreme do njihovog nastupanja. Događaj može biti preživljavanje ili smrtni ishod, nastupanje remisije,
ozdravljenje, nastupanje recidiva, pojava komplikacija itd. Na primer, može biti postavljena istraživačka
hipoteza da je trajanje remisije u depresivnom poremećaju kraće kod pacijenata sa slabijim socijalnim
funkcionisanjem.

3. U studijama intervencije cilj je oceniti efektivnost nekog tretmana. Na primer, može biti postavljena
hipoteza da je antihipertenziv A efektivniji od antihipertenziva B.

4. U studijama o učestalosti bolesti može biti postavljena hipoteza o stopi prevalencije neke bolesti u
populaciji.

Statistička hipoteza je iskaz ili pretpostavka o populaciji.

Testiranje hipoteza je standardni statistički metod kojim se ispituje neki iskaz / tvrdnja / pretpostavka o
populaciji.

Procedura statističkog testiranja hipoteza (testiranja značajnosti) prolazi kroz nekoliko faza:

1. Formulisanje nulte i alternativne hipoteze


2. Izbor nivoa značajnosti ( α nivo)
3. Izbor statističkog testa
4. Izračunavanje statistike testa
5. Statistički zaključak: donošenje odluke o odbacivanju ili prihvatanju nulte hipoteze (samim tim i
odluke o prihvatanju ili odbacivanju alternativne hipoteze)

Nulta i alternativna hipoteza


Da bi neka istraživačka hipoteza mogla da se proveri statističkim metodama potrebno je da se postave
dve statističke hipoteze: nulta i alternativna.
Nulta hipoteza ili hipoteza koja se ovim procesom testira (H0) - hipoteza o nepostojanju razlike, na
primer da su dve populacione aritmetičke sredine jednake:
Ho : μ1 = μ2
Alternativna ili radna hipoteza (H1), iskaz o onome što istraživač veruje da je tačno u slučaju da
su uzorački podaci doveli do odbacivanja nulte hipoteze, na primer da se dve populacione aritmetičke
sredine razlikuju:
H1 : μ1 ≠ μ2
Primer 1: Za istraživačku hipotezu da se prosečne vrednosti karboksihemoglobina razlikuju između
pušača i nepušača, nulta i radna hipoteza glase:
H0 : μPušači = μNepušači
H1 : μPušači≠ μNepušači
u kojima je μ aritmetička sredina karboksihemoglobina u odgovarajućim populacijama pušača i nepušača.

Primer 2: Za istraživačku hipotezu da se učestalost hroničnog bronhitisa razlikuje između pušača i


nepušača, nulta i radna hipoteza glase:
H0 : πPušači = πNepušači
H1 : πPušači≠ πNepušači
u kojima je π proporcija hroničnog bronhitisa u odgovarajućim populacijama pušača i nepušača.

U postupku testiranja hipoteza, primenom statističkih metoda, testira se nulta hipoteza, posle čega je
moguće doneti samo jednu od dve moguće odluke:

1. Nulta hipoteza se prihvata, a odbacuje radna hipoteza i donosi se zaključak da ne postoji značajna
razlika između populacionih parametara. Na primer, ako je testirana jednakost aritmetičkih sredina
karboksihemoglobina pušača i nepušača, prihvatanjem nulte hipoteze donosi se zaključak da su one
jednake, odnosno da ne postoji razlika prosečnih vrednosti karboksihemoglobina između pušača i
nepušača.

2. Nulta hipoteza se odbacuje, a prihvata radna hipoteza i donosi se zaključak da postoji značajna
razlika između populacionih parametara. Na primer, ako je testirana jednakost aritmetičkih sredina
karboksihemoglobina pušača i nepušača, odbacivanjem nulte hipoteze donosi se zaključak da se one
razlikuju, odnosno da postoji statistički značajna razlika prosečnih vrednosti karboksihemoglobina
između pušača i nepušača.

Dvosmerna i jednosmerna alternativna hipoteza

Radna hipoteza formulisana kao H1: μ0≠ μ1 spada u dvosmerne (dvostrane, neusmerene) hipoteze, jer se
njome tvrdi da postoji razlika, ali ne i u kom smeru. Kada se radnom hipotezom tvrdi da postoji razlika u
jednom smeru, u pitanju je jednosmerna (jednostrana, usmerena) hipoteza. Jednosmerna radna hipoteza,
zavisno od tvrđenja o smeru razlike, može biti formulisana kao
H1 : μ1 < μ2, ili H1: μ1 > μ2.

Primer 3: U primeru 1 radna hipoteza je formulisana kao dvosmerna jer je cilj bio da se dokaže razlika,
bez očekivanja o smeru te razlike. Ista radna hipoteza mogla je biti formulisana i kao jednosmerna
hipoteza. Na primer, ako se tvrdi da je nivo hemoglobina veći kod pušača, radna hipoteza će imati oblik:
H1 : μPušači > μNepušači
Nivo značajnosti i greške u zaključivanju
U proceduri testiranja hipoteza moguća su četiri ishoda odlučivanja, u zavisnosti od toga da li se donese
odluka o prihvatanju ili odbacivanju nulte hipoteze i prave istine u populaciji (Tabela 1). Ishodi zavise od
onoga što saznajemo i odlučujemo na osnovu analize podataka iz uzorka, i onoga što predstavlja
apsolutnu istinu u populaciji. Dve ispravne odluke su odbacivanje netačne nulte hipoteze ili prihvatanje
tačne nulte hipoteze. Zaključci doneti statističkim metodama imaju probabilističku prirodu, odnosno uvek
uključuju komponentu slučajnosti. Ta slučajnost proističe iz toga što nismo u mogućnosti da opserviramo
kompletnu populaciju, koja je u teorijskom smislu beskonačna, već samo jedan njen deo, a to je uzorak.
Formiranje uzorka zavisi od slučajnosti. U ponovljenim biranjima uzorka mala je verovatnoća da ćemo
dobiti uzorak istog sastava, pa samim tim je moguće u ponovljenom istraživanju sa novim uzorkom
doneti i drugačiji zaključak. Zbog probabilističke prirode statističkog zaključivanja moguće je, osim
ispravne odluke, doneti i dve pogrešne odluke koje nazivamo greškama prvog odnosno drugog tipa:
1. Greška prvog tipa nastaje kada se odbaci tačna nulta hipoteza. Verovatnoća greške ovog
tipa obeležava se sa α

2. Greška drugog tipa nastaje kada se prihvati netačna nulta hipoteza. Verovatnoća greške
ovog tipa obeležava se sa β

U proceduri testiranja hipoteza moguće je napraviti samo jedan tip greške, a nikako obe istovremeno.
Oba tipa grešaka mogu imati važne posledice. Greška prvog tipa za posledicu ima donošenje zaključka o
postojanju efekta kada ga zapravo nema. Greška drugog tipa za posledicu ima donošenje zaključka da
ne postoji efekat kada ga zapravo ima.

Primer 4: Stvarno stanje je da novi skuplji lek A ima jednaku učestalost neželjenih dejstava kao i
stari lek B. U procesu testiranja hipoteza odbačena je nulta hipoteza, i donešen je zaključak da novi
lek A ima manju učestalost neželjenih dejstava. Napravljena je greška prvog tipa, koja za posledicu
ima nepotrebno veće troškove lečenja.

Primer 5: Stvarno stanje je da novi lek A ima manju učestalost neželjenih dejstava u odnosu na stari
lek B. U procesu testiranja hipoteza donešen je zaključak da ostaje da važi nulta hipoteza, odnosno
da novi lek A ima jednaku učestalost neželjenih dejstava kao i stari lek B. Napravljena je greška
drugog tipa, koja za posledicu ima nepropisivanje bezbednijeg leka, odnosno, leka sa manje
neželjenih dejstava.

Verovatnoće oba tipa grešaka moguće je u izvesnoj meri kontrolisati, pri čemu treba uzeti u obzir da su
one međusobno povezane: smanjivanje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće
greške drugog tipa, i obrnuto.
Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača. Maksimalno dozvoljena
verovatnoća greške prvog tipa koju istraživač prihvata u istraživanju predstavlja nivo značajnosti (α nivo).
Najčešće se za nivo značajnosti bira verovatnoća od 0.05, retko strožiji nivo od 0.01, a još ređe nivo od
0.001. Prelaskom sa nivoa značajnosti 0.05 na 0.01, smanjuje se verovatnoća greške prvog tipa, ali se
istovremeno povećava verovatnoća greške drugog tipa, tako da istraživači u zaključivanju najčešće biraju
nivo značajnosti od 0.05.

Verovatnoća greške drugog tipa zavisi od:

1.Odabranog nivoa značajnosti (α nivo)

2.Veličine uzorka. Povećanje veličine uzorka smanjuje verovatnoću greške i prvog i drugog tipa.
Povećanje uzorka je od većeg značaja za kontrolu greške drugog tipa, jer grešku prvog tipa istraživač
drži pod kontrolom izborom nivoa značajnosti.

3.Formulacije H1 kao dvosmerne ili jednosmerne. Greška drugog tipa manja je kod jednosmerne u
odnosu na dvosmernu radnu hipotezu.

4.Stvarne razlike ispitivane pojave. Na razliku ispitivanih parametara u populaciji istraživač ne može
da utiče, ali ako je ta razlika veća biće manja verovatnoća greške drugog tipa.

Komplement verovatnoće greške drugog tipa (1-β) naziva se snagom statističkog testa, koja predstavlja
verovatnoću odbacivanja nulte hipoteze kada je ona netačna. U istraživanjima se za donju prihvatljivu
granicu snage testa najčešće uzima verovatnoća od 0.80. Sve ono što je navedeno da utiče, ili može
poslužiti za kontrolu verovatnoće greške drugog tipa, takođe utiče i na snagu statističkog testa, ali u
obrnutom smeru. Prema tome, snaga statističkog testa biće veća ako je:

1. Odabran nivo značajnosti 0.05, a ne 0.01


2. Veći uzorak
3. H1 formulisana kao jednosmerna, ako takva formulacija ima svoju teorijsku osnovu
4. Veća razlika ispitivanih populacionih parametara.

Izbor statističkog testa


Za primenu svakog testa potrebno je ispuniti pretpostavke za njegovo izvođenje.

Parametarski statistički testovi bazirani su na ocenama jednog ili više populacionih parametara dobijenih
na osnovu uzoračkih podataka. Koriste se za testiranje hipoteza o populacionim parametrima i
pretpostavljaju normalnost raspodele u osnovnom skupu.

Neparametarski statistički testovi se koriste kada raspodela odstupa od normalne, kada su podaci
ordinalni ili su u vidu rangova. Neparametarski statistički testovi ne zahtevaju poznavanje oblika
raspodele u osnovnom skupu i normalnost raspodele, ne zahtevaju homogenost u smislu varijabiliteta, i
mogu biti primenjeni u svim uslovima u kojima nisu ispunjene pretpostavke za primenu parametarskih
testova.

Uopšte uzev, kada treba birati između parametarskih i neparametarskih testova, prednost treba dati
prvima kad god su ispunjeni uslovi za njihovu primenu jer imaju veću snagu u odnosu na druge. Za svaki
parametarski test postoji najmanje jedan ekvivalentan neparametarski test, koji se može primeniti, ali iz
navedenog razloga koji se odnosi na statističku snagu, neparametarske testove treba primeniti kada nisu
ispunjeni uslovi i kada nije adekvatno primeniti parametarske testove.
Izbor adekvatnog statističkog testa je jedna od važnih stavki za kontrolu grešaka prvog i drugog tipa u
procesu testiranja hipoteza.

Izbor adekvatnog testa zavisi od (1) ciljeva studije, (2) tipa podataka, (3) raspodele podataka i (4) broja i
tipa uzoraka . Na osnovu tih informacija istraživač se odlučuje za primenu konkretnog statističkog testa.

• Zavisno od cilja studije, u procesu testiranja hipoteza može se testirati značajnost razlike ili
značajnost povezanosti varijabli.
• Tip podataka (nominalni, ordinalni, numerički). Na primer, za nominalnie podatke moguću
primenu ima Pearsonov hi-kvadrat test, a za ordinalne podatke Mann-Whitney test.
• Normalnost raspodele je pretpostavka za primenu parametarskih testova.
• Dizajn studije
• Broj uzoraka. Na primer, za testiranje razlike dve aritmetičke sredine moguću primenu ima t-test,
a za testiranje razlike dve ili više aritmetičkih sredina moguću primenu ima ANOVA.
• Nezavisni ili zavisni uzorci
i. Nezavisni (nemečovani, nevezani) uzorci – jedinice u jednom uzorku su različite i nezavisne
od jedinica u drugom uzorku. Primer: jedan uzorak čine ispitanici izloženi štetnim
isparenjima, a drugi uzorak kontrolni ispitanici koji nisu izloženi. Testira se razlika
učestalosti arterijske hipertenzije, pri čemu moguću primenu ima hi-kvadrat test.
ii. Zavisni (vezani, korelisani) uzorci – jedinice jednog uzorka povezane su sa jedinicama
drugog uzorka. Zavisni uzorci nastaju:

• U dizajnu pre-posle kada se merenje vrednosti jedne varijable vrši na istim jedinicama
posmatranja dva ili više puta (ponovljena merenja). Primer: Uzorak čine ispitanici oboleli od
depresije. Izmeren je arterijski pritisak pre i 20 dana nakon započete terapije antidepresivima.
Testira se promena učestalosti hipotenzije (pre i posle primene antidepresiva) pri čemu moguću
primenu ima McNemarov test.
• Uparivanjem (mečovanjem) – svakoj jedinici posmatranja iz jednog uzorka odgovara jedna (ili
više) jedinica posmatranja iz drugog uzorka a koje su uparene prema nekoj varijabli. Primer: Jedan
uzorak čine ispitanici koji su izloženi štetnim isparenjima, a drugi uzorak, mečovan po polu i
starosti, čine neizloženi kontrolni ispitanici. Svaki ispitanik iz kontrolne grupe uparen je sa nekim
ispitanikom iz gupe izloženih – istog su pola i iste starosti. Testira se razlika učestalosti arterijske
hipertenzije između grupa, pri čemu moguću primenu ima McNemarov test.

Izračunavanje statistike testa


Svaki statistički test ima određenu proceduru izračunavanja, a rezultat tog izračunavanja je statistika
testa. Statistika testa ima poznatu raspodelu pod pretpostavkom važenja nulte hipoteze. U tabeli 2
prikazani su primeri nekih statističkih testova, nazivi njihovih statistika i njihovih raspodela.
Statistički zaključak
Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poređenja izračunate
(empirijske) statistike testa i kritične (granične, teorijske) vrednosti. Kritičnom vrednošću iz raspodele
statistike testa određeno je područje prihvatanja ili odbacivanja nulte hipoteze. Region odbacivanja
odgovara nivou statističke značajnosti (maksimalno dozvoljena verovatnoća greške prvog tipa). Kritična
vrednost zavisi od nivoa statističke značajnosti i od toga kako je formulisana alternativna hipoteza –
dvosmerno ili jednosmerno. Primera radi, u tabeli 3 date su kritične vrednosti z-testa u zavisnosti od
jednosmernog ili dvosmernog testiranja i nivoa značajnosti.

Razlog zbog čega je, na primer, 1.96 granična vrednost z-testa za dvosmerno testiranje i nivo značajnosti
od 0.05, je taj što z-statistika sledi normalnu raspodelu, a na osnovu tabela površina ispod krive
standardne normalne raspodele može se izračunati da z-statistika veća od 1.96 i manja od -1.96 odgovara
verovatnoći od 0.05, odnosno nivou statističke značajnosti od 0.05 (slika 1).

Slika 1. Region odbacivanja nulte hipoteze u z-testu, u dvosmernom


testiranju na nivou statističke značajnosti od 0.05.
Slično tome, za graničnu vrednost z-testa od 1.64, za jednosmerno testiranje i nivo značajnosti od 0.05,
na osnovu tabela površina ispod krive standardne normalne raspodele dobija se da z-statistika manja od
-1.64 ili veća od 1.64 (slika 2) odgovara verovatnoći od 0.05, odnosno nivou statističke značajnosti od
0.05.

Slika 2. Regioni odbacivanja nulte hipoteze u z-testu, u jednosmernom testiranju na nivou


statističke značajnosti od 0.05.
Prema tome, da bi nulta hipoteza, koja je testirana z-testom, bila odbačena na nivou značajnosti od 0.05
potrebno je da z-statistika bude jednaka ili veća od 1.96 u dvosmernom testiranju, odnosno jednaka ili
veća od 1.64 u jednosmernom testiranju.

Drugi način donošenja odluke o prihvatanju ili odbacivanju nulte hipoteze jeste uz primenu statističkog
softvera. U rezultatima testiranja hipoteza uz korišćenje statističkog softvera dobije se p-vrednost, koja
predstavlja verovatnoću opserviranih ili ekstremnijih razlika uzoračkih statistika pod pretpostavkom
važenja nulte hipoteze. Kada je ta verovatnoća manja od neke unapred zadate vrednosti, najčešće 0.05,
odbacujemo nultu hipotezu. U protivnom, kada je p-vrednost veća od 0,05 ostaje da važi nulta hipoteza.

Primer 6: Cilj istraživanja bio je ispitivanje razlike nivoa hlorida u serumu između ispitanika obolelih od
gihta koji redovno uzimaju terapiju i ispitanika koji neredovno uzimaju terapiju.
H0 : μRedovnaTH = μNeredovnaTH
H1 : μRedovnaTH ≠ μ NeredovnaTH

Na osnovu rezultata primenjenog statističkog testa doneta je odluka o prihvatanju nulte hipoteze,
odnosno zaključeno je da se oboleli od gihta koji redovno i neredovno uzimaju terapiju ne razlikuju
statistički značajno prema nivou hlorida u serumu.

Primer 7: Cilj istraživanja bio je ispitivanje razlike učestalosti neželjenih dejstava na CNS između dva leka
(atenolol i propranolol).
H0 : πAtenolol = πPropranolol
H1 : πAtenolol ≠ πPropranolol

Na osnovu prikupljenih podataka, od 57 ispitanika koji su primali atenolol, neželjena dejstva na CNS
zapažena su kod 3 (5%) ispitanika. Od 55 ispitanika koji su primali propranolol, neželjena dejstva zapažena
su kod 11 (20%) ispitanika. Kako su u pitanju nominalni podaci, adekvatnu primenu ima hi-kvadrat test.
Dobijena je hi-kvadrat statistika od 5.56. Na osnovu hi-kvadrat raspodele, i pod pretpostavkom važenja
nulte hipoteze, verovatnoća opserviranih razlika proporocija ili ekstremnijih, manja je od 0.05. Istraživač
odbacuje nultu hipotezu i prihvata alternativnu – donosi zaključak da je proporcija učestalosti neželjenih
dejstava na CNS veća u populaciji ispitanika koji koriste propranolol.

Donošenje odluke o prihvatanju ili odbacivanju nulte hipoteze primenom statističkog softvera
Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poređenja p-vrednosti i
odabranog nivoa statističke značajnosti. Nivo statističke značajnosti (alfa vrednost) je maksimalno
dozvoljena verovatnoća greške prvog tipa, i najčešće se odabira vrednost 0.05 (alfa = 0.05). Kada je p
vrednost jednaka ili manja od izabranog nivoa značajnosti (p ≤ 0.05), odbacuje se nulta i prihvata radna
hipoteza. U protivnom, ako je p-vrednost veća od odabranog nivoa statističke značajnosti (p > 0.05),
ostaje da važi nulta hipoteza.

Greška prvog tipa je:


o Prihvatanje netačne nulte hipoteze
o Greška u izboru ispitanika
o Odbacivanje tačne nulte hipoteze
o Izbor neadekvatnog testa
Studentov t-test
Studentov t-test za jedan nezavisna uzorka
Studentov t-test je parametarski analitički metod za testiranje hipoteza o populacionim prosečnim
vrednostima.

Studentov t-test je zasnovan na t raspodeli. Ova raspodela je slična normalnoj, ima zvonast oblik i
simetrična je. Sa povećanjem veličine uzorka postaje sve sličnija normalnoj raspodeli. Granične vrednosti
za odbacivanje nulte hipoteze zavise od toga da li se radi o dvosmernom ili jednosmernom testiranju,
izabranog nivoa značajnosti i od broja stepena slobode (DF), koji predstavlja broj podataka umanjen za
jedan u svakoj seriji podataka.

Pretpostavka za primenu t-testa jeste da ispitivana varijabla ima normalnu raspodelu u osnovnom skupu,
premda je test robustan na izvesno odstupanje od normalnosti. Ta robustnost raste sa povećanjem
uzorka.

Testiranje hipoteza o populacionim prosečnim vrednostima, jedan uzorak


Testiramo nultu hipotezu da je aritmetička sredina populacije, iz koje potiče uzorak veličine n, jednaka
nekoj specifikovanoj vrednosti:
H0: µ = µ0
gde je µ nepoznata aritmetička sredina populacije iz koje potiče uzorak, a µo je specifikovana vrednost
koja je pretpostavljena na osnovu ranijih istraživanja ili teorijskog modela. Na primer, ako na osnovu
ranijih istraživanja pretpostavljena aritmetička sredina populacije iznosi 5, nulta hipoteza ima formulaciju:

H0: µ = 5
odnosno, nulta hipoteza tvrdi da aktuelni uzorak potiče iz populacije sa aritmetičkom sredinom koja
iznosi 5. Ako na osnovu statistike testa odbacimo nultu hipotezu, onda prihvatamo alternativnu hipotezu
koja tvrdi da uzorak potiče iz populacije sa aritmetičkom sredinom koja je različita od specifikovane
vrednosti (u ovom primeru različito od 5).

Pretpostavke za izvođenje t-testa su:

1. Slučajno biran uzorak


2. Numerički podaci
3. Normalna raspodela u populaciji

Testiranje značajnosti razlike aritmetičkih sredina – jedan uzorak


Primer 1: Aritmetička sredina sistolne arterijske tenzije 10 bolesnika sa akutnim koronarnim sindromom
smeštenih na odeljenju za kardiovaskularne bolesti, na osnovu podataka iz fajla Sistolna TA.xlsx, iznosi
139 mmHg, a standardna devijacija sd=11.9 mmHg. Na osnovu prethodnih istraživanja očekivalo se da
će aritmetička sredina za tu populaciju bolesnika iznositi 145 mmHg. Da li se može reći da populacija iz
koje potiče aktuelni uzorak ima aritmetičku sredinu jednaku očekivanoj? Testirati na nivou značajnosti od
0.05.

Rešenje:
Hipoteze:
H0: µ=145
H1: µ≠145
1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test

2) U dijalog prozoru koji se pojavio:

o u okviru polja Variable (pick one) označiti varijablu


o u polju Null hypothesis: mu = ukucati vrednost očekivane aritmetičke sredine

3) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Zaključak: Dobijena p-vrednost veća je od 0.05 pa zaključujemo da se vrednost aritmetičke sredine


sistolne arterijske tenzije populacije iz koje potiče uzorak ne razlikuje od očekivanih vrednosti (t=1.585,
DF=9, p=0.147).
Studentov t-test za dva nezavisna uzorka
Testiramo nultu hipotezu da su aritmetičke sredine osnovnih skupova iz kojih su dobijeni uzorci
jednake: H0: µ1 = µ2. Radna hipoteze bi glasila: da su aritmetičke sredine različite: H1:μ1 ≠ μ2, (dvosmerno
testiranje), ili da je jedna veća od druge: H1: µ1 > µ2, H1: µ1 < µ2, (jednosmerno testiranje).

Uslovi za testiranje razlike aritmetičkih sredina t-testom su:

1. Normalnost raspodele podataka


2. Jednakost varijansi
3. Nezavisni uzorci (jedinica posmatranja može biti zastupljena samo u jednom uzorku pri čemu
izbor jedinica za jedan uzorak nema nikakav uticaj na izbor jedinica u drugom uzorku).

Primer Ispitivan je odnos nadmorske visine prebivališta i gustine mitohondrija u tkivu mišića kvadriceps
femoris. Podaci o gustini mitohodrija (%) dati su za ispitanike sa stalnim prebivalištem na nadmorskoj
visini do 200 m i preko 700 m. Ispitati da li se osobe sa različitim nadmorskim visinama prebivališta
razlikuju prema gustini mitohondrija.

U pitanju su dva nezavisna uzorka. Podaci ne odstupaju od normalosti, može se upotrebiti t-test za dva
nezavisna uzorka.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Nadmvisina.xlsx

2) Deskripcija podataka može se uraditi na sledeći način: Original


menu→Statistics→Summaries→Numerical summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Testirati normalnost raspodele obe podgrupe na način opisan u lekciji EZR - Provera normalnosti
raspodele.

4) Testirati jednakosti varijansi primenom Levene's Test for Homogenity of Variance koji se izvodi na
sledeći način: Original menu→Statistics→Variances→Levene`s test...

U dijalog prozoru koji se otvorio:


o u okviru polja Factors (pick one or more) odabrati varijablu koja definiše grupe
o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
o u delu prozora Center označiti mean
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Interpretacija vrednosti Levene's Test for Homogenity of Variance:

o Ako je p-vrednost veća od 0.05 prihvata se jednakost varijansi, pa će se u nastavku analize


primeniti t-test za jednake varijanse.
o Ako je p-vrednost manja od 0.05 ne prihvata se jednakost varijansi, pa će se u nastavku
analize primeniti t-test za nejednake varijanse.

5) t-test za dva nezavisna uzorka izvodi se klikom na liniju sa komandama: Statistical


analysis→Continuous variables→Two sample t-test

U dijalog prozoru koji se otvorio:


o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
o u okviru polja Grouping Variables with two levels (pick at least one): odabrati varijablu koja
definiše grupe. Grupišuća varijabla mora da ima dve kategorije
o u delu Assume equal variances? označiti Yes (t-test)
o kliknuti na dugme OK

6) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.

7) Zaključak: Aritmetička sredina gustine mitohondrija osoba sa nadmorskom visinom prebivlišta ispod
200 m iznosi 3.79% (sd 0.37%), a osoba sa nadmorskom visinom prebivališta iznad 700 m iznosi 4.97%
(sd 0.34%). Aritmetička sredina gustine mitohondrija osoba sa prebivalištem iznad 700 m nadmorske
visine statistički značajno je veća u odnosu na gustinu mitohondrija osoba sa prebivalištem ispod 200 m
nadmorske visine (t=13.697; p < 0.001).
______________
NAPOMENA: Ako je u t-testu vrednost statistike testa negativna, kao u našem primeru -13.73, istraživač
u izveštaju može izostaviti minus, pošto on govori samo o smeru razlike.
Studentov t-test za zavisne uzorke
Zavisni uzorci nastaju u dizajnu ponovljenih merenja ili mečovanjem (uparivanjem) sličnih jedinica iz
različitih uzoraka. Razliku aritmetičkih sredina zavisnih uzoraka možemo testirati t-testom za zavisne
uzorke (t-test korelisanih uzoraka, t-test mečovanih uzoraka – parova). Test je zasnovan na razlici pre-
posle ili razlici mečovanih parova vrednosti.
d = xpre – xposle (u dizajnu ponovljenih merenja)
d = xuzorak1 – xuzorak2 (kod mečovanih uzoraka)

Nulta hipoteza tvrdi da je aritmetička sredina ovih razlika jednaka nuli, a alternativna suprotno:
H0: µd = 0
H0: μd ≠ 0
Uslov za primenu t-testa za zavisne uzorke jeste normalnost raspodele podataka..

Primer: U studiji koja je dizajnirana po tipu pre-posle date su vrednosti sistolne arterijske tenzije pre
početka terapije i mesec dana nakon početka terapije. Radi se o istim ispitanicima koji su već opisani u
primeru 1 u lekciji o McNemarovom testu. Cilj istraživanja bio je da se ispita da li je došlo do promene
sistolne arterijske tenzije u posmatranom periodu.
Za ove podatke moguće je primeniti t-test jer podaci ne odstupaju od normalnosti.

Procedura u EZR-u:

1) Preuzeti i učitati bazu podataka Aritmije 2.xlsx

2) Deskripcija podataka za oba merenja može se uraditi na sledeći način: Original


menu→Statistics→Summaries→Numerical summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Testirati normalnost raspodele obe podgrupe na način opisan u lekciji EZR - Provera normalnosti
raspodele.

4) t-test za dva zavisna uzorka izvodi se klikom na liniju sa komandama: Statistical analysis→Continuous
variables→Paired t-test
U dijalog prozoru koji se otvorio:

o u okviru polja First variable (pick one) odabrati prvo merenje ispitivane varijable
o u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane varijable
o kliknuti na dugme OK

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

6) Zaključak: Aritmetička sredina sistolne tenzije pre terapije iznosila je 144±14 mmHg a posle tarpije
139±13 mmHg. Vrednosti sistolne tenzije statistički značajno su niže mesec dana posle terapije u odnosu
na vrednosti pre početka terapije (t=2.74, DF=90, p=0.007).

Primer: U studiji koja je dizajnirana po tipu mečovanih ispitanika date su vrednosti MCV (fL). Radi se o
istim ispitanicima koji su već opisani u primeru 2 u lekciji o McNemarovom testu. Cilj istraživanja bio je
da se ispita da li se vakcinisani i nevakcinisani razlikuju prema vrednosti MCV-a?.

Za ove podatke moguće je primeniti t-test jer podaci ne odstupaju od normalnosti.

Procedura u EZR-u:
1) Preuzeti i učitati bazu podataka Pneumokok 2.xlsx

2) Deskripcija podataka za obe grupe mečovanih ispitanika može se uraditi na sledeći način: Original
menu→Statistics→Summaries→Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.


3) Testirati normalnost raspodele obe podgrupe na način opisan u lekciji EZR - Provera normalnosti
raspodele.

4) T-test za dva zavisna uzorka izvodi se klikom na liniju sa komandama: Statistical analysis→Continuous
variables→Paired t-test

U dijalog prozoru koji se otvorio:

o u okviru polja First variable (pick one) odabrati ispitivanu varijablu grupe slučajeva
o u okviru polja Second variable (pick one) odabrati ispitivanu varijablu kontrolne grupe
o kliknuti na dugme OK

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

6) Zaključak: Aritmetička sredina MCV-a kod vakcinisanih iznosi 90±3.6 fL, a kod nevakcinisanih 90±3.9
fL. Vakcinisani i nevakcinisani ne razlikuju se statistički značajno prema vrednostima MCV (t=0.498,
DF=88, p=0.620).

Pretpostavke za izvođenje t-testa u testiranju značajnosti razlike aritmetičke sredine uzorka i


aritmetičke sredine populacije su:
o slučajno biran uzorak
o normalna raspodela u populaciji
o sve navedeno
o numerički kontinuirani podaci
Studentov t-test se koristi za testiranje hipoteza o:
o Statistikama
o Učestalostima
o Rangovima
o Populacionim prosečnim vrednostima i proporcijama
Hi-kvadrat test
Hi-kvadrat test slaganja
Hi-kvadrat testom slaganja testiramo hipotezu da li se učestalosti u populaciji, opažene i predstavljene
uzorkom, razlikuju od očekivanih učestalosti. Očekivane učestanosti određene su na osnovu ranijih
istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili pretpostavljene na neki drugi
način.

Primer 1: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140 osoba,
nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba i krvnu
grupu AB 7 osoba. Podaci se nalaze u dokumentu Krvne grupe.xlsx koji se može preuzeti sa naslovne
stranice kursa. Na osnovu ranijih istraživanja poznato je da je relativna učestanost tih krvnih grupa: O –
44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa razlikuju od očekivanih?
Testirati na nivou značajnosti od 0,05.

Rešenje:

Testiramo nultu hipotezu da se proporcije krvnih grupa u ispitivanoj populaciji ne razlikuju od proporcija
iz prethodnih istraživanja. Kako je u pitanju raspodela samo prema jednoj varijabli, a treba testirati da li
je raspodela proporcija u ispitivanoj populaciji jednaka proporcijama iz prethodnih istraživanja,
primenićemo hi-kvadrat test slaganja.

Hi-kvadrat test slaganja može se uraditi na sledeći način:

1) Sa naslovne stranice kursa, preuzeti i učitati bazu podataka Krvne grupe.xlsx

2) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Frequency distributions...

3) U dijalog prozoru koji se pojavio:


o u okviru polja Variables (pick one or more) odabrati varijablu za koju se izračunava Hi-
kvadrat test slaganja
o čekirati polje Chi-square goodness-of-fit test (for one variable only)
o kliknuti na dugme OK.

4) U dijalog prozoru koji se pojavio, ukucati očekivane učestalosti za sve kategorije ispitivane varijable,
pa kliknuti na dugme OK. Zbir očekivanih učestalosti mora da bude 1. Obratiti pažnju da je redosled
kategorija u dijalog prozoru po abecednom redu i da se može razlikovati od redosleda u zadatku.

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Hi-kvadrat test za r x k tabele


Lista primera u ovoj lekciji:

1. Hi-kvadrat, tabela 2 x 2, test nezavisnosti


2. Hi-kvadrat, tabela 2 x 2, test homogenosti
3. Hi-kvadrat, tabela 3 x 2
4. Hi-kvadrat, tabela 3 x 2 koja će posle sažimanja, zbog malih učestalosti, biti svedena na tabelu 2 x 2
Primer 1: Hi-kvadrat test, tabela 2 x 2, test nezavisnosti
Primer. Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i patološkog nalaza na jetri.
Formiran je slučajan uzorak, veličine 118 ispitanika, iz opšte populacije odraslih osoba. Ispitati da li su
patološke promene na jetri povezane sa konzumiranjem alkohola.

Procedura u EZR-u:
1) Preuzeti i učitati bazu podataka Alkohol i jetra cross-sectional.xlsx

2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete variables→Create two-way table and


compare two proportions (Fisher`s exact test)

3) U dijalog prozoru koji se pojavio:

o u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Compute Percentages označiti Row percentages za izračunavanje procenata po
redovima
o u delu Hypothesis Tests:
§ čekirati polje Chi-square test za izračunavanje Hi-kvadrat testa
§ čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti
o u delu Continuity correction of chi-square test: označiti No, da bi se Hi-kvadrat test
izračunao bez Yatesove korekcije
o kliknuti na dugme OK
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “Alkohol“ varijabla koja


definiše redove, a “Patološke promene na jetri” varijabla koja definiše kolone. Prikazani su i procenti
po redovima tabele kontingencije.

Sve očekivane učestalosti su veće od 5. Može se primeniti Hi-kvadrat test.

5) Zaključak: Učestalost patoloških promena kod konzumenata alkohola iznosi 38%, a kod
nekonzumenata 14%. Patološke promene su statistički značajno povezane sa konzumiranjem alkohola
(Hi-kvadrat = 7.65, DF = 1, p = 0.006).
Primer 2: Hi-kvadrat test, tabela 2 x 2, test homogenosti
Primer: Cilj u studiji slučaj-kontrola bio je ispitivanje konzimranja alkohola kao faktora rizika za patološke
promene na jetri. Iz populacije osoba sa patološkim promenama na jetri formiran je slučajan uzorak
veličine 60, a iz populacije uslovno zdravih slučajan uzorak veličine 104. Od svih ispitanika zabeležen je
anamnestički podataka o konzumiranju alkohola. Testirati hipotezu o homogenosti populacija sa i bez
patoloških promena na jetri prema proporciji konzumenata alkohola.

Razlika u proceduri u odnosu na primer 1 je što je u ovom slučaju u pitanju studija slučaj-kontrola kada
je najadekvatnije prikazati procente unutar ishodne varijable, što je u našem primeru varijabla Patološka
promena na jetri.

Procedura u EZR:

1) Preuzeti i učitati bazu podataka Alkohol i jetra case-control.xlsx

2) Procedura izvođenja hi-kvadrat testa i izrada tabela kontingencije sa opserviranim i očekivanim


učestalostima, opisana je u prethodnom primeru.

3) U prozoru sa rezultatima prikazani su se rezultati primenjene statističke procedure.

Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “Alkohol“ varijabla koja


definiše redove, a “Patološke promene na jetri” varijabla koja definiše kolone. Prikazani su i procenti
po kolonama tabele kontingencije.

Sve očekivane učestalosti su veće od 5. Može se primeniti Hi-kvadrat test.

4) Zaključak: Učestalost konzumiranja alkohola u populaciji ispitanika sa patološkim promena na jetri


iznosi 52%, a kod uslovno zdravih 35%. Proporcija konzumenata alkohola je statistički značajno veća u
populaciji ispitanika sa patološkim promenama na jetri (Hi-kvadrat = 4.58, DF = 1, p = 0.032).
Primer 3: Hi-kvadrat test, tabela 3 x 2
Opis podataka: Cilj u kohortnoj studiji bio je ocena povezanosti pušenja i oboljevanja od akutnih
respiratornih infekcija u toku zime. Formirane su tri kohorte: nepušači (85), pušači sa popušenih do 20
cigareta dnevno (73), i pušači sa popušenih preko 20 cigareta dnevno (68). Da li pušenje povezano sa
oboljevanjem od akutnih respiratornih infekcija?

Razlika ovog primera u odnosu na prethodna dva primera jeste dimenzija tabele koja je sada 3x2. U
ovom primeru u pitanju je kohortna studija pa je najadekvatnije prikazati procente unutar varijable koja
definiše kohorte, što je u našem primeru varijabla Pušenje.

Procedura u EZR:

1) Preuzeti i učitati bazu podataka Pusenje_ak.resp.xlsx

2) Procedura izvođenja hi-kvadrat testa i izrada tabela kontingencije sa opserviranim i očekivanim


učestalostima, opisana je u prethodnom primeru.

3) U prozoru sa rezultatima prikazani su se rezultati primenjene statističke procedure.

Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “Pušenje“ varijabla koja


definiše redove, a “Akutne respiratorne infekcije” varijabla koja definiše kolone. Prikazani su i procenti
po redovima tabele kontingencije.

Sve očekivane učestalosti ispunjavaju numerička ograničenja za primenu Hi-kvadrat testa.

4) Zaključak: Proporcija oboljevanja od akutnih respiratornih infekcija u toku zime kod nepušača iznosi
25%, kod pušača sa popušenih do 20 cigareta dnevno 38%, i kod pušača sa popušenih preko 20 cigareta
dnevno 46%. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano
sa pušenjem (Hi-kvadrat = 7.62, DF = 2, p = 0.022).
Primer 4: Hi-kvadrat test, tabela 3 x 2, koja će posle sažimanja, zbog malih učestalosti, biti svedena
na tabelu 2 x 2
Opis podataka: Radi se o istom israživanju kao i u primer 3, ali ovog puta sa manjim učestalostima zbog
čega će biti neophodno da se izvrši sažimanje susednih kategorija.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Pusenje_ak.resp_2.xlsx

2) Procedura izvođenja hi-kvadrat testa i izrada tabela kontingencije sa opserviranim i očekivanim


učestalostima, opisana je u prethodnom primeru.

3) U prozoru sa rezultatima prikazani su se rezultati primenjene statističke procedure.

U prozoru za poruke, dobijamo poruku upozorenja da je narušena aproksimacija za primenu hi-


kvadrat testa. U hi-kvadrat testu je dopušteno da maksimalno 20% ćelija može imati očekivane
učestalosti manje od 5. U našem primeru 33,3% ćelija ima manje učestalosti od 5. Zbog toga
pristupamo sažimanju susednih kategorija kako bi izbegli te male učestalosti.

U cilju lakše interpretacije rezultata, sažimanje treba obaviti po nekoj logičnoj osnovi. U našem primeru
objedinili smo kategorije pušača do 20 i preko 20 popušenih cigareta dnevno u jedinstvenu kategoriju
“pušača”.
Postojeća varijabla Pusenje ima sledeće kategorije:
• 1.Ne
• 2.Do 20 cigareta dnevno
• 3.Preko 20 cigareta dnevno
Cilj nam je u rekodiranju da dobijemo novu varijablu Pusenje2 koja će imati dve kategorije. Kategoriju
nepušača i kategoriju pušača:
• Ne
• Da
Kategorije 2.Do 20 cigareta dnevno i 3.Preko 20 cigareta dnevno varijable Pusenje, postaju kategorija Da
nove varijable Pusenje2:

Tabela 1 – Shema rekodiranja, starih u nove kategorije

4) Procedura rekodiranja u Excel-u:

a) Otvoriti Excel fajl u kom se nalazi baza podataka. Kliknuti desnim tasterom miša na redno slovo
kolone varijable koju želimo da rekodiramo (u našem slučaju A kolona). Na padajućem meniju
kliknuti levim tasterom miša na Copy.

b) Kliknuti desnim tasterom miša na redno slovo sledeće kolone, do varijable koju rekodiramo. Na
padajućem meniju kliknuti levim tasterom na Insert Copied Cells. Varijabla koju želimo da
rekodiramo iskopiraće se do originalne. Promeniti naziv rekodirane varijable u Pusenje2.

c) Kliknuti u liniji menija na Data pa na Filter. Alternativno filter se može aktivirati istovremenim
klikom na kombinaciju tastera Crtl+Shift+L.
d) Klikom na strelicu na dole iza naziva varijable otvara se padajući meni gde su prikazane sve
kategorije varijable koju želimo da rekodiramo. Selektovati željene kategorije koje treba spojiti (u
našem slučaju 1.Do 20 cigareta dnevno i 2.Preko 20 cigareta dnevno) pa kliknuti na OK i Excel će
prikazati samo te kategorije.

e) Ukucati Da umesto pomenutih naziva kategorija.

f) Kliknuti ponovo na Filter da bi ga deaktivirali i pojaviće se kompletna varijabla sa starom


kategorijom Ne i novom kategorijom Da.

g) Sačuvati bazu podataka i ponovo je učitati u EZR radi dalje analize.

Rekodiranje se može raditi i u originalnoj varijabli bez kopiranja sadržaja u novu kolonu. Preporučujemo
da se rekodiranje radi sa kopiranjem varijable zbog provere kodiranja i eventualnih drugih analiza sa
originalnom varijablom.

5) Dalja procedura izračunavanja podrazumeva primenu hi-kvadrat testa sa tabelom kontingencije 2 x 2


kao u primerima 1 i 2. U dijalog prozoru umesto stare varijable Pusenje označiti novu varijablu Pusenje2.

6) U prozoru sa rezultatima prikazani su se rezultati primenjene statističke procedure.


7) Zaključak je isti kao i u primeru 2 (promenjena je hi-kvadrat vrednost, DF): Proporcija oboljevanja od
akutnih respiratornih infekcija u toku zime kod nepušača iznosi 15%, a kod pušača 48%. Oboljevanje od
akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat =
5.25, DF = 1, p = 0.022).

Numerička ograničenja u tabelama kontigencije hi-kvadrat testa odnose se na:


o Opažene (empirijske) učestalosti
o Apsolutne učestalosti
o Očekivane (teorijske) učestalosti
o Relativne učestalosti
Ukoliko u tabelama kontigencije 3x2 nisu zadovoljeni numerički uslovi očekivanih učestalosti za
izvođenje hi-kvadrat testa potrebno je uraditi:
o Izbrisati kategorije sa malim učestalostima i uraditi hi-kvadrat test slaganja
o Sažimanje susednih kategorija i izvođenje hi-kvadrat testa ili Fišerovog testa tačne
verovatnoće preko tabela 2x2
o T-test za dva nezavisna uzorka
Kako se određuju očekivane učestalosti u Hi-kvadrat testu slaganja:
o EZR automatski određuje očekivane učestalosti.
o Oduzimanjem od apsolutnih učestalosti iz aktuelnog istraživanja.
o Brojanjem učestalosti pojave od interesa u aktuelnom istraživanju.
o Na osnovu ranijih istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili
pretpostavljene na neki drugi način.
Fisherov test tačne verovatnoće
Fisherov test tačne verovatnoće je alternativa hi-kvadrat testu za tabele 𝑟×𝑘r×k. Može se koristiti uvek,
bez obzira na učestalosti u tabelama kontingencije, pa i u slučajevima kada se ne može koristiti hi-kvadrat
test zbog malih učestalosti.

Primer: Cilj u studiji slučaj-kontrola bio je ispitivanje konzumiranja alkohola kao faktora rizika za arterijsku
hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je slučajan uzorak veličine 5, a iz
populacije uslovno zdravih slučajan uzorak veličine 6. Od svih ispitanika zabeležen je anamnestički
podataka o konzumiranju alkohola. Testirati hipotezu o homogenosti populacija sa i bez arterijske
hipertenzije prema proporciji konzumenata alkohola.

Zbog malih učestalosti (totalna učestalost manja od 20) nije moguće primeniti Pearsonov hi-kvadrat test.
Alternativa je primena Fisherovog testa tačne verovatnoće.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Alkohol i hipertenzija.xlsx

2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete variables→Create two-way table and


compare two proportions (Fisher`s exact test)

3) U dijalog prozoru koji se pojavio:


o u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Compute Percentages označiti Row percentages za izračunavanje procenata po
redovima
o u delu Hypothesis Tests: čekirati polje Fisher`s exact test za izračunavanje Fisherovog testa
tačne verovatnoće
o kliknuti na dugme OK.

4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “Alkohol“ varijabla koja


definiše redove, a “Hipertenzija” varijabla koja definiše kolone. Prikazani su i procenti po redovima
tabele kontingencije.

5) Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistički značajno prema proporciji
konzumiranja alkohola (Fisherov test tačne verovatnoće, p = 0.545).

Fisherov test tačne verovatnoće:


o Koristi se kao neparametarska alternativa t-testu za dva zavisna uzorka.
o Koristi se isključivo kada se zbog numeričkih ograničenja ne može koristiti hi-kvadrat test kao
njegova alternativa.
o Može se koristiti uvek, bez obzira na učestalosti u tabelama kontingencije, a obavezno kada
se zbog numeričkih ograničenja ne može koristiti hi-kvadrat test.
o Koristi se kao alternativa McNemarovom testu.
Test sume rangova (Mann-Whitney)
Test sume rangova
Test sume rangova je neparametarski metod koji se koristi kao alternativa Studentovom t-testu za dva
nezavisna uzorka. Primenjuje se kada nisu ispunjeni uslovi za primenu t-testa (kada raspodela numeričkih
podataka nije normalna) ili se radi o ordinalnim ili rangiranim podacima. Ovim testom testira se nulta
hipoteza o jednakosti raspodela ili jednakosti medijana dve populacije.

U literaturi se pod ovim nazivom podrazumevaju dva testa: Wilcoxonov test sume rangova i Mann-
Whitney U test. Ova dva testa su ekvivalentna, pa otuda i naziv Wilcoxon-Mann-Whitney test.

Primer. Ispitati razliku koncentracije fibrinogena između ispitanika sa različitim nadmorskim visinama
prebivališta.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Nadmvisina.xlsx

2) Deskripcija podataka može se uraditi na sledeći način: Original menu→ Statistics→ Summaries→
Numerical summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Test sume rangova izvodi se klikom na liniju sa komandama: Statistical analysis→Nonparametric


tests→Mann-Whitney U test

4) U dijalog prozoru koji se otvorio:


o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu.
o u okviru polja Grouping Variables with two levels (pick at least one): odabrati varijablu koja
definiše grupe. Grupišuća varijabla mora da ima dve kategorije.
o kliknuti na dugme OK.

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.

6) Zaključak: Medijana koncentracije fibrinogena osoba sa nadmorskom visinom prebivališta ispod 200
m iznosi 2.66 g/L (opseg 2.03 – 4.91), a osoba sa nadmorskom visinom prebivališta iznad 700 m iznosi
2.62 g/L (opseg 1.80 – 4.83). Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine ne
razlikuju se statistički značajno prema koncentraciji fibrinogena (W = 744.5, p = 0.122).
______________
NAPOMENA:

• uz rezultate parametarskih testova (npr. t-test) kao meru centralne tendencije i meru varijabiliteta
prikazati aritmetičku sredinu i standardnu devijaciju, npr. 45.5±7.2 godine
• uz rezultate neparametarski testova zasnovanih na rangovima (npr. test sume rangova, test
ekvivalentnih parova) kao meru centralne tendencije i meru varijabiliteta prikazati medijanu i
opseg (od minimalne do maksimalne vrednosti), npr. 2.62 g/L (opseg, 1.80 – 4.83)

Testom sume rangova (Mann-Whitney test) testiramo:


o Razliku raspodele ili razliku medijana dva nezavisna uzorka
o Razliku aritmetičkih sredina dva zavisna uzorka
o Razliku aritmetičkih sredina dva nezavisna uzorka
o Razliku učestalosti kategorija nominalnih podataka
McNemarov test
McNemar
McNemarov test primenjuje se za ocenu značajnosti razlike učestalosti dihotomnih podataka koji potiču
od dva vezana (zavisna) uzoraka. Vezane uzorke mogu činiti (a) iste jedinice opservirane dva ili više puta,
ili (b) individualno mečovane jedinice dva uzorka.

Lista primera u ovoj lekciji:

1. Dizajn pre posle


2. Mečovani dizajn

Primer 1: DIZAJN PRE-POSLE


Opis podataka: U istraživanju cilj je bio oceniti efikasnost jednog antiaritmika. U dizajnu pre-posle, za 91
ispitanika registrovana je pojava ekstrasistola pre davanja i posle davanja antiaritmika. U ovom primeru
vezane uzorke činili su isti ispitanici, na kojima je u dva različita vremena registrovana pojava ekstrasistola.

Procedura u EZR-u:
1) Preuzeti i učitati bazu podataka Aritmije.xlsx

2) Tabela kontingencije i McNemarov test mogu se dobiti klikom na liniji sa komandama: Statistical
analysis→Discerete variables→Compare proportions of two paired samples (McNemar test)

U dijalog prozoru koji se pojavio:

o u okviru polja Row variable (pick one or more) odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one) odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Continuity correction: označiti No
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

4) Procenat ispitanika sa ekstrasistolama pre početka terapije, i posle terapije može se dobiti klikom na
liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions.

4) Zaključak: Učestalost ekstrasistola pre davanja leka iznosila je 74%, a posle davanja leka 52%.
Učestalost ekstrasistola je statistički značajno manja posle davanja leka (Hi-kvadrat=12,5; p< 0,001).

Primer 2: MEČOVANI DIZAJN


Opis podataka: U istraživanju cilj je bio ocena efektivnosti pneumokone vakcine kod starih osoba.
Odabrane su dve grupe: grupa vakcinisanih od 89 ispitanika i isto toliko nevakcinisanih
ispitanika individualno mečovanih prema starosti i zdrvstvenom statusu. Grupe su zatim upoređene
prema podatku o pneumokoknoj infekciji.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Pneumokok.xlsx

2) Tabela kontingencije i McNemarov test mogu se dobiti klikom na liniji sa komandama: Statistical
analysis→Discerete variables→Compare proportions of two paired samples (McNemar test)

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.


3) Procenat vakcinisanih i nevakcinisanih ispitanika obolelih od pneumokokne infekcije može se dobiti
klikom na liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions.

4) Zaključak: Učestalost pnumokokne infekcije kod vakcinisanih iznosi 21%, a kod nevakcinisanih 36%.
Pneumokone infekcije su statistički značajno manje učestale u populaciji vakcinisanih (Hi-kvadrat = 5.828,
p = 0.016). Vakcina je efikasna.

McNemarov test se može upotrebiti kod testiranja:


o Razlike aritmetičkih sredina nezavisnih uzoraka
o Razlike aritmetičkih sredina vezanih uzorka
o Razlike učestalosti dva nezavisna uzorka
o Razlike učestalosti dihotomnih podataka zavisnih uzoraka
Wilcoxonov test ekvivalentnih parova
Wilcoxonov test ekvivalentnih parova je neparametarski metod koji se koristi kao alternativa
Studentovom t-testu za dva zavisna uzorka. Primenjuje se kada nisu ispunjeni uslovi za primenu t-testa
(odstupanje od normalnosti) ili se radi o ordinalnim ili rangiranim podacima. Koristi se kada podaci potiču
od dva vezana (zavisna) uzoraka: (a) u dizajnu pronovljenih merenja (pre-posle) kada su iste jedinice
opservirane dva ili više puta, ili (b) u individualno mečovanim uzorcima. Ovim testom testira se razlika
raspodele ili razlika medijana zavisnih uzoraka.

Primer U studiji koja je dizajnirana po tipu pre-posle date su vrednosti vrednosti Lp(a) pre početka
terapije i mesec dana posle tretmana u kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj
istraživanja bio je da se ispita da li je došlo do promene Lp(a) u posmatranom periodu.

Za ove podatke nije moguće je primeniti t-test jer podaci odstupaju od normalnosti (proveriti na način
opisan u lekciji R - Provera normalnosti raspodele), pa će biti upotrebljen Wilcoxonov test ekvivalentnih
parova.

Procedura u EZR: .
1) Preuzeti i učitati bazu podataka Aritmije 2.xlsx

2) Deskripcija podataka može se uraditi na sledeći način: Original menu → Statistics → Summaries →
Numerical summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Wilcoxonov test ekvivalentnih parova izvodi se klikom na liniju sa komandama: Statistical


analysis→Nonparametric tests→Wilcoxon`s signed rank test

U dijalog prozoru koji se otvorio:


o u okviru polja First variable (pick one) odabrati prvo merenje ispitivane varijable
o u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane varijable
o kliknuti na dugme OK

4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

5) Zaključak: Medijana vrednosti Lp(a) pre početka terapije iznosila je 17 mg/dL (opseg 9-57) a posle
terapije iznosila je 11 mg/dL (opseg 5-41). Vrednosti Lp(a) posle terapije statistički značajno su niže u
odnosu na vrednosti pre terapije (V = 2950.5, p<0.001).

Testom ekvivalentnih parova (Wilcoxonov test) testiramo:


o Razliku aritmetičkih sredina dva nezavisna uzorka
o Razliku raspodele ili razliku medijana zavisnih uzoraka
o Razliku aritmetičkih sredina zavisnih uzoraka
o Razliku učestalosti kategorija nominalnih podataka
Analiza varijanse – ANOVA
Analiza varijanse (ANOVA) je statistička metoda koja ukupan varijabilitet skupa podataka deli na više
komponenti. Ovaj metod ukupnu varijansu zavisne varijable razdvaja na komponente za koje se vezuju,
kao izvori variranja, nezavisne varijable – faktori.

Faktor je svaki uticaj, dejstvo ili promena koja se na neki način odražava na rezultujuće obeležje (ishodnu
varijablu). Faktor je najčešće tretman i predstavlja nezavisnu varijablu u eksperimentu, a njeni
nivoi/gradacije su pod kontrolom istraživača.

Faktori mogu biti: fiksni tj. organizovani (koji se analizom mogu identifikovati i kvantitativno
diskriminisati) i slučajni tj. rezidualni ili neorganizovani (koji se mogu samo opisati u ukupnom delovanju,
ali ne i razlagati).

Analogno tipovima faktora, tako postoje fiksni i slučajni efekti. Fiksni efekti su oni koji se mogu pripisati
faktorima čiji su svi nivoi/gradacije uključeni u studiju (primer: efekti tri različita hirurška tretmana).
Slučajni efekti su oni koji se mogu pripisati faktorima čiji su samo slučajno odabrani nivoi/gradacije
uključeni u studiju (primer: ispitivanje dužine hospitalizacije u nekoliko slučajno odabranih od svih
zdravstvenih ustanova).

Prema broju uključenih fiksnih i slučajnih faktora razlikuju se tri modela analize varijanse:

1. Model fiksnih efekata (Model I) - sadrži samo fiksne faktore, ovo je najčešće korišćen model analize
varijanse

2. Model slučajnih efekata (Model II) - sadrži samo slučajne faktore

3. Model mešovitih efekata (Model III) - sadrži bar jedan fiksni i bar jedan slučajni faktor.

ANOVA se koristi za testiranje razlike aritmetičkih sredina dve ili više populacija.

Zašto izbegavati simultanu upotrebu t-testa za poređenje više od dve aritmetičke sredine?
Korišcenje t-testa, kada je broj uzoraka veći od dva, vodi povećanju verovatnoće greške prvog tipa.
Verovanoća da se u simultanoj upotrebi t-testa napravi najmanje jedna greška prvog tipa iznosi

P = 1 – (1 – α)N,
gde je α nivo značajnosti, a N broj testiranja. Npr. ako je broj uzoraka 4, t-test se mora primeniti 6 puta
da bi se testirala razlika između svih mogućih parova uzoraka.
Pouzdana upotreba analize varijanse ograničena je sledećim pretpostavkama:
• Izbor eksperimentalnih jedinica je slučajan
• Randomizacija - slučajno dodeljivanje nivoa/gradacije faktora eksperimentalnoj jedinici
• Homogenost varijansi - populacione varijanse za svaku grupu su jednake
• Normalna raspodela rezultujućeg oboležja u svakoj grupi

Prve dve pretpostavke su odraz dizajna eksperimenta i ne mogu se analizom nadoknaditi, a druge dve
se mogu ispitati i nadoknaditi odgovarajućim statističkim postupcima.
Statistički testovi kojima se može proveriti pretpostavka o homogenosti varijansi su: Bartlett test, Leven`s
test, Hartley test, Sheffe-Box test i drugi, a smatra se da se homogenost varijansi prevazilazi kao problem
jednakom veličinom grupe za svaki nivo/gradaciju faktora.

Normalnost raspodele rezultujućeg obeležja se ispituje grafičkim i matematičkim metodama, a kao


mogući, ali ne uvek i uspešni, načini prevazilaženja ovog problema se navode veći broj eksperimentalnih
jedinica unutar grupa, kao i transformacije podataka.

Jednofaktorska analiza varijanse


Jednofaktorska ANOVA - poređenje aritmetičkih sredina uzoraka kada su jedinice posmatranja pod
dejstvom različitih nivoa jednog faktora (jednosmerna analiza varijanse).

Faktorska ANOVA- poređenje aritmetičkih sredina uzoraka kada su jedinice posmatranja pod dejstvom
različitih kombinacija nivoa dva faktora (dvosmerna analiza varijanse) ili više faktora. U ovom dizajnu
može se otkriti interakcija faktora.

Opšti model jednofaktorske analize varijanse je: Y=X+Z

gde je Y ukupan varijabilitet među eksperimentalnim jedinicama, X varijabilitet čije je poreklo u dejstvu
faktora, a Z slučajan tj. neobjašnjen varijabilitet.

ANOVA omogućava simultano poređenje bilo kojeg broja aritmetičkih sredina upotrebom Fišerovog
varijansnog količnika (F-test). F-test je baziran na F statistici koja se izračunava kao odnos srednjih
kvadrata. Ako se testira razlika aritmetičkih sredina samo dve nezavisne populacije, F-test je ekvivalentan
t-testu.

U analizi varijanse, suma kvadrata podeljena brojem stepena slobode naziva se srednjim kvadratom.
Srednji kvadrat je ocena neke varijansne komponente: na komponentu koja nastaje zbog razlika
aritmetičkih sredina (srednji kvadrat između grupa) i komponentu koja nastaje zbog razlika samih
opservacija unutar grupa (srednji kvadrat unutar grupa, rezidual). Ako se populacione aritmetičke sredine
ne razlikuju, ove dve komponente će biti jednake. Ako populacione aritmetičke sredine razlikuju, srednji
kvadrat između grupa biće veći od srednjeg kvadrata unutar grupa. Na taj način, u analizi varijanse,
testiranje razlike aritmetičkih sredina zahteva testiranje razlike varijansnih komponenti primenom F-testa.
Tabela analize varijanse prikazuje rezultate analize varijanse: izvor (komponentu) varijabiliteta, sumu
kvadrata, broj stepena slobode, srednji kvadrat, F statistiku i p:

Post hoc testiranje – multiplo poređenje


Kada je sveukupni F test statistički značajan, od interesa je testirati između kojih grupa postoji statistički
značajna razlika. Metode post hoc testiranja:

• Tukey – najbolji balans odnosa greške prvog i drugog tipa


• Scheffe – prikladniji nego Tukey ako se veličine grupa razlikuju značajno
• Dunnett – kada treba porediti nekoliko grupa sa kontrolnom grupom
• Bonferroni – više konzervativan (manja je verovatnoća da će biti nađena statistička značajnost) u odnosu
na Tukey i Scheffe
• Newman-Keuls, Duncan, Fisher’s LSD – ne kotrolišu sveukupno alfa, više liberalni

Primer. Ispitivan je odnos pušenja i FEV1. Dati su podaci o FEV1 za pušače, pasivne pušače i
nepušače. Utvrditi da li postoji značajna razlika u vrednosti FEV1 između pušača, pasivnih pušača i
nepušača.

U pitanju su tri nezavisna uzorka. Podaci imaju normalnu raspodelu, može se primeniti ANOVA..

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Cotinine.xlsx

2) Deskripcija podataka može se uraditi na sledeći način: Original menu→ Statistics→ Summaries→
Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Homogenost varijansi za više od dve grupe može se testirati primenom Levene's Test for Homogenity
of Variance, što se u EZR-u postiže na sledeći način: Original menu→Statistics→Variances→Levene`s
test...
U dijalog prozoru koji se otvorio:

o u okviru polja Factors (pick one or more) odabrati varijablu koja definiše grupe
o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
o u delu prozora Center označiti mean
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Neophodno je da u Levene's Test for Homogenity of Variance bude p>0.05 i time se ispunjava
pretpostavka o homogenosti varijansi pa se može primeniti ANOVA. U našem primeru je p=0.584,
pa se ANOVA može primeniti.

4) Jednofaktorska analiza varijanse u EZR-u izvodi se klikom na liniju sa komandama: Statistical


analysis→Continuous variables→One-way ANOVA
U dijalog prozoru koji se otvorio:

o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu


o u okviru polja Grouping Variables (pick at least one) odabrati varijablu koja definiše grupe
o u delu Assume equal variances? označiti Yes (ANOVA)
o čekirati polje Pairwise comparison (Tukey) za post hoc testiranje između kojih grupa
postoji statistički značajna razlika
o kliknuti na dugme OK

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

U summary (AnovaModel) prikazani su rezultati analize varijanse:

o u slučaju da je p>0.05 treba doneti zaključak da ne postoji statistički značajna razlika


aritmetičkih sredina između ispitivanih grupa
o ako je u ovoj tabeli p≤0.05, razlika aritmetičkih sredina je statistički značajna, i u tom slučaju
treba uraditi multiple komparacije da bi videli između kojih aritmetičkih sredina postoji
statistički značajna razlika
U tabeli Tukey multiple comparisons of means prikazane su začajnosti razlika aritmetičkih sredina
između grupa.

EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.

6) Zaključak: Aritmetička sredina FEV1 pušača iznosi 91.4±10.6%, pasivnih pušača 96.9±12.3% i nepušača
99.6±11.1%. Između pušača, pasivnih pušača i nepušača postoji statistički značajna razlika aritmetičkih
sredina FEV1 (F = 4.6; DF = 2, 102; p = 0.012).

Razlika aritmetičkih sredina FEV1 je statistički značajna između Pušača i Nepušača (p = 0.010), ali nije
statistički značajna između Pušača i Pasivnih pušača (p = 0.116), niti između Pasivnih pušača i Nepušača
(p = 0.575).

Kada je broj uzoraka veći od dva, simultana upotreba t-testa vodi:


• smanjenju verovatnoće greške prvog tipa
• povećanju verovatnoće greške prvog tipa
Od testova za multiplo poređenje najbolji balans odnosa greške prvog i drugog tipa poseduje:
• Tukey test
• Dunnettov test
Kruskal-Wallis test
Kruskal-Wallis test je neparametarski statistički test za poređenje dva ili više nezavisnih uzoraka kada su
podaci bar ordinalni. Može se smatrati ekstenzijom testa sume rangova (Mann-Whitney testa) a takođe
predstavlja i ekvivalent jednosmernoj analizi varijanse kada uslovi za njenu primenu nisu ispunjeni.

Testiramo nultu hipotezu o jednakosti raspodele ili jednakosti medijana dve ili više populacija.

Test statistika se bazira na rangovima i računa po sledećoj formuli:

gde je N ukupan broj jedinica posmatranja, n broj jedinica posmatranja u pojedinačnoj grupi, R suma
rangova unutar pojedinačne grupe i k broj grupa

Analogno post hoc testiranju nakon jednofaktorske analize varijanse, za multipla poređenja
nakon Kruskal-Wallis testa se mogu koristiti sledeće metode korekcije Mann-Whitney testa:

• Bonferroni - veoma stroga metoda koja kontroliše grešku prvog tipa tako što odabrani nivo
značajnosti deli brojem potrebnih međugrupnih poređenja
• Holm - metoda koja se smatra pristupačnijom u odnosu na Bonferoni, kontroliše grešku prvog
tipa tako što najnižu dobijenu p vrednost poredi sa odabranim nivoom značajnosti koji se za svako
naredno poređenje smanjuje
• Steel - metoda jednako adekvatna kao i Bonferoni, koja uključuje još jedan nivo kontrole greške I
tipa za multipla poređenja

Primer 1. Ispitivan je odnos pušenja i koncentracije kotinina u krvi (ng/mL). Dati su podaci o kotininu za
pušače, pasivne pušače i nepušače.

U pitanju su tri nezavisna uzorka. Raspodele podataka odstupaju od normalne i ne može se primeniti
ANOVA. Drugi razlog što ne može biti primenjena ANOVA jeste heterogenost varijansi, što se može
proveriti primenom Levene testa u okviru ANOVA procedure.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Cotinine.xlsx

2) Deskripcija podataka može se uraditi na sledeći način: Original


menu→Statistics→Summaries→Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.


3) Kruskal-Wallis test izvodi se klikom na liniju sa komandama: Statistical analysis→Nonparametric
tests→Kruskal-Wallis test

U dijalog prozoru koji se otvorio:

o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu.


o u okviru polja Groups (pick one) odabrati varijablu koja definiše grupe.
o čekirati polje Pairwise comparison (Holm) za post hoc testiranje između kojih grupa postoji
statistički značajna razlika
o kliknuti na dugme OK.

4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

o u slučaju da je p>0.05 treba doneti zaključak da ne postoji statistički značajna razlika


medijana između ispitivanih populacija
o ako je p≤0.05, razlika medijana je statistički značajna, i u tom slučaju treba uraditi multiple
komparacije da bi videli između kojih grupa postoji statistički značajna razlika medijana
U tabeli Pairwise comparisons using Mann-Whitney U test prikazane su začajnosti razlika medijana
između grupa.

EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.

5) Zaključak: Medijana kotinina pušača iznosi 43,6 ng/mL (opseg 19,7-163,7), pasivnih pušača 2,9 ng/mL
(opseg 1,6-20,5) i nepušača 2,6 ng/mL (opseg 2,0-5,9). Između pušača, pasivnih pušača i nepušača postoji
statistički značajna razlika medijana kotinina (hi-kvadrat=68.3, DF=2, p<0.001)

Razlika medijana kotinina je statistički značajna između Pušača i Pasivnih pušača (p<0.001), kao i između
Pušača i Nepušača (p <0.001), ali nije statistički značajna između Pasivnih pušača i Nepušača (p = 0.700).

Kruskal-Wallis testom:
• Testira se hipoteza o jednakosti raspodele ili jednakost medijana dve ili više populacija
• Testira se hipoteza o jednakosti aritmetičkih sredina dve ili više populacija
Cochran Q test
Cochran Q test predstavlja proširenje McNemarovog testa i koristi se kada se ispituje uticaj jednog
eksperimentalnog faktora na rezultujuće obeležje dihotomnog karaktera u dizajnu blokova ili ponovljenih
merenja. Testira nultu hipotezu o jednakosti tri ili više skupova frekvencija.

Test statistika se izračunava po formuli:

gde je a broj gradacija faktora, b broj blokova ili ispitanika, G sume unutar gradacija, B sume unutar
blokova ili ispitanika. Ova statistika se raspodeljuje približno po Hi-kvadrat raspodeli sa a-1 stepeni
slobode.

Za multipla poređenja nakon Cochran Q testa može se koristiti McNemarov test.

Primer. Za grupu ispitanika prikupljeni su podaci o pojavi ekstrasistola pre, jedan i dva meseca meseca
posle započete terapije. Cilj istraživanja bio je da se ispita da li je došlo do promene učestalosti
ekstrasistola u posmatranom periodu.

Napomene:

Za primenu Cochran Q testa neophodno je da varijable koje se analiziraju budu kodirane sa brojevima
1 i 0, npr. postojanju ekstrasistola dati kod 1 a nepostojanju ekstrasistola kod 0.

EZR slaže varijable po abecedi i u izlazu rezultata prikazuje ih po tom redosledu. Radi lakšeg snalaženja,
kod ponovljenih merenja ili gde god je redosled varijabli bitan, preporuka je da se u nazivima tih varijabli
dodaju mala slova po abecednom redosledu, npr. a.Prvo_merenje, b.Drugo_merenje itd.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Aritmije 3.xlsx

Cochran Q test se izvodi se klikom na liniji sa komandama: Statistical analysis→Discerete


variables→Compare proportions of more than two paired samples (Cochran Q test)

U dijalog prozoru koji se pojavio:


o u okviru polja Pick 2 or more paired binary variables označiti 2 ili više varijabli koje moraju
da budu dihotomne
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

U slučaju da je p>0.05 treba doneti zaključak da ne postoji statistički značajna razlika učestalosti
ispitivane pojave u različitim vremenima. Ako je p≤0.05, razlike učestalosti su statistički značajne, i u
tom slučaju primenom McNemarovog testa utvrditi između kojih vremena postoji statistički
značajna razlika učestalosti.

U našem primeru je p<0.001, pa zaključujemo da se vremena statistički značajno razlikuju prema


učestalosti ekstrasistola. Primenjujemo McNemarov test za testiranje razlika parova vremena prema
proceduri koja je opisana ranije: Statistical analysis→Discerete variables→Compare proportions of
two paired samples (McNemar test)
3) Procenat ispitanika sa ekstrasistolama pre početka terapije, i posle terapije može se dobiti klikom na
liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions.

.
4) Zaključak: U posmatranom periodu došlo je do statistički značajne promene učestalosti ekstrasistola
(hi-kvadrat = 27.6, DF=2, p < 0.001). Učestalost ekstrasistola je značajno manja nakon prvog meseca
terapije (p=0.001) kao i nakon drugog meseca terapije (p<0.001), dok se učestalost ekstrasistola ne
razlikuje između prvog i drugog meseca (p=0.096).

Cochran Q test predstavlja proširenje:


o Hi-kvadrat testa
o Wilcoxonovog testa ekvivalentnih parova
o T-testa za zavisne uzorke
o McNemarovog testa
Friedmanov test
Friedmanov test predstavlja proširenje Wilcoxonovog testa ekvivalentnih parova i koristi se kada
pretpostavke za primenu ANOVAe nisu ispunjene uz prisustvo drugog kriterijuma za klasifikaciju (drugi
faktor - blok, ispitanici). Fridmanova dvosmerna analiza varijanse sa rangovima koristi se pri ispitivanju
uticaja jednog eksperimentalnog faktora na rezultujuće obeležje mereno ordinalnom ili višom skalom u
dizajnu bloka ili ponovljenih merenja.

Test statistika se izračunava po formuli:

gde je b broj blokova ili ispitanika u dizajnu ponovljenih merenja, a broj nivoa/gradacija
eksperimentalnog faktora, a R suma rangova unutar svake gradacije. Procedura se sastoji od rangiranja
podataka unutar ponovljenih merenja odnosno blokova.

Test statistika se raspodeljuje po Hi-kvadrat raspodeli sa a-1 stepeni slobode.

Fridmanov test testira nultu hipotezu o poreklu a uzoraka is iste populacije tj. da nema razlike u
prosečnim rangovima između a gradacija faktora.

Za multipla poređenja nakon Friedmanovog testa se može koristiti Wilcoxonov test.

Primer: U lekciji o Wilcoxonovom testu ekvivalentnih parova, u primeru 1, za svakog ispitanika bio je dat
par podataka za Lp(a): pre početka terapije i mesec dana posle. Sada je uključeno i treće merenje dva
meseca posle početka terapije. Cilj istraživanja bio je da se ispita da li je došlo do promene Lp(a) u
posmatranom periodu.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Aritmije 3.xlsx

2) Deskripcija podataka može se uraditi na sledeći način: Original menu→ Statistics→ Summaries→
Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Friedmanov test izvodi se klikom na liniju sa komandama: Statistical analysis→Nonparametric


tests→Friedman test

U dijalog prozoru koji se otvorio:


o u okviru polja Repeated-Measures Variables (pick two or more) odabrati varijable koje se
odnose na ponovljena merenja
o čekirati polje Pairwise comparison (Holm) za post hoc testiranje između kojih merenja
postoji statistički značajna razlika
o kliknuti na dugme OK.

4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

U slučaju da je p>0.05 treba doneti zaključak da se vremena ne razlikuju statistički značajno prema
intenzitetu pojave od interesa. Ako je p≤0.05, razlike su statistički značajne, i u tom
slučaju primenom Wilcoxonovog testa ekvivalentnih parova utvrditi između kojih vremena postoji
statistički značajna razlika.

U našem primeru je p<0.001, pa zaključujemo da se vremena statistički značajno razlikuju prema nivou
Lp(a). EZR je izračunao i Wilcoxonov test ekvivalentnih parova sa korekcijom po Holmu za sve parove
merenja.

U tabeli Pairwise comparisons using Wilcoxon signed rank test prikazane su začajnosti razlika
medijana između merenja sa korekcijom po Holmu.

5) Zaključak: Medijana vrednosti Lp(a) pre početka terapije iznosila je 17 mg/dL (opseg 9-57), mesec dana
posle terapije 11 mg/dL (opseg 5-41), i dva meseca posle terapije 9 mg/dL (opseg 5 - 32). U
posmatranom periodu došlo je do statistički značajnih promena Lp(a) (Hi-kvadrat = 54.358, DF=2, p <
0.001). Razlika je statistički značajna između svih posmatranih vremena prema Lp(a).

Friedmanov test predstavlja proširenje:


o T-testa za zavisne uzorke
o McNemarovog testa
o Hi-kvadrat testa
o Wilcoxonovog testa ekvivalentnih parova
Kontrola pridruženosti stratifikacijom
Pridruženost (confounding)
Pridruženost je izmenjena povezanost ispitivanog prediktora i ishoda, kada se ispitivane grupe razlikuju
prema nekoj drugoj varijabli. Ta druga, pridružena varijabla (kovarijata = kontrolna varijabla, kovarijabla,
konkomitantna varijabla, “konfaunder”, “confounding variate”, “extraneous variable”), nije deo glavnog
cilja istraživanja, ali je povezana i sa ishodom i sa ispitivanim prediktorom.

Pridruženost je uvek prisutna u izvesnoj meri u opservacionim studijama i kliničkim ogledima kada grupe
nisu formirane randomizacijom već su formirane same po sebi, npr. pacijenti koji su primili određeni
tretman na osnovu nekog kriterijuma.

Pridruženost se može kontrolisati ili izborom odgovarajućeg dizajna istraživanja (randomizacija,


mečovanje, restrikcija) ili statističkim metodama (stratifikacija, ANCOVA, regresioni modeli).

Stratifikacija
Stratifikacija je postupak ispitivanja povezanosti potencijalnog prediktora i ishoda na različitim nivoima
(stratumima) potencijalne pridružene varijable.

Porede se ocene povezanosti dobijene na totalnom uzorku sa ocenama povezanosti na nivou stratuma.

Ocene povezanosti (RR, OR) mogu biti:


• „Sirove“, „Unadjusted“ - dobijene na totalnom uzorku
• „Prilagođene“, „Adjusted“ - dobijene na nivou stratuma

Stratifikacija - postupak
1) Oceniti povezanost na totalnom uzorku (sirovi RR ili OR)

2) Ispitati povezanost potencijalne pridružene varijable sa ishodom i ispitivanim prediktorom.

a) Ako je nađena povezanost pridružene varijable i sa ishodom i sa ispitivanim prediktorom, pristupiti


stratifikaciji

b) Ako nije nađena povezanost pridružene varijable i sa ishodom i sa ispitivanim prediktorom,


stratifikacija nije potrebna

3) Ako se „sirove“ ocene ne razlikuju od „prilagođenih“, nema uticaja pridružene varijable – može se
prihvatiti „sirova“ ocena. Ako razlika postoji u relativnom iznosu od 10% ili više, to ukazuje na uticaj
pridružene varijable i treba saopštiti mere povezanosti na nivou stratuma.

Ako pridruženost postoji, za testiranje povezanosti ishoda i ispitivanog prediktora na osnovu


stratifikovanih podataka može se upotrebiti Mantel-Haenszel test.

Primeri kontrole pridruženosti stratifikacijom


Primer 1. kada je nađen uticaj pridružene varijable i kada su na kraju prihvaćeni i prezentovani rezultati
na nivou stratuma pridružene varijable: U istraživanju, dizajniranom po tipu studije preseka, cilj je bio
ocena povezanosti konzumiranja umerenih količina alkohola i osteoporoze u starosnoj dobi 60-65
godina.
.Procedura u EZR:
1) Preuzeti bazu podataka Alkohol i osteoporoza.xlsx i učitati je u EZR pod imenom
Alkohol_Osteoporoza

2) U prvom koraku analizira se povezanost varijabli od interesa, osteoporoze i konzumiranja alkohola. To


se postiže primenom Hi-kvadrat testa: Statistical analysis→Discerete variables→Create two-way table
and compare two proportions (Fisher`s exact test)

U dijalog prozoru koji se otvorio:

o u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Compute Percentages označiti Row percentages za izračunavanje procenata po
redovima
o u delu Hypothesis Tests:
§ čekirati polje Chi-square test za izračunavanje Hi-kvadrat testa
§ čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti
§ u delu Continuity correction of chi-square test: označiti No
§ kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Na osnovu hi-kvadrat testa može se zaključiti da postoji povezanost umerenog konzumiranja alkohola i
osteoporoze (Hi-kvadrat = 7.992, p = 0.005), i da osobe koje ne konzumiraju alkohol imaju 1.39 puta
veću šansu (OR = 219x627 / 188x527) da obole od osteoporoze.
Pre prihvatanja ovakvog zaključka treba proveriti mogući uticaj drugih varijabli u istraživanju. Na osnovu
prethodnih istraživanja poznato je da postoji povezanost pola i osteoporoze, odnosno da je osteoporoza
učestalija u ženskoj populaciji.

3) U aktuelnom istraživanju, primenom Hi-kvadrat testa, nađeno je da je konzumiranje alkohola učestalije


kod osoba muškog pola (Hi-kvadrat = 373.6, p < 0.001).

4) Osim toga, nađeno je da je osteoporoza učestalija kod osoba ženskog pola (Hi-kvadrat = 31.3, p <
0.001).

Nađena je povezanost varijable pol i sa potencijalnim prediktorom u ovom istraživanju (umereno


konzumiranje alkohola) i sa ishodom (osteporoza), što ukazuje na moguću pridruženost varijable pol.
Zbog toge će biti urađena analiza po stratumima ove varijable, odnosno posebno za osobe muškog pola
i posebno za osobe ženskog pola:

5) Analiza povezanosti u stratumu muškog pola:

a. prema uputstvu u dokumentu EZR Rad sa podskupom slučajeva iz baze podataka, na osnovu
varijable Pol izdvojiti stratum (podskup slučajeva) muškog pola: Active data set→Rows→Create
subset data set

U dijalog prozoru koji se otvorio:


o u polju Condition to extract samples ukucati: Pol=="Muski"
o u polju Name for new data set ukucati naziv za novokreiranog stratuma Muski
o kliknuti na dugme OK

b. primenom Hi-kvadrat testa analizirati povezanost konzumiranja alkohola i osteoporoze u


stratumu muškog pola.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Kod osoba muškog pola nije nađena povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.007, p = 0.934, OR = 1.017).

6) Analiza povezanosti u stratumu ženskog pola:

Identičnom procedurom kao za muški pol izdvojiti stratum ženskog pola.

Stratum ženskog pola izdvaja se iz osnovne baze podataka Alkohol i osteoporoza koja je učitana pod
nazivom Alkohol_Osteoporoza pa je potrebno prvo da se ona označi kao aktivna.

To se postiže klikom na naziv trenutno aktivne baze podataka Muski

U dijalog prozoru koji se otvorio

o označiti bazu Alkohol_Osteoporoza


o kliknuti na dugme OK

Identičnom procedurom kao za muški pol analizirati povezanost konzumacije alkohola i osteoporoze
primenom Hi-kvadrat testa.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Kod osoba ženskog pola nije nađena povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.005, p = 0.945, OR = 1.012).

Razlika između povezanosti koja je nađena na nivou čitavog uzorka (p = 0.005, OR = 1.39) i povezanosti
na nivou specifičnih stratuma (muški pol: p = 0.934, OR = 1.017, ženski pol: p = 0.945, OR = 1.012) ukazuje
da pol ima uticaj pridružene varijable, i da ne postoji povezanost umerenog konzumiranja alkohola i
osteoporoze.

7) Za ovako stratifikovane podatke povezanost se može testirati primenom Mantel-Haenszel testa.

Obratiti pažnju da se analiza radi na osnovu kompletne baze podataka Alkohol_Osteopoproza i da ona
treba da bude aktivna što se proverava na traci sa alatima.

Mantel-Haenszel test izvodi se klikom na liniju sa komandama: Statistical analysis→Matched-pair


analysis→Mantel-Haenzel test for matched proportions

U dijalog prozoru koji se otvorio.

o u polju Grouping variable (control=0, case=1) (pick one) odabrati grupišuću varijablu
o u polju Binary response variable (pick at least one) odabrati ishodnu varijablu
o u polju Stratifying variable for matching (pairpatch) odabrati varijablu koja definiše
stratume
o u delu Continuity correction of chi-square test: označiti No
o kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

8) Zaključak i prezentacija rezultata:


Tabela br 1: Raspodela ispitanika prema osteoporozi, umerenom konzumiranju alkohola i polu

.Kod osoba muškog pola ne postoji povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.007, p = 0.934, OR = 1.017).

Kod osoba ženskog pola nije nađena povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.005, p = 0.945, OR = 1.012)

Sveukupno, na osnovu stratifikovanih podataka po varijabli pol, ne postoji povezanost umerenog


konzumiranja alkohola i osteoporoze (Mantel-Haenszel hi-kvadrat = 0.011, p = 0.915).

Grafikon br 1: Raspodela ispitanika prema polu, umerenom konzumiranju alkohola i osteoporozi

Primer 2 kada nije nađen uticaj pridružene varijable: rezultate je dovoljno prezentovani na nivou totalnog
uzorka. U istraživanju, dizajniranom po tipu slučaj-kontrola, cilj je bio ocena povezanosti postoperativnih
komplikacija i tipa primenjene hirurške tehnike označenih kao A i B. Podaci su dati u fajlu Postoperativne
komplikacije.xlsx .

Postoji povezanost tipa operacije i pojave postoperativnih komplikacija (Hi-kvadrat = 9.13, p = 0.003).
Ispitanici podvrgnuti tipu A hirurškog zahvata imaju 2.16 puta veću šansu pojave postoperativnih
komplikacija.
Pre prihvatanja ovakvog zaključka istraživači su želeli da provere da li je prisustvo komorbiditeta faktor
koji je pravi uzrok razlike učestalosti komplikacija između tipa A i tipa B operativnog zahvata. U tu svrhu
ispitana je povezanost komorbiditeta sa ispitivanim prediktorom (tip operacije) i ishodom (pojava
komplikacija):

• Nije nađena povezanost komorbiditeta i pojave komplikacija (Hi-kvadrat = 0.14, p = 0.71).


• Nije nađena povezanost komorbiditeta i tipa operacije (Hi-kvadrat = 0.63, p = 0.43).

Ovo ukazuje da komorbidit ne ispoljava uticaj pridružene varijable na odnos tipa operacije i pojave
komplikacija (jer pridružena varijabla mora biti povezana kako sa prediktorom tako i sa ishodom).
Istraživač se može zadržati na prikazivanju rezultata na nivou totalnog uzorka, kao i zaključka koji je gore
već bio prikazan:

Tabela br 2: Raspodela ispitanika prema tipu operacije i pojavi komplikacija

Postoji povezanost tipa operacije i pojave postoperativnih komplikacija (Hi-kvadrat = 9.13, p = 0.003).
Ispitanici podvrgnuti tipu A hirurškog zahvata imaju 2.16 puta veću šansu pojave postoperativnih
komplikacija.

Grafikon br 2: Raspodela ispitanika prema komorbiditetima, tipu operacije i pojavi komplikacija

I pored toga što u prethodnoj analizi rezultati ne ukazuju na postojanje pridruženosti od strane varijable
starost, istraživač može da rezultate prikaže i po stratumima čime bi eventualno bila otkrivena interakcija.

U opservacionim studijama pridruženost:


o nikada nije prisutna
o je uvek prisutna u izvesnoj meri
Pridružena varijabla:
o deo je glavnog cilja istraživanja
o nije deo glavnog cilja istraživanja
Korelaciona analiza
Povezanost (asocijacija, zavisnost) dve varijable podrazumeva da su promene vrednosti jedne varijable
praćene promenom vrednosti druge varijable.

Primer 1: Kod obolelih od hronične bubrežne insuficijencije postoji povezanost vrednosti kreatinina
i ureje u serumu. Veće vrednosti kreatinina nalaze se kod obolelih koji istovremeno imaju i veće
vrednosti ureje u serumu, i obrnuto, manje vrednosti kreatinina nalaze se kod obolelih koji
istovremeno imaju i manje vrednosti ureje.

Primer 2: Postoji povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina.


Smanjeno zasićenje arterijske krvi kiseonikom, npr. usled dužeg boravka na velikim nadmorskim
visinama, povezano je sa većim vrednostima hemoglobina, i obrnuto, veće zasićenje arterijske krvi
kiseonikom povezano je sa manjim vrednostima hemoglobina.

Povezanost se uočava grafičkim metodom, a numeričkim metodama je merimo, ispitujemo i dokazujemo.

Tri karakteristike povezanosti koje treba ispitati:

Smer:

• Pozitivan (+)
• Negativan (-)

Stepen/jačina povezanosti
• Između -1 i 1 (Apsolutna vrednost označava jačinu)

Oblik/ forma/ funkcija


• Linearan
• Nelinearan

Povezanost može imati pozitivan ili negativan smer. U primeru 1, povezanost je pozitvna jer su veće
vrednosti jedne varijable povezane sa većim vrednostima druge varijable. U primeru 2, povezanost je
negativna, jer su veće vrednosti jedne varijable povezane sa manjim vrednostima druge varijable.

Povezanost ne podrazumeva obavezno postojanje kauzalnih odnosa između dve varijable, u smislu da je
jedna varijabla uzrok, a druga varijabla posledica. U primeru 1 između ureje i kreatinina ne postoji
kauzalan odnos (vrednost jedne materije ne utiču na drugu, i obrnuto), već koncentracije obe ispitivane
materije u plazmi zavise od niza drugih varijabli kao što su stopa glomerularne filtracije, unos proteinske
hrane itd. U primeru 2 između dve varijable postoji kauzalan odnos jer smanjenje zasićenja arterijske krvi
kiseonikom dovodi do povećanog stvaranja eritropoetina i do povećanja koncentracije hemoglobina.

Otkrivanje povezanosti grafičkom metodom


Dijagram rasturanja je tačkasti grafikon koji koristimo za otkrivanje povezanosti dve varijable. Dobija se
tako što se, za sve jedinice iz uzorka, vrednosti dve varijable nanose na x i y osu. Svaka jedinica iz uzorka
predstavljena je jednom tačkom čiji položaj odgovara preseku parova vrednosti dve varijable.
Primer 3: Za sedam ispitanika date su vrednosti ureje i kretinina:

Redni broj Ureja (mmol/L) Kreatinin (μmol/L)


1 27 280
2 29 320
3 16 210
4 18 175
5 20 270
6 23 250
7 22 260
Napraviti dijagram rasturanja u kome će se vrednosti ureje naneti na x osu, a vrednosti kreatinina na y
osu.

Procedura u EZR:
1) Formirati bazu podataka u Excel programu gde će se u prvom redu uneti nazivi varijabli (urea i
kreatinin) a u prvoj koloni redni broj jedinice posmatranja. Svaki sledeći red se odnosi na jedinicu
posmatranja.

2) Dijagram rasturanja može se dobiti odabirom sledećih komandi: Graphs and tables→Scatterplot.

U dijalog prozoru koji se pojavio:

o u okviru polja x-variable (pick one) odabrati varijablu koja ide na x osu.
o u okviru polja y-variable (pick one) odabrati varijablu koja ide na y osu.
o u delu Options odčekirati sva polja
3) U novom prozoru prikazan je dijagram rasturanja varijabli urea i kreatinin.

Primer 4: Za sedam ispitanika data su zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u
krvi:

Redni broj SaO2 (%) Hemoglobin (g/L)


1 90 140
2 75 195
3 80 165
4 95 170
5 83 175
6 70 210
7 92 160
Napraviti dijagram rasturanja u kome će se vrednosti SaO2 naneti na x osu, a vrednosti hemoglobina na
y osu.

Primer 5: Za sedam ispitanika date su vrednosti vitamina A i E u serumu:

Redni broj Vitamin C (μmol/L) Vitamin E (μmol/L)


1 77 28
2 95 24
3 57 16
4 85 18
5 46 26
6 67 26
7 78 22
Napraviti dijagram rasturanja u kome će se vrednosti vitamina C naneti na x osu, a vrednosti vitamina E
na y osu.

Poređenje dijagrama rasturanja

Dijagrami rasturanja u primerima 3 do 5 nam otkrivaju:

1. Pozitivnu povezanost ureje i kreatinina


2. Negativnu povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u krvi
3. Odsustva povezanosti vrednosti vitamina C i vitamina E u serumu

Dijagram rasturanja takođe može ukazati na linearnost ili nelinearnost povezanosti dve varijable. Linearna
povezanost podrazumeva grupisanje tačaka na dijagramu rasturanja oko prave linije kao što je to
prikazano na grafikonu 1. Nelinearna povezanost podrazumeva odstupanje od linearne povezanosti kao
što je to npr. prikazano na grafikonu 2.

Grafikon 1. Primer dijagrama rasturanja za linearnu Grafikon 2. Primer dijagrama rasturanja za nelinearnu
povezanost dve varijable povezanost dve varijable
Korelacija
Korelacija je statistički metod koji se koristi za merenje jačine i smera povezanosti između varijabli.
Koeficijent korelacije je statistika koja kvantifikuje jačinu (stepen) povezanosti među varijablama.

Vrednosti koeficijenta korelacije mogu biti u rasponu od -1 do 1. Predznak koeficijenta korelacije


pokazuje smer povezanosti: vrednosti od -1 do 0 postoje kod negativne povezanosti, a vrednosti od 0
do 1 kod pozitivne povezanosti. Vrednosti koje su bliske 0 ukazuju na odsustvo povezanosti.

Koeficijenti korelacije:

• Pearsonov koeficjent korelacije (r) i


• Spearmanov koeficijent korelacije ranga (ρ).

Pearsonovim koeficijentom korelacije (koeficijent linearne korelacije) merimo linearnu povezanost dve
varijable.

Varijable označene kao x i y mogu zameniti mesta bez uticaja na vrednost koeficijenta korelacije.
Linearnost povezanost podrazumeva da će se na dijagramu rasturanja tačke grupisati oko prave linije.

Osim linearnosti odnosa, preduslovi za primenu Pearsonovog koeficijenta korelacije su da obe varijable
moraju biti numeričke kontinuirane i da imaju normalnu raspodelu.

Statistička značajnost koeficijenta korelacije testira se t testom. Nulta hipoteza je da se ρ ne razlikuje od


0 (H0:ρ=0), odnosno da je korelacija u populaciji jednaka nuli. Odbacivanjem nulte hipoteze zaključujemo
da je korelacija dve varijable statistički značajna.

Spearmanov koeficijent korelacije rangova je neparametarski metod baziran na rangovima, i primenjuje


se kada:

• odnos između varijabli nije linearan,


• najmanje jedna varijabla nema normalnu raspodelu, ili
• najmanje za jednu varijablu podaci su ordinalni ili su dati u vidu rangova.

Statistička značajnost koeficijenta korelacije rangova testira se t testom. Nulta hipotezaje da se ρs ne


razlikuje od 0 (H0: ρs=0).

Statistička značajnost koeficijenta korelacije testira se t testom. Ako koeficijent korelacije nije statistički
značajan (p>0.05) može se zaključiti da između varijabli nema povezanosti. Ako je koeficijent korelacije
statistički značajan (p≤0.05) može se zaključiti da između varijabli postoji povezanost (zavisnost,
asocijacija), i može se interpretirati njegova vrednost u smislu smera i jačine povezanosti varijabli za koje
je koeficijent korelacije i izračunat. Jedan od predloženih načina za opisivanje jačine povezanosti dve
varijable na osnovu vrednosti koeficijenta korelacije je sledeći:
Primer 6: Za podatke iz primera 3 ispitati povezanost vrednosti ureje i kretinina.

Procedura u EZR:
1) Proveriti normalnost raspodele obe varijable prema uputstvu navedenom u prethodnim lekcijama.

2) Podaci su homogeni, CVurea=21,1% i CVkreatinin=18,8%, pa se može primeniti Pearsonov koeficijent


linearne korelacije, što se postiže preko sledeće komande:

Statistical analysis→Continuous variables→Test for Pearson`s correlation

U dijalog prozoru koji se otvorio:

o u okviru polja Variables (pick two) označiti varijable čiju povezanost želimo da ispitamo. Za
označavanje više varijabli odjednom držati pritisnut taster Ctrl na tastaturi i istovremeno
kliknuti na željene varijable.
o kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

Zaključak: Postoji statistički značajna jaka pozitivna povezanost ureje i kreatinina u serumu (r = 0.856; p
= 0.014).
Primer 7: Za deset bolesnika dati su skorovi na skali depresivnosti i vrednosti sistolne arterijske tenzije
(mmHg). Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo značajnosti 0.05.

Redni broj Skor depresivnosti Sistolna TA (mmHg)


1 23 139
2 19 109
3 26 113
4 23 128
5 19 124
6 17 105
7 23 116
8 26 135
9 20 120
10 19 124
.
Procedura u EZR:
1) Formirati bazu podataka u Excel programu i učitati je u EZR.

2) Pošto se depresivnost meri Hamiltonovom skalom za ocenu depresivnosti za analizu povezanosti


koristiće se Spearmanov koeficijent korelacije ranga, što se postiže pomoću komande:Statistical
analysis→Nonparametric tests→Spearman`s rank correlation test

U dijalog prozoru koji se otvorio:

o u okviru polja Variables (pick two) označiti varijable čiju povezanost želimo da ispitamo. Za
označavanje više varijabli odjednom držati pritisnut taster Ctrl na tastaturi i istovremeno
kliknuti na željene varijable.
o u okviru polja Method treba da bude čekirano Spearman
o kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.


Zaključak: Ne postoji statistički značajna povezanost depresije i sistolne arterijske tenzije (rs = 0,456; p =
0,185).

Ispitivana je povezanost sedimentacije eritrocita i broja leukocita u krvi kod ispitanika sa infektivnim
sindromom. Nađeno je da je povećana sedimentacija povezana sa povećanjem broja leukocita. O
kakvoj povezanosti se radi?
o Pozitivna povezanost
o Negativna povezanost
Svaka tačka na diagramu rasturanja predstavlja:
o zbir vrednosti y varijable
o pojedinačnu statističku jedinicu koja nosi podatke o vrednostima dve varijable (x i y)
o zbir vrednosti x varijable
Dati su podaci o telesnoj masi i telesnoj visini. Podaci imaju normalnu raspodelu, a na dijagramu
rasturanja ukazuju na linearnu povezanost. Da li je moguće primeniti Pearsonov koeficijent
korelacije?
o Da
o Ne
Da li je za ispitivanje povezanosti starosti ispitanika i zadovoljstva zdravstvenom zaštitom ispravno
primeniti Pearsonov ili Spearmanov koeficjent korelacije? Zadovoljstvo zdravstvenom zaštitom
mereno je primenom petostepene skale: od potpunog nezadovoljstva (vrednost 0) do potpunog
zadovoljstva (vrednost 4).
o Pearsonov koeficijent korelacije
o Spearmanov koeficijent korelacije
Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija vaskularne permeabilnosti i
perfuzionog pritiska iznosila je -0.11 (p=0.73).
o Postoji slaba negativna povezanost
o Postoji osrednja pozitivna povezanost
o Ne postoji povezanost
Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija kožnog prick testa i
radioallergosorbent testa iznosila je 0.41 (p=0.02).
o Postoji slaba negativna povezanost
o Postoji osrednja pozitivna povezanost
o Ne postoji povezanost
Statističko modelovanje – regresioni modeli
Linearna regresija
Regresiona analiza ispituje odnos između zavisne varijable (Y) i barem jedne nezavine varijable (X). Opšti
oblik regresionog modela predstavljen je regresionom funkcijom f između bar dve varijable - 𝑦=𝑓(𝑥).
Regresioni metod omogućuje ispitivanje smera i oblika povezanosti bar dve varijable.

Poznavanje oblika povezanosti služi definisanju kvantitativnog zakona povezanosti (koliko i u kom smeru
se menja jedna tj. zavisna varijabla, kada se menja druga, treća, ... n-ta nezavisna varijabla). Kvantitativni
zakon povezanosti je reprezentovan matematičkim modelom (regresionim modelom) tj. regresionom
jednačinom.

Četiri koraka u gradnji regresionog modela su:

1. Ispunjenost pretpostavki za korišćenje određenog modela


2. Izračunavanje parametara modela i njihova interpretacija
3. Slaganje modela sa postojećim skupom podataka
4. Validacija modela

Najčešći istraživački ciljevi koji se mogu realizovati metodom regresione analize su:

1. Ispitivanje kauzalnosti - utvrđena povezanost ne znači i nužnu kauzalnost


2. Deskripcija naučnih zakona - modelovanje je metod kojim se može u izvesnoj meri opisati neki
biološki fenomen
3. Predviđanje - nalaženje očekivanih vrednosti zavisne y za date vrednosti nezavisne x. Ovo je
najčešći način upotrebe regresione analize u primenjenim medicinskim istraživanjima.
4. Statistička kontrola - kontrola pridruženog/ih faktora
5. Poređenje zavisnih varijabiliteta - predstavlja poređenje bar dve regresione jednačine najčešće
standardizovanjem zavisne varijable
6. Zamena varijabli - često se primenjuje kada je zavisna varijabla teško merljiva ili se za njeno
merenje troše znatni resursi.

Jednostruka linearna regresija


Ako se za dve varijable pretpostavlja linearan odnos radi se o lineranom regresionom modelu, a
regresiona jednačina bi imala oblik:
𝑦=𝑎+𝑏𝑥
gde je y zavisna varijabla, a je regresiona konstanta, b je regresioni koeficijent, a x je nezavisna varijabla.

Četiri koraka u gradnji linearnog regresionog modela:


1. Ispunjenost pretpostavki
o Normalnost - subpopulacije zavisne varijable (Y) su normalno raspodeljene za svaku
vrednost nezavisne varijable (X)
o Linearnost - aritmetičke sredine subpopulacija zavisne varijable (Y) leže na pravoj liniji
o Nezavisnost - vrednosti zavisne varijable (Y) iz uzorka za jednu vrednost nezavisne (X) ni
na koji način ne zavise od vrednosti Y dobijene za neku drugu vrednost varijable X
o Jednakost varijansi - varijanse subpopulacija zavisne varijable (Y) su među sobom jednake.

2. Izračunavanje parametara modela i njihova interpretacija


Regresiona konstanta a predstavlja vrednost zavisne varijable Y za X=0 i predstavlja tačku u kojoj
regresiona linija seče y osu. Regresioni koeficijent b predstavlja vrednost za koju se zavisna varijabla (Y)
promeni za jediničnu promenu nezavisne varijable.

Slika. Regresioni koeficijent b i regresiona konstanta a

3. Slaganje modela sa postojećim skupom podataka


• testiranje nagiba
• određivanje koeficijenta determinacije (r2) - predstavlja kvadrat Pirsonovog koeficijenta linearne
korelacije. Može imati vrednosti od 0 do 1 tj. od 0 do 100%. Predstavlja procenat variranja zavisne
varijable koji može biti objašnjen variranjem nezavisne varijable.

4. Validacija modela - rešava problem precenjivanja (mogućnost dobijanja visoko značajnih ali
besmislenih rezultata zbog previše velikog broja prediktora u modelu). Validacija može biti: interna kada
se model validira na postojećem skupu podataka i eksterna kada se model validira na potpuno novom
skupu podataka

TUMAČENJE REGRESIONOG KOEFICIJENTA b


Primeri tumačenja regresionog koeficijenta b

• Primer 1: Ispitivana je povezanost obima struka (cm) i nivoa glikemije u krvi (mmol/L) kod osoba
obolelih od dijabetes melitusa, pri čemu je zavisna varijabla bila nivo glikemija, a nezavisna
varijabla obim struka.
Dobijena je regresiona jednačina 𝑦=−4,61+0,13∗𝑥y=−4,61+0,13∗x

Koliki se nivo glikemije u krvi očekuje za obim struka od 80 cm?


- Očekivana vrednost glikemije u krvi za obim struka od 80 cm iznosi 5,79 mmol/L.
Koliki se nivo glikemije u krvi očekuje za obim struka od 81 cm?
- Očekivana vrednost glikemije u krvi za obim struka od 81 cm iznosi 5,92 mmol/L.
Koliki se nivo glikemije u krvi očekuje za obim struka od 79 cm?
- Očekivana vrednost glikemije u krvi za obim struka od 79 cm iznosi 5,66 mmol/L.

Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna varijabla za
jediničnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jedinično povećanje obima struka (1
cm), nivo glikemije se povećao za b tj. 0,13, sa 5,79 mmol/L na 5,92 mmol/L. Takođe, za jedinično
smanjenje obima struka (1 cm), nivo glikemije se smanjio za b tj. 0,13, sa 5,79 mmol/L na 5,66 mmol/L.
• Primer 2: Ispitivana je povezanost visine sistolnog arterijskog pritiska (mmHg) i broja srčanih
otkucaja u minutu (srčana frekvenca) kod osoba iz opšte opulacije, pri čemu je zavisna varijabla
bio broj srčanih otkucaja u minutu, a nezavisna varijabla visina sistolnog arterijskog pritiska.

Dobijena je regresiona jednačina 𝑦=91,48−0,16∗𝑥y=91,48−0,16∗x

Koliki se broj srčanih otkucaja u minutu očekuje za nivo sistolnog arterijskog pritiska od 128 mmHg?
- Očekivan broj srčanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 128
mmHg iznosi 71.
Koliki se broj srčanih otkucaja u minutu očekuje za nivo sistolnog arterijskog pritiska od 129 mmHg?
- Očekivan broj srčanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 129
mmHg iznosi 70,84.
Koliki se broj srčanih otkucaja u minutu očekuje za nivo sistolnog arterijskog pritiska od 127 mmHg?
- Očekivan broj srčanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 127
mmHg iznosi 71,16.

Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna varijabla za
jediničnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jedinično povećanje nivoa sistolnog
arterijskog pritiska (1 mmHg), broj srčanih otkucaja se smanjio za b tj. 0,16, sa 71 mmHg na 70,84 mmHg.
Takođe, za jedinično smanjenje sistolnog arterijskog pritiska (1 mmHg), broj srčanih otkucaja se povećao
za b tj. 0,16, sa 71 mmHg na 71,16 mmHg.

INTERPOLACIJA I EKSTRAPOLACIJA
Postoje dva načina predviđanja linearnim regresionim modelima:

1. Interpolacija - korišćenje linearnog regresionog modela za predviđanje Y za nepoznato X koje je unutar


ispitivanog opsega

2. Ekstrapolacija - korišćenje linearnog regresionog modela za predviđanje Y za nepoznato X koje je van


ispitivanog opsega

PRIMER
Primer: Cilj u istraživanju bio je da se ispita odnos gubitka telesne mase i gubitka volumena plazme, u
dehidraciji koja nastaje kao posledica teškog fizičkog rada i znojenja. Za 57 ispitanika date su vrednosti
gubitka telesne mase (%) i gubitka volumena plazme (%). Odnos varijabli je analiziran regresionim
modelom, pri čemu je za nezavisnu varijablu uzet gubitak telesne mase, a za zavisnu varijablu gubitak
volumena plazme.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Plazma.xlsx

2) Prvi korak je izrada dijagrama rasturanja koji se dobija klikom na liniji sa komandama: Graphs and
tables→Scatterplot

Kod regresione analize, u dijagramu rasturanja, nezavisna varijabla se stavlja na x osu a zavisna varijabla
na y osu.
U dijalog prozoru koji se pojavio:

o u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
o u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
o u delu Options odčekirati sva polja
o kliknuti na dugme OK

U našem primeru nezavisna varijabla je Gubitak telesne mase, a zavisna varijabla je Gubitak
volumena plazme (%).

Na dijagramu rasturanja može se zapaziti pozitivna povezanost ove dve varijable u dehidraciji koja
je nastala znojenjem usled fizičkog napora: veći gubitak telesne mase praćen je većim gubitkom
volumena plazme.

.
3) Provera normalnosti raspodele. Proveriti normalnost raspodele obe varijable prema uputstvu
navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost obe varijable.

4) Sledeći korak je dobijanje regresione jednačine, što se postiže primenom komande: Statistical
analysis→Continuous variables→Linear regression

U dijalog prozoru koji se otvorio:

o u okviru polja Response variable (pick one) označiti zavisnu varijablu


o u okviru polja Explanatory variables (pick one or more) označiti nezavisnu varijablu
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.


U izlaznoj tabeli dobijamo da koeficijent determinacije iznosi 27.2% (Multiple R-squared: 0.2719),
što predstavlja procenat varijabiliteta zavisne varijable koji je objašnjen modelom.

U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijenta nagiba (koeficijent b) kao i njegovu
statističku značajnost.

Konstanta u regresionom modelu iznosi 6.16. Koeficijent nagiba iznosi 0.86, što znači da je 1 procenat
gubitka telesne mase praćen sa 0.86% gubitka volumena plazme. U produžetku istog reda nalazi se
rezultat testiranja značajnosti koeficijenta b.

Da bi nezavisna varijabla bila statistički značajan prediktor potrebno je da p bude jednako ili manje od
0.05.

Zaključak: gubitak telesne mase je statistički značajan prediktor gubitka volumena plazme. Prilikom
teškog fizičkog rada i znojenja gubitak telesne mase od 1% praćen je gubitkom volumena plazme od
0.86%.

Regresiona jednačina
Regresiona jednačina ima oblik:

Gubitak volumena plazme = 6.16 + 0.86 x Gubitak telesne mase

Prilikom izračunavanja regresione jednačine, EZR istovremeno u posebnom prozoru prikazuje i dijagram
rasturanja sa regresionom linijom:

Regresiona jednačina omogućava predikciju. Za zadatu vrednost gubitka telesne mase može se dati
predikcija gubitka volumena plazme. Na primer, za gubitak telesne mase of 3.5% oče–kuje su gubitak
volumena plazme od 9.17%

Gubitak volumena plazme = 6.16 + 0.86 x 3.5 = 9.17%


Višestruka linearna regresija
Višestruki regresioni modeli
Merenja koja vršimo u prirodnim (biološkim) situacijama po pravilu su složeno povezana. U pitanju su
multidimenzionalne pojave opisane velikim brojem varijabli i prirodno je da te varijable analiziramo
multivarijabilnim analitičkim metodama sve zajedno, a ne jednu po jednu.

Multivarijantne tehnike kojima se ispituju odnosi između dve grupe varijabli od kojih je jedna definisana
kao zavisne ili kriterijumske varijable, pripadaju grupi zavisnih metoda. One imaju za cilj da objasne ili
predvide jedno ili više kriterijumskih merenja na osnovu skupa prediktorskih (nezavisnih) varijabli. Jedna
od ovih metoda je i višestruka regresija.

Opšta formula višestrukog linearnog regresionog modela je:

gde su x1, x2, xn nezavisne (prediktivne) varijable, y zavisna (ishodna, rezultujuća) varijabla, 𝛼α regresiona
konstanta, β1 , β2, βn regresioni koeficijenti (nagibi) za svaku od nezavisnih varijabli i 𝜖ϵgreška.

Metoda višestruke linearne regresione analize se primenjuje kada je zavisna varijabla kontinuirana, a
nezavisne varijable u modelu mogu biti kontinuirane ili kategorijalne.

Načini odabira nezavisnih varijabli su:

• sve odjednom (Enter method)


• korak po korak (Stepwise) i to unapred (forward) ili unazad (backward)

Primer jednog višestrukog linearnog regresionog modela je dat u tabeli:

Evaluacija dobijenog regresionog modela podrazumeva:

1. Utvrđivanje nivoa slaganja sa empirijskim podacima


- testiranje nagiba - nagib regresione jednačine 𝛽β bi trebalo da je značajno različit od nule.
Ispitivanje ove hipoteze se može realizovati primenom analize varijanse ili primenom t
testa.
- određivanje koeficijenta determinacije (r2) - više vrednosti koeficijenta determinacije
govore u prilog boljem modelu tj. većem procentu objašnjenog variranja zavisne varijable
variranjem nezavisnih varijabli iz modela.

2. Utvrđivanje ispunjenosti pretpostavki za primenu linearnog regresionog modela - analiza


reziduala predstavlja vizuelno ispitivanje valjanosti pretpostavki za primenu linearnog
regresionog modela. To je alat za procenu da li regresiona linija dobro aproksimira sve
opservirane podatke zavisne za sve vrednosti nezavisne varijable. Rezidual je razlika između
opservirane vrednosti zavisne varijable i njene vrednosti ocenjene linijom regresije.

Problemi sa kojima se istraživač može susresti u okviru formiranja višestrukih regresionih modela:

• Kolinearnost - podrazumeva postojanje značajne povezanosti između nezavisnih varijabli (npr.


telesna masa i indeks telesne uhranjenosti). Može se ispitivati različitim metodama od kojih su
najpoznatije: VIF metod (Variance Inflation factor), Tolerance metod, koeficijent korelacije itd.
• Kontrola pridruženosti - potpuna kontrola pridruženih faktora u višestrukom regresionom
modelu prilagođavanjem varijabli praktično nije moguća ukoliko varijable nisu merene sa
varijansom koja je jednaka nuli.
• Precenjivanje - model može savršeno da se slaže sa podacima u određenom uzorku, ali da nema
nikakvu prediktivnu vrednost na novom uzorku

PRIMER: MULTIVARIJANTNA LINEARANA REGRESIJA


Primer: Na dostupnim podacima Framingamske studije iz 2014/15. godine čiji je cilj ispitivanje stope
incidencije i prevalencije kardiovaskularnih bolesti i njihovih faktora rizika, ispitivan je efekat starosti i
indeksa telesne uhranjenosti (BMI - body mass index) na sistolni arterijski pritisak.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka Framingham_20142015.xls.

2) Prvi korak je izrada dijagrama rasturanja za svaki par nezavisne i zavisne varijable (starost - sistolni
arterijski pritisak i indeks telesne uhranjenosti - sistolni arterijski pritisak) koji se dobija klikom na liniji sa
komandama: Graphs and tables→Scatterplot

U dijalog prozoru koji se pojavio:

• u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
• u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
• u delu Options odčekirati sva polja
• kliknuti na dugme OK

Ovaj postupak ponoviti za oba para varijabli tj. za starost i sistolni arterijski pritisak i indeks telesne
uhranjenosti i sistolni arterijski pritisak
Na dijagramu rasturanja može se zapaziti pozitivna povezanost između starosti i sistolnog arterijskog
pritiska, kao i između indeksa telesne uhranjenosti i sistolnog arterijskog pritiska. Sa većom starošću, kao
i sa većim indeksom telesne uhranjenosti, povećava se i sistolni arterijski pritisak.

3) Provera normalnosti raspodele. Proveriti normalnost raspodele sve tri varijable prema uputstvu
navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost sve tri varijable.

4) Sledeći korak je dobijanje regresione jednačine, što se postiže primenom komande: Statistical
analysis→Continuous variables→Linear regression
U dijalog prozoru koji se otvorio:

• u okviru polja Response variable (pick one) označiti zavisnu varijablu - sistolni arterijski pritisak
• u okviru polja Explanatory variables (pick one or more) označiti nezavisne varijable - starost i
indeks telesne uhranjenosti
• kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure:

U izlaznoj tabeli dobijamo da koeficijent determinacije iznosi 22.4% (Multiple R-squared: 0.224), što
predstavlja procenat varijabiliteta zavisne varijable koji je objašnjen modelom.

U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijente nagiba (koeficijente b1 i b2) kao i
njihovu statističku značajnost.

Konstanta u regresionom modelu iznosi 52,01.

Koeficijent nagiba nezavisne varijable starost (b1) iznosi 0,93 mmHg, što znači da je 1 godina starosti više
povezana sa porastom sistolnog krvnog pritiska za 0,93, a koeficijent nagiba nezavisne varijable indeks
telesne uhranjenosti (b2) iznosi 1,48, što znači da je jedinično povećanje indeksa telesne mase praćeno
povećanjem sistolnog arterijskog pritiska za 1,48 mmHg. U produžetku istog reda nalazi se rezultat
testiranja značajnosti koeficijenta b. Da bi nezavisna varijabla bila statistički značajan prediktor potrebno
je da p bude jednako ili manje od 0.05, što znači da su obe nezavisne varijable u navedenom višestrukom
regresionom modelu prediktori sistolnog arterijskog pritiska.

Regresiona jednačina ima oblik y = 52,01 + 0,93*x1 + 1,48*x2

Zaključak: Starost i indeks telesne uhranjenosti su statistički značajni prediktori sistolnog arterijskog
pritiska.

Regresiona analiza ispituje odnos između


o više zavisnih varijabli.
o jedne zavisne i barem jedne nezavisne varijable.
o više nezavisnih varijabli.
o isključivo jedne zavisne i jedne nezavisne varijable.
Regresioni koeficijent b predstavlja: vrednost za koju se zavisna varijabla (Y) promeni za jediničnu
promenu nezavisne varijable.
Regresiona konstata a predstavlja: vrednost zavisne varijable Y za X=0 i predstavlja tačku u kojoj
regresiona linija seče y osu.
U regresiji je (su):
o Obe varijable zavisne
o Obe varijable nezavisne
o Jedna varijabla nezavisna a druga zavisna
o Nije bitno koja varijabla je nezavisna a koja zavisna
Višestruka linearna regresija se koristi kada je:
o Zavisna varijabla kontinuirana, a nezavisne varijable isključivo kategorijalne.
o Zavisna varijabla kontinuirana, a nezavisne varijable kontinuirane ili kategorijalne.
o Zavisna varijabla dihotomna, a nezavisne varijable kontinuirane ili kategorijalne.
o Zavisna varijabla kontinuirana i nezavisne varijable isključivo kontinuirane.
Izbor statističkog testa
Izbor ispitanika i dovoljan broj jedinica
posmatranja
DOVOLJAN BROJ JEDINICA POSMATRANJA

Dovoljan broj jedinica posmatranja za ocenu proporcije

Primer 1 (Dovoljan broj jedinica posmatranja za ocenu proporcije):

Preuzeti i otvoriti Excel fajl Kalkulator veličine uzorka.xlsx

Odrediti dovoljan broj jedinica posmatranja za ocenu proporcije obolelih od reumatskih bolesti u
odrasloj populaciji. Pretpostavka je, na osnovu prethodnih istraživanja, da je ta proporcija oko 0.16 (16%).
Istraživač želi da dobije intervalnu ocenu preciznosti E = 2% (0.02).

Za izračunavanje veličine uzorka za interval poverenja proporcije potrebno je u kalkulator (Sheet: CI -


proporcije) uneti pretpostavku o proporciji ispitivane pojave u populaciji i preciznost (polovina širine
intervala poverenja).

Unošenjem ovih vrednosti u kalkulator dobijamo da je za dobijanje intervalne ocene, preciznosti 2% i


nivoa poverenja 95%, reumatskih bolesti u populaciji potrebna veličina uzorka od 1291 ispitanika.

Dovoljan broj jedinica posmatranja za ocenu aritmetičke sredine

Primer 2 (Dovoljan broj jedinica posmatranja za ocenu aritmetičke sredine):

Odrediti dovoljan broj jedinica posmatranja za ocenu aritmetičke sredine HDL u populaciji žena. Na
osnovu sličnih istraživanja pretpostavka je da aritmetička sredina iznosi 67 mg/dL, a standardna devijacija
25 mg/dL. ji. Istraživač želi da dobije intervalnu ocenu preciznosti E = 5 mg/dL, za nivo poverenja od 95%
i 99%.
Za izračunavanje veličine uzorka za interval poverenja aritmetičke sredine potrebno je u kalkulator uneti
pretpostavku o standardnoj devijaciji ispitivane pojave u populaciji, i preciznost (polovina širine intervala
poverenja).

Unošenjem ovih vrednosti u kalkulator dobijamo da je za dobijanje intervalne ocene preciznosti 5 mg/dL
i nivoa poverenja 95% potrebna veličina uzorka od 96 ispitanika, a za nivo poverenja od 99% potrebno
je 166 ispitanika.

Dovoljan broj jedinica posmatranja za testiranje razlike dve proporcije

Primer 3 (Dovoljan broj jedinica posmatranja za testiranje razlike dve proporcije):

Odrediti dovoljan broj jedinica posmatranja za testiranje razlike proporcija reumatoidnog artiritisa (RA)
između muškog i ženskog pola. Pretpostavka je, na osnovu prethodnih istraživanja, da je ta proporcija
oko 0.004 (0.4%) u muškom polu, i oko 0.009 (0.9%) u ženskom polu. Istraživač želi potrebnu veličinu
uzorka za testiranje na nivou značajnosti od 0.05 i za statističku snagu hi-kvadrat testa od 0.80 (80%).

Za izračunavanje veličine uzorka potrebno je u kalkulator (Sheet:Testiranje razlike dve prop.) uneti
pretpostavku o proporciji ispitivane pojave u populacijama.

Unošenjem ovih vrednosti u kalkulator dobijamo da je za testiranje razlike proporcija reumatoidnog


artritisa između muškog i ženskog pola, na nivou značajnosti od 0.05 i statističku snagu od 0.80, potrebno
4049 ispitanika po uzorku.
Dovoljan broj jedinica posmatranja za testiranje razlike dve aritmetičke sredine

Primer 4 (Dovoljan broj jedinica posmatranja za testiranje razlike dve aritmetičke sredine):

Odrediti dovoljan broj jedinica posmatranja za testiranje razlike aritmetičkih sredina triglicerida između
muškog i ženskog pola. Pretpostavka je, na osnovu prethodnih istraživanja, da je aritmetička sredina u
populaciji mušakaraca 105 mg/dL (±25), a u populaciji žena 85 mg/dL (±20). Istraživač želi potrebnu
veličinu uzorka za testiranje na nivou značajnosti od 0.05 i za statističku snagu t-testa od 0.80 (80%).

Za izračunavanje veličine uzorka potrebno je u kalkulator (Sheet: Testiranje razlike dve a.s.) uneti
pretpostavku o aritmetičkim sredinama i standardnim devijacijama ispitivane pojave u populacijama.

Unošenjem ovih vrednosti u kalkulator dobijamo da je za testiranje razlike aritmetičkih sredina triglicerida
između muškog i ženskog pola, na nivou značajnosti od 0.05 i statističku snagu od 0.80, potrebno 20
ispitanika po uzorku.

Neobavezno ali korisno:

Za izračunavanje veličine uzorka u gore opisanim situcijama ali i za mnoge druge statistički procedure
mogu se upotrebiti i dva besplatna programa za tu namenu koji se mogu skinuti sa adresa:

1. http://biostat.mc.vanderbilt.edu/wiki/pub/Main/PowerSampleSize/pssetup3.exe
2. http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-
register/Dokumente/GPower_3.1.5.zip

Za određivanje potrebnog broja jedinica posmatranja za testiranje razlike dve proporcije potrebno je
imati podatke o:
o Pretpostavljenim proporcijama
o Standardnim devijacijama
o Artimetičkim sredinama.
o Varijansama
Adekvatnost merenja
U svakom merenju postoji izvestan stepen neizvesnosti, koji može biti iskazan kao greška u merenju.
Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i slučajne greške. Sistematske greške
daju predvidive precenjene ili potcenjene vrednosti (npr. loše kalibrisani instrument koji daje uvek
precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka, slučajne greške nisu predvidive, i u
datom mernom procesu mogu dati i precenjene i potcenjene vrednosti. Greške u merenju nastaju
delovanjem različitih faktora kao što je to loša kalibracija instrumenta, neodgovarajuće vreme odziva
instrumenta u odnosu na promene merene varijable, uticaj samog instrumenta namerenu veličinu,
delovanje okoline, humani faktori – međuposmatrački i unutarposmatrački varijabilitet (npr. kako lekar
ocenjuje depresivnost pacijenta na nekoj skali). Slučajne greške nastaju i usled “šuma” - malih i brzih
promena u okolini ili u samom instrumentu koje mogu uticati na izmerenu vrednost.

Identifikacijom i smanjenjem grešaka merenje se može učiniti više adekvatnim. Adekvatnost merenja
podrazumeva koncepte kao što su tačnost, preciznost, slaganje, valjanost i pouzdanost.

TAČNOST
Odnosi se na bliskost izmerene vrednosti i tačne/korektne vrednosti (označena kao referentna,
kriterijumska ili vrednost zlatnog standarda).

Primer: Cilj je bio evaluacija tačnosti novog automatskog brojača retikulocita u odnosu na referentne
vrednosti koje su dobijene manuelnim / vizuelnim brojanjem od strane dva laboratorijska tehničara.
Na osnovu sedam uzoraka, koeficijent korelacije iznosio je 0.96 što je prihvaćeno kao
zadovoljavajuće slaganje automatskog brojača sa referentnim vrednostima.

PRECIZNOST
Preciznost je bliskost nezavisnih merenja istog kvantiteta ili kvantiteta napravljenog pod istim uslovima.
Za ocenu preciznosti koriste se mere varijabiliteta, a najčešće koeficijent varijacije (CV). Male vrednosti
CV ukazuju na precizno merenje. U laboratorijskim uslovima određuje se pravljenjem poduzoraka od
istog materijala.

Primer: Na istom ispitaniku na istom mernom mestu pet puta je ponovljeno merenje mineralne
gustine primenom DXA metode. Dobijene su sledeće vrednosti (g/cm2): 0.85, 0.89, 0.86, 0.82, 0.85.
Zaključeno je da merenje ima zadovoljavajuću preciznost (CV = 2.9%).

Primer: Od istog uzorka plazme napravljeno je pet poduzoraka i izmerene su sledeće vrednosti HDL
holesterola (mg/dL): 55, 56, 55, 54, 57. Ocenjeno je da merenje ima zadovoljavajuću preciznost (CV
= 2.1%)

SLAGANJE
Odnosi se na bliskost izmerenih vrednosti različitim metodama, pri čemu se niti jedan od njih ne može
proglasiti referentnim/zlatnim standardom, pa se ne može primeniti ocena tačnosti. Metode za ocenu
slaganja prikazane su u delu ove lekcije pod nazivom „Međuposmatračka pouzdanost“.

VALJANOST I POUZDANOST
Vrlo često merenja u medicini zasnivaju se na primeni “papirnih instrumenata” - upitnika i skala. Izmerena
vrednost na takvim instrumentima dobija se kombinacijom odgovara na pitanja (stavke, ajteme) na
upitniku ili skali, čime se dobija kompozitni skor. Adekvatnost takvog mernog procesa, primenom
kompozitnih skorova, opisana je konceptima valjanosti (validnosti) i pouzdanosti (relijabilnosti). Koncept
valjanosti srodan je konceptu tačnosti, a koncept pouzdanosti srodan je konceptu preciznosti.

Pouzdanost označava do koje mere se metoda merenja (test) konzistentno ili postojano ponaša, a
valjanost je odnos između onog što se pretpostavlja da bi instrument (test) trebalo da meri i onog što
on stvarno meri.

POUZDANOST
Postoje tri standardna načina za ocenu pouzdanosti: interna konzistentnost, međuposmatračka
pouzdanost i test retest pouzdanost. Pouzdanost se ocenjuje primenom različitih tipova koeficijenata
pouzdanosti. Uopšte uzev, vrednosti koeficijenata pouzdanosti preko 0.7 smatraju se prihvatljivim.

INTERNA KONZISTENTNOST je mera slaganja individualnih stavki (ajtema) na skali i označava stepen do
kojeg su stavke međusobno korelisane. Ovom prilikom, svaka stavka se posmatra kao poseban
instrument za merenje ispitivanog konstrukta, tako da koherentnost između njih sugeriše da svi ajtemi
mere istu stvar (a takođe i sve stavke zajedno kao celina).

Interna konzistencija skale zavisi od interne konzistencije konstrukta kojeg težimo da tom skalom
izmerimo, i veća je kod unidimenzionalnih konstrukata nego kod onih sa dva ili više nezavisnih domena.

Interna konzistentnost je prosečna korelacija između stavki unutar skale. Vrednosti Cronbach alfa preko
0,7 su zadovoljavajuće.

Interna konzistentnost se najčešće ocenjuje:


• alfa koeficijentom (Cronbach alfa), za skale koje nemaju dihotomne stavke, ili
• Kuder-Richardsonovom formulom 20 (KR-20), za skale koje imaju dihotomne stavke.

Opis podataka: Za 17 ispitanika dati su podaci na Bekovoj skali za anksioznost. Ova skala sastoji se od
21 pitanja (stavke, ajtema), a koristi se za procenu simptoma opšte anksioznosti. Pacijenti odgovaraju na
svako pitanje i procenjuju sopstveno stanje na skali od 0 (odsustvo simptoma) do 3 (veoma izraženi
simptomi). Zbir svih ajtema daje totalan skor (maksimalno 63).

Dati ocenu interne konzistentnosti ove skale.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka BAI.xlsx

2) Cronbachov alfa koeficijent dobija se klikom na liniji sa komandama: Statistical analysis→Accuracy of


diagnostic test→Cronbach`с аlpha coefficient of reliability
U dijalog prozoru koji se pojavio:

o u polju Variables (pick three or more) označiti stavke za koje se izračunava interna
konzistentnost
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

3) Zaključak: BAI poseduje adekvatan nivo interne konzistentnosti (Cronbach alfa=0,93).

MEĐUPOSMATRAČKA POUZDANOST meri slaganje dva ili više posmatrača koji koriste iste informacije o
istom objektu. Najčešće se koristi za procenu međuposmatračke pouzdanosti različitih skala. Kod upitnika
se ne izračunava jer se radi o instrumentima za samoprocenu.

Postoji više postupaka za izračunavanje koeficijenata međuposmatračke pouzdanosti.


o intraklasni koeficijent korelacije (ICC),
o Pearsonov koeficijent korelacije,
o kappa koeficijent,
o Spearmanov koeficijent korelacije i
o Kendallov koeficijent konkordancije.

Opis podataka: Dvojica radiologa postavljaju dijagnozu karcinoma pluća na osnovu radiografskog
snimka. Njihove odluke o dijagnozi za 92 pregledana pacijenta date su u fajlu “radiolozi”. Oceniti slaganje
dva radiologa koje se odnosi postavljanje dijagnoze karcinoma pluća na osnovu radiografskog snimka.

Slaganje radiologa biće ocenjeno primenom kappa koeficijenta.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka radiolozi.xlsx

2) Prvo je potrebno napraviti tabelu kontingencije što se postiže klikom na liniji sa


komandama: Statistical analysis→Discerete variables→Create two-way table and compare two
proportions (Fisher`s exact test)

U dijalog prozoru koji se pojavio:


o u okviru polja Row variable (pick one or more): odabrati prvog ocenjivača
o u okviru polja Column variable (pick one): odabrati drugog ocenjivača
o odčekirati sva ostala polja
o kliknuti na dugme OK

U prozoru sa rezultatima pojavila se tabela kontingencije koja prikazuje odluke radiologa.

3) Kappa koeficijent dobija se klikom na liniji sa komandama: Statistical analysis→Accuracy of diagnostic


test→Kappa statistics for agreement of two tests

U prozoru koji se pojavio, na osnovu tabele kontingencije, uneti apsolutne učestalosti kategorija
odluka oba radiologa.

4) Zaključak: Radiolozi imaju adekvatan nivo slaganja u postavljanju dijagnoze (kappa=0,74).


TEST-RETEST POUZDANOST je ocena stabilnosti skale u vremenu, odnosno mera slaganja rezultata koji se
dobijaju ponovljenim merenjem na istim objektima pod uslovom da nije došlo do promene stanja tih
objekata.

Ocenjuje se primenom:
o intraklasnog koeficijenta korelacije,
o Pearsonovog koeficijenta linearne korelacije ili
o Spearmanovog koeficijenta rang korelacije.

Ova vrsta pouzdanosti je posebno značajna ako se skala koristi za ocenu promene stanja ispitanika u
toku tretmana. Ako skala nema dovoljno visoku test-retest pouzdanost, onda je nemoguće odrediti da li
je izmerena promena stvarna ili predstavlja slučajnu grešku skale.

Zadovoljavajuća vrednost koeficijenta test retest pouzdanosti iznosi preko 0,7.

Opis podataka: Kod 16 ispitanika starijih od 65 godina meren je kognitivni status. Za procenu kognicije
korišćen je Mini Mental State Examination (MMSE). Testiranje je rađeno dva puta u razmaku od 7 dana
radi procene test-retest pouzdanosti MMSE.

Procedura u EZR:
1) Preuzeti i učitati bazu podataka MMSE.xlsx

Test-retest pouzdanost izračunaćemo pomoću Pearsonovog koeficijenta korelacije koji se u EZR dobija
klikom na liniji sa komandama: Statistical analysis→Continuous variables→Test for Pearson`s correlation

U prozoru koji se pojavio:

o u okviru polja Variables (pick two) označiti varijable za koje određujemo test retest
o kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

2) Zaključak: Test retest pouzdanost MMSE je zadovoljavajuća (r=0,94).


Provere znanja
1. Učestalost nominalnih podataka prikazuje se grafički:
a. Box-plotom
b. Kružnim dijagramom ili stubičastim dijagramom
c. Poligonom frekvencija
d. Linijskim dijagramom

2. Distribucija učestalosti numeričkih kontinuiranih podataka prikazuje se grafički:


a. Kružnim dijagramom
b. Histogramom frekvencije
c. Linijskim dijagramom
d. Stubičastim dijagramom

3. Za skup podataka: 7, 7, 7, 16, 14 medijana iznosi:


a. 12
b. 10
c. 7
d. 14

4. Za skup podataka: 3, 3, 9, 9, 6, 3 vrednost mod je:


a. 8
b. 6
c. 3
d. 9

5. Interval poverenja se koristi za:


a. Ocenu parametara osnovnog skupa
b. Formiranje uzorka za ocenu parametara osnovnog skupa
c. Merenje varijabiliteta
d. Ocenu statistika osnovnog skupa

6. Šta je uzorak?
a. Skup varijabli u istraživanju
b. Osnovni skup
c. Proces merenja
d. Podskup osnovnog skupa

7. Kada treba testirati nultu hipotezu o tome da više od 2 nezavisnih uzoraka potiče iz iste
populacije, a podaci su ordinalni, ili nisu ispunjene pretpostavke za primenu parametarskih
testova, adekvatno je primeniti:
a. Kruskal-Wallis test
b. Analizu varijanse
c. Kolmogorov-Smirnov test
d. T-test za zavisne uzorke

8. Faktor u eksperimentu je:


a. Zavisna (ishodna) varijabla koja nije pod kontrolom istraživača
b. Zavisna (ishodna) varijabla čiji su nivoi/gradacije pod kontrolom istraživača
c. Nezavisna varijabla čiji su nivoi/gradacije pod kontrolom istraživača
d. Nezavisna varijabla koja nije pod kontrolom istraživača
Provere znanja
9. Hi kvadrat test se koristi za testiranje:
e. Razlike učestalosti
f. Povezanosti dva uzorka
g. Razlika aritmetičkih sredina dva nezavisna uzorka
h. Razlika aritmetičkih sredina dva zavisna uzorka

10. Studentov t-test je:


a. Metoda za ocenu parametara populacije
b. Parametarski test za testiranje hipoteza o populacionim prosečnim vrednostima i
proporcijama
c. Neparametarski test za procenu značajnosti razlike
d. Parametarski test za procenu razlike dva obeležja

11. Kontrola pridruženosti moguća je primenom:


a. Koeficijenta varijacije
b. Prostog slučajnog uzorka
c. Sistematskog uzorka
d. Mečovanja

12. Pridružena varijabla povezana je:


a. Sa ispitivanim prediktorom, ali ne i sa ishodom
b. Nije povezana sa ishodom i ispitivanim prediktorom
c. I sa ishodom i sa ispitivanim prediktorom
d. Sa ishodom, ali ne i sa ispitivanim prediktorom

13. Vrednosti Spearmanovog koeficijenta korelacije rangova kreću se u rasponu:


a. od -1.0 do 0.5
b. od -1.5 do 1.5
c. od -0.5 do 1.0
d. od -1.0 do 1.0

14. Pearsonov koeficijent linearne korelacije je mera:


a. Jačine linearne poveznosti kvantitativne i kvalitativne varijable
b. Jačine linearne povezanosti dve kvantitativne varijable
c. Jačine povezanosti dve kategorijalne varijable
d. Odnosa aritmetičkih sredina zavisne i nezavisne varijable

15. Koeficijent determinacije (r2) u regresionom modelu je:


a. Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom
b. Suma kvadrata nezavisne varijable
c. Zbir varijansi zavisne i nezavisne varijable
d. Suma kvadrata zavisne varijable

16. Regresioni model omogućava predikciju vrednosti:


a. Zavisne varijable na osnovu poznavanja vrednosti nezavisnih varijabli
b. Nezavisne varijable na osnovu poznavanja vrednosti druge nezavisne varijable
c. Nezavisne varijable na osnovu poznavanja vrednosti zavisnih varijabli
d. Zavisne varijable na osnovu poznavanja vrednosti druge zavisne varijable
Provere znanja
17. Veličina uzorka za interval poverenja aritmetičke sredine određuje se na osnovu:
a. Pretpostavljene aritmetičke sredine pojave u populaciji
b. Pretpostavke o standardnoj devijaciji ispitivane pojave u populaciji i preciznosti ocene

18. Dovoljan broj jedinica posmatranja za ocenu proporcije određuje se na osnovu:


a. Pretpostavljene proporcije ispitivane pojave u populaciji i preciznosti ocene
b. Pretpostavljene aritmetičke sredine u populaciji

19. Mera(e) valjanosti je (su):


a. Bartletov test
b. Dijagnostička valjanost
c. Kvalitet baza podataka
d. Normalnost raspodele podataka

20. Mera(e) pouzdanosti je (su):


a. Međuposmatračka pouzdanost
b. Test retest pouzdanost
c. Interna konzistentnost
d. Sve navedeno
Projektni zadaci

Projektni zadatak 1
Projektni zadatak 2
Projektni zadatak 3
Probni teorijski test
Medicinska statistika i informatika
za doktorske akademske studije

You might also like