You are on page 1of 221

STATISTIKA

LEKCIJA 1
I Osnovni statistiĉki pojmovi
Statistika je nauka o generisanju informacija i znanja kroz prikupljanje, analizu i
interpretaciju podataka koji su podloţni sluĉajnom variranju. Predstavlja opšti intelektualni
metod koji se primenjuje kad god postoje podaci sa osobinama variranja i sluĉajnošću
pojavljivanja. Ukratko, moglo bi se reći da je statistika nauka o odluĉivanju u uslovima
nesigurnosti.

Medicinska statistika je statistika primenjena u oblastima povezanim sa zdravljem i bolešću


(biomedicinske i javnozdravstvene nauke), kao i nauka koja razvija nove alate i metode za
istraţivanje ovih oblasti. Kraće, medicinska statistika je nauka o odluĉivanju u uslovima
nesigurnosti u oblastima povezanim sa zdravljem i bolešću.

Osnovni skup je skup svih istovrsnih elemenata sa zajedničkom promenljivom


karakteristikom. Elementi osnovnog skupa, odnosno njegovi sastavni delovi, nazivaju
se jedinice posmatranja. U kliniĉkim istraţivanjima, jedinica posmatranja je najĉešće
pojedinaĉna obolela osoba (ispitanik, pacijent), u eksperimentalnim istraţivanjima moţe biti
laboratorijska ţivotinja ili bakterijska kolonija, kao i bolnica u javnozdravstvenim
istraţivanjima. Osnovni skup (populacija) je dakle, kompletan skup jedinica posmatranja od
interesa u istraţivanju, npr. svi oboleli od osteoporoze, svi uĉenici osnovnih škola itd. To je
stvaran i konaĉan skup. Isti naziv se takoĊe odnosi i na beskonaĉan skup svih mogućih
rezultata posmatrane karakteristike, npr. u teorijskom smislu beskonaĉan broj merenja
koncentracije hemoglobina u krvi.

Jedinice posmatranja su nosioci brojnih obeleţja (karakteristika, osobina). Obeležje


posmatranja je bilo koja kvantitativna ili kvalitativna karakteristika (osobina) jedinica
posmatranja. Obeleţje moţe imati konstantne vrednosti (konstanta) ili promenljive vrednosti
(varijabla). Varijable su obeleţja koja su podloţna variranju. Pod variranjem
(varijabilitetom, varijacijom) podrazumeva se promenljivost obeleţja posmatranja od
jedinice do jedinice posmatranja.

Istraţivaĉi retko donose zakljuĉke na osnovu ispitivanja kompletnog osnovnog skupa. To se


uglavnom ĉini na osnovu uzorka, koji predstavlja podskup osnovnog skupa biran na odreĊen
naĉin. Zakljuĉke, dobijene analizom podataka na osnovu uzorka, istraţivaĉ zatim generalizuje
na ĉitav osnovni skup. Da bi takva generalizacija zakljuĉka bila valjana, uzorak mora biti
reprezentativan za osnovni skup, odnosno uzorak mora biti sliĉan osnovnom skupu u odnosu
na ispitivano obeleţje. Na slici 1 prikazani su odnosi osnovnih pojmova u medicinskoj
statistici: osnovnog skupa i uzorka, jedinica posmatranja, varijabli, merenja i podataka.
U istraţivanju uvek treba definisati osnovni skup, jer se na osnovu njega odreĊuju (1)
kriterijumi za biranje jedinica posmatranja u uzorak i (2) na koji osnovni skup se mogu
generalizovati zakljuĉci. Na primer, cilj istraţivanja bio je ocena efektivnosti leka za
hipertenziju u populaciji hipertoniĉara starijih od 55 godina. Istraţivanje je sprovedeno na
uzorku od 7000 ispitanika, a dobijeni zakljuĉak, da lek znaĉajno smanjuje krvni pritisak,
moţe se generalizovati na osnovni skup - populaciju hipertoniĉara starijih od 55 godina. Pr:
Obeleţje “Patološko oboljenje na jetri“ je varijabla

Osnovni statistiĉki pojmovi


Predmet statistike je podatak, pojedinaĉna ĉinjenica ili zapaţanje (opservacija) koji se dobija
merenjem. Merenje predstavlja proces dodeljivanja brojeva ili drugih simbola specifiĉnim
karakteristikama jedinica posmatranja (osoba, objekata...).
Podaci se mogu generisati u mernom procesu na razliĉite naĉine:
• Direktnim merenjem primenom instrumenta, npr. merenje telesne mase ili
koncentracije holesterola u plazmi

• Opservacijom, npr. zapaţanja o patološkim promenama na koţi

• Intervjuom u kojem ispitanik odgovarajući na pitanja ispitivaĉa daje traţene podatke,


npr. da li je ispitanik pušaĉ

• Upitnikom, na kojem ispitanik sam daje odgovore na postavljena pitanja.

Prilikom merenja moţe doći do grešaka u merenju, koje mogu biti: sistematske ili sluĉajne.

Do primarnih podataka dolazi se kroz istraţivanja, dok se termin sekundarni medicinski


podaci odnosi na podatke u medicinskoj/zdravstvenoj dokumentaciji i medicinskim bazama
podataka.

Podaci i varijable, po tipu mogu biti kategorijalni ili numeriĉki:

1. Kategorijalni (kvalitativni) podaci postoje kada se svaka jedinica posmatranja moţe


svrstati u samo jednu od više kategorija varijable. Mogu biti:

a) Nominalni podaci – kategorije su oznaĉene imenima i nemaju poredak. Primeri su:

• Pol (ţenski, muški)

• Krvna grupa (A, B, AB, O)

• Ishod leĉenja (izleĉen, neizleĉen)

• Navika pušenja (nepušaĉ, pušaĉ)

• Lokalizacija patoloških promena na koţi (glava, trup, ekstremiteti)


b) Ordinalni podaci – kategorije su ureĊene ili rangirane na neki naĉin (od manjeg ka većem
ili obrnuto). Primeri su:

• Zadovoljstvo pacijenata zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan,


neutralan, zadovoljan, vrlo zadovoljan)

• Stadijum bolesti (bez bolesti, poĉetni stadijum, uznapredovali stadijum)

• Navika pušenja (nepušaĉ, umereni pušaĉ, prekomerni pušaĉ)

• Uhranjenost (pothranjenost, normalna uhranjenost, gojaznost)

Kategorijalni podaci koji imaju samo dve meĊusobno iskljuĉive kategorije, jesu binarni
odnosno dihotomni. Primeri su pol (ţenski, muški) i ishod leĉenja (izleĉen, neizleĉen).

2. Numeriĉki (kvantitativni) podaci – nastaju merenjem ili prebrojavanjem. Mogu biti:

a) Diskretni (diskontinuirani, prekidni) numerički podaci – kada varijabla moţe imati


samo odreĊene celobrojne vrednosti. Primeri su:

• Broj dece u porodici

• Broj poroĊaja

• Broj poseta lekaru

• Broj obolelih

• Frekvencija srca

• Broj trombocita

b) Kontinuirani (neprekidni) numerički podaci – varijabla moţe imati bilo koju vrednost iz
intervala variranja. Primeri su:

• Telesna masa

• Telesna visina

• Starost

• Telesna temperatura

• Pritisak

Kod merenja neprekidnih varijabli, preciznost merenja zavisi od preciznosti mernog


instrumenta i potreba samog istraţivanja. Na primer, krvni pritisak predstavlja numeriĉku
kontinuiranu varijablu, iako se najĉešće zapisuje u obliku celih brojeva, meĊutim ukoliko se
koristi precizniji merni instrument mogli bismo zabeleţiti i decimalne vrednosti. Broj
decimala zavisi ponovo od preciznosti mernog instrumenta.
Numeriĉki podaci se mogu transformisati u kategorijalne podatke (nominalne ili ordinalne).
Tada dolazi do gubitka jednog dela informacija. Na primer, podaci o uhranjenosti mogu biti
izraţeni kao indeks telesne mase (kg/m2), odnosno u vidu kontinuiranih numeriĉkih
podataka. Ovi podaci se mogu transformisati u kategorijalne podatke, sa mogućim
kategorijama: pothranjenost, normalna uhranjenost i gojaznost. Ovde dolazi do gubitka
jednog dela informacija, jer više nije poznato u kojoj meri se jedinice posmatranja unutar
kategorija, npr. unutar kategorije pothranjenih, razlikuju prema indeksu telesne mase.

Dva su osnovna razloga da se kontinuirane varijable beleţe po tipu kategorijalnih podataka:

1. sa kategorijalnim podacima je lakše opisivanje osnovnog skupa (npr. koliki je


procenat gojaznih u populaciji), i

2. donošenje odluka o nekoj intervenciji je olakšano kada su podaci grupisani na neki


naĉin, npr. da se gojazni podvrgnu preventivnom delovanju.

Pr: Ako su podaci o arterijskom pritisku zabeleţeni u mmHg radi se o: Kontinuiranim


numeriĉkim podacima

Ako su podaci o arterijskom pritisku zabeleţeni kao “hipotenzija”, “normotenzija” i


“hipertenzija” radi se o: ordinalnim podacima

38godina =Kontinuirani numeriĉki podatak


72 otkucaja/min= Diskretni numeriĉki podatak
IV stadijum karcinoma= Ordinalni podatak
Dijagnoza: srĉana insuficijencija = Nominalni podatak

II Eksploracija podataka
Priprema podataka za analizu:
U analizi istraţivaĉkih podataka postoje tri uoĉljive faze: priprema podataka za analizu,
opisivanje podataka (deskriptivna statistika) i ocenjivanje i testiranje hipoteza i modela
(inferencijalna statistika).

Eksploracija podataka obuhvata prve dve faze analize istraţivaĉkih podataka: pripremu
podataka za analizu i njihovo opisivanje, a vaţna je za ispitivanje kvaliteta podataka u bazi ,
otkrivanje opštih obrazaca ponašanja ili ekstremnih izuzetaka od tih obrazaca.

Eksploracija podataka koristi grafiĉke i numeriĉke tehnike. Po pravilu svaku varijablu


analiziramo zasebno, poĉevši od oblika njene raspodele i izraĉunavanja niza mera koje
opisuju raspodele.

Priprema podataka za analizu podrazumeva:

1. Razvoj i dokumentovanje strukture baze podataka


2. Unos podataka

3. Proveru podataka - skrining podataka

4. Eventualne modifikacije podataka

Istraživačka baza podataka – matriĉni zapis ĉija veliĉina zavisi od broja jedinica
posmatranja i broja varijabli
Redovi = jedinice posmatranja

Kolone = varijable u istraţivanju

Provera podataka (skrining)

Provera podataka je preduslov za svaku dalju analizu. Mali skup podataka moguće je
pregledati u celini dok se kod većih skupova ĉešće bira sluĉajan uzorak jedinica koje se
detaljno kontrolišu. Pregled podataka se sastoji od:

1. Detekcije nedostajućih vrednosti


2. Analize frekvencija
3. Otkrivanja neobiĉnih vrednosti – ”autlajera”
4. Ispitivanja logiĉkih veza

Analiza nedostajućih vrednosti opisuje i identifikuje uĉestalost i obrazac po kome se


nedostajuće vrednosti pojavljuju. Mogu imati veliki uticaj na rezultate i zakljuĉke analize. Za
ishodne varijable dopustivo je do nekoliko procenata, a za ostale varijable do 30%
nedostajućih vrednosti.

Kada se analizira obrazac pojavljivanja nedostajućih vrednosti, manji problem su nedostajuće


vrednosti koje su na sluĉajan naĉin rasporeĊene u bazi podataka. Veći problem su
nedostajuće vrednosti koje nisu na sluĉajan naĉin rasporeĊene u bazi podataka (npr. ako
ispitanici sa većom zaradom odbijaju da saopšte podatak o svojoj zaradi to će umanjiti
mogućnost generalizacije svakog zakljuĉka u analizama koje su ukljuĉivale ekonomski
status). Nedostajuće vrednosti se mogu zameniti aritmetiĉkom sredinom ili medijanom ili
oceniti regresionom metodom.

Tabelarni ili grafički prikaz distribucija frekvencija omogućava otkrivanje odredjenih


tipova greški, npr. numeriĉka vrednost moţe biti unešena kao slovo ili se mogu
pojaviti numeriĉke vrednosti koje su van mogućeg opsega (kod 3 za pol ispitanika).

Otkrivanje neobičnih vrednosti – ”autlajera” moguće je odredjivanjem minimuma,


maksimuma i raspona vrednosti svake varijable. Uzroci pojave neuobiĉajeno velike ili
neuobiĉajeno male vrednosti mogu biti: pogrešan podatak (najĉešći uzrok), greške u merenju
i stvarna vrednost. Odluka o zadrţavanju pogrešnog podatka ili uklanjanju ispravnog podatka
moţe dovesti do pogrešnog zakljuĉka. Zato se najĉešće takve opservacije zasebno analiziraju.
Druga mogućnost je dvostruka analiza podataka– sa i bez neobiĉnih vrednosti i otkrivanje
eventualnih razlika medju analizama.
Ispitivanje logičkih veza vrši se ukrštanjem kategorija dve varijable u obliku tablica
kontingencija (npr. pol i trudnoća). Kada je greška uoĉena, donosi se odluka o popravljanju
greške ili ako nije moguće izbacivanju podatka ili jedinice posmatranja.

Modifikacija podataka

Redefinicija podataka je oblik modifikacije podataka koji se koristi kod zamene pogrešnih
ili nedostajućih vrednosti, kod izbacivanja i/ili saţimanja pojedinih kategorija obeleţja (male
uĉestalosti) i kod formiranja novih varijabli (nastaju kao rezultat logiĉkih i algebarskih
operacija postojećih varijabli (npr. BMI)

Transformacija podataka se obiĉno primenjuju u cilju postizanja normalnosti rapodele ili


realizacije neke druge pretpostavke.

 Linearne transformacije (z transformacija)


 Nelinearne transformacije (logaritamska transformacija)
 Transformacije rangova

Analiza empirijskih raspodela


Identifikacija empirijskih raspodela je ispitivanje sa ciljem da se dobiju potpune informacije o
njihovom obliku i da se odrede njihove karakteristike.

1. Odredjivanje oblika empirijske raspodele

Osnovne informacije o obliku empirijske raspodele mogu se dobiti iz grafiĉkih prikaza


(histogram, poligon frekvencija, štapićasti dijagram, stubiĉasti dijagram) ili iz tabele empirijske
raspodele. Oblik se obiĉno klasifikuje kao unimodalan, bimodalan ili multimodalan.
Unimodalan oblik moţe biti simetričan ili asimetričan (pozitivno ili desno iskošen, negativno
ili levo iskošen).

desna iskošenost

leva iskošenost

2. Deskriptivne mere:

 Mere centralne tendencije


 Mere varijabiliteta
 Mere oblika raspodele
 Mere korelacije za dve varijable
 Mere korelacije za više od dve varijable
 Relativni brojevi
III R, R Commander i EZR
R je programski jezik i okruţenje koji će se koristiti za statistiĉku analizu i prezentaciju
podataka na ovom kursu. R programski jezik predstavlja jedan od najsveobuhvatnijih
statistiĉkih alata, koji poseduje mogućnosti za korišćenje kako klasiĉnih, tako i novih
naprednih statistiĉkih metoda. Struktura R-a je modularna, jedan deo statistiĉkih metoda
(osnovnih) je ugraĊen u osnovu R okruţenja, dok se ostale statistiĉke metode dodaju preko
paketa. R ima izuzetnu podršku za grafiĉki prikaz rezultata i izradu najraznovrsnijih
grafikona, koje je moguće izvesti u više grafiĉkih formata, sa kvalitetom dovoljnim za
štampu.

R programski jezik i okruţenje, kao i svi dodatni paketi, imaju otvoren kod i besplatno su
dostupni za preuzimanje, instalaciju i korišćenje. Mreţa ftp i veb servera sa koje se besplatno
mogu preuzeti R i dodatni paketi je CRAN (The Comprehensive R Archive Network) i
pristupa joj se preko sledeće adrese: https://cran.r-project.org

U osnovnoj verziji R nema grafiĉki korisniĉki interfejs (GUI), već poseduje interfejs
komandne linije koji se prikazuje u konzoli. Postoje dodatni grafiĉki korisniĉki interfejsi za
R: R Commander, RStudio, Deducer.

R Commander

R Commander je grafiĉki korisniĉki interfejs za R. Instalira se kao dodatni paket nakon


instaliranog R programskog okruţenja. R Commander koristi niz dodatnih paketa, pored
paketa koji su deo standardne distribucije R-a. Jedan od dodatnih paketa R Commandera je
EZR paket.

EZR

EZR je statistiĉki softver koji se bazira na R-u i R commander-u i dodaje razliĉite statistiĉke
funkcije iz oblasti medicinske statistike. Funkcijama se pristupa kroz grafiĉki interfejs preko
menija.

Startovanje EZR-a

EZR se može startovati dvostrukim klikom miša na ikonu ili preko


menija: Start→All Programs→EZR→EZR (32bit). Zavisno od verzije operativnog sistema
studenti mogu koristiti 32-bitnu ili 64-bitnu verziju EZR-a.

Korisnički interfejs EZR-a

Nakon startovanja R programskog okruţenja otvoriće se dva prozora: R Console i R


Commander sa ERZ dodatkom. R Konzola je osnovni prozor R programskog okruţenja i
omogućava unošenje komandi i uvid u odgovore R-a. R Commander prozor sa EZR
dodatkom se razlikuje od originalnog R Commander prozora u strukturi i izgledu trake sa
komandama. Pošto se korisniĉki interfejs razlikuje, u daljem tekstu koristiće se termin EZR,
koji podrazumeva R Commander sa EZR dodatkom.
Poĉetni prozor EZR-a sastoji se iz linije menija, trake sa alatima i tri prozora: za skripte, za
rezultate i za poruke.

Linija menija sadrţi pune liste komandi koje podrţava EZR. Klikom na grupu komandi (npr.
File) otvara se padajući meni preko koga se pristupa ostalim komandama iz te grupe.

EZR preko R Commandera dodaje svoj grafiĉki interfejs i liste komandi. Originalni meni R
Commandera sa listama komandi nalazi se kao poslednja stavka u okviru linije menija pod
nazivnom Original menu. Lista dostupnih komandi i redosled za EZR i R Commander se
neznatno razlikuju. Najveći deo zadataka u okviru kursa radiće se u okviru EZR-a, a nekoliko
analiza će se raditi iz originalnog menija R Commandera.

Traka sa alatima prikazuje aktivne podatke i statistiĉke alate. Deo za podatke sadrţi i
preĉice za menjanje, pregledanje ili ĉuvanje seta aktivnih podataka.

R Skripta je niz izvršnih instrukcija. Prozor za skripte prikazuje R komande koje je


generisao EZR. U ovom prozoru moguće je menjati ili dodavati svoje komande.

Prozor sa rezultatima prikazuje rezultate i primenjene komande:

 plavom bojom obojeni su rezultati,


 crvenom bojom obojene su izvršene komande.

Prozor za poruke prikazuje poruke namenjene korisniku od strane aplikacije. Zavisno od


namene, poruke su oznaĉene razliĉitim bojama:

 crvenom bojom poruke o greškama,


 zelenom bojom upozorenja,
 plavom bojom ostale informacije.
 Po završetku rada izlazak iz R programskog okruţenja podrazumeva zatvaranje EZR
prozora i R Konzole.
 EZR prozor se moţe zatvoriti klikom na liniji sa komandama: File→Exit→From
IV Istraţivaĉka baza podataka
Baza podataka, bez obzira da li je u papirnoj ili elektronskoj formi, konfigurisana je kao
matriĉni zapis, u kome se svaki red odnosi na jedinicu posmatranja, a svaka kolona
predstavlja varijablu. Na taj naĉin dimenzije matrice definisane su brojem jedinica
posmatranja (a to je najĉešće broj ispitanika/pacijenata) što odgovara broju redova u bazi
podataka, i brojem varijabli koje su predmet ispitivanja što odgovara broju kolona.

Istraţivaĉka baza podataka praćena je šifarnikom koji sadrţi informacije o nazivu i redosledu
varijabli, opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni,
numeriĉki). Osim toga u šifarniku su, za kategorijalne varijable, date informacije o broju
kategorija i kodovima tih kategorija.

Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna
datoteka, zatim se definišu varijable prema šifarniku i na kraju se u datoteku unesu podaci
dobijeni u istraţivanju.

Formiranje baze podataka


Postoji nekoliko naĉina da se formira baza podataka i uĉita u R programsko okruţenje. Ovde
će biti prikazano formiranje baze u programima kao što su MS Office Excel, OpenOffice
Calc i LibreOffice Calc i uĉitavanje u R programsko okruţenje.

1. U navedenim programima se nazivi varijabli unose u prvi red. Preporuĉuje se da ovi nazivi
budu u formi jedne reĉi. Ukoliko je potrebno da naziv varijable ima više reĉi nazive varijabli
treba pisati ili spojenim reĉima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr.
navika_pusenja) ili taĉkom. U sluĉaju da se reĉi ukucaju odvojeno, prilikom uĉitavanja EZR
automatski svaki razmak zamenjuje taĉkom (npr. ako u nazivu varijable ukucamo navika
pusenja EZR će uĉitati kao navika.pusenja).

2. U prvu kolonu unose se oznake za identifikaciju jedinica posmatranja.

3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojĉane vrednosti bez
naziva mernih jedinica (npr. podatak o telesnoj masi uneti kao broj bez oznake kg).

4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao
numeriĉki kodovi.

Nominalni podaci se unose kao tekstualni nazivi kategorija (npr. za pol: muski, zenski
ili mesto boravka tokom studiranja: kod_roditelja, privatan_smestaj, studentski_dom).

Ordinalni podaci se unose kao numeriĉki kodovi koji odraţavaju poredak kategorija.
Npr. za podatke o zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan,
nezadovoljan, neutralan, zadovoljan i vrlo zadovoljan) upotrebiti kodove za taj ureĊeni
niz poĉev od najmanjeg do najvećeg nivoa što mora biti zabeleţeno u šifarniku zbog
jednostavnije interpretacije podataka i rezultata statistiĉke analize.

Kodiranje ordinalnih podataka: Vrlo nezadovoljan-1; Nezadovoljan-2; Neutralan-3;


Zadovoljan-4; Vrlo zadovoljan-5.
5. Nakon formiranja baze i unošenja podataka, datoteku saĉuvati na raĉunaru klikom
na File→Save As…

MS Office Excel 2007-2016 svoje datoteke ĉuva sa ekstenzijom .xlsx.


MS Office Excel 2003 svoje datoteke ĉuvaju sa ekstenzijom .xls.
Obratiti paţnju na ekstenziju datoteke prilikom uĉitavanja baze u R programsko
okruţenje.
Primer formirane baze podataka u MS Office Excel 2007 programu.

NAPOMENA:
R programsko okruţenje nema podršku za naša slova (ĉ, ć, š, ţ, Ċ) pa ih ne treba koristiti za
nazive varijabli i unos podataka.
Obratiti paţnju da R pravi razliku izmeĊu malih i velikih slova, što treba uzeti u obzir
prilikom upotrebe naziva datoteka i varijabli u komandama

Uĉitavanje baze podataka


EZR ima mogućnost uĉitavanja baza podataka iz više formata, kreiranih u razliĉitim
programima. Ovde će biti prikazano uĉitavanje baze podataka formirane u MS Excel
programu.

1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set. Otvoriće se


prozor u kome treba ukucati naziv za aktivnu bazu podataka i kliknuti na dugme OK.

Program nudi naziv Dataset, koji se moţe promeniti. To je privremeni naziv baze koji formira
EZR i na kome se izvršavaju komande.

2. Locirati na raĉunaru Excel bazu podataka, oznaĉiti je i kliknuti na dugme Open.


3. Ukoliko Excel baza sadrţi više listova (Sheet), oznaĉiti iz kojeg se preuzima baza
(najĉešće Sheet1) pa kliknuti na dugme OK.

4. Ako je baza uĉitana dobiće se poruka (u prozoru za poruke) sa informacijom koliko baza
ima redova i kolona.

5. EZR moţe da radi sa jednom uĉitanom bazom podataka. Prilikom pokušaja uĉitavanja
druge baze dok je prethodna otvorena, biće postavljeno pitanje da li da se druga baza uĉita
preko prethodne. Preporuĉuje se da se na poĉetku rada uvek proveri koja je baza aktivna i
pogleda struktura baze. To se moţe uraditi klikom na dugme View na traci sa alatima, nakon
ĉega će se u novom prozoru otvoriti aktivna baza podataka.
V SreĊivanje podataka
GRUPISANJE I PRIKAZIVANJE PODATAKA

SreĊivanje podataka obuhvata njihovo grupisanje i tabelarno i grafiĉko prikazivanje.

Grupisanje je proces razvrstavanja (organizovanja, klasifikovanja) podataka.

• Za nominalne i ordinalne podatake grupisanje se obavlja po kategorijama.

• Za numeriĉke diskontinuirane podatke grupisanje se obavlja po grupama koje


odgovaraju diskretnim vrednostima, a ako je raspon veliki, grupisanje se obavlja po
klasnim intervalima.

• Za numeriĉke kontinuirane podatke grupisanje se obavlja po klasnim intervalima.

Broj podataka u svakoj kategoriji/klasnom intervalu predstavlja apsolutnu učestalost


(frekvenciju). Deljenjem apsolutnih uĉestalosti ukupnim brojem podataka nastaju relativne
učestalosti (frekvencije), koje mogu biti iskazane u vidu proporcija ili procentualno.

Statističke tabele se koriste za pregledno prikazivanje podataka. Sastoje se od horizontalnih i


vertikalnih površina koje ĉine redove i kolone.

.Grafičko prikazivanje je metod prikazivanja podataka u vizuelnoj formi.

Postoje brojni programi za grafiĉko prikazivanje podataka. U skladu sa materijalima na


kursu, ovde će biti prikazani odreĊeni tipovi grafikona i naĉin njihove izrade u EZR-u. R
programsko okruţenje ima moćne pakete za grafiĉko prikazivanje podataka (npr. ggplot2,
lattice), meĊutim, rad sa dodatnim paketima prevazilazi obim nastave, pa se zainteresovanim
studentima preporuĉuje da istraţuju grafiĉke mogućnosti R-a samostalno ili u konsultaciji sa
nastavnim osobljem.

TABELARNO I GRAFIĈKO PRIKAZIVANJE NOMINALNIH


PODATAKA
Grupisanje kategorijalnih (nominalnih i ordinalnih) podataka obavlja se prema kategorijama.
Uĉestalost navike pušenja - nominalni podaci prikazana je u Tabeli 1. U prvoj koloni date su
kategorije ispitivane varijable (pušaĉ, nepušaĉ), u drugoj koloni apsolutne uĉestalosti, a u
trećoj koloni relativne uĉestalosti iskazane u procentima. Na primer, apsolutnoj uĉestalosti od
23 pušaĉa, odgovara relativna uĉestalost od (23/50) x 100 = 46%.
Ista uĉestalost moţe se prikazati i grafiĉki kružnim dijagramom ili stubičastim
dijagramom.

Na kruţnom dijagramu ugao kruţnog iseĉka koji odgovara nekoj kategoriji dobija se
mnoţenjem relativne uĉestalosti (iskazanih kao proporcije) sa 360°. Na primer, apsolutnoj
uĉestalosti od 23 pušaĉa, odgovara ugao kruţnog iseĉka od (23/50)x360°=166°) (Grafikon 1).

Stubiĉasti dijagram je sastavljen od razdvojenih vertikalnih pravougaonika (ili horizontalnih),


od kojih svaki reprezentuje jednu kategoriju, a ĉije visine (duţine) odgovaraju
uĉestalostima (Grafikon 2).

PROCEDURA U EZR: TABELARNO I GRAFIĈKO PRIKAZIVANJE NOMINALNIH


PODATAKA

U ovoj lekciji, u primerima, biće upotrebljeni podaci iz baze podataka pod


nazivom zadovoljstvo zdravstvenom zaštitom.xlsx.

Podaci se unose u EZR po proceduri navedenoj u prethodnoj lekciji, a koja podrazumeva


sledeće korake:

1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set.

2. Locirati na raĉunaru Excel bazu podataka zadovoljstvo zdravstvenom zaštitom.xlsx,


oznaĉiti je i kliknuti na dugme Open.

3. Pošto Excel baza sadrţi više listova (Sheet), oznaĉiti Sheet1 iz kojeg se preuzima baza, pa
kliknuti na dugme OK.
Za prikaz uĉestalosti nominalnih podataka varijable pol:

1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency


distributions.

2) U dijalog prozoru oznaĉiti varijablu pol.

3) Ĉekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama).
Ukoliko ne ţelimo prikaz nedostajućih vrednosti odĉekirati polje Show missing data.

4) Kliknuti na dugme OK.

U prozoru za skripte prikazuje se niz komandi koji je izvršen. Posle bilo koje statistiĉke
procedure u EZR-u, u prozoru za skripte prikazaće se komande koje koristi primenjena
procedura. U okviru tog prozora, komande je moguće menjati, i tako izmenjene startovati
ponovo. EZR omogućava da se skripte saĉuvaju u spoljašnju datoteku i kasnije ponovo
uĉitaju i koriste. Rad sa skriptama prevazilazi nivo potrebnog znanja za studente i neće biti
detaljnije obraĊivan.

U prozoru za rezultate prikazuju se rezultati primenjenih statistiĉkih procedura. U našem


primeru prikazane su apsolutne i relativne uĉestalosti varijable pol.

Tabela sa prikazom apsolutnih i relativnih uĉestalosti se zatim kreira u MS Word-u ili nekom
drugom programu za obradu teksta:
Grafiĉki prikaz varijable pol u vidu stubiĉastog dijagrama prikazan je u posebnom prozoru.
EZR po podrazumevanim podešavanjima prikazuje uĉestalosti nominalnih varijabli
stubiĉastim dijagramom.

PROCEDURA U EZR: GRAFIĈKO PRIKAZIVANJE NOMINALNIH PODATAKA -


KRUŢNI DIJAGRAM

Kruţni dijagram se moţe dobiti klikom na liniju menija Graphs and tables nakon ĉega se na
padajućem meniju odabere ţeljeni tip grafikona, u ovom sluĉaju Pie chart(Frequencies).

U dijalog prozoru koji se otvorio, oznaĉiti varijablu koja se prikazuje u vidu kruţnog
dijagrama, po ţelji oznaĉiti Draw in color za prikaz u boji, pa kliknuti na dugme OK.
Kruţni dijagram varijable pol prikazuje se u posebnom prozoru. Na sliĉan naĉin se mogu
izraditi i drugi tipovi grafikona.

Ovaj grafikon se moţe izraditi i u okviru originalnog menija R Commandera klikom


na Original menu→Graphs.

PROCEDURA U EZR: ĈUVANJE GRAFIKONA

Grafikoni se u EZR-u prikazuju u posebnom prozoru, iz koga se mogu izvesti u neki drugi
format ili prekopirati u MS Word program.
1) Grafikone je moguće saĉuvati u više formata (PDF, Png, Bmp, TIFF ili Jpeg),
što se postiţe preko komandi iz prozora grafikona: File→Save
as→Jpeg→100% quality… nakon ĉega treba imenovati grafikon i odabrati
mesto gde se ĉuva.

2) Grafikone je moguće i direktno prekopirati u MS Word program, što se


postiţe preko komandi File→Copy to the clipboard→as a Metafile.

U MS Word programu kliknuti desnim tasterom miša na mesto gde se kopira grafikon, pa u
padajućem meniju koji se otvorio, kliknuti levim tasterom miša na dugme Paste .

Zadatak 1. Za 20 ispitanika dati su podaci o lokalizaciji infarkta miokarda. Podaci su


kodirani na sledeći naĉin:

 P – prednji infarkt
 DZ – donji/zadnji
 AD – kombinovani anteroseptalni i dijafragmalni

Podaci: DZ, P, DZ, DZ, AD, P, DZ, DZ, P, P, DZ, P, P, DZ, DZ, DZ, P, P, DZ, DZ .

Grupisati podatke i prikazati tabelarno i grafiĉki.


TABELARNO I GRAFIĈKO PRIKAZIVANJE ORDINALNIH
PODATAKA
Raspodela uĉestalosti ordinalnih podataka, na primeru zadovoljstva zaposlenih uslovima
rada u Domu zdravlja, prikazana je u Tabeli 3. Kategorije ispitivane varijable date su po
ureĊenom redosledu, u ovom sluĉaju od kategorije “nezadovoljan”, preko “neutralan”, do
“zadovoljan”.
Za grafiĉko prikazivanje raspodela uĉestalosti ordinalnih podataka koriste se, kao i u sluĉaju
nominalnih podataka, kruţni ili stubiĉasti dijagram (Grafikoni 4 i 5).

Pitanje: Kruţni dijagram prikazuje: - Proporciju delova u odnosu na celinu

Prikaz raspodele uĉestalosti ordinalnih podataka se izvodi na identiĉan naĉin kao kod
nominalnih podataka.

Za prikaz raspodele uĉestalosti ordinalnih podataka varijable zadovoljstvo zdravstvenom


zaštitom:
1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency
distributions.
2) U dijalog prozoru oznaĉiti varijablu zadovoljstvo_zz.
3) Ĉekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama).
Ukoliko ne ţelimo prikaz nedostajućih vrednosti odĉekirati polje Show missing data.
4) Kliknuti na dugme OK.
Tabela sa prikazom apsolutnih i relativnih uĉestalosti se zatim kreira u MS Word-u ili nekom
drugom programu za obradu teksta, pri ĉemu umesto numeriĉkih kodova treba napisati
originalne nazive kategorija. Grafiĉki prikaz varijable zadovoljstvo_zz u vidu stubiĉastog
dijagrama prikazan je u posebnom prozoru.

Zadatak 2: Za 20 ispitanika dati su podaci o navici pušenja. Podaci su ordinalni i kodirani su


na sledeći naĉin:

 0 – nepušaĉ
 1 – umereno pušenje
 2 – prekomerno pušenje
Podaci: nepusac, prekomerno pusenje, umereno pusenje, umereno pusenje, prekomerno
pusenje, nepusac, nepusac, umereno pusenje, umereno pusenje, prekomerno pusenje,
umereno pusenje, nepusac, prekomerno pusenje, umereno pusenje, nepusac, nepusac,
umereno pusenje, prekomerno pusenje, umereno pusenje, prekomerno pusenje.

Grupisati podatke i prikazati ih tabelarno i grafiĉki.


TABELARNO I GRAFIĈKO PRIKAZIVANJE NUMERIĈKIH
DISKONTINUIRANIH PODATAKA
Za numeričke diskontinuirane podatke raspodela uĉestalosti prikazuje se po grupama koje
odgovaraju diskretnim vrednostima varijable. Na primer, raspodela uĉestalosti broja
respiratornih infekcija u toku jedne godine prikazana je u Tabeli 5, a grafiĉki prikazana
stubiĉastim dijagramom (Grafikon 7).

Za prikaz raspodele uĉestalosti numeriĉkih diskontinuiranih podataka varijable hr_bronhitis:


1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency
distributions.
2) U dijalog prozoru oznaĉiti varijablu hr_bronhitis.
3) Ĉekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz stubiĉastog
dijagrama). Ukoliko ne ţelimo da prikaţemo nedostajuće podatke odĉekirati polje Show
missing data.
4) Kliknuti na dugme OK.
Tabela sa prikazom apsolutnih i relativnih uĉestalosti se zatim kreira u MS Word-u ili nekom
drugom programu za obradu teksta.

Zadatak 3: Dat je broj povreda za 20 sportista: 2, 0, 5, 4, 4, 3, 1, 1, 3,1, 2, 0, 2, 1, 3, 2, 2, 3,


2, 1.

Grupisati podatke i prikazati grafiĉki i tabelarno.


TABELARNO I GRAFIĈKO PRIKAZIVANJE NUMERIĈKIH
KONTINUIRANIH PODATAKA
Za numeričke kontinuirane podatke raspodela uĉestalosti prikazuje se po klasnim
intervalima. Na primer, raspodela uĉestalosti po klasnim intervalima starosti prikazana je u
Tabeli 7, a grafiĉki prikazana histogramom i poligonom frekvencija (Grafikoni 9 i 10).
Granice i širine klasnih intervala odreĊuju se prema odreĊenim pravilima:

1. Utvrditi minimalnu i maksimalnu vrednost i izraĉunati opseg (razlika maksimalne i


minimalne vrednosti).
2. Doneti odluku o broju klasnih intervala. Prikaz raspodele sa manjim brojem klasnih
intervala je pregledniji, a sa većim brojem klasnih intervala je informativniji o
karakteristikama raspodele.
3. Doneti odluku o širini klasnih intervala. Dobija se tako što se opseg podeli brojem
klasnih intervala, a dobijena vrednost po potrebi zaokruţi. Na primer, dobijena
vrednost od 2.8 moţe biti zaokruţena na širinu 3. Alternativno, istraţivaĉ moţe sam
odrediti šitinu intervala zbog bolje preglednosti ili poreĊenja sa drugim rezultatima.
4. Doneti odluku o donjoj granici prvog klasnog intervala. Ta granica mora biti odabrana
tako da prvi klasni interval obuhvati podatak sa minimalnom vrednošću.
Preporuĉljivo je da donja granica bude deljiva širinom klasnih intervala.
5. Donja granica svakog sledećeg klasnog intervala se dobija sabiranjem donje granice
prethodnog klasnog intervala i širine klasnog intervala. Poslednji klasni interval mora
da obuhvati podatak sa maksimalnom vrednošću.
6. Klasni intervali su najĉešće jednake širine, a granice moraju biti tako odabrane da
obezbede da svaka jedinica opservacije pripadne samo jednom intervalu.

Za prikaz raspodele uĉestalosti numeriĉkih kontinuiranih podataka, varijable starost:


1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency
distributions.
2) U dijalog prozoru oznaĉiti varijablu starost
3) Ĉekirati polja Show percent (za prikaz procenata). Ukoliko ne ţelimo da prikaţemo
nedostajuće podatke odĉekirati polje Show missing data.
4) Kliknuti na dugme OK.

Tabela sa prikazom apsolutnih i relativnih uĉestalosti se zatim kreira u MS Word-u ili


nekom drugom programu za obradu teksta.
Raspodela uĉestalosti numeriĉkih kontinuiranih varijabli grafiĉki se moţe predstaviti u vidu
histograma na sledeći naĉin:
1) Kliknuti na liniji sa komandama: Graphs and tables→Histogram
2) U dijalog prozoru oznaĉiti varijablu starost
3) U polje Number of sections (when not grouped) ukucati broj ţeljenih klasnih intervala.
Ukoliko se ne ukuca ništa program će sam automatski odrediti broj klasnih intervala.
4) Kliknuti na dugme OK.

Grafiĉki prikaz varijable starost u vidu histograma prikazan je u posebnom prozoru.


Zadatak 4:

Dati su podaci o telesnoj visini 17 studenata III godine medicinskog fakulteta: 178, 169,
185, 172, 175, 191, 183, 165, 171, 164, 181, 174, 158, 171, 178, 167 i 159 cm.

Grupisati podatke u 5 klasnih intervala i prikazati ih grafiĉki i tabelarno.

Zadatak: Za grafiĉko prikazivanje raspodela uĉestalosti ordinalnih podataka koristi se: -


Kruţni ili stubiĉasti dijagram
DODATNO GRADIVO: Kumulativne uĉestalosti
Kumulativne učestalosti (frekvencije) su sukcesivni zbirovi uĉestalosti pojedinih grupa ili
grupnih intervala. Dobijaju se na taj naĉin što se uĉestalosti sledećih u nizu grupa sukcesivno
sabiraju sa prethodnim uĉestalostima, tako da se kumulativna uĉestalost najviše grupe
izjednaĉuje se sa zbirom uĉestalosti.

Kumulativne uĉestalosti omogućavaju da znamo koliko jedinica posmatranja ima vrednost


jednaku ili manju od odreĊene vrednosti varijable od interesa.

Kumulativna uĉestalost se moţe izraĉunati za apsolutne i za relativne uĉestalosti.

Grafiĉki se prikazuju linijskim kumulativnim dijagramom gde se na X-osi nanose vrednosti


obeleţja a na Y-osi kumulativne uĉestalosti.

Primer: Prikazati kumulativnim dijagramom distribuciju uĉestalosti broja povreda kod 20


sportista.
VI Mere centralne tendencije

U statistiĉkom smislu prosek, srednja vrednost, odnosno mera centralne tendencije je jedan
broj, jedna vrednost koja kao reprezentativna zamenjuje sve druge vrednosti obeleţja
posmatranja.

Osobine srednjih vrednosti:

 Ne mogu biti veće od najveće, niti manje od najmanje pojedinaĉne vrednosti u datom
skupu podataka.

 Spadaju u apsolutne mere jer se iskazuju u istim mernim jedinicama u kojima su


iskazani i podaci za koje se izraĉunavaju.

 Mogu imati vrednost koja ne postoji u skupu podataka.

 Mogu biti iskazane i decimalnim brojem, bez obzira da li su u pitanju numeriĉki


kontinuirani ili diskontinuirani podaci.

Prema naĉinu izraĉunavanja srednje vrednosti se dele u dve grupe:

1. Matematičke (računske) srednje vrednosti – izraĉunavaju se na osnovu svih vrednosti:

 aritmetiĉka sredina
 geometrijska sredina
 harmonijska sredina

2. Pozicione (lokacione) srednje vrednosti – odreĊuju se na osnovu poloţaja u nizu


podataka i raspodeli uĉestalosti:

 medijana
 mod (modus, tipiĉna vrednost)

ARITMETIĈKA SREDINA
Aritmetička sredina je koliĉnik zbira svih podataka i ukupnog broja podataka. Poznata je i
kao proseĉna vrednost, prosek. Obeleţava se sa x¯(ĉita se iks bar).

Primer 1. Data je telesna visina 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171,
175. Izraĉunati aritmetiĉku sredinu. Aritmetiĉka sredina iznosi: 175,5

Algebarski, zbir odstupanja pojedinaĉnih vrednosti od njihove aritmetiĉke sredine jednak je


nuli, a zbir kvadrata odstupanja pojedinaĉnih vrednosti od njihove aritmetiĉke sredine manji
je od zbira kvadrata odstupanja od bilo koje druge vrednosti.
Prednost aritmetiĉke sredine je jednostavno izraĉunavanje i reflektovanje svih vrednosti u
skupu podataka.

Nedostaci aritmetiĉke sredine su (1) da se ne moţe koristiti sa nominalnim i ordinalnim


podacima, i (2) da je pod znaĉajnim uticajem ekstremnih vrednosti - na malom broju
podataka samo jedna ekstremna vrednost moţe uĉiniti aritmetiĉku sredinu
nereprezentativnom, kao što je to prikazano u primeru 2.

Primer 2. Za pet vrednosti amilaze u serumu (U/L): 51, 79, 62, 37 i 42, aritmetiĉka sredina
iznosi 54 U/L. Dodavanjem nove vrednosti od 279 U/L, aritmetiĉka sredina postaje 92 U/L.
Dodavanje ekstremnog podatka uĉinilo je da nova aritmetiĉka sredina nije više valjan
reprezent skupa podataka.

Aritmetička sredina za grupisane podatke se izraĉunava se prema formuli: x¯=∑fx/∑f

U ovoj formuli f predstavlja frekvenciju, a x predstavlja diskretnu vrednost obeleţja/sredinu


klasnog intervala.

Primer 1. (Izraĉunavanje aritmetiĉke sredine podataka grupisanih u klasne intervale)

U Tabeli je prikazana distribucija frekvencija vrednosti hemoglobina


(g/L) po klasnim intervalima za 50 ispitanika:

Izraĉunati aritmetiĉku sredinu.

Rešenje:

U prethodnu Tabelu dodati kolonu koja prikazuje vrednost sredine klasnog intervala (zbir
donje i gornje granice intrevala podeliti sa 2). Na primer, za prvi klasni interval, sredina
iznosi (106+110)/2=108. Zatim dodati kolonu fx (pomnoţiti frekvenciju sa sredinom klasnog
intervala).

Aritmetiĉka sredina je: x¯=∑fx / ∑f=6065 / 50=121.3g/L

U nekim sluĉajevima potrebno je izraĉunati objedinjenu aritmetiĉku sredinu zasnovanu na


već izraĉunatim aritmetiĉkim sredinama u ispitivanim grupama.

x¯¯=∑nx/¯∑n
Primer 2. (Izraĉunavanje aritmetiĉke sredine aritmetiĉkih sredina)

Date su vrednosti aritmetiĉkih sredina BMI uĉenika tri škole u jednoj opštini:

Kolika je aritmetiĉka sredina BMI uĉenika u toj opštini?

Rešenje

Objedinjena aritmetiĉka sredina iznosi:

x¯= 255×22.7+307×19.4+511×20.9 / 255+307+511=21.1

Kada bi u Primeru sve tri škole imale jednak broj uĉenika, aritmetiĉka sredina bi se dobila
prostim sabiranjem aritmetiĉkih sredina i deljenjem sa brojem grupa: (22.7+19.4+20.9)/3=
21.3.

MEDIJANA
Medijana ili centralna vrednost predstavlja srednju pozicionu vrednost. Deli niz podataka
poreĊanih po veliĉini na dva jednaka dela. Jednaka je drugom kvartilu, odnosno pedesetom
percentilu.

Zbir apsolutnih odstupanja svake pojedinaĉne vrednosti od medijane manji je od zbira


odstupanja od bilo koje druge vrednosti.

U skupu sa neparnim brojem podataka medijana je uvek stvarna i postojeća vrednost. Na


primer, ako je broj podataka 9, medijana će imati vrednost petog podatka kada su oni
poreĊani po veliĉini. U skupu sa parnim brojem podataka vrednost medijane se izraĉunava
tako što se saberu dva centralna podatka, i dobijeni zbir podeli sa dva. Na primer, ako je broj
podataka 10, vrednost medijane se dobija tako što se zbir petog i šestog podatka podeli sa
dva.

Medijana ne zavisi od vrednosti obeleţja posmatranja već od njihovog mesta tj. od broja
podataka. Upotrebljava se u onim sluĉajevima kada treba izbeći nerealnu aritmetiĉku sredinu
ili kada postoji posebna zainteresovanost za mesto podataka kao što je lociranje optimalnog
poloţaja.
Nedostaci medijane, u odnosu na aritmetiĉku sredinu, jesu (1) da je manje pogodna za dalje
statistiĉke analize, i (2) da ignoriše relativan uticaj svake pojedinaĉne vrednosti, ukljuĉujući i
ekstremne vrednosti, tako da nije pogodna kada istraţivaĉ ţeli da srednja vrednost reflektuje
svaku vrednost iz skupa podataka.

ODREĐIVANJE MEDIJANE

1. Urediti podatke od minimalne do maksimalne vrednosti.

2. Odrediti mesto (poloţaj) medijane prema formuli:

Mmed = n+1 / 2
3. Proĉitati ili izraĉunati vrednost koja odogovara mestu medijane.

 kod neparnog broja podataka medijana je vrednost srednjeg tj. centralnog podatka;
 kod parnog broja podataka vrednost medijane se izraĉunava kao aritmetiĉka sredina
dva centralna podatka.

Primer 1: Date su vrednosti Hgb (g/L) u krvi 5 bolesnika: 142, 131, 152, 137, 148. Odrediti
medijanu.

mmed=n+1 / 2=5+1 / 2=3

Med=142g/L
Medijana hemoglobina iznosi 142g/L.

MOD
Mod (tipiĉna vrednost) je vrednost podatka sa najvećom uĉestalošću. OdreĊivanje moda
moţe biti olakšano ako su podaci sreĊeni po rastućem ili opadajućem nizu. Na primer, za
sledeće podatke:

vrednost moda iznosi 4 (to je vrednost koja se nauĉestalije javlja - tri puta).
Kod grupisanih podataka pribliţna vrednost moda je vrednost grupe ili sredine klasnog
intervala sa najvećom frekvencijom – modalna grupa ili modalni interval.

Ako se pojavljuje samo jedna maksimalna frekvencija grupe ili grupnog intervala radi se o
unimodalnoj raspodeli, a ako se pojavljuju dve ili više maksimalnih frekvencija grupa ili
grupnih intervala radi se o bimodalnoj ili multimodalnoj raspodeli.

Prednosti moda su (1) da nije pod uticajem ekstremnih vrednosti, i (2) da je to jedina mera
centralne tendencije koja se moţe primeniti kod nominalnih podataka.

Nedostaci moda su (1) da moţe postojati više od jednog moda u datom skupu podataka, što
oteţava interpretaciju, (2) da se ne moţe odrediti ako ne postoje bar dva podataka sa istim
vrednostima, (3) da nije pogodan za dalje statistiĉke analize, i (4) da ignoriše relativan uticaj
svake pojedinaĉne vrednosti.

Primer. Dat je broj povreda 20 sportista: 2, 0, 5, 4, 4, 3, 1, 1,3, 1, 2, 0, 2, 1, 3, 2, 2, 3, 2, 1.


Odrediti mod za broj povreda.

Mod = 2

ODNOS MERA CENTRALNE TENDENCIJE


Uzajamni odnosi srednjih vrednosti najviše zavise od oblika raspodele uĉestalosti. Kod
simetriĉne raspodele aritmetiĉka sredina, medijana i mod imaju sliĉne vrednosti (slika 3).
Kod desno (pozitivno) iskošene raspodele, aritmetiĉka sredina je veća od medijane i moda (x
> Med > Mod), a kod kod levo (negativno) iskošene raspodele, aritmetiĉka sredina je manja
od medijane i moda (x < Med < Mod) (slika 4).

Izbor srednje vrednosti, kao reprezenta skupa podataka, zavisi od tipa podataka i osobina
raspodele:.

1. Za numeriĉke podatke sa simetriĉnom raspodelom i bez ekstremnih vrednosti, upotrebiti


aritmetiĉku sredinu.

2. Za numeriĉke podatke sa asimetriĉnom raspodelom, ili kada postoje ekstremne vrednosti,


upotrebiti medijanu.

3. Za ordinalne podake upotrebiti medijanu.

4. Za ordinalne podatke sa malim brojem kategorija (na primer 3 kategorije) upotrebiti


mod.

5. Za nominalne podatke upotrebiti mod.

Na primer, za podatke o BMI, ako je raspodela simetriĉna i bez ekstremnih vrednosti, treba
upotrebiti aritmetiĉku sredinu. Ako je rapodela asimetriĉna ili ima ekstremnih vrednosti,
treba upotrebiti medijanu. Za istu varijablu, ako je umesto BMI, iskazana ordinalnim
podacima sa pet kategorija (1-teška pothranjenost, 2-pothranjenost, 3-normalna uhranjenost,
4- gojaznost, 5-preterana gojaznost) moţe se upotrebiti medijana ili mod. Ali ako je ista
varijabla iskazana ordinalnim podacima sa samo tri kategorije (1-pothranjenost, 2-normalna
uhranjenost, 3-gojaznost) onda je upotreba moda najadekvatnija srednja vrednost.
VII Mere varijabiliteta

Mere varijabiliteta (mere varijacije, mere disperzije, mere raspršenja) opisuju variranje
vrednosti skupa podataka, u smislu odstupanja od srednjih vrednosti i opsega meĊusobnih
razlika.

Mere varijabiliteta moţemo podeliti na apsolutne mere varijabiliteta koje su iskazane u


jedinicima mere obeleţja i relativne mere varijabiliteta koje su iskazane neimenovanim
brojevima:

Apsolutne mere varijabiliteta su:

a) Interval (raspon) varijacije

b) Kvantili, percentili, decili, kvartili

c) Srednje apsolutno odstupanje

d) Varijansa

e) Standardna devijacija

Relativne mere varijabiliteta su:

a) Koeficijent varijacije

b) Standardizovane (normalizovane) vrednosti

INTERVAL VARIJACIJE
Interval varijacije je razlika najveće i najmanje vrednosti u skupu podataka.

I= xmax−xmin

gde je: xmax – najveća vrednost u skupu podataka, xmin – najmanja vrednost u skupu
podataka.

Interval varijacije je najjednostavnija i najmanje informativna mera disperzije. Pruţa opšte i


elementarne informacije koje sluţe za orjentacionu procenu homogenosti obeleţja.

Nedostaci intervala varijacije su (1) da zavisi od postojanja ekstremnih vrednosti, (2) da ne


daje informaciju o grupisanju unutar intervala, i (3) da njegova vrednost raste sa povećanjem
uzorka.
Primer 1: Odrediti interval varijacije telesne visine 10 osoba (cm): 177, 172, 183, 190, 174,
165, 169, 181, 171 i 175.

Interval varijacije telesne visine je 25 cm.

Kvantili i grafikon kutije


Kvantili predstavljaju pozicione vrednosti numeriĉkog obeleţja koje niz ureĊen po veliĉini
dele na k-jednakih delova. Broj kvantila uvek je jednak k-1. Potupak odreĊivanja kvantila
analogan je postupku odreĊivanja medijane. Sluţe za odreĊivanje ili upoznavanje sa
raspodelom frekvencija i podataka unutar skupa.

Percentili su kvantili koji statistiĉki niz dele na 100 jednakih delova (broj percentila je 99).

Decili su kvantili koji statistiĉki niz dele na 10 jednakih delova (broj decila je 9).

Kvartili su kvantili koji statistiĉki niz dele na 4 jednaka dela.

Broj kvartila je 3:

 Q1 -prvi ili donji kvartil jednak je 25. percentilu

 Me -drugi kvartil ili medijana odnosno 50. percentil (5. decil)

 Q3 -treći ili gornji kvartil jednak je 75. percentilu.


Interkvartilni opseg (IQ) jednak je razlici 75. i 25. percentila, odnosno jednak je Q3-Q1 i u
njemu se nalazi 50% observacija.

Kvantile (percentile, decile i kvartile) odreĊujemo uz pomoć relativnih kumulativnih


distribucija frekvencija.

Grafikon kutije (Box-and-Whisker-Plot, Box-plot, B-P)

Grafikonom kutije prikazujemo numeriĉke podatke. Grafikon kutije dizajnirao je John Tukey.
Grafikon se sastoji od kutije (engl. box), ĉija je stranica duţine interkvartilnog opsega (IQ) i
ĉiji se krajevi prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara
trećem kvartilu (Q3). Unutar kutije je oznaka, obiĉno linija koja preseca kutiju, koja odgovara
vrednosti medijane. Kutija predstavlja 50% opserviranih sluĉajeva.

Iz kutije na obe strane izlazi po jedan produţetak, tzv. brk ( engl.whisker, maĉji brk) koji se
prostire u opsegu najmanje i najveće vrednosti koje nisu neobiĉne ili ekstremne. Za
odreĊivanje duţine produţetaka sluţe nam unutrašnje i spoljašnje granice. Unutrašnje granice
su udaljene od krajeva kutije po 1,5 a spoljašnje po 3 interkvartilna opsega. Granice se ne
ucrtavaju u grafikon već sluţe za odreĊivanje duţine produţetaka i identifikaciju neobiĉnih i
ekstremnih vrednosti.

Neobiĉne vrednosti (engl. outlier) su sve vrednosti koje su od ivica kutije udaljene više od
1,5 a manje od 3 duţine kutije (interkvartilnog opsega) i na grafikonu se oznaĉavaju 0.
Ekstremne vrednosti su one koje su od ivice kutije udaljene više od 3 njegove duţine i na
grafikonu se obeleţavaju sa * ili x.

Za unimodalne distribucije frekvencija oĉekuje se da iza unutrašnjih granica bude manje od


1% podataka, dok je verovatnoća pojavljivanja podataka iza spoljašnjih granica 1 ‰ .

Treba proveriti da li je vrednost ekstremnih vrednosti moguća ili je u pitanju greška prilikom
zapisivanja i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih
vrednosti date promenljive.
Shematski prikaz grafikona kutije Primer grafikona kutije
VARIJANSA I STANDARDNA DEVIJACIJA
Varijansa je srednje kvadratno odstupanje od aritmetiĉke sredine. Obeleţava se sa sd2 ili s2.
Izraĉunava se po formuli:

sd2=∑(xi−x¯)2 / n−1

gde je: xi je vrednost pojedinaĉnog podatka, (x¯) je aritmetiĉka sredina, a n je broj podataka.
Kada je n veće od 30, u imeniocu se moţe staviti n umesto n-1 jer su tada izraĉunate
vrednosti pribliţno.jednake.

Standardna devijacija (obeleţava se sa sd) izraĉunava se kao kvadratni koren iz varijanse,


odnosno kao kvadratni koren iz srednjeg kvadratnog odstupanja od aritmetiĉke sredine:

sd = √sd2

sd=√ ∑(xi−x¯)2 / n−1

Standardna devijacija je najvaţnija i najĉešće primenjivana mera varijacije. Standardna


devijacija se moţe interpretirati kao srednje odstupanje od aritmetiĉke sredine. Što je
standardna devijacija manja, manje je i odstupanje vrednosti podataka od aritmetiĉke sredine.

Varijansa i standardna devijacija ne mogu biti negativne (zbog kvadriranja odstupanja), i


mogu biti jednake nuli samo ako svi podaci imaju istu vrednost.

Prednost varijanse i standardne devijacije, kao mera varijabiiteta, je u tome što odraţavaju
variranje svih vrednosti skupa podataka.

Nedostaci varijanse i standardne devijacije su: (1) osetljivost na ekstremne vrednosti, (2)
nepodesne su za podatke sa asimetriĉnom raspodelom i (3) mogu se koristiti samo za
numeriĉke podatke.

Nedostatak varjanse u odnosu na standardnu devijaciju, je u tome što se iskazuje kvadriranim


mernim jedinicama (na primer, ako su dati podaci o koncentraciji neke supstance iskazani
kao mmol/L, varijansa tih podataka biće iskazana kao mmol2/L2), zbog ĉega je oteţana
interpretacija varijabiliteta. Za razliku od varijanse, standardna devijacija ima iste merne
jedinice kao i podaci (u pomenutom primeru standardna devijacija podataka bila bi iskazana
kao mmol/L) i lakše ju je zbog toga interpretirati.
KOEFICIJENT VARIJACIJE
Koeficijent varijacije (CV) je relativna mera varijacije. Izraĉunava se kao koliĉnik
standardne devijacije i aritmetiĉke sredine, i obiĉno je iskazan u procentima:

CV=sd / x¯×100%

Koeficijent varijacije pokazuje varijabilitet podataka u odnosu na aritmetiĉku sredinu. CV je


bezdimenziona mera, odnosno iskazuje se brojem bez bilo kakve merne jedinice, za razliku
od standardne devijacije koja je apsolutna mera varijabiliteta iskazana istim mernim
jedinicama kao i podataci. Zbog toga je koeficijent varijacije, kao relativna mera, pogodan za
poreĊenje varijabiliteta razliĉitih skupova podataka, ĉak i kada su oni mereni potpuno
razliĉitim mernim jedinicima.

Kada je CV manji ili jednak od 30% za skup podataka se moţe reći da je homogen (manje
varijabilan, konzistentan, uniforman). Ako je CV veći od 30%, za skup podataka se moţe reći
da je heterogen (više varijabilan).

Zed vrednost (zed skor, standardizovana vrednost) je odstupanje od aritmetiĉke sredine


iskazano standardnim devijacijama. Izraĉunava se pomoću formule:

z =xi−x¯ / sd
gde je xi aktuelna vrednost za koju se izraĉunava zed vrednost, x¯ je aritmetiĉka sredina, a sd
standardna devijacija.

Zed vrednost je pokazatelj relativne pozicije neke vrednosti u skupu podataka. Predznak zed
vrednosti pokazuje da li je neka konkretna vrednost manja (negativna zed vrednost) ili veća
(pozitivna zed vrednost) od aritmetiĉke sredine.
VIII Statistiĉko opisivanje podataka

EZR - deskripcija podataka


U ovoj lekciji, u primerima, biće korišćeni podaci iz baze podataka pod
nazivom: zadovoljstvo zdravstvenom zastitom.xlsx.

Podaci se uĉitavaju u EZR po proceduri navedenoj u prethodnim lekcijama.

Za varijablu starost izraĉunati mere centralne tendencije i varijabiliteta.

Aritmetička sredina, standardna devijacija, koeficijent varijacije, medijana, minimalna i


maksimalna vrednost mogu se dobiti na sledeći naĉin:

1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical


summaries.

2) U dijalog prozoru koji se pojavio:

 u okviru kartice Data oznaĉiti varijablu starost.

 u okviru kartice Statistics ĉekirati polja za Mean, Standard deviation, Coefficient


of Variation i Quantiles, pa kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

gde je:
mean aritmetiĉka sredina (34.7)
sd standardna devijacija (9.9)
cv koeficijent varijacije (0.28)
0% minimalna vrednost (18.0)
50% medijana (33.0)
100% maksimalna vrednost (54.0)
n broj ispitanika

Mod se moţe dobiti primenom komande za ispisivanje uĉestalosti (table) koja je objašnjena u
prethodnoj lekciji:

1) Kliknuti na liniji sa komandama: Statistical analisys→Discrete variables→Frequency


distributions.

2) U dijalog prozoru oznaĉiti varijablu starost pa kliknuti na dugme OK.

Mod je vrednost sa najvećom uĉestalošću.

Interval varijacije se dobija kao razlika maksimalne i minimalne vrednosti.

U našem primeru: Interval varijacije=54-18=36 godina.

Interval varijacije se moţe izraĉunati direktno u R konzoli.


R omogućava izraĉunavanje razliĉitih matematiĉkih operacija direktno u komandnoj liniji.
Procedura je jednostavna, ukucati vrednosti i operatore pa kliknuti na dugme Enter kako bi
se dobio rezultat.

PRIKAZ REZULTATA STATISTIČKE ANALIZE:

Deskriptivne vrednosti varijable starost iznose:

• aritmetiĉka sredina±standardna devijacija: 37,4±9,9 godina.

• medijana (minimalna vrednost-maksimalna vrednost): 33,0 godine (opseg, 18,0-54,0).

EZR - deskripcija podataka po grupama

Kada je potrebno prikazati deskripciju podataka po grupama, npr. deskripciju varijable starost
prema polu (grupe) iz našeg primera, to se moţe postići na sledeći naĉin:

1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical


summaries

2) U dijalog prozoru koji se pojavio:

 u okviru kartice Data oznaĉiti varijablu starost, pa kliknuti na dugme Summarize by


groups…

U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme
OK.
 u okviru kartice Statistics ĉekirati polja za Mean, Standard deviation, Coefficient of
Variation i Quantiles, pa kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


IX Verovatnoća i teorijske raspodele verovatnoća

U prirodi postoje dve vrste dogaĊaja: sigurni i sluĉajni. Sigurni (deterministički)


dogaĎaji su oni u kojima odreĊeni uslovi delovanjem nekog zakona deterministiĉki
(jednoznaĉno) vode u odreĊeni ishod. Na primer, sigurno je da neunošenje vitamina C u
ljudski organizam vodi u bolest pod nazivom skorbut.

Slučajni (nedeterministički, stohastični) dogaĎaji su oni u kojima odreĊeni uslovi zavisno


od sluĉajnosti mogu voditi u razliĉite ishode. Ovi ishodi su meĊusobno iskljuĉivi, odnosno
moţe se ostvariti samo jedan od njih. Skup svih mogućih ishoda, u odreĊenim uslovima,
nazivamo skup elementarnih ishoda (skup elementarnih dogaĊaja).

Primer 1: Za tip krvne grupe mogući ishodi su: krvna grupa O, A, B i AB. Ova ĉetiri
ishoda su meĊusobno iskljuĉiva, odnosno jedna osoba moţe imati samo jednu krvnu
grupu. Ove ĉetiri krvne grupe ĉine skup elementarnih ishoda.

Predmet ispitivanja teorije verovatnoće jesu sluĉajni dogaĊaji. Verovatnoća je mera


oĉekivanja nekog sluĉajnog dogaĊaja. Kvantitativno se iskazuje na skali od 0 (nemoguć
dogaĊaj) do 1 (siguran dogaĊaj), ili u procentima od 0% do 100%. Verovatnoća malo
verovatnih dogaĊaja bliska je nuli, dok je verovatnoća visoko verovatnih dogaĊaja bliska
jedinici.

Verovatnoća sluĉajnog dogaĊaja se moţe definisati i izraĉunati na više naĉina:

1. Objektivna verovatnoća
o Teorijska (klasiĉna, matematiĉka, a priori) verovatnoća
o Empirijska (statistiĉka, frekvencijska, a posteriori) verovatnoća
2. Subjektivna verovatnoća

Teorijska verovatnoća zasniva se na pretpostavci da su svi mogući ishodi jednako


verovatni. Ova verovatnoća naziva se a priori, jer se odreĊuje pre bilo kakvog merenja ili
opservacije samih ishoda. Teorijska verovatnoća izraĉunava se kao koliĉnik broja oĉekivanih
ishoda i broja svih jednako mogućih ishoda.

Primer 2: U istraţivanju, u kojem je cilj bio ocena efektivnosti tretmana A i B, ispitanici su


na sluĉajan naĉin, svrstavani u jednu od grupa: A, B ili kontrolnu (placebo). Kolika je
verovatnoća da jedan ispitanik bude svrstan u kontrolnu grupu?

Rešenje: Broj svih jednako mogućih ishoda iznosi tri (grupa A, grupa B i kontrolna grupa).
Broj oĉekivanih ishoda iznosi jedan (kontrolna grupa). Verovatnoća da jedan ispitanik bude
svrstan u kontrolnu grupu iznosi: (broj oĉekivanih ishoda)/(broj svih jednako mogućih
ishoda) = 1/3 = 0.33.

Pitanje 1: Kolika je verovatnoća da jedan ispitanik, iz Primera 2, bude svrstan u grupu A ili
grupu B? R: 0,66
EMPIRIJSKA VEROVATNOĆA
Empirijska verovatnoća (relativna frekvencija) se odreĊuje posle ostvarivanja
posmatranog dogaĊaja, a izraĉunava se kao odnos broja ostvarenih (oĉekivanih) ishoda
prema ukupnom broju mogućih ishoda:

p= m / n

gde je p relativna uĉestalost, m broj oĉekivanih ishoda, a n ukupan broj mogućih ishoda.

Primer 3: Ispitivana je uĉestalost tipova krvnih grupa u odreĊenoj populaciji. Na uzorku od


2700 ispitanika naĊene su sledeće relativne uĉestalosti:

Krvna grupa Relativna uĉestalost


O 45%
A 39%
B 12%
AB 4%

Ove relativne uĉestalosti istovremeno su i verovatnoće da sluĉajno izabrana osoba ima neku
konkretnu krvnu grupu.

Subjektivna verovatnoća izraţava stepen uverenja odreĊene osobe o mogućnosti ostvarenja


nekog dogaĊaja. Zasniva se na teorijskom znanju u datoj oblasti, i raspoloţivim
informacijama. Primenjuje se kada nije moguće neku pojavu opservirati više puta, i na taj
naĉin odrediti relativne frekvencije, kod veoma retkih ili dogaĊaja koji se do sada nisu desili.
Subjektivna verovatnoća se moţe razlikovati od jedne do druge osobe, zavisno od usvojenog
teorijskog modela posmatrane pojave i raspoloţivih informacija. Na primer, pojedini nauĉnici
mogu dati svoje liĉne procene verovatnoće da će u periodu od narednih pet godina doći do
mutacije virusa SARS-CoV2.

Osobine verovatnoće:

 Nenegativnost: ne moţe biti negativna i uvek je u intervalu od 0 (nemoguć dogaĊaj)


do 1 (siguran dogaĊaj)
 Normiranost: zbir verovatnoća svih mogućih meĊusobno iskljuĉivih dogaĊaja iznosi 1
(Za tip krvne grupe postoje ĉetiri moguća dogaĊaja. Svaki tip krvne grupe ima
odreĊenu verovatnoću da baš on bude naĊen kod sluĉajno odabrane osobe. Zbir
verovatnoća sva ĉetiri tipa krvne grupe iznosi 1)
 Aditivnost: ako su dva dogaĊaja meĊusobno iskljuĉiva, verovatnoća da će se ostvariti
bilo koji od njih dobija se kao zbir njihovih verovatnoća

Verovatnoća dogaĊaja koji je predmet istraţivanja naziva se verovatnoćom oĉekivanog


dogaĊaja i obiĉno se obeleţava sa p. Verovatnoća dogaĊaja koji nije predmet istraţivanja
naziva se verovatnoćom suprotnog dogaĊaja i obeleţava se sa q. Obe verovatnoće
su komplementarne parcijalne verovatnoće pa za njih vaţi: p+q=1.

Zakoni verovatnoće:
1. Zakon adicije (zakon sabiranja verovatnoća): zakonom adicije izraĉunava se
verovatnoća da će se dogoditi jedan, bilo koji (ili ovaj ili onaj), oĉekivani dogaĊaj.

 Za meĊusobno iskljuĉive dogaĊaje (ne mogu se ostvariti istovremeno):

P(A∪B)= P(A) + P(B)

 Za dogaĊaje koji nisu meĊusobno iskljuĉivi:

P(A∪B)= P(A) + P(B) − P(A∩B)

2. Zakon multiplikacije (zakon množenja verovatnoća). Ovaj zakon se odnosi na sloţenu


verovatnoću tj. verovatnoću istovremene ili uzastopne pojave dva ili više dogaĊaja.
Verovatnoća da će nastupiti oĉekivana kombinacija dogaĊaja (i ovaj i onaj) jednaka je
proizvodu verovatnoća svakog od tih dogaĊaja.

•Za nezavisne dogaĊaje (nastupanje dogaĊaja ne zavisi od nastupanja ili nenastupanja drugog
dogaĊaja):

P(A∩B)= P(A) × P(B)


•Za zavisne dogaĊaje (nastupanje dogaĊaja zavisi od nastupanja ili nenastupanja drugog
dogaĊaja):

P(A∩B)= P(A) × P(B/A) = P(B) × P(A/B)


Relativna verovatnoća P(A/B) naziva se još i uslovna ili kondicionalna verovatnoća i
predstavlja verovatnoću uslovljenog dogaĊaja. Uslovna verovatnoća je verovatnoća
oĉekivanog dogaĊaja koji je uslovljen prethodnom pojavom nekog drugog dogaĊaja. Uslovna
verovatnoća je osnovni tip verovatnoće u prirodnim naukama pa prema tome i u medicini.

NAPOMENA:

R podrţava izraĉunavanje klasiĉnih raĉunskih operacija u komandnoj liniji u okviru R


Konzole, pa će se taj naĉin izraĉunavanja i koristiti u primerima na kursu. Moguće je raditi i
sloţenija izraĉunavanja.

Prilikom izraĉunavanja prioritet ima ono što je u zagradi.

Od raĉunskih operacija prvo se mnoţi i deli a zatim sabira i oduzima.

Od matematiĉkih simbola koristiti: + za sabiranje, - za oduzimanje, * za mnoţenje i / za


deljenje.

Primer 4 (komplementarni dogaĊaji): Verovatnoća da sluĉajno izabrana osoba ima koronarnu


bolest srca iznosi 0.12. Kolika je verovatnoća komplementarnog dogaĊaja, odnosno da osoba
nema koronarnu bolest srca?
Rešenje:

P(B)=0.12
,
P(B¯)=1−0.12=0.88

Primer 5 (adicija meĊusobno iskljuĉivih dogaĊaja): Kolika je verovatnoća da sluĉajno


izabrana osoba ima ili krvnu grupu O ili krvnu grupu B (Tabela iz Primera 3)?

Rešenje:

P(O) = 0.45

P(B) = 0.12

Tip krvne grupe su meĊusobno iskljuĉivi dogaĊaji, pa je verovatnoća da sluĉajno


izabrana osoba ima ili krvnu grupu O ili krvnu grupu B:

P(O ili B) = 0.45 + 0.12 = 0.57

Primer 6 (multiplikacija nezavisnih dogaĊaja): Uĉestalost deformacija skeleta u školskoj


populaciji iznosi 5%, a uĉestalost anemije 3%. Kolika je verovatnoća da će neki uĉenik imati
i deformaciju skeleta i anemiju?

Rešenje:

P(D) = 0.05

P(A) = 0.03

Pod pretpostavkom da su deformacija skeleta i anemija nezavisni dogaĊaji u školskoj


populaciji, verovatnoća da će neki uĉenik imati i deformaciju skeleta i anemiju iznosi:

P(D i A) = P(D) x P(A) = 0.05 x 0.03 = 0.0015


Primer 7 (adicija dogaĊaja koji nisu meĊusobno iskljuĉivi): Kolika je verovatnoća da će
jedan sluĉajno izabrani uĉenik imati ili deformaciju skeleta ili anemiju?

Rešenje:

DogaĊaji nisu meĊusobno iskljuĉivi. Verovatnoća njihovog istovremenog javljanja


iznosi 0.0015 pa je verovatnoća da će jedan sluĉajno izabrani uĉenik imati ili
deformaciju skeleta ili anemiju:

P(D ili A) = P(D) + P(A) – P(DA) = 0.05 + 0.03 – 0.0015 = 0.0785

Pitanje 2: Kolika je verovatnoća da sluĉajno izabrana osoba ima ili krvnu grupu O ili krvnu
grupu A, ako je P(O)=0.45 i P(A)=0.39 (Tabela iz Primera 3)? R: 0,84

Teorijske raspodele verovatnoća su specifiĉni matematiĉki modeli raspodela (distribucija)


verovatnoća. U teorijskoj statistici formulisan je veći broj raspodela verovatnoća, od kojih
neke imaju široku primenu u medicini, kao što su to binomna i normalna raspodela.

Statistiĉke procedure zasnovane su na pretpostavci da empirijske raspodele podataka slede


neku od teorijskih raspodela, a zatim se osobine te teorijske raspodele mogu primeniti na
empirijsku raspodelu. Raspodele empirijskih podataka nikada nisu identiĉne teorijskim
raspodelama, koje su definisane matematiĉki, već manje ili više odstupaju od njih. Da bi
osobine neke teorijske raspodele mogle biti iskorišćene za analizu empirijskih podataka,
potrebno je da empirijska raspodela bude dovoljno sliĉna teorijskoj raspodeli.

Binomna raspodela

Binomna raspodela predstavlja raspored verovatnoća vrednosti prekidne sluĉajne promenljive


dihotomnog (binomnog) karaktera. Da bi neka sluĉajna promenljiva mogla da sledi zakone
binomnog rasporeĊivanja neophodno je da: 1) prost dogaĊaj ima dva meĊusobno iskljuĉiva
ishoda, 2) je verovatnoća oĉekivanog ishoda, koja se obeleţava sa p, konstantna u svakom
prostom dogaĊaju i 3) su dogaĊaji nezavisni. Binomna raspodela pokazuje verovatnoću
ostvarivanja svake vrednosti sluĉajno promenljive u odreĊenom broju uzastopno ponovljenih
nezavisnih dogaĊaja. Svaka binomna raspodela je definisana sa dva parametra: n i p, gde je n
broj prostih nezavisnih dogaĊaja, a p verovatnoća oĉekivanog dogaĊaja. Deskriptivne mere
binomne raspodele su aritmetiĉka sredina (np) i varijansa np(1–p).

Binomna verovatnoća predstavlja verovatnoću da će se oĉekivani binomni ishod (X), sa


stalnom prostom verovatnoćom (p), ostavriti x puta pri ponavljanju n nezavisnih prostih
dogaĊaja.

Binomna verovatnoća x uspeha od n prostih nezavisnih dogaĊaja dobija se primenom


funkcije binomne verovatnoća:

P(X=x) = [n! / x! (n−x)! ] pxqn−x


U ovoj formuli je

n! / x! (n−x)! binomni koeficijent, koji daje broj kombinacija sa x uspeha iz n dogaĊaja.

Izraĉunavanje faktorijela:

0! = 1

1! = 1

2! = 1 x 2 = 2

3! = 1 x 2 x 3 = 6 itd.

Primer 8: Uĉestalost hipertenzije u populaciji starijih od 65 godina iznosi 42% (p=0.42).

a) Kolika je verovatnoća da u sluĉajnom uzorku veliĉine 7 osoba, izabranom iz te iste


populacije, dve osobe imaju hipertenziju?

U našem primeru: x=2, n=7 i p=0.42.

Binomna verovatnoća se u EZR izraĉunava na sledeći naĉin:

1) Kliknuti na liniji sa komandama: Original menu→Distributions→Discrete


distributions→Binomial distributions→Binomial probabilities...

2) U dijalog prozoru koji se pojavio:

o u polje Binomial trials ukucati vrednost za n


o u polje Probability of success ukucati p
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure. EZR
prikazuje verovatnoće za svaki broj mogućih dogaĊaja istovremeno.

Rešenje:

P(X = 2) = 0.243

b) Kolika je verovatnoća da u sluĉajnom uzorku veliĉine 7 osoba, izabranom iz te iste


populacije, bar pet osoba ima hipertenziju?

U našem primeru: x≥5, n=7 i p=0.42.

Rešenje:

P(X≥5)=0.092+0.022+0.002=0.116

c) Kolika je verovatnoća da u sluĉajnom uzorku veliĉine 7 osoba, izabranom iz te iste


populacije, najviše dve osobe imaju hipertenziju?

U našem primeru: x≤2, n=7 i p=0.42.

Rešenje:

P(X≤2)=0.022+0.112+0.243=0.377.

Pitanje 3: Poznato je da je uspešnost IVFa (vantelesne oplodnje) iznosi 19%. Kolika je


verovatnoća da od pet sluĉajno izabranih ţena, posle IVFa, zatrudne ĉetiri? R: 0,005

Pitanje 4. Letalitet od neke bolesti iznosi 0.3. Kolika je verovatnoća da će doći do smrtnog
ishoda kod sva tri pacijenta sa ovim oboljenjem? 0,039/0,02/0,027

Aritmetiĉka sredina i standardna devijacija binomne raspodele

Primer 10: U kliniĉkom ogledu 10 mg leka primilo je 863 pacijenta. U ovoj populaciji
verovatnoća dobijanja simptoma gripa iznosila je 0.019. Izraĉunajte aritmetiĉku sredinu i
standardnu devijaciju broja pacijenata za koje se moţe oĉekivati da imaju simptome gripa?
U našem primeru: n=863 i p=0.019.

Rešenje:

Aritmetiĉka sredina jednaka je: np

Standardna devijacija jednaka je:

√np(1−p)

Aritmetiĉka sredina se izraĉunava pomoću komande: n*p

Standardna devijacija se moţe dobiti pomoću komande: sqrt(n*p*(1-p)).

sqrt(x) je funkcija za izraĉunavanje kvadratnog korena iz vrednosti x.

U našem primeru komanda je:

sqrt(863*0.019*(1-0.019))

Aritmetiĉka sredina broja pacijenata iznosi 16 a standardna devijacija 4.

NORMALNA RASPODELA
Normalna raspodela je najvaţnija raspodela u statistici. To je kontinuirana raspodela
verovatnoća, matematiĉki opisana formulom:

f(x)=[1 / σ√2π ]√e−(x−μ)2 / 2σ2

gde su μ i σ aritmetiĉka sredina i standardna devijacija raspodele, e je osnova prirodnog


logaritma (2.72), a x je vrednost kontinuirane varijable.
Karakteriše se zvonastom simetriĉnom raspodelom oko njene aritmetiĉke sredine (Slika 1).
Normalna raspodela je kompletno odreĊena parametrima normalne raspodele: aritmetiĉkom
sredinom i standardnom devijacijom. Njena aritmetiĉka sredina i medijana su jednake, i
odgovaraju najvišoj taĉki na krivi normalne raspodele. Na udaljenosti od jedne standardne
devijacije od aritmetiĉke sredine nalazi se taĉka infleksije – mesto gde kriva prelazi iz
konkaviteta u konveksitet, i obrnuto. Krajevi (repovi) krive produţavaju se beskonaĉno na
obe strane ali nikada ne dotiĉu apscisu.

Slika 1. Kriva normalne raspodele

Za normalnu raspodelu vaţi da se 68% opservacija nalazi unutar intervala aritmetiĉka


sredina±1sd, 95% opservacija unutar intervala aritmetiĉka sredina±2sd, i 99.7% unutar
intervala aritmetiĉka sredina±3sd (Slika 2).

Slika 2. Procenat opservacija unutar


intervala ±1sd, ±2sd i ±3sd normalne raspodele

Mnoge varijable u medicini imaju tendenciju da prate normalnu raspodelu, sa vrednostima


grupisanim oko aritmetiĉke sredine i sa smanjivanjem njihove uĉestalosti ka krajevima
raspodele.

Normalna raspodela je široko korišćena u statistici. Primeri su (a) klasiĉni statistiĉki testovi
bazirani na pretpostavci o normalnosti raspodele podataka, (b) odreĊivanje nivoa znaĉajnosti
u mnogim statistiĉkim testovima i intervalima poverenja, i (c) aproksimacije drugih raspodela
verovatnoća normalnom raspodelom, kao što je to binomna raspodela. Ono što omogućava
primenu normalne raspodele u aproksimacijama jeste centralna graniĉna teorema, po kojoj
bez obzira na karakteristike raspodele neke populacije, raspodela njenih uzoraĉkih
aritmetiĉkih sredina teţi normalnoj za velike uzorke.

Specijalan tip normalne raspodele je standardna normalna raspodela (zed raspodela) ĉiji su
parametri μ = 0 i σ =1. Bilo koja normalna raspodela moţe biti konvertovana u standardnu
normalnu raspodelu transformacijom: z = (x − μ )/ σ . Ovom formulom, bilo koja vrednost
originalne raspodele moţe biti konvertovana u zed vrednost (z-skor, standardan skor). Zed
vrednost je pokazatelj relativnog poloţaja neke vrednosti u raspodeli kojoj pripada.
Standardna normalna raspodela se moţe iskoristiti za odreĊivanje verovatnoća koje se odnose
na empirijske podatke, uz pretpostavku da oni slede normalnu raspodelu. Površina izmeĊu
apscise i krive normalne raspodele ekvivalentna je verovatnoći. Totalna površina ispod krive
jednaka je jedan. Verovatnoća da se vrednost varijable naĊe u intervalu izmeĊu dve vrednosti
jednaka je površini izmeĊu ovih vrednosti. Prvo je potrebno ove vrednosti transformisati u z-
vrednosti, a zatim proĉitati površine, a samim tim i verovatnoće, iz tabela površina ispod
krive standardne normalne raspodele. U tabeli (u prilogu) površine su date poĉev od
aritmetiĉke sredine do odgovarajauće zed-vrednosti (Slika 3).

Ĉitanje površine ispod krive standardizovane normalne raspodele

1. Preuzeti dokument pod nazivom Tablice.pdf


2. Otvoriti dokument i naći stranicu na kojoj se nalaze Površine ispod krive
standardizovane normalne raspodele.
3. U pretkoloni tablice su upisane: celobrojna i vrednost prve decimale zed vrednosti.
4. U zaglavlju tablice su upisane vrednosti druge decimale zed vrednosti.
5. Površina ispod krive standardizovane normalne raspodele se ĉita tako što se u
pretkoloni odredi red gde se nalazi celobrojna i vrednost prve decimale zed vrednosti
a u zaglavlju odredi kolona u kojoj se nalazi druga decimala zed vrednosti. Na
preseku odgovarajućeg reda i odgovarajuće kolone nalazi se broj koji predstavlja
verovatnoću posmatrane taĉke.
6. Ispred brojeva koji se ĉitaju u poljima tablice se podrazumeva 0, jer su to vrednosti
parcijalne verovatnoće.
7. Tablica površina prikazuje polovinu površine ispod krive i ima maksimalnu
verovatnoću 0.5.
8. Kod dvosmernog testiranja pomoću ove tablice, proĉitane verovatnoće mnoţe se sa 2 ,
a zadate verovatnoće dele se sa 2.

Procedura u EZR

U EZR verovatnoća površine ispod krive normalne raspodele izraĉunava se na sledeći naĉin:

1) Kliknuti na liniji sa komandama: Original menu→ Distributions→Continuous


distributions→Normal distributions→ Normal probabilities...
2) U dijalog prozoru koji se pojavio:

 u polje Variable value(s) ukucati vrednost varijable za koju se traţi verovatnoća


javljanja u populaciji
 u polje Mean ukucati aritmetiĉku sredinu varijable u populaciji
 u polje Standard deviation ukucati standardnu devijaciju varijable u populaciji

 ĉekirati polje Lower tail za izraĉunavanje verovatnoće javljanja vrednosti manjih od


zadate vrednosti varijable
 ĉekirati polje Upper tail za izraĉunavanje verovatnoće javljanja vrednosti većih od
zadate vrednosti varijable.

Primer 11: Telesna masa jedne populacije odraslih osoba je normalno rasporeĊena sa
aritmetiĉkom sredinom 70 kg i standardnom devijacijom 10kg.

a) Kolika je verovatnoća da će sluĉajno izabrana osoba iz ove populacije imati telesnu


masu veću od 85 kg?

Slika 3. Grafiĉki prikaz površine ispod krive normalne raspodele za vrednosti telesne mase
veće od 85 kg
P(x>85) =0.07

b) Kolika je verovatnoća da sluĉajno izabrana osoba iz ove populacije ima vrednost telesne
mase izmeĊu 67 i 85 kg?

Slika 4. Grafiĉki prikaz površine ispod krive normalne raspodele za vrednosti telesne mase
izmeĊu 67 i 85 kg

Izraĉunati verovatnoću za vrednost telesne mase manju od 85.

Izraĉunati verovatnoću za vrednost telesne mase manju od 67.


Izraĉunati razliku verovatnoća za vrednost telesne mase manju od 85 i manju od 67.

P(67 ≤ x ≤ 85) = 0.55

c) Kolika je verovatnoća da sluĉajno izabrana osoba iz ove populacije ima telesnu masu
manju od 95 kg?

Slika 5. Grafiĉki prikaz površine ispod


krive normalne raspodele za vrednosti telesne mase manje od 95kg

P( x ≤ 95) = 0.99
Pitanje 5: U populaciji ţena starosti izmeĊu 25 i 50 godina vrednosti mokraćne kiseline u
serumu su normalno rasporeĊene sa aritmetiĉkom sredinom 333 mmol/L i standardnom
devijacijom 30 mmol/L.

a) Kolika je verovatnoća da sluĉajno izabrana osoba iz ove populacije ima


vrednost mokraćne kiseline u serumu veću od 410 mmol/l? R: 0,005
b) Kolika je verovatnoća da sluĉajno izabrana osoba iz ove populacije ima
vrednost mokraćne kiseline u serumu izmeĊu 303 i 393 mmol/L?
0,9682/0,868/0,265

.
Lekcija 2
I Provera normalnosti raspodele

Pretpostavka za primenu mnogih statistiĉkih metoda je normalna raspodela podataka. Ne


postoji opšteprihvaćeni postupak na osnovu kojeg bi se jednostavno proverila normalnost
raspodele. Postoji nekoliko metoda, od kojih su neke raĉunske a neke grafiĉke. Poţeljno je da
se istraţivaĉ osloni na više od jedne metode za proveru normalnosti. Preporuka je da se
odabere bar jedna grafiĉka i bar jedna raĉunska metoda provere normalnosti raspodele.

Računske metode za proveru normalnosti raspodele:


1. Koeficijent varijacije (CV)
2. Vrednosti skjunisa i kurtozisa
3. Statistiĉko testiranje normalnosti: Kolmogorov-Smirnov test i Shapiro-Wilk test

Grafičke metode za proveru normalnosti raspodele:


1. Histogram
2. Normalni Q–Q grafikon
3. Grafikon kutije (“BoxPlot”)

Raĉunske metode za proveru normalnosti:


1. Koeficijent varijacije je koliĉnik standardne devijacije i aritmetiĉke sredine izraţen
procentualno.

CV=sd / x¯×100

Koeficijent varijacije (CV) veći od 30% ukazuje na odstupanje od normalne raspodele.

2. Vrednosti skjunisa i kurtozisa od -1 do 1 ukazuju na normalnu raspodelu.

Vrednosti skjunisa i kurtozisa veće od 3 i manje od -3 ukazuju na odstupanje od normalne


raspodele.
Kod pozitivno iskošene raspodele aritmetiĉka sredina je veća od medijane. Kod negativno
iskošene raspodele aritmetiĉka sredina je manja od medijane

Primer. Prikupljeni su podaci o prirastu telesne mase (g) i vrednostima trombocita (x 109/L)
za dve grupe eksperimentalnih ţivotinja pri ĉemu je jedna grupa bila na standardnoj ishrani, a
druga na ishrani obogaćanoj vitaminima (Primer baze za proveru normalnosti
raspodele.xlsx)

Procedura u EZR:
1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical
summaries
2) U dijalog prozoru koji se pojavio:

 u okviru kartice Data oznaĉiti varijablu Prirast, pa liknuti na dugme Summarize by


groups…

U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.

 u okviru kartice Statistics ĉekirati polja za Coefficient of Variation, Skewness i


Kurtosis, pa kliknuti na dugme OK.
3) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3. Statističko testiranje normalnosti: Kolmogorov-Smirnov test i Shapiro-Wilk test.


Kada je p > 0.05 ispitivana varijabla ima normalnu raspodelu.

1) Kliknuti na liniji sa komandama: Statistical analysis→Continuous


variables→Kolmogorov-Smirnov test for normal distribution

2) U dijalog prozoru koji se pojavio:

o u okviru polja Variable (pick one) oznaĉiti varijablu Prirast


o u polju Condition to limit samples for analysis ukucati:

 naziv varijable koja definiše grupe


 dva znaka ==
 pod znacima navoda naziv kategorije od interesa varijable koja
definiše grupe.

3) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

Grafiĉke metode za proveru normalnosti


1. Histogram. Metod je zasnovan na vizuelnoj proceni. Kada je raspodela ispitivane varijable
normalna, oĉekuje se da histogram ima zvonast i simetriĉan izgled, sliĉno krivoj teorijske
normalne raspodele. Ako izgled nije zvonast nego, na primer bimodalan, ili je asitmetriĉan, to
ukazuje na odstupanje od normalne raspodele.

1) Uĉitati bazu podataka Primer baze za proveru normalnosti raspodele.xlsx

2) Kliknuti na liniji sa komandama: Graphs and tables→Histogram

3) U dijalog prozoru koji se pojavio:


 u okviru polja Variable (pick one) oznaĉiti varijablu Prirast
 u polju Condition to limit samples for analysis ukucati: Ishrana=="Standardna
ishrana"
 kliknuti na dugme OK.

4) U posebnom prozoru pojaviće se histogram podskupa sluĉajeva na Standardnoj ishrani za


varijablu Prirast.

Gore navedeni postpak ponoviti za varijablu Trombociti.


2. Normalni Q–Q grafikon. Kada je raspodela normalna taĉke se nalaze na pravoj liniji.
Odstupanje taĉaka od prave linije ukazuje na odstupanje raspodele od normalne.

1) Uĉitati bazu podataka Primer baze za proveru normalnosti raspodele.xlsx. Na osnovu


varijable Ishrana selektovati grupu na Standardnoj ishrani.
2) Kliknuti na liniji sa komandama: Graphs and tables→Quantile-comparison plot

3) U dijalog prozoru koji se pojavio:

o u okviru polja Variable (pick one) oznaĉiti varijablu Prirast


o kliknuti na dugme OK

4) U posebnom prozoru pojaviće se Q-Q grafikon grupe na Standardnoj ishrani za varijablu


Prirast.

Gore navedeni postupak ponoviti za varijablu Trombociti.


3. Grafikon kutije (“boxplot”). Postojanje nekoliko ekstremnih vrednosti ili neobiĉnih
vrednosti na bilo kom kraju raspodele ukazuje na odstupanje od normalne raspodele. Ako
medijana nije u centru grafikona kutije već je znatno bliţa jednom od krajeva kutije to
ukazuje na odstupanje od normalne raspodele.

1) Uĉitati bazu podataka Primer baze za proveru normalnosti raspodele.xlsx

2) Kliknuti na liniji sa komandama: Graphs and tables→Boxplot

3) U dijalog prozoru koji se pojavio:

o u okviru polja Variable (pick one) oznaĉiti varijablu Prirast


o u okviru polja Grouping variable (pick 0 or 1) oznaĉiti varijablu koja definiše
grupe, u našem primeru to je varijabla Ishrana
o u delu Whisker range oznaĉiti (1Q-1.5xIQR)-(3Q+1.5xIQR)
o kliknuti na dugme OK.
4) U posebnom prozoru pojaviće se grafikon kutije varijable Prirast u odnosu na grupišuću
varijablu Ishrana.

Gore navedeni postupak ponoviti za varijablu Trombociti.

Zadatak. U bazi podataka pod nazivom Ziva.xlsx date su vrednosti ţive za grupu ispitanika
koji su imali infarkt miokarda i za kontrolnu grupu iz opšte populacije. Proveriti normalnost
raspodele koncentracije ţive.
Pitanje 1: Koliko iznose aritmetiĉka sredina i standardna devijacija koncentracije ţive u
grupi ispitanika sa infarktom i kontrolnoj grupi?

Infarkt: a.s. 1.25, sd 0.78. Kontrolna grupa: a.s. 1.52, sd 0.93

Infarkt: a.s. 0.09, sd 0.02. Kontrolna grupa: a.s. 0.10, sd 0.03

Infarkt: a.s. 2.25, sd 1.78. Kontrolna grupa: a.s. 2.52, sd 1.93

Pitanje 2: Koliko iznosi koeficijent varijacije?


Infarkt: 62%. Kontrolna grupa: 61%
Infarkt: 12%. Kontrolna grupa: 21%
Infarkt: 32%. Kontrolna grupa: 21%

Pitanje 3: Koja p vrednost dobijena primenom Shapiro-Wilk testa daje osnov za zakljuĉak da
raspodela odstupa od normalne?
p = 0.02
p˃0.05
p=0.12

Pitanje 4: Koji oblik raspodele prikazan histogramom ukazuje na odstupanje od normalne


raspodele?

Simetriĉna raspodela
Asimetriĉna raspodela

Pitanje 5: Koji izgled normalnog Q-Q grafikona ukazuje na odstupanje od normalne


raspodele?
taĉke su na pravoj liniji
taĉke znatno odstupaju od prave linije

Pitanje 6: Koji izgled grafikona kutije ukazuje na odstupanje od normalne raspodele?

Medijana je na sredini kutije


Medijana je pomerena ka jednom kraju kutije a postoje i ekstremne vrednosti
Nema ekstremnih vrednosti
II Transformacija podataka

Transformacija podataka je raĉunska operacija koja se izvodi sa podacima u cilju


ispunjavanja pretpostavki za primenu odreĊenih statistiĉkih metoda.

Primenjuje se nad svakim individualnim podatkom u uzorku, pri ĉemu se od postojećih


podataka x dobijaju transformisani podaci t, npr., t = log x.

Najĉešći ciljevi transformacije podataka su:

1. Normalizacija raspodele podataka


2. Stabilizacija varijanse (homogenost varijansi) – izjednaĉavanje varijansi razliĉitih
grupa
3. Postizanje linearnosti odnosa dve varijable

Normalnost raspodele podataka je pretpostavka za primenu parametarskih metoda.


Normalnost raspodele podataka se moţe proveriti raĉunskim metodama (koeficijent
varijacije, mere asimetrije i zaravnjenosti - skjunis i kurtozis, testovi Kolmogorov-Smirnov,
Shapiro-Wilk) i grafiĉkim metodama (histogram, normalni Q–Q grafikon, grafikon kutije).

Homogenost varijansi je pretpostavka za izvoĊenje nekih statistiĉkih testova, npr., t-testa ili
analize varijansi. Homogenost varijansi pre izvoĊenja t-testa moţe biti proverena F-testom, a
pre izvoĊenja analize varijanse B-testom (Bartlett) i Leveneovim testom.

Posle transformacije podataka potrebno je proveriti da li transformisani podaci ispunjavaju


pretpostavke za primenu statistiĉkih metoda zbog kojih je vršena transformacija.

Statistiĉke mere (npr. aritmetiĉka sredina i/ili 95%CI) dobijene analizom transformisanih
podataka mogu se obrnutom transformacijom vratiti na nivo originalnih podataka. Na
primer, ako je upotrebljen logaritam za osnovu 10 ili e, obrnuta transformacija se izvodi
stepenovanjem broja deset, odnosno e (2.72).

Zakljuĉci dobijeni statistiĉkom analizom transformisanih podataka odnose se takoĊe i na


originalne podatke.

Nekoliko razliĉitih transformacija se moţe primeniti u cilju normalizacije raspodele podataka.

Logaritamska transformacija
Najĉešće korišćena transformacija koja se izvodi po formuli t = log x. U transformaciji se
najĉešće primenjuju logaritmi sa osnovom 10 ili e (e=2.72).

Logaritamskom transformacijom moţe da postići normalizacija kod desno iskošene


raspodele, stabilizacija varijanse kada je ona proporcionalna kvadratu aritmetiĉke sredine
(konstantan odnos sd i aritmetiĉke sredine) i linearizacija eksponencijalnog odnosa dve
varijable.
Transformacija je moguća samo sa pozitivnim vrednostima. Originalni podaci koji su jednaki
nuli ili negativni neće biti transformisani, a u koloni transformisanih podataka obeleţeni kao
nedostajuće vrednosti. Ako broj takvih vrednosti nije zanemarljiv treba pre transformacije
dodati konstantu svim vrednostima, npr. ako je minimalna vrednost -8 treba svim
vrednostima dodati konstantu 9 .

Nakon analize transformisanih podataka potrebno je uraditi obrnutu transformaciju rezultata


(aritmetiĉke sredine i 95%CI). Aritmetiĉka sredina posle obrnute transformacija postaje
geometrijska sredina. Obrnuta transformacija se obavlja stepenovanjem brojeva 10 ili e, u
zavisnosti od primenjene osnove logaritmovanja.

Primer: U bazi Titar.xlsx nalaze se vrednosti titra antitela dve grupe ispitanika.

Primenom Shapiro-Wilk testa i grafiĉkim prikazom utrvrĊeno je da raspodela podataka


odstupa od normalne u obe ispitivane grupe.
U cilju normalizacije raspodele podataka primenjena je logaritamska transformacija.

Koraci transformacije u Excelu


1. Dodati novu kolonu u Excelu desnim klikom preko zaglavlja kolone, a zatim levim klikom
na “Insert” – nova kolona biće ubaĉena levo od kolone koja je bila selektovana pokazivaĉem
miša.

2. U prvi red ukucati ime varijable sa transformisanim podacima, npr., “logtitar”

3. Pozicionirati se na ćeliju koja se nalazi desno od ćelije ĉiju vrednost treba transformisati i
ukucati funkciju logaritma za osnovu 10:

4. Sa “Copy” i “Paste” iskopirati sadrţaj ćelije sa transformisanim podatkom (na slici gore
iskopirati sadrţaj ćelije “C2”) u sve preostale ćelije.
5. Kliknuti “Save” i ponovo uĉitati podatke u EZR

6. Proveriti normalnost transformisanih podataka.

Zakljuĉujemo da je transformacijom postignuta normalnost raspodele podataka.

Aritmetiĉke sredine posle transformacije log(10) iznose:

Grupa 1: 2.04
Grupa 2: 1.73
Poţeljno je rezultate analize transformisanih vrednosti, obrnutom transformacijom vratiti na
nivo originalnih podataka. Na primer, unosom vrednosti aritmetiĉke sredine 2.04 u
kalkulator Obrnuta_transformacija.xlsx dobijamo vrednost obrnuto transformisane
aritmetiĉke sredine: 109.

Grupa 1: 109
Grupa 2: 54

Pitanje: Rezultati dobijeni analizom transformisanih podataka vraćaju se na nivo originalnih


podataka postupkom:

Logaritmovanja prirodnim logaritmom


Stepenovanja vrednosti
Obrnute transformacije
Sabiranja vrednosti
III Uzorak i populacija

UZORAK

Populacija predstavlja skup svih istovrsnih elemenata (jedinica posmatranja: ljudi, objekata,
dogadjaja) koji imaju neku zajedniĉku karakteristiku od interesa.

Ciljna populacija predstavlja skup elemenata za koji ţelimo da generalizujemo


zakljuĉak. Uzoračka populacija je populacija koja je dostupna i koja predstavlja ciljnu
populaciju (blisko koliko je to moguće), i iz koje potiĉe uzorak.

Uzorak predstavlja podskup osnovnog skupa (populacije) koji je izabran na osnovu


odreĊenog kriterijuma.

Cilj i primena uzorka u statistici je ispitivanje odreĊene osobine i generalizacija zakljuĉka na


populaciju.

Razlozi za sprovoĊenje istraţivanja na uzorku, a ne na populaciji, su višestruki:

 manji troškovi istraţivanja,


 kraće vreme trajanja istraţivanja,
 podaci dobijeni na reprezentativnom uzorku ĉesto mogu biti taĉniji, jer se za manji
broj ispitanika mogu angaţovati bolje obuĉeni kadrovi ili primeniti naprednije metode
koje obezbeĊuju veću taĉnost merenja i
 negativnog ishoda za jedinice posmatranja npr. ţrtvovanje laboratorijskih ţivotinja
radi histolopatoloških analiza

Neophodan uslov za generalizaciju zakljuĉka sa uzorka na populaciju jeste reprezentativnost


uzorka, odnosno njegova sliĉnost sa populacijom. Uzorkovanje predstavlja proces odabira
reprezentativnog dela cele populacije. Reprezentativan uzorak poseduje karakteristike
sliĉne onima u populaciji. Osnovni preduslovi reprezentativnosti su:
1. Naĉin izbora jedinica posmatranja u uzorak mora biti nezavisan od vrednosti
posmatranog obeleţja.
2. Verovatnoća odabira jedinica posmatranja da se naĊu u uzorku mora biti unapred
poznata.

Kada ovi uslovi nisu ispunjeni radi se o pristrasnom uzorku, koji je izabran na takav naĉin da
su neke jedinice iz uzoraĉke populacije imale veću verovatnoću da uĊu u uzorak.

UZORKOVANJE
Tehnike uzorkovanja

Prema naĉinu uzorkovanja (biranja jedinica posmatranja u uzorak) uzorci mogu biti:

 sa verovatnoćom (sluĉajni) - sve jedinice


posmatranja (npr. osobe, domaćinstva) u
populaciji imaju šansu da budu ukljuĉene
u uzorak, a verovatnoća da bilo koja od
njih bude u uzorku moţe biti taĉno
izraĉunata i
 bez verovatnoće (nesluĉajni) - jedinice
posmatranja iz populacije se biraju po
principu njihove dostupnosti ili istraţivaĉ
smatra da one dobro predstavljaju
populaciju. U ovom sluĉaju nepoznati
deo populacije je iskljuĉen, a uzorak
moţe biti pristrasan.

Primer: Cilj istraţivanja je bila ocena redovnog uzimanja terapije kod obolelih od arterijske
hipertenzije. Uzorak je formiran od pacijenata koji dolaze na kontrolne preglede. U ovom
istraţivanju uzorak je pristrasno biran, jer se moţe pretpostaviti da pacijenti koji dolaze na
kontrolne preglede redovnije uzimaju terapiju. Zakljuĉak takvog istraţivanja bi mogao da se
generalizuje samo na populaciju hipertoniĉara koji dolaze na kontrolne preglede. Ukoliko bi
istraţivaĉ ţeleo da zakljuĉak generalizuje na ukupnu populaciju obolelih od arterijske
hipertenzije, morao bi da u istraţivanje ukljuĉi ne samo pacijenate koji dolaze na kontrolne
preglede, već i pacijente koji ne dolaze, i na taj naĉin dobije reprezentativan uzorak za tu
populaciju (obolelih od arterijske hipertenzije).

SLUĈAJNI UZORCI
U ovom tipu uzoraka vrši se slučajna selekcija jedinica posmatranja i svaka jedinica
posmatranja u populaciji ima poznatu (jednaku i nezavisnu) verovatnoću (šansu) da uĊe u
uzorak. Razlozi zbog kojih treba dati prednost sluĉajnim uzorcima u odnosu na nesluĉajne su:

1. sluĉajan naĉin biranja jedinica redukuje pristrasnost u procesu biranja jedinica


posmatranja za uzorak i
2. prilikom korišćenja analitiĉkih statistiĉkih metoda pretpostavlja se da su uzorci birani
na sluĉajan naĉin.
Sluĉajan naĉin biranja jedinica posmatranja za uzorak doprinosi većem kvalitetu studije.
Tipovi sluĉajnih uzoraka su:

 prost sluĉajan uzorak,


 sistematski uzorak,
 stratifikovani uzorak,
 klaster uzorak i drugi.

Prost slučajan uzorak


U prostom sluĉajnom uzorku sve jedinice posmatranja uzoraĉke populacije imaju jednaku
verovatnoću da uĊu u uzorak, što se postiţe korišćenjem tabela sluĉajnih brojeva ili, ĉešće
kompjuterski generisanog procesa odabiranja (takoĊe korišćenjem sluĉajnih brojeva). Proces
ukljuĉuje definisanje populacije i identifikaciju uzoraĉkog okvira tj. numerisanog spiska svih
dostupnih jednica posmatranja uzoraĉke populacije. U uzorak se biraju one jedinice iz
uzoraĉkog okvira ĉiji brojevi su izvuĉeni od strane generatora sluĉajnih brojeva. Ukoliko se
formira uzorak bez ponavljanja, jednom izabrani broj u daljem odabiru se preskaĉe tj. jedna
jedinica moţe ući samo jednom u uzorak, a ukoliko se formira uzorak sa ponavljanjem
jedna jedinica posmatranja moţe ući više puta u uzorak.

Primer: Istraţivaĉ raspolaţe podacima bolniĉkog registra za obolele od multiple skleroze, u


kome je registrovano 150 obolelih. Na osnovu prethodno izraĉunate veliĉine uzorka od 30
ispitanika, istraţivaĉ ţeli da odabere prost sluĉajan uzorak. Odluĉuje da koristi generator
sluĉajnih brojeva koji se nalazi na Internet adresi www.random.org. Za minimalnu vrednost u
generatoru unosi broj 1, a za maksimalnu 150. Postupak ponavlja do potrebne veliĉine uzorka
od 30 ispitanika. Pacijente koji se u registru nalaze na izvuĉenim brojevima ukljuĉuje u
istraţivanje.

Drugi generatori sluĉajnih brojeva na Internetu:


https://www.randomizer.org/
http://www.mathgoodies.com/calculators/random_no_custom.html

Sistematski uzorak
U ovom tipu uzorka, jedinice posmatranja se biraju sa liste uzoraĉke populacije izborom
svake K-te jedinice.

K predstavlja korak izbora (uzoraĉki interval), koji zavisi od veliĉine uzoraĉke populacije i
ţeljene veliĉine uzorka.

K = N / n, gde je N veliĉina uzoraĉke populacije, a n veliĉina uzorka

Kao i kod prostog sluĉajnog uzorka, najpre se formira uzoraĉki okvir tj. numerisani spisak
svih dostupnih jednica posmatranja uzoraĉke populacije. Zatim se izraĉunava korak K=N/n .
Prva jedinica posmatranja odabira se pomoću generatora sluĉajnih brojeva (sluĉajni poĉetak),
a zatim se automatski odabira svaka K-ta jedinica u uzorak.
Sistematski uzorak moţe dati korisne informacije ako kod jedinica u uzoraĉkoj populaciji
postoji ureĊenost po intenzitetu posmatrane karakteristike. MeĊutim, nije pogodan ako
postoje cikliĉne varijacije posmatrane karakteristike.

Primer: U istraţivanju iz prethodnog primera, istraţivaĉ je odluĉio da umesto prostog


sluĉajnog, formira sistematski uzorak veliĉine 30 ispitanika. Izraĉunao je korak: 150/30=5.
Uz pomoć generatora sluĉajnih brojeva odabrao je prvog pacijenta sa brojem 132 u registru.
Dalje je iz registra odabran svaki peti pacijent: 137, 142, 147, 2, 7, 12, 17, 22 itd.

Stratifikovani uzorak
Stratifikovani uzorak se primenjuje kod heterogenih populacija u odnosu na neku varijablu,
npr. starosna grupa, pol, geografska lokacija (stratifikujuća varijabla). Zbog toga se
populacija deli na stratume iz kojih se zatim bira sluĉajni uzorak (kao prost sluĉajan ili
sistematski uzorak). Ovakav naĉin odabira jedinica posmatranja osigurava da svaka
subpopulacija bude odgovarajuće zastupljena u uzorku.

Primer: Planirano je istraţivanje ĉiji je cilj ispitivanje navika u ishrani. Na osnovu


prethodnog iskustva zna se da postoje odreĊene razlike u navikama u ishrani izmeĊu urbanih
i ruralnih podruĉja. Ova podruĉja nisu na reprezentativan naĉin zastupljena u uzoraĉkoj
populaciji. Zbog toga je populacija podeljena na dva stratuma (urbano i ruralno podruĉje) iz
kojih su zatim odabrane jedinice posmatranja tako da uzork bude reprezentativan.
Klaster uzorak

Kod ovog tipa uzorka, najpre se populacija deli na klastere (grupe), a zatim se na sluĉajan
naĉin biraju klasteri koji ulaze u uzorak (tako da se na sluĉajan naĉin biraju grupe - klasteri, a
ne individue). Koristan je kada je populacija velika ili geografski široko rasprostranjena.
Ĉesto se primenjuje u istraţivanjima gde se populacija moţe podeliti prema teritorijalnom
principu. Npr., klasteri mogu biti škole na teritoriji jedne drţave, gde se prvo na sluĉajan
naĉin biraju klasteri (škole), a zatim se sve jedinice posmatranja (uĉenici) iz klastera
ukljuĉuju u uzorak, ili se odabira sluĉajan uzorak jedinica posmatranja (uĉenika) iz svakog od
izabranih klastera (višeetapni uzorak).

Slika: Prost sluĉajan uzorak Slika: Klaster uzorak

NESLUĈAJNI UZORCI
Kada istraţivaĉi nisu u mogućnosti da izvrše uzorkovanje na sluĉajan naĉin (zbog
nedostupnosti jedinica posmatranja, ograniĉenih resursa i dr.), istraţivanja se sprovode na
nesluĉajnim uzorcima.

Kod nesluĉajnih uzoraka verovatnoća odabira jedinica posmatranja u uzorak nije poznata,
već postoji tzv. selekciona pristrasnost. Elementi uzorka su odabrani na bazi sopstvene
procene istraţivaĉa, pa nedostaje objektivnost u odabiru uzorka. Rezultati sprovoĊenja
istraţivanja na ovom tipu uzoraka su pristrasni, jer uzorci nisu sasvim pouzdani. MeĊutim,
ove tehnike su pogodne i ekonomiĉne za korišćenje.

Vaţno je napomenuti da valjanost generalizacije zaključaka sa nesluĉajnih uzoraka na


osnovni skup ostaje nepoznata.

U cilju smanjenja pristranosti istraţivaĉ bi trebalo:

1. da jasno definiše kriterijume za ukljuĉenje/iskljuĉenje jedinica u/iz uzorka;


2. da uzorak uĉini raznovrsnijim, npr. organizovanjem multicentriĉne studije;
3. da upotrebi statistiĉke tehnike za otkrivanje pristranosti i pravilnu analizu podataka,
kao što je npr. analiza kovarijanse.
Tipovi nesluĉajnih uzoraka su:

 prigodni uzorak,
 kvota uzorak i
 namerni uzorak.

Prigodni uzorak
U prigodan uzorak istraţivaĉ ukljuĉuje lako dostupne jedinice posmatranja, npr. pacijente
koji su leĉeni na odeljenju na kome radi. U ovom tipu uzorka moţe postojati pristrasnost u
smislu da se lako dostupne jedinice na neki naĉin razlikuju od ostalih jednica, npr. pacijenti
leĉeni u bolnici imaju teţe oblike bolesti od onih koji se leĉe van bolnice. Varijanta ovog
uzorka je uzorak po tipu “grudve snega” u kojem inicijalno odabrane jedinice posmatranja
angaţuju druge jedinice npr. inicijalno anketirani angaţuju za anketu druge pogodne osobe.

Kvota uzorak
Populacija se najpre deli na kategorije, sliĉno stratifikovanom uzorku, npr. po polu, a zatim se
na nesluĉajan naĉin biraju jedinice posmatranja iz tih kategorija prema unapred utvrĊenom
broju (kvota), ĉime se kontroliše broj jedinica posmatranja iz odreĊene kategorije u
konaĉnom uzorku.

Namerni uzorak
Istraţivaĉ bira one jedinice posmatranja koje poseduju odreĊene karakteristike za koje smatra
da zadovoljavaju specifiĉne zahteve istraţivanja. U ovom tipu uzorka moţe postojati
znaĉajna pristrasnost u postupku biranja jedinica posmatranja, ali se u medicini ĉesto koriste
u tzv. pilot studijama, kada se upravo ţeli odreĊeni tip jedinica posmatranja u uzorku (za
istraţivanje inovativnog naĉina leĉenja pacijenata u terminalnom stadijumu karcinoma).

Parametri su numeriĉke karakteristike ili deskriptivne mere populacije, (npr. mere centralne
tendencije i mere varijabiliteta izraĉunate za populaciju). Parametri su nepromenljive
vrednosti u populaciji.

Odgovarajuće numeriĉke karakteristike ili deskriptivne mere uzoraka (npr. mere centralne
tendencije i mere varijabiliteta izraĉunate za uzorak) nazivaju se (uzoraĉkim) statistikama.

Uobiĉajeno se populacioni parametri oznaĉavaju grĉkim slovima, a uzoraĉke statistike


latiniĉnim slovima:
Parametri populacije su ĉesto nepoznati i nepristupaĉni za merenje. Npr, proseĉna visina
studenata u Srbiji je nepoznata i teško merljiva. Zbog toga raĉunamo uzoraĉku statistiku koja
se odnosi na parametar od interesa, i na osnovu nje donosimo zakljuĉak o populaciji.

Pitanje: Proseĉna vrednost glikemije u uzorku od 140 bolesnika iznosi 5.8 mmol/L.
Navedena vrednost je:

Populacioni parametar
Uzoraĉka statistika

Uzoraĉke raspodele
Raspodela uzoraĉkih statistika naziva se uzoraĉkom raspodelom:

 Uzoračka raspodela je raspodela verovatnoća svih mogućih vrednosti uzoraĉke


statistike.
 Svaki uzorak sadrţi razliĉite elemente, te se vrednost uzoraĉke statistike razlikuje
izmeĊu razliĉitih uzoraka.
 Ove statistike prikazuju razliĉite procene populacionih parametara.
 Uzoraĉka raspodela prikazuje kako se ove razliĉite vrednosti raspodeljuju.

Dve vrlo vaţne uzoraĉke raspodele jesu uzoračka raspodela aritmetičkih


sredina i uzoračka raspodela proporcija. Poznavanje ovih raspodela je potrebno zbog
ocene aritmetiĉke sredine ili proporcije u populaciji (ocena parametra). U praksi bi bilo teško
formirati veliki broj uzoraka u cilju dobijanja empirijske raspodele aritmetiĉkih sredina ili
proporcije, ali to i nije neophodno, jer se na osnovu aritmetiĉke sredine ili proporcije jednog
uzorka i poznavanja statistiĉkih osobina uzoraĉkih raspodela moţe dati ocena nepoznatog
parametra u populaciji.
Statistiĉke osobine uzoraĉkih raspodela sadrţane su u jednoj od najvaţnijih teorema u
statistici – u centralnoj graničnoj teoremi. Osobine centralne graniĉne teoreme, na primeru
uzoraĉke raspodele aritmetiĉke sredine, su sledeće:

1. Aritmetiĉka sredina uzoraĉke raspodele jednaka je aritmetiĉkoj sredini u populaciji μ

2. Standardna devijacija uzoraĉke raspodele aritmetiĉkih sredina naziva se standardnom


greškom aritmetiĉke sredine i jednaka je

σx¯=σ / √n
Oznaĉava se takoĊe sa

SD\bar{x},SE\bar{x} ili SEM


3. Ako je raspodela u populaciji normalna, uzoraĉka raspodela aritmetiĉkih sredina takoĊe
teţi ka normalnoj raspodeli. Za dovoljno velike uzorke uzoraĉka raspodela aritmetiĉkih
sredina teţi ka normalnoj raspodeli bez obzira na oblik raspodele u populaciji.
U formuli za standardnu grešku potrebno je poznavati standardnu devijaciju populacije. Kako
je ona retko poznata umesto nje koristimo standardnu devijaciju uzorka sd:

SEx¯=sd / √n

EZR: Uzorkovanje
Primer: U bazi podataka Sistolni pritisak date su vrednosti sistolnog arterijskog pritiska 99
bolesnika sa akutnim koronarnim sindromom.

1. Iz uzoraĉke populacije od 99 bolesnika sa akutnim koronarnim sindromom izabrati


prost sluĉajan uzorak od 10 bolesnika koristeći generator pseudo sluĉajnih brojeva u
R konzoli.
2. Iz uzoraĉke populacije od 99 bolesnika sa akutnim koronarnim sindromom izabrati
sistematski uzorak od 10 bolesnika:
3. Na osnovu izabranih jedinica posmatranja napraviti bazu podataka i uneti vrednosti za
oba uzorka.
4. Izraĉunati i uporediti deskritivne statistiĉke mere za osnovni skup i oba uzorka.

1) Odrediti uzoraĉki okvir: 1-99.

Generisati 10 jedinstvenih brojeva bez ponavljanja za formiranje uzorka koristeći sledeću


komandu:

sample(1:99,10,replace=F)

U navedenoj komandi 1:99 je uzoraĉki okvir, odnosno, opseg dostupnih statistiĉkih jedinica
uzoraĉke populacije, a sledeći broj 10 je broj traţenih sluĉajnih brojeva. Sa svakom
ponovljenom primenom ove komande mala je verovatnoća da će biti dobijena ista
kombinacija brojeva, a konkretan primer generisanih brojeva izgledao bi:

Jedinice posmatranja sa tim rednim brojevima u uzoraĉkom okviru biće izabrane za uzorak.

Redni broj iz uzoračkog okvira:

95 62 79 19 58 25 76 32 11 23

Sistolni pritisak:

145 125 160 130 130 135 125 150 140 150
2. Odrediti uzoraĉki okvir: 1-99.

Izraĉunati korak K=N/n=99/10=9,9≈10.

Prvu statistiĉku jedinicu odabrati pomoću generatora pseudo sluĉajnih brojeva u R programu:

sample(1:99,1,replace=F)

U konkretnoj primeni ove komande generisan je sluĉajan broj 2. a dalje se izvlaĉi svaka K-ta
jedinica tj. svaka 10-ta jedinica: 2, 12, 22, itd.

Redni broj iz uzoračkog okvira:

2 12 22 32 42 52 62 72 82 92

Sistolni pritisak:

140 125 140 150 170 115 125 145 140 135

3.

4. Deskritivne statistiĉke mere sluĉajnog uzorka u primeru iznose:


Deskritivne statistiĉke mere sistematskog uzorka u primeru iznose:

Deskritivne statistiĉke mere osnovnog skupa u primeru iznose:

Moţe se zapaziti da mere centralne tendencije (aritmetiĉka sredina i medijana) imaju sliĉne
vrednosti u sva tri sluĉaja. Standardna devijacija dobijena iz prostog sluĉajnog uzorka je
manja od one u osnovnom skupu. Interval varijacije dobijen na osnovu prostog sluĉajnog
uzorka i sistematskog sluĉajnog uzorka je manji nego u osnovnom skupu.
IV Statistiĉko zakljuĉivanje – ocenjivanje populacionih
parametara

Statističko zaključivanje:

 ocena parametara populacije i

 testiranje hipoteza.

Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa)


donosimo zakljuĉke o populaciji (statistiĉko zakljuĉivanje).

Jedan od najvaţnijih istraţivaĉkih zadataka jeste ocena parametara u populaciji, najĉešće


aritmetiĉke sredine ili proporcije. Parametre ne moţemo izraĉunavati direktno, ali moţemo
dati njihovu ocenu korišćenjem uzoraĉkih statistika. Uzoraĉka aritmetiĉka sredina ili
proporcija predstavljaju taĉkaste ocene ovih parametara u populaciji. Taĉkasta procena
predstavlja jednu vrednost kojom se aproksimira populacioni parametar.

Intervalna procena pruţa više informacija o populacionoj karakteristici od taĉkaste procene.


Ona obezbeĊuje nivo poverenja za ovu procenu. Takva intervalna procena se naziva interval
poverenja. Krajnje taĉke intervala poverenja nazivaju se granicama poverenja, a verovatnoća
sa kojom se parametar nalazi unutar intervala poverenja nivoom poverenja. Intervali
poverenja se najĉešće izraĉunavaju za nivo poverenja od 0.95 i 0.99 (95% i 99%).

Interval poverenja (IP)

 Prikazuje ĉitav raspon vrednosti kojima se procenjuje prava vrednost populacionog


parametra
 Uzima u obzir varijacije u uzoraĉkoj statistici od uzorka do uzorka
 Zasnovan je na opservaciji dobijenoj iz jednog uzorka
 Pruţa informaciju o tome koliko je uzoraĉka statistika blizu nepoznatog populacionog
parametra
 Prikazuje se u smislu zadatog nivoa poverenja (Ne moţe nikad biti 100% IP)
Tumačenje IP

 Ukoliko bismo uzeli sve moguće uzorke veliĉine n i izraĉunali njihove aritmetiĉke
sredine i intervale, 95% (99%) svih intervala bi sadrţalo pravu vrednost nepoznatog
populacionog parametra
 OdreĊeni interval moţe ali ne mora da sadrţi pravu vrednost populacionog parametra

Opšta formula za sve IP:

taĉkasta procena± (kritiĉna vrednost)(standardna greška)

Kritična vrednost predstavlja broj koji graniĉno razdvaja uzoraĉke statistike za koje je
verovatno da će se pojaviti od onih za koje to nije verovatno.

Standardna greška (SE) je mera odstupanja/variranja uzoraĉke statistike od prave vrednosti


populacionog parametra.

99% interval poverenja je sigurniji, ima manji rizik greške u odnosu na 95% interval
poverenja. Istraţivaĉi ipak ĉešće koriste 95% interval poverenja jer su oni precizniji (uţi
interval) u odnosu na 99% interval poverenja. Osim toga, na širinu intervala poverenja utiĉu
veliĉina uzorka i varijabilitet. Širina intervala poverenja opada sa povećanjem veliĉine uzorka
i sa smanjenjem varijabiliteta.

Interval poverenja aritmetiĉke sredine


x¯−t ⋅ sd / √n < μ <x¯+ t ⋅ sd / √n

gde je:

x¯ aritmetiĉka sredina uzorka


sd standardna devijacija
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
μ aritmetiĉka sredina populacije

sd / √n predstavlja standardnu grešku aritmetiĉke sredine (SE)


proizvod t⋅sdn−−√t⋅sdn predstavlja preciznost procene (E), koji odgovara polovini širine
intervala poverenja

Primer 1: Baza Sistolna TA.xlsx sadrţi podatke o sistolnom arterijskom pritisku sluĉajnog
uzorka od 10 ispitanika sa akutnim koronarnim sindromom. Odrediti 95% interval poverenja
aritmetiĉke sredine sistolnog arterijskog pritiska za tu populaciju bolesnika.
Procedura u EZR-u

1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test

2) U dijalog prozoru koji se pojavio:

 u okviru polja Variable (pick one) odabrati varijablu


 u polju Confidence Level: ukucati traţeni nivo poverenja

95% interval poverenja aritmetiĉke sredine sistolnog arterijskog pritiska u populaciji


ispitanika sa akutnim koronarnim sindromom:

130.4mmHg ≤ μ ≤147.6 mmHg


Zadatak 1: Koristeći bazu podataka Sistolna TA.xlsx odrediti 99% interval poverenja
aritmetiĉke sredine sistolnog arterijskog pritiska ispitanika sa akutnim koronarnim
sindromom.

126.7-151.3
130.4-147.6
111.2-190.5
133.5-158.4

Interval poverenja proporcije

p−t ⋅ √p(1−p) / n < π < p + t ⋅ √p(1−p) / n

gde je:
p proporcija posmatranog dogaĊaja u uzorku
n veliĉina uzorka
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
U formuli √p(1−p) / n predstavlja standardnu grešku proporcije
Proizvod t ⋅ √p(1−p) / n predstavlja preciznost ocene, što je istovremeno i polovina širine
intervala poverenja

Primer 2: Na uzorku od 155 uĉenika u jednoj opštini deformiteti skeleta su pronaĊeni kod 19
uĉenika. Odrediti interval poverenja u kome se sa verovatnoćom 0.95 nalazi proporcija
uĉenika sa deformitetom skeleta u toj opštini.

Procedura u EZR-u

1) Kliknuti na: Statistical analysis→Discrete variables→Confidence interval for a


proportion

2) U dijalog prozoru koji se pojavio:


 u polju Total number of samples ukucati veliĉinu uzorka
 u polju Number of events ukucati broj dogaĊaja od interesa
 u polju Confidence interval ukucati traţeni nivo poverenja

Prozor sa rezultatima:

95% interval poverenja proporcije uĉenika sa deformitetom skeleta:

0.07≤ π ≤ 0.19

Zadatak 2: Na uzorku od 500 uĉenika u jednoj opštini naĊena je anemija kod 25 uĉenika.
Odrediti 95% interval poverenja proporcije uĉenika sa anemijom u toj opštini.

0.05 - 0.08
0.02 - 0.08
0.03 - 0.07
0.02 - 0.05
Lekcija 3
I Testiranje hipoteza
Hipoteza je pretpostavka koja zahteva dokazivanje tj. donošenje zakljuĉka o
prihvatanju ili odbacivanju hipoteze. Hipoteza koju postavlja istraţivaĉ je
predikcija izvedena iz teorije koja se testira. U medicini istraţivaĉke hipoteze se
najĉešće proveravaju na osnovu podataka dobijenih iz uzorka, a zakljuĉci se zatim
generalizuju na osnovni skup iz kojeg je dobijen uzorak. Istraţivaĉke hipoteze u
medicini mogu se odnositi na razliĉite istraţivaĉke ciljeve:

1. U etiološkim studijama je cilj ispitati povezanost izloţenosti nekom faktoru


rizika i odreĊenogishoda:

a. Na primer, moţe biti postavljena istraţivaĉka hipoteza da se pušaĉi i nepušaĉi


razlikuju prema uĉestalosti hroniĉnog bronhitisa. U ovom primeru, faktor
rizika je navika pušenja, a ishodje pojava bolesti – hroniĉnog bronhitisa.

b. U drugom primeru, moţe biti postavljena istraţivaĉka hipoteza da se pušaĉi i


nepušaĉi razlikuju prema nivou karboksihemoglobina u krvi. Kao i u
prethodnom, i u ovom primeru faktor rizika je navika pušenja, a ishod je
nivo karboksihemoglobina.

2. U prognostiĉkim studijama cilj je, za definisanu populaciju ispitanika,


analizirati uĉestalost dogaĊaja i vreme do njihovog nastupanja. DogaĊaj moţe
biti preţivljavanje ili smrtni ishod, nastupanje remisije, ozdravljenje, nastupanje
recidiva, pojava komplikacija itd. Na primer, moţe biti postavljena istraţivaĉka
hipoteza da je trajanje remisije u depresivnom poremećaju kraće kod pacijenata
sa slabijim socijalnim funkcionisanjem.

3. U studijama intervencije cilj je oceniti efektivnost nekog tretmana. Na


primer, moţe biti postavljena hipoteza da je antihipertenziv A efektivniji
od antihipertenziva B.

4. U studijama o uĉestalosti bolesti moţe biti postavljena hipoteza o stopi


prevalencije neke bolestiu populaciji.

Statistička hipoteza je iskaz ili pretpostavka o populaciji.

Testiranje hipoteza je standardni statistiĉki metod kojim se ispituje neki iskaz /


tvrdnja /pretpostavka o populaciji.
Procedura statistiĉkog testiranja hipoteza (testiranja znaĉajnosti) prolazi kroz nekoliko faza:
1. Formulisanje nulte i alternativne hipoteze
2. Izbor nivoa znaĉajnosti ( α nivo)
3. Izbor statistiĉkog testa
4. Izraĉunavanje statistike testa
5. Statistiĉki zakljuĉak:donošenje odluke o odbacivanju ili prihvatanju nulte
hipoteze (samim tim i odluke o prihvatanju ili odbacivanju alternativne
hipoteze)
Nulta i alternativna hipoteza

Da bi neka istraţivaĉka hipoteza mogla da se proveri statistiĉkim metodama


potrebno je da sepostave dve statistiĉke hipoteze: nulta i alternativna.

Nulta hipoteza ili hipoteza koja se ovim procesom testira (H0) - hipoteza o
nepostojanju razlike, naprimer da su dve populacione aritmetiĉke sredine jednake:

Ho:µ1=µ2

Alternativna ili radna hipoteza (H1), iskaz o onome što istraţivaĉ veruje da je
taĉno u sluĉaju da su uzoraĉki podaci doveli do odbacivanja nulte hipoteze, na
primer da se dve populacione aritmetiĉke sredine razlikuju:

H1:µ1≠µ2

Primer 1: Za istraţivaĉku hipotezu da se proseĉne vrednosti karboksihemoglobina


razlikuju izmeĊupušaĉa i nepušaĉa, nulta i radna hipoteza glase:

H0 : μPušaĉi = μNepušaĉi

H1 : μPušaĉi≠ μNepušaĉi

u kojima je µ aritmetiĉka sredina karboksihemoglobina u odgovarajućim


populacijama pušaĉa inepušaĉa.

Primer 2: Za istraţivaĉku hipotezu da se uĉestalost hroniĉnog bronhitisa razlikuje


izmeĊu pušaĉa inepušaĉa, nulta i radna hipoteza glase:

H0 : πPušaĉi = πNepušaĉi

H1 : πPušaĉi≠ πNepušaĉi

u kojima je π proporcija hroniĉnog bronhitisa u odgovarajućim populacijama pušaĉa i


nepušaĉa.
U postupku testiranja hipoteza, primenom statistiĉkih metoda, testira se nulta
hipoteza, posle ĉega jemoguće doneti samo jednu od dve moguće odluke:

1. Nulta hipoteza se prihvata, a odbacuje radna hipoteza i donosi se zakljuĉak da ne


postoji znaĉajna razlika izmeĊu populacionih parametara. Na
primer, ako je testirana jednakost aritmetiĉkih sredina
karboksihemoglobina pušaĉa i nepušaĉa, prihvatanjem nulte
hipoteze donosi se zakljuĉak da su one jednake, odnosno da ne
postoji razlika proseĉnih vrednosti karboksihemoglobina izmeĊu
pušaĉa i nepušaĉa.
2. Nulta hipoteza se odbacuje, a prihvata radna hipoteza i donosi se zakljuĉak da
postoji znaĉajna razlika izmeĊu populacionih parametara. Na
primer, ako je testirana jednakost aritmetiĉkih sredina
karboksihemoglobina pušaĉa i nepušaĉa, odbacivanjem nulte
hipoteze donosi se zakljuĉak da se one razlikuju, odnosno da
postoji statistiĉki znaĉajna razlika proseĉnih vrednosti
karboksihemoglobina izmeĊu pušaĉa i nepušaĉa.

Dvosmerna i jednosmerna alternativna hipoteza

Radna hipoteza formulisana kao H1: µ0≠ µ1 spada u dvosmerne (dvostrane,


neusmerene) hipoteze, jer se njome tvrdi da postoji razlika, ali ne i u kom smeru.
Kada se radnom hipotezom tvrdi da postoji razlika u jednom smeru, u pitanju je
jednosmerna (jednostrana, usmerena) hipoteza.
Jednosmerna radna hipoteza, zavisno od tvrĊenja o smeru razlike, moţe biti
formulisana kao H1 :µ1 < µ2, ili H1: µ1 > µ2.

Primer 3: U primeru 1 radna hipoteza je formulisana kao dvosmerna jer je cilj


bio da se dokaţe razlika, bez oĉekivanja o smeru te razlike. Ista radna hipoteza
mogla je biti formulisana i kao jednosmerna hipoteza. Na primer, ako se tvrdi
da je nivo hemoglobina veći kod pušaĉa, radna hipoteza će imati oblik:

H1 : μPušaĉi > μNepušaĉi

Nivo znaĉajnosti i greške u zakljuĉivanju

U proceduri testiranja hipoteza moguća su ĉetiri ishoda odluĉivanja, u zavisnosti od


toga da li se donese odluka o prihvatanju ili odbacivanju nulte hipoteze i prave istine
u populaciji (Tabela 1). Ishodi zavise od onoga što saznajemo i odluĉujemo na
osnovu analize podataka iz uzorka, i onoga što predstavlja apsolutnu istinu u
populaciji. Dve ispravne odluke su odbacivanje netaĉne nulte hipoteze ili prihvatanje
taĉne nulte hipoteze. Zakljuĉci doneti statistiĉkim metodama imaju probabilistiĉku
prirodu, odnosno uvek ukljuĉuju komponentu sluĉajnosti. Ta sluĉajnost proistiĉe iz
toga što nismo u mogućnosti da opserviramo kompletnu populaciju, koja je u
teorijskom smislu beskonaĉna, već samo jedan njen deo, a to je uzorak. Formiranje
uzorka zavisi od sluĉajnosti. U ponovljenim biranjima uzorka mala je verovatnoća da
ćemo dobiti uzorak istog sastava, pa samim tim je moguće u ponovljenom
istraţivanju sa novim uzorkom doneti i drugaĉiji zakljuĉak. Zbog probabilistiĉke
prirode statistiĉkog zakljuĉivanja moguće je, osim ispravne odluke, doneti i dve
pogrešne odluke koje nazivamo greškama prvog odnosno drugog tipa:

1. Greška prvog tipa nastaje kada se odbaci taĉna nulta hipoteza. Verovatnoća
greške ovog tipaobeleţava se sa α

2. Greška drugog tipa nastaje kada se prihvati netaĉna nulta hipoteza.


Verovatnoća greške ovogtipa obeleţava se sa β

U proceduri testiranja hipoteza moguće je napraviti samo jedan tip greške, a


nikako obe istovremeno. Oba tipa grešaka mogu imati vaţne posledice. Greška
prvog tipa za posledicu ima donošenje zakljuĉka o postojanju efekta kada ga
zapravo nema. Greška drugog tipa za posledicu ima donošenje zakljuĉka da ne
postoji efekat kada ga zapravo ima.

Primer 4: Stvarno stanje je da novi skuplji lek A ima jednaku uĉestalost neţeljenih
dejstava kao i stari lek B. U procesu testiranja hipoteza odbaĉena je nulta
hipoteza, i donešen je zakljuĉak da novi lek A ima manju uĉestalost
neţeljenih dejstava. Napravljena je greška prvog tipa, koja za posledicu
ima nepotrebno veće troškove leĉenja.
Primer 5: Stvarno stanje je da novi lek A ima manju uĉestalost neţeljenih dejstava u
odnosu na stari lek B. U procesu testiranja hipoteza donešen je zakljuĉak da
ostaje da vaţi nulta hipoteza, odnosno da novi lek A ima jednaku uĉestalost
neţeljenih dejstava kao i stari lek B. Napravljena je greška drugog tipa,
koja za posledicu ima nepropisivanje bezbednijeg leka, odnosno, leka sa
manje neţeljenih dejstava.
Verovatnoće oba tipa grešaka moguće je u izvesnoj meri kontrolisati, pri ĉemu treba
uzeti u obzir da su one meĊusobno povezane: smanjivanje verovatnoće greške prvog
tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto.

Verovatnoća greške prvog tipa je pod direktnom kontrolom istraţivaĉa. Maksimalno


dozvoljena verovatnoća greške prvog tipa koju istraţivaĉ prihvata u istraţivanju
predstavlja nivo značajnosti (α nivo). Najĉešće se za nivo znaĉajnosti bira
verovatnoća od 0.05, retko stroţiji nivo od 0.01, a još reĊe nivo od 0.001. Prelaskom
sa nivoa znaĉajnosti 0.05 na 0.01, smanjuje se verovatnoća greške prvog tipa, ali se
istovremeno povećava verovatnoća greške drugog tipa, tako da istraţivaĉi u
zakljuĉivanju najĉešće biraju nivo znaĉajnosti od 0.05.

Verovatnoća greške drugog tipa zavisi od:

1. Odabranog nivoa znaĉajnosti (α nivo)

2. Veliĉine uzorka. Povećanje veliĉine uzorka smanjuje verovatnoću greške i


prvog i drugog tipa. Povećanje uzorka je od većeg znaĉaja za
kontrolu greške drugog tipa, jer grešku prvog tipa istraţivaĉ drţi
pod kontrolom izborom nivoa znaĉajnosti.

3. Formulacije H1 kao dvosmerne ili jednosmerne. Greška drugog tipa manja je


kod jednosmerne uodnosu na dvosmernu radnu hipotezu.

4. Stvarne razlike ispitivane pojave. Na razliku ispitivanih parametara u


populaciji istraţivaĉ ne moţe da utiĉe, ali ako je ta razlika
veća biće manja verovatnoća greške drugogtipa.

Komplement verovatnoće greške drugog tipa (1-β) naziva se snagom statističkog


testa, koja predstavlja verovatnoću odbacivanja nulte hipoteze kada je ona netaĉna.
U istraţivanjima se za donju prihvatljivu granicu snage testa najĉešće uzima
verovatnoća od 0.80. Sve ono što je navedeno da utiĉe, ili moţe posluţiti za
kontrolu verovatnoće greške drugog tipa, takoĊe utiĉe i na snagu statistiĉkog testa,
ali u obrnutom smeru. Prema tome, snaga statistiĉkog testa biće veća ako je:

1.Odabran nivo znaĉajnosti 0.05, a ne 0.01


2.Veći uzorak
3.H1 formulisana kao jednosmerna, ako takva formulacija ima svoju teorijsku
osnovu
4. Veća razlika ispitivanih populacionih parametara.
Izbor statistiĉkog testa
Za primenu svakog testa potrebno je ispuniti pretpostavke za njegovo izvoĊenje.

Pitanje 1. Greška prvog tipa je:

Prihvatanje netaĉne nulte hipoteze


Izbor neadekvatnog testa
Greška u izboru ispitanika
Odbacivanje taĉne nulte hipoteze
Izbor statistiĉkog testa
Za primenu svakog testa potrebno je ispuniti pretpostavke za njegovo izvoĊenje.

Parametarski statistički testovi bazirani su na ocenama jednog ili više


populacionih parametara dobijenih na osnovu uzoraĉkih podataka. Koriste se za
testiranje hipoteza o populacionim parametrima i pretpostavljaju normalnost
raspodele u osnovnom skupu.

Neparametarski statistički testovi se koriste kada raspodela odstupa od normalne,


kada su podaci ordinalni ili su u vidu rangova. Neparametarski statistiĉki testovi ne
zahtevaju poznavanje oblika raspodele u osnovnom skupu i normalnost raspodele,
ne zahtevaju homogenost u smislu varijabiliteta, i mogu biti primenjeni u svim
uslovima u kojima nisu ispunjene pretpostavke za primenu parametarskih testova.

Uopšte uzev, kada treba birati izmeĊu parametarskih i neparametarskih testova,


prednost treba dati prvima kad god su ispunjeni uslovi za njihovu primenu jer imaju
veću snagu u odnosu na druge. Za svaki parametarski test postoji najmanje jedan
ekvivalentan neparametarski test, koji se moţe primeniti, ali iz navedenog razloga
koji se odnosi na statistiĉku snagu, neparametarske testove treba primeniti kada nisu
ispunjeni uslovi i kada nije adekvatno primeniti parametarske testove.

Izbor adekvatnog statistiĉkog testa je jedna od vaţnih stavki za kontrolu grešaka


prvog i drugog tipau procesu testiranja hipoteza.

Izbor adekvatnog testa zavisi od (1) ciljeva studije, (2) tipa podataka, (3)
raspodele podataka i (4) broja i tipa uzoraka . Na osnovu tih informacija istraţivaĉ
se odluĉuje za primenu konkretnog statistiĉkog testa.

 Zavisno od cilja studije, u procesu testiranja hipoteza moţe se testirati znaĉajnost


razlike ili znaĉajnost povezanosti varijabli.
 Tip podataka (nominalni, ordinalni, numeriĉki). Na primer, za nominalnie podatke
moguću primenu ima Pearsonov hi-kvadrat test, a za ordinalne podatke Mann-
Whitney test.
 Normalnost raspodele je pretpostavka za primenu parametarskih testova.
 Dizajn studije

 Broj uzoraka. Na primer, za testiranje razlike dve aritmetiĉke sredine


moguću primenu ima t-test, a za testiranje razlike dve ili više aritmetiĉkih
sredina moguću primenu ima ANOVA.
 Nezavisni ili zavisni uzorci

i.Nezavisni (nemeĉovani, nevezani) uzorci – jedinice u jednom uzorku su razliĉite i nezavisne


od jedinica u drugom uzorku. Primer: jedan uzorak ĉine ispitanici izloţeni štetnim
isparenjima, a drugi uzorak kontrolni ispitanici koji nisu izloţeni. Testira se razlika
uĉestalosti arterijske hipertenzije, pri ĉemu moguću primenu ima hi-kvadrat test.
ii.Zavisni (vezani, korelisani) uzorci – jedinice jednog uzorka povezane su sa jedinicama
drugog uzorka. Zavisni uzorci nastaju:

 U dizajnu pre-posle kada se merenje vrednosti jedne


varijable vrši na istim jedinicama posmatranja dva ili više
puta (ponovljena merenja). Primer: Uzorak ĉine ispitanici
oboleli od depresije. Izmeren je arterijski pritisak pre i 20
dana nakon zapoĉete terapije antidepresivima. Testira se
promena uĉestalosti hipotenzije (pre i posle primene
antidepresiva) pri ĉemu moguću primenu ima McNemarov
test.
 Uparivanjem (meĉovanjem) – svakoj jedinici posmatranja iz
jednog uzorka odgovara jedna (ili više) jedinica posmatranja
iz drugog uzorka a koje su uparene prema nekoj
varijabli. Primer: Jedan uzorak ĉine ispitanici koji su
izloţeni štetnim isparenjima, a drugi uzorak, meĉovan po
polu i starosti, ĉine neizloţeni kontrolni ispitanici. Svaki
ispitanik iz kontrolne grupe uparen je sa nekim ispitanikom
iz gupe izloţenih – istog su pola i iste starosti. Testira se
razlika uĉestalosti arterijske hipertenzije izmeĊu grupa, pri
ĉemu moguću primenu ima McNemarov test.

Izraĉunavanje statistike testa


Svaki statistiĉki test ima odreĊenu proceduru izraĉunavanja, a rezultat tog
izraĉunavanja je statistika testa. Statistika testa ima poznatu raspodelu pod
pretpostavkom vaţenja nulte hipoteze. U tabeli 2 prikazani su primeri nekih
statistiĉkih testova, nazivi njihovih statistika i njihovih raspodela.
Statistiĉki zakljuĉak

Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poreĊenja


izraĉunate (empirijske) statistike testa i kritiĉne (graniĉne, teorijske) vrednosti.
Kritiĉnom vrednošću iz raspodele statistike testa odreĊeno je podruĉje prihvatanja
ili odbacivanja nulte hipoteze. Region odbacivanja odgovara nivou statistiĉke
znaĉajnosti (maksimalno dozvoljena verovatnoća greške prvog tipa). Kritiĉna
vrednost zavisi od nivoa statistiĉke znaĉajnosti i od toga kako je formulisana
alternativna hipoteza – dvosmerno ili jednosmerno. Primera radi, u tabeli 3 date su
kritiĉne vrednosti z-testa u zavisnosti od jednosmernog ili dvosmernog testiranja i
nivoa znaĉajnosti.

Razlog zbog ĉega je, na primer, 1.96 graniĉna vrednost z-testa za dvosmerno
testiranje i nivo znaĉajnosti od 0.05, je taj što z-statistika sledi normalnu raspodelu,
a na osnovu tabela površina ispod krive standardne normalne raspodele moţe se
izraĉunati da z-statistika veća od 1.96 i manja od -1.96 odgovara verovatnoći od
0.05, odnosno nivou statistiĉke znaĉajnosti od 0.05 (slika 1).

Slika 1. Region odbacivanja nulte hipoteze u z-testu, u dvosmernom testiranju na nivou


statistiĉke znaĉajnosti od0.05.

Sliĉno tome, za graniĉnu vrednost z-testa od 1.64, za jednosmerno testiranje i nivo


znaĉajnosti od 0.05, na osnovu tabela površina ispod krive standardne normalne
raspodele dobija se da z-statistika manja od -1.64 ili veća od 1.64 (slika 2) odgovara
verovatnoći od 0.05, odnosno nivou statistiĉkeznaĉajnosti od 0.05.
Slika 2. Regioni odbacivanja nulte hipoteze u z-testu, u
jednosmernom testiranju na nivou statistiĉke znaĉajnosti od 0.05.

Prema tome, da bi nulta hipoteza, koja je testirana z-testom, bila


odbaĉena na nivou znaĉajnosti od 0.05 potrebno je da z-statistika
bude jednaka ili veća od 1.96 u dvosmernom testiranju, odnosno
jednaka ili veća od 1.64 u jednosmernom testiranju.

Drugi naĉin donošenja odluke o prihvatanju ili odbacivanju nulte hipoteze jeste uz
primenu statistiĉkog softvera. U rezultatima testiranja hipoteza uz korišćenje
statistiĉkog softvera dobije se p-vrednost, koja predstavlja verovatnoću
opserviranih ili ekstremnijih razlika uzoraĉkih statistika pod pretpostavkom vaţenja
nulte hipoteze. Kada je ta verovatnoća manja od neke unapred zadate vrednosti,
najĉešće 0.05, odbacujemo nultu hipotezu. U protivnom, kada je p-vrednost veća od
0,05ostaje da vaţi nulta hipoteza.

Primer 6: Cilj istraţivanja bio je ispitivanje razlike nivoa hlorida u serumu


izmeĊu ispitanika obolelih od gihta koji redovno uzimaju terapiju i ispitanika koji
neredovno uzimaju terapiju.

H0 : µRedovnaTH = µNeredovnaTH

H1 : µRedovnaTH ≠ µ NeredovnaTH

Na osnovu rezultata primenjenog statistiĉkog testa doneta je odluka o prihvatanju


nulte hipoteze, odnosno zakljuĉeno je da se oboleli od gihta koji redovno i
neredovno uzimaju terapiju ne razlikuju statistiĉki znaĉajno prema nivou hlorida u
serumu.

Primer 7: Cilj istraţivanja bio je ispitivanje razlike uĉestalosti neţeljenih dejstava


na CNS izmeĊudva leka (atenolol i propranolol).
H0 : πAtenolol = πPropranolol
H1 : πAtenolol ≠ πPropranolol
Na osnovu prikupljenih podataka, od 57 ispitanika koji su primali atenolol,
neţeljena dejstva na CNS zapaţena su kod 3 (5%) ispitanika. Od 55 ispitanika
koji su primali propranolol, neţeljena dejstva zapaţena su kod 11 (20%)
ispitanika. Kako su u pitanju nominalni podaci, adekvatnu primenu ima hi-
kvadrat test. Dobijena je hi-kvadrat statistika od 5.56. Na osnovu hi-kvadrat
raspodele, i pod pretpostavkom vaţenja nulte hipoteze, verovatnoća opserviranih
razlika proporocija ili ekstremnijih, manja je od 0.05. Istraţivaĉ odbacuje nultu
hipotezu i prihvata alternativnu – donosi zakljuĉak da je proporcija uĉestalosti
neţeljenih dejstava na CNS veća u populaciji ispitanika koji koriste propranolol.

Donošenje odluke o prihvatanju ili odbacivanju nulte hipoteze


primenom statistiĉkog softvera
Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poreĊenja p-
vrednosti i odabranog nivoa statistiĉke znaĉajnosti. Nivo statistiĉke znaĉajnosti (alfa
vrednost) je maksimalno dozvoljena verovatnoća greške prvog tipa, i najĉešće se
odabira vrednost 0.05 (alfa = 0.05). Kada je p vrednost jednaka ili manja od
izabranog nivoa znaĉajnosti (p ≤ 0.05), odbacuje se nulta i prihvata radna hipoteza.
U protivnom, ako je p-vrednost veća od odabranog nivoa statistiĉke znaĉajnosti (p >
0.05), ostaje da vaţi nulta hipoteza.

Pitanje 2: U zed testu graniĉna vrednost za odbacivanje nulte hipoteze u


dvosmernom testiranju na nivou znaĉajnosti 0.05 je:
2.58
1.64
1.96
2.98
II Studentov t -test
Studentov t-test je parametarski analitiĉki metod za testiranje hipoteza o
populacionim proseĉnimvrednostima.

Studentov t-test je zasnovan na t raspodeli. Ova raspodela je sliĉna normalnoj, ima


zvonast oblik i simetriĉna je. Sa povećanjem veliĉine uzorka postaje sve sliĉnija
normalnoj raspodeli. Graniĉne vrednosti za odbacivanje nulte hipoteze zavise od
toga da li se radi o dvosmernom ili jednosmernom testiranju, izabranog nivoa
znaĉajnosti i od broja stepena slobode (DF), koji predstavlja broj podataka
umanjen za jedan u svakoj seriji podataka.

Pretpostavka za primenu t-testa jeste da ispitivana varijabla ima normalnu


raspodelu u osnovnom skupu, premda je test robustan na izvesno odstupanje od
normalnosti. Ta robustnost raste sa povećanjem uzorka.

Testiranje hipoteza o populacionim prosečnim vrednostima, jedan uzorak

Testiramo nultu hipotezu da je aritmetiĉka sredina populacije, iz koje potiĉe


uzorak veliĉine n,jednaka nekoj specifikovanoj vrednosti:
H0: µ = µ0

gde je µ nepoznata aritmetiĉka sredina populacije iz koje potiĉe uzorak, a µo je


specifikovana vrednost koja je pretpostavljena na osnovu ranijih istraţivanja ili
teorijskog modela. Na primer, ako na osnovu ranijih istraţivanja pretpostavljena
aritmetiĉka sredina populacije iznosi 5, nulta hipotezaima formulaciju:

H0: µ = 5

odnosno, nulta hipoteza tvrdi da aktuelni uzorak potiĉe iz populacije sa aritmetiĉkom


sredinom kojaiznosi 5. Ako na osnovu statistike testa odbacimo nultu hipotezu, onda
prihvatamo alternativnu hipotezu koja tvrdi da uzorak potiĉe iz populacije sa
aritmetiĉkom sredinom koja je razliĉita od specifikovane vrednosti (u ovom primeru
razliĉito od 5).

Pretpostavke za izvoĊenje t-testa su:

1. Sluĉajno biran uzorak


2. Numeriĉki podaci
3. Normalna raspodela u populaciji
Testiranje značajnosti razlike aritmetičkih sredina – jedan uzorak
Primer 1: Aritmetiĉka sredina sistolne arterijske tenzije 10 bolesnika sa akutnim
koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti, na
osnovu podataka iz fajla Sistolna TA.xlsx, iznosi 139 mmHg, a standardna
devijacija sd=11.9 mmHg. Na osnovu prethodnih istraţivanja oĉekivalo se da će
aritmetiĉka sredina za tu populaciju bolesnika iznositi 145 mmHg.

Da li se moţe reći da populacija iz koje potiĉe aktuelni uzorak ima aritmetiĉku


sredinu jednakuoĉekivanoj? Testirati na nivou znaĉajnosti od 0.05.

Rešenje:

Hipoteze:

H0: µ=145

H1: µ≠145

1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test

2) U dijalog prozoru koji se pojavio:


◦ u okviru polja Variable (pick one) oznaĉiti varijablu
◦ u polju Null hypothesis: mu = ukucati vrednost oĉekivane aritmetiĉke sredine

3) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure

Zaključak: Dobijena p-vrednost veća je od 0.05 pa zakljuĉujemo da se vrednost


aritmetiĉke sredine sistolne arterijske tenzije populacije iz koje potiĉe uzorak ne
razlikuje od oĉekivanihvrednosti (t=1.585, DF=9, p=0.147).

Pretpostavke za izvoĊenje t-testa u testiranju znaĉajnosti razlike aritmetiĉke sredine uzorka i


aritmetiĉke sredine populacije su:

numeriĉki kontinuirani podaci


normalna raspodela u populaciji
sluĉajno biran uzorak
sve navedeno
III Hi-kvadrat test slaganja

Hi-kvadrat testom slaganja testiramo hipotezu da li se uĉestalosti u populaciji,


opaţene i predstavljene uzorkom, razlikuju od oĉekivanih uĉestalosti. Oĉekivane
uĉestanosti odreĊene su na osnovu ranijih istraţivanja, pretpostavljenog modela
raspodele posmatrane varijable ili pretpostavljene na neki drugi naĉin.

Primer 1: Ispitivana je uĉestalost krvnih grupa u odreĊenoj populaciji. Na sluĉajnom


uzorku od 140 osoba, naĊeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59
osoba, krvnu grupu B 19 osoba i krvnu grupu AB 7 osoba. Podaci se nalaze u
dokumentu Krvne grupe.xlsx koji se moţe preuzeti sa naslovne stranice kursa. Na
osnovu ranijih istraţivanja poznato je da je relativna uĉestanost tih krvnih grupa: O –
44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne uĉestalosti krvnih
grupa razlikuju od oĉekivanih? Testirati na nivou znaĉajnosti od 0,05.

Rešenje:

Testiramo nultu hipotezu da se proporcije krvnih grupa u ispitivanoj populaciji ne razlikuju


od proporcija iz prethodnih istraţivanja. Kako je u pitanju raspodela samo prema jednoj
varijabli, a treba testirati da li je raspodela proporcija u ispitivanoj populaciji jednaka
proporcijama iz prethodnih istraţivanja, primenićemo hi-kvadrat test slaganja.

Hi-kvadrat test slaganja moţe se uraditi na sledeći naĉin:

1) Sa naslovne stranice kursa, preuzeti i uĉitati bazu podataka Krvne grupe.xlsx

2) Kliknuti na liniji sa komandama: Original


menu→Statistics→Summaries→Frequencydistributions...
3) U dijalog prozoru koji se pojavio:

◦ u okviru polja Variables (pick one or more) odabrati varijablu za


koju se izraĉunavaHi-kvadrat test slaganja
◦ ĉekirati polje Chi-square goodness-of-fit test (for one variable only)
◦ kliknuti na dugme OK.

4) U dijalog prozoru koji se pojavio, ukucati oĉekivane uĉestalosti za sve


kategorije ispitivane varijable, pa kliknuti na dugme OK. Zbir oĉekivanih
uĉestalosti mora da bude 1. Obratiti paţnju da je redosled kategorija u dijalog
prozoru po abecednom redu i da se moţe razlikovati od redosleda uzadatku.

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

Kako se odreĊuju oĉekivane uĉestalosti u Hi-kvadrat testu slaganja:

Na osnovu ranijih istraţivanja, pretpostavljenog modela raspodele posmatrane varijable


ili pretpostavljene na neki drugi naĉin.
Brojanjem uĉestalosti pojave od interesa u aktuelnom istraţivanju.
Oduzimanjem od apsolutnih uĉestalosti iz aktuelnog istraţivanja.
EZR automatski odreĊuje oĉekivane uĉestalosti.
IV Pearsonov hi-kvadrat test
HI-KVADRAT TEST

Hi-kvadrat test za r x k tabele

Lista primera u ovoj lekciji:

1. Hi-kvadrat test, tabela 2 x 2, test nezavisnosti


2. Hi-kvadrat test, tabela 2 x 2, test homogenosti
3. Hi-kvadrat test, tabela 3 x 2
4. Hi-kvadrat test, tabela 3 x 2 koja će posle saţimanja, zbog malih
uĉestalosti, biti svedena natabelu 2 x 2

Primer 1: Hi-kvadrat test, tabela 2 x 2, test nezavisnosti


Primer. Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i
patološkog nalaza na jetri. Formiran je sluĉajan uzorak, veliĉine 118 ispitanika, iz
opšte populacije odraslih osoba. Ispitati da li su patološke promene na jetri
povezane sa konzumiranjem alkohola.

Procedura u EZR-u:

1) Preuzeti i uĉitati bazu podataka Alkohol i jetra cross-sectional.xlsx

2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete


variables→Create two-way table and compare two proportions (Fisher`s
exact test)

3) U dijalog prozoru koji se pojavio:


◦ u okviru polja Row variable (pick one or more): odabrati varijablu
koja će definisatiredove u tabeli kontingencije
◦ u okviru polja Column variable (pick one): odabrati varijablu
koja će definisatikolone u tabeli kontingencije
◦ u delu Compute Percentages oznaĉiti Row percentages za
izraĉunavanje procenatapo redovima
◦ u delu Hypothesis Tests:
▪ ĉekirati polje Chi-square test za izraĉunavanje Hi-kvadrat testa
▪ ĉekirati polje Print expected frequencies za
izraĉunavanje oĉekivanihuĉestalosti
◦ u delu Continuity correction of chi-square test: oznaĉiti No, da bi
se Hi-kvadrat testizraĉunao bez Yatesove korekcije
◦ kliknuti na dugme OK
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
Dobijena je tabela kontingencije sa opserviranim uĉestalostima, gde je “Alkohol“ varijabla
koja definiše redove, a “Patološke promene na jetri” varijabla koja definiše kolone. Prikazani
su i procenti po redovima tabele kontingencije.

Sve oĉekivane uĉestalosti su veće od 5. Moţe se primeniti Hi-kvadrat test.

5) Zaključak: Uĉestalost patoloških promena kod konzumenata alkohola


iznosi 38%, a kodnekonzumenata 14%. Patološke promene su statistiĉki
znaĉajno povezane sa konzumiranjemalkohola (Hi-kvadrat = 7.65, DF = 1, p
= 0.006).

Primer 2: Hi-kvadrat test, tabela 2 x 2, test homogenosti


Primer: Cilj u studiji sluĉaj-kontrola bio je ispitivanje konzimranja alkohola kao
faktora rizika za patološke promene na jetri. Iz populacije osoba sa patološkim
promenama na jetri formiran je sluĉajan uzorak veliĉine 60, a iz populacije
uslovno zdravih sluĉajan uzorak veliĉine 104. Od svih ispitanika zabeleţen je
anamnestiĉki podataka o konzumiranju alkohola. Testirati hipotezu o homogenosti
populacija sa i bez patoloških promena na jetri prema proporciji konzumenata
alkohola.

Razlika u proceduri u odnosu na primer 1 je što je u ovom sluĉaju u pitanju studija


sluĉaj-kontrola kada je najadekvatnije prikazati procente unutar ishodne varijable,
što je u našem primeru varijablaPatološka promena na jetri.

Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka Alkohol i jetra case-control.xlsx

2) Procedura izvoĊenja hi-kvadrat testa i izrada tabela kontingencije sa


opserviranim i oĉekivanimuĉestalostima, opisana je u prethodnom primeru.

3) U prozoru sa rezultatima prikazani su se rezultati primenjene statistiĉke procedure.


Dobijena je tabela kontingencije sa opserviranim uĉestalostima, gde je “Alkohol“ varijabla
koja definiše redove, a “Patološke promene na jetri” varijabla koja definiše kolone. Prikazani
su i procenti po kolonama tabele kontingencije.

Sve oĉekivane uĉestalosti su veće od 5. Moţe se primeniti Hi-kvadrat test.

4) Zaključak: Uĉestalost konzumiranja alkohola u populaciji ispitanika sa


patološkim promena na jetri iznosi 52%, a kod uslovno zdravih 35%. Proporcija
konzumenata alkohola je statistiĉki znaĉajno veća u populaciji ispitanika sa
patološkim promenama na jetri (Hi-kvadrat = 4.58, DF = 1,p = 0.032).

Primer 3: Hi-kvadrat test, tabela 3 x 2

Opis podataka: Cilj u kohortnoj studiji bio je ocena povezanosti pušenja i


oboljevanja od akutnih respiratornih infekcija u toku zime. Formirane su tri
kohorte: nepušaĉi (85), pušaĉi sa popušenih do 20 cigareta dnevno (73), i pušaĉi sa
popušenih preko 20 cigareta dnevno (68). Da li pušenje povezano sa oboljevanjem
od akutnih respiratornih infekcija?

Razlika ovog primera u odnosu na prethodna dva primera jeste dimenzija tabele
koja je sada 3x2. U ovom primeru u pitanju je kohortna studija pa je najadekvatnije
prikazati procente unutar varijable koja definiše kohorte, što je u našem primeru
varijabla Pušenje.
Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka Pusenje_ak.resp.xlsx

2) Procedura izvoĊenja hi-kvadrat testa i izrada tabela kontingencije sa


opserviranim i oĉekivanimuĉestalostima, opisana je u prethodnom primeru.

3) U prozoru sa rezultatima prikazani su se rezultati primenjene statistiĉke procedure.

Dobijena je tabela kontingencije sa opserviranim uĉestalostima, gde je “Pušenje“ varijabla


koja definiše redove, a “Akutne respiratorne infekcije” varijabla koja definiše kolone.
Prikazani su i procenti po redovima tabele kontingencije.

Sve oĉekivane uĉestalosti ispunjavaju numeriĉka ograniĉenja za primenu Hi-kvadrat testa.

4) Zaključak: Proporcija oboljevanja od akutnih respiratornih infekcija u toku zime kod


nepušaĉa iznosi 25%, kod pušaĉa sa popušenih do 20 cigareta dnevno 38%, i kod pušaĉa
sa popušenih preko 20 cigareta dnevno 46%. Oboljevanje od akutnih respiratornih
infekcija u toku zime je statistiĉki znaĉajno povezano sa pušenjem (Hi-kvadrat = 7.62,
DF = 2, p = 0.022).
Primer 4: Hi-kvadrat test, tabela 3 x 2, koja će posle sažimanja, zbog
malihučestalosti, biti svedena na tabelu 2 x 2

Opis podataka: Radi se o istom israţivanju kao i u primer 3, ali ovog puta sa
manjim uĉestalostima zbog ĉega će biti neophodno da se izvrši saţimanje susednih
kategorija.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Pusenje_ak.resp_2.xlsx

2) Procedura izvoĊenja hi-kvadrat testa i izrada tabela kontingencije sa


opserviranim i oĉekivanimuĉestalostima, opisana je u prethodnom primeru.

3) U prozoru sa rezultatima prikazani su se rezultati primenjene statistiĉke procedure.


U prozoru za poruke, dobijamo poruku upozorenja da je narušena aproksimacija za
primenu hi- kvadrat testa. U hi-kvadrat testu je dopušteno da maksimalno 20%
ćelija moţe imati oĉekivane uĉestalosti manje od 5. U našem primeru 33,3% ćelija
ima manje uĉestalosti od 5. Zbog toga pristupamo saţimanju susednih kategorija
kako bi izbegli te male uĉestalosti.

U cilju lakše interpretacije rezultata, saţimanje treba obaviti po nekoj logiĉnoj


osnovi. U našem primeru objedinili smo kategorije pušaĉa do 20 i preko 20
popušenih cigareta dnevno u jedinstvenukategoriju “pušaĉa”.

Postojeća varijabla Pusenje ima sledeće kategorije:

• 1.Ne
• 2.Do 20 cigareta dnevno
• 3.Preko 20 cigareta dnevno
Cilj nam je u rekodiranju da dobijemo novu varijablu Pusenje2 koja će imati
dve kategorije.Kategoriju nepušaĉa i kategoriju pušaĉa:

• Ne
• Da

Kategorije 2.Do 20 cigareta dnevno i 3.Preko 20 cigareta dnevno varijable


Pusenje, postajukategorija Da nove varijable Pusenje2:

Tabela 1 – Shema rekodiranja, starih u nove kategorije

4) Procedura rekodiranja u Excel-u:

a) Otvoriti Excel fajl u kom se nalazi baza podataka. Kliknuti desnim tasterom
miša na redno slovo kolone varijable koju ţelimo da rekodiramo (u našem
sluĉaju A kolona). Na padajućem meniju kliknuti levim tasterom miša na
Copy.

b) Kliknuti desnim tasterom miša na redno slovo sledeće kolone, do varijable koju
rekodiramo. Na padajućem meniju kliknuti levim tasterom na Insert Copied
Cells. Varijabla koju ţelimo da rekodiramo iskopiraće se do originalne.
Promeniti naziv rekodirane varijable u Pusenje2.
c) Kliknuti u liniji menija na Data pa na Filter. Alternativno filter se moţe
aktivirati istovremenimklikom na kombinaciju tastera Crtl+Shift+L.

d) Klikom na strelicu na dole iza naziva varijable otvara se padajući meni gde su
prikazane sve kategorije varijable koju ţelimo da rekodiramo. Selektovati
ţeljene kategorije koje treba spojiti (u našem sluĉaju 1.Do 20 cigareta
dnevno i 2.Preko 20 cigareta dnevno) pa kliknuti na OK i Excel će prikazati
samo te kategorije.
e) Ukucati Da umesto pomenutih naziva kategorija.

f) Kliknuti ponovo na Filter da bi ga deaktivirali i pojaviće se kompletna


varijabla sa staromkategorijom Ne i novom kategorijom Da.

g) Saĉuvati bazu podataka i ponovo je uĉitati u EZR radi dalje analize.

Rekodiranje se moţe raditi i u originalnoj varijabli bez kopiranja sadrţaja u novu


kolonu. Preporuĉujemo da se rekodiranje radi sa kopiranjem varijable zbog
provere kodiranja i eventualnihdrugih analiza sa originalnom varijablom.

5) Dalja procedura izraĉunavanja podrazumeva primenu hi-kvadrat testa sa tabelom


kontingencije 2 x 2 kao u primerima 1 i 2. U dijalog prozoru umesto stare varijable
Pusenje oznaĉiti novu varijablu Pusenje2.

6) U prozoru sa rezultatima prikazani su se rezultati primenjene statistiĉke procedure.


7) Zaključak je isti kao i u primeru 2 (promenjena je hi-kvadrat vrednost, DF):
Proporcija oboljevanja od akutnih respiratornih infekcija u toku zime kod nepušaĉa
iznosi 15%, a kod pušaĉa 48%. Oboljevanje od akutnih respiratornih infekcija u
toku zime je statistiĉki znaĉajno povezano sa pušenjem (hi-kvadrat = 5.25, DF = 1,
p = 0.022).

Numeriĉka ograniĉenja u tabelama kontigencije hi-kvadrat testa odnose se na:


Opaţene (empirijske) uĉestalosti
Oĉekivane (teorijske) uĉestalosti
Apsolutne uĉestalosti
Relativne uĉestalosti

Ukoliko u tabelama kontigencije 3x2 nisu zadovoljeni numeriĉki uslovi oĉekivanih


uĉestalosti za izvoĊenje hi-kvadrat testa potrebno je uraditi:

Izbrisati kategorije sa malim uĉestalostima i uraditi hi-kvadrat test slaganja


T-test za dva nezavisna uzorka
Saţimanje susednih kategorija i izvoĊenje hi-kvadrat testa ili Fišerovog testa taĉne
verovatnoće preko tabela 2x2
V Fisherov test tačne verovatnoće
Fisherov test taĉne verovatnoće je alternativa hi-kvadrat testu za tabele

𝑟 x𝑘

Moţe se koristiti uvek, bez obzira na uĉestalosti u tabelama kontingencije, pa i u


sluĉajevima kadase ne moţe koristiti hi-kvadrat test zbog malih uĉestalosti.

Primer: Cilj u studiji sluĉaj-kontrola bio je ispitivanje konzumiranja alkohola kao


faktora rizika za arterijsku hipertenziju. Iz populacije osoba sa arterijskom
hipertenzijom formiran je sluĉajan uzorak veliĉine 5, a iz populacije uslovno zdravih
sluĉajan uzorak veliĉine 6. Od svih ispitanika zabeleţen je anamnestiĉki podataka o
konzumiranju alkohola. Testirati hipotezu o homogenosti populacija sa i bez
arterijske hipertenzije prema proporciji konzumenata alkohola.

Zbog malih uĉestalosti (totalna uĉestalost manja od 20) nije moguće primeniti
Pearsonov hi-kvadrattest. Alternativa je primena Fisherovog testa taĉne verovatnoće.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Alkohol i hipertenzija.xlsx

2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete


variables→Create two-waytable and compare two proportions (Fisher`s exact
test)

3) U dijalog prozoru koji se pojavio:


◦ u okviru polja Row variable (pick one or more): odabrati varijablu
koja će definisatiredove u tabeli kontingencije
◦ u okviru polja Column variable (pick one): odabrati varijablu
koja će definisatikolone u tabeli kontingencije
◦ u delu Compute Percentages oznaĉiti Row percentages za
izraĉunavanje procenatapo redovima
◦ u delu Hypothesis Tests: ĉekirati polje Fisher`s exact test
za izraĉunavanjeFisherovog testa taĉne verovatnoće
◦ kliknuti na dugme OK.
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
Dobijena je tabela kontingencije sa opserviranim uĉestalostima, gde je “Alkohol“ varijabla
koja definiše redove, a “Hipertenzija” varijabla koja definiše kolone. Prikazani su i procenti
po redovima tabele kontingencije.

5) Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistiĉki


znaĉajno prema proporciji konzumiranja alkohola (Fisherov test taĉne
verovatnoće, p = 0.545).

Fisherov test taĉne verovatnoće:

Koristi se kao alternativa McNemarovom testu.


Koristi se kao neparametarska alternativa t-testu za dva zavisna uzorka.
Koristi se iskljuĉivo kada se zbog numeriĉkih ograniĉenja ne moţe koristiti hi-kvadrat
test kao njegova alternativa.
Moţe se koristiti uvek, bez obzira na uĉestalosti u tabelama kontingencije, a obavezno
kada se zbog numeriĉkih ograniĉenja ne moţe koristiti hi-kvadrat test.
VI Studentov t-test za dva nezavisna uzorka

Testiramo nultu hipotezu da su aritmetiĉke sredine osnovnih skupova iz kojih su


dobijeni uzorci jednake: H0: µ1 = µ2. Radna hipoteze bi glasila: da su aritmetiĉke
sredine razliĉite: H1:µ1 ≠ µ2, (dvosmerno testiranje), ili da je jedna veća od druge:
H1: µ1 > µ2, H1: µ1 < µ2, (jednosmerno testiranje).

Uslovi za testiranje razlike aritmetiĉkih sredina t-testom su:

1. Normalnost raspodele podataka


2. Jednakost varijansi
3. Nezavisni uzorci (jedinica posmatranja moţe biti zastupljena samo u
jednom uzorku pri ĉemu izbor jedinica za jedan uzorak nema nikakav
uticaj na izbor jedinica u drugom uzorku)

Primer Ispitivan je odnos nadmorske visine prebivališta i gustine mitohondrija u


tkivu mišića kvadriceps femoris. Podaci o gustini mitohodrija (%) dati su za
ispitanike sa stalnim prebivalištem na nadmorskoj visini do 200 m i preko 700 m.
Ispitati da li se osobe sa razliĉitim nadmorskim visinama prebivališta razlikuju
prema gustini mitohondrija.

U pitanju su dva nezavisna uzorka. Podaci ne odstupaju od normalosti, moţe se


upotrebiti t-test zadva nezavisna uzorka.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Nadmvisina.xlsx

2) Deskripcija podataka moţe se uraditi na sledeći


naĉin: Original
menu→Statistics→Summaries→Numerical
summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3) Testirati normalnost raspodele obe podgrupe na naĉin opisan u


lekciji EZR - Provera normalnosti raspodele
4) Testirati jednakosti varijansi primenom Levene's Test for Homogenity of
Variance koji se izvodi na sledeći naĉin: Original
menu→Statistics→Variances→Levene`s test...

U dijalog prozoru koji se otvorio:

◦ u okviru polja Factors (pick one or more) odabrati varijablu koja definiše
grupe
◦ u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
◦ u delu prozora Center oznaĉiti mean
◦ kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

Interpretacija vrednosti Levene's Test for Homogenity of Variance:


◦ Ako je p-vrednost veća od 0.05 prihvata se jednakost varijansi, pa
će se u nastavkuanalize primeniti t-test za jednake varijanse.
◦ Ako je p-vrednost manja od 0.05 ne prihvata se jednakost
varijansi, pa će se u nastavku analize primeniti t-test za
nejednake varijanse.
5) t-test za dva nezavisna uzorka izvodi se klikom na liniju sa
komandama: Statistical analysis→Continuous variables→Two
sample t-test

U dijalog prozoru koji se otvorio:

◦ u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu


◦ u okviru polja Grouping Variables with two levels (pick at
least one): odabrati varijablu koja definiše grupe. Grupišuća
varijabla mora da ima dve kategorije
◦ u delu Assume equal variances? oznaĉiti Yes (t-test)
◦ kliknuti na dugme OK

6) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.

7) Zaključak: Aritmetiĉka sredina gustine mitohondrija osoba sa nadmorskom


visinom prebivlišta ispod 200 m iznosi 3.79% (sd 0.37%), a osoba sa nadmorskom
visinom prebivališta iznad 700 m iznosi 4.97% (sd 0.34%). Aritmetiĉka sredina
gustine mitohondrija osoba sa prebivalištem iznad 700 m nadmorske visine
statistiĉki znaĉajno je veća u odnosu na gustinu mitohondrija osoba sa
prebivalištem ispod 200 m nadmorske visine (t=13.697; p < 0.001).

NAPOMENA: Ako je u t-testu vrednost statistike testa negativna, kao u našem


primeru -13.73, istraţivaĉ u izveštaju moţe izostaviti minus, pošto on govori samo
o smeru razlike.
Studentov t-test se koristi za testiranje hipoteza o:

Statistikama
Uĉestalostima
Populacionim proseĉnim vrednostima i proporcijama
Rangovima

VII Test sume rangova


Test sume rangova je neparametarski metod koji se koristi kao alternativa
Studentovom t-testu za dva nezavisna uzorka. Primenjuje se kada nisu ispunjeni
uslovi za primenu t-testa (kada raspodela numeriĉkih podataka nije normalna) ili se
radi o ordinalnim ili rangiranim podacima. Ovim testom testira se nulta hipoteza o
jednakosti raspodela ili jednakosti medijana dve populacije.

U literaturi se pod ovim nazivom podrazumevaju dva testa: Wilcoxonov test sume
rangova i Mann- Whitney U test. Ova dva testa su ekvivalentna, pa otuda i naziv
Wilcoxon-Mann-Whitney test.

Primer. Ispitati razliku koncentracije fibrinogena izmeĊu ispitanika sa razliĉitim


nadmorskimvisinama prebivališta.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Nadmvisina.xlsx

2) Deskripcija podataka moţe se uraditi na sledeći


naĉin: Original
menu→Statistics→Summaries→Numerical
summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3) Test sume rangova izvodi se klikom na liniju sa


komandama: Statistical analysis→Nonparametric
tests→Mann-Whitney U test
4) U dijalog prozoru koji se otvorio:

◦ u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu.


◦ u okviru polja Grouping Variables with two levels (pick at
least one): odabrati varijablu koja definiše grupe. Grupišuća
varijabla mora da ima dve kategorije.
◦ kliknuti na dugme OK.
5) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.

6) Zaključak: Medijana koncentracije fibrinogena osoba sa nadmorskom visinom


prebivališta ispod 200 m iznosi 2.66 g/L (opseg 2.03 – 4.91), a osoba sa
nadmorskom visinom prebivališta iznad 700 m iznosi 2.62 g/L (opseg 1.80 – 4.83).
Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine ne razlikuju se
statistiĉki znaĉajno prema koncentraciji fibrinogena (W = 744.5, p
= 0.122).

NAPOMENA:
• uz rezultate parametarskih testova (npr. t-test) kao meru centralne
tendencije i meru varijabiliteta prikazati aritmetiĉku sredinu i
standardnu devijaciju, npr. 45.5±7.2 godine
• uz rezultate neparametarski testova zasnovanih na rangovima (npr. test
sume rangova, test ekvivalentnih parova) kao meru centralne tendencije i
meru varijabiliteta prikazati medijanu i opseg (od minimalne do maksimalne
vrednosti), npr. 2.62 g/L (opseg, 1.80 – 4.83)
Testom sume rangova (Mann-Whitney test) testiramo:

Razliku uĉestalosti kategorija nominalnih podataka


Razliku raspodele ili razliku medijana dva nezavisna uzorka
Razliku aritmetiĉkih sredina dva nezavisna uzorka
Razliku aritmetiĉkih sredina dva zavisna uzorka
VIII Studentov t-test za zavisne uzorke

Zavisni uzorci nastaju u dizajnu ponovljenih merenja ili meĉovanjem (uparivanjem)


sliĉnih jedinica iz razliĉitih uzoraka. Razliku aritmetiĉkih sredina zavisnih uzoraka
moţemo testirati t-testom za zavisne uzorke (t-test korelisanih uzoraka, t-test
meĉovanih uzoraka – parova). Test je zasnovan na razlici pre-posle ili razlici
meĉovanih parova vrednosti.

d = xpre – xposle (u dizajnu ponovljenih merenja)

d = xuzorak1 – xuzorak2 (kod meĉovanih uzoraka)

Nulta hipoteza tvrdi da je aritmetiĉka sredina ovih razlika jednaka nuli, a

alternativna suprotno:

H0: µd = 0

H0: µd ≠ 0

Uslov za primenu t-testa za zavisne uzorke jeste normalnost raspodele podataka.

Primer: U studiji koja je dizajnirana po tipu pre-posle date su vrednosti sistolne


arterijske tenzijepre poĉetka terapije i mesec dana nakon poĉetka terapije. Radi se
o istim ispitanicima koji su već opisani u primeru 1 u lekciji o McNemarovom
testu. Cilj istraţivanja bio je da se ispita da li je došlo do promene sistolne
arterijske tenzije u posmatranom periodu.

Za ove podatke moguće je primeniti t-test jer podaci ne odstupaju od normalnosti.

Procedura u EZR-u:

1) Preuzeti i uĉitati bazu podataka Aritmije 2.xlsx

2) Deskripcija podataka za oba merenja moţe se uraditi na sledeći


naĉin: Original menu→Statistics→Summaries→Numerical
summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


3) Testirati normalnost raspodele obe podgrupe na naĉin opisan u lekciji

4) t-test za dva zavisna uzorka izvodi se klikom na liniju sa


komandama: Statistical analysis→Continuous variables→Paired t-
test

U dijalog prozoru koji se otvorio:

◦ u okviru polja First variable (pick one) odabrati prvo merenje ispitivane
varijable
◦ u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane
varijable
◦ kliknuti na dugme OK
5) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
6) Zakljuĉak: Aritmetiĉka sredina sistolne tenzije pre terapije iznosila je 144±14
mmHg a posle tarpije 139±13 mmHg. Vrednosti sistolne tenzije statistiĉki
znaĉajno su niţe mesec dana posle terapije u odnosu na vrednosti pre poĉetka
terapije (t=2.74, DF=90, p=0.007).

Primer 2

Primer: U studiji koja je dizajnirana po tipu meĉovanih ispitanika date su vrednosti


MCV (fL). Radi se o istim ispitanicima koji su već opisani u primeru 2 u lekciji o
McNemarovom testu. Cilj istraţivanja bio je da se ispita da li se vakcinisani i
nevakcinisani razlikuju prema vrednosti MCV- a?.

Za ove podatke moguće je primeniti t-test jer podaci ne odstupaju

od normalnosti.Procedura u EZR-u:

1) Preuzeti i uĉitati bazu podataka Pneumokok 2.xlsx

2) Deskripcija podataka za obe grupe meĉovanih ispitanika moţe se uraditi na sledeći naĉin:
Original menu→Statistics→Summaries→Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3) Testirati normalnost raspodele obe podgrupe na naĉin opisan u lekciji

4) T-test za dva zavisna uzorka izvodi se klikom na liniju sa


komandama: Statistical analysis→Continuous variables→Paired t-
test
U dijalog prozoru koji se otvorio:
◦ u okviru polja First variable (pick one) odabrati ispitivanu varijablu grupe
sluĉajeva
◦ u okviru polja Second variable (pick one) odabrati ispitivanu
varijablu kontrolnegrupe
◦ kliknuti na dugme OK
5) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

6) Zaključak: Aritmetiĉka sredina MCV-a kod vakcinisanih iznosi 90±3.6 fL, a


kod nevakcinisanih 90±3.9 fL. Vakcinisani i nevakcinisani ne razlikuju se statistiĉki
znaĉajno prema vrednostima MCV(t=0.498, DF=88, p=0.620).

Studentov t-test se moţe koristiti za testiranje hipoteza o populacionim proseĉnim


vrednostima:

Nije bitan broj uzoraka


Dva zavisna uzorka
Više od dva nezavisna uzorka
Tri ponovljena merenja
IX McNemarov test

McNemarov test primenjuje se za ocenu znaĉajnosti razlike uĉestalosti dihotomnih


podataka koji potiĉu od dva vezana (zavisna) uzoraka. Vezane uzorke mogu ĉiniti (a)
iste jedinice opservirane dva ili više puta, ili (b) individualno meĉovane jedinice dva
uzorka.

Lista primera u ovoj lekciji:

1. Dizajn pre posle


2. Meĉovani dizajn

Primer 1: DIZAJN PRE-POSLE

Opis podataka: U istraţivanju cilj je bio oceniti efikasnost jednog antiaritmika. U


dizajnu pre-posle, za 91 ispitanika registrovana je pojava ekstrasistola pre davanja i
posle davanja antiaritmika. U ovom primeru vezane uzorke ĉinili su isti ispitanici, na
kojima je u dva razliĉita vremena registrovana pojava ekstrasistola.

Procedura u EZR-u:
1) Preuzeti i uĉitati bazu podataka Aritmije.xlsx

2) Tabela kontingencije i McNemarov test mogu se dobiti klikom na liniji


sa komandama: Statistical analysis→Discerete variables→Compare
proportions of two paired samples (McNemar test)

U dijalog prozoru koji se pojavio:


◦ u okviru polja Row variable (pick one or more) odabrati varijablu
koja će definisatiredove u tabeli kontingencije
◦ u okviru polja Column variable (pick one) odabrati varijablu
koja će definisatikolone u tabeli kontingencije
◦ u delu Continuity correction: oznaĉiti No
◦ kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

4) Procenat ispitanika sa ekstrasistolama pre poĉetka terapije, i posle terapije moţe


se dobiti klikom na liniji sa komandama: Statistical analisys→Discrete
variables→Frequency distributions.
4) Zaključak: Uĉestalost ekstrasistola pre davanja leka iznosila je 74%, a posle
davanja leka 52%. Uĉestalost ekstrasistola je statistiĉki znaĉajno manja posle
davanja leka (Hi-kvadrat=12,5; p< 0,001).

Primer 2: MEČOVANI DIZAJN


Opis podataka: U istraţivanju cilj je bio ocena efektivnosti pneumokone vakcine
kod starih osoba. Odabrane su dve grupe: grupa vakcinisanih od 89 ispitanika i isto
toliko nevakcinisanih ispitanika individualno meĉovanih prema starosti i
zdrvstvenom statusu. Grupe su zatim uporeĊene prema podatku o pneumokoknoj
infekciji.

Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka Pneumokok.xlsx

2) Tabela kontingencije i McNemarov test mogu se dobiti klikom na liniji


sa komandama: Statistical analysis→Discerete variables→Compare
proportions of two paired samples (McNemar test)

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


3) Procenat vakcinisanih i nevakcinisanih ispitanika obolelih od pneumokokne
infekcije moţe se dobiti klikom na liniji sa komandama: Statistical
analisys→Discrete variables→Frequency distributions.

4) Zaključak: Uĉestalost pnumokokne infekcije kod vakcinisanih iznosi 21%, a


kod nevakcinisanih 36%. Pneumokone infekcije su statistiĉki znaĉajno manje
uĉestale u populaciji vakcinisanih (Hi- kvadrat = 5.828, p = 0.016). Vakcina je
efikasna.
McNemarov test se moţe upotrebiti kod testiranja:

Razlike aritmetiĉkih sredina nezavisnih uzoraka


Razlike uĉestalosti dva nezavisna uzorka
Razlike aritmetiĉkih sredina vezanih uzorka
Razlike uĉestalosti dihotomnih podataka zavisnih uzoraka
X Wilcoxonov test ekvivalentnih parova

Wilcoxonov test ekvivalentnih parova je neparametarski metod koji se koristi kao


alternativa Studentovom t-testu za dva zavisna uzorka. Primenjuje se kada nisu
ispunjeni uslovi za primenu t- testa (odstupanje od normalnosti) ili se radi o
ordinalnim ili rangiranim podacima. Koristi se kada podaci potiĉu od dva vezana
(zavisna) uzoraka: (a) u dizajnu pronovljenih merenja (pre-posle) kada su iste
jedinice opservirane dva ili više puta, ili (b) u individualno meĉovanim uzorcima.
Ovim testom testira se razlika raspodele ili razlika medijana zavisnih uzoraka.

Primer U studiji koja je dizajnirana po tipu pre-posle date su vrednosti vrednosti


Lp(a) pre poĉetka terapije i mesec dana posle tretmana u kojem su pacijenti osim
antiaritmika dobijali i antilipemike. Cilj istraţivanja bio je da se ispita da li je došlo
do promene Lp(a) u posmatranom periodu.

Za ove podatke nije moguće je primeniti t-test jer podaci odstupaju od


normalnosti (proveriti na naĉin opisan u lekciji R - Provera normalnosti
raspodele), pa će biti upotrebljen Wilcoxonov testekvivalentnih parova.

Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka Aritmije 2.xlsx

2) Deskripcija podataka moţe se uraditi na sledeći


naĉin:
Original
menu→Statistics→Summaries→Numerical
summaries.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3) Wilcoxonov test ekvivalentnih parova izvodi se klikom na liniju sa


komandama: Statistical analysis→Nonparametric tests→Wilcoxon`s signed
rank test
U dijalog prozoru koji se otvorio:

◦ u okviru polja First variable (pick one) odabrati prvo merenje ispitivane
varijable
◦ u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane
varijable
◦ kliknuti na dugme OK
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
5) Zaključak: Medijana vrednosti Lp(a) pre poĉetka terapije iznosila je 17 mg/dL
(opseg 9-57) a posle terapije iznosila je 11 mg/dL (opseg 5-41). Vrednosti Lp(a) posle
terapije statistiĉki znaĉajno su niţe u odnosu na vrednosti pre terapije (V = 2950.5,
p<0.001).

Testom ekvivalentnih parova (Wilcoxonov test) testiramo:

Razliku aritmetiĉkih sredina zavisnih uzoraka

Razliku uĉestalosti kategorija nominalnih podataka

Razliku aritmetiĉkih sredina dva nezavisna uzorka

Razliku raspodele ili razliku medijana zavisnih uzoraka


Lekcija 4
Projektni zadatak 1
Lekcija 5
I Analiza varijanse (ANOVA)
Analiza varijanse (ANOVA) je statistiĉka metoda koja ukupan varijabilitet skupa podataka deli
na više komponenti. Ovaj metod ukupnu varijansu zavisne varijable razdvaja na komponente za
koje se vezuju, kao izvori variranja, nezavisne varijable – faktori.

Faktor je svaki uticaj, dejstvo ili promena koja se na neki naĉin odraţava na rezultujuće obeleţje
(ishodnu varijablu). Faktor je najĉešće tretman i predstavlja nezavisnu varijablu u eksperimentu,
a njeni nivoi/gradacije su pod kontrolom istraţivaĉa.

Faktori mogu biti: fiksni tj. organizovani (koji se analizom mogu identifikovati i kvantitativno
diskriminisati) i slučajni tj. rezidualni ili neorganizovani (koji se mogu samo opisati u ukupnom
delovanju, ali ne i razlagati).

Analogno tipovima faktora, tako postoje fiksni i slučajni efekti. Fiksni efekti su oni koji se
mogu pripisati faktorima ĉiji su svi nivoi/gradacije ukljuĉeni u studiju (primer: efekti tri razliĉita
hirurška tretmana). Sluĉajni efekti su oni koji se mogu pripisati faktorima ĉiji su samo sluĉajno
odabrani nivoi/gradacije ukljuĉeni u studiju (primer: ispitivanje duţine hospitalizacije u nekoliko
sluĉajno odabranih od svih zdravstvenih ustanova).

Prema broju ukljuĉenih fiksnih i sluĉajnih faktora razlikuju se tri modela analize varijanse:
1. Model fiksnih efekata (Model I) - sadrţi samo fiksne faktore, ovo je najĉešće korišćen model
analize varijanse
2. Model sluĉajnih efekata (Model II) - sadrţi samo sluĉajne faktore
3. Model mešovitih efekata (Model III) - sadrţi bar jedan fiksni i bar jedan sluĉajni faktor.
ANOVA se koristi za testiranje razlike aritmetiĉkih sredina dve ili više populacija.

Zašto izbegavati simultanu upotrebu t-testa za poreĎenje više od dve aritmetičke sredine?
Korišcenje t-testa, kada je broj uzoraka veći od dva, vodi povećanju verovatnoće greške prvog
tipa. Verovanoća da se u simultanoj upotrebi t-testa napravi najmanje jedna greška prvog tipa
iznosi P = 1 – (1 – α)N, gde je α nivo znaĉajnosti, a N broj testiranja.
Npr. ako je broj uzoraka 4, t-test se mora primeniti 6 puta da bi se testirala razlika izmeĊu svih
mogućih parova uzoraka.
Pouzdana upotreba analize varijanse ograniĉena je sledećim pretpostavkama:

 Izbor eksperimentalnih jedinica je sluĉajan


 Randomizacija - sluĉajno dodeljivanje nivoa/gradacije faktora eksperimentalnoj jedinici
 Homogenost varijansi - populacione varijanse za svaku grupu su jednake
 Normalna raspodela rezultujućeg oboleţja u svakoj grupi

Prve dve pretpostavke su odraz dizajna eksperimenta i ne mogu se analizom nadoknaditi, a druge
dve se mogu ispitati i nadoknaditi odgovarajućim statistiĉkim postupcima.
Statistiĉki testovi kojima se moţe proveriti pretpostavka o homogenosti varijansi su: Bartlett
test, Leven`s test, Hartley test, Sheffe-Box test i drugi, a smatra se da se homogenost varijansi
prevazilazi kao problem jednakom veliĉinom grupe za svaki nivo/gradaciju faktora.

Normalnost raspodele rezultujućeg obeleţja se ispituje grafiĉkim i matematiĉkim metodama, a


kao mogući, ali ne uvek i uspešni, naĉini prevazilaţenja ovog problema se navode veći broj
eksperimentalnih jedinica unutar grupa, kao i transformacije podataka.

Jednofaktorska analiza varijanse


Jednofaktorska ANOVA - poreĊenje aritmetiĉkih sredina uzoraka kada su jedinice posmatranja
pod dejstvom razliĉitih nivoa jednog faktora (jednosmerna analiza varijanse).

Faktorska ANOVA- poreĊenje aritmetiĉkih sredina uzoraka kada su jedinice posmatranja pod
dejstvom razliĉitih kombinacija nivoa dva faktora (dvosmerna analiza varijanse) ili više faktora.
U ovom dizajnu moţe se otkriti interakcija faktora.
Opšti model jednofaktorske analize varijanse je: Y=X+Z

gde je Y ukupan varijabilitet meĊu eksperimentalnim jedinicama, X varijabilitet ĉije je poreklo u


dejstvu faktora, a Z sluĉajan tj. neobjašnjen varijabilitet.

ANOVA omogućava simultano poreĊenje bilo kojeg broja aritmetiĉkih sredina upotrebom
Fišerovog varijansnog koliĉnika (F-test). F-test je baziran na F statistici koja se izraĉunava kao
odnos srednjih kvadrata. Ako se testira razlika aritmetiĉkih sredina samo dve nezavisne
populacije, F-test je ekvivalentan t-testu.

U analizi varijanse, suma kvadrata podeljena brojem stepena slobode naziva se srednjim
kvadratom. Srednji kvadrat je ocena neke varijansne komponente: na komponentu koja nastaje
zbog razlika aritmetiĉkih sredina (srednji kvadrat izmeĊu grupa) i komponentu koja nastaje zbog
razlika samih opservacija unutar grupa (srednji kvadrat unutar grupa, rezidual). Ako se
populacione aritmetiĉke sredine ne razlikuju, ove dve komponente će biti jednake. Ako
populacione aritmetiĉke sredine razlikuju, srednji kvadrat izmeĊu grupa biće veći od srednjeg
kvadrata unutar grupa. Na taj naĉin, u analizi varijanse, testiranje razlike aritmetiĉkih sredina
zahteva testiranje razlike varijansnih komponenti primenom F-testa.
Tabela analize varijanse prikazuje rezultate analize varijanse: izvor (komponentu) varijabiliteta,
sumu kvadrata, broj stepena slobode, srednji kvadrat, F statistiku i p:

Post hoc testiranje – multiplo poreĊenje

Kada je sveukupni F test statistiĉki znaĉajan, od interesa je testirati izmeĊu kojih grupa postoji
statistiĉki znaĉajna razlika. Metode post hoc testiranja:

• Tukey - najbolji balans odnosa greške prvog i drugog tipa


• Scheffe – prikladniji nego Tukey ako se veliĉine grupa razlikuju znaĉajno
• Dunnett - kada treba porediti nekoliko grupa sa kontrolnom grupom
• Bonferroni – više konzervativan (manja je verovatnoća da će biti naĊena statistiĉka znaĉajnost)
u odnosu na Tukey i Scheffe
• Newman-Keuls, Duncan, Fisher’s LSD – ne kotrolisu sveukupno alfa, više liberalni

Primer

Primer. Ispitivan je odnos pušenja i FEV1. Dati su podaci o FEV1 za pušaĉe, pasivne pušaĉe i
nepušaĉe. Utvrditi da li postoji znaĉajna razlika u vrednosti FEV1 izmeĊu pušaĉa, pasivnih
pušaĉa i nepušaĉa.

U pitanju su tri nezavisna uzorka. Podaci imaju normalnu raspodelu, moţe se primeniti
ANOVA..

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Cotinine.xlsx

2) Deskripcija podataka moţe se uraditi na sledeći naĉin: Original


menu→Statistics→Summaries→Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


3) Homogenost varijansi za više od dve grupe moţe se testirati primenom Levene's Test
for Homogenity of Variance, što se u EZR-u postiţe na sledeći naĉin: Original
menu→Statistics→Variances→Levene`s test...

o u okviru polja Factors (pick one or more) odabrati varijablu koja definiše grupe
o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
o u delu prozora Center oznaĉiti mean
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure


Neophodno je da u Levene's Test for Homogenity of Variance bude p>0.05 i time se
ispunjava pretpostavka o homogenosti varijansi pa se moţe primeniti ANOVA. U našem
primeru je p=0.584, pa se ANOVA moţe primeniti.

4) Jednofaktorska analiza varijanse u EZR-u izvodi se klikom na liniju sa


komandama: Statistical analysis→Continuous variables→One-way ANOVA

o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu


o u okviru polja Grouping Variables (pick at least one) odabrati varijablu koja
definiše grupe
o u delu Assume equal variances? oznaĉiti Yes (ANOVA)
o ĉekirati polje Pairwise comparison (Tukey) za post hoc testiranje izmeĊu kojih
grupa postoji statistiĉki znaĉajna razlika
o kliknuti na dugme OK

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

U summary (AnovaModel) prikazani su rezultati analize varijanse:

o u sluĉaju da je p>0.05 treba doneti zakljuĉak da ne postoji statistiĉki znaĉajna


razlika aritmetiĉkih sredina izmeĊu ispitivanih grupa
o ako je u ovoj tabeli p≤0.05, razlika aritmetiĉkih sredina je statistiĉki znaĉajna, i u
tom sluĉaju treba uraditi multiple komparacije da bi videli izmeĊu kojih
aritmetiĉkih sredina postoji statistiĉki znaĉajna razlika
6) Zaključak: Aritmetiĉka sredina FEV1 pušaĉa iznosi 91.4±10.6%, pasivnih pušaĉa
96.9±12.3% i nepušaĉa 99.6±11.1%. IzmeĊu pušaĉa, pasivnih pušaĉa i nepušaĉa postoji
statistiĉki znaĉajna razlika aritmetiĉkih sredina FEV1 (F = 4.6; DF = 2, 102; p = 0.012).

Razlika aritmetiĉkih sredina FEV1 je statistiĉki znaĉajna izmeĊu Pušaĉa i Nepušaĉa (p = 0.010),
ali nije statistiĉki znaĉajna izmeĊu Pušaĉa i Pasivnih pušaĉa (p = 0.116), niti izmeĊu Pasivnih
pušaĉa i Nepušaĉa (p = 0.575).

Pitanje 1. Kada je broj uzoraka veći od dva, simultana upotreba t-testa vodi:

povećanju verovatnoće greške prvog tipa

smanjenju verovatnoće greške prvog tipa


Pitanje 2. Od testova za multiplo poreĊenje najbolji balans odnosa greške prvog i drugog tipa
poseduje:

Dunnettov test

Tukey test
II Kruskal-Wallis test
Kruskal-Wallis test je neparametarski statistiĉki test za poreĊenje dva ili više nezavisnih uzoraka
kada su podaci bar ordinalni. Moţe se smatrati ekstenzijom testa sume rangova (Mann-Whitney
testa) a takoĊe predstavlja i ekvivalent jednosmernoj analizi varijanse kada uslovi za njenu
primenu nisu ispunjeni.

Testiramo nultu hipotezu o jednakosti raspodele ili jednakosti medijana dve ili više populacija.

Test statistika se bazira na rangovima i raĉuna po sledećoj formuli:

gde je N ukupan broj jedinica posmatranja, n broj jedinica posmatranja u pojedinaĉnoj grupi, R
suma rangova unutar pojedinaĉne grupe i k broj grupa

Analogno post hoc testiranju nakon jednofaktorske analize varijanse, za multipla poreĊenja
nakon Kruskal-Wallis testa se mogu koristiti sledeće metode korekcije Mann-Whitney testa:

 Bonferroni - veoma stroga metoda koja kontroliše grešku prvog tipa tako što odabrani
nivo znaĉajnosti deli brojem potrebnih meĊugrupnih poreĊenja
 Holm - metoda koja se smatra pristupaĉnijom u odnosu na Bonferoni, kontroliše grešku
prvog tipa tako što najniţu dobijenu p vrednost poredi sa odabranim nivoom znaĉajnosti
koji se za svako naredno poreĊenje smanjuje
 Steel - metoda jednako adekvatna kao i Bonferoni, koja ukljuĉuje još jedan nivo kontrole
greške I tipa za multipla poreĊenja

Primer 1. Ispitivan je odnos pušenja i koncentracije kotinina u krvi (ng/mL). Dati su podaci o
kotininu za pušaĉe, pasivne pušaĉe i nepušaĉe.

U pitanju su tri nezavisna uzorka. Raspodele podataka odstupaju od normalne i ne moţe se


primeniti ANOVA. Drugi razlog što ne moţe biti primenjena ANOVA jeste heterogenost
varijansi, što se moţe proveriti primenom Levene testa u okviru ANOVA procedure.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Cotinine.xlsx

2) Deskripcija podataka moţe se uraditi na sledeći naĉin: Original


menu→Statistics→Summaries→Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu.
o u okviru polja Groups (pick one) odabrati varijablu koja definiše grupe.
o ĉekirati polje Pairwise comparison (Holm) za post hoc testiranje izmeĊu kojih
grupa postoji statistiĉki znaĉajna razlika
o kliknuti na dugme OK.

4) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


o u sluĉaju da je p>0.05 treba doneti zakljuĉak da ne postoji statistiĉki znaĉajna
razlika medijana izmeĊu ispitivanih populacija
o ako je p≤0.05, razlika medijana je statistiĉki znaĉajna, i u tom sluĉaju treba
uraditi multiple komparacije da bi videli izmeĊu kojih grupa postoji statistiĉki
znaĉajna razlika medijana

U tabeli Pairwise comparisons using Mann-Whitney U test prikazane su zaĉajnosti razlika


medijana izmeĊu grupa.
5) Zaključak: Medijana kotinina pušaĉa iznosi 43,6 ng/mL (opseg 19,7-163,7), pasivnih pušaĉa
2,9 ng/mL (opseg 1,6-20,5) i nepušaĉa 2,6 ng/mL (opseg 2,0-5,9). IzmeĊu pušaĉa, pasivnih
pušaĉa i nepušaĉa postoji statistiĉki znaĉajna razlika medijana kotinina (hi-kvadrat=68.3, DF=2,
p<0.001)

Razlika medijana kotinina je statistiĉki znaĉajna izmeĊu Pušaĉa i Pasivnih pušaĉa (p<0.001), kao
i izmeĊu Pušaĉa i Nepušaĉa (p <0.001), ali nije statistiĉki znaĉajna izmeĊu Pasivnih pušaĉa i
Nepušaĉa (p = 0.700).

Pitanje 1. Kruskal-Wallis testom:

Testira se hipoteza o jednakosti raspodele ili jednakost medijana dve ili više populacija

Testira se hipoteza o jednakosti aritmetiĉkih sredina dve ili više populacija

BAZA PODATAKA 4, JE POVEZANA SA TEMOM 5.


Lekcija 6
I Cochran Q test

Cochran Q test predstavlja proširenje McNemarovog testa i koristi se kada se ispituje uticaj
jednog eksperimentalnog faktora na rezultujuće obeleţje dihotomnog karaktera u dizajnu
blokova ili ponovljenih merenja. Testira nultu hipotezu o jednakosti tri ili više skupova
frekvencija.

Test statistika se izraĉunava po formuli:

gde je a broj gradacija faktora, b broj blokova ili ispitanika, G sume unutar gradacija, B sume
unutar blokova ili ispitanika. Ova statistika se raspodeljuje pribliţno po Hi-kvadrat raspodeli sa
a-1 stepeni slobode.

Za multipla poreĊenja nakon Cochran Q testa moţe se koristiti McNemarov test.

Primer. Za grupu ispitanika prikupljeni su podaci o pojavi ekstrasistola pre, jedan i dva meseca
meseca posle zapoĉete terapije. Cilj istraţivanja bio je da se ispita da li je došlo do promene
uĉestalosti ekstrasistola u posmatranom periodu.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Aritmije 3.xlsx

Cochran Q test se izvodi se klikom na liniji sa komandama: Statistical analysis→Discerete


variables→Compare proportions of more than two paired samples (Cochran Q test)
o u okviru polja Pick 2 or more paired binary variables oznaĉiti 2 ili više varijabli
koje moraju da budu dihotomne
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

U sluĉaju da je p>0.05 treba doneti zakljuĉak da ne postoji statistiĉki znaĉajna razlika uĉestalosti
ispitivane pojave u razliĉitim vremenima. Ako je p≤0.05, razlike uĉestalosti su statistiĉki
znaĉajne, i u tom sluĉaju primenom McNemarovog testa utvrditi izmeĊu kojih vremena postoji
statistiĉki znaĉajna razlika uĉestalosti.
U našem primeru je p<0.001, pa zakljuĉujemo da se vremena statistiĉki znaĉajno razlikuju prema
uĉestalosti ekstrasistola. Primenjujemo McNemarov test za testiranje razlika parova vremena
prema proceduri koja je opisana ranije: Statistical analysis→Discerete variables→Compare
proportions of two paired samples (McNemar test)
3) Procenat ispitanika sa ekstrasistolama pre poĉetka terapije, i posle terapije moţe se dobiti
klikom na liniji sa komandama: Statistical analisys→Discrete variables→Frequency
distributions.

4) Zaključak: U posmatranom periodu došlo je do statistiĉki znaĉajne promene uĉestalosti


ekstrasistola (hi-kvadrat = 27.6, DF=2, p < 0.001). Uĉestalost ekstrasistola je znaĉajno manja
nakon prvog meseca terapije (p=0.001) kao i nakon drugog meseca terapije (p<0.001), dok se
uĉestalost ekstrasistola ne razlikuje izmeĊu prvog i drugog meseca (p=0.096).
Cochran Q test predstavlja proširenje:

Wilcoxonovog testa ekvivalentnih parova

Hi-kvadrat testa

T-testa za zavisne uzorke

McNemarovog testa

II Friedmanov test

Friedmanov test predstavlja proširenje Wilcoxonovog testa ekvivalentnih parova i koristi se


kada pretpostavke za primenu ANOVAe nisu ispunjene uz prisustvo drugog kriterijuma za
klasifikaciju (drugi faktor - blok, ispitanici). Fridmanova dvosmerna analiza varijanse sa
rangovima koristi se pri ispitivanju uticaja jednog eksperimentalnog faktora na rezultujuće
obeleţje mereno ordinalnom ili višom skalom u dizajnu bloka ili ponovljenih merenja.

Test statistika se izraĉunava po formuli:

gde je b broj blokova ili ispitanika u dizajnu ponovljenih merenja, a broj nivoa/gradacija
eksperimentalnog faktora, a R suma rangova unutar svake gradacije. Procedura se sastoji od
rangiranja podataka unutar ponovljenih merenja odnosno blokova.

Test statistika se raspodeljuje po Hi-kvadrat raspodeli sa a-1 stepeni slobode.

Fridmanov test testira nultu hipotezu o poreklu a uzoraka is iste populacije tj. da nema razlike u
proseĉnim rangovima izmeĊu a gradacija faktora.

Za multipla poreĊenja nakon Friedmanovog testa se moţe koristiti Wilcoxonov test.


Primer: U lekciji o Wilcoxonovom testu ekvivalentnih parova, u primeru 1, za svakog ispitanika
bio je dat par podataka za Lp(a): pre poĉetka terapije i mesec dana posle. Sada je ukljuĉeno i
treće merenje dva meseca posle poĉetka terapije. Cilj istraţivanja bio je da se ispita da li je došlo
do promene Lp(a) u posmatranom periodu.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Aritmije 3.xlsx

2) Deskripcija podataka moţe se uraditi na sledeći naĉin: Original


menu→Statistics→Summaries→Numerical summaries

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3) Friedmanov test izvodi se klikom na liniju sa komandama: Statistical


analysis→Nonparametric tests→Friedman test
o u okviru polja Repeated-Measures Variables (pick two or more) odabrati varijable
koje se odnose na ponovljena merenja
o ĉekirati polje Pairwise comparison (Holm) za post hoc testiranje izmeĊu kojih
merenja postoji statistiĉki znaĉajna razlika
o kliknuti na dugme OK.

4) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

U sluĉaju da je p>0.05 treba doneti zakljuĉak da se vremena ne razlikuju statistiĉki znaĉajno


prema intenzitetu pojave od interesa. Ako je p≤0.05, razlike su statistiĉki znaĉajne, i u tom
sluĉaju primenom Wilcoxonovog testa ekvivalentnih parova utvrditi izmeĊu kojih vremena
postoji statistiĉki znaĉajna razlika.

U našem primeru je p<0.001, pa zakljuĉujemo da se vremena statistiĉki znaĉajno razlikuju prema


nivou Lp(a). EZR je izraĉunao i Wilcoxonov test ekvivalentnih parova sa korekcijom po Holmu
za sve parove merenja.

U tabeli Pairwise comparisons using Wilcoxon signed rank test prikazane su zaĉajnosti razlika
medijana izmeĊu merenja sa korekcijom po Holmu.
5) Zaključak: Medijana vrednosti Lp(a) pre poĉetka terapije iznosila je 17 mg/dL (opseg 9-57),
mesec dana posle terapije 11 mg/dL (opseg 5-41), i dva meseca posle terapije 9 mg/dL (opseg 5 -
32). U posmatranom periodu došlo je do statistiĉki znaĉajnih promena Lp(a) (Hi-kvadrat =
54.358, DF=2, p < 0.001). Razlika je statistiĉki znaĉajna izmeĊu svih posmatranih vremena
prema Lp(a).

TEMA 6- BAZA PODATAKA 5.

Friedmanov test predstavlja proširenje:

Hi-kvadrat testa
McNemarovog testa
Wilcoxonovog testa ekvivalentnih parova
T-testa za zavisne uzorke
Lekcija 7
Kontrola pridruţenosti stratifikacijom
Pridruženost (confounding)

Pridruţenost je izmenjena povezanost ispitivanog prediktora i ishoda, kada se ispitivane grupe


razlikuju prema nekoj drugoj varijabli. Ta druga, pridruţena varijabla (kovarijata = kontrolna
varijabla, kovarijabla, konkomitantna varijabla, “konfaunder”, “confounding variate”,
“extraneous variable”), nije deo glavnog cilja istraţivanja, ali je povezana i sa ishodom i sa
ispitivanim prediktorom.

Pridruţenost je uvek prisutna u izvesnoj meri u opservacionim studijama i kliniĉkim ogledima


kada grupe nisu formirane randomizacijom već su formirane same po sebi, npr. pacijenti koji su
primili odreĊeni tretman na osnovu nekog kriterijuma.

Pridruţenost se moţe kontrolisati ili izborom odgovarajućeg dizajna istraţivanja (randomizacija,


meĉovanje, restrikcija) ili statistiĉkim metodama (stratifikacija, ANCOVA, regresioni modeli).

Stratifikacija

Stratifikacija je postupak ispitivanja povezanosti potencijalnog prediktora i ishoda na razliĉitim


nivoima (stratumima) potencijalne pridruţene varijable.

Porede se ocene povezanosti dobijene na totalnom uzorku sa ocenama povezanosti na nivou


stratuma.

Ocene povezanosti (RR, OR) mogu biti:

 „Sirove“, „Unadjusted“ - dobijene na totalnom uzorku


 „PrilagoĊene“, „Adjusted“ - dobijene na nivou stratuma

Stratifikacija - postupak

1) Oceniti povezanost na totalnom uzorku (sirovi RR ili OR)

2) Ispitati povezanost potencijalne pridruţene varijable sa ishodom i ispitivanim prediktorom.

a) Ako je naĊena povezanost pridruţene varijable i sa ishodom i sa ispitivanim prediktorom,


pristupiti stratifikaciji

b) Ako nije naĊena povezanost pridruţene varijable i sa ishodom i sa ispitivanim


prediktorom, stratifikacija nije potrebna

3) Ako se „sirove“ ocene ne razlikuju od „prilagoĊenih“, nema uticaja pridruţene varijable –


moţe se prihvatiti „sirova“ ocena. Ako razlika postoji u relativnom iznosu od 10% ili više, to
ukazuje na uticaj pridruţene varijable i treba saopštiti mere povezanosti na nivou stratuma.
Ako pridruţenost postoji, za testiranje povezanosti ishoda i ispitivanog prediktora na osnovu
stratifikovanih podataka moţe se upotrebiti Mantel-Haenszel test.

Primer 1. kada je naĊen uticaj pridruţene varijable i kada su na kraju prihvaćeni i prezentovani
rezultati na nivou stratuma pridruţene varijable: U istraţivanju, dizajniranom po tipu studije
preseka, cilj je bio ocena povezanosti konzumiranja umerenih koliĉina alkohola i osteoporoze u
starosnoj dobi 60-65 godina.

Procedura u EZR:
1) Preuzeti bazu podataka Alkohol i osteoporoza.xlsx i uĉitati je u EZR pod imenom
Alkohol_Osteoporoza

2) U prvom koraku analizira se povezanost varijabli od interesa, osteoporoze i konzumiranja


alkohola. To se postiţe primenom Hi-kvadrat testa: Statistical analysis→Discerete
variables→Create two-way table and compare two proportions (Fisher`s exact test)
U dijalog prozoru koji se otvorio:
o u okviru polja Row variable (pick one or more): odabrati varijablu koja će
definisati redove u tabeli kontingencije
o u okviru polja Column variable (pick one): odabrati varijablu koja će definisati
kolone u tabeli kontingencije
o u delu Compute Percentages oznaĉiti Row percentages za izraĉunavanje
procenata po redovima
o u delu Hypothesis Tests:
 ĉekirati polje Chi-square test za izraĉunavanje Hi-kvadrat testa
 ĉekirati polje Print expected frequencies za izraĉunavanje oĉekivanih
uĉestalosti
 u delu Continuity correction of chi-square test: oznaĉiti No
 kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


Na osnovu hi-kvadrat testa moţe se zakljuĉiti da postoji povezanost umerenog konzumiranja
alkohola i osteoporoze (Hi-kvadrat = 7.992, p = 0.005), i da osobe koje ne konzumiraju alkohol
imaju 1.39 puta veću šansu (OR = 219x627 / 188x527) da obole od osteoporoze.

Pre prihvatanja ovakvog zakljuĉka treba proveriti mogući uticaj drugih varijabli u istraţivanju.
Na osnovu prethodnih istraţivanja poznato je da postoji povezanost pola i osteoporoze, odnosno
da je osteoporoza uĉestalija u ţenskoj populaciji.

3) U aktuelnom istraţivanju, primenom Hi-kvadrat testa, naĊeno je da je konzumiranje alkohola


uĉestalije kod osoba muškog pola (Hi-kvadrat = 373.6, p < 0.001).

4) Osim toga, naĊeno je da je osteoporoza uĉestalija kod osoba ţenskog pola (Hi-kvadrat = 31.3,
p < 0.001).
NaĊena je povezanost varijable pol i sa potencijalnim prediktorom u ovom istraţivanju (umereno
konzumiranje alkohola) i sa ishodom (osteporoza), što ukazuje na moguću pridruţenost varijable
pol. Zbog toge će biti uraĊena analiza po stratumima ove varijable, odnosno posebno za osobe
muškog pola i posebno za osobe ţenskog pola:

5) Analiza povezanosti u stratumu muškog pola:

a. prema uputstvu u dokumentu EZR Rad sa podskupom sluĉajeva iz baze podataka, na


osnovu varijable Pol izdvojiti stratum (podskup sluĉajeva) muškog pola: Active data
set→Rows→Create subset data set
U dijalog prozoru koji se otvorio:

o u polju Condition to extract samples ukucati: Pol=="Muski"


o u polju Name for new data set ukucati naziv za novokreiranog stratuma Muski
o kliknuti na dugme OK

b. primenom Hi-kvadrat testa analizirati povezanost konzumiranja alkohola i osteoporoze u


stratumu muškog pola.
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

Kod osoba muškog pola nije naĊena povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.007, p = 0.934, OR = 1.017).

6) Analiza povezanosti u stratumu ţenskog pola:

Identiĉnom procedurom kao za muški pol izdvojiti stratum ţenskog pola.


Stratum ţenskog pola izdvaja se iz osnovne baze podataka Alkohol i osteoporoza koja je uĉitana
pod nazivom Alkohol_Osteoporoza pa je potrebno prvo da se ona oznaĉi kao aktivna.

To se postiţe klikom na naziv trenutno aktivne baze podataka Muski

U dijalog prozoru koji se otvorio

o oznaĉiti bazu Alkohol_Osteoporoza


o kliknuti na dugme OK

Identiĉnom procedurom kao za muški pol analizirati povezanost konzumacije alkohola i


osteoporoze primenom Hi-kvadrat testa.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

Kod osoba ţenskog pola nije naĊena povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.005, p = 0.945, OR = 1.012).

Razlika izmeĊu povezanosti koja je naĊena na nivou ĉitavog uzorka (p = 0.005, OR = 1.39) i
povezanosti na nivou specifiĉnih stratuma (muški pol: p = 0.934, OR = 1.017, ţenski pol: p =
0.945, OR = 1.012) ukazuje da pol ima uticaj pridruţene varijable, i da ne postoji povezanost
umerenog konzumiranja alkohola i osteoporoze.

7) Za ovako stratifikovane podatke povezanost se moţe testirati primenom Mantel-Haenszel


testa.
Obratiti paţnju da se analiza radi na osnovu kompletne baze podataka Alkohol_Osteopoproza i
da ona treba da bude aktivna što se proverava na traci sa alatima

Mantel-Haenszel test izvodi se klikom na liniju sa komandama: Statistical analysis→Matched-


pair analysis→Mantel-Haenzel test for matched proportions

U dijalog prozoru koji se otvorio

o u polju Grouping variable (control=0, case=1) (pick one) odabrati grupišuću


varijablu
o u polju Binary response variable (pick at least one) odabrati ishodnu varijablu
o u polju Stratifying variable for matching (pairpatch) odabrati varijablu koja
definiše stratume
o u delu Continuity correction of chi-square test: oznaĉiti No
o kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

8) Zakljuĉak i prezentacija rezultata:

Tabela br 1: Raspodela ispitanika prema osteoporozi, umerenom konzumiranju alkohola i


polu

Kod osoba muškog pola ne postoji povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.007, p = 0.934, OR = 1.017).

Kod osoba ţenskog pola nije naĊena povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.005, p = 0.945, OR = 1.012)

Sveukupno, na osnovu stratifikovanih podataka po varijabli pol, ne postoji povezanost umerenog


konzumiranja alkohola i osteoporoze (Mantel-Haenszel hi-kvadrat = 0.011, p = 0.915).
Primer 2 kada nije naĊen uticaj pridruţene varijable: rezultate je dovoljno prezentovani na nivou
totalnog uzorka. U istraţivanju, dizajniranom po tipu sluĉaj-kontrola, cilj je bio ocena
povezanosti postoperativnih komplikacija i tipa primenjene hirurške tehnike oznaĉenih kao A i
B. Podaci su dati u fajlu Postoperativne komplikacije.xlsx .

Postoji povezanost tipa operacije i pojave postoperativnih komplikacija (Hi-kvadrat = 9.13, p =


0.003). Ispitanici podvrgnuti tipu A hirurškog zahvata imaju 2.16 puta veću šansu pojave
postoperativnih komplikacija.

Pre prihvatanja ovakvog zakljuĉka istraţivaĉi su ţeleli da provere da li je prisustvo


komorbiditeta faktor koji je pravi uzrok razlike uĉestalosti komplikacija izmeĊu tipa A i tipa B
operativnog zahvata. U tu svrhu ispitana je povezanost komorbiditeta sa ispitivanim prediktorom
(tip operacije) i ishodom (pojava komplikacija):

 Nije naĊena povezanost komorbiditeta i pojave komplikacija (Hi-kvadrat = 0.14, p =


0.71).
 Nije naĊena povezanost komorbiditeta i tipa operacije (Hi-kvadrat = 0.63, p = 0.43).

Ovo ukazuje da komorbidit ne ispoljava uticaj pridruţene varijable na odnos tipa operacije i
pojave komplikacija (jer pridruţena varijabla mora biti povezana kako sa prediktorom tako i sa
ishodom). Istraţivaĉ se moţe zadrţati na prikazivanju rezultata na nivou totalnog uzorka, kao i
zakljuĉka koji je gore već bio prikazan:

Tabela br 2: Raspodela ispitanika prema tipu operacije i pojavi komplikacija


Postoji povezanost tipa operacije i pojave postoperativnih komplikacija (Hi-kvadrat = 9.13, p =
0.003). Ispitanici podvrgnuti tipu A hirurškog zahvata imaju 2.16 puta veću šansu pojave
postoperativnih komplikacija.

Grafikon br 2: Raspodela ispitanika prema komorbiditetima, tipu operacije i pojavi komplikacija

I pored toga što u prethodnoj analizi rezultati ne ukazuju na postojanje pridruţenosti od strane
varijable starost, istraţivaĉ moţe da rezultate prikaţe i po stratumima ĉime bi eventualno bila
otkrivena interakcija.

Pitanje 1. U opservacionim studijama pridruţenost:

je uvek prisutna u izvesnoj meri


nikada nije prisutna
Pitanje 2. Pridruţena varijabla:

nije deo glavnog cilja istraţivanja


deo je glavnog cilja istraţivanja
Lekcija 8
Projektni zadatak 2
Lekcija 9
Korelacija
Povezanost (asocijacija, zavisnost) dve varijable podrazumeva da su promene vrednosti jedne
varijable praćene promenom vrednosti druge varijable.

Primer 1: Kod obolelih od hroniĉne bubreţne insuficijencije postoji povezanost vrednosti


kreatinina i ureje u serumu. Veće vrednosti kreatinina nalaze se kod obolelih koji
istovremeno imaju i veće vrednosti ureje u serumu, i obrnuto, manje vrednosti kreatinina
nalaze se kod obolelih koji istovremeno imaju i manje vrednosti ureje.

Primer 2: Postoji povezanost zasićenja arterijske krvi kiseonikom i koncentracije


hemoglobina. Smanjeno zasićenje arterijske krvi kiseonikom, npr. usled duţeg boravka na
velikim nadmorskim visinama, povezano je sa većim vrednostima hemoglobina, i obrnuto,
veće zasićenje arterijske krvi kiseonikom povezano je sa manjim vrednostima hemoglobina.

Povezanost se uoĉava grafiĉkim metodom, a numeriĉkim metodama je merimo, ispitujemo i


dokazujemo.

Tri karakteristike povezanosti koje treba ispitati:

Smer:

 Pozitivan (+)
 Negativan (-)

Stepen/jačina povezanosti

 IzmeĊu -1 i 1 (Apsolutna vrednost oznaĉava jaĉinu)

Oblik/ forma/ funkcija

 Linearan
 Nelinearan

Povezanost moţe imati pozitivan ili negativan smer. U primeru 1, povezanost je pozitvna jer su
veće vrednosti jedne varijable povezane sa većim vrednostima druge varijable. U primeru 2,
povezanost je negativna, jer su veće vrednosti jedne varijable povezane sa manjim vrednostima
druge varijable.

Povezanost ne podrazumeva obavezno postojanje kauzalnih odnosa izmeĊu dve varijable, u


smislu da je jedna varijabla uzrok, a druga varijabla posledica. U primeru 1 izmeĊu ureje i
kreatinina ne postoji kauzalan odnos (vrednost jedne materije ne utiĉu na drugu, i obrnuto), već
koncentracije obe ispitivane materije u plazmi zavise od niza drugih varijabli kao što su stopa
glomerularne filtracije, unos proteinske hrane itd. U primeru 2 izmeĊu dve varijable postoji
kauzalan odnos jer smanjenje zasićenja arterijske krvi kiseonikom dovodi do povećanog
stvaranja eritropoetina i do povećanja koncentracije hemoglobina..

Pitanje 1: Ispitivana je povezanost sedimentacije eritrocita i broja leukocita u krvi kod ispitanika
sa infektivnim sindromom. NaĊeno je da je povećana sedimentacija povezana sa povećanjem
broja leukocita. O kakvoj povezanosti se radi?

Negativna povezanost
Pozitivna povezanost

Otkrivanje povezanosti grafičkom metodom

Dijagram rasturanja je taĉkasti grafikon koji koristimo za otkrivanje povezanosti dve varijable.
Dobija se tako što se, za sve jedinice iz uzorka, vrednosti dve varijable nanose na x i y osu. Svaka
jedinica iz uzorka predstavljena je jednom taĉkom ĉiji poloţaj odgovara preseku parova
vrednosti dve varijable.

Primer 3: Za sedam ispitanika date su vrednosti ureje i kretinina:

Redni broj Ureja (mmol/L) Kreatinin (μmol/L)


1 27 280
2 29 320
3 16 210
4 18 175
5 20 270
6 23 250
7 22 260

Napraviti dijagram rasturanja u kome će se vrednosti ureje naneti na x osu, a vrednosti kreatinina
na y osu.

Procedura u EZR:
1) Formirati bazu podataka u Excel programu gde će se u prvom redu uneti nazivi varijabli (urea
i kreatinin) a u prvoj koloni redni broj jedinice posmatranja. Svaki sledeći red se odnosi na
jedinicu posmatranja.

2) Dijagram rasturanja moţe se dobiti odabirom sledećih komandi: Graphs and


tables→Scatterplot.
U dijalog prozoru koji se pojavio:

 u okviru polja x-variable (pick one) odabrati varijablu koja ide na x osu.
 u okviru polja y-variable (pick one) odabrati varijablu koja ide na y osu.
 u delu Options odĉekirati sva polja

3) U novom prozoru prikazan je dijagram rasturanja varijabli urea i kreatinin.


Primer 4: Za sedam ispitanika data su zasićenja arterijske krvi kiseonikom i koncentracije
hemoglobina u krvi:

Redni broj SaO2 (%) Hemoglobin (g/L)


1 90 140
2 75 195
3 80 165
4 95 170
5 83 175
6 70 210
7 92 160
Napraviti dijagram rasturanja u kome će se vrednosti SaO2 naneti na x osu, a vrednosti
hemoglobina na y osu.
Primer 5: Za sedam ispitanika date su vrednosti vitamina A i E u serumu:

Redni broj Vitamin C (μmol/L) Vitamin E (μmol/L)


1 77 28
2 95 24
3 57 16
4 85 18
5 46 26
6 67 26
7 78 22

Napraviti dijagram rasturanja u kome će se vrednosti vitamina C naneti na x osu, a vrednosti


vitamina E na y osu.

Pitanje 2: Svaka taĉka na diagramu rasturanja predstavlja:

zbir vrednosti x varijable


pojedinaĉnu statistiĉku jedinicu koja nosi podatke o vrednostima dve varijable (x i y)
zbir vrednosti y varijable
PoreĎenje dijagrama rasturanja

Dijagrami rasturanja u primerima 3 do 5 nam otkrivaju:

1. Pozitivnu povezanost ureje i kreatinina


2. Negativnu povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u
krvi
3. Odsustva povezanosti vrednosti vitamina C i vitamina E u serumu

Dijagram rasturanja takoĊe moţe ukazati na linearnost ili nelinearnost povezanosti dve varijable.
Linearna povezanost podrazumeva grupisanje taĉaka na dijagramu rasturanja oko prave linije
kao što je to prikazano na grafikonu 1. Nelinearna povezanost podrazumeva odstupanje od
linearne povezanosti kao što je to npr. prikazano na grafikonu 2.

Grafikon 1. Primer dijagrama rasturanja za linearnu povezanost dve varijable

Grafikon 2. Primer dijagrama rasturanja za nelinearnu povezanost dve varijable


Korelacija
Korelacija je statistiĉki metod koji se koristi za merenje jaĉine i smera povezanosti izmeĊu
varijabli.

Koeficijent korelacije je statistika koja kvantifikuje jaĉinu (stepen) povezanosti meĊu


varijablama.

Vrednosti koeficijenta korelacije mogu biti u rasponu od -1 do 1. Predznak koeficijenta


korelacije pokazuje smer povezanosti: vrednosti od -1 do 0 postoje kod negativne povezanosti, a
vrednosti od 0 do 1 kod pozitivne povezanosti. Vrednosti koje su bliske 0 ukazuju na odsustvo
povezanosti.

Koeficijenti korelacije:

 Pearsonov koeficjent korelacije (r) i


 Spearmanov koeficijent korelacije ranga (ρ).

Pearsonovim koeficijentom korelacije (koeficijent linearne korelacije) merimo linearnu


povezanost dve varijable.

Varijable oznaĉene kao x i y mogu zameniti mesta bez uticaja na vrednost koeficijenta
korelacije. Linearna povezanost podrazumeva da će se na dijagramu rasturanja taĉke grupisati
oko prave linije.

Osim linearnosti odnosa, preduslovi za primenu Pearsonovog koeficijenta korelacije su da obe


varijable moraju biti numeriĉke kontinuirane i da imaju normalnu raspodelu.

Statistiĉka znaĉajnost koeficijenta korelacije testira se t testom. Nulta hipoteza je da se ρ ne


razlikuje od 0 (H0:ρ=0), odnosno da je korelacija u populaciji jednaka nuli. Odbacivanjem nulte
hipoteze zakljuĉujemo da je korelacija dve varijable statistiĉki znaĉajna.

Pitanje 3: Dati su podaci o telesnoj masi i telesnoj visini. Podaci imaju normalnu raspodelu, a na
dijagramu rasturanja ukazuju na linearnu povezanost. Da li je moguće primeniti Pearsonov
koeficijent korelacije?

Da
Ne

Objašnjenje: povezanost je linearna, a posmatrane varijable su numeriĉke kontinuirane i imaju


noramlnu raspodelu.
Pitanje 4: Da li je za podatke prikazane na dijagramu rasturanja na grafikonu 2 moguće
primeniti Pearsonov koeficijent korelacije?

Ne
Da

Objašnjenje: povezanost nije linearna.

Spearmanov koeficijent korelacije rangova je neparametarski metod baziran na rangovima, i


primenjuje se kada:

 odnos izmeĊu varijabli nije linearan,


 najmanje jedna varijabla nema normalnu raspodelu, ili
 najmanje za jednu varijablu podaci su ordinalni ili su dati u vidu rangova.

Statistiĉka znaĉajnost koeficijenta korelacije rangova testira se t testom. Nulta hipoteza je da


se ρs ne razlikuje od 0 (H0: ρs=0).

Pitanje 5: Da li je za ispitivanje povezanosti starosti ispitanika i zadovoljstva zdravstvenom


zaštitom ispravno primeniti Pearsonov ili Spearmanov koeficjent korelacije? Zadovoljstvo
zdravstvenom zaštitom mereno je primenom petostepene skale: od potpunog nezadovoljstva
(vrednost 0) do potpunog zadovoljstva (vrednost 4).

Pearsonov koeficijent korelacije


Spearmanov koeficijent korelacije

Objašnjenje: Zadovoljstvo zdravstvenom zaštitom mereno je na ordinalnoj skali.


Statistiĉka znaĉajnost koeficijenta korelacije testira se t testom. Ako koeficijent korelacije
nije statistiĉki znaĉajan (p>0.05) moţe se zakljuĉiti da izmeĊu varijabli nema povezanosti. Ako
je koeficijent korelacije statistiĉki znaĉajan (p≤0.05) moţe se zakljuĉiti da izmeĊu varijabli
postoji povezanost (zavisnost, asocijacija), i moţe se interpretirati njegova vrednost u smislu
smera i jaĉine povezanosti varijabli za koje je koeficijent korelacije i izraĉunat. Jedan od
predloţenih naĉina za opisivanje jaĉine povezanosti dve varijable na osnovu vrednosti
koeficijenta korelacije je sledeći:

Pitanje 6: Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija vaskularne


permeabilnosti i perfuzionog pritiska iznosila je -0.11 (p=0.73)«

Postoji slaba negativna povezanost


Ne postoji povezanost
Postoji osrednja pozitivna povezanost

Objašnjenje: Ne postoji povezanost jer je p>0,05

Pitanje 7: Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija koţnog prick testa
i radioallergosorbent testa iznosila je 0.41 (p=0.02)«

Postoji osrednja pozitivna povezanost


Ne postoji povezanost
Postoji slaba negativna povezanost

Primer 6

Primer 6: Za podatke iz primera 3 ispitati povezanost vrednosti ureje i kretinina.


Procedura u EZR:
1) Proveriti normalnost raspodele obe varijable prema uputstvu navedenom u prethodnim
lekcijama.

2) Podaci su homogeni, CVurea=21,1% i CVkreatinin=18,8%, pa se moţe primeniti Pearsonov


koeficijent linearne korelacije, što se postiţe preko sledeće komande:

Statistical analysis→Continuous variables→Test for Pearson`s correlation

U dijalog prozoru koji se otvorio:


 u okviru polja Variables (pick two) oznaĉiti varijable ĉiju povezanost ţelimo da ispitamo.
Za oznaĉavanje više varijabli odjednom drţati pritisnut taster Ctrl na tastaturi i
istovremeno kliknuti na ţeljene varijable.
 kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

Zaključak: Postoji statistiĉki znaĉajna jaka pozitivna povezanost ureje i kreatinina u serumu (r =
0.856; p = 0.014).

Primer 7

Primer 7: Za deset bolesnika dati su skorovi na skali depresivnosti i vrednosti sistolne arterijske
tenzije (mmHg). Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo
znaĉajnosti 0.05.

Redni broj Skor depresivnosti Sistolna TA (mmHg)


1 23 139
2 19 109
3 26 113
4 23 128
5 19 124
6 17 105
7 23 116
8 26 135
9 20 120
10 19 124
.
Procedura u EZR:
1.Formirati bazu podataka u Excel programu i uĉitati je u EZR.

2.Pošto se depresivnost meri Hamiltonovom skalom za ocenu depresivnosti za analizu


povezanosti koristiće se Spearmanov koeficijent korelacije ranga, što se postiţe pomoću
komande: Statistical analysis→Nonparametric tests→Spearman`s rank correlation test

U dijalog prozoru koji se otvorio:

 u okviru polja Variables (pick two) oznaĉiti varijable ĉiju povezanost ţelimo da ispitamo.
Za oznaĉavanje više varijabli odjednom drţati pritisnut taster Ctrl na tastaturi i
istovremeno kliknuti na ţeljene varijable.
 u okviru polja Method treba da bude ĉekirano Spearman
 kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


Zaključak: Ne postoji statistiĉki znaĉajna povezanost depresije i sistolne arterijske tenzije (rs =
0,456; p = 0,185).
Lekcija 10
I Linearna regresija

Regresiona analiza ispituje odnos izmeĊu zavisne varijable (Y) i barem jedne nezavine varijable
(X). Opšti oblik regresionog modela predstavljen je regresionom funkcijom f izmeĊu bar dve
varijable y = f(x)

Regresioni metod omogućuje ispitivanje smera i oblika povezanosti bar dve varijable.

Poznavanje oblika povezanosti sluţi definisanju kvantitativnog zakona povezanosti (koliko i u


kom smeru se menja jedna tj. zavisna varijabla, kada se menja druga, treća, ... n-ta nezavisna
varijabla). Kvantitativni zakon povezanosti je reprezentovan matematiĉkim modelom
(regresionim modelom) tj. regresionom jednačinom.

Ĉetiri koraka u gradnji regresionog modela su:

1. Ispunjenost pretpostavki za korišćenje odreĊenog modela


2. Izraĉunavanje parametara modela i njihova interpretacija
3. Slaganje modela sa postojećim skupom podataka
4. Validacija modela

Najĉešći istraţivaĉki ciljevi koji se mogu realizovati metodom regresione analize su:

1. Ispitivanje kauzalnosti - utvrĊena povezanost ne znaĉi i nuţnu kauzalnost


2. Deskripcija nauĉnih zakona - modelovanje je metod kojim se moţe u izvesnoj meri
opisati neki biološki fenomen
3. PredviĊanje - nalaţenje oĉekivanih vrednosti zavisne y za date vrednosti nezavisne x.
Ovo je najĉešći naĉin upotrebe regresione analize u primenjenim medicinskim
istraţivanjima.
4. Statistiĉka kontrola - kontrola pridruţenog/ih faktora
5. PoreĊenje zavisnih varijabiliteta - predstavlja poreĊenje bar dve regresione jednaĉine
najĉešće standardizovanjem zavisne varijable
6. Zamena varijabli - ĉesto se primenjuje kada je zavisna varijabla teško merljiva ili se za
njeno merenje troše znatni resursi.

Pitanje: Regresiona analiza ispituje odnos izmeĊu:

1. Iskljuĉivo jedne zavisne i jedne nezavisne varijable.

2. Više zavisnih varijabli.

3. Jedne zavisne i barem jedne nezavisne varijable.

4. Više nezavisnih varijabli.


Jednostruka linearna regresija

Ako se za dve varijable pretpostavlja linearan odnos radi se o lineranom regresionom modelu,
a regresiona jednaĉina bi imala oblik y = a + bx

gde je y zavisna varijabla, a je regresiona konstanta, b je regresioni koeficijent, a x je nezavisna


varijabla.

Ĉetiri koraka u gradnji linearnog regresionog modela:

1. Ispunjenost pretpostavki

o Normalnost - subpopulacije zavisne varijable (Y) su normalno raspodeljene za


svaku vrednost nezavisne varijable (X)
o Linearnost - aritmetiĉke sredine subpopulacija zavisne varijable (Y) leţe na
pravoj liniji
o Nezavisnost - vrednosti zavisne varijable (Y) iz uzorka za jednu vrednost
nezavisne (X) ni na koji naĉin ne zavise od vrednosti Y dobijene za neku drugu
vrednost varijable X
o Jednakost varijansi - varijanse subpopulacija zavisne varijable (Y) su meĊu
sobom jednake.

2. Izraĉunavanje parametara modela i njihova interpretacija


Regresiona konstanta a predstavlja vrednost zavisne varijable Y za X=0 i predstavlja taĉku u
kojoj regresiona linija seĉe y osu. Regresioni koeficijent b predstavlja vrednost za koju se
zavisna varijabla (Y) promeni za jediniĉnu promenu nezavisne varijable.

Slika. Regresioni koeficijent b i regresiona konstanta a


3. Slaganje modela sa postojećim skupom podataka

 testiranje nagiba
 odreĊivanje koeficijenta determinacije (r2) - predstavlja kvadrat Pirsonovog
koeficijenta linearne korelacije. Moţe imati vrednosti od 0 do 1 tj. od 0 do 100%.
Predstavlja procenat variranja zavisne varijable koji moţe biti objašnjen variranjem
nezavisne varijable.

4. Validacija modela - rešava problem precenjivanja (mogućnost dobijanja visoko znaĉajnih ali
besmislenih rezultata zbog previše velikog broja prediktora u modelu). Validacija moţe biti:
interna kada se model validira na postojećem skupu podataka i eksterna kada se model validira
na potpuno novom skupu podataka.

Pitanje: Odaberi taĉne odgovore.

Regresioni koeficijent b predstavlja: vrednost za koju se zavisna varijabla (Y) promeni za


jediniĉnu promenu nezavisne varijable.

Regresiona konstata a predstavlja: vrednost zavisne varijable Y za X=0 I predstavlja taĉku u


kojoj regresiona linija seĉe y osu.

TUMAČENJE REGRESIONOG KOEFICIJENTA b

 Primer 1: Ispitivana je povezanost obima struka (cm) i nivoa glikemije u krvi (mmol/L)
kod osoba obolelih od dijabetes melitusa, pri ĉemu je zavisna varijabla bila nivo
glikemije, a nezavisna varijabla obim struka.

Dobijena je regresiona jednaĉina y=−4,61+0,13∗xy=−4,61+0,13∗x

Koliki se nivo glikemije u krvi oĉekuje za obim struka od 80 cm?

Oĉekivana vrednost glikemije u krvi za obim struka od 80 cm iznosi 5,79 mmol/L.

Koliki se nivo glikemije u krvi oĉekuje za obim struka od 81 cm?

Oĉekivana vrednost glikemije u krvi za obim struka od 81 cm iznosi 5,92 mmol/L.

Koliki se nivo glikemije u krvi oĉekuje za obim struka od 79 cm?

Oĉekivana vrednost glikemije u krvi za obim struka od 79 cm iznosi 5,66 mmol/L.


Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna
varijabla za jediniĉnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jediniĉno
povećanje obima struka (1 cm), nivo glikemije se povećao za b tj. 0,13, sa 5,79 mmol/L na 5,92
mmol/L. TakoĊe, za jediniĉno smanjenje obima struka (1 cm), nivo glikemije se smanjio za b tj.
0,13, sa 5,79 mmol/L na 5,66 mmol/L.

 Primer 2: Ispitivana je povezanost visine sistolnog arterijskog pritiska (mmHg) i broja


srĉanih otkucaja u minutu (srĉana frekvenca) kod osoba iz opšte opulacije, pri ĉemu je
zavisna varijabla bio broj srĉanih otkucaja u minutu, a nezavisna varijabla visina
sistolnog arterijskog pritiska.

Dobijena je regresiona jednaĉina y=91,48−0,16∗xy=91,48−0,16∗x

Koliki se broj srĉanih otkucaja u minutu oĉekuje za nivo sistolnog arterijskog pritiska od 128
mmHg?

Oĉekivan broj srĉanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 128 mmHg
iznosi 71.

Koliki se broj srĉanih otkucaja u minutu oĉekuje za nivo sistolnog arterijskog pritiska od 129
mmHg?

Oĉekivan broj srĉanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 129 mmHg
iznosi 70,84.

Koliki se broj srĉanih otkucaja u minutu oĉekuje za nivo sistolnog arterijskog pritiska od 127
mmHg?

Oĉekivan broj srĉanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 127 mmHg
iznosi 71,16.

Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna
varijabla za jediniĉnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jediniĉno
povećanje nivoa sistolnog arterijskog pritiska (1 mmHg), broj srĉanih otkucaja se smanjio za b tj.
0,16, sa 71 mmHg na 70,84 mmHg. TakoĊe, za jediniĉno smanjenje sistolnog arterijskog pritiska
(1 mmHg), broj srĉanih otkucaja se povećao za b tj. 0,16, sa 71 mmHg na 71,16 mmHg.
INTERPOLACIJA I EKSTRAPOLACIJA

Postoje dva naĉina predviĊanja linearnim regresionim modelima:

1. Interpolacija - korišćenje linearnog regresionog modela za predviĊanje Y za nepoznato X koje


je unutar ispitivanog opsega

2. Ekstrapolacija - korišćenje linearnog regresionog modela za predviĊanje Y za nepoznato X


koje je van ispitivanog opsega

Primer: Cilj u istraţivanju bio je da se ispita odnos gubitka telesne mase i gubitka volumena
plazme, u dehidraciji koja nastaje kao posledica teškog fiziĉkog rada i znojenja. Za 57 ispitanika
date su vrednosti gubitka telesne mase (%) i gubitka volumena plazme (%). Odnos varijabli je
analiziran regresionim modelom, pri ĉemu je za nezavisnu varijablu uzet gubitak telesne mase, a
za zavisnu varijablu gubitak volumena plazme.

Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka Plazma.xlsx

2) Prvi korak je izrada dijagrama rasturanja koji se dobija klikom na liniji sa


komandama: Graphs and tables→Scatterplot

Kod regresione analize, u dijagramu rasturanja, nezavisna varijabla se stavlja na x osu a zavisna
varijabla na y osu.

U dijalog prozoru koji se pojavio:


 u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
 u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
 u delu Options odĉekirati sva polja
 kliknuti na dugme OK

U našem primeru nezavisna varijabla je Gubitak telesne mase, a zavisna varijabla je Gubitak
volumena plazme (%).

Na dijagramu rasturanja moţe se zapaziti pozitivna povezanost ove dve varijable u dehidraciji
koja je nastala znojenjem usled fiziĉkog napora: veći gubitak telesne mase praćen je većim
gubitkom volumena plazme.

3) Provera normalnosti raspodele. Proveriti normalnost raspodele obe varijable prema uputstvu
navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost obe varijable.
4) Sledeći korak je dobijanje regresione jednaĉine, što se postiţe primenom komande: Statistical
analysis→Continuous variables→Linear regression

U dijalog prozoru koji se otvorio:

o u okviru polja Response variable (pick one) oznaĉiti zavisnu varijablu


o u okviru polja Explanatory variables (pick one or more) oznaĉiti nezavisnu
varijablu
o kliknuti na dugme OK

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.


U izlaznoj tabeli dobijamo da koeficijent determinacije iznosi 27.2% (Multiple R-squared:
0.2719), što predstavlja procenat varijabiliteta zavisne varijable koji je objašnjen modelom.

U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijenta nagiba (koeficijent b) kao i
njegovu statistiĉku znaĉajnost.

Konstanta u regresionom modelu iznosi 6.16. Koeficijent nagiba iznosi 0.86, što znaĉi da je 1
procenat gubitka telesne mase praćen sa 0.86% gubitka volumena plazme. U produţetku istog
reda nalazi se rezultat testiranja znaĉajnosti koeficijenta b.

Da bi nezavisna varijabla bila statistiĉki znaĉajan prediktor potrebno je da p bude jednako ili
manje od 0.05.

Zaključak: gubitak telesne mase je statistiĉki znaĉajan prediktor gubitka volumena plazme.
Prilikom teškog fiziĉkog rada i znojenja gubitak telesne mase od 1% praćen je gubitkom
volumena plazme od 0.86%.

Regresiona jednačina

Regresiona jednaĉina ima oblik:

Gubitak volumena plazme = 6.16 + 0.86 x Gubitak telesne mase

Prilikom izraĉunavanja regresione jednaĉine, EZR istovremeno u posebnom prozoru prikazuje i


dijagram rasturanja sa regresionom linijom:
Regresiona jednaĉina omogućava predikciju. Za zadatu vrednost gubitka telesne mase moţe se
dati predikcija gubitka volumena plazme. Na primer, za gubitak telesne mase of 3.5% oĉe–kuje
su gubitak volumena plazme od 9.17%

Gubitak volumena plazme = 6.16 + 0.86 x 3.5 = 9.17%

U regresiji je (su):

Obe varijable nezavisne


Obe varijable zavisne
Nije bitno koja varijabla je nezavisna a koja zavisna
Jedna varijabla nezavisna a druga zavisna
II Višestruka linearna regresija

Višestruki regresioni modeli

Merenja koja vršimo u prirodnim (biološkim) situacijama po pravilu su sloţeno povezana. U


pitanju su multidimenzionalne pojave opisane velikim brojem varijabli i prirodno je da te
varijable analiziramo multivarijabilnim analitiĉkim metodama sve zajedno, a ne jednu po jednu.

Multivarijantne tehnike kojima se ispituju odnosi izmeĊu dve grupe varijabli od kojih je jedna
definisana kao zavisne ili kriterijumske varijable, pripadaju grupi zavisnih metoda. One imaju za
cilj da objasne ili predvide jedno ili više kriterijumskih merenja na osnovu skupa prediktorskih
(nezavisnih) varijabli. Jedna od ovih metoda je i višestruka regresija.

Opšta formula višestrukog linearnog regresionog modela je:

gde su x1, x2, xn nezavisne (prediktivne) varijable, y zavisna (ishodna, rezultujuća)


varijabla, αα regresiona konstanta, β1 , β2, βn regresioni koeficijenti (nagibi) za svaku od
nezavisnih varijabli i ϵϵ greška.

Metoda višestruke linearne regresione analize se primenjuje kada je zavisna varijabla


kontinuirana, a nezavisne varijable u modelu mogu biti kontinuirane ili kategorijalne.

Naĉini odabira nezavisnih varijabli su:

 sve odjednom (Enter method)


 korak po korak (Stepwise) i to unapred (forward) ili unazad (backward)

Primer jednog višestrukog linearnog regresionog modela je dat u tabeli:


Evaluacija dobijenog regresionog modela podrazumeva:

1. UtvrĊivanje nivoa slaganja sa empirijskim podacima

- testiranje nagiba - nagib regresione jednaĉine ββ bi trebalo da je znaĉajno razliĉit od


nule. Ispitivanje ove hipoteze se moţe realizovati primenom analize varijanse ili primenom t
testa.
- odreĊivanje koeficijenta determinacije (r2) - više vrednosti koeficijenta determinacije
govore u prilog boljem modelu tj. većem procentu objašnjenog variranja zavisne varijable
variranjem nezavisnih varijabli iz modela.

2. UtvrĊivanje ispunjenosti pretpostavki za primenu linearnog regresionog modela - analiza


reziduala predstavlja vizuelno ispitivanje valjanosti pretpostavki za primenu linearnog
regresionog modela. To je alat za procenu da li regresiona linija dobro aproksimira sve
opservirane podatke zavisne za sve vrednosti nezavisne varijable. Rezidual je razlika izmeĊu
opservirane vrednosti zavisne varijable i njene vrednosti ocenjene linijom regresije.

Problemi sa kojima se istraţivaĉ moţe susresti u okviru formiranja višestrukih regresionih


modela:

 Kolinearnost - podrazumeva postojanje znaĉajne povezanosti izmeĊu nezavisnih varijabli


(npr. telesna masa i indeks telesne uhranjenosti). Moţe se ispitivati razliĉitim metodama
od kojih su najpoznatije: VIF metod (Variance Inflation factor), Tolerance metod,
koeficijent korelacije itd.
 Kontrola pridruţenosti - potpuna kontrola pridruţenih faktora u višestrukom regresionom
modelu prilagoĊavanjem varijabli praktiĉno nije moguća ukoliko varijable nisu merene sa
varijansom koja je jednaka nuli.
 Precenjivanje - model moţe savršeno da se slaţe sa podacima u odreĊenom uzorku, ali da
nema nikakvu prediktivnu vrednost na novom uzorku.

Pitanje: Višestruka linearna regresija se koristi kada je:

Zavisna varijabla kontinuirana, a nezavisne varijable kontinuirane ili kategorijalne.

Zavisna varijabla kontinuirana, a nezavisne varijable iskljuĉivo kategorijalne.

Zavisna varijabla dihotomna, a nezavisne varijable kontinuirane ili kategorijalne.

Zavisna varijabla kontinuirana i nezavisne varijable iskljuĉivo kontinuirane.


PRIMER: MULTIVARIJANTNA LINEARANA REGRESIJA

Primer: Na dostupnim podacima Framingamske studije iz 2014/15. godine ĉiji je cilj ispitivanje
stope incidencije i prevalencije kardiovaskularnih bolesti i njihovih faktora rizika, ispitivan je
efekat starosti i indeksa telesne uhranjenosti (BMI - body mass index) na sistolni arterijski
pritisak.

Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka Framingham_20142015.xls.

2) Prvi korak je izrada dijagrama rasturanja za svaki par nezavisne i zavisne varijable (starost -
sistolni arterijski pritisak i indeks telesne uhranjenosti - sistolni arterijski pritisak) koji se dobija
klikom na liniji sa komandama: Graphs and tables→Scatterplot

U dijalog prozoru koji se pojavio:

 u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
 u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
 u delu Options odĉekirati sva polja
 kliknuti na dugme OK

Ovaj postupak ponoviti za oba para varijabli tj. za starost i sistolni arterijski pritisak
i indeks telesne uhranjenosti i sistolni arterijski pritisak

Na dijagramu rasturanja moţe se zapaziti pozitivna povezanost izmeĊu starosti i sistolnog


arterijskog pritiska, kao i izmeĊu indeksa telesne uhranjenosti i sistolnog arterijskog pritiska. Sa
većom starošću, kao i sa većim indeksom telesne uhranjenosti, povećava se i sistolni arterijski
pritisak.
3) Provera normalnosti raspodele. Proveriti normalnost raspodele sve tri varijable prema
uputstvu navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost sve tri
varijable.

4) Sledeći korak je dobijanje regresione jednaĉine, što se postiţe primenom komande: Statistical
analysis→Continuous variables→Linear regression

U dijalog prozoru koji se otvorio:

 u okviru polja Response variable (pick one) oznaĉiti zavisnu varijablu - sistolni arterijski
pritisak
 u okviru polja Explanatory variables (pick one or more) oznaĉiti nezavisne varijable -
starost i indeks telesne uhranjenosti
 kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure:

U izlaznoj tabeli dobijamo da koeficijent determinacije iznosi 22.4% (Multiple R-squared:


0.224), što predstavlja procenat varijabiliteta zavisne varijable koji je objašnjen modelom.

U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijente nagiba (koeficijente b1 i


b2) kao i njihovu statistiĉku znaĉajnost.

Konstanta u regresionom modelu iznosi 52,01.


Koeficijent nagiba nezavisne varijable starost (b1) iznosi 0,93 mmHg, što znaĉi da je 1 godina
starosti više povezana sa porastom sistolnog krvnog pritiska za 0,93, a koeficijent nagiba
nezavisne varijable indeks telesne uhranjenosti (b2) iznosi 1,48, što znaĉi da je jediniĉno
povećanje indeksa telesne mase praćeno povećanjem sistolnog arterijskog pritiska za 1,48
mmHg. U produţetku istog reda nalazi se rezultat testiranja znaĉajnosti koeficijenta b. Da bi
nezavisna varijabla bila statistiĉki znaĉajan prediktor potrebno je da p bude jednako ili manje od
0.05, što znaĉi da su obe nezavisne varijable u navedenom višestrukom regresionom modelu
prediktori sistolnog arterijskog pritiska.

Regresiona jednaĉina ima oblik y = 52,01 + 0,93*x1 + 1,48*x2

Zaključak: Starost i indeks telesne uhranjenosti su statistiĉki znaĉajni prediktori sistolnog


arterijskog pritiska.
Lekcija 11
Dovoljan broj jedinica posmatranja
Primer 1 (Dovoljan broj jedinica posmatranja za ocenu proporcije):

Preuzeti i otvoriti Excel fajl Kalkulator veličine uzorka.xlsx

Odrediti dovoljan broj jedinica posmatranja za ocenu proporcije obolelih od reumatskih bolesti u
odrasloj populaciji. Pretpostavka je, na osnovu prethodnih istraţivanja, da je ta proporcija oko
0.16 (16%). Istraţivaĉ ţeli da dobije intervalnu ocenu preciznosti E = 2% (0.02).

Za izraĉunavanje veliĉine uzorka za interval poverenja proporcije potrebno je u kalkulator


(Sheet: CI - proporcije) uneti pretpostavku o proporciji ispitivane pojave u populaciji i
preciznost (polovina širine intervala poverenja).

Unošenjem ovih vrednosti u kalkulator dobijamo da je za dobijanje intervalne ocene, preciznosti


2% i nivoa poverenja 95%, reumatskih bolesti u populaciji potrebna veliĉina uzorka od 1291
ispitanika.

Primer 2 (Dovoljan broj jedinica posmatranja za ocenu aritmetiĉke sredine):

Odrediti dovoljan broj jedinica posmatranja za ocenu aritmetiĉke sredine HDL u populaciji ţena.
Na osnovu sliĉnih istraţivanja pretpostavka je da aritmetiĉka sredina iznosi 67 mg/dL, a
standardna devijacija 25 mg/dL. ji. Istraţivaĉ ţeli da dobije intervalnu ocenu preciznosti E = 5
mg/dL, za nivo poverenja od 95% i 99%.
Za izraĉunavanje veliĉine uzorka za interval poverenja aritmetiĉke sredine potrebno je u
kalkulator uneti pretpostavku o standardnoj devijaciji ispitivane pojave u populaciji, i preciznost
(polovina širine intervala poverenja).
Unošenjem ovih vrednosti u kalkulator dobijamo da je za dobijanje intervalne ocene preciznosti
5 mg/dL i nivoa poverenja 95% potrebna veliĉina uzorka od 96 ispitanika, a za nivo poverenja
od 99% potrebno je 166 ispitanika.

Primer 3 (Dovoljan broj jedinica posmatranja za testiranje razlike dve proporcije):

Odrediti dovoljan broj jedinica posmatranja za testiranje razlike proporcija reumatoidnog


artiritisa (RA) izmeĊu muškog i ţenskog pola. Pretpostavka je, na osnovu prethodnih
istraţivanja, da je ta proporcija oko 0.004 (0.4%) u muškom polu, i oko 0.009 (0.9%) u ţenskom
polu. Istraţivaĉ ţeli potrebnu veliĉinu uzorka za testiranje na nivou znaĉajnosti od 0.05 i za
statistiĉku snagu hi-kvadrat testa od 0.80 (80%).

Za izraĉunavanje veliĉine uzorka potrebno je u kalkulator (Sheet:Testiranje razlike dve prop.)


uneti pretpostavku o proporciji ispitivane pojave u populacijama.
Unošenjem ovih vrednosti u kalkulator dobijamo da je za testiranje razlike proporcija
reumatoidnog artritisa izmeĊu muškog i ţenskog pola, na nivou znaĉajnosti od 0.05 i statistiĉku
snagu od 0.80, potrebno 4049 ispitanika po uzorku.

Primer 4 (Dovoljan broj jedinica posmatranja za testiranje razlike dve aritmetiĉke sredine):

Odrediti dovoljan broj jedinica posmatranja za testiranje razlike aritmetiĉkih sredina triglicerida
izmeĊu muškog i ţenskog pola. Pretpostavka je, na osnovu prethodnih istraţivanja, da je
aritmetiĉka sredina u populaciji mušakaraca 105 mg/dL (±25), a u populaciji ţena 85 mg/dL
(±20). Istraţivaĉ ţeli potrebnu veliĉinu uzorka za testiranje na nivou znaĉajnosti od 0.05 i za
statistiĉku snagu t-testa od 0.80 (80%).

Za izraĉunavanje veliĉine uzorka potrebno je u kalkulator (Sheet: Testiranje razlike dve a.s.)
uneti pretpostavku o aritmetiĉkim sredinama i standardnim devijacijama ispitivane pojave u
populacijama.

Unošenjem ovih vrednosti u kalkulator dobijamo da je za testiranje razlike aritmetiĉkih sredina


triglicerida izmeĊu muškog i ţenskog pola, na nivou znaĉajnosti od 0.05 i statistiĉku snagu od
0.80, potrebno 20 ispitanika po uzorku.

Neobavezno ali korisno:

Za izraĉunavanje veliĉine uzorka u gore opisanim situcijama ali i za mnoge druge statistiĉki
procedure mogu se upotrebiti i dva besplatna programa za tu namenu koji se mogu skinuti sa
adresa:

1. http://biostat.mc.vanderbilt.edu/wiki/pub/Main/PowerSampleSize/pssetup3.exe

2. http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-
register/Dokumente/GPower_3.1.5.zip
Za odreĊivanje potrebnog broja jedinica posmatranja za testiranje razlike dve proporcije
potrebno je imati podatke o:

Standardnim devijacijama
Artimetiĉkim sredinama.
Pretpostavljenim proporcijama
Varijansama
Lekcija 12
Projektni zadatak 3
Lekcija 13
EZR - Adekvatnost merenja

U svakom merenju postoji izvestan stepen neizvesnosti, koji moţe biti iskazan kao greška u
merenju. Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i sluĉajne greške.
Sistematske greške daju predvidive precenjene ili potcenjene vrednosti (npr. loše kalibrisani
instrument koji daje uvek precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka,
sluĉajne greške nisu predvidive, i u datom mernom procesu mogu dati i precenjene i potcenjene
vrednosti. Greške u merenju nastaju delovanjem razliĉitih faktora kao što je to loša kalibracija
instrumenta, neodgovarajuće vreme odziva instrumenta u odnosu na promene merene varijable,
uticaj samog instrumenta namerenu veliĉinu, delovanje okoline, humani faktori –
meĊuposmatraĉki i unutarposmatraĉki varijabilitet (npr. kako lekar ocenjuje depresivnost
pacijenta na nekoj skali). Sluĉajne greške nastaju i usled “šuma” - malih i brzih promena u
okolini ili u samom instrumentu koje mogu uticati na izmerenu vrednost.

Identifikacijom i smanjenjem grešaka merenje se moţe uĉiniti više adekvatnim. Adekvatnost


merenja podrazumeva koncepte kao što su taĉnost, preciznost, slaganje, valjanost i pouzdanost.

TAČNOST

Odnosi se na bliskost izmerene vrednosti i taĉne/korektne vrednosti (oznaĉena kao referentna,


kriterijumska ili vrednost zlatnog standarda).

Primer: Cilj je bio evaluacija taĉnosti novog automatskog brojaĉa retikulocita u odnosu na
referentne vrednosti koje su dobijene manuelnim / vizuelnim brojanjem od strane dva
laboratorijska tehniĉara. Na osnovu sedam uzoraka, koeficijent korelacije iznosio je 0.96 što
je prihvaćeno kao zadovoljavajuće slaganje automatskog brojaĉa sa referentnim
vrednostima.

PRECIZNOST

Preciznost je bliskost nezavisnih merenja istog kvantiteta ili kvantiteta napravljenog pod istim
uslovima. Za ocenu preciznosti koriste se mere varijabiliteta, a najĉešće koeficijent varijacije
(CV). Male vrednosti CV ukazuju na precizno merenje. U laboratorijskim uslovima odreĊuje se
pravljenjem poduzoraka od istog materijala.

Primer: Na istom ispitaniku na istom mernom mestu pet puta je ponovljeno merenje
mineralne gustine primenom DXA metode. Dobijene su sledeće vrednosti (g/cm2): 0.85,
0.89, 0.86, 0.82, 0.85. Zakljuĉeno je da merenje ima zadovoljavajuću preciznost (CV =
2.9%).

Primer: Od istog uzorka plazme napravljeno je pet poduzoraka i izmerene su sledeće


vrednosti HDL holesterola (mg/dL): 55, 56, 55, 54, 57. Ocenjeno je da merenje ima
zadovoljavajuću preciznost (CV = 2.1%)
SLAGANJE

Odnosi se na bliskost izmerenih vrednosti razliĉitim metodama, pri ĉemu se niti jedan od njih ne
moţe proglasiti referentnim/zlatnim standardom, pa se ne moţe primeniti ocena taĉnosti. Metode
za ocenu slaganja prikazane su u delu ove lekcije pod nazivom „MeĊuposmatraĉka pouzdanost“.

VALJANOST I POUZDANOST

Vrlo ĉesto merenja u medicini zasnivaju se na primeni “papirnih instrumenata” - upitnika i skala.
Izmerena vrednost na takvim instrumentima dobija se kombinacijom odgovara na pitanja
(stavke, ajteme) na upitniku ili skali, ĉime se dobija kompozitni skor. Adekvatnost takvog
mernog procesa, primenom kompozitnih skorova, opisana je konceptima valjanosti (validnosti) i
pouzdanosti (relijabilnosti). Koncept valjanosti srodan je konceptu taĉnosti, a koncept
pouzdanosti srodan je konceptu preciznosti.

Pouzdanost oznaĉava do koje mere se metoda merenja (test) konzistentno ili postojano ponaša, a
valjanost je odnos izmeĊu onog što se pretpostavlja da bi instrument (test) trebalo da meri i onog
što on stvarno meri.

POUZDANOST

Postoje tri standardna naĉina za ocenu pouzdanosti: interna konzistentnost, meĊuposmatraĉka


pouzdanost i test retest pouzdanost. Pouzdanost se ocenjuje primenom razliĉitih tipova
koeficijenata pouzdanosti. Uopšte uzev, vrednosti koeficijenata pouzdanosti preko 0.7 smatraju
se prihvatljivim.

INTERNA KONZISTENTNOST je mera slaganja individualnih stavki (ajtema) na skali i


oznaĉava stepen do kojeg su stavke meĊusobno korelisane. Ovom prilikom, svaka stavka se
posmatra kao poseban instrument za merenje ispitivanog konstrukta, tako da koherentnost
izmeĊu njih sugeriše da svi ajtemi mere istu stvar (a takoĊe i sve stavke zajedno kao celina).

Interna konzistencija skale zavisi od interne konzistencije konstrukta kojeg teţimo da tom
skalom izmerimo, i veća je kod unidimenzionalnih konstrukata nego kod onih sa dva ili više
nezavisnih domena.

Interna konzistentnost je proseĉna korelacija izmeĊu stavki unutar skale. Vrednosti Cronbach
alfa preko 0,7 su zadovoljavajuće.

Interna konzistentnost se najĉešće ocenjuje:

 alfa koeficijentom (Cronbach alfa), za skale koje nemaju dihotomne stavke, ili
 Kuder-Richardsonovom formulom 20 (KR-20), za skale koje imaju dihotomne stavke.
Opis podataka: Za 17 ispitanika dati su podaci na Bekovoj skali za anksioznost. Ova skala sastoji
se od 21 pitanja (stavke, ajtema), a koristi se za procenu simptoma opšte anksioznosti. Pacijenti
odgovaraju na svako pitanje i procenjuju sopstveno stanje na skali od 0 (odsustvo simptoma) do
3 (veoma izraţeni simptomi). Zbir svih ajtema daje totalan skor (maksimalno 63).

Dati ocenu interne konzistentnosti ove skale.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka BAI.xlsx

2) Cronbachov alfa koeficijent dobija se klikom na liniji sa komandama: Statistical


analysis→Accuracy of diagnostic test→Cronbach`с аlpha coefficient of reliability

U dijalog prozoru koji se pojavio:

o u polju Variables (pick three or more) oznaĉiti stavke za koje se izraĉunava


interna konzistentnost
o kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

3) Zakljuĉak: BAI poseduje adekvatan nivo interne konzistentnosti (Cronbach alfa=0,93).


MEĐUPOSMATRAČKA POUZDANOST meri slaganje dva ili više posmatraĉa koji koriste
iste informacije o istom objektu. Najĉešće se koristi za procenu meĊuposmatraĉke pouzdanosti
razliĉitih skala. Kod upitnika se ne izraĉunava jer se radi o instrumentima za samoprocenu.

Postoji više postupaka za izraĉunavanje koeficijenata meĊuposmatraĉke pouzdanosti.


o intraklasni koeficijent korelacije (ICC),
o Pearsonov koeficijent korelacije,
o kappa koeficijent,
o Spearmanov koeficijent korelacije i
o Kendallov koeficijent konkordancije.

Opis podataka: Dvojica radiologa postavljaju dijagnozu karcinoma pluća na osnovu


radiografskog snimka. Njihove odluke o dijagnozi za 92 pregledana pacijenta date su u fajlu
“radiolozi”. Oceniti slaganje dva radiologa koje se odnosi postavljanje dijagnoze karcinoma
pluća na osnovu radiografskog snimka.

Slaganje radiologa biće ocenjeno primenom kappa koeficijenta.

Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka radiolozi.xlsx

2) Prvo je potrebno napraviti tabelu kontingencije što se postiţe klikom na liniji sa


komandama: Statistical analysis→Discerete variables→Create two-way table and compare
two proportions (Fisher`s exact test)

U dijalog prozoru koji se pojavio:


o u okviru polja Row variable (pick one or more): odabrati prvog ocenjivaĉa
o u okviru polja Column variable (pick one): odabrati drugog ocenjivaĉa
o odĉekirati sva ostala polja
o kliknuti na dugme OK

U prozoru sa rezultatima pojavila se tabela kontingencije koja prikazuje odluke radiologa.

3) Kappa koeficijent dobija se klikom na liniji sa komandama: Statistical analysis→Accuracy


of diagnostic test→Kappa statistics for agreement of two tests

U prozoru koji se pojavio, na osnovu tabele kontingencije, uneti apsolutne uĉestalosti kategorija
odluka oba radiologa.

4) Zakljuĉak: Radiolozi imaju adekvatan nivo slaganja u postavljanju dijagnoze (kappa=0,74).

TEST-RETEST POUZDANOST je ocena stabilnosti skale u vremenu, odnosno mera slaganja


rezultata koji se dobijaju ponovljenim merenjem na istim objektima pod uslovom da nije došlo
do promene stanja tih objekata.

Ocenjuje se primenom:

o intraklasnog koeficijenta korelacije,


o Pearsonovog koeficijenta linearne korelacije ili
o Spearmanovog koeficijenta rang korelacije

Ova vrsta pouzdanosti je posebno znaĉajna ako se skala koristi za ocenu promene stanja
ispitanika u toku tretmana. Ako skala nema dovoljno visoku test-retest pouzdanost, onda je
nemoguće odrediti da li je izmerena promena stvarna ili predstavlja sluĉajnu grešku skale.

Zadovoljavajuća vrednost koeficijenta test retest pouzdanosti iznosi preko 0,7


Opis podataka: Kod 16 ispitanika starijih od 65 godina meren je kognitivni status. Za procenu
kognicije korišćen je Mini Mental State Examination (MMSE). Testiranje je raĊeno dva puta u
razmaku od 7 dana radi procene test-retest pouzdanosti MMSE.

Procedura u EZR:

1) Preuzeti i uĉitati bazu podataka MMSE.xlsx

Test-retest pouzdanost izraĉunaćemo pomoću Pearsonovog koeficijenta korelacije koji se u EZR


dobija klikom na liniji sa komandama: Statistical analysis→Continuous variables→Test for
Pearson`s correlation

U prozoru koji se pojavio:

o u okviru polja Variables (pick two) oznaĉiti varijable za koje odreĊujemo test
retest
o kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.

2) Zakljuĉak: Test retest pouzdanost MMSE je zadovoljavajuća (r=0,94).

You might also like