Professional Documents
Culture Documents
Biostatistika I
Školska 2022/23. godina
Neda Delić
Osnovni statistički pojmovi
Statistika je nauka o generisanju informacija i znanja kroz prikupljanje, analizu i interpretaciju podataka
koji su podložni slučajnom variranju. Predstavlja opšti intelektualni metod koji se primenjuje kad god
postoje podaci sa osobinama variranja i slučajnošću pojavljivanja. Ukratko, moglo bi se reći da je statistika
nauka o odlučivanju u uslovima nesigurnosti.
Jedinice posmatranja su nosioci brojnih obeležja (karakteristika, osobina). Obeležje posmatranja je bilo
koja kvantitativna ili kvalitativna karakteristika (osobina) jedinica posmatranja. Obeležje može imati
konstantne vrednosti (konstanta) ili promenljive vrednosti (varijabla). Varijable su obeležja koja su
podložna variranju. Pod variranjem (varijabilitetom, varijacijom) podrazumeva se promenljivost
obeležja posmatranja od jedinice do jedinice posmatranja.
Zadatak:
U etiološkoj studiji istraživani su faktori koji doprinose nastanku osteoporoze kod žena. Obeležja od
interesa u istraživanju su bila: starost ispitanica, fizička aktivnost, prisustvo osteoporoze.
Objašnjenje: Obzirom da su u istraživanje uključene isključivo osobe ženskog pola, pol predstavlja
konstatno obeležje. Obeležje starost ima promenljive vrednosti, koje variraju od ispitanice do ispitanice.
Predmet statistike je podatak, pojedinačna činjenica ili zapažanje (opservacija) koji se dobija
merenjem. Merenje predstavlja proces dodeljivanja brojeva ili drugih simbola specifičnim
karakteristikama jedinica posmatranja (osoba, objekata...).
Prilikom merenja može doći do grešaka u merenju, koje mogu biti: sistematske ili slučajne.
Do primarnih podataka dolazi se kroz istraživanja, dok se termin sekundarni medicinski podaci odnosi
na podatke u medicinskoj/zdravstvenoj dokumentaciji i medicinskim bazama podataka.
1. Kategorijalni (kvalitativni) podaci postoje kada se svaka jedinica posmatranja može svrstati u samo
jednu od više kategorija varijable. Mogu biti:
b) Ordinalni podaci – kategorije su uređene ili rangirane na neki način (od manjeg ka većem ili
obrnuto). Primeri su:
• Zadovoljstvo pacijenata zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan,
zadovoljan, vrlo zadovoljan)
• Stadijum bolesti (bez bolesti, početni stadijum, uznapredovali stadijum)
• Navika pušenja (nepušač, umereni pušač, prekomerni pušač)
• Uhranjenost (pothranjenost, normalna uhranjenost, gojaznost)
Kategorijalni podaci koji imaju samo dve međusobno isključive kategorije, jesu binarni odnosno
dihotomni. Primeri su pol (ženski, muški) i ishod lečenja (izlečen, neizlečen).
a) Diskretni (diskontinuirani, prekidni) numerički podaci – kada varijabla može imati samo određene
celobrojne vrednosti. Primeri su:
• Broj dece u porodici
• Broj porođaja
• Broj poseta lekaru
• Broj obolelih
• Frekvencija srca
• Broj trombocita
b) Kontinuirani (neprekidni) numerički podaci – varijabla može imati bilo koju vrednost iz intervala
variranja. Primeri su:
• Telesna masa
• Telesna visina
• Starost
• Telesna temperatura
• Pritisak
Kod merenja neprekidnih varijabli, preciznost merenja zavisi od preciznosti mernog instrumenta i
potreba samog istraživanja. Na primer, krvni pritisak predstavlja numeričku kontinuiranu varijablu, iako
se najčešće zapisuje u obliku celih brojeva, međutim ukoliko se koristi precizniji merni instrument mogli
bismo zabeležiti i decimalne vrednosti. Broj decimala zavisi ponovo od preciznosti mernog instrumenta.
Numerički podaci se mogu transformisati u kategorijalne podatke (nominalne ili ordinalne). Tada dolazi
do gubitka jednog dela informacija. Na primer, podaci o uhranjenosti mogu biti izraženi kao indeks
telesne mase (kg/m2), odnosno u vidu kontinuiranih numeričkih podataka. Ovi podaci se mogu
transformisati u kategorijalne podatke, sa mogućim kategorijama: pothranjenost, normalna uhranjenost
i gojaznost. Ovde dolazi do gubitka jednog dela informacija, jer više nije poznato u kojoj meri se jedinice
posmatranja unutar kategorija, npr. unutar kategorije pothranjenih, razlikuju prema indeksu telesne
mase.
Eksploracija podataka obuhvata prve dve faze analize istraživačkih podataka: pripremu podataka za
analizu i njihovo opisivanje, a važna je za ispitivanje kvaliteta podataka u bazi , otkrivanje opštih obrazaca
ponašanja ili ekstremnih izuzetaka od tih obrazaca.
Eksploracija podataka koristi grafičke i numeričke tehnike. Po pravilu svaku varijablu analiziramo zasebno,
počevši od oblika njene raspodele i izračunavanja niza mera koje opisuju raspodele.
Istraživačka baza podataka – matrični zapis čija veličina zavisi od broja jedinica posmatranja i broja
varijabli
Redovi = jedinice posmatranja
Kolone = varijable u istraživanju
Kada se analizira obrazac pojavljivanja nedostajućih vrednosti, manji problem su nedostajuće vrednosti
koje su na slučajan način raspoređene u bazi podataka. Veći problem su nedostajuće vrednosti koje nisu
na slučajan način raspoređene u bazi podataka (npr. ako ispitanici sa većom zaradom odbijaju da saopšte
podatak o svojoj zaradi to će umanjiti mogućnost generalizacije svakog zaključka u analizama koje su
uključivale ekonomski status). Nedostajuće vrednosti se mogu zameniti aritmetičkom sredinom ili
medijanom ili oceniti regresionom metodom.
Tabelarni ili grafički prikaz distribucija frekvencija omogućava otkrivanje odredjenih tipova greški,
npr. numerička vrednost može biti unešena kao slovo ili se mogu pojaviti numeričke vrednosti koje su
van mogućeg opsega (kod 3 za pol ispitanika).
Otkrivanje neobičnih vrednosti – ”autlajera” moguće je odredjivanjem minimuma, maksimuma i raspona
vrednosti svake varijable. Uzroci pojave neuobičajeno velike ili neuobičajeno male vrednosti mogu biti:
pogrešan podatak (najčešći uzrok), greške u merenju i stvarna vrednost. Odluka o zadržavanju pogrešnog
podatka ili uklanjanju ispravnog podatka može dovesti do pogrešnog zaključka. Zato se najčešće takve
opservacije zasebno analiziraju. Druga mogućnost je dvostruka analiza podataka– sa i bez neobičnih
vrednosti i otkrivanje eventualnih razlika medju analizama.
Ispitivanje logičkih veza vrši se ukrštanjem kategorija dve varijable u obliku tablica kontingencija (npr. pol
i trudnoća). Kada je greška uočena, donosi se odluka o popravljanju greške ili ako nije moguće izbacivanju
podatka ili jedinice posmatranja.
Modifikacija podataka
Redefinicija podataka je oblik modifikacije podataka koji se koristi kod zamene pogrešnih ili
nedostajućih vrednosti, kod izbacivanja i/ili sažimanja pojedinih kategorija obeležja (male učestalosti) i
kod formiranja novih varijabli (nastaju kao rezultat logičkih i algebarskih operacija postojećih varijabli
(npr. BMI)
Transformacija podataka se obično primenjuju u cilju postizanja normalnosti rapodele ili realizacije neke
druge pretpostavke.
Osnovne informacije o obliku empirijske raspodele mogu se dobiti iz grafičkih prikaza (histogram,
poligon frekvencija, štapićasti dijagram, stubičasti dijagram) ili iz tabele empirijske raspodele. Oblik se
obično klasifikuje kao unimodalan, bimodalan ili multimodalan.
Unimodalan oblik može biti simetričan ili asimetričan (pozitivno ili desno iskošen, negativno ili levo
iskošen).
2. Deskriptivne mere:
Istraživačka baza podataka praćena je šifarnikom koji sadrži informacije o nazivu i redosledu varijabli,
opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni, numerički). Osim toga u šifarniku
su, za kategorijalne varijable, date informacije o broju kategorija i kodovima tih kategorija.
Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna datoteka, zatim se
definišu varijable prema šifarniku i na kraju se u datoteku unesu podaci dobijeni u istraživanju.
Postoji nekoliko načina da se formira baza podataka i učita u R programsko okruženje. Ovde će biti
prikazano formiranje baze u programima kao što su MS Office Excel, OpenOffice Calc i LibreOffice Calc i
učitavanje u R programsko okruženje.
1. U navedenim programima se nazivi varijabli unose u prvi red. Preporučuje se da ovi nazivi budu u formi
jedne reči. Ukoliko je potrebno da naziv varijable ima više reči nazive varijabli treba pisati ili spojenim
rečima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr. navika_pusenja) ili tačkom. U slučaju da
se reči ukucaju odvojeno, prilikom učitavanja EZR automatski svaki razmak zamenjuje tačkom (npr. ako
u nazivu varijable ukucamo navika pusenja EZR će učitati kao navika.pusenja).
3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojčane vrednosti bez naziva mernih
jedinica (npr. podatak o telesnoj masi uneti kao broj bez oznake kg).
4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao numerički kodovi.
Nominalni podaci se unose kao tekstualni nazivi kategorija (npr. za pol: muski, zenski ili mesto boravka
tokom studiranja: kod_roditelja, privatan_smestaj, studentski_dom).
Ordinalni podaci se unose kao numerički kodovi koji odražavaju poredak kategorija. Npr. za podatke o
zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan, zadovoljan i vrlo
zadovoljan) upotrebiti kodove za taj uređeni niz počev od najmanjeg do najvećeg nivoa što mora biti
zabeleženo u šifarniku zbog jednostavnije interpretacije podataka i rezultata statističke analize.
5. Nakon formiranja baze i unošenja podataka, datoteku sačuvati na računaru klikom na File→Save As…
1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set. Otvoriće se prozor u kome
treba ukucati naziv za aktivnu bazu podataka i kliknuti na dugme OK.
Program nudi naziv Dataset, koji se može promeniti. To je privremeni naziv baze koji formira EZR i na
kome se izvršavaju komande.
3. Ukoliko Excel baza sadrži više listova (Sheet), označiti iz kojeg se preuzima baza (najčešće Sheet1) pa
kliknuti na dugme OK.
4. Ako je baza učitana dobiće se poruka (u prozoru za poruke) sa informacijom koliko baza ima redova i
kolona.
5. EZR može da radi sa jednom učitanom bazom podataka. Prilikom pokušaja učitavanja druge baze dok
je prethodna otvorena, biće postavljeno pitanje da li da se druga baza učita preko prethodne. Preporučuje
se da se na početku rada uvek proveri koja je baza aktivna i pogleda struktura baze. To se može uraditi
klikom na dugme View na traci sa alatima, nakon čega će se u novom prozoru otvoriti aktivna baza
podataka.
Grupisanje i prikazivanje podataka
Sređivanje podataka obuhvata njihovo grupisanje i tabelarno i grafičko prikazivanje.
Postoje brojni programi za grafičko prikazivanje podataka. U skladu sa materijalima na kursu, ovde će
biti prikazani određeni tipovi grafikona i način njihove izrade u EZR-u. R programsko okruženje ima
moćne pakete za grafičko prikazivanje podataka (npr. ggplot2, lattice), međutim, rad sa dodatnim
paketima prevazilazi obim nastave, pa se zainteresovanim studentima preporučuje da istražuju grafičke
mogućnosti R-a samostalno ili u konsultaciji sa nastavnim osobljem.
Ista učestalost može se prikazati i grafički kružnim dijagramom ili stubičastim dijagramom.
Na kružnom dijagramu ugao kružnog isečka koji odgovara nekoj kategoriji dobija se množenjem relativne
učestalosti (iskazanih kao proporcije) sa 360°. Na primer, apsolutnoj učestalosti od 23 pušača, odgovara
ugao kružnog isečka od (23/50)x360°=166°) (Grafikon 1).
Stubičasti dijagram je sastavljen od razdvojenih vertikalnih pravougaonika (ili horizontalnih), od kojih
svaki reprezentuje jednu kategoriju, a čije visine (dužine) odgovaraju učestalostima (Grafikon 2).
Podaci se unose u EZR po proceduri navedenoj u prethodnoj lekciji, a koja podrazumeva sledeće korake:
U prozoru za skripte prikazuje se niz komandi koji je izvršen. Posle bilo koje statističke procedure u EZR-
u, u prozoru za skripte prikazaće se komande koje koristi primenjena procedura. U okviru tog prozora,
komande je moguće menjati, i tako izmenjene startovati ponovo. EZR omogućava da se skripte sačuvaju
u spoljašnju datoteku i kasnije ponovo učitaju i koriste. Rad sa skriptama prevazilazi nivo potrebnog
znanja za studente i neće biti detaljnije obrađivan.
Grafički prikaz varijable pol u vidu stubičastog dijagrama prikazan je u posebnom prozoru. EZR po
podrazumevanim podešavanjima prikazuje učestalosti nominalnih varijabli stubičastim dijagramom.
U dijalog prozoru koji se otvorio, označiti varijablu koja se prikazuje u vidu kružnog
dijagrama, po želji označiti Draw in color za prikaz u boji, pa kliknuti na
dugme OK.
Kružni dijagram varijable pol prikazuje se u posebnom prozoru. Na sličan
način se mogu izraditi i drugi tipovi grafikona.
1) Grafikone je moguće sačuvati u više formata (PDF, Png, Bmp, TIFF ili Jpeg), što se postiže preko
komandi iz prozora grafikona: File→Save as→Jpeg→100% quality… nakon čega treba imenovati
grafikon i odabrati mesto gde se čuva.
U MS Word programu kliknuti desnim tasterom miša na mesto gde se kopira grafikon, pa u
padajućem meniju koji se otvorio, kliknuti levim tasterom miša na dugme Paste .
TABELARNO I GRAFIČKO PRIKAZIVANJE ORDINALNIH PODATAKA
Raspodela učestalosti ordinalnih podataka, na primeru zadovoljstva zaposlenih uslovima rada u Domu
zdravlja, prikazana je u Tabeli 3. Kategorije ispitivane varijable date su po uređenom redosledu, u ovom
slučaju od kategorije “nezadovoljan”, preko “neutralan”, do “zadovoljan”.
Za grafičko prikazivanje raspodela učestalosti ordinalnih podataka koriste se, kao i u slučaju nominalnih
podataka, kružni ili stubičasti dijagram (Grafikoni 4 i 5).
3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama). Ukoliko ne
želimo prikaz nedostajućih vrednosti odčekirati polje Show missing data.
Grafički prikaz varijable zadovoljstvo_zz u vidu stubičastog dijagrama prikazan je u posebnom prozoru.
3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz stubičastog dijagrama).
Ukoliko ne želimo da prikažemo nedostajuće podatke odčekirati polje Show missing data.
3) Čekirati polja Show percent (za prikaz procenata). Ukoliko ne želimo da prikažemo nedostajuće
podatke odčekirati polje Show missing data.
Tabela sa prikazom apsolutnih i relativnih učestalosti se zatim kreira u MS Word-u ili nekom drugom
programu za obradu teksta.
3) U polje Number of sections (when not grouped) ukucati broj željenih klasnih intervala. Ukoliko se
ne ukuca ništa program će sam automatski odrediti broj klasnih intervala.
Kumulativne učestalosti omogućavaju da znamo koliko jedinica posmatranja ima vrednost jednaku ili
manju od određene vrednosti varijable od interesa.
Grafički se prikazuju linijskim kumulativnim dijagramom gde se na X-osi nanose vrednosti obeležja a na
Y-osi kumulativne učestalosti.
Primer: Prikazati kumulativnim dijagramom distribuciju učestalosti broja povreda kod 20 sportista.
• Ne mogu biti veće od najveće, niti manje od najmanje pojedinačne vrednosti u datom skupu
podataka.
• Spadaju u apsolutne mere jer se iskazuju u istim mernim jedinicama u kojima su iskazani i podaci
za koje se izračunavaju.
• Mogu imati vrednost koja ne postoji u skupu podataka.
• Mogu biti iskazane i decimalnim brojem, bez obzira da li su u pitanju numerički kontinuirani ili
diskontinuirani podaci.
ARITMETIČKA SREDINA
Aritmetička sredina je količnik zbira svih podataka i ukupnog broja podataka. Poznata je i kao prosečna
vrednost, prosek. Obeležava se sa 𝑥̅ (čita se iks bar). Izračunava se prema formuli:
∑ 𝑥!
𝑥̅ =
𝑛
gde je 𝑥! pojedinačan podatak, a n broj podataka.
Primer 1. Data je telesna visina 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171, 175. Izračunati
aritmetičku sredinu.
Aritmetička sredina iznosi:
∑ #! %&&'%&('%)*'%+,'%&-'%./'%.+'%)%'%&%'%&/ %&/&
𝑥̅ = $
= %,
= %,
= 175.7cm
Algebarski, zbir odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine jednak je nuli, a zbir
kvadrata odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine manji je od zbira kvadrata
odstupanja od bilo koje druge vrednosti.
Nedostaci aritmetičke sredine su (1) da se ne može koristiti sa nominalnim i ordinalnim podacima, i (2)
da je pod značajnim uticajem ekstremnih vrednosti - na malom broju podataka samo jedna ekstremna
vrednost može učiniti aritmetičku sredinu nereprezentativnom, kao što je to prikazano u primeru 2.
Primer 2. Za pet vrednosti amilaze u serumu (U/L): 51, 79, 62, 37 i 42, aritmetička sredina iznosi 54 U/L.
Dodavanjem nove vrednosti od 279 U/L, aritmetička sredina postaje 92 U/L. Dodavanje ekstremnog
podatka učinilo je da nova aritmetička sredina nije više valjan reprezent skupa podataka.
Rešenje:
U prethodnu Tabelu dodati kolonu koja prikazuje vrednost sredine klasnog intervala (zbir donje i gornje
granice intrevala podeliti sa 2). Na primer, za prvi klasni interval, sredina iznosi (106+110)/2=108. Zatim
dodati kolonu fx (pomnožiti frekvenciju sa sredinom klasnog intervala).
Rešenje
Objedinjena aritmetička sredina iznosi:
(//×((.&'*,&×%+.-'/%%×(,.+
𝑥̅ = (//'*,&'/%%
= 21.1
Kada bi u Primeru sve tri škole imale jednak broj učenika, aritmetička sredina bi se dobila prostim
sabiranjem aritmetičkih sredina i deljenjem sa brojem grupa: (22.7+19.4+20.9)/3= 21.3.
MEDIJANA
Medijana ili centralna vrednost predstavlja srednju pozicionu vrednost. Deli niz podataka poređanih po
veličini na dva jednaka dela. Jednaka je drugom kvartilu, odnosno pedesetom percentilu.
Zbir apsolutnih odstupanja svake pojedinačne vrednosti od medijane manji je od zbira odstupanja od
bilo koje druge vrednosti.
U skupu sa neparnim brojem podataka medijana je uvek stvarna i postojeća vrednost. Na primer, ako je
broj podataka 9, medijana će imati vrednost petog podatka kada su oni poređani po veličini. U skupu sa
parnim brojem podataka vrednost medijane se izračunava tako što se saberu dva centralna podatka, i
dobijeni zbir podeli sa dva. Na primer, ako je broj podataka 10, vrednost medijane se dobija tako što se
zbir petog i šestog podatka podeli sa dva.
Medijana ne zavisi od vrednosti obeležja posmatranja već od njihovog mesta tj. od broja podataka.
Upotrebljava se u onim slučajevima kada treba izbeći nerealnu aritmetičku sredinu ili kada postoji
posebna zainteresovanost za mesto podataka kao što je lociranje optimalnog položaja.
Nedostaci medijane, u odnosu na aritmetičku sredinu, jesu (1) da je manje pogodna za dalje statističke
analize, i (2) da ignoriše relativan uticaj svake pojedinačne vrednosti, uključujući i ekstremne vrednosti,
tako da nije pogodna kada istraživač želi da srednja vrednost reflektuje svaku vrednost iz skupa podataka.
Određivanje medijane:
1. Urediti podatke od minimalne do maksimalne vrednosti.
𝒏'𝟏
2. Odrediti mesto (položaj) medijane prema formuli: 𝑚𝑚𝑒𝑑 = 𝟐
3. Pročitati ili izračunati vrednost koja odogovara mestu medijane.
Þ kod neparnog broja podataka medijana je vrednost srednjeg tj. centralnog podatka;
Þ kod parnog broja podataka vrednost medijane se izračunava kao aritmetička sredina dva
centralna podatka.
Primer 1: Date su vrednosti Hgb (g/L) u krvi 5 bolesnika: 142, 131, 152,
137, 148. Odrediti medijanu.
$'% /'%
mmed = (
= (
=3
Medijana hemoglobina iznosi 142g/L.
$'% %,'%
mmed = (
=(
=5.5
%&-'%&/
Med = = 174.5
(
Medijana telesne visine iznosi 174.5 cm.
MOD
Mod (tipična vrednost) je vrednost podatka sa najvećom učestalošću. Određivanje moda može biti
olakšano ako su podaci sređeni po rastućem ili opadajućem nizu. Na primer, za sledeće podatke:
vrednost moda iznosi 4 (to je vrednost koja se naučestalije javlja - tri puta).
Kod grupisanih podataka približna vrednost moda je vrednost grupe ili sredine klasnog intervala sa
najvećom frekvencijom – modalna grupa ili modalni interval.
Ako se pojavljuje samo jedna maksimalna frekvencija grupe ili grupnog intervala radi se o unimodalnoj
raspodeli, a ako se pojavljuju dve ili više maksimalnih frekvencija grupa ili grupnih intervala radi se o
bimodalnoj ili multimodalnoj raspodeli.
Prednosti moda su (1) da nije pod uticajem ekstremnih vrednosti, i (2) da je to jedina mera centralne
tendencije koja se može primeniti kod nominalnih podataka.
Nedostaci moda su (1) da može postojati više od jednog moda u datom skupu podataka, što otežava
interpretaciju, (2) da se ne može odrediti ako ne postoje bar dva podataka sa istim vrednostima, (3) da
nije pogodan za dalje statističke analize, i (4) da ignoriše relativan uticaj svake pojedinačne vrednosti.
Mod = 2
Kod desno (pozitivno) iskošene raspodele, aritmetička sredina je veća od medijane i moda (x̄ > Med >
Mod), a kod kod levo (negativno) iskošene raspodele, aritmetička sredina je manja od medijane i moda
(x̄ < Med < Mod) (slika 4).
Izbor srednje vrednosti, kao reprezenta skupa podataka, zavisi od tipa podataka i osobina raspodele:.
Na primer, za podatke o BMI, ako je raspodela simetrična i bez ekstremnih vrednosti, treba upotrebiti
aritmetičku sredinu. Ako je rapodela asimetrična ili ima ekstremnih vrednosti, treba upotrebiti medijanu.
Za istu varijablu, ako je umesto BMI, iskazana ordinalnim podacima sa pet kategorija (1-teška
pothranjenost, 2-pothranjenost, 3-normalna uhranjenost, 4- gojaznost, 5-preterana gojaznost) može se
upotrebiti medijana ili mod. Ali ako je ista varijabla iskazana ordinalnim podacima sa samo tri kategorije
(1-pothranjenost, 2-normalna uhranjenost, 3-gojaznost) onda je upotreba moda najadekvatnija srednja
vrednost.
Aritmetička sredina spada u:
o Pozicione srednje vrednosti
o Matematičke srednje vrednosti
o Mere varijabiliteta
Prednost aritmetičke sredine je:
o Uvek je veća od najveće vrednosti u skupu podataka.
o Jednostavna je za izračunavanje i reflektuje sve vrednosti u skupu podataka.
o Osetljiva je na ekstremne vrednosti.
Medijana je:
o Poziciona mera centralne tendencije.
o Računska mera centralne pozicije.
Raspodela može biti:
o Unimodalna
o Sve navedeno
o Bimodalna
o Multimodalna
Najčešće korišćena srednja vrednost je:
o Medijana
o Aritmetička sredina
o Mod
Mere varijabiliteta
Mere varijabiliteta (mere varijacije, mere disperzije, mere raspršenja) opisuju variranje vrednosti skupa
podataka, u smislu odstupanja od srednjih vrednosti i opsega međusobnih razlika.
Mere varijabiliteta možemo podeliti na apsolutne mere varijabiliteta koje su iskazane u jedinicima mere
obeležja i relativne mere varijabiliteta koje su iskazane neimenovanim brojevima:
INTERVAL VARIJACIJE
Interval varijacije je razlika najveće i najmanje vrednosti u skupu podataka.
𝐼=𝑥max−𝑥min
gde je: xmax – najveća vrednost u skupu podataka, xmin – najmanja vrednost u skupu podataka.
Interval varijacije je najjednostavnija i najmanje informativna mera disperzije. Pruža opšte i elementarne
informacije koje služe za orjentacionu procenu homogenosti obeležja.
Nedostaci intervala varijacije su (1) da zavisi od postojanja ekstremnih vrednosti, (2) da ne daje informaciju o
grupisanju unutar intervala, i (3) da njegova vrednost raste sa povećanjem uzorka.
Primer 1: Odrediti interval varijacije telesne visine 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171 i
175.
𝐼=𝑥max−𝑥min = 190−165 = 25
Interval varijacije telesne visine je 25 cm.
KVANTILI I GRAFIKON KUTIJE
Kvantili predstavljaju pozicione vrednosti numeričkog obeležja koje niz uređen po veličini dele na k-
jednakih delova. Broj kvantila uvek je jednak k-1. Potupak određivanja kvantila analogan je postupku
određivanja medijane. Služe za određivanje ili upoznavanje sa raspodelom frekvencija i podataka unutar
skupa.
Percentili su kvantili koji statistički niz dele na 100 jednakih delova (broj percentila je 99).
Decili su kvantili koji statistički niz dele na 10 jednakih delova (broj decila je 9).
Kvartili su kvantili koji statistički niz dele na 4 jednaka dela.
Broj kvartila je 3:
• Q1 -prvi ili donji kvartil jednak je 25. percentilu
• Me -drugi kvartil ili medijana odnosno 50. percentil (5. decil)
• Q3 -treći ili gornji kvartil jednak je 75. percentilu.
Interkvartilni opseg (IQ) jednak je razlici 75. i 25. percentila, odnosno jednak je Q3-Q1 i u njemu se nalazi
50% observacija.
Grafikonom kutije prikazujemo numeričke podatke. Grafikon kutije dizajnirao je John Tukey.
Grafikon se sastoji od kutije (engl. box), čija je stranica dužine interkvartilnog opsega (IQ) i čiji se krajevi
prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara trećem kvartilu (Q3).
Unutar kutije je oznaka, obično linija koja preseca kutiju, koja odgovara vrednosti medijane. Kutija
predstavlja 50% opserviranih slučajeva.
Iz kutije na obe strane izlazi po jedan produžetak, tzv. brk ( engl.whisker, mačji brk) koji se prostire u
opsegu najmanje i najveće vrednosti koje nisu neobične ili ekstremne. Za određivanje dužine produžetaka
služe nam unutrašnje i spoljašnje granice. Unutrašnje granice su udaljene od krajeva kutije po 1,5 a
spoljašnje po 3 interkvartilna opsega. Granice se ne ucrtavaju u grafikon već služe za određivanje dužine
produžetaka i identifikaciju neobičnih i ekstremnih vrednosti.
Neobične vrednosti (engl. outlier) su sve vrednosti koje su od ivica kutije udaljene više od 1,5 a manje od
3 dužine kutije (interkvartilnog opsega) i na grafikonu se označavaju 0. Ekstremne vrednosti su one koje
su od ivice kutije udaljene više od 3 njegove dužine i na grafikonu se obeležavaju sa * ili x.
Za unimodalne distribucije frekvencija očekuje se da iza unutrašnjih granica bude manje od 1% podataka,
dok je verovatnoća pojavljivanja podataka iza spoljašnjih granica 1 ‰ .
Treba proveriti da li je vrednost ekstremnih vrednosti moguća ili je u pitanju greška prilikom zapisivanja
i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih vrednosti date promenljive.
Standardna devijacija (obeležava se sa sd) izračunava se kao kvadratni koren iz varijanse, odnosno kao
kvadratni koren iz srednjeg kvadratnog odstupanja od aritmetičke sredine:
𝑠𝑑=√𝑠𝑑(
∑(#6 $ #̅ )7
𝑠𝑑=!
($)
Standardna devijacija je najvažnija i najčešće primenjivana mera varijacije. Standardna devijacija se može
interpretirati kao srednje odstupanje od aritmetičke sredine. Što je standardna devijacija manja, manje je i
odstupanje vrednosti podataka od aritmetičke sredine.
Varijansa i standardna devijacija ne mogu biti negativne (zbog kvadriranja odstupanja), i mogu biti jednake
nuli samo ako svi podaci imaju istu vrednost.
Prednost varijanse i standardne devijacije, kao mera varijabiiteta, je u tome što odražavaju variranje svih
vrednosti skupa podataka.
Nedostaci varijanse i standardne devijacije su: (1) osetljivost na ekstremne vrednosti, (2) nepodesne su za
podatke sa asimetričnom raspodelom i (3) mogu se koristiti samo za numeričke podatke.
Nedostatak varjanse u odnosu na standardnu devijaciju, je u tome što se iskazuje kvadriranim mernim
jedinicama (na primer, ako su dati podaci o koncentraciji neke supstance iskazani kao mmol/L, varijansa tih
podataka biće iskazana kao mmol2/L2), zbog čega je otežana interpretacija varijabiliteta. Za razliku od
varijanse, standardna devijacija ima iste merne jedinice kao i podaci (u pomenutom primeru standardna
devijacija podataka bila bi iskazana kao mmol/L) i lakše ju je zbog toga interpretirati.
KOEFICIJENT VARIJACIJE
Koeficijent varijacije (CV) je relativna mera varijacije. Izračunava se kao količnik standardne devijacije i
aritmetičke sredine, i obično je iskazan u procentima:
!"
𝐶𝑉= #̅ ×100%
Kada je CV manji ili jednak od 30% za skup podataka se može reći da je homogen (manje varijabilan,
konzistentan, uniforman). Ako je CV veći od 30%, za skup podataka se može reći da je heterogen (više
varijabilan).
ZED VREDNOST
Zed vrednost (zed skor, standardizovana vrednost) je odstupanje od aritmetičke sredine iskazano
standardnim devijacijama. Izračunava se pomoću formule:
#6 $#̅
𝑧= *+
gde je:
xi aktuelna vrednost za koju se izračunava zed vrednost,
𝑥̅ je aritmetička sredina
sd standardna devijacija
Zed vrednost je pokazatelj relativne pozicije neke vrednosti u skupu podataka. Predznak zed vrednosti
pokazuje da li je neka konkretna vrednost manja (negativna zed vrednost) ili veća (pozitivna zed vrednost) od
aritmetičke sredine.
• u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient of Variation i
Quantiles, pa kliknuti na dugme OK.
Mod se može dobiti primenom komande za ispisivanje učestalosti (table) koja je objašnjena u prethodnoj
lekciji:
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.
• u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient of Variation i
Quantiles, pa kliknuti na dugme OK.
Slučajni (nedeterministički, stohastični) događaji su oni u kojima određeni uslovi zavisno od slučajnosti
mogu voditi u različite ishode. Ovi ishodi su međusobno isključivi, odnosno može se ostvariti samo jedan
od njih. Skup svih mogućih ishoda, u određenim uslovima, nazivamo skup elementarnih ishoda (skup
elementarnih događaja).
Primer 1: Za tip krvne grupe mogući ishodi su: krvna grupa O, A, B i AB. Ova četiri ishoda su
međusobno isključiva, odnosno jedna osoba može imati samo jednu krvnu grupu. Ove četiri krvne
grupe čine skup elementarnih ishoda.
Predmet ispitivanja teorije verovatnoće jesu slučajni događaji. Verovatnoća je mera očekivanja nekog
slučajnog događaja. Kvantitativno se iskazuje na skali od 0 (nemoguć događaj) do 1 (siguran događaj), ili
u procentima od 0% do 100%. Verovatnoća malo verovatnih događaja bliska je nuli, dok je verovatnoća
visoko verovatnih događaja bliska jedinici.
1. Objektivna verovatnoća
o Teorijska (klasična, matematička, a priori) verovatnoća
o Empirijska (statistička, frekvencijska, a posteriori) verovatnoća
2. Subjektivna verovatnoća
Teorijska verovatnoća zasniva se na pretpostavci da su svi mogući ishodi jednako verovatni. Ova
verovatnoća naziva se a priori, jer se određuje pre bilo kakvog merenja ili opservacije samih ishoda.
Teorijska verovatnoća izračunava se kao količnik broja očekivanih ishoda i broja svih jednako mogućih
ishoda.
Primer 2: U istraživanju, u kojem je cilj bio ocena efektivnosti tretmana A i B, ispitanici su na slučajan
način, svrstavani u jednu od grupa: A, B ili kontrolnu (placebo). Kolika je verovatnoća da jedan
ispitanik bude svrstan u kontrolnu grupu?
Rešenje: Broj svih jednako mogućih ishoda iznosi tri (grupa A, grupa B i kontrolna grupa). Broj očekivanih
ishoda iznosi jedan (kontrolna grupa). Verovatnoća da jedan ispitanik bude svrstan u kontrolnu grupu
iznosi:
(broj očekivanih ishoda)/(broj svih jednako mogućih ishoda) = 1/3 = 0.33
Primer 3: Ispitivana je učestalost tipova krvnih grupa u određenoj populaciji. Na uzorku od 2700
ispitanika nađene su sledeće relativne učestalosti:
Krvna grupa Relativna učestalost
O 45%
A 39%
B 12%
AB 4%
Ove relativne učestalosti istovremeno su i verovatnoće da slučajno izabrana osoba ima neku
konkretnu krvnu grupu.
Subjektivna verovatnoća izražava stepen uverenja određene osobe o mogućnosti ostvarenja nekog događaja.
Zasniva se na teorijskom znanju u datoj oblasti, i raspoloživim informacijama. Primenjuje se kada nije moguće
neku pojavu opservirati više puta, i na taj način odrediti relativne frekvencije, kod veoma retkih ili događaja
koji se do sada nisu desili. Subjektivna verovatnoća se može razlikovati od jedne do druge osobe, zavisno od
usvojenog teorijskog modela posmatrane pojave i raspoloživih informacija. Na primer, pojedini naučnici
mogu dati svoje lične procene verovatnoće da će u periodu od narednih pet godina doći do mutacije virusa
SARS-CoV2.
Osobine verovatnoće:
Verovatnoća događaja koji je predmet istraživanja naziva se verovatnoćom očekivanog događaja i obično se
obeležava sa p. Verovatnoća događaja koji nije predmet istraživanja naziva se verovatnoćom suprotnog
događaja i obeležava se sa q. Obe verovatnoće su komplementarne parcijalne verovatnoće pa za njih važi:
p+q=1.
Zakoni verovatnoće:
1. Zakon adicije (zakon sabiranja verovatnoća): zakonom adicije izračunava se verovatnoća da će se dogoditi
jedan, bilo koji (ili ovaj ili onaj), očekivani događaj.
2. Zakon multiplikacije (zakon množenja verovatnoća). Ovaj zakon se odnosi na složenu verovatnoću tj.
verovatnoću istovremene ili uzastopne pojave dva ili više događaja. Verovatnoća da će nastupiti očekivana
kombinacija događaja (i ovaj i onaj) jednaka je proizvodu verovatnoća svakog od tih događaja.
Relativna verovatnoća P(A/B) naziva se još i uslovna ili kondicionalna verovatnoća i predstavlja verovatnoću
uslovljenog događaja. Uslovna verovatnoća je verovatnoća očekivanog događaja koji je uslovljen
prethodnom pojavom nekog drugog događaja. Uslovna verovatnoća je osnovni tip verovatnoće u
prirodnim naukama pa prema tome i u medicini.
NAPOMENA:
o R podržava izračunavanje klasičnih računskih operacija u komandnoj liniji u okviru R Konzole, pa će se
taj način izračunavanja i koristiti u primerima na kursu. Moguće je raditi i složenija izračunavanja.
o Prilikom izračunavanja prioritet ima ono što je u zagradi.
o Od računskih operacija prvo se množi i deli, a zatim sabira i oduzima.
o Od matematičkih simbola koristiti: + za sabiranje, - za oduzimanje, * za množenje i / za deljenje.
Primer 4 (komplementarni događaji): Verovatnoća da slučajno izabrana osoba ima koronarnu bolest srca
iznosi 0.12. Kolika je verovatnoća komplementarnog događaja, odnosno da osoba nema koronarnu bolest
srca?
Rešenje:
P(B)=0.12
P(B¯)=1−0.12=0.88
Primer 5 (adicija međusobno isključivih događaja): Kolika je verovatnoća da slučajno izabrana osoba ima ili
krvnu grupu O ili krvnu grupu B (Tabela iz Primera 3)?
Rešenje:
P(O)=0.45
P(B)=0.12
Tip krvne grupe su međusobno isključivi događaji, pa je
verovatnoća da slučajno izabrana osoba ima ili krvnu
grupu O ili krvnu grupu B:
Primer 6 (multiplikacija nezavisnih događaja): Učestalost deformacija skeleta u školskoj populaciji iznosi 5%, a
učestalost anemije 3%. Kolika je verovatnoća da će neki učenik imati i deformaciju skeleta i anemiju?
Rešenje:
P(D)=0.05
P(A)=0.03
Pod pretpostavkom da su deformacija skeleta i anemija
nezavisni događaji u školskoj populaciji, verovatnoća da
će neki učenik imati i deformaciju skeleta i anemiju
iznosi:
Primer 7 (adicija događaja koji nisu međusobno isključivi): Kolika je verovatnoća da će jedan slučajno izabrani
učenik imati ili deformaciju skeleta ili anemiju?
Statističke procedure zasnovane su na pretpostavci da empirijske raspodele podataka slede neku od teorijskih
raspodela, a zatim se osobine te teorijske raspodele mogu primeniti na empirijsku raspodelu. Raspodele
empirijskih podataka nikada nisu identične teorijskim raspodelama, koje su definisane matematički, već manje
ili više odstupaju od njih. Da bi osobine neke teorijske raspodele mogle biti iskorišćene za analizu empirijskih
podataka, potrebno je da empirijska raspodela bude dovoljno slična teorijskoj raspodeli.
Binomna raspodela
Binomna raspodela predstavlja raspored verovatnoća vrednosti prekidne slučajne promenljive dihotomnog
(binomnog) karaktera. Da bi neka slučajna promenljiva mogla da sledi zakone binomnog raspoređivanja
neophodno je da: 1) prost događaj ima dva međusobno isključiva ishoda, 2) je verovatnoća očekivanog ishoda,
koja se obeležava sa p, konstantna u svakom prostom događaju i 3) su događaji nezavisni. Binomna raspodela
pokazuje verovatnoću ostvarivanja svake vrednosti slučajno promenljive u određenom broju uzastopno
ponovljenih nezavisnih događaja. Svaka binomna raspodela je definisana sa dva parametra: n i p, gde je n
broj prostih nezavisnih događaja, a p verovatnoća očekivanog događaja. Deskriptivne mere binomne
raspodele su aritmetička sredina (np) i varijansa np(1–p).
Binomna verovatnoća predstavlja verovatnoću da će se očekivani binomni ishod (X), sa stalnom prostom
verovatnoćom (p), ostavriti x puta pri ponavljanju n nezavisnih prostih događaja.
Binomna verovatnoća x uspeha od n prostih nezavisnih događaja dobija se primenom funkcije binomne
verovatnoća:
$!
𝑃(𝑋=𝑥) = #!($:#)! 𝑝 # 𝑞$:#
U ovoj formuli je
$!
binomni koeficijent, koji daje broj kombinacija sa x uspeha iz n događaja.
#!($:#)!
Izračunavanje faktorijela:
0! = 1
1! = 1
2! = 1 x 2 = 2
3! = 1 x 2 x 3 = 6
itd.
a) Kolika je verovatnoća da u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, dve osobe
imaju hipertenziju?
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure. EZR prikazuje verovatnoće
za svaki broj mogućih događaja istovremeno.
Rešenje:
P(X = 2) = 0.243
b) Kolika je verovatnoća da u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, bar pet osoba
ima hipertenziju?
U našem primeru: x≥5, n=7 i p=0.42.
Rešenje:
P(X≥5)=0.092+0.022+0.002=0.116
c) Kolika je verovatnoća da u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, najviše dve
osobe imaju hipertenziju?
U našem primeru: x≤2, n=7 i p=0.42.
Rešenje:
P(X≤2)=0.022+0.112+0.243=0.377.
Rešenje:
Aritmetička sredina jednaka je: np
sqrt(863*0.019*(1-0.019))
NORMALNA RASPODELA
Normalna raspodela je najvažnija raspodela u statistici. To je kontinuirana raspodela verovatnoća,
matematički opisana formulom:
gde su μ i σ aritmetička sredina i standardna devijacija raspodele, e je osnova prirodnog logaritma (2.72), a x
je vrednost kontinuirane varijable.
Karakteriše se zvonastom simetričnom raspodelom oko njene aritmetičke sredine (Slika 1). Normalna
raspodela je kompletno određena parametrima normalne raspodele: aritmetičkom sredinom i standardnom
devijacijom. Njena aritmetička sredina i medijana su jednake, i odgovaraju najvišoj tački na krivi normalne
raspodele. Na udaljenosti od jedne standardne devijacije od aritmetičke sredine nalazi se tačka infleksije –
mesto gde kriva prelazi iz konkaviteta u konveksitet, i obrnuto. Krajevi (repovi) krive produžavaju se
beskonačno na obe strane ali nikada ne dotiču apscisu.
.
Slika 1. Kriva normalne raspodele
Za normalnu raspodelu važi da se 68% opservacija nalazi unutar intervala aritmetička sredina±1sd, 95%
opservacija unutar intervala aritmetička sredina±2sd, i 99.7% unutar intervala aritmetička sredina±3sd (Slika
2).
Slika 2. Procenat opservacija unutar intervala ±1sd, ±2sd i ±3sd normalne raspodele
Mnoge varijable u medicini imaju tendenciju da prate normalnu raspodelu, sa vrednostima grupisanim oko
aritmetičke sredine i sa smanjivanjem njihove učestalosti ka krajevima raspodele.
Normalna raspodela je široko korišćena u statistici. Primeri su (a) klasični statistički testovi bazirani na
pretpostavci o normalnosti raspodele podataka, (b) određivanje nivoa značajnosti u mnogim statističkim
testovima i intervalima poverenja, i (c) aproksimacije drugih raspodela verovatnoća normalnom raspodelom,
kao što je to binomna raspodela. Ono što omogućava primenu normalne raspodele u aproksimacijama jeste
centralna granična teorema, po kojoj bez obzira na karakteristike raspodele neke populacije, raspodela njenih
uzoračkih aritmetičkih sredina teži normalnoj za velike uzorke.
Specijalan tip normalne raspodele je standardna normalna raspodela (zed raspodela) čiji su parametri μ=0 i
σ=1. Bilo koja normalna raspodela može biti konvertovana u standardnu normalnu raspodelu
transformacijom: z=(x−μ)/σ. Ovom formulom, bilo koja vrednost originalne raspodele može biti konvertovana
u zed vrednost (z-skor, standardan skor). Zed vrednost je pokazatelj relativnog položaja neke vrednosti u
raspodeli kojoj pripada.
Standardna normalna raspodela se može iskoristiti za određivanje verovatnoća koje se odnose na empirijske
podatke, uz pretpostavku da oni slede normalnu raspodelu. Površina između apscise i krive normalne
raspodele ekvivalentna je verovatnoći. Totalna površina ispod krive jednaka je jedan. Verovatnoća da se
vrednost varijable nađe u intervalu između dve vrednosti jednaka je površini između ovih vrednosti. Prvo je
potrebno ove vrednosti transformisati u z-vrednosti, a zatim pročitati površine, a samim tim i verovatnoće, iz
tabela površina ispod krive standardne normalne raspodele. U tabeli (u prilogu) površine su date počev od
aritmetičke sredine do odgovarajauće zed-vrednosti (Slika 3).
Površine ispod krive standardizovane normalne raspodele
Čitanje površine ispod krive standardizovane normalne raspodele
Procedura u EZR
U EZR verovatnoća površine ispod krive normalne raspodele izračunava se na sledeći način:
• u polje Variable value(s) ukucati vrednost varijable za koju se traži verovatnoća javljanja u
populaciji
• u polje Mean ukucati aritmetičku sredinu varijable u populaciji
• u polje Standard deviation ukucati standardnu devijaciju varijable u populaciji
• čekirati polje Lower tail za izračunavanje verovatnoće javljanja vrednosti manjih od zadate
vrednosti varijable
• čekirati polje Upper tail za izračunavanje verovatnoće javljanja vrednosti većih od zadate vrednosti
varijable.
Primer 11: Telesna masa jedne populacije odraslih osoba je normalno raspoređena sa aritmetičkom
sredinom 70 kg i standardnom devijacijom 10kg.
a) Kolika je verovatnoća da će slučajno izabrana osoba iz ove populacije imati t. masu veću od 85 kg?
Slika 3. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase veće od
85 kg
P(x>85) =0.07
b) Kolika je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost telesne mase između
67 i 85 kg?
Slika 4. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase između
67 i 85 kg
Izračunati verovatnoću za vrednost telesne mase manju od 85.
c) Kolika je verovatnoća da slučajno izabrana osoba iz ove populacije ima telesnu masu manju od 95 kg?
Slika 5. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase manje
od 95kg
P( x ≤ 95) = 0.99
Kolika je verovatnoća da jedan ispitanik, iz Primera 2, bude svrstan u grupu A ili grupu B?
o 0.50
o 0.25
o 0.66
Kolika je verovatnoća da slučajno izabrana osoba ima ili krvnu grupu O ili krvnu grupu A, ako je
P(O)=0.45 i P(A)=0.39 (Tabela iz Primera 3)?
o 0.72
o 0.84
o 0.91
Poznato je da je uspešnost IVFa (vantelesne oplodnje) iznosi 19%. Kolika je verovatnoća da od pet
slučajno izabranih žena, posle IVFa, zatrudne četiri?
o 0.39
o 0.21
o 0.005
Letalitet od neke bolesti iznosi 0.3. Kolika je verovatnoća da će doći do smrtnog ishoda kod sva tri
pacijenta sa ovim oboljenjem?
o 0.020
o 0.027
o 0.039
U populaciji žena starosti između 25 i 50 godina vrednosti mokraćne kiseline u serumu su normalno
raspoređene sa aritmetičkom sredinom 333 mmol/L i standardnom devijacijom 30 mmol/L. Kolika
je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost mokraćne kiseline u
serumu veću od 410 mmol/l?
o 0.011
o 0.002
o 0.005
U populaciji žena starosti između 25 i 50 godina vrednosti mokraćne kiseline u serumu su normalno
raspoređene sa aritmetičkom sredinom 333 mmol/L i standardnom devijacijom 30 mmol/L. Kolika
je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost mokraćne kiseline u
serumu između 303 i 393 mmol/L?
o 0.818
o 0.265
o 0.968
Provera normalnosti raspodele
Provera normalnosti raspodele
Pretpostavka za primenu mnogih statističkih metoda je normalna raspodela podataka. Ne postoji
opšteprihvaćeni postupak na osnovu kojeg bi se jednostavno proverila normalnost raspodele. Postoji
nekoliko metoda, od kojih su neke računske a neke grafičke. Poželjno je da se istraživač osloni na više od
jedne metode za proveru normalnosti. Preporuka je da se odabere bar jedna grafička i bar jedna računska
metoda provere normalnosti raspodele.
Primer. Prikupljeni su podaci o prirastu telesne mase (g) i vrednostima trombocita (x 109/L) za dve grupe
eksperimentalnih životinja pri čemu je jedna grupa bila na standardnoj ishrani, a druga na ishrani obogaćanoj
vitaminima (Primer baze za proveru normalnosti raspodele.xlsx)
Procedura u EZR:
1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries
• u okviru kartice Data označiti varijablu Prirast, pa liknuti na dugme Summarize by groups…
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.
• u okviru kartice Statistics čekirati polja za Coefficient of Variation, Skewness i Kurtosis, pa kliknuti na
dugme OK.
5. Statističko testiranje normalnosti: Kolmogorov-Smirnov test i Shapiro-Wilk test. Kada je p > 0.05 ispitivana
varijabla ima normalnu raspodelu.
2. Normalni Q–Q grafikon. Kada je raspodela normalna tačke se nalaze na pravoj liniji. Odstupanje tačaka
od prave linije ukazuje na odstupanje raspodele od normalne.
4) U posebnom prozoru pojaviće se Q-Q grafikon grupe na Standardnoj ishrani za varijablu Prirast.
3. Grafikon kutije (“boxplot”). Postojanje nekoliko ekstremnih vrednosti ili neobičnih vrednosti na bilo
kom kraju raspodele ukazuje na odstupanje od normalne raspodele. Ako medijana nije u centru
grafikona kutije već je znatno bliža jednom od krajeva kutije to ukazuje na odstupanje od normalne
raspodele.
4) U posebnom prozoru pojaviće se grafikon kutije varijable Prirast u odnosu na grupišuću varijablu
Ishrana.
Homogenost varijansi je pretpostavka za izvođenje nekih statističkih testova, npr., t-testa ili analize
varijansi. Homogenost varijansi pre izvođenja t-testa može biti proverena F-testom, a pre izvođenja
analize varijanse B-testom (Bartlett) i Leveneovim testom.
Statističke mere (npr. aritmetička sredina i/ili 95%CI) dobijene analizom transformisanih podataka mogu
se obrnutom transformacijom vratiti na nivo originalnih podataka. Na primer, ako je upotrebljen
logaritam za osnovu 10 ili e, obrnuta transformacija se izvodi stepenovanjem broja deset, odnosno e
(2.72).
Logaritamska transformacija
Najčešće korišćena transformacija koja se izvodi po formuli t = log x. U transformaciji se najčešće
primenjuju logaritmi sa osnovom 10 ili e (e=2.72).
Primer
U bazi Titar.xlsx nalaze se vrednosti titra antitela dve grupe ispitanika.
3. Pozicionirati se na ćeliju koja se nalazi desno od ćelije čiju vrednost treba transformisati i ukucati
funkciju logaritma za osnovu 10:
4. Sa “Copy” i “Paste” iskopirati sadržaj ćelije sa transformisanim podatkom (na slici gore iskopirati sadržaj
ćelije “C2”) u sve preostale ćelije.
Grupa 1: 109
Grupa 2: 54
Ciljna populacija predstavlja skup elemenata za koji želimo da generalizujemo zaključak. Uzoračka
populacija je populacija koja je dostupna i koja predstavlja ciljnu populaciju (blisko koliko je to moguće),
i iz koje potiče uzorak.
Uzorak predstavlja podskup osnovnog skupa (populacije) koji je izabran na osnovu određenog
kriterijuma.
Cilj i primena uzorka u statistici je ispitivanje određene osobine i generalizacija zaključka na populaciju.
1. Način izbora jedinica posmatranja u uzorak mora biti nezavisan od vrednosti posmatranog
obeležja.
2. Verovatnoća odabira jedinica posmatranja da se nađu u uzorku mora biti unapred poznata.
Kada ovi uslovi nisu ispunjeni radi se o pristrasnom uzorku, koji je izabran na takav način da su neke
jedinice iz uzoračke populacije imale veću verovatnoću da uđu u uzorak.
UZORKOVANJE
Tehnike uzorkovanja - Prema načinu uzorkovanja (biranja jedinica posmatranja u uzorak) uzorci mogu
biti:
§ sa verovatnoćom (slučajni) - sve jedinice posmatranja (npr. osobe, domaćinstva) u populaciji imaju
šansu da budu uključene u uzorak, a verovatnoća da bilo koja od njih bude u uzorku može biti tačno
izračunata i
§ bez verovatnoće (neslučajni) - jedinice posmatranja iz populacije se biraju po principu njihove
dostupnosti ili istraživač smatra da one dobro predstavljaju populaciju. U ovom slučaju nepoznati
deo populacije je isključen, a uzorak može biti pristrasan.
Primer: Cilj istraživanja je bila ocena redovnog uzimanja terapije kod obolelih od arterijske hipertenzije.
Uzorak je formiran od pacijenata koji dolaze na kontrolne preglede. U ovom istraživanju uzorak je
pristrasno biran, jer se može pretpostaviti da pacijenti koji dolaze na kontrolne preglede redovnije
uzimaju terapiju. Zaključak takvog istraživanja bi mogao da se generalizuje samo na populaciju
hipertoničara koji dolaze na kontrolne preglede. Ukoliko bi istraživač želeo da zaključak generalizuje na
ukupnu populaciju obolelih od arterijske hipertenzije, morao bi da u istraživanje uključi ne samo
pacijenate koji dolaze na kontrolne preglede, već i pacijente koji ne dolaze, i na taj način dobije
reprezentativan uzorak za tu populaciju (obolelih od arterijske hipertenzije).
SLUČAJNI UZORCI
U ovom tipu uzoraka vrši se slučajna selekcija jedinica posmatranja i svaka jedinica posmatranja u
populaciji ima poznatu (jednaku i nezavisnu) verovatnoću (šansu) da uđe u uzorak. Razlozi zbog kojih
treba dati prednost slučajnim uzorcima u odnosu na neslučajne su:
1. slučajan način biranja jedinica redukuje pristrasnost u procesu biranja jedinica posmatranja za
uzorak i
2. prilikom korišćenja analitičkih statističkih metoda pretpostavlja se da su uzorci birani na slučajan
način.
Slučajan način biranja jedinica posmatranja za uzorak doprinosi većem kvalitetu studije. Tipovi slučajnih
uzoraka su:
Primer: Istraživač raspolaže podacima bolničkog registra za obolele od multiple skleroze, u kome je
registrovano 150 obolelih. Na osnovu prethodno izračunate veličine uzorka od 30 ispitanika, istraživač
želi da odabere prost slučajan uzorak. Odlučuje da koristi generator slučajnih brojeva koji se nalazi na
Internet adresi www.random.org. Za minimalnu vrednost u generatoru unosi broj 1, a za maksimalnu
150. Postupak ponavlja do potrebne veličine uzorka od 30 ispitanika. Pacijente koji se u registru nalaze
na izvučenim brojevima uključuje u istraživanje.
https://www.randomizer.org/
http://www.mathgoodies.com/calculators/random_no_custom.html
Sistematski uzorak
U ovom tipu uzorka, jedinice posmatranja se biraju sa liste uzoračke populacije izborom svake K-te
jedinice.
K predstavlja korak izbora (uzorački interval), koji zavisi od veličine uzoračke populacije i željene veličine
uzorka.
K = N / n, gde je N veličina uzoračke populacije, a n veličina uzorka
Kao i kod prostog slučajnog uzorka, najpre se formira uzorački okvir tj. numerisani spisak svih dostupnih
jednica posmatranja uzoračke populacije. Zatim se izračunava korak K=N/n . Prva jedinica posmatranja
odabira se pomoću generatora slučajnih brojeva (slučajni početak), a zatim se automatski odabira svaka
K-ta jedinica u uzorak.
Slika: Sistematski uzorak
Sistematski uzorak može dati korisne informacije ako kod jedinica u uzoračkoj populaciji postoji
uređenost po intenzitetu posmatrane karakteristike. Međutim, nije pogodan ako postoje ciklične
varijacije posmatrane karakteristike.
Primer: U istraživanju iz prethodnog primera, istraživač je odlučio da umesto prostog slučajnog, formira
sistematski uzorak veličine 30 ispitanika. Izračunao je korak: 150/30=5. Uz pomoć generatora slučajnih
brojeva odabrao je prvog pacijenta sa brojem 132 u registru. Dalje je iz registra odabran svaki peti
pacijent: 137, 142, 147, 2, 7, 12, 17, 22 itd.
Stratifikovani uzorak
Stratifikovani uzorak se primenjuje kod heterogenih populacija u odnosu na neku varijablu, npr. starosna
grupa, pol, geografska lokacija (stratifikujuća varijabla). Zbog toga se populacija deli na stratume iz kojih
se zatim bira slučajni uzorak (kao prost slučajan ili sistematski uzorak). Ovakav način odabira jedinica
posmatranja osigurava da svaka subpopulacija bude odgovarajuće zastupljena u uzorku.
Slika: Stratifikovani uzorak
Primer: Planirano je istraživanje čiji je cilj ispitivanje navika u ishrani. Na osnovu prethodnog iskustva zna
se da postoje određene razlike u navikama u ishrani između urbanih i ruralnih područja. Ova područja
nisu na reprezentativan način zastupljena u uzoračkoj populaciji. Zbog toga je populacija podeljena na
dva stratuma (urbano i ruralno područje) iz kojih su zatim odabrane jedinice posmatranja tako da uzork
bude reprezentativan.
Klaster uzorak
Kod ovog tipa uzorka, najpre se populacija deli na klastere (grupe), a zatim se na slučajan način biraju
klasteri koji ulaze u uzorak (tako da se na slučajan način biraju grupe - klasteri, a ne individue). Koristan
je kada je populacija velika ili geografski široko rasprostranjena. Često se primenjuje u istraživanjima gde
se populacija može podeliti prema teritorijalnom principu. Npr., klasteri mogu biti škole na teritoriji jedne
države, gde se prvo na slučajan način biraju klasteri (škole), a zatim se sve jedinice posmatranja (učenici)
iz klastera uključuju u uzorak, ili se odabira slučajan uzorak jedinica posmatranja (učenika) iz svakog od
izabranih klastera (višeetapni uzorak).
• prigodni uzorak,
• kvota uzorak i
• namerni uzorak.
Prigodni uzorak
U prigodan uzorak istraživač uključuje lako dostupne jedinice posmatranja, npr. pacijente koji su lečeni
na odeljenju na kome radi. U ovom tipu uzorka može postojati pristrasnost u smislu da se lako dostupne
jedinice na neki način razlikuju od ostalih jednica, npr. pacijenti lečeni u bolnici imaju teže oblike bolesti
od onih koji se leče van bolnice. Varijanta ovog uzorka je uzorak po tipu “grudve snega” u kojem inicijalno
odabrane jedinice posmatranja angažuju druge jedinice npr. inicijalno anketirani angažuju za anketu
druge pogodne osobe.
Kvota uzorak
Populacija se najpre deli na kategorije, slično stratifikovanom uzorku, npr. po polu, a zatim se na
neslučajan način biraju jedinice posmatranja iz tih kategorija prema unapred utvrđenom broju (kvota),
čime se kontroliše broj jedinica posmatranja iz određene kategorije u konačnom uzorku.
Namerni uzorak
Istraživač bira one jedinice posmatranja koje poseduju određene karakteristike za koje smatra da
zadovoljavaju specifične zahteve istraživanja. U ovom tipu uzorka može postojati značajna pristrasnost u
postupku biranja jedinica posmatranja, ali se u medicini često koriste u tzv. pilot studijama, kada se
upravo želi određeni tip jedinica posmatranja u uzorku (za istraživanje inovativnog načina lečenja
pacijenata u terminalnom stadijumu karcinoma).
UZORAK I POPULACIJA
Parametri su numeričke karakteristike ili deskriptivne mere populacije, (npr. mere centralne tendencije i
mere varijabiliteta izračunate za populaciju). Parametri su nepromenljive vrednosti u populaciji.
Odgovarajuće numeričke karakteristike ili deskriptivne mere uzoraka (npr. mere centralne tendencije i
mere varijabiliteta izračunate za uzorak) nazivaju se (uzoračkim) statistikama.
Uobičajeno se populacioni parametri označavaju grčkim slovima, a uzoračke statistike latiničnim slovima:
Parametri populacije su često nepoznati i nepristupačni za merenje. Npr, prosečna visina studenata u
Srbiji je nepoznata i teško merljiva. Zbog toga računamo uzoračku statistiku koja se odnosi na parametar
od interesa, i na osnovu nje donosimo zaključak o populaciji.
Uzoračke raspodele
Raspodela uzoračkih statistika naziva se uzoračkom raspodelom:
Dve vrlo važne uzoračke raspodele jesu uzoračka raspodela aritmetičkih sredina i uzoračka raspodela
proporcija. Poznavanje ovih raspodela je potrebno zbog ocene aritmetičke sredine ili proporcije u populaciji
(ocena parametra). U praksi bi bilo teško formirati veliki broj uzoraka u cilju dobijanja empirijske raspodele
aritmetičkih sredina ili proporcije, ali to i nije neophodno, jer se na osnovu aritmetičke sredine ili proporcije
jednog uzorka i poznavanja statističkih osobina uzoračkih raspodela može dati ocena nepoznatog parametra
u populaciji.
Statističke osobine uzoračkih raspodela sadržane su u jednoj od najvažnijih teorema u statistici – u centralnoj
graničnoj teoremi. Osobine centralne granične teoreme, na primeru uzoračke raspodele aritmetičke sredine,
su sledeće:
𝑠𝑑
𝑆𝐸#̅ =
√𝑛
EZR: Uzorkovanje
Primer: U bazi podataka Sistolni pritisak date su vrednosti sistolnog arterijskog pritiska 99 bolesnika sa
akutnim koronarnim sindromom.
Generisati 10 jedinstvenih brojeva bez ponavljanja za formiranje uzorka koristeći sledeću komandu:
sample(1:99,10,replace=F)
U navedenoj komandi 1:99 je uzorački okvir, odnosno, opseg dostupnih statističkih jedinica uzoračke
populacije, a sledeći broj 10 je broj traženih slučajnih brojeva. Sa svakom ponovljenom primenom
ove komande mala je verovatnoća da će biti dobijena ista kombinacija brojeva, a konkretan primer
generisanih brojeva izgledao bi:
Jedinice posmatranja sa tim rednim brojevima u uzoračkom okviru biće izabrane za uzorak.
U konkretnoj primeni ove komande generisan je slučajan broj 2. a dalje se izvlači svaka K-ta jedinica
tj. svaka 10-ta jedinica: 2, 12, 22, itd.
Redni broj iz uzoračkog okvira:
2 12 22 32 42 52 62 72 82 92
Sistolni pritisak:
140 125 140 150 170 115 125 145 140 135
3. Na osnovu izabranih jedinica posmatranja napraviti bazu podataka i uneti vrednosti za oba
uzorka.
4. Izračunati i uporediti deskritivne statističke mere za osnovni skup i oba uzorka.
Može se zapaziti da mere centralne tendencije (aritmetička sredina i medijana) imaju slične vrednosti
u sva tri slučaja. Standardna devijacija dobijena iz prostog slučajnog uzorka je manja od one u
osnovnom skupu. Interval varijacije dobijen na osnovu prostog slučajnog uzorka i sistematskog
slučajnog uzorka je manji nego u osnovnom skupu.
Prosečna vrednost glikemije u uzorku od 140 bolesnika iznosi 5.8 mmol/L. Navedena vrednost je:
o Populacioni parametar
o Uzoračka statistika
Statističko zaključivanje – ocenjivanje
populacionih parametara
Statističko zaključivanje:
• ocena parametara populacije i
• testiranje hipoteza.
Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa) donosimo
zaključke o populaciji (statističko zaključivanje).
Jedan od najvažnijih istraživačkih zadataka jeste ocena parametara u populaciji, najčešće aritmetičke sredine
ili proporcije. Parametre ne možemo izračunavati direktno, ali možemo dati njihovu ocenu korišćenjem
uzoračkih statistika. Uzoračka aritmetička sredina ili proporcija predstavljaju tačkaste ocene ovih parametara
u populaciji. Tačkasta procena predstavlja jednu vrednost kojom se aproksimira populacioni parametar.
Intervalna procena pruža više informacija o populacionoj karakteristici od tačkaste procene. Ona obezbeđuje
nivo poverenja za ovu procenu. Takva intervalna procena se naziva interval poverenja. Krajnje tačke intervala
poverenja nazivaju se granicama poverenja, a verovatnoća sa kojom se parametar nalazi unutar intervala
poverenja nivoom poverenja. Intervali poverenja se najčešće izračunavaju za nivo poverenja od 0.95 i 0.99
(95% i 99%).
Tumačenje IP
• Ukoliko bismo uzeli sve moguće uzorke veličine n i izračunali njihove aritmetičke sredine i
intervale, 95% (99%) svih intervala bi sadržalo pravu vrednost nepoznatog populacionog parametra
• Određeni interval može ali ne mora da sadrži pravu vrednost populacionog parametra
Kritična vrednost predstavlja broj koji granično razdvaja uzoračke statistike za koje je verovatno da će se
pojaviti od onih za koje to nije verovatno.
Standardna greška (SE) je mera odstupanja/variranja uzoračke statistike od prave vrednosti populacionog
parametra.
99% interval poverenja je sigurniji, ima manji rizik greške u odnosu na 95% interval poverenja. Istraživači ipak
češće koriste 95% interval poverenja jer su oni precizniji (uži interval) u odnosu na 99% interval poverenja.
Osim toga, na širinu intervala poverenja utiču veličina uzorka i varijabilitet. Širina intervala poverenja opada
sa povećanjem veličine uzorka i sa smanjenjem varijabiliteta.
Interval poverenja aritmetičke sredine
gde je:
𝑥̅ aritmetička sredina uzorka
sd standardna devijacija
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
μ aritmetička sredina populacije
𝑠𝑑3 predstavlja standardnu grešku aritmetičke sredine (SE)
√𝑛
t ∙ 𝑠𝑑3 predstavlja preciznost procene (E), koji odgovara polovini širine intervala poverenja
√𝑛
Primer 1: Baza Sistolna TA.xlsx sadrži podatke o sistolnom arterijskom pritisku slučajnog uzorka od 10
ispitanika sa akutnim koronarnim sindromom. Odrediti 95% interval poverenja aritmetičke sredine sistolnog
arterijskog pritiska za tu populaciju bolesnika.
Procedura u EZR-u
1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test
95% interval poverenja aritmetičke sredine sistolnog arterijskog pritiska u populaciji ispitanika sa akutnim
koronarnim sindromom:
130.4mmHg ≤ μ ≤147.6 mmHg
Interval poverenja proporcije
gde je:
p proporcija posmatranog događaja u uzorku
n veličina uzorka
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
=(%:=)
5 predstavlja standardnu grešku proporcije
$
=(%:=)
𝑡∙5 predstavlja preciznost ocene, što je istovremeno i polovina širine intervala poverenja.
$
Primer 2: Na uzorku od 155 učenika u jednoj opštini deformiteti skeleta su pronađeni kod 19 učenika. Odrediti
interval poverenja u kome se sa verovatnoćom 0.95 nalazi proporcija učenika sa deformitetom skeleta u toj
opštini.
Procedura u EZR-u
1) Kliknuti na: Statistical analysis→Discrete variables→Confidence interval for a proportion
Prozor sa rezultatima:
0.07≤ π ≤ 0.19
Testiranje hipoteza
Hipoteza je pretpostavka koja zahteva dokazivanje tj. donošenje zaključka o prihvatanju ili odbacivanju
hipoteze. Hipoteza koju postavlja istraživač je predikcija izvedena iz teorije koja se testira. U medicini
istraživačke hipoteze se najčešće proveravaju na osnovu podataka dobijenih iz uzorka, a zaključci se zatim
generalizuju na osnovni skup iz kojeg je dobijen uzorak. Istraživačke hipoteze u medicini mogu se
odnositi na različite istraživačke ciljeve:
1. U etiološkim studijama je cilj ispitati povezanost izloženosti nekom faktoru rizika i određenog ishoda:
a. Na primer, može biti postavljena istraživačka hipoteza da se pušači i nepušači razlikuju prema
učestalosti hroničnog bronhitisa. U ovom primeru, faktor rizika je navika pušenja, a ishod je pojava
bolesti – hroničnog bronhitisa.
b. U drugom primeru, može biti postavljena istraživačka hipoteza da se pušači i nepušači razlikuju
prema nivou karboksihemoglobina u krvi. Kao i u prethodnom, i u ovom primeru faktor rizika je
navika pušenja, a ishod je nivo karboksihemoglobina.
2. U prognostičkim studijama cilj je, za definisanu populaciju ispitanika, analizirati učestalost događaja i
vreme do njihovog nastupanja. Događaj može biti preživljavanje ili smrtni ishod, nastupanje remisije,
ozdravljenje, nastupanje recidiva, pojava komplikacija itd. Na primer, može biti postavljena istraživačka
hipoteza da je trajanje remisije u depresivnom poremećaju kraće kod pacijenata sa slabijim socijalnim
funkcionisanjem.
3. U studijama intervencije cilj je oceniti efektivnost nekog tretmana. Na primer, može biti postavljena
hipoteza da je antihipertenziv A efektivniji od antihipertenziva B.
4. U studijama o učestalosti bolesti može biti postavljena hipoteza o stopi prevalencije neke bolesti u
populaciji.
Testiranje hipoteza je standardni statistički metod kojim se ispituje neki iskaz / tvrdnja / pretpostavka o
populaciji.
Procedura statističkog testiranja hipoteza (testiranja značajnosti) prolazi kroz nekoliko faza:
U postupku testiranja hipoteza, primenom statističkih metoda, testira se nulta hipoteza, posle čega je
moguće doneti samo jednu od dve moguće odluke:
1. Nulta hipoteza se prihvata, a odbacuje radna hipoteza i donosi se zaključak da ne postoji značajna
razlika između populacionih parametara. Na primer, ako je testirana jednakost aritmetičkih sredina
karboksihemoglobina pušača i nepušača, prihvatanjem nulte hipoteze donosi se zaključak da su one
jednake, odnosno da ne postoji razlika prosečnih vrednosti karboksihemoglobina između pušača i
nepušača.
2. Nulta hipoteza se odbacuje, a prihvata radna hipoteza i donosi se zaključak da postoji značajna
razlika između populacionih parametara. Na primer, ako je testirana jednakost aritmetičkih sredina
karboksihemoglobina pušača i nepušača, odbacivanjem nulte hipoteze donosi se zaključak da se one
razlikuju, odnosno da postoji statistički značajna razlika prosečnih vrednosti karboksihemoglobina
između pušača i nepušača.
Radna hipoteza formulisana kao H1: μ0≠ μ1 spada u dvosmerne (dvostrane, neusmerene) hipoteze, jer se
njome tvrdi da postoji razlika, ali ne i u kom smeru. Kada se radnom hipotezom tvrdi da postoji razlika u
jednom smeru, u pitanju je jednosmerna (jednostrana, usmerena) hipoteza. Jednosmerna radna hipoteza,
zavisno od tvrđenja o smeru razlike, može biti formulisana kao
H1 : μ1 < μ2, ili H1: μ1 > μ2.
Primer 3: U primeru 1 radna hipoteza je formulisana kao dvosmerna jer je cilj bio da se dokaže razlika,
bez očekivanja o smeru te razlike. Ista radna hipoteza mogla je biti formulisana i kao jednosmerna
hipoteza. Na primer, ako se tvrdi da je nivo hemoglobina veći kod pušača, radna hipoteza će imati oblik:
H1 : μPušači > μNepušači
Nivo značajnosti i greške u zaključivanju
U proceduri testiranja hipoteza moguća su četiri ishoda odlučivanja, u zavisnosti od toga da li se donese
odluka o prihvatanju ili odbacivanju nulte hipoteze i prave istine u populaciji (Tabela 1). Ishodi zavise od
onoga što saznajemo i odlučujemo na osnovu analize podataka iz uzorka, i onoga što predstavlja
apsolutnu istinu u populaciji. Dve ispravne odluke su odbacivanje netačne nulte hipoteze ili prihvatanje
tačne nulte hipoteze. Zaključci doneti statističkim metodama imaju probabilističku prirodu, odnosno uvek
uključuju komponentu slučajnosti. Ta slučajnost proističe iz toga što nismo u mogućnosti da opserviramo
kompletnu populaciju, koja je u teorijskom smislu beskonačna, već samo jedan njen deo, a to je uzorak.
Formiranje uzorka zavisi od slučajnosti. U ponovljenim biranjima uzorka mala je verovatnoća da ćemo
dobiti uzorak istog sastava, pa samim tim je moguće u ponovljenom istraživanju sa novim uzorkom
doneti i drugačiji zaključak. Zbog probabilističke prirode statističkog zaključivanja moguće je, osim
ispravne odluke, doneti i dve pogrešne odluke koje nazivamo greškama prvog odnosno drugog tipa:
1. Greška prvog tipa nastaje kada se odbaci tačna nulta hipoteza. Verovatnoća greške ovog
tipa obeležava se sa α
2. Greška drugog tipa nastaje kada se prihvati netačna nulta hipoteza. Verovatnoća greške
ovog tipa obeležava se sa β
U proceduri testiranja hipoteza moguće je napraviti samo jedan tip greške, a nikako obe istovremeno.
Oba tipa grešaka mogu imati važne posledice. Greška prvog tipa za posledicu ima donošenje zaključka o
postojanju efekta kada ga zapravo nema. Greška drugog tipa za posledicu ima donošenje zaključka da
ne postoji efekat kada ga zapravo ima.
Primer 4: Stvarno stanje je da novi skuplji lek A ima jednaku učestalost neželjenih dejstava kao i
stari lek B. U procesu testiranja hipoteza odbačena je nulta hipoteza, i donešen je zaključak da novi
lek A ima manju učestalost neželjenih dejstava. Napravljena je greška prvog tipa, koja za posledicu
ima nepotrebno veće troškove lečenja.
Primer 5: Stvarno stanje je da novi lek A ima manju učestalost neželjenih dejstava u odnosu na stari
lek B. U procesu testiranja hipoteza donešen je zaključak da ostaje da važi nulta hipoteza, odnosno
da novi lek A ima jednaku učestalost neželjenih dejstava kao i stari lek B. Napravljena je greška
drugog tipa, koja za posledicu ima nepropisivanje bezbednijeg leka, odnosno, leka sa manje
neželjenih dejstava.
Verovatnoće oba tipa grešaka moguće je u izvesnoj meri kontrolisati, pri čemu treba uzeti u obzir da su
one međusobno povezane: smanjivanje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće
greške drugog tipa, i obrnuto.
Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača. Maksimalno dozvoljena
verovatnoća greške prvog tipa koju istraživač prihvata u istraživanju predstavlja nivo značajnosti (α nivo).
Najčešće se za nivo značajnosti bira verovatnoća od 0.05, retko strožiji nivo od 0.01, a još ređe nivo od
0.001. Prelaskom sa nivoa značajnosti 0.05 na 0.01, smanjuje se verovatnoća greške prvog tipa, ali se
istovremeno povećava verovatnoća greške drugog tipa, tako da istraživači u zaključivanju najčešće biraju
nivo značajnosti od 0.05.
2.Veličine uzorka. Povećanje veličine uzorka smanjuje verovatnoću greške i prvog i drugog tipa.
Povećanje uzorka je od većeg značaja za kontrolu greške drugog tipa, jer grešku prvog tipa istraživač
drži pod kontrolom izborom nivoa značajnosti.
3.Formulacije H1 kao dvosmerne ili jednosmerne. Greška drugog tipa manja je kod jednosmerne u
odnosu na dvosmernu radnu hipotezu.
4.Stvarne razlike ispitivane pojave. Na razliku ispitivanih parametara u populaciji istraživač ne može
da utiče, ali ako je ta razlika veća biće manja verovatnoća greške drugog tipa.
Komplement verovatnoće greške drugog tipa (1-β) naziva se snagom statističkog testa, koja predstavlja
verovatnoću odbacivanja nulte hipoteze kada je ona netačna. U istraživanjima se za donju prihvatljivu
granicu snage testa najčešće uzima verovatnoća od 0.80. Sve ono što je navedeno da utiče, ili može
poslužiti za kontrolu verovatnoće greške drugog tipa, takođe utiče i na snagu statističkog testa, ali u
obrnutom smeru. Prema tome, snaga statističkog testa biće veća ako je:
Parametarski statistički testovi bazirani su na ocenama jednog ili više populacionih parametara dobijenih
na osnovu uzoračkih podataka. Koriste se za testiranje hipoteza o populacionim parametrima i
pretpostavljaju normalnost raspodele u osnovnom skupu.
Neparametarski statistički testovi se koriste kada raspodela odstupa od normalne, kada su podaci
ordinalni ili su u vidu rangova. Neparametarski statistički testovi ne zahtevaju poznavanje oblika
raspodele u osnovnom skupu i normalnost raspodele, ne zahtevaju homogenost u smislu varijabiliteta, i
mogu biti primenjeni u svim uslovima u kojima nisu ispunjene pretpostavke za primenu parametarskih
testova.
Uopšte uzev, kada treba birati između parametarskih i neparametarskih testova, prednost treba dati
prvima kad god su ispunjeni uslovi za njihovu primenu jer imaju veću snagu u odnosu na druge. Za svaki
parametarski test postoji najmanje jedan ekvivalentan neparametarski test, koji se može primeniti, ali iz
navedenog razloga koji se odnosi na statističku snagu, neparametarske testove treba primeniti kada nisu
ispunjeni uslovi i kada nije adekvatno primeniti parametarske testove.
Izbor adekvatnog statističkog testa je jedna od važnih stavki za kontrolu grešaka prvog i drugog tipa u
procesu testiranja hipoteza.
Izbor adekvatnog testa zavisi od (1) ciljeva studije, (2) tipa podataka, (3) raspodele podataka i (4) broja i
tipa uzoraka . Na osnovu tih informacija istraživač se odlučuje za primenu konkretnog statističkog testa.
• Zavisno od cilja studije, u procesu testiranja hipoteza može se testirati značajnost razlike ili
značajnost povezanosti varijabli.
• Tip podataka (nominalni, ordinalni, numerički). Na primer, za nominalnie podatke moguću
primenu ima Pearsonov hi-kvadrat test, a za ordinalne podatke Mann-Whitney test.
• Normalnost raspodele je pretpostavka za primenu parametarskih testova.
• Dizajn studije
• Broj uzoraka. Na primer, za testiranje razlike dve aritmetičke sredine moguću primenu ima t-test,
a za testiranje razlike dve ili više aritmetičkih sredina moguću primenu ima ANOVA.
• Nezavisni ili zavisni uzorci
i. Nezavisni (nemečovani, nevezani) uzorci – jedinice u jednom uzorku su različite i nezavisne
od jedinica u drugom uzorku. Primer: jedan uzorak čine ispitanici izloženi štetnim
isparenjima, a drugi uzorak kontrolni ispitanici koji nisu izloženi. Testira se razlika
učestalosti arterijske hipertenzije, pri čemu moguću primenu ima hi-kvadrat test.
ii. Zavisni (vezani, korelisani) uzorci – jedinice jednog uzorka povezane su sa jedinicama
drugog uzorka. Zavisni uzorci nastaju:
• U dizajnu pre-posle kada se merenje vrednosti jedne varijable vrši na istim jedinicama
posmatranja dva ili više puta (ponovljena merenja). Primer: Uzorak čine ispitanici oboleli od
depresije. Izmeren je arterijski pritisak pre i 20 dana nakon započete terapije antidepresivima.
Testira se promena učestalosti hipotenzije (pre i posle primene antidepresiva) pri čemu moguću
primenu ima McNemarov test.
• Uparivanjem (mečovanjem) – svakoj jedinici posmatranja iz jednog uzorka odgovara jedna (ili
više) jedinica posmatranja iz drugog uzorka a koje su uparene prema nekoj varijabli. Primer: Jedan
uzorak čine ispitanici koji su izloženi štetnim isparenjima, a drugi uzorak, mečovan po polu i
starosti, čine neizloženi kontrolni ispitanici. Svaki ispitanik iz kontrolne grupe uparen je sa nekim
ispitanikom iz gupe izloženih – istog su pola i iste starosti. Testira se razlika učestalosti arterijske
hipertenzije između grupa, pri čemu moguću primenu ima McNemarov test.
Razlog zbog čega je, na primer, 1.96 granična vrednost z-testa za dvosmerno testiranje i nivo značajnosti
od 0.05, je taj što z-statistika sledi normalnu raspodelu, a na osnovu tabela površina ispod krive
standardne normalne raspodele može se izračunati da z-statistika veća od 1.96 i manja od -1.96 odgovara
verovatnoći od 0.05, odnosno nivou statističke značajnosti od 0.05 (slika 1).
Drugi način donošenja odluke o prihvatanju ili odbacivanju nulte hipoteze jeste uz primenu statističkog
softvera. U rezultatima testiranja hipoteza uz korišćenje statističkog softvera dobije se p-vrednost, koja
predstavlja verovatnoću opserviranih ili ekstremnijih razlika uzoračkih statistika pod pretpostavkom
važenja nulte hipoteze. Kada je ta verovatnoća manja od neke unapred zadate vrednosti, najčešće 0.05,
odbacujemo nultu hipotezu. U protivnom, kada je p-vrednost veća od 0,05 ostaje da važi nulta hipoteza.
Primer 6: Cilj istraživanja bio je ispitivanje razlike nivoa hlorida u serumu između ispitanika obolelih od
gihta koji redovno uzimaju terapiju i ispitanika koji neredovno uzimaju terapiju.
H0 : μRedovnaTH = μNeredovnaTH
H1 : μRedovnaTH ≠ μ NeredovnaTH
Na osnovu rezultata primenjenog statističkog testa doneta je odluka o prihvatanju nulte hipoteze,
odnosno zaključeno je da se oboleli od gihta koji redovno i neredovno uzimaju terapiju ne razlikuju
statistički značajno prema nivou hlorida u serumu.
Primer 7: Cilj istraživanja bio je ispitivanje razlike učestalosti neželjenih dejstava na CNS između dva leka
(atenolol i propranolol).
H0 : πAtenolol = πPropranolol
H1 : πAtenolol ≠ πPropranolol
Na osnovu prikupljenih podataka, od 57 ispitanika koji su primali atenolol, neželjena dejstva na CNS
zapažena su kod 3 (5%) ispitanika. Od 55 ispitanika koji su primali propranolol, neželjena dejstva zapažena
su kod 11 (20%) ispitanika. Kako su u pitanju nominalni podaci, adekvatnu primenu ima hi-kvadrat test.
Dobijena je hi-kvadrat statistika od 5.56. Na osnovu hi-kvadrat raspodele, i pod pretpostavkom važenja
nulte hipoteze, verovatnoća opserviranih razlika proporocija ili ekstremnijih, manja je od 0.05. Istraživač
odbacuje nultu hipotezu i prihvata alternativnu – donosi zaključak da je proporcija učestalosti neželjenih
dejstava na CNS veća u populaciji ispitanika koji koriste propranolol.
Donošenje odluke o prihvatanju ili odbacivanju nulte hipoteze primenom statističkog softvera
Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poređenja p-vrednosti i
odabranog nivoa statističke značajnosti. Nivo statističke značajnosti (alfa vrednost) je maksimalno
dozvoljena verovatnoća greške prvog tipa, i najčešće se odabira vrednost 0.05 (alfa = 0.05). Kada je p
vrednost jednaka ili manja od izabranog nivoa značajnosti (p ≤ 0.05), odbacuje se nulta i prihvata radna
hipoteza. U protivnom, ako je p-vrednost veća od odabranog nivoa statističke značajnosti (p > 0.05),
ostaje da važi nulta hipoteza.
Studentov t-test je zasnovan na t raspodeli. Ova raspodela je slična normalnoj, ima zvonast oblik i
simetrična je. Sa povećanjem veličine uzorka postaje sve sličnija normalnoj raspodeli. Granične vrednosti
za odbacivanje nulte hipoteze zavise od toga da li se radi o dvosmernom ili jednosmernom testiranju,
izabranog nivoa značajnosti i od broja stepena slobode (DF), koji predstavlja broj podataka umanjen za
jedan u svakoj seriji podataka.
Pretpostavka za primenu t-testa jeste da ispitivana varijabla ima normalnu raspodelu u osnovnom skupu,
premda je test robustan na izvesno odstupanje od normalnosti. Ta robustnost raste sa povećanjem
uzorka.
H0: µ = 5
odnosno, nulta hipoteza tvrdi da aktuelni uzorak potiče iz populacije sa aritmetičkom sredinom koja
iznosi 5. Ako na osnovu statistike testa odbacimo nultu hipotezu, onda prihvatamo alternativnu hipotezu
koja tvrdi da uzorak potiče iz populacije sa aritmetičkom sredinom koja je različita od specifikovane
vrednosti (u ovom primeru različito od 5).
Rešenje:
Hipoteze:
H0: µ=145
H1: µ≠145
1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test
Primer Ispitivan je odnos nadmorske visine prebivališta i gustine mitohondrija u tkivu mišića kvadriceps
femoris. Podaci o gustini mitohodrija (%) dati su za ispitanike sa stalnim prebivalištem na nadmorskoj
visini do 200 m i preko 700 m. Ispitati da li se osobe sa različitim nadmorskim visinama prebivališta
razlikuju prema gustini mitohondrija.
U pitanju su dva nezavisna uzorka. Podaci ne odstupaju od normalosti, može se upotrebiti t-test za dva
nezavisna uzorka.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Nadmvisina.xlsx
3) Testirati normalnost raspodele obe podgrupe na način opisan u lekciji EZR - Provera normalnosti
raspodele.
4) Testirati jednakosti varijansi primenom Levene's Test for Homogenity of Variance koji se izvodi na
sledeći način: Original menu→Statistics→Variances→Levene`s test...
7) Zaključak: Aritmetička sredina gustine mitohondrija osoba sa nadmorskom visinom prebivlišta ispod
200 m iznosi 3.79% (sd 0.37%), a osoba sa nadmorskom visinom prebivališta iznad 700 m iznosi 4.97%
(sd 0.34%). Aritmetička sredina gustine mitohondrija osoba sa prebivalištem iznad 700 m nadmorske
visine statistički značajno je veća u odnosu na gustinu mitohondrija osoba sa prebivalištem ispod 200 m
nadmorske visine (t=13.697; p < 0.001).
______________
NAPOMENA: Ako je u t-testu vrednost statistike testa negativna, kao u našem primeru -13.73, istraživač
u izveštaju može izostaviti minus, pošto on govori samo o smeru razlike.
Studentov t-test za zavisne uzorke
Zavisni uzorci nastaju u dizajnu ponovljenih merenja ili mečovanjem (uparivanjem) sličnih jedinica iz
različitih uzoraka. Razliku aritmetičkih sredina zavisnih uzoraka možemo testirati t-testom za zavisne
uzorke (t-test korelisanih uzoraka, t-test mečovanih uzoraka – parova). Test je zasnovan na razlici pre-
posle ili razlici mečovanih parova vrednosti.
d = xpre – xposle (u dizajnu ponovljenih merenja)
d = xuzorak1 – xuzorak2 (kod mečovanih uzoraka)
Nulta hipoteza tvrdi da je aritmetička sredina ovih razlika jednaka nuli, a alternativna suprotno:
H0: µd = 0
H0: μd ≠ 0
Uslov za primenu t-testa za zavisne uzorke jeste normalnost raspodele podataka..
Primer: U studiji koja je dizajnirana po tipu pre-posle date su vrednosti sistolne arterijske tenzije pre
početka terapije i mesec dana nakon početka terapije. Radi se o istim ispitanicima koji su već opisani u
primeru 1 u lekciji o McNemarovom testu. Cilj istraživanja bio je da se ispita da li je došlo do promene
sistolne arterijske tenzije u posmatranom periodu.
Za ove podatke moguće je primeniti t-test jer podaci ne odstupaju od normalnosti.
Procedura u EZR-u:
3) Testirati normalnost raspodele obe podgrupe na način opisan u lekciji EZR - Provera normalnosti
raspodele.
4) t-test za dva zavisna uzorka izvodi se klikom na liniju sa komandama: Statistical analysis→Continuous
variables→Paired t-test
U dijalog prozoru koji se otvorio:
o u okviru polja First variable (pick one) odabrati prvo merenje ispitivane varijable
o u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane varijable
o kliknuti na dugme OK
6) Zaključak: Aritmetička sredina sistolne tenzije pre terapije iznosila je 144±14 mmHg a posle tarpije
139±13 mmHg. Vrednosti sistolne tenzije statistički značajno su niže mesec dana posle terapije u odnosu
na vrednosti pre početka terapije (t=2.74, DF=90, p=0.007).
Primer: U studiji koja je dizajnirana po tipu mečovanih ispitanika date su vrednosti MCV (fL). Radi se o
istim ispitanicima koji su već opisani u primeru 2 u lekciji o McNemarovom testu. Cilj istraživanja bio je
da se ispita da li se vakcinisani i nevakcinisani razlikuju prema vrednosti MCV-a?.
Procedura u EZR-u:
1) Preuzeti i učitati bazu podataka Pneumokok 2.xlsx
2) Deskripcija podataka za obe grupe mečovanih ispitanika može se uraditi na sledeći način: Original
menu→Statistics→Summaries→Numerical summaries
4) T-test za dva zavisna uzorka izvodi se klikom na liniju sa komandama: Statistical analysis→Continuous
variables→Paired t-test
o u okviru polja First variable (pick one) odabrati ispitivanu varijablu grupe slučajeva
o u okviru polja Second variable (pick one) odabrati ispitivanu varijablu kontrolne grupe
o kliknuti na dugme OK
6) Zaključak: Aritmetička sredina MCV-a kod vakcinisanih iznosi 90±3.6 fL, a kod nevakcinisanih 90±3.9
fL. Vakcinisani i nevakcinisani ne razlikuju se statistički značajno prema vrednostima MCV (t=0.498,
DF=88, p=0.620).
Primer 1: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140 osoba,
nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba i krvnu
grupu AB 7 osoba. Podaci se nalaze u dokumentu Krvne grupe.xlsx koji se može preuzeti sa naslovne
stranice kursa. Na osnovu ranijih istraživanja poznato je da je relativna učestanost tih krvnih grupa: O –
44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa razlikuju od očekivanih?
Testirati na nivou značajnosti od 0,05.
Rešenje:
Testiramo nultu hipotezu da se proporcije krvnih grupa u ispitivanoj populaciji ne razlikuju od proporcija
iz prethodnih istraživanja. Kako je u pitanju raspodela samo prema jednoj varijabli, a treba testirati da li
je raspodela proporcija u ispitivanoj populaciji jednaka proporcijama iz prethodnih istraživanja,
primenićemo hi-kvadrat test slaganja.
4) U dijalog prozoru koji se pojavio, ukucati očekivane učestalosti za sve kategorije ispitivane varijable,
pa kliknuti na dugme OK. Zbir očekivanih učestalosti mora da bude 1. Obratiti pažnju da je redosled
kategorija u dijalog prozoru po abecednom redu i da se može razlikovati od redosleda u zadatku.
Procedura u EZR-u:
1) Preuzeti i učitati bazu podataka Alkohol i jetra cross-sectional.xlsx
o u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Compute Percentages označiti Row percentages za izračunavanje procenata po
redovima
o u delu Hypothesis Tests:
§ čekirati polje Chi-square test za izračunavanje Hi-kvadrat testa
§ čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti
o u delu Continuity correction of chi-square test: označiti No, da bi se Hi-kvadrat test
izračunao bez Yatesove korekcije
o kliknuti na dugme OK
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
5) Zaključak: Učestalost patoloških promena kod konzumenata alkohola iznosi 38%, a kod
nekonzumenata 14%. Patološke promene su statistički značajno povezane sa konzumiranjem alkohola
(Hi-kvadrat = 7.65, DF = 1, p = 0.006).
Primer 2: Hi-kvadrat test, tabela 2 x 2, test homogenosti
Primer: Cilj u studiji slučaj-kontrola bio je ispitivanje konzimranja alkohola kao faktora rizika za patološke
promene na jetri. Iz populacije osoba sa patološkim promenama na jetri formiran je slučajan uzorak
veličine 60, a iz populacije uslovno zdravih slučajan uzorak veličine 104. Od svih ispitanika zabeležen je
anamnestički podataka o konzumiranju alkohola. Testirati hipotezu o homogenosti populacija sa i bez
patoloških promena na jetri prema proporciji konzumenata alkohola.
Razlika u proceduri u odnosu na primer 1 je što je u ovom slučaju u pitanju studija slučaj-kontrola kada
je najadekvatnije prikazati procente unutar ishodne varijable, što je u našem primeru varijabla Patološka
promena na jetri.
Procedura u EZR:
Razlika ovog primera u odnosu na prethodna dva primera jeste dimenzija tabele koja je sada 3x2. U
ovom primeru u pitanju je kohortna studija pa je najadekvatnije prikazati procente unutar varijable koja
definiše kohorte, što je u našem primeru varijabla Pušenje.
Procedura u EZR:
4) Zaključak: Proporcija oboljevanja od akutnih respiratornih infekcija u toku zime kod nepušača iznosi
25%, kod pušača sa popušenih do 20 cigareta dnevno 38%, i kod pušača sa popušenih preko 20 cigareta
dnevno 46%. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano
sa pušenjem (Hi-kvadrat = 7.62, DF = 2, p = 0.022).
Primer 4: Hi-kvadrat test, tabela 3 x 2, koja će posle sažimanja, zbog malih učestalosti, biti svedena
na tabelu 2 x 2
Opis podataka: Radi se o istom israživanju kao i u primer 3, ali ovog puta sa manjim učestalostima zbog
čega će biti neophodno da se izvrši sažimanje susednih kategorija.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Pusenje_ak.resp_2.xlsx
U cilju lakše interpretacije rezultata, sažimanje treba obaviti po nekoj logičnoj osnovi. U našem primeru
objedinili smo kategorije pušača do 20 i preko 20 popušenih cigareta dnevno u jedinstvenu kategoriju
“pušača”.
Postojeća varijabla Pusenje ima sledeće kategorije:
• 1.Ne
• 2.Do 20 cigareta dnevno
• 3.Preko 20 cigareta dnevno
Cilj nam je u rekodiranju da dobijemo novu varijablu Pusenje2 koja će imati dve kategorije. Kategoriju
nepušača i kategoriju pušača:
• Ne
• Da
Kategorije 2.Do 20 cigareta dnevno i 3.Preko 20 cigareta dnevno varijable Pusenje, postaju kategorija Da
nove varijable Pusenje2:
a) Otvoriti Excel fajl u kom se nalazi baza podataka. Kliknuti desnim tasterom miša na redno slovo
kolone varijable koju želimo da rekodiramo (u našem slučaju A kolona). Na padajućem meniju
kliknuti levim tasterom miša na Copy.
b) Kliknuti desnim tasterom miša na redno slovo sledeće kolone, do varijable koju rekodiramo. Na
padajućem meniju kliknuti levim tasterom na Insert Copied Cells. Varijabla koju želimo da
rekodiramo iskopiraće se do originalne. Promeniti naziv rekodirane varijable u Pusenje2.
c) Kliknuti u liniji menija na Data pa na Filter. Alternativno filter se može aktivirati istovremenim
klikom na kombinaciju tastera Crtl+Shift+L.
d) Klikom na strelicu na dole iza naziva varijable otvara se padajući meni gde su prikazane sve
kategorije varijable koju želimo da rekodiramo. Selektovati željene kategorije koje treba spojiti (u
našem slučaju 1.Do 20 cigareta dnevno i 2.Preko 20 cigareta dnevno) pa kliknuti na OK i Excel će
prikazati samo te kategorije.
Rekodiranje se može raditi i u originalnoj varijabli bez kopiranja sadržaja u novu kolonu. Preporučujemo
da se rekodiranje radi sa kopiranjem varijable zbog provere kodiranja i eventualnih drugih analiza sa
originalnom varijablom.
Primer: Cilj u studiji slučaj-kontrola bio je ispitivanje konzumiranja alkohola kao faktora rizika za arterijsku
hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je slučajan uzorak veličine 5, a iz
populacije uslovno zdravih slučajan uzorak veličine 6. Od svih ispitanika zabeležen je anamnestički
podataka o konzumiranju alkohola. Testirati hipotezu o homogenosti populacija sa i bez arterijske
hipertenzije prema proporciji konzumenata alkohola.
Zbog malih učestalosti (totalna učestalost manja od 20) nije moguće primeniti Pearsonov hi-kvadrat test.
Alternativa je primena Fisherovog testa tačne verovatnoće.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Alkohol i hipertenzija.xlsx
5) Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistički značajno prema proporciji
konzumiranja alkohola (Fisherov test tačne verovatnoće, p = 0.545).
U literaturi se pod ovim nazivom podrazumevaju dva testa: Wilcoxonov test sume rangova i Mann-
Whitney U test. Ova dva testa su ekvivalentna, pa otuda i naziv Wilcoxon-Mann-Whitney test.
Primer. Ispitati razliku koncentracije fibrinogena između ispitanika sa različitim nadmorskim visinama
prebivališta.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Nadmvisina.xlsx
2) Deskripcija podataka može se uraditi na sledeći način: Original menu→ Statistics→ Summaries→
Numerical summaries.
6) Zaključak: Medijana koncentracije fibrinogena osoba sa nadmorskom visinom prebivališta ispod 200
m iznosi 2.66 g/L (opseg 2.03 – 4.91), a osoba sa nadmorskom visinom prebivališta iznad 700 m iznosi
2.62 g/L (opseg 1.80 – 4.83). Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine ne
razlikuju se statistički značajno prema koncentraciji fibrinogena (W = 744.5, p = 0.122).
______________
NAPOMENA:
• uz rezultate parametarskih testova (npr. t-test) kao meru centralne tendencije i meru varijabiliteta
prikazati aritmetičku sredinu i standardnu devijaciju, npr. 45.5±7.2 godine
• uz rezultate neparametarski testova zasnovanih na rangovima (npr. test sume rangova, test
ekvivalentnih parova) kao meru centralne tendencije i meru varijabiliteta prikazati medijanu i
opseg (od minimalne do maksimalne vrednosti), npr. 2.62 g/L (opseg, 1.80 – 4.83)
Procedura u EZR-u:
1) Preuzeti i učitati bazu podataka Aritmije.xlsx
2) Tabela kontingencije i McNemarov test mogu se dobiti klikom na liniji sa komandama: Statistical
analysis→Discerete variables→Compare proportions of two paired samples (McNemar test)
o u okviru polja Row variable (pick one or more) odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one) odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Continuity correction: označiti No
o kliknuti na dugme OK
4) Procenat ispitanika sa ekstrasistolama pre početka terapije, i posle terapije može se dobiti klikom na
liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions.
4) Zaključak: Učestalost ekstrasistola pre davanja leka iznosila je 74%, a posle davanja leka 52%.
Učestalost ekstrasistola je statistički značajno manja posle davanja leka (Hi-kvadrat=12,5; p< 0,001).
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Pneumokok.xlsx
2) Tabela kontingencije i McNemarov test mogu se dobiti klikom na liniji sa komandama: Statistical
analysis→Discerete variables→Compare proportions of two paired samples (McNemar test)
4) Zaključak: Učestalost pnumokokne infekcije kod vakcinisanih iznosi 21%, a kod nevakcinisanih 36%.
Pneumokone infekcije su statistički značajno manje učestale u populaciji vakcinisanih (Hi-kvadrat = 5.828,
p = 0.016). Vakcina je efikasna.
Primer U studiji koja je dizajnirana po tipu pre-posle date su vrednosti vrednosti Lp(a) pre početka
terapije i mesec dana posle tretmana u kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj
istraživanja bio je da se ispita da li je došlo do promene Lp(a) u posmatranom periodu.
Za ove podatke nije moguće je primeniti t-test jer podaci odstupaju od normalnosti (proveriti na način
opisan u lekciji R - Provera normalnosti raspodele), pa će biti upotrebljen Wilcoxonov test ekvivalentnih
parova.
Procedura u EZR: .
1) Preuzeti i učitati bazu podataka Aritmije 2.xlsx
2) Deskripcija podataka može se uraditi na sledeći način: Original menu → Statistics → Summaries →
Numerical summaries.
5) Zaključak: Medijana vrednosti Lp(a) pre početka terapije iznosila je 17 mg/dL (opseg 9-57) a posle
terapije iznosila je 11 mg/dL (opseg 5-41). Vrednosti Lp(a) posle terapije statistički značajno su niže u
odnosu na vrednosti pre terapije (V = 2950.5, p<0.001).
Faktor je svaki uticaj, dejstvo ili promena koja se na neki način odražava na rezultujuće obeležje (ishodnu
varijablu). Faktor je najčešće tretman i predstavlja nezavisnu varijablu u eksperimentu, a njeni
nivoi/gradacije su pod kontrolom istraživača.
Faktori mogu biti: fiksni tj. organizovani (koji se analizom mogu identifikovati i kvantitativno
diskriminisati) i slučajni tj. rezidualni ili neorganizovani (koji se mogu samo opisati u ukupnom delovanju,
ali ne i razlagati).
Analogno tipovima faktora, tako postoje fiksni i slučajni efekti. Fiksni efekti su oni koji se mogu pripisati
faktorima čiji su svi nivoi/gradacije uključeni u studiju (primer: efekti tri različita hirurška tretmana).
Slučajni efekti su oni koji se mogu pripisati faktorima čiji su samo slučajno odabrani nivoi/gradacije
uključeni u studiju (primer: ispitivanje dužine hospitalizacije u nekoliko slučajno odabranih od svih
zdravstvenih ustanova).
Prema broju uključenih fiksnih i slučajnih faktora razlikuju se tri modela analize varijanse:
1. Model fiksnih efekata (Model I) - sadrži samo fiksne faktore, ovo je najčešće korišćen model analize
varijanse
3. Model mešovitih efekata (Model III) - sadrži bar jedan fiksni i bar jedan slučajni faktor.
ANOVA se koristi za testiranje razlike aritmetičkih sredina dve ili više populacija.
Zašto izbegavati simultanu upotrebu t-testa za poređenje više od dve aritmetičke sredine?
Korišcenje t-testa, kada je broj uzoraka veći od dva, vodi povećanju verovatnoće greške prvog tipa.
Verovanoća da se u simultanoj upotrebi t-testa napravi najmanje jedna greška prvog tipa iznosi
P = 1 – (1 – α)N,
gde je α nivo značajnosti, a N broj testiranja. Npr. ako je broj uzoraka 4, t-test se mora primeniti 6 puta
da bi se testirala razlika između svih mogućih parova uzoraka.
Pouzdana upotreba analize varijanse ograničena je sledećim pretpostavkama:
• Izbor eksperimentalnih jedinica je slučajan
• Randomizacija - slučajno dodeljivanje nivoa/gradacije faktora eksperimentalnoj jedinici
• Homogenost varijansi - populacione varijanse za svaku grupu su jednake
• Normalna raspodela rezultujućeg oboležja u svakoj grupi
Prve dve pretpostavke su odraz dizajna eksperimenta i ne mogu se analizom nadoknaditi, a druge dve
se mogu ispitati i nadoknaditi odgovarajućim statističkim postupcima.
Statistički testovi kojima se može proveriti pretpostavka o homogenosti varijansi su: Bartlett test, Leven`s
test, Hartley test, Sheffe-Box test i drugi, a smatra se da se homogenost varijansi prevazilazi kao problem
jednakom veličinom grupe za svaki nivo/gradaciju faktora.
Faktorska ANOVA- poređenje aritmetičkih sredina uzoraka kada su jedinice posmatranja pod dejstvom
različitih kombinacija nivoa dva faktora (dvosmerna analiza varijanse) ili više faktora. U ovom dizajnu
može se otkriti interakcija faktora.
gde je Y ukupan varijabilitet među eksperimentalnim jedinicama, X varijabilitet čije je poreklo u dejstvu
faktora, a Z slučajan tj. neobjašnjen varijabilitet.
ANOVA omogućava simultano poređenje bilo kojeg broja aritmetičkih sredina upotrebom Fišerovog
varijansnog količnika (F-test). F-test je baziran na F statistici koja se izračunava kao odnos srednjih
kvadrata. Ako se testira razlika aritmetičkih sredina samo dve nezavisne populacije, F-test je ekvivalentan
t-testu.
U analizi varijanse, suma kvadrata podeljena brojem stepena slobode naziva se srednjim kvadratom.
Srednji kvadrat je ocena neke varijansne komponente: na komponentu koja nastaje zbog razlika
aritmetičkih sredina (srednji kvadrat između grupa) i komponentu koja nastaje zbog razlika samih
opservacija unutar grupa (srednji kvadrat unutar grupa, rezidual). Ako se populacione aritmetičke sredine
ne razlikuju, ove dve komponente će biti jednake. Ako populacione aritmetičke sredine razlikuju, srednji
kvadrat između grupa biće veći od srednjeg kvadrata unutar grupa. Na taj način, u analizi varijanse,
testiranje razlike aritmetičkih sredina zahteva testiranje razlike varijansnih komponenti primenom F-testa.
Tabela analize varijanse prikazuje rezultate analize varijanse: izvor (komponentu) varijabiliteta, sumu
kvadrata, broj stepena slobode, srednji kvadrat, F statistiku i p:
Primer. Ispitivan je odnos pušenja i FEV1. Dati su podaci o FEV1 za pušače, pasivne pušače i
nepušače. Utvrditi da li postoji značajna razlika u vrednosti FEV1 između pušača, pasivnih pušača i
nepušača.
U pitanju su tri nezavisna uzorka. Podaci imaju normalnu raspodelu, može se primeniti ANOVA..
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Cotinine.xlsx
2) Deskripcija podataka može se uraditi na sledeći način: Original menu→ Statistics→ Summaries→
Numerical summaries
3) Homogenost varijansi za više od dve grupe može se testirati primenom Levene's Test for Homogenity
of Variance, što se u EZR-u postiže na sledeći način: Original menu→Statistics→Variances→Levene`s
test...
U dijalog prozoru koji se otvorio:
o u okviru polja Factors (pick one or more) odabrati varijablu koja definiše grupe
o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
o u delu prozora Center označiti mean
o kliknuti na dugme OK
Neophodno je da u Levene's Test for Homogenity of Variance bude p>0.05 i time se ispunjava
pretpostavka o homogenosti varijansi pa se može primeniti ANOVA. U našem primeru je p=0.584,
pa se ANOVA može primeniti.
6) Zaključak: Aritmetička sredina FEV1 pušača iznosi 91.4±10.6%, pasivnih pušača 96.9±12.3% i nepušača
99.6±11.1%. Između pušača, pasivnih pušača i nepušača postoji statistički značajna razlika aritmetičkih
sredina FEV1 (F = 4.6; DF = 2, 102; p = 0.012).
Razlika aritmetičkih sredina FEV1 je statistički značajna između Pušača i Nepušača (p = 0.010), ali nije
statistički značajna između Pušača i Pasivnih pušača (p = 0.116), niti između Pasivnih pušača i Nepušača
(p = 0.575).
Testiramo nultu hipotezu o jednakosti raspodele ili jednakosti medijana dve ili više populacija.
gde je N ukupan broj jedinica posmatranja, n broj jedinica posmatranja u pojedinačnoj grupi, R suma
rangova unutar pojedinačne grupe i k broj grupa
Analogno post hoc testiranju nakon jednofaktorske analize varijanse, za multipla poređenja
nakon Kruskal-Wallis testa se mogu koristiti sledeće metode korekcije Mann-Whitney testa:
• Bonferroni - veoma stroga metoda koja kontroliše grešku prvog tipa tako što odabrani nivo
značajnosti deli brojem potrebnih međugrupnih poređenja
• Holm - metoda koja se smatra pristupačnijom u odnosu na Bonferoni, kontroliše grešku prvog
tipa tako što najnižu dobijenu p vrednost poredi sa odabranim nivoom značajnosti koji se za svako
naredno poređenje smanjuje
• Steel - metoda jednako adekvatna kao i Bonferoni, koja uključuje još jedan nivo kontrole greške I
tipa za multipla poređenja
Primer 1. Ispitivan je odnos pušenja i koncentracije kotinina u krvi (ng/mL). Dati su podaci o kotininu za
pušače, pasivne pušače i nepušače.
U pitanju su tri nezavisna uzorka. Raspodele podataka odstupaju od normalne i ne može se primeniti
ANOVA. Drugi razlog što ne može biti primenjena ANOVA jeste heterogenost varijansi, što se može
proveriti primenom Levene testa u okviru ANOVA procedure.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Cotinine.xlsx
5) Zaključak: Medijana kotinina pušača iznosi 43,6 ng/mL (opseg 19,7-163,7), pasivnih pušača 2,9 ng/mL
(opseg 1,6-20,5) i nepušača 2,6 ng/mL (opseg 2,0-5,9). Između pušača, pasivnih pušača i nepušača postoji
statistički značajna razlika medijana kotinina (hi-kvadrat=68.3, DF=2, p<0.001)
Razlika medijana kotinina je statistički značajna između Pušača i Pasivnih pušača (p<0.001), kao i između
Pušača i Nepušača (p <0.001), ali nije statistički značajna između Pasivnih pušača i Nepušača (p = 0.700).
Kruskal-Wallis testom:
• Testira se hipoteza o jednakosti raspodele ili jednakost medijana dve ili više populacija
• Testira se hipoteza o jednakosti aritmetičkih sredina dve ili više populacija
Cochran Q test
Cochran Q test predstavlja proširenje McNemarovog testa i koristi se kada se ispituje uticaj jednog
eksperimentalnog faktora na rezultujuće obeležje dihotomnog karaktera u dizajnu blokova ili ponovljenih
merenja. Testira nultu hipotezu o jednakosti tri ili više skupova frekvencija.
gde je a broj gradacija faktora, b broj blokova ili ispitanika, G sume unutar gradacija, B sume unutar
blokova ili ispitanika. Ova statistika se raspodeljuje približno po Hi-kvadrat raspodeli sa a-1 stepeni
slobode.
Primer. Za grupu ispitanika prikupljeni su podaci o pojavi ekstrasistola pre, jedan i dva meseca meseca
posle započete terapije. Cilj istraživanja bio je da se ispita da li je došlo do promene učestalosti
ekstrasistola u posmatranom periodu.
Napomene:
Za primenu Cochran Q testa neophodno je da varijable koje se analiziraju budu kodirane sa brojevima
1 i 0, npr. postojanju ekstrasistola dati kod 1 a nepostojanju ekstrasistola kod 0.
EZR slaže varijable po abecedi i u izlazu rezultata prikazuje ih po tom redosledu. Radi lakšeg snalaženja,
kod ponovljenih merenja ili gde god je redosled varijabli bitan, preporuka je da se u nazivima tih varijabli
dodaju mala slova po abecednom redosledu, npr. a.Prvo_merenje, b.Drugo_merenje itd.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Aritmije 3.xlsx
U slučaju da je p>0.05 treba doneti zaključak da ne postoji statistički značajna razlika učestalosti
ispitivane pojave u različitim vremenima. Ako je p≤0.05, razlike učestalosti su statistički značajne, i u
tom slučaju primenom McNemarovog testa utvrditi između kojih vremena postoji statistički
značajna razlika učestalosti.
.
4) Zaključak: U posmatranom periodu došlo je do statistički značajne promene učestalosti ekstrasistola
(hi-kvadrat = 27.6, DF=2, p < 0.001). Učestalost ekstrasistola je značajno manja nakon prvog meseca
terapije (p=0.001) kao i nakon drugog meseca terapije (p<0.001), dok se učestalost ekstrasistola ne
razlikuje između prvog i drugog meseca (p=0.096).
gde je b broj blokova ili ispitanika u dizajnu ponovljenih merenja, a broj nivoa/gradacija
eksperimentalnog faktora, a R suma rangova unutar svake gradacije. Procedura se sastoji od rangiranja
podataka unutar ponovljenih merenja odnosno blokova.
Fridmanov test testira nultu hipotezu o poreklu a uzoraka is iste populacije tj. da nema razlike u
prosečnim rangovima između a gradacija faktora.
Primer: U lekciji o Wilcoxonovom testu ekvivalentnih parova, u primeru 1, za svakog ispitanika bio je dat
par podataka za Lp(a): pre početka terapije i mesec dana posle. Sada je uključeno i treće merenje dva
meseca posle početka terapije. Cilj istraživanja bio je da se ispita da li je došlo do promene Lp(a) u
posmatranom periodu.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Aritmije 3.xlsx
2) Deskripcija podataka može se uraditi na sledeći način: Original menu→ Statistics→ Summaries→
Numerical summaries
U slučaju da je p>0.05 treba doneti zaključak da se vremena ne razlikuju statistički značajno prema
intenzitetu pojave od interesa. Ako je p≤0.05, razlike su statistički značajne, i u tom
slučaju primenom Wilcoxonovog testa ekvivalentnih parova utvrditi između kojih vremena postoji
statistički značajna razlika.
U našem primeru je p<0.001, pa zaključujemo da se vremena statistički značajno razlikuju prema nivou
Lp(a). EZR je izračunao i Wilcoxonov test ekvivalentnih parova sa korekcijom po Holmu za sve parove
merenja.
U tabeli Pairwise comparisons using Wilcoxon signed rank test prikazane su začajnosti razlika
medijana između merenja sa korekcijom po Holmu.
5) Zaključak: Medijana vrednosti Lp(a) pre početka terapije iznosila je 17 mg/dL (opseg 9-57), mesec dana
posle terapije 11 mg/dL (opseg 5-41), i dva meseca posle terapije 9 mg/dL (opseg 5 - 32). U
posmatranom periodu došlo je do statistički značajnih promena Lp(a) (Hi-kvadrat = 54.358, DF=2, p <
0.001). Razlika je statistički značajna između svih posmatranih vremena prema Lp(a).
Pridruženost je uvek prisutna u izvesnoj meri u opservacionim studijama i kliničkim ogledima kada grupe
nisu formirane randomizacijom već su formirane same po sebi, npr. pacijenti koji su primili određeni
tretman na osnovu nekog kriterijuma.
Stratifikacija
Stratifikacija je postupak ispitivanja povezanosti potencijalnog prediktora i ishoda na različitim nivoima
(stratumima) potencijalne pridružene varijable.
Porede se ocene povezanosti dobijene na totalnom uzorku sa ocenama povezanosti na nivou stratuma.
Stratifikacija - postupak
1) Oceniti povezanost na totalnom uzorku (sirovi RR ili OR)
3) Ako se „sirove“ ocene ne razlikuju od „prilagođenih“, nema uticaja pridružene varijable – može se
prihvatiti „sirova“ ocena. Ako razlika postoji u relativnom iznosu od 10% ili više, to ukazuje na uticaj
pridružene varijable i treba saopštiti mere povezanosti na nivou stratuma.
o u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove
u tabeli kontingencije
o u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u
tabeli kontingencije
o u delu Compute Percentages označiti Row percentages za izračunavanje procenata po
redovima
o u delu Hypothesis Tests:
§ čekirati polje Chi-square test za izračunavanje Hi-kvadrat testa
§ čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti
§ u delu Continuity correction of chi-square test: označiti No
§ kliknuti na dugme OK
Na osnovu hi-kvadrat testa može se zaključiti da postoji povezanost umerenog konzumiranja alkohola i
osteoporoze (Hi-kvadrat = 7.992, p = 0.005), i da osobe koje ne konzumiraju alkohol imaju 1.39 puta
veću šansu (OR = 219x627 / 188x527) da obole od osteoporoze.
Pre prihvatanja ovakvog zaključka treba proveriti mogući uticaj drugih varijabli u istraživanju. Na osnovu
prethodnih istraživanja poznato je da postoji povezanost pola i osteoporoze, odnosno da je osteoporoza
učestalija u ženskoj populaciji.
4) Osim toga, nađeno je da je osteoporoza učestalija kod osoba ženskog pola (Hi-kvadrat = 31.3, p <
0.001).
a. prema uputstvu u dokumentu EZR Rad sa podskupom slučajeva iz baze podataka, na osnovu
varijable Pol izdvojiti stratum (podskup slučajeva) muškog pola: Active data set→Rows→Create
subset data set
Kod osoba muškog pola nije nađena povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.007, p = 0.934, OR = 1.017).
Stratum ženskog pola izdvaja se iz osnovne baze podataka Alkohol i osteoporoza koja je učitana pod
nazivom Alkohol_Osteoporoza pa je potrebno prvo da se ona označi kao aktivna.
Identičnom procedurom kao za muški pol analizirati povezanost konzumacije alkohola i osteoporoze
primenom Hi-kvadrat testa.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Kod osoba ženskog pola nije nađena povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.005, p = 0.945, OR = 1.012).
Razlika između povezanosti koja je nađena na nivou čitavog uzorka (p = 0.005, OR = 1.39) i povezanosti
na nivou specifičnih stratuma (muški pol: p = 0.934, OR = 1.017, ženski pol: p = 0.945, OR = 1.012) ukazuje
da pol ima uticaj pridružene varijable, i da ne postoji povezanost umerenog konzumiranja alkohola i
osteoporoze.
Obratiti pažnju da se analiza radi na osnovu kompletne baze podataka Alkohol_Osteopoproza i da ona
treba da bude aktivna što se proverava na traci sa alatima.
o u polju Grouping variable (control=0, case=1) (pick one) odabrati grupišuću varijablu
o u polju Binary response variable (pick at least one) odabrati ishodnu varijablu
o u polju Stratifying variable for matching (pairpatch) odabrati varijablu koja definiše
stratume
o u delu Continuity correction of chi-square test: označiti No
o kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
.Kod osoba muškog pola ne postoji povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.007, p = 0.934, OR = 1.017).
Kod osoba ženskog pola nije nađena povezanost umerenog konzumiranja alkohola i osteoporoze (Hi-
kvadrat = 0.005, p = 0.945, OR = 1.012)
Primer 2 kada nije nađen uticaj pridružene varijable: rezultate je dovoljno prezentovani na nivou totalnog
uzorka. U istraživanju, dizajniranom po tipu slučaj-kontrola, cilj je bio ocena povezanosti postoperativnih
komplikacija i tipa primenjene hirurške tehnike označenih kao A i B. Podaci su dati u fajlu Postoperativne
komplikacije.xlsx .
Postoji povezanost tipa operacije i pojave postoperativnih komplikacija (Hi-kvadrat = 9.13, p = 0.003).
Ispitanici podvrgnuti tipu A hirurškog zahvata imaju 2.16 puta veću šansu pojave postoperativnih
komplikacija.
Pre prihvatanja ovakvog zaključka istraživači su želeli da provere da li je prisustvo komorbiditeta faktor
koji je pravi uzrok razlike učestalosti komplikacija između tipa A i tipa B operativnog zahvata. U tu svrhu
ispitana je povezanost komorbiditeta sa ispitivanim prediktorom (tip operacije) i ishodom (pojava
komplikacija):
Ovo ukazuje da komorbidit ne ispoljava uticaj pridružene varijable na odnos tipa operacije i pojave
komplikacija (jer pridružena varijabla mora biti povezana kako sa prediktorom tako i sa ishodom).
Istraživač se može zadržati na prikazivanju rezultata na nivou totalnog uzorka, kao i zaključka koji je gore
već bio prikazan:
Postoji povezanost tipa operacije i pojave postoperativnih komplikacija (Hi-kvadrat = 9.13, p = 0.003).
Ispitanici podvrgnuti tipu A hirurškog zahvata imaju 2.16 puta veću šansu pojave postoperativnih
komplikacija.
I pored toga što u prethodnoj analizi rezultati ne ukazuju na postojanje pridruženosti od strane varijable
starost, istraživač može da rezultate prikaže i po stratumima čime bi eventualno bila otkrivena interakcija.
Primer 1: Kod obolelih od hronične bubrežne insuficijencije postoji povezanost vrednosti kreatinina
i ureje u serumu. Veće vrednosti kreatinina nalaze se kod obolelih koji istovremeno imaju i veće
vrednosti ureje u serumu, i obrnuto, manje vrednosti kreatinina nalaze se kod obolelih koji
istovremeno imaju i manje vrednosti ureje.
Smer:
• Pozitivan (+)
• Negativan (-)
Stepen/jačina povezanosti
• Između -1 i 1 (Apsolutna vrednost označava jačinu)
Povezanost može imati pozitivan ili negativan smer. U primeru 1, povezanost je pozitvna jer su veće
vrednosti jedne varijable povezane sa većim vrednostima druge varijable. U primeru 2, povezanost je
negativna, jer su veće vrednosti jedne varijable povezane sa manjim vrednostima druge varijable.
Povezanost ne podrazumeva obavezno postojanje kauzalnih odnosa između dve varijable, u smislu da je
jedna varijabla uzrok, a druga varijabla posledica. U primeru 1 između ureje i kreatinina ne postoji
kauzalan odnos (vrednost jedne materije ne utiču na drugu, i obrnuto), već koncentracije obe ispitivane
materije u plazmi zavise od niza drugih varijabli kao što su stopa glomerularne filtracije, unos proteinske
hrane itd. U primeru 2 između dve varijable postoji kauzalan odnos jer smanjenje zasićenja arterijske krvi
kiseonikom dovodi do povećanog stvaranja eritropoetina i do povećanja koncentracije hemoglobina.
Procedura u EZR:
1) Formirati bazu podataka u Excel programu gde će se u prvom redu uneti nazivi varijabli (urea i
kreatinin) a u prvoj koloni redni broj jedinice posmatranja. Svaki sledeći red se odnosi na jedinicu
posmatranja.
2) Dijagram rasturanja može se dobiti odabirom sledećih komandi: Graphs and tables→Scatterplot.
o u okviru polja x-variable (pick one) odabrati varijablu koja ide na x osu.
o u okviru polja y-variable (pick one) odabrati varijablu koja ide na y osu.
o u delu Options odčekirati sva polja
3) U novom prozoru prikazan je dijagram rasturanja varijabli urea i kreatinin.
Primer 4: Za sedam ispitanika data su zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u
krvi:
Dijagram rasturanja takođe može ukazati na linearnost ili nelinearnost povezanosti dve varijable. Linearna
povezanost podrazumeva grupisanje tačaka na dijagramu rasturanja oko prave linije kao što je to
prikazano na grafikonu 1. Nelinearna povezanost podrazumeva odstupanje od linearne povezanosti kao
što je to npr. prikazano na grafikonu 2.
Grafikon 1. Primer dijagrama rasturanja za linearnu Grafikon 2. Primer dijagrama rasturanja za nelinearnu
povezanost dve varijable povezanost dve varijable
Korelacija
Korelacija je statistički metod koji se koristi za merenje jačine i smera povezanosti između varijabli.
Koeficijent korelacije je statistika koja kvantifikuje jačinu (stepen) povezanosti među varijablama.
Koeficijenti korelacije:
Pearsonovim koeficijentom korelacije (koeficijent linearne korelacije) merimo linearnu povezanost dve
varijable.
Varijable označene kao x i y mogu zameniti mesta bez uticaja na vrednost koeficijenta korelacije.
Linearnost povezanost podrazumeva da će se na dijagramu rasturanja tačke grupisati oko prave linije.
Osim linearnosti odnosa, preduslovi za primenu Pearsonovog koeficijenta korelacije su da obe varijable
moraju biti numeričke kontinuirane i da imaju normalnu raspodelu.
Statistička značajnost koeficijenta korelacije testira se t testom. Ako koeficijent korelacije nije statistički
značajan (p>0.05) može se zaključiti da između varijabli nema povezanosti. Ako je koeficijent korelacije
statistički značajan (p≤0.05) može se zaključiti da između varijabli postoji povezanost (zavisnost,
asocijacija), i može se interpretirati njegova vrednost u smislu smera i jačine povezanosti varijabli za koje
je koeficijent korelacije i izračunat. Jedan od predloženih načina za opisivanje jačine povezanosti dve
varijable na osnovu vrednosti koeficijenta korelacije je sledeći:
Primer 6: Za podatke iz primera 3 ispitati povezanost vrednosti ureje i kretinina.
Procedura u EZR:
1) Proveriti normalnost raspodele obe varijable prema uputstvu navedenom u prethodnim lekcijama.
o u okviru polja Variables (pick two) označiti varijable čiju povezanost želimo da ispitamo. Za
označavanje više varijabli odjednom držati pritisnut taster Ctrl na tastaturi i istovremeno
kliknuti na željene varijable.
o kliknuti na dugme OK.
Zaključak: Postoji statistički značajna jaka pozitivna povezanost ureje i kreatinina u serumu (r = 0.856; p
= 0.014).
Primer 7: Za deset bolesnika dati su skorovi na skali depresivnosti i vrednosti sistolne arterijske tenzije
(mmHg). Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo značajnosti 0.05.
o u okviru polja Variables (pick two) označiti varijable čiju povezanost želimo da ispitamo. Za
označavanje više varijabli odjednom držati pritisnut taster Ctrl na tastaturi i istovremeno
kliknuti na željene varijable.
o u okviru polja Method treba da bude čekirano Spearman
o kliknuti na dugme OK.
Ispitivana je povezanost sedimentacije eritrocita i broja leukocita u krvi kod ispitanika sa infektivnim
sindromom. Nađeno je da je povećana sedimentacija povezana sa povećanjem broja leukocita. O
kakvoj povezanosti se radi?
o Pozitivna povezanost
o Negativna povezanost
Svaka tačka na diagramu rasturanja predstavlja:
o zbir vrednosti y varijable
o pojedinačnu statističku jedinicu koja nosi podatke o vrednostima dve varijable (x i y)
o zbir vrednosti x varijable
Dati su podaci o telesnoj masi i telesnoj visini. Podaci imaju normalnu raspodelu, a na dijagramu
rasturanja ukazuju na linearnu povezanost. Da li je moguće primeniti Pearsonov koeficijent
korelacije?
o Da
o Ne
Da li je za ispitivanje povezanosti starosti ispitanika i zadovoljstva zdravstvenom zaštitom ispravno
primeniti Pearsonov ili Spearmanov koeficjent korelacije? Zadovoljstvo zdravstvenom zaštitom
mereno je primenom petostepene skale: od potpunog nezadovoljstva (vrednost 0) do potpunog
zadovoljstva (vrednost 4).
o Pearsonov koeficijent korelacije
o Spearmanov koeficijent korelacije
Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija vaskularne permeabilnosti i
perfuzionog pritiska iznosila je -0.11 (p=0.73).
o Postoji slaba negativna povezanost
o Postoji osrednja pozitivna povezanost
o Ne postoji povezanost
Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija kožnog prick testa i
radioallergosorbent testa iznosila je 0.41 (p=0.02).
o Postoji slaba negativna povezanost
o Postoji osrednja pozitivna povezanost
o Ne postoji povezanost
Statističko modelovanje – regresioni modeli
Linearna regresija
Regresiona analiza ispituje odnos između zavisne varijable (Y) i barem jedne nezavine varijable (X). Opšti
oblik regresionog modela predstavljen je regresionom funkcijom f između bar dve varijable - 𝑦=𝑓(𝑥).
Regresioni metod omogućuje ispitivanje smera i oblika povezanosti bar dve varijable.
Poznavanje oblika povezanosti služi definisanju kvantitativnog zakona povezanosti (koliko i u kom smeru
se menja jedna tj. zavisna varijabla, kada se menja druga, treća, ... n-ta nezavisna varijabla). Kvantitativni
zakon povezanosti je reprezentovan matematičkim modelom (regresionim modelom) tj. regresionom
jednačinom.
Najčešći istraživački ciljevi koji se mogu realizovati metodom regresione analize su:
4. Validacija modela - rešava problem precenjivanja (mogućnost dobijanja visoko značajnih ali
besmislenih rezultata zbog previše velikog broja prediktora u modelu). Validacija može biti: interna kada
se model validira na postojećem skupu podataka i eksterna kada se model validira na potpuno novom
skupu podataka
• Primer 1: Ispitivana je povezanost obima struka (cm) i nivoa glikemije u krvi (mmol/L) kod osoba
obolelih od dijabetes melitusa, pri čemu je zavisna varijabla bila nivo glikemija, a nezavisna
varijabla obim struka.
Dobijena je regresiona jednačina 𝑦=−4,61+0,13∗𝑥y=−4,61+0,13∗x
Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna varijabla za
jediničnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jedinično povećanje obima struka (1
cm), nivo glikemije se povećao za b tj. 0,13, sa 5,79 mmol/L na 5,92 mmol/L. Takođe, za jedinično
smanjenje obima struka (1 cm), nivo glikemije se smanjio za b tj. 0,13, sa 5,79 mmol/L na 5,66 mmol/L.
• Primer 2: Ispitivana je povezanost visine sistolnog arterijskog pritiska (mmHg) i broja srčanih
otkucaja u minutu (srčana frekvenca) kod osoba iz opšte opulacije, pri čemu je zavisna varijabla
bio broj srčanih otkucaja u minutu, a nezavisna varijabla visina sistolnog arterijskog pritiska.
Koliki se broj srčanih otkucaja u minutu očekuje za nivo sistolnog arterijskog pritiska od 128 mmHg?
- Očekivan broj srčanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 128
mmHg iznosi 71.
Koliki se broj srčanih otkucaja u minutu očekuje za nivo sistolnog arterijskog pritiska od 129 mmHg?
- Očekivan broj srčanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 129
mmHg iznosi 70,84.
Koliki se broj srčanih otkucaja u minutu očekuje za nivo sistolnog arterijskog pritiska od 127 mmHg?
- Očekivan broj srčanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 127
mmHg iznosi 71,16.
Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna varijabla za
jediničnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jedinično povećanje nivoa sistolnog
arterijskog pritiska (1 mmHg), broj srčanih otkucaja se smanjio za b tj. 0,16, sa 71 mmHg na 70,84 mmHg.
Takođe, za jedinično smanjenje sistolnog arterijskog pritiska (1 mmHg), broj srčanih otkucaja se povećao
za b tj. 0,16, sa 71 mmHg na 71,16 mmHg.
INTERPOLACIJA I EKSTRAPOLACIJA
Postoje dva načina predviđanja linearnim regresionim modelima:
PRIMER
Primer: Cilj u istraživanju bio je da se ispita odnos gubitka telesne mase i gubitka volumena plazme, u
dehidraciji koja nastaje kao posledica teškog fizičkog rada i znojenja. Za 57 ispitanika date su vrednosti
gubitka telesne mase (%) i gubitka volumena plazme (%). Odnos varijabli je analiziran regresionim
modelom, pri čemu je za nezavisnu varijablu uzet gubitak telesne mase, a za zavisnu varijablu gubitak
volumena plazme.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Plazma.xlsx
2) Prvi korak je izrada dijagrama rasturanja koji se dobija klikom na liniji sa komandama: Graphs and
tables→Scatterplot
Kod regresione analize, u dijagramu rasturanja, nezavisna varijabla se stavlja na x osu a zavisna varijabla
na y osu.
U dijalog prozoru koji se pojavio:
o u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
o u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
o u delu Options odčekirati sva polja
o kliknuti na dugme OK
U našem primeru nezavisna varijabla je Gubitak telesne mase, a zavisna varijabla je Gubitak
volumena plazme (%).
Na dijagramu rasturanja može se zapaziti pozitivna povezanost ove dve varijable u dehidraciji koja
je nastala znojenjem usled fizičkog napora: veći gubitak telesne mase praćen je većim gubitkom
volumena plazme.
.
3) Provera normalnosti raspodele. Proveriti normalnost raspodele obe varijable prema uputstvu
navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost obe varijable.
4) Sledeći korak je dobijanje regresione jednačine, što se postiže primenom komande: Statistical
analysis→Continuous variables→Linear regression
U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijenta nagiba (koeficijent b) kao i njegovu
statističku značajnost.
Konstanta u regresionom modelu iznosi 6.16. Koeficijent nagiba iznosi 0.86, što znači da je 1 procenat
gubitka telesne mase praćen sa 0.86% gubitka volumena plazme. U produžetku istog reda nalazi se
rezultat testiranja značajnosti koeficijenta b.
Da bi nezavisna varijabla bila statistički značajan prediktor potrebno je da p bude jednako ili manje od
0.05.
Zaključak: gubitak telesne mase je statistički značajan prediktor gubitka volumena plazme. Prilikom
teškog fizičkog rada i znojenja gubitak telesne mase od 1% praćen je gubitkom volumena plazme od
0.86%.
Regresiona jednačina
Regresiona jednačina ima oblik:
Prilikom izračunavanja regresione jednačine, EZR istovremeno u posebnom prozoru prikazuje i dijagram
rasturanja sa regresionom linijom:
Regresiona jednačina omogućava predikciju. Za zadatu vrednost gubitka telesne mase može se dati
predikcija gubitka volumena plazme. Na primer, za gubitak telesne mase of 3.5% oče–kuje su gubitak
volumena plazme od 9.17%
Multivarijantne tehnike kojima se ispituju odnosi između dve grupe varijabli od kojih je jedna definisana
kao zavisne ili kriterijumske varijable, pripadaju grupi zavisnih metoda. One imaju za cilj da objasne ili
predvide jedno ili više kriterijumskih merenja na osnovu skupa prediktorskih (nezavisnih) varijabli. Jedna
od ovih metoda je i višestruka regresija.
gde su x1, x2, xn nezavisne (prediktivne) varijable, y zavisna (ishodna, rezultujuća) varijabla, 𝛼α regresiona
konstanta, β1 , β2, βn regresioni koeficijenti (nagibi) za svaku od nezavisnih varijabli i 𝜖ϵgreška.
Metoda višestruke linearne regresione analize se primenjuje kada je zavisna varijabla kontinuirana, a
nezavisne varijable u modelu mogu biti kontinuirane ili kategorijalne.
Problemi sa kojima se istraživač može susresti u okviru formiranja višestrukih regresionih modela:
Procedura u EZR:
1) Preuzeti i učitati bazu podataka Framingham_20142015.xls.
2) Prvi korak je izrada dijagrama rasturanja za svaki par nezavisne i zavisne varijable (starost - sistolni
arterijski pritisak i indeks telesne uhranjenosti - sistolni arterijski pritisak) koji se dobija klikom na liniji sa
komandama: Graphs and tables→Scatterplot
• u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
• u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
• u delu Options odčekirati sva polja
• kliknuti na dugme OK
Ovaj postupak ponoviti za oba para varijabli tj. za starost i sistolni arterijski pritisak i indeks telesne
uhranjenosti i sistolni arterijski pritisak
Na dijagramu rasturanja može se zapaziti pozitivna povezanost između starosti i sistolnog arterijskog
pritiska, kao i između indeksa telesne uhranjenosti i sistolnog arterijskog pritiska. Sa većom starošću, kao
i sa većim indeksom telesne uhranjenosti, povećava se i sistolni arterijski pritisak.
3) Provera normalnosti raspodele. Proveriti normalnost raspodele sve tri varijable prema uputstvu
navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost sve tri varijable.
4) Sledeći korak je dobijanje regresione jednačine, što se postiže primenom komande: Statistical
analysis→Continuous variables→Linear regression
U dijalog prozoru koji se otvorio:
• u okviru polja Response variable (pick one) označiti zavisnu varijablu - sistolni arterijski pritisak
• u okviru polja Explanatory variables (pick one or more) označiti nezavisne varijable - starost i
indeks telesne uhranjenosti
• kliknuti na dugme OK
U izlaznoj tabeli dobijamo da koeficijent determinacije iznosi 22.4% (Multiple R-squared: 0.224), što
predstavlja procenat varijabiliteta zavisne varijable koji je objašnjen modelom.
U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijente nagiba (koeficijente b1 i b2) kao i
njihovu statističku značajnost.
Koeficijent nagiba nezavisne varijable starost (b1) iznosi 0,93 mmHg, što znači da je 1 godina starosti više
povezana sa porastom sistolnog krvnog pritiska za 0,93, a koeficijent nagiba nezavisne varijable indeks
telesne uhranjenosti (b2) iznosi 1,48, što znači da je jedinično povećanje indeksa telesne mase praćeno
povećanjem sistolnog arterijskog pritiska za 1,48 mmHg. U produžetku istog reda nalazi se rezultat
testiranja značajnosti koeficijenta b. Da bi nezavisna varijabla bila statistički značajan prediktor potrebno
je da p bude jednako ili manje od 0.05, što znači da su obe nezavisne varijable u navedenom višestrukom
regresionom modelu prediktori sistolnog arterijskog pritiska.
Zaključak: Starost i indeks telesne uhranjenosti su statistički značajni prediktori sistolnog arterijskog
pritiska.
Odrediti dovoljan broj jedinica posmatranja za ocenu proporcije obolelih od reumatskih bolesti u
odrasloj populaciji. Pretpostavka je, na osnovu prethodnih istraživanja, da je ta proporcija oko 0.16 (16%).
Istraživač želi da dobije intervalnu ocenu preciznosti E = 2% (0.02).
Odrediti dovoljan broj jedinica posmatranja za ocenu aritmetičke sredine HDL u populaciji žena. Na
osnovu sličnih istraživanja pretpostavka je da aritmetička sredina iznosi 67 mg/dL, a standardna devijacija
25 mg/dL. ji. Istraživač želi da dobije intervalnu ocenu preciznosti E = 5 mg/dL, za nivo poverenja od 95%
i 99%.
Za izračunavanje veličine uzorka za interval poverenja aritmetičke sredine potrebno je u kalkulator uneti
pretpostavku o standardnoj devijaciji ispitivane pojave u populaciji, i preciznost (polovina širine intervala
poverenja).
Unošenjem ovih vrednosti u kalkulator dobijamo da je za dobijanje intervalne ocene preciznosti 5 mg/dL
i nivoa poverenja 95% potrebna veličina uzorka od 96 ispitanika, a za nivo poverenja od 99% potrebno
je 166 ispitanika.
Odrediti dovoljan broj jedinica posmatranja za testiranje razlike proporcija reumatoidnog artiritisa (RA)
između muškog i ženskog pola. Pretpostavka je, na osnovu prethodnih istraživanja, da je ta proporcija
oko 0.004 (0.4%) u muškom polu, i oko 0.009 (0.9%) u ženskom polu. Istraživač želi potrebnu veličinu
uzorka za testiranje na nivou značajnosti od 0.05 i za statističku snagu hi-kvadrat testa od 0.80 (80%).
Za izračunavanje veličine uzorka potrebno je u kalkulator (Sheet:Testiranje razlike dve prop.) uneti
pretpostavku o proporciji ispitivane pojave u populacijama.
Primer 4 (Dovoljan broj jedinica posmatranja za testiranje razlike dve aritmetičke sredine):
Odrediti dovoljan broj jedinica posmatranja za testiranje razlike aritmetičkih sredina triglicerida između
muškog i ženskog pola. Pretpostavka je, na osnovu prethodnih istraživanja, da je aritmetička sredina u
populaciji mušakaraca 105 mg/dL (±25), a u populaciji žena 85 mg/dL (±20). Istraživač želi potrebnu
veličinu uzorka za testiranje na nivou značajnosti od 0.05 i za statističku snagu t-testa od 0.80 (80%).
Za izračunavanje veličine uzorka potrebno je u kalkulator (Sheet: Testiranje razlike dve a.s.) uneti
pretpostavku o aritmetičkim sredinama i standardnim devijacijama ispitivane pojave u populacijama.
Unošenjem ovih vrednosti u kalkulator dobijamo da je za testiranje razlike aritmetičkih sredina triglicerida
između muškog i ženskog pola, na nivou značajnosti od 0.05 i statističku snagu od 0.80, potrebno 20
ispitanika po uzorku.
Za izračunavanje veličine uzorka u gore opisanim situcijama ali i za mnoge druge statistički procedure
mogu se upotrebiti i dva besplatna programa za tu namenu koji se mogu skinuti sa adresa:
1. http://biostat.mc.vanderbilt.edu/wiki/pub/Main/PowerSampleSize/pssetup3.exe
2. http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-
register/Dokumente/GPower_3.1.5.zip
Za određivanje potrebnog broja jedinica posmatranja za testiranje razlike dve proporcije potrebno je
imati podatke o:
o Pretpostavljenim proporcijama
o Standardnim devijacijama
o Artimetičkim sredinama.
o Varijansama
Adekvatnost merenja
U svakom merenju postoji izvestan stepen neizvesnosti, koji može biti iskazan kao greška u merenju.
Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i slučajne greške. Sistematske greške
daju predvidive precenjene ili potcenjene vrednosti (npr. loše kalibrisani instrument koji daje uvek
precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka, slučajne greške nisu predvidive, i u
datom mernom procesu mogu dati i precenjene i potcenjene vrednosti. Greške u merenju nastaju
delovanjem različitih faktora kao što je to loša kalibracija instrumenta, neodgovarajuće vreme odziva
instrumenta u odnosu na promene merene varijable, uticaj samog instrumenta namerenu veličinu,
delovanje okoline, humani faktori – međuposmatrački i unutarposmatrački varijabilitet (npr. kako lekar
ocenjuje depresivnost pacijenta na nekoj skali). Slučajne greške nastaju i usled “šuma” - malih i brzih
promena u okolini ili u samom instrumentu koje mogu uticati na izmerenu vrednost.
Identifikacijom i smanjenjem grešaka merenje se može učiniti više adekvatnim. Adekvatnost merenja
podrazumeva koncepte kao što su tačnost, preciznost, slaganje, valjanost i pouzdanost.
TAČNOST
Odnosi se na bliskost izmerene vrednosti i tačne/korektne vrednosti (označena kao referentna,
kriterijumska ili vrednost zlatnog standarda).
Primer: Cilj je bio evaluacija tačnosti novog automatskog brojača retikulocita u odnosu na referentne
vrednosti koje su dobijene manuelnim / vizuelnim brojanjem od strane dva laboratorijska tehničara.
Na osnovu sedam uzoraka, koeficijent korelacije iznosio je 0.96 što je prihvaćeno kao
zadovoljavajuće slaganje automatskog brojača sa referentnim vrednostima.
PRECIZNOST
Preciznost je bliskost nezavisnih merenja istog kvantiteta ili kvantiteta napravljenog pod istim uslovima.
Za ocenu preciznosti koriste se mere varijabiliteta, a najčešće koeficijent varijacije (CV). Male vrednosti
CV ukazuju na precizno merenje. U laboratorijskim uslovima određuje se pravljenjem poduzoraka od
istog materijala.
Primer: Na istom ispitaniku na istom mernom mestu pet puta je ponovljeno merenje mineralne
gustine primenom DXA metode. Dobijene su sledeće vrednosti (g/cm2): 0.85, 0.89, 0.86, 0.82, 0.85.
Zaključeno je da merenje ima zadovoljavajuću preciznost (CV = 2.9%).
Primer: Od istog uzorka plazme napravljeno je pet poduzoraka i izmerene su sledeće vrednosti HDL
holesterola (mg/dL): 55, 56, 55, 54, 57. Ocenjeno je da merenje ima zadovoljavajuću preciznost (CV
= 2.1%)
SLAGANJE
Odnosi se na bliskost izmerenih vrednosti različitim metodama, pri čemu se niti jedan od njih ne može
proglasiti referentnim/zlatnim standardom, pa se ne može primeniti ocena tačnosti. Metode za ocenu
slaganja prikazane su u delu ove lekcije pod nazivom „Međuposmatračka pouzdanost“.
VALJANOST I POUZDANOST
Vrlo često merenja u medicini zasnivaju se na primeni “papirnih instrumenata” - upitnika i skala. Izmerena
vrednost na takvim instrumentima dobija se kombinacijom odgovara na pitanja (stavke, ajteme) na
upitniku ili skali, čime se dobija kompozitni skor. Adekvatnost takvog mernog procesa, primenom
kompozitnih skorova, opisana je konceptima valjanosti (validnosti) i pouzdanosti (relijabilnosti). Koncept
valjanosti srodan je konceptu tačnosti, a koncept pouzdanosti srodan je konceptu preciznosti.
Pouzdanost označava do koje mere se metoda merenja (test) konzistentno ili postojano ponaša, a
valjanost je odnos između onog što se pretpostavlja da bi instrument (test) trebalo da meri i onog što
on stvarno meri.
POUZDANOST
Postoje tri standardna načina za ocenu pouzdanosti: interna konzistentnost, međuposmatračka
pouzdanost i test retest pouzdanost. Pouzdanost se ocenjuje primenom različitih tipova koeficijenata
pouzdanosti. Uopšte uzev, vrednosti koeficijenata pouzdanosti preko 0.7 smatraju se prihvatljivim.
INTERNA KONZISTENTNOST je mera slaganja individualnih stavki (ajtema) na skali i označava stepen do
kojeg su stavke međusobno korelisane. Ovom prilikom, svaka stavka se posmatra kao poseban
instrument za merenje ispitivanog konstrukta, tako da koherentnost između njih sugeriše da svi ajtemi
mere istu stvar (a takođe i sve stavke zajedno kao celina).
Interna konzistencija skale zavisi od interne konzistencije konstrukta kojeg težimo da tom skalom
izmerimo, i veća je kod unidimenzionalnih konstrukata nego kod onih sa dva ili više nezavisnih domena.
Interna konzistentnost je prosečna korelacija između stavki unutar skale. Vrednosti Cronbach alfa preko
0,7 su zadovoljavajuće.
Opis podataka: Za 17 ispitanika dati su podaci na Bekovoj skali za anksioznost. Ova skala sastoji se od
21 pitanja (stavke, ajtema), a koristi se za procenu simptoma opšte anksioznosti. Pacijenti odgovaraju na
svako pitanje i procenjuju sopstveno stanje na skali od 0 (odsustvo simptoma) do 3 (veoma izraženi
simptomi). Zbir svih ajtema daje totalan skor (maksimalno 63).
Procedura u EZR:
1) Preuzeti i učitati bazu podataka BAI.xlsx
o u polju Variables (pick three or more) označiti stavke za koje se izračunava interna
konzistentnost
o kliknuti na dugme OK
MEĐUPOSMATRAČKA POUZDANOST meri slaganje dva ili više posmatrača koji koriste iste informacije o
istom objektu. Najčešće se koristi za procenu međuposmatračke pouzdanosti različitih skala. Kod upitnika
se ne izračunava jer se radi o instrumentima za samoprocenu.
Opis podataka: Dvojica radiologa postavljaju dijagnozu karcinoma pluća na osnovu radiografskog
snimka. Njihove odluke o dijagnozi za 92 pregledana pacijenta date su u fajlu “radiolozi”. Oceniti slaganje
dva radiologa koje se odnosi postavljanje dijagnoze karcinoma pluća na osnovu radiografskog snimka.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka radiolozi.xlsx
U prozoru koji se pojavio, na osnovu tabele kontingencije, uneti apsolutne učestalosti kategorija
odluka oba radiologa.
Ocenjuje se primenom:
o intraklasnog koeficijenta korelacije,
o Pearsonovog koeficijenta linearne korelacije ili
o Spearmanovog koeficijenta rang korelacije.
Ova vrsta pouzdanosti je posebno značajna ako se skala koristi za ocenu promene stanja ispitanika u
toku tretmana. Ako skala nema dovoljno visoku test-retest pouzdanost, onda je nemoguće odrediti da li
je izmerena promena stvarna ili predstavlja slučajnu grešku skale.
Opis podataka: Kod 16 ispitanika starijih od 65 godina meren je kognitivni status. Za procenu kognicije
korišćen je Mini Mental State Examination (MMSE). Testiranje je rađeno dva puta u razmaku od 7 dana
radi procene test-retest pouzdanosti MMSE.
Procedura u EZR:
1) Preuzeti i učitati bazu podataka MMSE.xlsx
Test-retest pouzdanost izračunaćemo pomoću Pearsonovog koeficijenta korelacije koji se u EZR dobija
klikom na liniji sa komandama: Statistical analysis→Continuous variables→Test for Pearson`s correlation
o u okviru polja Variables (pick two) označiti varijable za koje određujemo test retest
o kliknuti na dugme OK.
6. Šta je uzorak?
a. Skup varijabli u istraživanju
b. Osnovni skup
c. Proces merenja
d. Podskup osnovnog skupa
7. Kada treba testirati nultu hipotezu o tome da više od 2 nezavisnih uzoraka potiče iz iste
populacije, a podaci su ordinalni, ili nisu ispunjene pretpostavke za primenu parametarskih
testova, adekvatno je primeniti:
a. Kruskal-Wallis test
b. Analizu varijanse
c. Kolmogorov-Smirnov test
d. T-test za zavisne uzorke
Projektni zadatak 1
Projektni zadatak 2
Projektni zadatak 3
Probni teorijski test
Medicinska statistika i informatika
za doktorske akademske studije