Professional Documents
Culture Documents
LEKCIJA 1
I Osnovni statistiĉki pojmovi
Statistika je nauka o generisanju informacija i znanja kroz prikupljanje, analizu i
interpretaciju podataka koji su podloţni sluĉajnom variranju. Predstavlja opšti intelektualni
metod koji se primenjuje kad god postoje podaci sa osobinama variranja i sluĉajnošću
pojavljivanja. Ukratko, moglo bi se reći da je statistika nauka o odluĉivanju u uslovima
nesigurnosti.
Prilikom merenja moţe doći do grešaka u merenju, koje mogu biti: sistematske ili sluĉajne.
Kategorijalni podaci koji imaju samo dve meĊusobno iskljuĉive kategorije, jesu binarni
odnosno dihotomni. Primeri su pol (ţenski, muški) i ishod leĉenja (izleĉen, neizleĉen).
• Broj poroĊaja
• Broj obolelih
• Frekvencija srca
• Broj trombocita
b) Kontinuirani (neprekidni) numerički podaci – varijabla moţe imati bilo koju vrednost iz
intervala variranja. Primeri su:
• Telesna masa
• Telesna visina
• Starost
• Telesna temperatura
• Pritisak
II Eksploracija podataka
Priprema podataka za analizu:
U analizi istraţivaĉkih podataka postoje tri uoĉljive faze: priprema podataka za analizu,
opisivanje podataka (deskriptivna statistika) i ocenjivanje i testiranje hipoteza i modela
(inferencijalna statistika).
Eksploracija podataka obuhvata prve dve faze analize istraţivaĉkih podataka: pripremu
podataka za analizu i njihovo opisivanje, a vaţna je za ispitivanje kvaliteta podataka u bazi ,
otkrivanje opštih obrazaca ponašanja ili ekstremnih izuzetaka od tih obrazaca.
Istraživačka baza podataka – matriĉni zapis ĉija veliĉina zavisi od broja jedinica
posmatranja i broja varijabli
Redovi = jedinice posmatranja
Provera podataka je preduslov za svaku dalju analizu. Mali skup podataka moguće je
pregledati u celini dok se kod većih skupova ĉešće bira sluĉajan uzorak jedinica koje se
detaljno kontrolišu. Pregled podataka se sastoji od:
Modifikacija podataka
Redefinicija podataka je oblik modifikacije podataka koji se koristi kod zamene pogrešnih
ili nedostajućih vrednosti, kod izbacivanja i/ili saţimanja pojedinih kategorija obeleţja (male
uĉestalosti) i kod formiranja novih varijabli (nastaju kao rezultat logiĉkih i algebarskih
operacija postojećih varijabli (npr. BMI)
desna iskošenost
leva iskošenost
2. Deskriptivne mere:
R programski jezik i okruţenje, kao i svi dodatni paketi, imaju otvoren kod i besplatno su
dostupni za preuzimanje, instalaciju i korišćenje. Mreţa ftp i veb servera sa koje se besplatno
mogu preuzeti R i dodatni paketi je CRAN (The Comprehensive R Archive Network) i
pristupa joj se preko sledeće adrese: https://cran.r-project.org
U osnovnoj verziji R nema grafiĉki korisniĉki interfejs (GUI), već poseduje interfejs
komandne linije koji se prikazuje u konzoli. Postoje dodatni grafiĉki korisniĉki interfejsi za
R: R Commander, RStudio, Deducer.
R Commander
EZR
EZR je statistiĉki softver koji se bazira na R-u i R commander-u i dodaje razliĉite statistiĉke
funkcije iz oblasti medicinske statistike. Funkcijama se pristupa kroz grafiĉki interfejs preko
menija.
Startovanje EZR-a
Linija menija sadrţi pune liste komandi koje podrţava EZR. Klikom na grupu komandi (npr.
File) otvara se padajući meni preko koga se pristupa ostalim komandama iz te grupe.
EZR preko R Commandera dodaje svoj grafiĉki interfejs i liste komandi. Originalni meni R
Commandera sa listama komandi nalazi se kao poslednja stavka u okviru linije menija pod
nazivnom Original menu. Lista dostupnih komandi i redosled za EZR i R Commander se
neznatno razlikuju. Najveći deo zadataka u okviru kursa radiće se u okviru EZR-a, a nekoliko
analiza će se raditi iz originalnog menija R Commandera.
Traka sa alatima prikazuje aktivne podatke i statistiĉke alate. Deo za podatke sadrţi i
preĉice za menjanje, pregledanje ili ĉuvanje seta aktivnih podataka.
Istraţivaĉka baza podataka praćena je šifarnikom koji sadrţi informacije o nazivu i redosledu
varijabli, opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni,
numeriĉki). Osim toga u šifarniku su, za kategorijalne varijable, date informacije o broju
kategorija i kodovima tih kategorija.
Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna
datoteka, zatim se definišu varijable prema šifarniku i na kraju se u datoteku unesu podaci
dobijeni u istraţivanju.
1. U navedenim programima se nazivi varijabli unose u prvi red. Preporuĉuje se da ovi nazivi
budu u formi jedne reĉi. Ukoliko je potrebno da naziv varijable ima više reĉi nazive varijabli
treba pisati ili spojenim reĉima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr.
navika_pusenja) ili taĉkom. U sluĉaju da se reĉi ukucaju odvojeno, prilikom uĉitavanja EZR
automatski svaki razmak zamenjuje taĉkom (npr. ako u nazivu varijable ukucamo navika
pusenja EZR će uĉitati kao navika.pusenja).
3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojĉane vrednosti bez
naziva mernih jedinica (npr. podatak o telesnoj masi uneti kao broj bez oznake kg).
4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao
numeriĉki kodovi.
Nominalni podaci se unose kao tekstualni nazivi kategorija (npr. za pol: muski, zenski
ili mesto boravka tokom studiranja: kod_roditelja, privatan_smestaj, studentski_dom).
Ordinalni podaci se unose kao numeriĉki kodovi koji odraţavaju poredak kategorija.
Npr. za podatke o zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan,
nezadovoljan, neutralan, zadovoljan i vrlo zadovoljan) upotrebiti kodove za taj ureĊeni
niz poĉev od najmanjeg do najvećeg nivoa što mora biti zabeleţeno u šifarniku zbog
jednostavnije interpretacije podataka i rezultata statistiĉke analize.
NAPOMENA:
R programsko okruţenje nema podršku za naša slova (ĉ, ć, š, ţ, Ċ) pa ih ne treba koristiti za
nazive varijabli i unos podataka.
Obratiti paţnju da R pravi razliku izmeĊu malih i velikih slova, što treba uzeti u obzir
prilikom upotrebe naziva datoteka i varijabli u komandama
Program nudi naziv Dataset, koji se moţe promeniti. To je privremeni naziv baze koji formira
EZR i na kome se izvršavaju komande.
4. Ako je baza uĉitana dobiće se poruka (u prozoru za poruke) sa informacijom koliko baza
ima redova i kolona.
5. EZR moţe da radi sa jednom uĉitanom bazom podataka. Prilikom pokušaja uĉitavanja
druge baze dok je prethodna otvorena, biće postavljeno pitanje da li da se druga baza uĉita
preko prethodne. Preporuĉuje se da se na poĉetku rada uvek proveri koja je baza aktivna i
pogleda struktura baze. To se moţe uraditi klikom na dugme View na traci sa alatima, nakon
ĉega će se u novom prozoru otvoriti aktivna baza podataka.
V SreĊivanje podataka
GRUPISANJE I PRIKAZIVANJE PODATAKA
Na kruţnom dijagramu ugao kruţnog iseĉka koji odgovara nekoj kategoriji dobija se
mnoţenjem relativne uĉestalosti (iskazanih kao proporcije) sa 360°. Na primer, apsolutnoj
uĉestalosti od 23 pušaĉa, odgovara ugao kruţnog iseĉka od (23/50)x360°=166°) (Grafikon 1).
3. Pošto Excel baza sadrţi više listova (Sheet), oznaĉiti Sheet1 iz kojeg se preuzima baza, pa
kliknuti na dugme OK.
Za prikaz uĉestalosti nominalnih podataka varijable pol:
3) Ĉekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama).
Ukoliko ne ţelimo prikaz nedostajućih vrednosti odĉekirati polje Show missing data.
U prozoru za skripte prikazuje se niz komandi koji je izvršen. Posle bilo koje statistiĉke
procedure u EZR-u, u prozoru za skripte prikazaće se komande koje koristi primenjena
procedura. U okviru tog prozora, komande je moguće menjati, i tako izmenjene startovati
ponovo. EZR omogućava da se skripte saĉuvaju u spoljašnju datoteku i kasnije ponovo
uĉitaju i koriste. Rad sa skriptama prevazilazi nivo potrebnog znanja za studente i neće biti
detaljnije obraĊivan.
Tabela sa prikazom apsolutnih i relativnih uĉestalosti se zatim kreira u MS Word-u ili nekom
drugom programu za obradu teksta:
Grafiĉki prikaz varijable pol u vidu stubiĉastog dijagrama prikazan je u posebnom prozoru.
EZR po podrazumevanim podešavanjima prikazuje uĉestalosti nominalnih varijabli
stubiĉastim dijagramom.
Kruţni dijagram se moţe dobiti klikom na liniju menija Graphs and tables nakon ĉega se na
padajućem meniju odabere ţeljeni tip grafikona, u ovom sluĉaju Pie chart(Frequencies).
U dijalog prozoru koji se otvorio, oznaĉiti varijablu koja se prikazuje u vidu kruţnog
dijagrama, po ţelji oznaĉiti Draw in color za prikaz u boji, pa kliknuti na dugme OK.
Kruţni dijagram varijable pol prikazuje se u posebnom prozoru. Na sliĉan naĉin se mogu
izraditi i drugi tipovi grafikona.
Grafikoni se u EZR-u prikazuju u posebnom prozoru, iz koga se mogu izvesti u neki drugi
format ili prekopirati u MS Word program.
1) Grafikone je moguće saĉuvati u više formata (PDF, Png, Bmp, TIFF ili Jpeg),
što se postiţe preko komandi iz prozora grafikona: File→Save
as→Jpeg→100% quality… nakon ĉega treba imenovati grafikon i odabrati
mesto gde se ĉuva.
U MS Word programu kliknuti desnim tasterom miša na mesto gde se kopira grafikon, pa u
padajućem meniju koji se otvorio, kliknuti levim tasterom miša na dugme Paste .
P – prednji infarkt
DZ – donji/zadnji
AD – kombinovani anteroseptalni i dijafragmalni
Podaci: DZ, P, DZ, DZ, AD, P, DZ, DZ, P, P, DZ, P, P, DZ, DZ, DZ, P, P, DZ, DZ .
Prikaz raspodele uĉestalosti ordinalnih podataka se izvodi na identiĉan naĉin kao kod
nominalnih podataka.
0 – nepušaĉ
1 – umereno pušenje
2 – prekomerno pušenje
Podaci: nepusac, prekomerno pusenje, umereno pusenje, umereno pusenje, prekomerno
pusenje, nepusac, nepusac, umereno pusenje, umereno pusenje, prekomerno pusenje,
umereno pusenje, nepusac, prekomerno pusenje, umereno pusenje, nepusac, nepusac,
umereno pusenje, prekomerno pusenje, umereno pusenje, prekomerno pusenje.
Dati su podaci o telesnoj visini 17 studenata III godine medicinskog fakulteta: 178, 169,
185, 172, 175, 191, 183, 165, 171, 164, 181, 174, 158, 171, 178, 167 i 159 cm.
U statistiĉkom smislu prosek, srednja vrednost, odnosno mera centralne tendencije je jedan
broj, jedna vrednost koja kao reprezentativna zamenjuje sve druge vrednosti obeleţja
posmatranja.
Ne mogu biti veće od najveće, niti manje od najmanje pojedinaĉne vrednosti u datom
skupu podataka.
aritmetiĉka sredina
geometrijska sredina
harmonijska sredina
medijana
mod (modus, tipiĉna vrednost)
ARITMETIĈKA SREDINA
Aritmetička sredina je koliĉnik zbira svih podataka i ukupnog broja podataka. Poznata je i
kao proseĉna vrednost, prosek. Obeleţava se sa x¯(ĉita se iks bar).
Primer 1. Data je telesna visina 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171,
175. Izraĉunati aritmetiĉku sredinu. Aritmetiĉka sredina iznosi: 175,5
Primer 2. Za pet vrednosti amilaze u serumu (U/L): 51, 79, 62, 37 i 42, aritmetiĉka sredina
iznosi 54 U/L. Dodavanjem nove vrednosti od 279 U/L, aritmetiĉka sredina postaje 92 U/L.
Dodavanje ekstremnog podatka uĉinilo je da nova aritmetiĉka sredina nije više valjan
reprezent skupa podataka.
Rešenje:
U prethodnu Tabelu dodati kolonu koja prikazuje vrednost sredine klasnog intervala (zbir
donje i gornje granice intrevala podeliti sa 2). Na primer, za prvi klasni interval, sredina
iznosi (106+110)/2=108. Zatim dodati kolonu fx (pomnoţiti frekvenciju sa sredinom klasnog
intervala).
x¯¯=∑nx/¯∑n
Primer 2. (Izraĉunavanje aritmetiĉke sredine aritmetiĉkih sredina)
Date su vrednosti aritmetiĉkih sredina BMI uĉenika tri škole u jednoj opštini:
Rešenje
Kada bi u Primeru sve tri škole imale jednak broj uĉenika, aritmetiĉka sredina bi se dobila
prostim sabiranjem aritmetiĉkih sredina i deljenjem sa brojem grupa: (22.7+19.4+20.9)/3=
21.3.
MEDIJANA
Medijana ili centralna vrednost predstavlja srednju pozicionu vrednost. Deli niz podataka
poreĊanih po veliĉini na dva jednaka dela. Jednaka je drugom kvartilu, odnosno pedesetom
percentilu.
Medijana ne zavisi od vrednosti obeleţja posmatranja već od njihovog mesta tj. od broja
podataka. Upotrebljava se u onim sluĉajevima kada treba izbeći nerealnu aritmetiĉku sredinu
ili kada postoji posebna zainteresovanost za mesto podataka kao što je lociranje optimalnog
poloţaja.
Nedostaci medijane, u odnosu na aritmetiĉku sredinu, jesu (1) da je manje pogodna za dalje
statistiĉke analize, i (2) da ignoriše relativan uticaj svake pojedinaĉne vrednosti, ukljuĉujući i
ekstremne vrednosti, tako da nije pogodna kada istraţivaĉ ţeli da srednja vrednost reflektuje
svaku vrednost iz skupa podataka.
ODREĐIVANJE MEDIJANE
Mmed = n+1 / 2
3. Proĉitati ili izraĉunati vrednost koja odogovara mestu medijane.
kod neparnog broja podataka medijana je vrednost srednjeg tj. centralnog podatka;
kod parnog broja podataka vrednost medijane se izraĉunava kao aritmetiĉka sredina
dva centralna podatka.
Primer 1: Date su vrednosti Hgb (g/L) u krvi 5 bolesnika: 142, 131, 152, 137, 148. Odrediti
medijanu.
Med=142g/L
Medijana hemoglobina iznosi 142g/L.
MOD
Mod (tipiĉna vrednost) je vrednost podatka sa najvećom uĉestalošću. OdreĊivanje moda
moţe biti olakšano ako su podaci sreĊeni po rastućem ili opadajućem nizu. Na primer, za
sledeće podatke:
vrednost moda iznosi 4 (to je vrednost koja se nauĉestalije javlja - tri puta).
Kod grupisanih podataka pribliţna vrednost moda je vrednost grupe ili sredine klasnog
intervala sa najvećom frekvencijom – modalna grupa ili modalni interval.
Ako se pojavljuje samo jedna maksimalna frekvencija grupe ili grupnog intervala radi se o
unimodalnoj raspodeli, a ako se pojavljuju dve ili više maksimalnih frekvencija grupa ili
grupnih intervala radi se o bimodalnoj ili multimodalnoj raspodeli.
Prednosti moda su (1) da nije pod uticajem ekstremnih vrednosti, i (2) da je to jedina mera
centralne tendencije koja se moţe primeniti kod nominalnih podataka.
Nedostaci moda su (1) da moţe postojati više od jednog moda u datom skupu podataka, što
oteţava interpretaciju, (2) da se ne moţe odrediti ako ne postoje bar dva podataka sa istim
vrednostima, (3) da nije pogodan za dalje statistiĉke analize, i (4) da ignoriše relativan uticaj
svake pojedinaĉne vrednosti.
Mod = 2
Izbor srednje vrednosti, kao reprezenta skupa podataka, zavisi od tipa podataka i osobina
raspodele:.
Na primer, za podatke o BMI, ako je raspodela simetriĉna i bez ekstremnih vrednosti, treba
upotrebiti aritmetiĉku sredinu. Ako je rapodela asimetriĉna ili ima ekstremnih vrednosti,
treba upotrebiti medijanu. Za istu varijablu, ako je umesto BMI, iskazana ordinalnim
podacima sa pet kategorija (1-teška pothranjenost, 2-pothranjenost, 3-normalna uhranjenost,
4- gojaznost, 5-preterana gojaznost) moţe se upotrebiti medijana ili mod. Ali ako je ista
varijabla iskazana ordinalnim podacima sa samo tri kategorije (1-pothranjenost, 2-normalna
uhranjenost, 3-gojaznost) onda je upotreba moda najadekvatnija srednja vrednost.
VII Mere varijabiliteta
Mere varijabiliteta (mere varijacije, mere disperzije, mere raspršenja) opisuju variranje
vrednosti skupa podataka, u smislu odstupanja od srednjih vrednosti i opsega meĊusobnih
razlika.
d) Varijansa
e) Standardna devijacija
a) Koeficijent varijacije
INTERVAL VARIJACIJE
Interval varijacije je razlika najveće i najmanje vrednosti u skupu podataka.
I= xmax−xmin
gde je: xmax – najveća vrednost u skupu podataka, xmin – najmanja vrednost u skupu
podataka.
Percentili su kvantili koji statistiĉki niz dele na 100 jednakih delova (broj percentila je 99).
Decili su kvantili koji statistiĉki niz dele na 10 jednakih delova (broj decila je 9).
Broj kvartila je 3:
Grafikonom kutije prikazujemo numeriĉke podatke. Grafikon kutije dizajnirao je John Tukey.
Grafikon se sastoji od kutije (engl. box), ĉija je stranica duţine interkvartilnog opsega (IQ) i
ĉiji se krajevi prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara
trećem kvartilu (Q3). Unutar kutije je oznaka, obiĉno linija koja preseca kutiju, koja odgovara
vrednosti medijane. Kutija predstavlja 50% opserviranih sluĉajeva.
Iz kutije na obe strane izlazi po jedan produţetak, tzv. brk ( engl.whisker, maĉji brk) koji se
prostire u opsegu najmanje i najveće vrednosti koje nisu neobiĉne ili ekstremne. Za
odreĊivanje duţine produţetaka sluţe nam unutrašnje i spoljašnje granice. Unutrašnje granice
su udaljene od krajeva kutije po 1,5 a spoljašnje po 3 interkvartilna opsega. Granice se ne
ucrtavaju u grafikon već sluţe za odreĊivanje duţine produţetaka i identifikaciju neobiĉnih i
ekstremnih vrednosti.
Neobiĉne vrednosti (engl. outlier) su sve vrednosti koje su od ivica kutije udaljene više od
1,5 a manje od 3 duţine kutije (interkvartilnog opsega) i na grafikonu se oznaĉavaju 0.
Ekstremne vrednosti su one koje su od ivice kutije udaljene više od 3 njegove duţine i na
grafikonu se obeleţavaju sa * ili x.
Treba proveriti da li je vrednost ekstremnih vrednosti moguća ili je u pitanju greška prilikom
zapisivanja i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih
vrednosti date promenljive.
Shematski prikaz grafikona kutije Primer grafikona kutije
VARIJANSA I STANDARDNA DEVIJACIJA
Varijansa je srednje kvadratno odstupanje od aritmetiĉke sredine. Obeleţava se sa sd2 ili s2.
Izraĉunava se po formuli:
sd2=∑(xi−x¯)2 / n−1
gde je: xi je vrednost pojedinaĉnog podatka, (x¯) je aritmetiĉka sredina, a n je broj podataka.
Kada je n veće od 30, u imeniocu se moţe staviti n umesto n-1 jer su tada izraĉunate
vrednosti pribliţno.jednake.
sd = √sd2
Prednost varijanse i standardne devijacije, kao mera varijabiiteta, je u tome što odraţavaju
variranje svih vrednosti skupa podataka.
Nedostaci varijanse i standardne devijacije su: (1) osetljivost na ekstremne vrednosti, (2)
nepodesne su za podatke sa asimetriĉnom raspodelom i (3) mogu se koristiti samo za
numeriĉke podatke.
CV=sd / x¯×100%
Kada je CV manji ili jednak od 30% za skup podataka se moţe reći da je homogen (manje
varijabilan, konzistentan, uniforman). Ako je CV veći od 30%, za skup podataka se moţe reći
da je heterogen (više varijabilan).
z =xi−x¯ / sd
gde je xi aktuelna vrednost za koju se izraĉunava zed vrednost, x¯ je aritmetiĉka sredina, a sd
standardna devijacija.
Zed vrednost je pokazatelj relativne pozicije neke vrednosti u skupu podataka. Predznak zed
vrednosti pokazuje da li je neka konkretna vrednost manja (negativna zed vrednost) ili veća
(pozitivna zed vrednost) od aritmetiĉke sredine.
VIII Statistiĉko opisivanje podataka
gde je:
mean aritmetiĉka sredina (34.7)
sd standardna devijacija (9.9)
cv koeficijent varijacije (0.28)
0% minimalna vrednost (18.0)
50% medijana (33.0)
100% maksimalna vrednost (54.0)
n broj ispitanika
Mod se moţe dobiti primenom komande za ispisivanje uĉestalosti (table) koja je objašnjena u
prethodnoj lekciji:
Kada je potrebno prikazati deskripciju podataka po grupama, npr. deskripciju varijable starost
prema polu (grupe) iz našeg primera, to se moţe postići na sledeći naĉin:
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme
OK.
u okviru kartice Statistics ĉekirati polja za Mean, Standard deviation, Coefficient of
Variation i Quantiles, pa kliknuti na dugme OK.
Primer 1: Za tip krvne grupe mogući ishodi su: krvna grupa O, A, B i AB. Ova ĉetiri
ishoda su meĊusobno iskljuĉiva, odnosno jedna osoba moţe imati samo jednu krvnu
grupu. Ove ĉetiri krvne grupe ĉine skup elementarnih ishoda.
1. Objektivna verovatnoća
o Teorijska (klasiĉna, matematiĉka, a priori) verovatnoća
o Empirijska (statistiĉka, frekvencijska, a posteriori) verovatnoća
2. Subjektivna verovatnoća
Rešenje: Broj svih jednako mogućih ishoda iznosi tri (grupa A, grupa B i kontrolna grupa).
Broj oĉekivanih ishoda iznosi jedan (kontrolna grupa). Verovatnoća da jedan ispitanik bude
svrstan u kontrolnu grupu iznosi: (broj oĉekivanih ishoda)/(broj svih jednako mogućih
ishoda) = 1/3 = 0.33.
Pitanje 1: Kolika je verovatnoća da jedan ispitanik, iz Primera 2, bude svrstan u grupu A ili
grupu B? R: 0,66
EMPIRIJSKA VEROVATNOĆA
Empirijska verovatnoća (relativna frekvencija) se odreĊuje posle ostvarivanja
posmatranog dogaĊaja, a izraĉunava se kao odnos broja ostvarenih (oĉekivanih) ishoda
prema ukupnom broju mogućih ishoda:
p= m / n
gde je p relativna uĉestalost, m broj oĉekivanih ishoda, a n ukupan broj mogućih ishoda.
Ove relativne uĉestalosti istovremeno su i verovatnoće da sluĉajno izabrana osoba ima neku
konkretnu krvnu grupu.
Osobine verovatnoće:
Zakoni verovatnoće:
1. Zakon adicije (zakon sabiranja verovatnoća): zakonom adicije izraĉunava se
verovatnoća da će se dogoditi jedan, bilo koji (ili ovaj ili onaj), oĉekivani dogaĊaj.
•Za nezavisne dogaĊaje (nastupanje dogaĊaja ne zavisi od nastupanja ili nenastupanja drugog
dogaĊaja):
NAPOMENA:
P(B)=0.12
,
P(B¯)=1−0.12=0.88
Rešenje:
P(O) = 0.45
P(B) = 0.12
Rešenje:
P(D) = 0.05
P(A) = 0.03
Rešenje:
Pitanje 2: Kolika je verovatnoća da sluĉajno izabrana osoba ima ili krvnu grupu O ili krvnu
grupu A, ako je P(O)=0.45 i P(A)=0.39 (Tabela iz Primera 3)? R: 0,84
Binomna raspodela
Izraĉunavanje faktorijela:
0! = 1
1! = 1
2! = 1 x 2 = 2
3! = 1 x 2 x 3 = 6 itd.
Rešenje:
P(X = 2) = 0.243
Rešenje:
P(X≥5)=0.092+0.022+0.002=0.116
Rešenje:
P(X≤2)=0.022+0.112+0.243=0.377.
Pitanje 4. Letalitet od neke bolesti iznosi 0.3. Kolika je verovatnoća da će doći do smrtnog
ishoda kod sva tri pacijenta sa ovim oboljenjem? 0,039/0,02/0,027
Primer 10: U kliniĉkom ogledu 10 mg leka primilo je 863 pacijenta. U ovoj populaciji
verovatnoća dobijanja simptoma gripa iznosila je 0.019. Izraĉunajte aritmetiĉku sredinu i
standardnu devijaciju broja pacijenata za koje se moţe oĉekivati da imaju simptome gripa?
U našem primeru: n=863 i p=0.019.
Rešenje:
√np(1−p)
sqrt(863*0.019*(1-0.019))
NORMALNA RASPODELA
Normalna raspodela je najvaţnija raspodela u statistici. To je kontinuirana raspodela
verovatnoća, matematiĉki opisana formulom:
Normalna raspodela je široko korišćena u statistici. Primeri su (a) klasiĉni statistiĉki testovi
bazirani na pretpostavci o normalnosti raspodele podataka, (b) odreĊivanje nivoa znaĉajnosti
u mnogim statistiĉkim testovima i intervalima poverenja, i (c) aproksimacije drugih raspodela
verovatnoća normalnom raspodelom, kao što je to binomna raspodela. Ono što omogućava
primenu normalne raspodele u aproksimacijama jeste centralna graniĉna teorema, po kojoj
bez obzira na karakteristike raspodele neke populacije, raspodela njenih uzoraĉkih
aritmetiĉkih sredina teţi normalnoj za velike uzorke.
Specijalan tip normalne raspodele je standardna normalna raspodela (zed raspodela) ĉiji su
parametri μ = 0 i σ =1. Bilo koja normalna raspodela moţe biti konvertovana u standardnu
normalnu raspodelu transformacijom: z = (x − μ )/ σ . Ovom formulom, bilo koja vrednost
originalne raspodele moţe biti konvertovana u zed vrednost (z-skor, standardan skor). Zed
vrednost je pokazatelj relativnog poloţaja neke vrednosti u raspodeli kojoj pripada.
Standardna normalna raspodela se moţe iskoristiti za odreĊivanje verovatnoća koje se odnose
na empirijske podatke, uz pretpostavku da oni slede normalnu raspodelu. Površina izmeĊu
apscise i krive normalne raspodele ekvivalentna je verovatnoći. Totalna površina ispod krive
jednaka je jedan. Verovatnoća da se vrednost varijable naĊe u intervalu izmeĊu dve vrednosti
jednaka je površini izmeĊu ovih vrednosti. Prvo je potrebno ove vrednosti transformisati u z-
vrednosti, a zatim proĉitati površine, a samim tim i verovatnoće, iz tabela površina ispod
krive standardne normalne raspodele. U tabeli (u prilogu) površine su date poĉev od
aritmetiĉke sredine do odgovarajauće zed-vrednosti (Slika 3).
Procedura u EZR
U EZR verovatnoća površine ispod krive normalne raspodele izraĉunava se na sledeći naĉin:
Primer 11: Telesna masa jedne populacije odraslih osoba je normalno rasporeĊena sa
aritmetiĉkom sredinom 70 kg i standardnom devijacijom 10kg.
Slika 3. Grafiĉki prikaz površine ispod krive normalne raspodele za vrednosti telesne mase
veće od 85 kg
P(x>85) =0.07
b) Kolika je verovatnoća da sluĉajno izabrana osoba iz ove populacije ima vrednost telesne
mase izmeĊu 67 i 85 kg?
Slika 4. Grafiĉki prikaz površine ispod krive normalne raspodele za vrednosti telesne mase
izmeĊu 67 i 85 kg
c) Kolika je verovatnoća da sluĉajno izabrana osoba iz ove populacije ima telesnu masu
manju od 95 kg?
P( x ≤ 95) = 0.99
Pitanje 5: U populaciji ţena starosti izmeĊu 25 i 50 godina vrednosti mokraćne kiseline u
serumu su normalno rasporeĊene sa aritmetiĉkom sredinom 333 mmol/L i standardnom
devijacijom 30 mmol/L.
.
Lekcija 2
I Provera normalnosti raspodele
CV=sd / x¯×100
Primer. Prikupljeni su podaci o prirastu telesne mase (g) i vrednostima trombocita (x 109/L)
za dve grupe eksperimentalnih ţivotinja pri ĉemu je jedna grupa bila na standardnoj ishrani, a
druga na ishrani obogaćanoj vitaminima (Primer baze za proveru normalnosti
raspodele.xlsx)
Procedura u EZR:
1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical
summaries
2) U dijalog prozoru koji se pojavio:
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.
Zadatak. U bazi podataka pod nazivom Ziva.xlsx date su vrednosti ţive za grupu ispitanika
koji su imali infarkt miokarda i za kontrolnu grupu iz opšte populacije. Proveriti normalnost
raspodele koncentracije ţive.
Pitanje 1: Koliko iznose aritmetiĉka sredina i standardna devijacija koncentracije ţive u
grupi ispitanika sa infarktom i kontrolnoj grupi?
Pitanje 3: Koja p vrednost dobijena primenom Shapiro-Wilk testa daje osnov za zakljuĉak da
raspodela odstupa od normalne?
p = 0.02
p˃0.05
p=0.12
Simetriĉna raspodela
Asimetriĉna raspodela
Homogenost varijansi je pretpostavka za izvoĊenje nekih statistiĉkih testova, npr., t-testa ili
analize varijansi. Homogenost varijansi pre izvoĊenja t-testa moţe biti proverena F-testom, a
pre izvoĊenja analize varijanse B-testom (Bartlett) i Leveneovim testom.
Statistiĉke mere (npr. aritmetiĉka sredina i/ili 95%CI) dobijene analizom transformisanih
podataka mogu se obrnutom transformacijom vratiti na nivo originalnih podataka. Na
primer, ako je upotrebljen logaritam za osnovu 10 ili e, obrnuta transformacija se izvodi
stepenovanjem broja deset, odnosno e (2.72).
Logaritamska transformacija
Najĉešće korišćena transformacija koja se izvodi po formuli t = log x. U transformaciji se
najĉešće primenjuju logaritmi sa osnovom 10 ili e (e=2.72).
Primer: U bazi Titar.xlsx nalaze se vrednosti titra antitela dve grupe ispitanika.
3. Pozicionirati se na ćeliju koja se nalazi desno od ćelije ĉiju vrednost treba transformisati i
ukucati funkciju logaritma za osnovu 10:
4. Sa “Copy” i “Paste” iskopirati sadrţaj ćelije sa transformisanim podatkom (na slici gore
iskopirati sadrţaj ćelije “C2”) u sve preostale ćelije.
5. Kliknuti “Save” i ponovo uĉitati podatke u EZR
Grupa 1: 2.04
Grupa 2: 1.73
Poţeljno je rezultate analize transformisanih vrednosti, obrnutom transformacijom vratiti na
nivo originalnih podataka. Na primer, unosom vrednosti aritmetiĉke sredine 2.04 u
kalkulator Obrnuta_transformacija.xlsx dobijamo vrednost obrnuto transformisane
aritmetiĉke sredine: 109.
Grupa 1: 109
Grupa 2: 54
UZORAK
Populacija predstavlja skup svih istovrsnih elemenata (jedinica posmatranja: ljudi, objekata,
dogadjaja) koji imaju neku zajedniĉku karakteristiku od interesa.
Kada ovi uslovi nisu ispunjeni radi se o pristrasnom uzorku, koji je izabran na takav naĉin da
su neke jedinice iz uzoraĉke populacije imale veću verovatnoću da uĊu u uzorak.
UZORKOVANJE
Tehnike uzorkovanja
Prema naĉinu uzorkovanja (biranja jedinica posmatranja u uzorak) uzorci mogu biti:
Primer: Cilj istraţivanja je bila ocena redovnog uzimanja terapije kod obolelih od arterijske
hipertenzije. Uzorak je formiran od pacijenata koji dolaze na kontrolne preglede. U ovom
istraţivanju uzorak je pristrasno biran, jer se moţe pretpostaviti da pacijenti koji dolaze na
kontrolne preglede redovnije uzimaju terapiju. Zakljuĉak takvog istraţivanja bi mogao da se
generalizuje samo na populaciju hipertoniĉara koji dolaze na kontrolne preglede. Ukoliko bi
istraţivaĉ ţeleo da zakljuĉak generalizuje na ukupnu populaciju obolelih od arterijske
hipertenzije, morao bi da u istraţivanje ukljuĉi ne samo pacijenate koji dolaze na kontrolne
preglede, već i pacijente koji ne dolaze, i na taj naĉin dobije reprezentativan uzorak za tu
populaciju (obolelih od arterijske hipertenzije).
SLUĈAJNI UZORCI
U ovom tipu uzoraka vrši se slučajna selekcija jedinica posmatranja i svaka jedinica
posmatranja u populaciji ima poznatu (jednaku i nezavisnu) verovatnoću (šansu) da uĊe u
uzorak. Razlozi zbog kojih treba dati prednost sluĉajnim uzorcima u odnosu na nesluĉajne su:
Sistematski uzorak
U ovom tipu uzorka, jedinice posmatranja se biraju sa liste uzoraĉke populacije izborom
svake K-te jedinice.
K predstavlja korak izbora (uzoraĉki interval), koji zavisi od veliĉine uzoraĉke populacije i
ţeljene veliĉine uzorka.
Kao i kod prostog sluĉajnog uzorka, najpre se formira uzoraĉki okvir tj. numerisani spisak
svih dostupnih jednica posmatranja uzoraĉke populacije. Zatim se izraĉunava korak K=N/n .
Prva jedinica posmatranja odabira se pomoću generatora sluĉajnih brojeva (sluĉajni poĉetak),
a zatim se automatski odabira svaka K-ta jedinica u uzorak.
Sistematski uzorak moţe dati korisne informacije ako kod jedinica u uzoraĉkoj populaciji
postoji ureĊenost po intenzitetu posmatrane karakteristike. MeĊutim, nije pogodan ako
postoje cikliĉne varijacije posmatrane karakteristike.
Stratifikovani uzorak
Stratifikovani uzorak se primenjuje kod heterogenih populacija u odnosu na neku varijablu,
npr. starosna grupa, pol, geografska lokacija (stratifikujuća varijabla). Zbog toga se
populacija deli na stratume iz kojih se zatim bira sluĉajni uzorak (kao prost sluĉajan ili
sistematski uzorak). Ovakav naĉin odabira jedinica posmatranja osigurava da svaka
subpopulacija bude odgovarajuće zastupljena u uzorku.
Kod ovog tipa uzorka, najpre se populacija deli na klastere (grupe), a zatim se na sluĉajan
naĉin biraju klasteri koji ulaze u uzorak (tako da se na sluĉajan naĉin biraju grupe - klasteri, a
ne individue). Koristan je kada je populacija velika ili geografski široko rasprostranjena.
Ĉesto se primenjuje u istraţivanjima gde se populacija moţe podeliti prema teritorijalnom
principu. Npr., klasteri mogu biti škole na teritoriji jedne drţave, gde se prvo na sluĉajan
naĉin biraju klasteri (škole), a zatim se sve jedinice posmatranja (uĉenici) iz klastera
ukljuĉuju u uzorak, ili se odabira sluĉajan uzorak jedinica posmatranja (uĉenika) iz svakog od
izabranih klastera (višeetapni uzorak).
NESLUĈAJNI UZORCI
Kada istraţivaĉi nisu u mogućnosti da izvrše uzorkovanje na sluĉajan naĉin (zbog
nedostupnosti jedinica posmatranja, ograniĉenih resursa i dr.), istraţivanja se sprovode na
nesluĉajnim uzorcima.
Kod nesluĉajnih uzoraka verovatnoća odabira jedinica posmatranja u uzorak nije poznata,
već postoji tzv. selekciona pristrasnost. Elementi uzorka su odabrani na bazi sopstvene
procene istraţivaĉa, pa nedostaje objektivnost u odabiru uzorka. Rezultati sprovoĊenja
istraţivanja na ovom tipu uzoraka su pristrasni, jer uzorci nisu sasvim pouzdani. MeĊutim,
ove tehnike su pogodne i ekonomiĉne za korišćenje.
prigodni uzorak,
kvota uzorak i
namerni uzorak.
Prigodni uzorak
U prigodan uzorak istraţivaĉ ukljuĉuje lako dostupne jedinice posmatranja, npr. pacijente
koji su leĉeni na odeljenju na kome radi. U ovom tipu uzorka moţe postojati pristrasnost u
smislu da se lako dostupne jedinice na neki naĉin razlikuju od ostalih jednica, npr. pacijenti
leĉeni u bolnici imaju teţe oblike bolesti od onih koji se leĉe van bolnice. Varijanta ovog
uzorka je uzorak po tipu “grudve snega” u kojem inicijalno odabrane jedinice posmatranja
angaţuju druge jedinice npr. inicijalno anketirani angaţuju za anketu druge pogodne osobe.
Kvota uzorak
Populacija se najpre deli na kategorije, sliĉno stratifikovanom uzorku, npr. po polu, a zatim se
na nesluĉajan naĉin biraju jedinice posmatranja iz tih kategorija prema unapred utvrĊenom
broju (kvota), ĉime se kontroliše broj jedinica posmatranja iz odreĊene kategorije u
konaĉnom uzorku.
Namerni uzorak
Istraţivaĉ bira one jedinice posmatranja koje poseduju odreĊene karakteristike za koje smatra
da zadovoljavaju specifiĉne zahteve istraţivanja. U ovom tipu uzorka moţe postojati
znaĉajna pristrasnost u postupku biranja jedinica posmatranja, ali se u medicini ĉesto koriste
u tzv. pilot studijama, kada se upravo ţeli odreĊeni tip jedinica posmatranja u uzorku (za
istraţivanje inovativnog naĉina leĉenja pacijenata u terminalnom stadijumu karcinoma).
Parametri su numeriĉke karakteristike ili deskriptivne mere populacije, (npr. mere centralne
tendencije i mere varijabiliteta izraĉunate za populaciju). Parametri su nepromenljive
vrednosti u populaciji.
Odgovarajuće numeriĉke karakteristike ili deskriptivne mere uzoraka (npr. mere centralne
tendencije i mere varijabiliteta izraĉunate za uzorak) nazivaju se (uzoraĉkim) statistikama.
Pitanje: Proseĉna vrednost glikemije u uzorku od 140 bolesnika iznosi 5.8 mmol/L.
Navedena vrednost je:
Populacioni parametar
Uzoraĉka statistika
Uzoraĉke raspodele
Raspodela uzoraĉkih statistika naziva se uzoraĉkom raspodelom:
σx¯=σ / √n
Oznaĉava se takoĊe sa
SEx¯=sd / √n
EZR: Uzorkovanje
Primer: U bazi podataka Sistolni pritisak date su vrednosti sistolnog arterijskog pritiska 99
bolesnika sa akutnim koronarnim sindromom.
sample(1:99,10,replace=F)
U navedenoj komandi 1:99 je uzoraĉki okvir, odnosno, opseg dostupnih statistiĉkih jedinica
uzoraĉke populacije, a sledeći broj 10 je broj traţenih sluĉajnih brojeva. Sa svakom
ponovljenom primenom ove komande mala je verovatnoća da će biti dobijena ista
kombinacija brojeva, a konkretan primer generisanih brojeva izgledao bi:
Jedinice posmatranja sa tim rednim brojevima u uzoraĉkom okviru biće izabrane za uzorak.
95 62 79 19 58 25 76 32 11 23
Sistolni pritisak:
145 125 160 130 130 135 125 150 140 150
2. Odrediti uzoraĉki okvir: 1-99.
Prvu statistiĉku jedinicu odabrati pomoću generatora pseudo sluĉajnih brojeva u R programu:
sample(1:99,1,replace=F)
U konkretnoj primeni ove komande generisan je sluĉajan broj 2. a dalje se izvlaĉi svaka K-ta
jedinica tj. svaka 10-ta jedinica: 2, 12, 22, itd.
2 12 22 32 42 52 62 72 82 92
Sistolni pritisak:
140 125 140 150 170 115 125 145 140 135
3.
Moţe se zapaziti da mere centralne tendencije (aritmetiĉka sredina i medijana) imaju sliĉne
vrednosti u sva tri sluĉaja. Standardna devijacija dobijena iz prostog sluĉajnog uzorka je
manja od one u osnovnom skupu. Interval varijacije dobijen na osnovu prostog sluĉajnog
uzorka i sistematskog sluĉajnog uzorka je manji nego u osnovnom skupu.
IV Statistiĉko zakljuĉivanje – ocenjivanje populacionih
parametara
Statističko zaključivanje:
testiranje hipoteza.
Ukoliko bismo uzeli sve moguće uzorke veliĉine n i izraĉunali njihove aritmetiĉke
sredine i intervale, 95% (99%) svih intervala bi sadrţalo pravu vrednost nepoznatog
populacionog parametra
OdreĊeni interval moţe ali ne mora da sadrţi pravu vrednost populacionog parametra
Kritična vrednost predstavlja broj koji graniĉno razdvaja uzoraĉke statistike za koje je
verovatno da će se pojaviti od onih za koje to nije verovatno.
99% interval poverenja je sigurniji, ima manji rizik greške u odnosu na 95% interval
poverenja. Istraţivaĉi ipak ĉešće koriste 95% interval poverenja jer su oni precizniji (uţi
interval) u odnosu na 99% interval poverenja. Osim toga, na širinu intervala poverenja utiĉu
veliĉina uzorka i varijabilitet. Širina intervala poverenja opada sa povećanjem veliĉine uzorka
i sa smanjenjem varijabiliteta.
gde je:
Primer 1: Baza Sistolna TA.xlsx sadrţi podatke o sistolnom arterijskom pritisku sluĉajnog
uzorka od 10 ispitanika sa akutnim koronarnim sindromom. Odrediti 95% interval poverenja
aritmetiĉke sredine sistolnog arterijskog pritiska za tu populaciju bolesnika.
Procedura u EZR-u
126.7-151.3
130.4-147.6
111.2-190.5
133.5-158.4
gde je:
p proporcija posmatranog dogaĊaja u uzorku
n veliĉina uzorka
t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja
U formuli √p(1−p) / n predstavlja standardnu grešku proporcije
Proizvod t ⋅ √p(1−p) / n predstavlja preciznost ocene, što je istovremeno i polovina širine
intervala poverenja
Primer 2: Na uzorku od 155 uĉenika u jednoj opštini deformiteti skeleta su pronaĊeni kod 19
uĉenika. Odrediti interval poverenja u kome se sa verovatnoćom 0.95 nalazi proporcija
uĉenika sa deformitetom skeleta u toj opštini.
Procedura u EZR-u
Prozor sa rezultatima:
0.07≤ π ≤ 0.19
Zadatak 2: Na uzorku od 500 uĉenika u jednoj opštini naĊena je anemija kod 25 uĉenika.
Odrediti 95% interval poverenja proporcije uĉenika sa anemijom u toj opštini.
0.05 - 0.08
0.02 - 0.08
0.03 - 0.07
0.02 - 0.05
Lekcija 3
I Testiranje hipoteza
Hipoteza je pretpostavka koja zahteva dokazivanje tj. donošenje zakljuĉka o
prihvatanju ili odbacivanju hipoteze. Hipoteza koju postavlja istraţivaĉ je
predikcija izvedena iz teorije koja se testira. U medicini istraţivaĉke hipoteze se
najĉešće proveravaju na osnovu podataka dobijenih iz uzorka, a zakljuĉci se zatim
generalizuju na osnovni skup iz kojeg je dobijen uzorak. Istraţivaĉke hipoteze u
medicini mogu se odnositi na razliĉite istraţivaĉke ciljeve:
Nulta hipoteza ili hipoteza koja se ovim procesom testira (H0) - hipoteza o
nepostojanju razlike, naprimer da su dve populacione aritmetiĉke sredine jednake:
Ho:µ1=µ2
Alternativna ili radna hipoteza (H1), iskaz o onome što istraţivaĉ veruje da je
taĉno u sluĉaju da su uzoraĉki podaci doveli do odbacivanja nulte hipoteze, na
primer da se dve populacione aritmetiĉke sredine razlikuju:
H1:µ1≠µ2
H0 : μPušaĉi = μNepušaĉi
H1 : μPušaĉi≠ μNepušaĉi
H0 : πPušaĉi = πNepušaĉi
H1 : πPušaĉi≠ πNepušaĉi
1. Greška prvog tipa nastaje kada se odbaci taĉna nulta hipoteza. Verovatnoća
greške ovog tipaobeleţava se sa α
Primer 4: Stvarno stanje je da novi skuplji lek A ima jednaku uĉestalost neţeljenih
dejstava kao i stari lek B. U procesu testiranja hipoteza odbaĉena je nulta
hipoteza, i donešen je zakljuĉak da novi lek A ima manju uĉestalost
neţeljenih dejstava. Napravljena je greška prvog tipa, koja za posledicu
ima nepotrebno veće troškove leĉenja.
Primer 5: Stvarno stanje je da novi lek A ima manju uĉestalost neţeljenih dejstava u
odnosu na stari lek B. U procesu testiranja hipoteza donešen je zakljuĉak da
ostaje da vaţi nulta hipoteza, odnosno da novi lek A ima jednaku uĉestalost
neţeljenih dejstava kao i stari lek B. Napravljena je greška drugog tipa,
koja za posledicu ima nepropisivanje bezbednijeg leka, odnosno, leka sa
manje neţeljenih dejstava.
Verovatnoće oba tipa grešaka moguće je u izvesnoj meri kontrolisati, pri ĉemu treba
uzeti u obzir da su one meĊusobno povezane: smanjivanje verovatnoće greške prvog
tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto.
Izbor adekvatnog testa zavisi od (1) ciljeva studije, (2) tipa podataka, (3)
raspodele podataka i (4) broja i tipa uzoraka . Na osnovu tih informacija istraţivaĉ
se odluĉuje za primenu konkretnog statistiĉkog testa.
Razlog zbog ĉega je, na primer, 1.96 graniĉna vrednost z-testa za dvosmerno
testiranje i nivo znaĉajnosti od 0.05, je taj što z-statistika sledi normalnu raspodelu,
a na osnovu tabela površina ispod krive standardne normalne raspodele moţe se
izraĉunati da z-statistika veća od 1.96 i manja od -1.96 odgovara verovatnoći od
0.05, odnosno nivou statistiĉke znaĉajnosti od 0.05 (slika 1).
Drugi naĉin donošenja odluke o prihvatanju ili odbacivanju nulte hipoteze jeste uz
primenu statistiĉkog softvera. U rezultatima testiranja hipoteza uz korišćenje
statistiĉkog softvera dobije se p-vrednost, koja predstavlja verovatnoću
opserviranih ili ekstremnijih razlika uzoraĉkih statistika pod pretpostavkom vaţenja
nulte hipoteze. Kada je ta verovatnoća manja od neke unapred zadate vrednosti,
najĉešće 0.05, odbacujemo nultu hipotezu. U protivnom, kada je p-vrednost veća od
0,05ostaje da vaţi nulta hipoteza.
H0 : µRedovnaTH = µNeredovnaTH
H1 : µRedovnaTH ≠ µ NeredovnaTH
H0: µ = 5
Rešenje:
Hipoteze:
H0: µ=145
H1: µ≠145
Rešenje:
Procedura u EZR-u:
Procedura u EZR:
Razlika ovog primera u odnosu na prethodna dva primera jeste dimenzija tabele
koja je sada 3x2. U ovom primeru u pitanju je kohortna studija pa je najadekvatnije
prikazati procente unutar varijable koja definiše kohorte, što je u našem primeru
varijabla Pušenje.
Procedura u EZR:
Opis podataka: Radi se o istom israţivanju kao i u primer 3, ali ovog puta sa
manjim uĉestalostima zbog ĉega će biti neophodno da se izvrši saţimanje susednih
kategorija.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Pusenje_ak.resp_2.xlsx
• 1.Ne
• 2.Do 20 cigareta dnevno
• 3.Preko 20 cigareta dnevno
Cilj nam je u rekodiranju da dobijemo novu varijablu Pusenje2 koja će imati
dve kategorije.Kategoriju nepušaĉa i kategoriju pušaĉa:
• Ne
• Da
a) Otvoriti Excel fajl u kom se nalazi baza podataka. Kliknuti desnim tasterom
miša na redno slovo kolone varijable koju ţelimo da rekodiramo (u našem
sluĉaju A kolona). Na padajućem meniju kliknuti levim tasterom miša na
Copy.
b) Kliknuti desnim tasterom miša na redno slovo sledeće kolone, do varijable koju
rekodiramo. Na padajućem meniju kliknuti levim tasterom na Insert Copied
Cells. Varijabla koju ţelimo da rekodiramo iskopiraće se do originalne.
Promeniti naziv rekodirane varijable u Pusenje2.
c) Kliknuti u liniji menija na Data pa na Filter. Alternativno filter se moţe
aktivirati istovremenimklikom na kombinaciju tastera Crtl+Shift+L.
d) Klikom na strelicu na dole iza naziva varijable otvara se padajući meni gde su
prikazane sve kategorije varijable koju ţelimo da rekodiramo. Selektovati
ţeljene kategorije koje treba spojiti (u našem sluĉaju 1.Do 20 cigareta
dnevno i 2.Preko 20 cigareta dnevno) pa kliknuti na OK i Excel će prikazati
samo te kategorije.
e) Ukucati Da umesto pomenutih naziva kategorija.
𝑟 x𝑘
Zbog malih uĉestalosti (totalna uĉestalost manja od 20) nije moguće primeniti
Pearsonov hi-kvadrattest. Alternativa je primena Fisherovog testa taĉne verovatnoće.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Alkohol i hipertenzija.xlsx
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Nadmvisina.xlsx
◦ u okviru polja Factors (pick one or more) odabrati varijablu koja definiše
grupe
◦ u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
◦ u delu prozora Center oznaĉiti mean
◦ kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
Statistikama
Uĉestalostima
Populacionim proseĉnim vrednostima i proporcijama
Rangovima
U literaturi se pod ovim nazivom podrazumevaju dva testa: Wilcoxonov test sume
rangova i Mann- Whitney U test. Ova dva testa su ekvivalentna, pa otuda i naziv
Wilcoxon-Mann-Whitney test.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Nadmvisina.xlsx
NAPOMENA:
• uz rezultate parametarskih testova (npr. t-test) kao meru centralne
tendencije i meru varijabiliteta prikazati aritmetiĉku sredinu i
standardnu devijaciju, npr. 45.5±7.2 godine
• uz rezultate neparametarski testova zasnovanih na rangovima (npr. test
sume rangova, test ekvivalentnih parova) kao meru centralne tendencije i
meru varijabiliteta prikazati medijanu i opseg (od minimalne do maksimalne
vrednosti), npr. 2.62 g/L (opseg, 1.80 – 4.83)
Testom sume rangova (Mann-Whitney test) testiramo:
alternativna suprotno:
H0: µd = 0
H0: µd ≠ 0
Procedura u EZR-u:
◦ u okviru polja First variable (pick one) odabrati prvo merenje ispitivane
varijable
◦ u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane
varijable
◦ kliknuti na dugme OK
5) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
6) Zakljuĉak: Aritmetiĉka sredina sistolne tenzije pre terapije iznosila je 144±14
mmHg a posle tarpije 139±13 mmHg. Vrednosti sistolne tenzije statistiĉki
znaĉajno su niţe mesec dana posle terapije u odnosu na vrednosti pre poĉetka
terapije (t=2.74, DF=90, p=0.007).
Primer 2
od normalnosti.Procedura u EZR-u:
2) Deskripcija podataka za obe grupe meĉovanih ispitanika moţe se uraditi na sledeći naĉin:
Original menu→Statistics→Summaries→Numerical summaries
Procedura u EZR-u:
1) Preuzeti i uĉitati bazu podataka Aritmije.xlsx
Procedura u EZR:
Procedura u EZR:
◦ u okviru polja First variable (pick one) odabrati prvo merenje ispitivane
varijable
◦ u okviru polja Second variable (pick one) odabrati drugo merenje ispitivane
varijable
◦ kliknuti na dugme OK
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure.
5) Zaključak: Medijana vrednosti Lp(a) pre poĉetka terapije iznosila je 17 mg/dL
(opseg 9-57) a posle terapije iznosila je 11 mg/dL (opseg 5-41). Vrednosti Lp(a) posle
terapije statistiĉki znaĉajno su niţe u odnosu na vrednosti pre terapije (V = 2950.5,
p<0.001).
Faktor je svaki uticaj, dejstvo ili promena koja se na neki naĉin odraţava na rezultujuće obeleţje
(ishodnu varijablu). Faktor je najĉešće tretman i predstavlja nezavisnu varijablu u eksperimentu,
a njeni nivoi/gradacije su pod kontrolom istraţivaĉa.
Faktori mogu biti: fiksni tj. organizovani (koji se analizom mogu identifikovati i kvantitativno
diskriminisati) i slučajni tj. rezidualni ili neorganizovani (koji se mogu samo opisati u ukupnom
delovanju, ali ne i razlagati).
Analogno tipovima faktora, tako postoje fiksni i slučajni efekti. Fiksni efekti su oni koji se
mogu pripisati faktorima ĉiji su svi nivoi/gradacije ukljuĉeni u studiju (primer: efekti tri razliĉita
hirurška tretmana). Sluĉajni efekti su oni koji se mogu pripisati faktorima ĉiji su samo sluĉajno
odabrani nivoi/gradacije ukljuĉeni u studiju (primer: ispitivanje duţine hospitalizacije u nekoliko
sluĉajno odabranih od svih zdravstvenih ustanova).
Prema broju ukljuĉenih fiksnih i sluĉajnih faktora razlikuju se tri modela analize varijanse:
1. Model fiksnih efekata (Model I) - sadrţi samo fiksne faktore, ovo je najĉešće korišćen model
analize varijanse
2. Model sluĉajnih efekata (Model II) - sadrţi samo sluĉajne faktore
3. Model mešovitih efekata (Model III) - sadrţi bar jedan fiksni i bar jedan sluĉajni faktor.
ANOVA se koristi za testiranje razlike aritmetiĉkih sredina dve ili više populacija.
Zašto izbegavati simultanu upotrebu t-testa za poreĎenje više od dve aritmetičke sredine?
Korišcenje t-testa, kada je broj uzoraka veći od dva, vodi povećanju verovatnoće greške prvog
tipa. Verovanoća da se u simultanoj upotrebi t-testa napravi najmanje jedna greška prvog tipa
iznosi P = 1 – (1 – α)N, gde je α nivo znaĉajnosti, a N broj testiranja.
Npr. ako je broj uzoraka 4, t-test se mora primeniti 6 puta da bi se testirala razlika izmeĊu svih
mogućih parova uzoraka.
Pouzdana upotreba analize varijanse ograniĉena je sledećim pretpostavkama:
Prve dve pretpostavke su odraz dizajna eksperimenta i ne mogu se analizom nadoknaditi, a druge
dve se mogu ispitati i nadoknaditi odgovarajućim statistiĉkim postupcima.
Statistiĉki testovi kojima se moţe proveriti pretpostavka o homogenosti varijansi su: Bartlett
test, Leven`s test, Hartley test, Sheffe-Box test i drugi, a smatra se da se homogenost varijansi
prevazilazi kao problem jednakom veliĉinom grupe za svaki nivo/gradaciju faktora.
Faktorska ANOVA- poreĊenje aritmetiĉkih sredina uzoraka kada su jedinice posmatranja pod
dejstvom razliĉitih kombinacija nivoa dva faktora (dvosmerna analiza varijanse) ili više faktora.
U ovom dizajnu moţe se otkriti interakcija faktora.
Opšti model jednofaktorske analize varijanse je: Y=X+Z
ANOVA omogućava simultano poreĊenje bilo kojeg broja aritmetiĉkih sredina upotrebom
Fišerovog varijansnog koliĉnika (F-test). F-test je baziran na F statistici koja se izraĉunava kao
odnos srednjih kvadrata. Ako se testira razlika aritmetiĉkih sredina samo dve nezavisne
populacije, F-test je ekvivalentan t-testu.
U analizi varijanse, suma kvadrata podeljena brojem stepena slobode naziva se srednjim
kvadratom. Srednji kvadrat je ocena neke varijansne komponente: na komponentu koja nastaje
zbog razlika aritmetiĉkih sredina (srednji kvadrat izmeĊu grupa) i komponentu koja nastaje zbog
razlika samih opservacija unutar grupa (srednji kvadrat unutar grupa, rezidual). Ako se
populacione aritmetiĉke sredine ne razlikuju, ove dve komponente će biti jednake. Ako
populacione aritmetiĉke sredine razlikuju, srednji kvadrat izmeĊu grupa biće veći od srednjeg
kvadrata unutar grupa. Na taj naĉin, u analizi varijanse, testiranje razlike aritmetiĉkih sredina
zahteva testiranje razlike varijansnih komponenti primenom F-testa.
Tabela analize varijanse prikazuje rezultate analize varijanse: izvor (komponentu) varijabiliteta,
sumu kvadrata, broj stepena slobode, srednji kvadrat, F statistiku i p:
Kada je sveukupni F test statistiĉki znaĉajan, od interesa je testirati izmeĊu kojih grupa postoji
statistiĉki znaĉajna razlika. Metode post hoc testiranja:
Primer
Primer. Ispitivan je odnos pušenja i FEV1. Dati su podaci o FEV1 za pušaĉe, pasivne pušaĉe i
nepušaĉe. Utvrditi da li postoji znaĉajna razlika u vrednosti FEV1 izmeĊu pušaĉa, pasivnih
pušaĉa i nepušaĉa.
U pitanju su tri nezavisna uzorka. Podaci imaju normalnu raspodelu, moţe se primeniti
ANOVA..
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Cotinine.xlsx
o u okviru polja Factors (pick one or more) odabrati varijablu koja definiše grupe
o u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu
o u delu prozora Center oznaĉiti mean
o kliknuti na dugme OK
Razlika aritmetiĉkih sredina FEV1 je statistiĉki znaĉajna izmeĊu Pušaĉa i Nepušaĉa (p = 0.010),
ali nije statistiĉki znaĉajna izmeĊu Pušaĉa i Pasivnih pušaĉa (p = 0.116), niti izmeĊu Pasivnih
pušaĉa i Nepušaĉa (p = 0.575).
Pitanje 1. Kada je broj uzoraka veći od dva, simultana upotreba t-testa vodi:
Dunnettov test
Tukey test
II Kruskal-Wallis test
Kruskal-Wallis test je neparametarski statistiĉki test za poreĊenje dva ili više nezavisnih uzoraka
kada su podaci bar ordinalni. Moţe se smatrati ekstenzijom testa sume rangova (Mann-Whitney
testa) a takoĊe predstavlja i ekvivalent jednosmernoj analizi varijanse kada uslovi za njenu
primenu nisu ispunjeni.
Testiramo nultu hipotezu o jednakosti raspodele ili jednakosti medijana dve ili više populacija.
gde je N ukupan broj jedinica posmatranja, n broj jedinica posmatranja u pojedinaĉnoj grupi, R
suma rangova unutar pojedinaĉne grupe i k broj grupa
Analogno post hoc testiranju nakon jednofaktorske analize varijanse, za multipla poreĊenja
nakon Kruskal-Wallis testa se mogu koristiti sledeće metode korekcije Mann-Whitney testa:
Bonferroni - veoma stroga metoda koja kontroliše grešku prvog tipa tako što odabrani
nivo znaĉajnosti deli brojem potrebnih meĊugrupnih poreĊenja
Holm - metoda koja se smatra pristupaĉnijom u odnosu na Bonferoni, kontroliše grešku
prvog tipa tako što najniţu dobijenu p vrednost poredi sa odabranim nivoom znaĉajnosti
koji se za svako naredno poreĊenje smanjuje
Steel - metoda jednako adekvatna kao i Bonferoni, koja ukljuĉuje još jedan nivo kontrole
greške I tipa za multipla poreĊenja
Primer 1. Ispitivan je odnos pušenja i koncentracije kotinina u krvi (ng/mL). Dati su podaci o
kotininu za pušaĉe, pasivne pušaĉe i nepušaĉe.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Cotinine.xlsx
Razlika medijana kotinina je statistiĉki znaĉajna izmeĊu Pušaĉa i Pasivnih pušaĉa (p<0.001), kao
i izmeĊu Pušaĉa i Nepušaĉa (p <0.001), ali nije statistiĉki znaĉajna izmeĊu Pasivnih pušaĉa i
Nepušaĉa (p = 0.700).
Testira se hipoteza o jednakosti raspodele ili jednakost medijana dve ili više populacija
Cochran Q test predstavlja proširenje McNemarovog testa i koristi se kada se ispituje uticaj
jednog eksperimentalnog faktora na rezultujuće obeleţje dihotomnog karaktera u dizajnu
blokova ili ponovljenih merenja. Testira nultu hipotezu o jednakosti tri ili više skupova
frekvencija.
gde je a broj gradacija faktora, b broj blokova ili ispitanika, G sume unutar gradacija, B sume
unutar blokova ili ispitanika. Ova statistika se raspodeljuje pribliţno po Hi-kvadrat raspodeli sa
a-1 stepeni slobode.
Primer. Za grupu ispitanika prikupljeni su podaci o pojavi ekstrasistola pre, jedan i dva meseca
meseca posle zapoĉete terapije. Cilj istraţivanja bio je da se ispita da li je došlo do promene
uĉestalosti ekstrasistola u posmatranom periodu.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Aritmije 3.xlsx
U sluĉaju da je p>0.05 treba doneti zakljuĉak da ne postoji statistiĉki znaĉajna razlika uĉestalosti
ispitivane pojave u razliĉitim vremenima. Ako je p≤0.05, razlike uĉestalosti su statistiĉki
znaĉajne, i u tom sluĉaju primenom McNemarovog testa utvrditi izmeĊu kojih vremena postoji
statistiĉki znaĉajna razlika uĉestalosti.
U našem primeru je p<0.001, pa zakljuĉujemo da se vremena statistiĉki znaĉajno razlikuju prema
uĉestalosti ekstrasistola. Primenjujemo McNemarov test za testiranje razlika parova vremena
prema proceduri koja je opisana ranije: Statistical analysis→Discerete variables→Compare
proportions of two paired samples (McNemar test)
3) Procenat ispitanika sa ekstrasistolama pre poĉetka terapije, i posle terapije moţe se dobiti
klikom na liniji sa komandama: Statistical analisys→Discrete variables→Frequency
distributions.
Hi-kvadrat testa
McNemarovog testa
II Friedmanov test
gde je b broj blokova ili ispitanika u dizajnu ponovljenih merenja, a broj nivoa/gradacija
eksperimentalnog faktora, a R suma rangova unutar svake gradacije. Procedura se sastoji od
rangiranja podataka unutar ponovljenih merenja odnosno blokova.
Fridmanov test testira nultu hipotezu o poreklu a uzoraka is iste populacije tj. da nema razlike u
proseĉnim rangovima izmeĊu a gradacija faktora.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka Aritmije 3.xlsx
U tabeli Pairwise comparisons using Wilcoxon signed rank test prikazane su zaĉajnosti razlika
medijana izmeĊu merenja sa korekcijom po Holmu.
5) Zaključak: Medijana vrednosti Lp(a) pre poĉetka terapije iznosila je 17 mg/dL (opseg 9-57),
mesec dana posle terapije 11 mg/dL (opseg 5-41), i dva meseca posle terapije 9 mg/dL (opseg 5 -
32). U posmatranom periodu došlo je do statistiĉki znaĉajnih promena Lp(a) (Hi-kvadrat =
54.358, DF=2, p < 0.001). Razlika je statistiĉki znaĉajna izmeĊu svih posmatranih vremena
prema Lp(a).
Hi-kvadrat testa
McNemarovog testa
Wilcoxonovog testa ekvivalentnih parova
T-testa za zavisne uzorke
Lekcija 7
Kontrola pridruţenosti stratifikacijom
Pridruženost (confounding)
Stratifikacija
Stratifikacija - postupak
Primer 1. kada je naĊen uticaj pridruţene varijable i kada su na kraju prihvaćeni i prezentovani
rezultati na nivou stratuma pridruţene varijable: U istraţivanju, dizajniranom po tipu studije
preseka, cilj je bio ocena povezanosti konzumiranja umerenih koliĉina alkohola i osteoporoze u
starosnoj dobi 60-65 godina.
Procedura u EZR:
1) Preuzeti bazu podataka Alkohol i osteoporoza.xlsx i uĉitati je u EZR pod imenom
Alkohol_Osteoporoza
Pre prihvatanja ovakvog zakljuĉka treba proveriti mogući uticaj drugih varijabli u istraţivanju.
Na osnovu prethodnih istraţivanja poznato je da postoji povezanost pola i osteoporoze, odnosno
da je osteoporoza uĉestalija u ţenskoj populaciji.
4) Osim toga, naĊeno je da je osteoporoza uĉestalija kod osoba ţenskog pola (Hi-kvadrat = 31.3,
p < 0.001).
NaĊena je povezanost varijable pol i sa potencijalnim prediktorom u ovom istraţivanju (umereno
konzumiranje alkohola) i sa ishodom (osteporoza), što ukazuje na moguću pridruţenost varijable
pol. Zbog toge će biti uraĊena analiza po stratumima ove varijable, odnosno posebno za osobe
muškog pola i posebno za osobe ţenskog pola:
Kod osoba muškog pola nije naĊena povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.007, p = 0.934, OR = 1.017).
Kod osoba ţenskog pola nije naĊena povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.005, p = 0.945, OR = 1.012).
Razlika izmeĊu povezanosti koja je naĊena na nivou ĉitavog uzorka (p = 0.005, OR = 1.39) i
povezanosti na nivou specifiĉnih stratuma (muški pol: p = 0.934, OR = 1.017, ţenski pol: p =
0.945, OR = 1.012) ukazuje da pol ima uticaj pridruţene varijable, i da ne postoji povezanost
umerenog konzumiranja alkohola i osteoporoze.
Kod osoba muškog pola ne postoji povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.007, p = 0.934, OR = 1.017).
Kod osoba ţenskog pola nije naĊena povezanost umerenog konzumiranja alkohola i osteoporoze
(Hi-kvadrat = 0.005, p = 0.945, OR = 1.012)
Ovo ukazuje da komorbidit ne ispoljava uticaj pridruţene varijable na odnos tipa operacije i
pojave komplikacija (jer pridruţena varijabla mora biti povezana kako sa prediktorom tako i sa
ishodom). Istraţivaĉ se moţe zadrţati na prikazivanju rezultata na nivou totalnog uzorka, kao i
zakljuĉka koji je gore već bio prikazan:
I pored toga što u prethodnoj analizi rezultati ne ukazuju na postojanje pridruţenosti od strane
varijable starost, istraţivaĉ moţe da rezultate prikaţe i po stratumima ĉime bi eventualno bila
otkrivena interakcija.
Smer:
Pozitivan (+)
Negativan (-)
Stepen/jačina povezanosti
Linearan
Nelinearan
Povezanost moţe imati pozitivan ili negativan smer. U primeru 1, povezanost je pozitvna jer su
veće vrednosti jedne varijable povezane sa većim vrednostima druge varijable. U primeru 2,
povezanost je negativna, jer su veće vrednosti jedne varijable povezane sa manjim vrednostima
druge varijable.
Pitanje 1: Ispitivana je povezanost sedimentacije eritrocita i broja leukocita u krvi kod ispitanika
sa infektivnim sindromom. NaĊeno je da je povećana sedimentacija povezana sa povećanjem
broja leukocita. O kakvoj povezanosti se radi?
Negativna povezanost
Pozitivna povezanost
Dijagram rasturanja je taĉkasti grafikon koji koristimo za otkrivanje povezanosti dve varijable.
Dobija se tako što se, za sve jedinice iz uzorka, vrednosti dve varijable nanose na x i y osu. Svaka
jedinica iz uzorka predstavljena je jednom taĉkom ĉiji poloţaj odgovara preseku parova
vrednosti dve varijable.
Napraviti dijagram rasturanja u kome će se vrednosti ureje naneti na x osu, a vrednosti kreatinina
na y osu.
Procedura u EZR:
1) Formirati bazu podataka u Excel programu gde će se u prvom redu uneti nazivi varijabli (urea
i kreatinin) a u prvoj koloni redni broj jedinice posmatranja. Svaki sledeći red se odnosi na
jedinicu posmatranja.
u okviru polja x-variable (pick one) odabrati varijablu koja ide na x osu.
u okviru polja y-variable (pick one) odabrati varijablu koja ide na y osu.
u delu Options odĉekirati sva polja
Dijagram rasturanja takoĊe moţe ukazati na linearnost ili nelinearnost povezanosti dve varijable.
Linearna povezanost podrazumeva grupisanje taĉaka na dijagramu rasturanja oko prave linije
kao što je to prikazano na grafikonu 1. Nelinearna povezanost podrazumeva odstupanje od
linearne povezanosti kao što je to npr. prikazano na grafikonu 2.
Koeficijenti korelacije:
Varijable oznaĉene kao x i y mogu zameniti mesta bez uticaja na vrednost koeficijenta
korelacije. Linearna povezanost podrazumeva da će se na dijagramu rasturanja taĉke grupisati
oko prave linije.
Pitanje 3: Dati su podaci o telesnoj masi i telesnoj visini. Podaci imaju normalnu raspodelu, a na
dijagramu rasturanja ukazuju na linearnu povezanost. Da li je moguće primeniti Pearsonov
koeficijent korelacije?
Da
Ne
Ne
Da
Pitanje 7: Interpretirajte sledeći objavljeni podatak o povezanosti: »korelacija koţnog prick testa
i radioallergosorbent testa iznosila je 0.41 (p=0.02)«
Primer 6
Zaključak: Postoji statistiĉki znaĉajna jaka pozitivna povezanost ureje i kreatinina u serumu (r =
0.856; p = 0.014).
Primer 7
Primer 7: Za deset bolesnika dati su skorovi na skali depresivnosti i vrednosti sistolne arterijske
tenzije (mmHg). Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo
znaĉajnosti 0.05.
u okviru polja Variables (pick two) oznaĉiti varijable ĉiju povezanost ţelimo da ispitamo.
Za oznaĉavanje više varijabli odjednom drţati pritisnut taster Ctrl na tastaturi i
istovremeno kliknuti na ţeljene varijable.
u okviru polja Method treba da bude ĉekirano Spearman
kliknuti na dugme OK.
Regresiona analiza ispituje odnos izmeĊu zavisne varijable (Y) i barem jedne nezavine varijable
(X). Opšti oblik regresionog modela predstavljen je regresionom funkcijom f izmeĊu bar dve
varijable y = f(x)
Regresioni metod omogućuje ispitivanje smera i oblika povezanosti bar dve varijable.
Najĉešći istraţivaĉki ciljevi koji se mogu realizovati metodom regresione analize su:
Ako se za dve varijable pretpostavlja linearan odnos radi se o lineranom regresionom modelu,
a regresiona jednaĉina bi imala oblik y = a + bx
1. Ispunjenost pretpostavki
testiranje nagiba
odreĊivanje koeficijenta determinacije (r2) - predstavlja kvadrat Pirsonovog
koeficijenta linearne korelacije. Moţe imati vrednosti od 0 do 1 tj. od 0 do 100%.
Predstavlja procenat variranja zavisne varijable koji moţe biti objašnjen variranjem
nezavisne varijable.
4. Validacija modela - rešava problem precenjivanja (mogućnost dobijanja visoko znaĉajnih ali
besmislenih rezultata zbog previše velikog broja prediktora u modelu). Validacija moţe biti:
interna kada se model validira na postojećem skupu podataka i eksterna kada se model validira
na potpuno novom skupu podataka.
Primer 1: Ispitivana je povezanost obima struka (cm) i nivoa glikemije u krvi (mmol/L)
kod osoba obolelih od dijabetes melitusa, pri ĉemu je zavisna varijabla bila nivo
glikemije, a nezavisna varijabla obim struka.
Koliki se broj srĉanih otkucaja u minutu oĉekuje za nivo sistolnog arterijskog pritiska od 128
mmHg?
Oĉekivan broj srĉanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 128 mmHg
iznosi 71.
Koliki se broj srĉanih otkucaja u minutu oĉekuje za nivo sistolnog arterijskog pritiska od 129
mmHg?
Oĉekivan broj srĉanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 129 mmHg
iznosi 70,84.
Koliki se broj srĉanih otkucaja u minutu oĉekuje za nivo sistolnog arterijskog pritiska od 127
mmHg?
Oĉekivan broj srĉanih otkucaja u minutu za nivo sistolnog arterijskog pritiska od 127 mmHg
iznosi 71,16.
Zaključak: Regresioni koeficijent b je vrednost za koju se promeni (poveća ili smanji) zavisna
varijabla za jediniĉnu promenu (povećanje ili smanjenje) nezavisne varijable. Za jediniĉno
povećanje nivoa sistolnog arterijskog pritiska (1 mmHg), broj srĉanih otkucaja se smanjio za b tj.
0,16, sa 71 mmHg na 70,84 mmHg. TakoĊe, za jediniĉno smanjenje sistolnog arterijskog pritiska
(1 mmHg), broj srĉanih otkucaja se povećao za b tj. 0,16, sa 71 mmHg na 71,16 mmHg.
INTERPOLACIJA I EKSTRAPOLACIJA
Primer: Cilj u istraţivanju bio je da se ispita odnos gubitka telesne mase i gubitka volumena
plazme, u dehidraciji koja nastaje kao posledica teškog fiziĉkog rada i znojenja. Za 57 ispitanika
date su vrednosti gubitka telesne mase (%) i gubitka volumena plazme (%). Odnos varijabli je
analiziran regresionim modelom, pri ĉemu je za nezavisnu varijablu uzet gubitak telesne mase, a
za zavisnu varijablu gubitak volumena plazme.
Procedura u EZR:
Kod regresione analize, u dijagramu rasturanja, nezavisna varijabla se stavlja na x osu a zavisna
varijabla na y osu.
U našem primeru nezavisna varijabla je Gubitak telesne mase, a zavisna varijabla je Gubitak
volumena plazme (%).
Na dijagramu rasturanja moţe se zapaziti pozitivna povezanost ove dve varijable u dehidraciji
koja je nastala znojenjem usled fiziĉkog napora: veći gubitak telesne mase praćen je većim
gubitkom volumena plazme.
3) Provera normalnosti raspodele. Proveriti normalnost raspodele obe varijable prema uputstvu
navedenom u prethodnim lekcijama. U našem primeru prihvaćena je normalnost obe varijable.
4) Sledeći korak je dobijanje regresione jednaĉine, što se postiţe primenom komande: Statistical
analysis→Continuous variables→Linear regression
U delu izlaza Coefficients: dobijamo vrednost konstante, koeficijenta nagiba (koeficijent b) kao i
njegovu statistiĉku znaĉajnost.
Konstanta u regresionom modelu iznosi 6.16. Koeficijent nagiba iznosi 0.86, što znaĉi da je 1
procenat gubitka telesne mase praćen sa 0.86% gubitka volumena plazme. U produţetku istog
reda nalazi se rezultat testiranja znaĉajnosti koeficijenta b.
Da bi nezavisna varijabla bila statistiĉki znaĉajan prediktor potrebno je da p bude jednako ili
manje od 0.05.
Zaključak: gubitak telesne mase je statistiĉki znaĉajan prediktor gubitka volumena plazme.
Prilikom teškog fiziĉkog rada i znojenja gubitak telesne mase od 1% praćen je gubitkom
volumena plazme od 0.86%.
Regresiona jednačina
U regresiji je (su):
Multivarijantne tehnike kojima se ispituju odnosi izmeĊu dve grupe varijabli od kojih je jedna
definisana kao zavisne ili kriterijumske varijable, pripadaju grupi zavisnih metoda. One imaju za
cilj da objasne ili predvide jedno ili više kriterijumskih merenja na osnovu skupa prediktorskih
(nezavisnih) varijabli. Jedna od ovih metoda je i višestruka regresija.
Primer: Na dostupnim podacima Framingamske studije iz 2014/15. godine ĉiji je cilj ispitivanje
stope incidencije i prevalencije kardiovaskularnih bolesti i njihovih faktora rizika, ispitivan je
efekat starosti i indeksa telesne uhranjenosti (BMI - body mass index) na sistolni arterijski
pritisak.
Procedura u EZR:
2) Prvi korak je izrada dijagrama rasturanja za svaki par nezavisne i zavisne varijable (starost -
sistolni arterijski pritisak i indeks telesne uhranjenosti - sistolni arterijski pritisak) koji se dobija
klikom na liniji sa komandama: Graphs and tables→Scatterplot
u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu
u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu
u delu Options odĉekirati sva polja
kliknuti na dugme OK
Ovaj postupak ponoviti za oba para varijabli tj. za starost i sistolni arterijski pritisak
i indeks telesne uhranjenosti i sistolni arterijski pritisak
4) Sledeći korak je dobijanje regresione jednaĉine, što se postiţe primenom komande: Statistical
analysis→Continuous variables→Linear regression
u okviru polja Response variable (pick one) oznaĉiti zavisnu varijablu - sistolni arterijski
pritisak
u okviru polja Explanatory variables (pick one or more) oznaĉiti nezavisne varijable -
starost i indeks telesne uhranjenosti
kliknuti na dugme OK
U prozoru sa rezultatima pojavili su se rezultati primenjene statistiĉke procedure:
Odrediti dovoljan broj jedinica posmatranja za ocenu proporcije obolelih od reumatskih bolesti u
odrasloj populaciji. Pretpostavka je, na osnovu prethodnih istraţivanja, da je ta proporcija oko
0.16 (16%). Istraţivaĉ ţeli da dobije intervalnu ocenu preciznosti E = 2% (0.02).
Odrediti dovoljan broj jedinica posmatranja za ocenu aritmetiĉke sredine HDL u populaciji ţena.
Na osnovu sliĉnih istraţivanja pretpostavka je da aritmetiĉka sredina iznosi 67 mg/dL, a
standardna devijacija 25 mg/dL. ji. Istraţivaĉ ţeli da dobije intervalnu ocenu preciznosti E = 5
mg/dL, za nivo poverenja od 95% i 99%.
Za izraĉunavanje veliĉine uzorka za interval poverenja aritmetiĉke sredine potrebno je u
kalkulator uneti pretpostavku o standardnoj devijaciji ispitivane pojave u populaciji, i preciznost
(polovina širine intervala poverenja).
Unošenjem ovih vrednosti u kalkulator dobijamo da je za dobijanje intervalne ocene preciznosti
5 mg/dL i nivoa poverenja 95% potrebna veliĉina uzorka od 96 ispitanika, a za nivo poverenja
od 99% potrebno je 166 ispitanika.
Primer 4 (Dovoljan broj jedinica posmatranja za testiranje razlike dve aritmetiĉke sredine):
Odrediti dovoljan broj jedinica posmatranja za testiranje razlike aritmetiĉkih sredina triglicerida
izmeĊu muškog i ţenskog pola. Pretpostavka je, na osnovu prethodnih istraţivanja, da je
aritmetiĉka sredina u populaciji mušakaraca 105 mg/dL (±25), a u populaciji ţena 85 mg/dL
(±20). Istraţivaĉ ţeli potrebnu veliĉinu uzorka za testiranje na nivou znaĉajnosti od 0.05 i za
statistiĉku snagu t-testa od 0.80 (80%).
Za izraĉunavanje veliĉine uzorka potrebno je u kalkulator (Sheet: Testiranje razlike dve a.s.)
uneti pretpostavku o aritmetiĉkim sredinama i standardnim devijacijama ispitivane pojave u
populacijama.
Za izraĉunavanje veliĉine uzorka u gore opisanim situcijama ali i za mnoge druge statistiĉki
procedure mogu se upotrebiti i dva besplatna programa za tu namenu koji se mogu skinuti sa
adresa:
1. http://biostat.mc.vanderbilt.edu/wiki/pub/Main/PowerSampleSize/pssetup3.exe
2. http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-
register/Dokumente/GPower_3.1.5.zip
Za odreĊivanje potrebnog broja jedinica posmatranja za testiranje razlike dve proporcije
potrebno je imati podatke o:
Standardnim devijacijama
Artimetiĉkim sredinama.
Pretpostavljenim proporcijama
Varijansama
Lekcija 12
Projektni zadatak 3
Lekcija 13
EZR - Adekvatnost merenja
U svakom merenju postoji izvestan stepen neizvesnosti, koji moţe biti iskazan kao greška u
merenju. Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i sluĉajne greške.
Sistematske greške daju predvidive precenjene ili potcenjene vrednosti (npr. loše kalibrisani
instrument koji daje uvek precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka,
sluĉajne greške nisu predvidive, i u datom mernom procesu mogu dati i precenjene i potcenjene
vrednosti. Greške u merenju nastaju delovanjem razliĉitih faktora kao što je to loša kalibracija
instrumenta, neodgovarajuće vreme odziva instrumenta u odnosu na promene merene varijable,
uticaj samog instrumenta namerenu veliĉinu, delovanje okoline, humani faktori –
meĊuposmatraĉki i unutarposmatraĉki varijabilitet (npr. kako lekar ocenjuje depresivnost
pacijenta na nekoj skali). Sluĉajne greške nastaju i usled “šuma” - malih i brzih promena u
okolini ili u samom instrumentu koje mogu uticati na izmerenu vrednost.
TAČNOST
Primer: Cilj je bio evaluacija taĉnosti novog automatskog brojaĉa retikulocita u odnosu na
referentne vrednosti koje su dobijene manuelnim / vizuelnim brojanjem od strane dva
laboratorijska tehniĉara. Na osnovu sedam uzoraka, koeficijent korelacije iznosio je 0.96 što
je prihvaćeno kao zadovoljavajuće slaganje automatskog brojaĉa sa referentnim
vrednostima.
PRECIZNOST
Preciznost je bliskost nezavisnih merenja istog kvantiteta ili kvantiteta napravljenog pod istim
uslovima. Za ocenu preciznosti koriste se mere varijabiliteta, a najĉešće koeficijent varijacije
(CV). Male vrednosti CV ukazuju na precizno merenje. U laboratorijskim uslovima odreĊuje se
pravljenjem poduzoraka od istog materijala.
Primer: Na istom ispitaniku na istom mernom mestu pet puta je ponovljeno merenje
mineralne gustine primenom DXA metode. Dobijene su sledeće vrednosti (g/cm2): 0.85,
0.89, 0.86, 0.82, 0.85. Zakljuĉeno je da merenje ima zadovoljavajuću preciznost (CV =
2.9%).
Odnosi se na bliskost izmerenih vrednosti razliĉitim metodama, pri ĉemu se niti jedan od njih ne
moţe proglasiti referentnim/zlatnim standardom, pa se ne moţe primeniti ocena taĉnosti. Metode
za ocenu slaganja prikazane su u delu ove lekcije pod nazivom „MeĊuposmatraĉka pouzdanost“.
VALJANOST I POUZDANOST
Vrlo ĉesto merenja u medicini zasnivaju se na primeni “papirnih instrumenata” - upitnika i skala.
Izmerena vrednost na takvim instrumentima dobija se kombinacijom odgovara na pitanja
(stavke, ajteme) na upitniku ili skali, ĉime se dobija kompozitni skor. Adekvatnost takvog
mernog procesa, primenom kompozitnih skorova, opisana je konceptima valjanosti (validnosti) i
pouzdanosti (relijabilnosti). Koncept valjanosti srodan je konceptu taĉnosti, a koncept
pouzdanosti srodan je konceptu preciznosti.
Pouzdanost oznaĉava do koje mere se metoda merenja (test) konzistentno ili postojano ponaša, a
valjanost je odnos izmeĊu onog što se pretpostavlja da bi instrument (test) trebalo da meri i onog
što on stvarno meri.
POUZDANOST
Interna konzistencija skale zavisi od interne konzistencije konstrukta kojeg teţimo da tom
skalom izmerimo, i veća je kod unidimenzionalnih konstrukata nego kod onih sa dva ili više
nezavisnih domena.
Interna konzistentnost je proseĉna korelacija izmeĊu stavki unutar skale. Vrednosti Cronbach
alfa preko 0,7 su zadovoljavajuće.
alfa koeficijentom (Cronbach alfa), za skale koje nemaju dihotomne stavke, ili
Kuder-Richardsonovom formulom 20 (KR-20), za skale koje imaju dihotomne stavke.
Opis podataka: Za 17 ispitanika dati su podaci na Bekovoj skali za anksioznost. Ova skala sastoji
se od 21 pitanja (stavke, ajtema), a koristi se za procenu simptoma opšte anksioznosti. Pacijenti
odgovaraju na svako pitanje i procenjuju sopstveno stanje na skali od 0 (odsustvo simptoma) do
3 (veoma izraţeni simptomi). Zbir svih ajtema daje totalan skor (maksimalno 63).
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka BAI.xlsx
o intraklasni koeficijent korelacije (ICC),
o Pearsonov koeficijent korelacije,
o kappa koeficijent,
o Spearmanov koeficijent korelacije i
o Kendallov koeficijent konkordancije.
Procedura u EZR:
1) Preuzeti i uĉitati bazu podataka radiolozi.xlsx
U prozoru koji se pojavio, na osnovu tabele kontingencije, uneti apsolutne uĉestalosti kategorija
odluka oba radiologa.
Ocenjuje se primenom:
Ova vrsta pouzdanosti je posebno znaĉajna ako se skala koristi za ocenu promene stanja
ispitanika u toku tretmana. Ako skala nema dovoljno visoku test-retest pouzdanost, onda je
nemoguće odrediti da li je izmerena promena stvarna ili predstavlja sluĉajnu grešku skale.
Procedura u EZR:
o u okviru polja Variables (pick two) oznaĉiti varijable za koje odreĊujemo test
retest
o kliknuti na dugme OK.