You are on page 1of 167

1

CENTAR ZA EDUKACIJU, TOLERANCIJU I


MULTIKULTURALIZAM





Martin Rusnak, Viera Rusnakova, Marek Majdan





BIOSTATISTIKA











Magli, 2013.












CENTAR ZA EDUKACIJU, TOLERANCIJU I MULTIKULTURALIZAM

Edicija naunih knjiga

Biostatistika


Naslov originala:
Biotatistika pre tudentov verejnhoo zdravotnctva

Autori:
Martin Rusnak, Viera Rusnakova, Marek Majdan
Katedra javnog zdravstva, Fakultet zdravstva i socijalnog rada, Trnavski univerzitet u Trnavi



Recenzenti:
Prof. MUDr. Peter Kritufek, CSc.
Doc. MUDr. Henrieta Hudekova, PhD., MPH
Prof. MUDr. Ljudmila evikova, CSc.



Urednik:
Doc. dr Predrag uri

Prevod:
Anna uri


Magli, 2013.
Centar za edukaciju, toleranciju i multikulturlizam

CIP
,

57 : 311 (035)

,
Biostatistika [Elektronski izvor] / Rusnak Martin, Rusnakova
Viera, Majdan Marek ; [prevod Anna uri]. Magli : Centar za
edukaciju, toleranciju i multikulturalizam, 2013. 1 elektronski
optiki disk (CD-ROM) : tekst ; 12 cm. (Edicija naunih knjiga)

Prevod dela: Biotatistika pre tudentov verejnho zdravotnctva.

ISBN 978-86-88497-03-9
1. , 2. ,
) -
COBISS.SR-ID 282466823




SADRAJ

Poglavlje 1 Uvod osnovni pojmovi i definicije.....................................................................5

Poglavlje 2 Prikupljanje i obrada podataka............................................................................18

Poglavlje 3 Prezentacija i primarna obrada podataka.............................................................36

Poglavlje 4 Mere centralne tendencije i disperzije................................................................56

Poglavlje 5 Ocene uzorka......................................................................................................70

Poglavlje 6 Provera hipoteza.................................................................................................85

Poglavlje 7 Analiza varijanse................................................................................................103

Poglavlje 8 Regresija i korelacija.........................................................................................115

Poglavlje 9 Logistika regresija...........................................................................................132

Poglavlje 10 Neparametrijski testovi...................................................................................150

Dodatak Reenje primera.....................................................................................................169


















PRVO POGLAVLJE
Uvod - osnovni pojmovi i definicije

Sadraj poglavlja
Kako i zato je nastala ova publikacija.................................................................................................5
ta je to statistika, zato je znaajna za javnozdravstvenog radnika....................................................6
Merenje, promenljiva, parametar, statistiki test..................................................................................9
Populacija...........................................................................................................................................12
Uzorak................................................................................................................................................11
Uvod u statistiki program R.............................................................................................................13
Primeri................................................................................................................................................14
Saetak................................................................................................................................................15
Autori..................................................................................................................................................15
Pitanja.................................................................................................................................................16
















U uvodu emo objasniti svrhu i cilj ove publikacije i navesti osnovne pojmove i definicije.
Nakon upoznavanja sa ovim poglavljem, italac bi trebalo da stekne dovoljnu koliinu pojmova i
koncepciju za savladavanje narednih poglavlja. Baviemo se ciljevima statistikog istraivanja sa
akcentom na javno zdravlje. Naveemo osnovne pojmove i objasniemo njihovo korienje.
Objasniemo odnos izmeu populacije i uzorka populacije, a ujedno emo naznaiti i osnovna
pitanja koja e biti reena statistikim testovima. U zakljuku emo objasniti statistiko okruenje
projekta R, koje emo u celoj publikaciji koristiti za reavanje primera.

Tabela 1: Ciljevi oglavlja
Ciljevi ovog poglavlja su:
- uvesti i objasniti zadatke statistike u javnom zdravlju i u biomedicinskim naukama
- predstaviti osnovne pojmove
- dati uvod u statistiki program R


Kako i zato je nastala ova publikacija

Autori reaguju na potrebu da osnae nastavu statistikih metoda u oblasti nauka koje se bave
zdravljem populacije i koje se oznaavaju kao javno zdravlje. Sa pojmom statistika obino se
povezuje i pojam istraivanja, pod kojim ovde podrazumevamo pristup svakodnevnom radu u
oblasti javnog zdravlja, a koji primenjuje nauni metod sa ciljem da upozna stvarnost. Problematika
istraivanja je prilino iroka, pa se ova knjiga posveuje samo jednom delu istraivanja, a to su
odabrane statistike metode koje se koriste u istraivanjima. Ne obraujemo specijalne statistike
pristupe i metode koje nisu rutinske u navedenoj struci.
ta je, dakle, cilj ove publikacije? U prvom redu da se pripremi pomono sredstvo za
studente, koje e sluiti pri izuavanju statistike, sa krajnjim ciljem njene primene u praksi. Time se
nadograuju ve postojei udbenici, koji se danas koriste. Povezanost sa klasinim udbenicima
statistike polazi od injenice da pominjani autori nisu imali u vidu instrumente koje nam prua
dananje vreme. Ovde se prvenstveno misli na raunare i statistike softvere. Razvoj tzv. open
source
1
i drugih slobodno dostupnih programa (gde moemo uvrstiti i Epi-Info autora podranih
od Svetske zdravstvene organizacije) vodio je do otvorenih i do tada nepostojeih mogunosti
primene statistikih metoda. Kao i uvek, osim pozitivnih, ovakav slobodan pristup nosi sa sobom i
negativne strane na primer pogreno korienje statistikih metoda, lo kvalitet ulaznih podataka i
neznanje zasnovano na netanoj interpretaciji rezultata. Ova publikacija moe da pomogne pri
otklanjanju nekih od navedenih problema, ali i kod racionalne primene potencijala, koje statistika
prua vetom korisniku.

1
Open source, u doslovnom prevodu otvoreni izvor, predstavlja skup raunarskih programa, kojima se moe pristupiti
besplatno i dostupni su svima koji to ele. Ovde spade, na primer, Open office, kao i statistiki system R, koji mi
koristimo.



Publikacija je u prvom redu pomono sredstvo namenjeno studentima javnog zdravlja, ali e
je sigurno uzeti u ruke i studenti i apsolventi drugih nezdravstvenih i zdravstvenih smerova. U irem
smislu ona prua osnovnu orijentaciju u oblasti primene statistikih metoda, primere i nain
njihovog reavanja, ali ne zamenjuje poznavanje metoda, njihovu snagu i ogranienja. Za primere
navedene u ovoj publikaciji nisu navedena uputstva za primenu statistikih metoda bez poznavanja
njihove sutine. Time ne mislimo da bi italac morao da izuava i poznaje formalnu stranu
matematike statistike sa njenim formaliziranim zapisom i formulama. Ne elimo da se one
memoriu bez razumevanja sutine (to se esto deava), nego da vode do razumevanja kako
odreena metoda funkcionie, kakav se postupak iza nje skriva. Ne pretpostavljamo da e italac
sam pisati statistike procedure, ali u odreenim situacijama potreban je pogled i na tabele sa
rezultatima koje je kreirao statistiki program.
Jedna od bitnih odluka koje smo morali da napravimo, ticala se statistikog programa u
kojem obraujemo primere. U sluaju sakupljanja podataka i jednostavnog razvrstavanja, radimo sa
programom Excel u verziji koja je stavni deo Open Office-a. Primeri za statistike procedure su
predstavljani u programu R4. U pogledu na smisao ove publikacije, nismo uvrstili opis projekta R i
opis naina njegovog korienja. Pretpostavljamo da e italac tragati za mnotvom izvora koje
prate projekat R, ili e koristiti pojednostavljena uputstva na stranici nae katedre.
Potrebno je napisati i kako je publikacija sastavljena i kako preporuujemo da se koristi.
Svako poglavlje predstavlja celinu za sebe, usmerenu na reavanje odreene vrste problema.
Poinjemo klasino, tj. predlogom postupka u statistikom istraivanju, sakupljanjem i pripremom
podataka koji e biti obraeni. Nastavljamo sa jednostavnom proverom kvaliteta podataka i
njihovim osnovnim statistikim opisom. Onda prelazimo na postupke statistike inferencije, koji su
podeljeni u vie poglavlja. Zavravamo logistikom regresijom. Publikaciju nije potrebno itati od
poetka do kraja. Radije preporuujemo da se proitaju uvodna, opta poglavlja, da se detaljno
informie o testiranju hipoteza, a onda da se orijentie na dalja poglavljima, prema potrebi. U
svakom poglavlju italac e nai dosta primera, od najjednostavnijih, pa da kompleksnih statistikih
analiza. Kad je primer obraen programom R, onda je dato uputstvo iz algoritma u jeziku tog
programa. Matematikim opisima je uvek dodato obrazloenje kako ih itati i interpretirati.
Bitan dodatak publikacije je i veb stranica Katedre za javno zdravlje (http://vz.truni.sk), gde
e italac pronai druge detalje, primere kao i kontakte autora. Redovni studenti imaju mogunost i
uenja na daljinu u okruenju MOODLE (pristup preko navedene veb stranice), gde e pronai ne
samo primere, ve i elektronske adrese nastavnika.


ta je statistika, zato je znaajna za javnozdravstvenog radnika

Nita novo neemo rei ako konstatujemo da statistika prati problematiku javnog zdravlja od
njegovog samog poetka. Prisetimo se registrovanja obolelih u Londonu i uloge statistike kod
prepoznavanja uzroka nastanka epidemije kolere. Imena kao Vilijem Far i Don Snou su trajno
upisana u istoriju ljudskog znanja. Uprkos tome, nismo odgovrili na pitanje zato je statistika
znaajna. Najjednostavniji odgovor je da znaaj statistike izvire iz sluajnog karaktera uzroka
oboljenja. Sluajnost moemo dokumentovati, na primer, time to nee svaki kontakt sa faktorom
koji izaziva oboljenje i dovesti do manifestiranje oboljenja. Primer su oboljenja kao tuberkuloza,
HIV infekcija i druge. Mnoga oboljenja su izazvana kombinacijom razliitih faktora, a ni jedan od



njih ne moemo oznaiti kao jedini uzrok. To je, na primer, sluaj kod mnogih hroninih oboljenja,
gde stil ivota, genetika i ivotno okruenje zajedno odreuju pojavu i razvoj pojedinih oboljenja,
kao to su visok krvni pritisak, eerna bolest, maligni tumor. I tokom studiranja i pri pruanju
zdravstvene zatite koristi se faktor sluajnosti, bilo u formi ovekovih odluka, bilo u reakcijama
oveka. Kod odreivanja mera sluajnosti i odreenja (determinacija), neemo moi bez znanja
verovatnoe i statistike. Sledei deo odgovora na pitanje o znaaju statistikih metoda je udruenost
javljanja odreenih fenomena. Znamo da kada treba da napravimo predstavu o neemu, a ta
prevazilazi nau mogunost da upamtimo sve pojave, koristiemo neku njihovu zajedniku
karakteristiku. Na primer, u koli se koristi prosek ocena kao slika o uinku uenika (mada bi bilo
pravednije koristiti medijanu). U zdravstvenim istraivanjima esto radimo sa populacijama koje se
sastoje od mnogih pojedinaca. Nije mogue prouavati ih bez korienja odreene metode, koja ih
zajedniki opisuje i pomae da se saznaju njihove slinosti i razlike. Ove zadatke reava statistika.

Definicija 1: ta je statistika
Statistika je nauka koja se bavi rezultatima grupnih posmatranja, njihovo prikupljanje, analiza i
primena u donoenju odluka i pretpostavki.

Statistika se prema oblasti primene dalje deli na matematiku i primenjenu. Matematika
statistika prouava, razvija statistiko znanje i same metode. U oblasti javnog zdravlja govorimo o
biomedicinskoj statistici, koja predstavlja primenu statistike u biomedicinskim naukama, a time i u
javnom zdravlju. esto se izdvaja i zdravstvena statistika, koja se bavim uom oblau opisivanja
zdravstvenih sistema. Epidemioloka statistika predstavlja skup statistikih metoda koje se esto
koriste u epidemiolokim studijama. S obzirom na svrhu ove publikacije baviemo se osnovama
biomedicinske statistike, koje se mogu koristiti u svim oblastima biolokih i medicinskih naukama.

Definicija 2: Biostatistika
Biostatistika koristi instrumente i koncepcije statistike u oblasti medicine i u biolokim naukama.

Dva su faktora posebno podstakla razvoj statistike u javnom zdravlju. Prvi od njih je
multifaktorijalna priroda nastanka oboljenja, a s tim u vezi i potreba za obradu ne samo jednog para
podataka, ve cela polja podataka i traenje njihove uzajamne povezanosti. Proraune vie nije bilo
mogue raditi runo i tako, paralelno sa razvojem raunara, dolazi do njihove sve ee upotrebe u
epidemiologiji, a postepeno i u drugim oblastima istraivanja javnog zdravlja. Primenjuju se ne
samo veliki skupovi, ve i nelinearni i drugi statistiki komplikovani postupci. Kompjuteri su, na
primer, omoguili sprovoenje populacione studije o povezanosti puenja i raka plua
2
. Takoe su
vodili ka irenju logistike regresije
3
, ija je prva primena u studiji nastanka oboljenja zabeleena
1961. godine i to za odreivanje povezanosti koronarne bolesti srca, sistolnog krvnog pritiska i
nivoa holesterola
4
. Uprkos tome to su mnogi od ovih postupaka stariji od pola veka, uprkos

2
Doll, R., Peto, R., Boreham, J., Sutherland, I.: Mortality in relation to smoking: 50 years' observations on male British
doctors. BMJ 2004;328:1519 (26 June); http://www.bmj.com/cgi/content/full/328/7455/1519
3
Cornfield J, Gordon T, Smith WW. Quantal response curves for experimentally uncontrolled variables.
Bull.Int.Stat.Inst. 1961;38,pt 3:97-115.
4
Truett J, Cornfield J, Kannel WB. A multivariate analysis of the risk of coronary heart disease in Framingham.



injenici da su raunari opte dostupni, uprkos tome da renomirani struni asopisi ne primaju
lanak bez odgovarajue statistike, uprkos svemu tome, stalno se sreemo sa nepravilnom
primenom statistikih metoda, kao i sa iznoenjem miljenja o rezultatima sluajnih (stohastikih)
procesa bez bilo kakvog statistikog obrazloenja. To je i razlog zbog kojeg nastaje ova publikacija,
kako se ne bi inila teta zbog izvorno netane upotrebe i interpretacije rezultata, te da se ne bi
izgubili zanimljivi rezultati istraivakog rada.
Zato je statistika nauka? Koristi nauni pristup u upoznavanju sveta oko nas. Zasnovana je
na poznavanju sveta koji nas okruuje, a formalizacijom matematiki izraenih odnosa meu
pojavama belei ih i interpretira. Zajednike pojave su one koje se pojavljuju u velikoj koliini
5
, na
primer, nivo glukoze u krvi pojedinaca je zajednika pojava, iji prikaz prua statistika. Procena
obima vrednosti glikemije za zdravo stanovnitvo je rezultat statistike utede.
Jedinica, koja prilikom zajednike pojave postaje objekat statistikog istraivanja je pojava.
To je rezultat eksperimenta ili posmatranja. Kod prouavanja javnog zdravlja se ee sreemo sa
pojavama koje su posmatrane na skupu zdravih ili bolesnih ljudi. Eksperimenti - ogledi u ovoj
oblasti su relativno retki, posebno imajui u vidu etika ogranienja. Zajednike pojave nastaju kao
rezultat neogranienih ponavljanja posmatranja ili kao rezultat posmatranja na obimnim skupovima
uzajamno ravnpravnih elemenata. Zajednike sluajne pojave su one koje nije mogue u potpunosti
tano predvideti pre realizacije eksperimenta ili posmatranja.

Definicija 3: ime se bavi statistika
Statistika se bavi organizacijom i pregledom podataka i izvoenjem zakljuaka o svim podacima,
pri poznavanju samo dela njih.

Za razumevanja pojava, a time i poznavanja funkcije statistike, neophodno je poznavanje
pojma populacija. Ona predstavlja najvei mogui skup entiteta koji predstavljaju predmet naeg
interesovanja u datom momentu. Izvesti zakljuak o celini predstavlja sastavni je deo i jedan od
osnovnih ciljeva statistike. Kad se izrauna statistika vrednost na osnovu podataka iz sluajno
odabranog uzorka, a na osnovu poznavanja vie pojedinanih statistikih vrednosti, moemo
zakljuiti da ona vai za sve jedinice sa istim karakteristikama kakve je imao izabran skup i onda
smo primenili statistiku indukciju za doneenje zakljuaka o populaciji.
U praksi to izgleda tako da, kad elimo da zakljuimo kakvu visinu imaju deca u uzrastu od
dvanaest godina u Slovakoj, neemo ii po celoj Slovakoj i meriti svu decu od dvanaest godina,
ve emo sluajno izabrati (ali pridravajui se odreenih pravila za vrenje sluajnog uzorkovanja)
uzorak dece kojoj emo izmeriti visinu. Onda izraunamo statistike vrednosti, koje karakteriu
ovaj uzorak. Shodno tome, pod odreenim okolnostima i uslovima moemo zakljuiti da ovaj broj
(izraunata vrednost) predstavlja parametar cele populacije dvanaestogodinje dece u Slovakoj.
Uradili smo statistiku indukciju. Drugim reima, ovaj proces moemo opisati tako da odreenu
populaciju ili univerzum moemo da prikaemo odreenim brojevima - konstantama, koje
sumiraju njene osobine. Kod ovog je jako bitno koliko je temeljno istraiva definisao ta je
populacija. Primer populacije ili univerzuma mogu biti svi oboleli od eerne bolesti ili sa visokim

J.Chronic.Dis. 1967;20:511-24.
5
Nije mogue rei koliko pojava ini zajedniku pojavu. Nije dobro tvrditi da je zajednika pojava vie nego 30
sluajeva ili slino.




krvnim pritiskom, kod kojih nas interesuje da utvrdimo zavisnost odreenih znakova ili efekata
leenja od drugih faktora, kakvi su na primer oblici ponaanja (ishrana, fizika aktivnost) ili davanje
insulina, ili lekova koji sniavaju krvni pritisak. Retko kad imamo priliku da upoznamo ili ispitamo
sve lanove populacije. Ogranienja proizilaze iz nedostatka vremena, materijalnih sredstava ili
jednostavno nemogunosti da se ispitaju svi. Ovaj fenomen je poznat i kod istraivanja popularnosti
pre politikih izbora. Firme koje procenjuju anse kandidata za uspeh (neuspeh) ne kontaktiraju sve
birae, ve izaberu tzv. reprezentativan uzorak istih, a u njemu su ljudi razliitog drutvenog
poloaja, obrazovanja, pola, pa iz rezultata njihovih odgovora izvode miljenje o rezultatima na
dravnim izborima (detaljnije o uzorkovanju govoriemo kasnije). Jasno je da rezultat ovog
istraivanja ne mora da bude realizovan kad se saberu glasovi biraa, ve je informacija dobijena na
ovakav nain i uprkos netanosti jako bitna, s obzirom da izborni tabovi politikih partija daju
veliki novac na ponavljanje istraivanja ovog tipa.
Koncepcija miljenja o celini na osnovu uzorka populacije je jedan od osnovnih postupaka
statistikog saznanja. Praktino u svim poglavljima koje slede baviemo se tehnikom izvoenja
statistikih podataka, dakle statistikom analizom (inferencijom ili indukcijom).
Shvatanje statistike indukcije je izuzetno vano radi pravilne interpretacije rezultata
statistikog saznanja.

Definicija 4: Statistika analiza
Statistika analiza (indukcija,inferencija) je postupak kojim se izvode sudovi o populaciji na osnovu
rezultata dobijenih iz uzorka iz ove populacije.

Biostatistika predstavlja jednu podgrupu, sastavni deo cele statistike. Osim nje, postoji i
demografska statistika, statistika u socijalnim naukama, kao i druge primenjene statistike.
Matematika statistika predstavlja teoretski osnov primenjenih statistika.

Merenje, promenljiva, parametar, statistika vrednost

U biostatistici sakupljamo i vrednujemo informacije o pojavama kod vie osoba, uzoraka i
eksperimenata. Pojavu izraavamo kao merenje, ili kao posmatranje. Ono ne mora da bude
iskazano samo brojem, moe da bude i vrednost iskaza (npr. da-ne, kategorija ili redosled).
Detaljnije emo se ovim baviti u narednim pasusima. Svako merenje je otkriveno pojavom kod
odreenog pojedinca, koga obino nazivamo subjektom statistikog saznanja. Dakle, na pojedincu
moemo uraditi razna merenja, kao to su uzrast, pol, visina, telesna masa, sistolni i dijastolni krvni
pritisak. Budui da statistika predstavlja metodu obrade grupnih pojava, merenje se izvrava na vie
subjekata. Zato je bitno merenje raditi i izraavati istim nainom. Ista merenja kod razliitih
subjekata zovemo obeleja (promenljive, varijable). To moe da bude na primer visina zabeleena
u centimetrima kod svih subjekata. Nije mogue u okviru jedne promenljive izraziti visinu u
centimetrima kod nekih subjekata, a u milimetrima ili metrima kod drugih.

Nain izraavanja, na primer jedinica u kojoj se merenje sprovelo i zabeleilo
6
, zove se

6
Prirodno je merenje u raznim jedinicama, ali beleenje je nuno samo u jednoj, kao i izraunavanje u jednoj jedinici



jedinica mere promenljive. U odnosu na jedinicu mere promenljive se definiciji promenljivih
poklanja velika panja. U toj definiciji se navodi ne samo jedinica mere promenljive, ve i nain
merenja. Mnoga, naroito laboratorijska merenja, mogu se dobiti raznim metodama, npr. merenje
holesterola moe da bude od uzete krvi iz vene ili tzv. suvom hemijom. Vrednosti se mogu
razlikovati, u nekim sluajevima sutinski. Takoe nain izraavanja vrednosti merenja u
promenljivoj mora se tano definisati, npr. kod beleenja pola nije bitno da li e se mukarac
oznaiti kao 1 ili 0, ali se moramo toga pridravati kod svih subjekata.

Definicija 5: Promenljiva
Promenljiva je osobina koja poprima razne vrednosti za razne osobe, mesta i stvari.

Promenljive su osnov statistike. Statistike metode zapisuju promenljive, istraavuju njihove
zajednike odnose, ili predviaju njihov dalji razvoj. Razlikujemo nekoliko tipova promenljivih,
koji se mogu uzajamno kombinovati. Kvantitativne (numerike) i kvalitativne promenljive se
razlikuju u mnotvu merljive informacije. Prve izraavaju osobine koje moemo meriti, na primer
toplota, masa, koncentracija natrijuma u krvi. Izraavaju se brojano i imaju jedinicu mere (u
kakvim jedinicama su bili mereni).
Kvalitativne (atributivne, kategorijalne, nebrojane) promenljive izraavaju osobine,
koje se mogu izraziti u formi kategorije, npr. bolestan/zdrav, bez simptoma/sa simptomima. Meu
kvalitativnim se izdvajaju nominalne promenljive, koje moemo meriti samo u smislu pripadanja
nekoj grupi, jednoznano razlikujui se od ostalih grupa. Ne moemo ih kvantifikovati niti poreati.
Na primer, sve to moemo rei o dva merenja (pojedincima) jeste da se razlikuju u vrednostnoj
promenljivoj A ( na primer razlikuju se u polu), ali ne moemo rei da jedna od njih ima manje ili
vie ovog kvaliteta. Uobiajeni primeri nominalnih promenljivih jesu pol, nacionalnost i slino.
Ordinalne promenljive omoguavaju reanje u smislu sadraja manje ili vie kvaliteta, meutim ne
omoguavaju da se kae koliko vie. Tipian predstavnik ovog tipa promenljive jeste socio-
ekonomsko stanje porodice. Znamo da via srednja klasa ima bolje socio-ekonomsko stanje nego
srednja klasa, ali ne moemo rei da je razlika 20%.
Meu kvantitativnim promenljivim se izdvajaju intervalske promenljive, koje
omoguavaju ne samo reanje merenja, ve i kvantifikovanje i uporeivanje veliine razlike meu
njima. Na primer, toplota u Celzijusovim stepenima predstavlja intervalski skalu. Moemo rei da
temperatura 40 Celzijusa, jeste vea od temperature 37,8, a takoe da je razlika 2,2 Celzijusa.
Srazmerne (racio) promenljive su jako sline intervalskim, ali sadre apsolutnu nulu. Primer je
temperaturna prema Kelvinu. U svakodnevnoj praksi meu njima nema razlike.
Kad ve spominjemo lorda Kelvina, ovaj poznati fiziar jednom je rekao da predmet
naunog istraivanja treba da budu samo pojave, koje moemo da merimo
7
. Mislio je tada na
kvantitativno posmatranje, koje dominira u fizici. U medicini i uopte u biolokim naukama to nije
sluaj, pre bi se reklo da je istina suprotna. Razlika meu ova dva tipa podataka nije tako otra kako
bi moglo da nam izgleda na prvi pogled. U praksi se esto kvantifikuju i sutinski kvalitativni
podaci. Uobiajena je navika da pol oznaavamo sa 0 i 1, a takoe prisutnost bakterije u mokrai sa
jedan ili vie krstia. Manje esto se pribegava suprotnom postupku kod obrade podataka, dakle
konverziji kvantitativnih podataka u kvalitativne. Kad je potrebno kategorizovati neku pojavu,
iskoristie se pomenuti postupak. Ovakve promene promenljivih zovu se transformacija
promenljivih. Primer je svrstavanje laboratorijskog nalaza u kategoriju referentnih vrednosti ili

mere, npr. duinu deteta nakon roenja moemo da merimo u centimetrima, ali emo je zapisati u npr. metrima.
7
If you can not measure it, you can not improve it. Ako nemoete da izmerite, ne moete ni poboljati. To measure
is to know. Izmeriti znai znati.



meu poviene, odnosno sniene vrednosti. Ovaj postupak se esto koristi u klasifikacijskim
algoritmima bolesnih stanja.
Sluajne promenljive predstavljaju vrednosti koje su posledica sluajnosti. Samo ove
promenjljive treba da budu predmet statistikog saznanja. Suprotno tome je deterministiki dobijena
promenljiva, gde je sluajnost iskljuena, a nastaje kao rezultat svrsihodnog rada, gde je
verovatnoa postizanja oekivanog rezultata 100%.
Diskretne (prekidne, diskontinuirane) sluajne promenljive su karakteriu prekidima,
pauzama, koje indikuju nedostatak vrednosti meu odreenim vrednostima, npr. vrednost R-R
intervala na EKG, vitalni kapacitet u prvoj sekundi izdisaja. Neprekidne (kontinuirane) sluajne
promenljive nemaju prekide, povezane su, npr. EKG kriva, spirometrika kriva (Slika 1).

Slika 1: Elektrokardiogram sa oznaenim R-R intervalom i spirogram



Neprekidne sluajne promenljive moemo prevesti u diskretne. Na levoom delu slike vidimo
elektrokardiogram. Pojedinim takama krive obino dodelimo slovo kao njegovo ime, pa tako
udaljenost izmeu dve take na dva zapisa predstavlja odraz srane frekvencije. Obino se navodi
udaljenost meu vrhuncima R talasi, tzv R-R interval. Drugi deo slike je beleka promene
zapremine izdahnutog vazduha kod ispitivanja funkcije plua. Za procenu funkcije plua se obino
uzima u obzir zapremina izdaha u prvoj i treoj sekundi i celokupan izdah vazduha. U oba
zabeleena sluaja od zavisne sluajne promenljive dobiemo diskretnu promenljivu. Ponekad
(retko kad) diskretne vrednosti prevodimo u neprekidne. U drugom sluaju se esto prave greke
protivne sutini promenljive. Iako je rast deteta neprekidna radnja, merenje rasta se radi u
vremenski odreenim intervalima. Najpre merimo svakog meseca posle roenja, a kasnije jednom u
godinu dana.
Nezavisne promenljive su one kojima vrednosti moemo menjati, dok je zavisne
promenljive mogue samo registrovati ili meriti. Na prvi pogled, ova podela se moe initi
obmanjujue, zato to moemo rei da sve promenljive zavise od neega. Ova razliitost proizilazi
iz eksperimentalnog istraivanja, gde su neke promenljive nezavisne od istraivakog procesa, na
primer pol. Na drugoj strani se oekuje da druge promenljive, kao to su telesna visina i masa,
zavise od pola, starosti, itd.






Definicija 6: Tipovi promenljivih

Kvantitativne merljive:
intervalne
srazmerne
Kvantitativne:
zavisne
nezavisne

Kvantitativne:
neprekidne
diskretne (prekidne)
Kvalitativne (atributivne) kategorijalne:
nominalne
ordinalne



Sada emo prei na rezultate statistikog istraivanja. Razlikujemo rezultate koje se dobijaju
na osnovu podataka dobijenih iz celokupne populacije i one koje se dobiju iz izabranog uzorka.
Parametar predstavlja opisnu meru koja karakterie promenljivu u populaciji. Statistika
vrednost je opisna mera izraunata na osnovu uzorka. Razlika izmeu parametra i statistike
vrednosti je u nainu izvoenja rezultata statistikog istraivanja: kad se nekom statistikom
procedurom izraunava broj koji karakterie uzorak dobijen sluajnim izborom, onda je to
statistika vrednost. Kad se ovaj broj primeni na celu populaciju, onda se pretvara u njen parametar.

Definicija 7: Parametar i statistika vrednost
Parametar predstavlja opisnu meru, koja karakterie promenljivu kod populacije.
Statistika vrednost je opisna mera izraunata na osnovu uzorka.


Populacija

Spomenuli smo pojam populacija. Ona predstavlja najveu grupu entiteta koji nas
interesuju u odreenom trenutku. Predstavlja zato predmet jednog od osnovnih ciljeva statistike, a
to je doneti sud o celini. Kad se izrauna statistika vrednost na osnovu podataka iz sluajno
odabranog uzorka i na osnovu poznavanja vie pojedinanih statistikih podataka, moemo
zakljuiti da ona vai za sve jedinice sa istim karakteristikama kakve je imao izabrani uzorak;
podrazumeva da smo koristili statistiku analizu i napravili zakljuak o populaciji. U praksi to
izgleda tako da kad elimo da zakljuimo kakvu visinu imaju deca u uzrastu od 12 godina u
Slovakoj, nasumice odaberemo (ali pridravamo se odreenih pravila za realizaciju nasumimnog
odabira) grupu dece, kojima izmerimo visinu. Onda izraunamo statistiku vrednost koja
karakterie ovaj uzorak. Zatim pod odreenim okolnostima i uslovima moemo zakljuiti, da ovaj
broj (izraunata statistika vrednost) predstavlja parametar cele populacije dvanaestogodinje dece
u Slovakoj. Uradili smo statistiku analizu. Ovaj postupak je osnovna svrha statistikog
prouavanja: na osnovu osobina uzorka donosimo sud o osobini cele populacije. Zato to nikad
neemo znati tana svojstva, moramo koristiti pretpostavku za njihovo izraavanje.


Uzorak

Iz praktinih razloga nikad neemo raditi sa celom populacijom (pogledaj gore). Iz nje
odaberemo samo deo, nakon ije obrade izvrimo statistiku analizu. Zato je bitno da je uzorak
izabran na sluajan nain, koji nee dovesti do pristrasnosti rezultata statistike obrade. Ovakav



postupak zovemo sluajni uzorak iz osnovne grupe. Sluajnost izbora nam garantuje da svaki
element osnovne grupe ima na poetku uzorkovanja istu pretpostavku da bude odabran. Jako je
bitno odravati pretpostavku jednakih ansi, ime emo spreiti pristrasnost rezultata (bias).
Rezultat sluajnog izbora je uzorak, koja se sastoji od jasno definisanih elemenata-jedinica
statistikog posmatranja, koje u stvari elimo da upoznamo.
Zamislite da elimo da saznamo visinu dece u Slovakoj. Odabraemo, meutim, samo decu
u gradovima (poznato je da su deca u gradovima via od dece iz unutranjosti), ali rezultat bismo
eleli da iskoristimo za celu populaciju Slovake. Prirodno je da ovaj postupak ne vodi do tanih
rezultata. Ovakvo iskrivljivanje se naziva pristrasnost u izboru ispitanika.
Sluajni uzorak se dobija jednim od sledeih postupaka ili njihovom kombinacijom. Za
dobijanje prostog sluajnog uzorka se koriste tabele sluajnih brojeva. One su deo veine
statistikih tabela, a njihovo korienje je vrlo jednostavno: kod merenja dvanaestogodinjaka u
koli uzmemo spisak sve dvanaestogodinje dece i pomou ove tabele odaberemo one, kojima
redosled u spisku odgovara broju u tabeli sluajnih brojeva.
Drugi postupak dobijanja sluajnog uzorka je postupak nazvan mehaniko-sistemsko
uzorkovanje, a radi se prema obeleju koje nije povezano sa obeleje koje se ispituje. Na primer,
odaberemo samo onu decu kojima je matini broj deljiv sa tri bez ostatka. Matini broj i njegova
deljivost brojem tri sigurno nisu u vezi sa visinom dece.
Sledea mogunost je koristiti stratifikovani uzorak u kome se grupa deli na podgrupe, a
dalje se radi pomou tabela sluajnih brojeva. Decu moemo podeliti, na primer, prema socio-
ekonomskom stanju porodice iz koje dolaze. To nam garantuje da emo imati iz svake grupe
dovoljan reprezentativni uzorak. Uopteno je poznato da socio-ekonomsko stanje porodice utie na
visinu deteta.
esto korien je i parni izbor (sparivanje, meovanje). Ova metoda je zasnovana na izboru
jedinica sa zajednikim oznakama, npr. napravimo parove od pacijenata pre i posle leenja.


Uvod u statistiki program R

Program sa nazivom R je jezik i okruenje za statistike proraune i statistiko grafiko
prikazivanje i nastao je i distribuiran je prema licenci GNU GPL -General Public Licence. To znai
da je jezik i okruenje R mogue koristiti, iriti i poboljavati bez ogranienja.
R je u mnogome slian jeziku i okruenju S, odnosno softveru S-plus, koji se prodaje. Ova
slinost proizilazi iz odluke izvornih stvaralaca projekta R, da se u njegovom stvaranju poe od
jezika S. Veina zadataka iz jezika S bez promena u potpunosti funkcionie i u okruenju R (sa
olakanjem se ponekad za ova dva programa govori kao o dva dijalekta).
R se naziva okruenje i jezik naroito zato to je jako fleksibilan i relativno jednostavno
prilagodljiv za bilo koju specifinu vrstu analize, za razliku od drugih programa za statistiku
analizu, koje broje skup operacija koje su u sutini nepromenljive. Ovaj fleksibilan sistem je
zasnovan na paketima, koji po pravilu sadre komande za statistike operacije u odreenoj
specifinoj oblasti. Tako, na primer, paketi epibasix ili epicalc sadre komande specifino
namenjene za statistiku analizu u epidemiologiji, a paket survival sadri komande namenjene za
razliite oblike analize proivljavanja u epidemiolokim i zdravstvenim istraivanjima. Prilikom
instaliranja okruenja R, automatski se instalira nekoliko paketa koji sadre standardna statistika
izraunavanja i grafiki prikaz tzv paket base. Na raspolaganju je onda niz specifinih paketa
komandi, koje je potrebno instalirati u sistem pre njihove upotrebe. Na osnovu licence GNU-GPL
svako moe da napravi paket komandi i stavi ga na raspolaganje za korienje zajedno sa ve
postojeim paketima.



Okruenje R se od mnogih klasinih programa za statistiku analizu razlikuje i time to je
osnova njegovog funkcionisanja komandna linija, odnosno red u koji se zadaje komanda, a R uradi
zadato nareenje. Iako e neke od komandi, uprkos svome jednostavnom znaenju, uraditi relativno
kompleksna izraunavanja, kod tipinih analiza potrebno je zadati sled nadovezujuih komandi i
argumenata, da bismo dobilli traeni rezultat. Na ovakav nainom se napravi script ili grupa
komandi, na osnovu ega R uradi traena nareenja, a mi dolazimo do rezultata.
Za pisanje skripta okruenje R ukljuuje jednostavan tekstualan editor (R editor), koji
omoguava pisanje i reanje skripti u obliku modela, koje je mogue bilo kad ponovo otvoriti i
koristiti. Grafiki i funkcionalno savrenija alternativa R editoru je softver Tinn-R 1. Ovaj program
je izvorno nastao kao alternativa Notepadu, koji je distribuiran kao deo operativnog sistema
Windows. U savremenom dobu primarno je namenjen da bude editor skripti za okruenje R. Posle
instaliranja mogue ga je jednostavno integrisati sa instaliranom okolinom R, a ima mnogo
komandi koje pojednostavljuju i ine efektivnijim pisanje skripti. Isto kao i R, distribuiran je pod
licencom GPL.
Okruenje R je za epidemiologiju i istraivanja u javnom zdravlju ili u medicini odlina
alternativa za rutinski dostupne komercijalne softvere. Dokaz su desetine dostupnih paketa komandi
specijalno napisanih za ovu oblast istraivanja, koje omoguavaju potpunu statistiku analizu i
grafiki prikaz podataka i rezultata od jednostavnih deskriptivnih statistikih radnji, pa sve do
kompleksnih prognostikih modelovanja, ili postupaka odluivanja u medicini.
Primeri navedeni u nekim poglavljima u ovom tekstu bili su napisani i reeni u okruenju R.
Sve praktine vebe i zahtevi potrauju instalaciju okruenja R i adekvatnih paketa.
Pre instalacije paketa potrebno je skinuti program za instalaciju kao i upustvo za
registrovanje programa u sistemu prema tome kakav sistem koristite. Pojedinosti ete nai na vie
izvora, na primer u izvanrednoj knjizi koja navodi osnovne statistike postupke u R
8
, kao i u knjizi
iji je uvodi deo dostupan na internetu
9
. Problem navedene literature je u engleskom jeziku, iako ga
korisnik nee moi izbei u programu R. Od slovakih ili ekih izvora osim knjiga namenjenih za
napredne statistiare
10
, dostupno je vie internet stranica
11
,
12
.




Primeri

U pojedinim poglavljima navodimo primere za provebavanje postupaka u R. Program R
sadri datoteku podataka. Ona e biti jedan od izvora, dok e drugi biti paket (package) od autora
poznate knjige o korienju R Dalgarda (2008), koji je pruio javno dostupan paket IswR. Dok je u
datoteci programa R puno podataka koji se tiu raznih oblasti ljudskog interesovanja, a relativno
malo iz oblasti zdravlja i zdravstva, IswR sadri nesrazmerno vie primera upravo iz oblasti naeg
interesovanja. Koristiemo reenja iz obe datoteke.
Spisak primera sa podacima o sadraju direktno u programu R omoguava se dozivanjem
komande data() bez argumenata. Posle njenog dozivanja otvorie se prozor sa nazivima datoteka.
Ove poslednje pogledajte pozivanjem iste komande, ali kao argument koristite naziv datoteke.

8
Peter Dalgaard. Introductory Statistics with R. Springer, 2nd edition, 2008. ISBN 978-0-387-79053-4.
9
Rob Kabacoff. R in Action. Manning, 2010. http://www.manning.com/kabacoff
10
Stano Pekar and Marek Brabec. Moderni analyza biologickych dat. 1. Zobecnene linearni modely v prostredi R.
Biologie dnes. Scientia, Praha, 2009. ISBN: 978-80-86960-44-9
11http://www.r-project.cz/index.html
12
www.karlin.mff.cuni.cz/~komarek/Rko/Rmanual1.pdf



Sadraj datoteke ispisae se pozivanjem komande list() sa nazivom datoteke kao argument.


Slika2: Posle skidanja paketa I swR on e se instalirati kao datoteka i moe da se koristi.
Znak # se koristi za komentar, a tekst koji sledi za ovim znakom program R ne obruje.



Saetak

Statistika ima dve osnovne poruke u ivotu naunika i istraivaa, a samim tim i studenta koji
priprema diplomski rad. Zadatak da zabelei naveden stav, kao i da pomae pri zakljuivanju o
populaciji iz koje su se podaci uzeli sa ciljem naunog istraivanja. Zato je ovo uvodno poglavlje
posveeno i karakteristikama i vrstama podataka i opisuje nain kako se njima rukuje. Za obradu
podataka predstavljamo odgovarajui statistiki program R, koji je slobodno dostupan - bez naplate
i samim tim pogodan za korienje u akademskom okruenju.



Autori

Grupu autora su inili su prof. dr Martin Rusnak, koji se zajedno sa svojom suprugom prof. dr
Vierom Rusnakovom tokom cele svoje strune karijere posvetio istraivanju u medicini i zdravstvu.
Oboje predaju statistike metode za lekare, studente medicine, javnog zdravlja i slinih struka, a
takoe koriste statistike metode za svoja istraivanja. Nastavne tekstove iz ove oblasti objavili su
na strani Katedre javnog zdravlja Trnavskog univerziteta.
Trei autor dr Marek Majdan je zaposlen na fakultetu Janog zdravlja i socijalnog rada
Trnavskog univerziteta. Od poetka rada na fakultetu, ve kao doktorant bavio se problematikom
statistikog saznanja u oblasti javnog zdravlja. Zbog nedostupnosti drugih kvalitetnih statistikih
programa poeo je da koristi statistiko okruenje projekta R. Pokazao je njegove izuzetne
sposobnosti prilikom analize podataka vie istraivakih projekata na fakultetu, ali i u inostranstvu.
Koristi okruenje R u nastavi i preko projekta MOODLE.






Pitanja

1. Na koje od navedenih pitanja ete traiti odgovor pomou statistikih postupaka?
(a) Ko je od vaih kolskih drugova najvii?
(b) Postoji li razlika u telesnoj masi kolskih drugova, onih koji pue i onih koji ne pue?
(c) Kakav je uinak imalo davanja leka kod jednog pacijenta?

2. Objasnite pojam statistike analize.

3. Da li je mogue merenje telesne temperature kao neprekidne promenljive? Kako je merimo
u praksi?

4. Da li je vrednost eera u krvi neprekidna ili diskretna promenljiva?

5. Imate li program R instaliran u kompjuteru?

6. Grafiki predstavite podatke iz uzorka malaria u paketu I swR.
































DRUGO POGLAVLJE
Sakupljanje i obrada podataka
Sadraj poglavlja
Cilj poglavlja ...................................................................................................................................... 18
Proces obrade podataka ...................................................................................................................... 18
Predlaganje naunoistraivakog projekta.....................................................................................19
Nain prikupljanja podataka ............................................................................................................... 21
Predlog i primena upitnika za prikupljanje podataka ......................................................................... 24
Pozitivne i negativne strane primene upitnika ................................................................................... 28
Kvalitet podataka ................................................................................................................................ 30
Kodiranje zadatih podataka ................................................................................................................ 33
Osnove bezbednosti i uvanja podataka ............................................................................................. 34
Zakljuak ............................................................................................................................................ 34
Vebe .................................................................................................................................................. 35
































Cilj poglavlja

Postupak obrade podataka koji se koristi u istaraivanju, bez obzira da li se radi o
istraivanju u javnom zdravlju, epidemiologiji, ili ispitivanju lekova, bitan je sastavi deo
statistikog postupka. Ovaj postupak primenjuje sve metode koje se koriste i u ostalim naukama, ne
samo u nauci o zdravlju. Za razliku od tehnikih nauka, blia mu je deskripcija nego korienje
dubljih matematikih analitikih metoda. Budui da elimo da ova publikacija bude to vie
praktino uputstvo za reavanje zadataka, nemamo prostora za pojedinosti teoretskog razmatranja
predlaganja i sprovoenja istraivanja. itaocu, koji se dublje interesuje za navedenu problematiku,
poruujemo odgovarajuu strunu literturu.
U poglavlju emo predstaviti proces obrade podataka, objasniemo korake koji slede i
naznaiemo kakva je njihova primena u praksi. Zatim sledi deo koji govori detaljnije o
prikupljanju podataka i njihovom prezentovanju u formi prikladnoj za statistiku obradu.
Naveemo takoe nain prezentacije sakupljenih podataka za prvobitnu izradu onoga, o emu ti
podaci mogu potencijalno da govore. U zakljuku emo se dotai najeih greaka i zabuna koje se
prave u ovoj oblasti.

Tabela 1: Ciljevi poglavlja


Proces obrade podataka

Proces obrade podataka predstavlja niz od nekoliko koraka. Ovaj proces nije pravolinijski,
ve u sebi sadri izgraen mehanizam kontrole tanosti uraenog. Slika 1. predstavlja odreene
korake ovog postupka. Obratite panju, koraci su prikazani u pravougaoniku gde treba neto da se
uradi, a tamo gde treba da se opredelimo izmeu dve mogunosti koraci su prikazani u rombu. U
poslednjem navedenom po pravilu postoje dve mogunosti, ili je neto uraeno tano (tako da je
odgovor Da) ili netano (Ne). Dolazi do razgranavanja aktivnosti prema tome kako se ispitiva
opredeli.
Opisati proces obrade podataka
Predstaviti nain prikupljanja podataka
Prodiskutovati dobre i loe strane razliitih naina prikupljanja podataka
Ukazati na znaaj kvaliteta podataka
Ukazati na probleme bezbednosti podataka

19

Predlaganje naunoistraivakog projekta
Kako zapoeti istraivanje (diplomski rad, naunoistraivaki projekat)? Prvi korak,
definicija problema - preciziranje zato se bavimo datom oblau, kao i postavljanje modela, je
osnov bilo kog naunog postupka zasnovanog na prouavanju podataka. U ovim koracima se
formuliu praznine u naem znanju, ciljevi naeg istraivanja, hipoteze i nain njihovog
potvrivanja ili odbacivanja. Zainteresovni za naunu filozofiju nai e odgovore na pitanja koja e
se reavati u ovom koraku kod mnogih filozofa modernog miljenja, npr. Karla Popera. Ali, ta
mora da se uradi u ovom koraku? U prvom redu moramo da upoznamo problem i definiemo
ciljeve da damo odgovor na pitanje ta elimo da dokaemo. Ali, ne samo jednostavno - da
elimo da napiemo diplomski. Ovde istraiva i student moraju dobro da se potrude. Istraiva
osim objanjenja ta u stvari namerava da uradi, po pravilu mora da ubedi nekoga, recimo
donatora
13
, da u njegovo istraivanje treba investirati. Analogno tome, student mora da ubedi
nastavnika da rezultati studentovog istraivanja dokazuju da je student sa studija poneo odreeno
znanje i vetine.
Ali, kako to da uradimo? Nije na odmet koristi uopteno primenljivo jednostavno uputstvo
za rad, koje navodi nekoliko pravila: u prvom redu kod definisanja vaeeg problema i ciljeva
neophodno je prostudirati dostupnu literaturu i saznati kako je neko drugi reio slian problem.
Retkost je da se problem nikada pre toga nije reavao, iako se, prirodno, to deavalo u drugim
okolnostima. Takoe nije dobro koncentrisati se samo na izvore sa interneta, sa izuzetkom
dostupnih renomiranih indeksnih baza i u njima navedenih strunih, provernih izvora (MEDLINE,
COCHRANE, HON sertifikovane stranice, akademski izvori). S obzirom na liberalnost interneta,
mnoge pronaene informacije nisu nuno nauno poverene i mogu da budu obmanjujue. Da ne
treba da se kopira rad drugih uz pomo copy and paste, odnosno da se treba kloniti plagijatorstva,
ovde ne treba ni posebno naglaavati. Korisna preporuka je i orijentisati se na problem koji je dobro
definisan. Ovde u veini sluajeva studente posavetuje profesor koji ima iskustva u ovoj oblasti.
Takoe mnogo organizacija, koje pruaju istraivake grantove, navodi sline savete kako
napredovati u predlogu, ali i upravljati projektom
14
. Sledee pitanje, na koje treba da damo odgovor
kod planiranja istraivanja je kako emo napredovati dalje, kako emo doi do oekivanih rezultata,
odnosno koje metode emo primeniti. Bitan deo metoda je primena kvantitativnog pristupa, to nam
omoguava satistika.
U sledeem koraku potrebno je definisati plan prikupljanja podataka i statistiki model.
U planu e se odrediti koraci pri prikupljanju podataka, specifikovae se pojedine promenljive.
Bitno je takoe odrediti veliinu uzorka
15
i nain dobijanja uzorka. U ovom koraku se najee
pravi greka u tome, da se ne formulie dovoljno tano ta i kako e se prikupljati. Primer 1
shematski prikazuje pripremu postupka, kad ispitiva ili student pokuavaju da nau odgovor na
pitanje da li puenje pre trudnoe utie na razvoj novoroeneta, merenjem njegove poroajne mase.
Kod definisanja cilja izvrie sutinska opredeljenja, da e se baviti samo dvema kategorijama ena,
inae e u svoje istraivanje obuhvatiti ene koje nikad nisu puile, a kod ena puaa samo one
koje su puile redovno. Na taj nain su ograniili broj varijanti, izbacili, na primer, kategoriju
povremeni ili bivi pua. U ovoj etapi bi bilo dobro navesti ta uraditi istraiva kad se sretne sa
konkretnom enom, kakva e biti, da li e je obuhvatiti istraivanjem, uvrstiti je u puae ili
nepuae i slino... Takoe, gore navedeno opredeljenje znai da se nee byviti tanim podacima o

13
Donor je pojedinac ili organizacija, koji/koja je finansijski spremna da finansijski podri predloeno istraivanje.
U irem smislu donor je i fakultet na kojem nastaje diplomski rad (postoji vie oblika podrke mentorstvo, pristup
biblioteci i slino).
14
Na stranici http://www.sfcg.org/programmes/ilr/proj.pdf odgovori na ova pitanja.
15
Odreivanje veliine uzorka bie objanjeno u jednom od narednih poglavlja.

20

broju popuenih cigareta i vremenskim odnosom prema trudnoi. Nee utvrivati ni da li je majka
puila i tokom trudnoe. Dakle, u ciljevima istraiva donosi bitne odluke, koje e se onda pokazati
u sledeim delovima (kolonama) nacrtane sheme.

Primer 1: Postupak za formulisanje projekta
CILJ/CILJEVI HIPOTEZE PLAN
PRIKUPLJANJA
PODATAKA
STATISTIKI
MODEL
Otkriti razliku u
telesnoj masi
novoroenadi ije
majke nikad nisu
puile i onih ije majke
su redovno puile.
Majke nepuai raaju
decu sa veom
proajnom masom.
- Opservaciona studija;
- 120 porodilja koje su
dole da rode na
odreeno odeljenje,
uzorak nije potreban;
- Prikupljanje
podataka: podaci iz
zdravstvenog kartona
+razgovor sa majkom;
- Promenljive:
- telesna masa na
roenju [kg]
- telesna duina na
roenju [m]
- pol deteta [M/]
- puenje majke pre
trudnoe [D/N]
- broj cigareta
popuenih u toku
ivota [komada]
- uzrast majke
[godine]
- telesna masa majke
[kg]
- telesna visina majke
[m]
- dijabetes majke
[D/N]
Uporeivanje proseka
telesne mase
novoroenadi majki
nepuaa i majki
puaa

Pridruujui faktori
(confounding): uzrast,
telesna masa, telesna
visina, broj popuenih
cigareta kod majke, pol
deteta
Dijabetes kod majke
razlog iskljuivanja iz
uzorka


U delu hipoteza treba to je mogue tanije definisati pretpostavke. Kako e se kasnije
pokazati, ovaj deo direktno ima veze sa definicijom takozvane nulte hipoteze i statistikim
procedurama koje e ovu hipotezu potvrditi ili opovrgnuti. Ako se ovom pitanju ne posveti dovoljno
panje ili se ono potpuno izostavi, nije mogue postii oekivane rezultate ili to moe da kota
mnogo truda ili resursa (finansijskih, materijalnih ili ljudskih). U treem delu, prema shemi,
odredie se postupak istraivanja i utvrdie se ogranienja, npr. u ovom sluaju se utvrdilo da se
nee raditi sluajni uzorak porodilja koje su dole na odeljenje. Ovakva odluka jeste opravdana
onda, kada postoji dovoljno snana pretpostavka da porodilje dolaze u porodolite manje-vie

21

sluajno. Ako bi to trebala da bude skupa privatna klinika, onda je pretpostavka sluajnosti
minimalna i moemo opravdano da pretpostavljamo da porodilje iz porodica koje su odabrale tu
kliniku nee biti reprezentativni uzorak svih porodilja u zemlji. Ali kad se donosilac odluka
opredelio da radi sa porodiljama koje koriste usluge obine klinike, onda je verovatno da sve trudne
ene u okolini imaju podjednaku ansu da tamo rode i nije za to potreban dalji sluajni uzorak.
Takoe smo se opredlili da e uzorak initi 120 ena. Odluka je doneta na osnovu ili raunanja
potrebne veliine uzorka ili na osnovu ogranienja, recimo duine trajanja istraivanja. Bitne odluke
koje se odnose na izbor i oblik promenljivih direktno su u vezi sa onim to je uinjeno u proteklim
koracima, a ujedno odreuju celokupan postupak prilikom dobijanja i obrade podataka. Obratite
panju kako su jednosmisleno definisane promenljive. Ovako napisane definicije esto utede
mnogo truda pri kraju studije, kad ve zaboravimo kako smo kodirali neke promenljive, ili u kojim
jedinicama mere su iskazane, a kod velikih studija to moe ponititi veliki napor, uloen pri
prikupljanju podataka.
U poslednjoj koloni se definie statistiki postupak, koje e biti objanjen u sledeim
poglavljima. Na osnovu ovako pripremljenih namera studije moemo da pristupimo realizaciji
prikupljanja podataka.
U shemi preporuenog osnovnog postupka (Slika 1) je navedena i potvrda na pilotnim
podacima. Ovaj korak se esto izostavi naroito u malim studijama na tetu kvaliteta rezultata i
rizika kasnog uoavanja pogrenog usmerenja. ta, u stvari, znai ovaj korak? Kao to smo ve
videli, pre nego to se uradi samo prikupljanje podataka, donosi se niz vanih odluka. One u veini
znaajno utiu na celo istraivanje. Ako je nastala greka u miljenju u ovoj fazi, moe se desiti da
prikupljanje podataka nee biti korektno, a ceo projekat nee uspeti. Zato je zgodno posle
prikupljanja odreenog dela podataka napraviti proveru i, koliko je to mogue, na osnovu njih
proveriti ciljeve projekta. Ako se pokae da postoje bitna ogranienja, neophodno je vratiti se na
poetak i ceo postupak korigovati.
O samom nainu prikupljanja podataka govoriemo u sledeem delu poglavlja. Obrada
podataka pomou statistikih metoda i interpretiranje rezultata predmet je narednih poglavlja.
Pitanja diseminacije dobijenih rezultata, pripremanje publikacije, prezentacije, jesu znaajan deo
istraivakog rada, ali prevazilaze cilj i mogunosti ove publikacije.

Nain prikupljanja podataka

Laboratorijski eksperiment uglavnom ne prua takvu koliinu podataka da bi se pojavili
problemi prilikom njihovog sakupljanja. I u ovom sluaju dobro predloen protokol olakae
njihovu kompjutersku obradu. O uspehu celog tima u obimnim istraivanjima u kojima uestvuje
veliki broj ljudi esto odluuje nain efikasnog prikupljanja podataka. Takva je situacija u obimnim
terapeutskim i profilaktikim istraivanjima, u epidemiologiji, u socijalnoj medicini, odnosno u
svim oblastima javnog zdravlja. Ponovljamo da se pojedinci pacijenti, ispitanici, koji postanu
predmet istraivanja, smatraju statistikim jedinicama i ine odabran uzorak. Svaka statistika
jedinica je nosilac odreenih osobina koje elimo da istraujemo. Ove osobine zovemo
promenljive (obeleja, varijable) ili statistiki znakovi. Promenljiva kod svake statistike jedinice
dobija vrednost. Kod jedne statistike jedinice u jednom trenutku promenljiva dobija jednu
vrednost. U naem gore navedenom primeru statistika jedinica je porodilja; promenljiva je puenje
i telesna masa novoroeneta kod dotine porodilje; vrednosti promenljivih koje beleimo su
puaica A, telesna masa novoroeneta 2900g. Uslov je da vrednosti promenljivih budu praene na
identinoj statistikoj jedinici kod nas na jednoj porodilji.

22

Takoe, treba misliti na ispravno kodiranje podataka. Neki znakovi imaju posebnu ulogu
kod kompjuterske obrade podataka. Moe se uiniti trivijalnim upozorenje na razlike meu isto
prikazanih brojeva i slova, iako se prilikom pisanja pisaom mainom esto zamenjuju. To je sluaj
sa slovom l (el) i brojem 1 (jedan). Slino je i sa O i 0 (nula). Veina tampaa odtampa
precrtanu nulu ili je ova ua nago slovo O. Ako se netano zamene navedeni znakovi, kompjuter
e to prepoznati kao razliite brojeve i neispravan broj u kojem je nula napisana kao O ili jedinica
slovom l. U tom sluaju veina programa javlja greku. Bitna razlika je i korienje take umesto
zareza za oznaavanje decimalnih brojeva. U sluaju da se koristi zarez umesto take, kompjuter
nee prihvatiti broj i javljae greku.
Rasprostranjena upotreba kompjutera, njihova veliina i korienje doveli su do promena
beleenja rezultata studija ili eksperimenata. Nije uvek potrebno zabeleiti informaciju na papir pre
njenog zadavanja u kompjuter. Laptop, PDA (personalni asistent) ili mobilni telefon omoguuju
zapisivanje merenja direktno u elektronski format i njihovo prenoenje u kompjuter ili tamo gde e
se uzorak obraivati. Kompjuter u ruci omoguava zapisivanje podataka direktno prilikom intervjua.
Internet omoguava da se na isti nain prikupljaju podaci uporedo sa vie mesta, kao i njihovo
slanje u udaljenu bazu podataka.
Pod bazom podataka podrazumevamo kompjuterski program koji omoguava prikupljanje
podataka u istoj strukturi tokom dueg perioda. Rezultat ovakvog programa je jedan ili vie
zajedniki povezanih uzoraka, gde su podaci poreani na primer prema vremenu i mestu njihovog
nastajanja. Jednostavne baze podataka su slika upitnika stavljenog u kompjuter. Komplikovanije su
rezultat informacionog sistema u ambulanti lekara opte prakse, u bolnici, u zdravstvenim
ustanovama, u statistikim zavodima, u kancelarijama osiguravajuih kompanija. Deo programa su
instrumenti za pretragu, svrstavanje, selekciju podataka prema zadatim kriterijumima. Programi za
predlog i pravljanje baza podataka su deo svakog Office paketa i mnogih statistikih programa.
Predloene baze podataka omoguavaju veliki broj podataka za nauno istraivanje i
prouavanje. Omoguavaju saradnju timu istraivaa, esto geografski veoma udaljenih. Takoe,
trokovi za voenje kompleksne baze podataka nisu naroito visoki, budui da se podaci generiu
kao deo svakodnevne rutine. Na ovaj nain brzo nastaju veliki uzorci podataka, koji omoguavaju
prouavanje retkih situacija, oboljenja ili intervencija. Pruaju tane podatke za kliniku praksu i za
javno zdravlje. Jedna od loih strana baza podataka kod statistike obrade je sisitematinost
prikupljanja podataka, to u nekim sluajevima iskljuuje primenu sluajnog uzorka.
Meu poznate baze podataka koje pruaju zanimljive statistike podatke pripada i uzorak iz
Framingamske studije o rizinim stilovima ivota. U ovoj studiji se podaci sakupljaju ve nekoliko
desetina godina. Svaka zemlja odrava bazu statistikih podataka o zdravlju, o demografiji i slino.
Mnoge od njih su dostupne besplatno ili putem plaanja internetom. Statistiki podaci o smrtnosti i
nekim karakteristikama zdravlja i zdravstvenoj zatiti za zemlje udruene u Svetsku zdravstvenu
organizaciju za Europu nalaze se u bazi podataka Health For All
16
.
Otkrivanje uzroka nastanka hroninih oboljenja trai dugorono praenje obolelih. Osim
dispanzera, sve vie se koristi registar sa odreenim tipom oboljenja. Registar je vie nego kartoteka,
ili dispanzer. Osoba koja je svrstana u registar je, u sluaju hroninog oboljenja, praena tokom
celog preostalog ivota. Osim beleenja o toku bolesti, prate se i drugi parametri, koji omoguavaju
vrednovanje zdravstvene zatite pacijenta, leenje i prognozu obolelog. Registar predstavlja
organizacionu i tehniku ustanovu, koja ima cilj da omogui izvrenje intenzivne brige o oboleloj
osobi, a ujedno i da obavi kliniko, epidemioloko i operativno istraivanje. Drugim reima, radi se
o bazi podataka o osobama sa odreenim tipom zdravstvenog problema. Registri se primenjuju za
razne bolesti. U Slovakoj ve due vreme postoji Nacionalni onkoloki registar. Radi se o registru

16
http://www.euro.who.int/HFADB

23

incidencije i mortaliteta malignih oboljenja. Uporedo je bio izgraen i nacionalni registar za decu sa
insulin zavisnim dijabetesom (dalje samo IDDM). U registru se sakupljaju informacije o oboleloj
deci, koje prikupljaju deji dijabetolozi. Dete se registruje od prvog dana primanja insulina.
Informacije se sakupljaju u centralnoj bazi podataka. Obrauju se sa ciljem da se utvrdi incidencija i
prevalencija ovog oboljenja u populaciji dece u Slovakoj. Uporedo se podaci dostavljaju Svetskoj
zdravstenoj organizaciji u okviru programa DIAMOND. Sledei registri koji su bili osnovani u
Slovakoj su nacionalni registri pacijenata sa uroenom sranom manom, sa koronarnom boleu,
sa cerebrovaskularnom boleu, hroninim oboljenjem plua, transplantacioni registar, registar
pacijenata sa tubelkulozom, registar pacijenata sa zaraznim bolestima, artroplastini registar i
registar pacijenata sa uroenim poremeajem u razvoju.
Kada je re o aktivnostima koje imaju veze sa dobijanjem informacija od ispitanika, obino
se govori o istraivanju. Moemo ga realizovati na najmanje na est naina, koje emo sada
struno da opiemo. Pretraivanje literature je jako bitna aktivnost, naroito u prvim fazama
projekta, kad istraiva defifnie problematiku cele aktivnosti. Ovo je jako vano i u zavrnoj fazi,
kad poredi dobijene rezultate sa stavovima u svetu. Internet predstavlja znaajnu pomo kod
traenja izvora za literaturu, ali takoe i znaajnu opasnost, budui da u mnogim sluajevima ne
prua informaciju o pouzdanosti izvora. Zato manje iskusni istraivai, a naroito studenti, esto
koriste ovakve neproverene izvore, a samim tim znaajno dovedu u opasnost ispravnost rezultata
inae dobrog rada. Razgovori sa ljudima, strunjacima, kolegama, ili sa drugim zainteresovanim,
izuzetno su bitni na poetku novog projekta, jer mogu pruiti informaciju koja nije bila publikovana,
a koja ujedno moe da se pokae kao odluujua za uspeh projekta. Fokusirane (ciljane) grupe
predstavljaju formalizovan pristup razgovoru, kada se grupa ljudi okupi na jednom mestu i naroito
pripremljen moderator vodi diskusiju na temu projekta. Ova metodologija je preuzeta iz
marketinkih tehnika otkrivanja stavova konzumenata prema novom proizvodu. Njihova
nepovoljnost je mala reprezentativnost grupe. Direktni intervju je jako efikasna metoda saznanja,
mada zahteva znaajno vreme ispitanika ili trokove, u sluaju kada se koriste usluge
specijalizovane agencije. Iz ovih razloga se ovaj pristup koristi prvenstveno u sluajevima kad se
pretpostavlja da osobe nee odgovarati na druge naine prikupljanja podataka. Telefonski intervju
ima prednost u brzini kojom moemo da dobijemo informacije od relativno velike grupe ljudi.
Preporuuje se da jedan intervju ne traje due od 10 minuta. Nepovoljnost je u injenici da je u
nekim dravama nivo telefonizacije relativno nizak, a domainstva koja imaju telefon su preteno iz
srednjeg ili visokog ekonomskog sloja drutva, to sniava reprezentativnost izabranog uzorka. Isto
tako bitno, potrebno je biti svestan da u veem domaistvu ene se ee javljaju na telefon nego
mukarci. Ovaj faktor moemo odstraniti, na primer, time da e ispitiva pre poetka intervjua pita
ko je iz porodice poslednji imao roendan, ili ko e najskorije imati roendan. Time e iskoristiti
faktor sluaja, a odstranie jednu od mogunosti izvora pristrasnosti. Telefonski intervju se radi na
osnovu unapred pripremljenog upitnika, gde ispitiva ita pojedina pitanja i zapisuje odgovore.
Upitnici poslati potom su zgodni zbog visoke efikasnosti u odnosu na trakove, a time
omoguavaju dosezanje velike grupe ljudi. Jedan od znaajnih problema je povratnost, tj. koliko e
se od poslatih upitnika vratiti popunjeno, a takoe i tanost odgovora kod komplikovanijih pitanja
moe da bude sporna. Poslednjih godina se za ovakve svrhe vie koristi internet, odnosno
elektronska pota. Ispitiva mora da bude svestan specifinosti ovog sredstva komunikacije, a
takoe i pristrasnosti koja iz toga proizilazi.




24

Predlog i primena upitnika za prikupljanje podataka

Jedan od veoma estih naina prikupljanja podataka od ljudi je korienje upitnika, iako se
neretko primenjuje neprikladno. Ukazaemo na neka pravila za konstrukciju upitnika, koja vae kod
slobodne forme prikupljanja podataka. Cilj istraivaa je komunikacija sa potencijalnim
ispitanicima, za ta se koristi formular - upitnik. Trudimo se da zagarantujemo potpunu razumljivost
i saradnju ispitanika. Zato je bitno poznavati sutinu procesa komunikacije. Definisanje sadraja
upitnika u medicini poinje proraunom stavki koje su zanimljive sa stanovita dobijanja
informacije. Mogu da sadre karakteristike, anamnestike podatke, simptome, znakove. Predlog
sadraja treba da obezbedi dobijanje to vie informacija o ispitivanom problemu, a da ogranii one
koje nisu bitne prilikom reavanja navedenog pitanja. Kod komplikovanijih upitnika potrebno je pre
poetka istraivanja na uzorku populacije proceniti kvalitet strukture upitnika. Na taj nain se
uglavnom otkriju slabosti predloenog upitnika i omoguava njegovo dopunjavanje, odnosno
uklanjanje nekih informacija. Kreator upitnika e reiti dilemu izmeu obimnog sadraja i bojazni
da se izostave sutinska pitanja, naspram kratkog i informativno nepotpunog upitnika. Ispitanik ne
mora uvek da bude raspoloen da odgovara na veliki broj pitanja istim kvalitetom i potpuno. Zato je
dobro predloen upitnik racionalni kompromis izmeu potpunosti i duine. Svoj zadatak ovde igra
i posledina statistika analiza - to vie podataka ima upitnik, time je komplikovanija njihova
obrada. Dugaak upitnik ima, dakle, i nepovoljnost komplikovanije obrade.
Proces predloga upitnika je mogue razdeliti u tri koraka (Tabela 2).


Tabela 2: Proces odluivanja prilikom predlaganja upitnika
Definisanje cilja upitnika
Izbor pitanja
Odluka o obliku i formulaciji pojedinih pitanja
Ralanjivanje upitnika i postupnost pitanja


Predlog upitnika poinje time da ispitiva razmisli kako da realizuje povezanost izmeu
definisanog cilja istraivanja i instrumenta za njegovo postizanje, tj. upitnika. Zato je potrebno
izdvojiti pojedina istraivaka pitanja i razmisliti kako emo putem njih dobiti injenice koje su
predmet istraivanja. U ovom koraku ispitiva mora da poe od dobrog poznavanja problematike,
naroito iz literarnih izvora. Trebalo bi da se potrudi da nae upitnik koji je ve bio isproban na
slinom problemu ili da kombinacijom ve isprobanih upitnika napravi novi. Povoljnosti ovakvog
pristupa su brojne. U prvom redu je u ovakvom sluaju proizvod ve postoji, ime se vidljivo
poveava pretpostavka uspeha projekta. Upitnici iz nacionalnih ili meunarodnih projekata su
uglavnom provereni, validirani i omoguavaju uporeivanje sa prethodnim studijama.
Ispitiva se esto trudi da prikupi vie informacija nego to je potrebno za postizanje cilja.
Pretpostavlja da e ih koristiti ili odmah ili kasnije. Ovakav pristup se obino oznaava kao
datizam. On je opasan iz tog razloga da zahteva vee optereenje pri dobijanju potrebnih
informacija i donosi potencijalni rizik da se izgubi prvobitan cilj. to manje prostora se posveuje
pripremi studije, to je vea opasnost da prikupljanje podataka bude optereeno prikupljanjem
disproporcionalne koliine podataka. Ako upitnik sadri, na primer, 20 pitanja, ispitanik e posvetiti
svakome od njih veu panju nego u sluaju da upitnik sadri 50 pitanja. esto se deava da se u
upitnik uvedu promenljive ija upotreba nije neophodna. Onda se poveava broj stavki i

25

bespotrebno se poveava koliina podataka za obradu. Desilo se da je lekar traio da se uvede
praenje podataka o ehokardiografiji, iako se ovo ispitivanje u datoj grupi ljudi radi samo izuzetno.
Posle pola godine praenja udio se to je samo manje od 1% pacijenata imalo ovo ispitivanje i da
ga nije mogue vrednovati. Posle odstranjivanja stavki koje su se odnosile na ovo ispitivanje,
upitnik se znaajno skratio. Pojednostavilo se i ubrzalo njegovo unoenje u kompjuter bez gubljenja
sutinskih problema. Zato se prilikom veih studija, u kojima uestvuje institucija ili istraiva,
poinje sa preliminarnim prikupljanjem na relativno malom, pilotnom uzorku. Ovako je mogue
odstraniti mnoge greke, a studiju dovesti do eliminisanja nedostataka dobijenih u preliminarnoj
analizi.
Kod predloga oblika i formulacije pitanja neophodno je dobro poznavati vie razliitih
naela. Neka od njih su jednostavnost i preglednost. Korisno je izbegavati nepotrebne naslove i
brojano oznaavanje pitanja. To ne znai da treba izostaviti naslov. Bitno je takoe obratiti se
ispitaniku sa objanjenjem svrhe istraivanja i zahvaliti se za vreme i trud prilikom odgovaranja.
Posebno je vano navesti adresu ispitivaa, naroito kada odgovore dobijamo bez asistencije ili
potom. U sluaju da aljemo upitnike potom, dobro je priloiti i koverat sa ispisanom adresom i
potanskom markicom. Duina upitnika esto utie na broj odgovora, a u praksi se pokazalo da, im
je ovaj krai, to su ljudi pre skloniji odgovaranju. Isto tako bitno je da je upitnik to bolje itljiv, pa
treba koristiti najjednostavniji tip pisanja, npr. Times. Kurziv rezerviite za instrucije kako popuniti
upitnik. Uzmite u obzir i starije ljude, koji moda imaju problem prilikom itanja sitnih slova.
Ne postoji opte uputstvo kakav redosled pitanja treba da bude. Neki autori savetuju
postepenost od jednostavnih ka komplikovanijih, drugi stavljaju akcenat da izazovu interesovanje
odmah u prvim pitanjima. Neki savetuju da se pone sa identifikacijom ispitanika, dok drugi ovaj
deo svrstavaju na kraj. Prilikom koncipiranja upitnika savetuje se da se najpre postave pitanja
opteg karaktera, a posle njih specifina. Grananje upitnika bitno tedi trud prilikom odgovaranja,
ali kod komplikovanog grananja moe da dovede do nepreglednosti i snienja kvaliteta odgovora. I
u ovom sluaju se vidi da je bitno poznavati uoptene karakteristike uzorka na kome se radi
istraivanje i pilotnim sakupljanjem uveriti se da je upitnik funkcionalan prema pretpostavkama,
odnosno korigovati ga.
Sledea bitna odluka jeste o vrsti pitanja. Na pitanja utie vrsta prikupljanih podataka
(kvantitativni ili kvalitativni), a takoe i odnos meu ispitivaem i ispitanikom. Odnos se kree od
relativno neformalnog, linog, pa do skroz bezlinih, nepristrasnih upitnika, koje ispunjava ispitanik
samosalno.
U formularima se razlikuju dve osnovne grupe pitanja: otvorena i zatvorena. Otvorena
pitanja (Primer 2) ne nude nikakvav specifian odgovor. Ispitanik odgovara slobodno, svojim
reima, a ceo njegov odgovor se belei. Uinak ove vrste pitanja znaajno poveava jasna
formulacija pitanja. Precizno postavljeno pitanje redukuje obim odgovora. iroko formulisano
pitanje, na drugoj strani, moe istraivau da donese nove impulse.


Primer 2: Otvorena pitanja
Koje lekove ste uzimali u poslednjih pola godine: ..................................................
Pri otklanjaju kojih tekoa su vam pomogli ovi lekovi: ........................................
Na koji nain ste doli do lekova koji se dobijaju samo preko lekarskog
recepta? ............................................................


Prilikom obrade odgovora se ne moe izbei znaajan trud koji treba uloiti u njihovu

26

transformaciju za dalju obradu. Ovaj proces iziskuje da ispitiva pogleda svaki odgovor i od njih
napravi grupe sa istim ili slinim odgovorima (Primer 3). Prilikom transformacije ispitiva je
koristio kodiranje navedeno u tekstu primera. U prva tri sluaja kodiranje je prilino jednostavno,
ali u ostalim sluajevima nije bilo tako jasno, budui da uitelj u osnovnoj koli moe da ima ne
samo srednjokolsko, ve i i visokokolsko obrazovanje. U ovakvom sluaju na istraivau je da se
odlui o izbacivanju te stavke ili da pokua da sazna taan odgovor. Otvorena pitanja su zato ee
izvor netanosti ili dovode do nedostajuih podataka.

Primer 3: Transformacija slobodnih pitanja na stavke koje se obrauju statistikim
postupkom: 1 osnovno obrazovanje, 2 srednjokolsko, 3 - visokokolsko
Ogovor na slobodno pitanje:
Koje najvie obrazovanje ste postigli?
Transformacija
univerzitetsko
zavio sam za stolara
ja sam ininjer statike
uitelj sam u osnovnoj koli
3
1
3
2


Klasifikciju i interpretaciju podataka optereuje greka koju unosi administrator upitnika.
Kako se ponavljajui pokazalo, razni strunjaci mogu da interpretiraju to isto otvoreno pitanje
razliito. Ogranienja ovoga tipa pitanja se pojavljuju prilikom kontrolisanja dobijanja medicinskih
injenica, naroito u situacijama gde je potrebno kombinovati ili uporediti odgovore ispitanika.
Znaajnu ulogu ova ogranienja imaju kod predloga studije, gde u poetnim fazama pomau da
istraiva upozna situaciju sa vie strana. Na osnovu ovakvog poznavanja moemo da pripremimo
ciljana zatvorena pitanja, bez bojazni od gubljenja informacija.
Zatvorena pitanja mogu da se razlikuju po obliku. Ispitanik u svim sluajevima mora da bira
lini odgovor od nekoliko ponuenih odgovora (Primer 4). Pitanja ovog tipa su esto dihotomna,
dakle sa odgovorima DA ili NE, ili neki drugi par, na primer VISOK/NIZAK. Ponekad se dodaje
trea mogunost, kao to su NE ZNAM ili NIJEDNA.

Primer 4: Primeri zatvorenih pitanja
Da li uzimate lekove svaki dan?
(Ako ste odgovorili NE, izostavite sledeih 6 pitanja)
Da li lekove protiv glavobolje uzimate svaki dan?
Da li lekove za spavanje uzimate svaki dan?
Da li svaki dan uzimate lekove za smirenje?
[DA]

[DA]
[DA]
[DA]
[NE]

[NE]
[NE]
[NE]


Za obradu podataka davanje tree mogunosti nije uvek prednost. Korienje tree
mogunosti je delimino obrazloenje u pojedinim upitnicima gde mora da postoji sigurnost da je
ispitanik odgovorio na svako pitanje. Kad nedostaje odgovor na dihotomno pitanje, nismo sigurni
da li se ova stavka previdela. Uvrtavanjem tree mogunosti dobijamo tu sigurnost.
Na osnovu nekog odgovora na dihotomno pitanje mogue je razgranati upitnik. Primer

27

dihotomnog pitanja sa razgranavanjem pokazuje kako moemo da koristimo razgranavanje radi
jednostavnijeg rada sa upitnikom. To dovodi do tednje snage ispitanika kod ispunjavanja i do
jednostavnije obrade. Meutim, nepovoljna injenica je da se u sluaju greke u odgovoru dobije
potpuno suprotna informacija.
Neke nepovoljnosti prethodnog tipa formulacije pitanja otklanjaju se pitanjima sa irokim
spektrom odgovora. Obino se oznaavaju kao pitanja viestrukog izbora. Jednostavan primer je
pitanje sa spiskom odgovora u kome ispitanik oznai svoj izbor (Primer 5).

Primer 5: Primer pitanja sa viestrukim odgovorima
Oznaite krstiem u kvadratiu odgovarajui odgovor, odnosno odgovore.
Da li uzimate svakodnevno lekove
protiv bolova u glavi
protiv visokog krvnog pritiska
za spavanje
za smirenje

[ ]
[ ]
[ ]
[ ]


Ova vrsta pitanja ujedno ukazuje ispitaniku na sve mogue odgovore, kao i na one kojo bi
mogli da mu promaknu. To je naroito prednost primene ovg tipa pitanja u medicini, gde se
pojavljuju neuobiajeni termini. Ispitaniku moe da se neki odgovor uini adekvatnim, iako to ne
odgovara stvarnosti. I previanje neke od mogunosti ubraja se meu nepovoljnosti ovoga tipa
pitanja.
Drugi oblik pitanja sa viestrukim izborom je skala kvantifikacije. U njoj ispitiva definie
odgovarajuu gradaciju odgovora, koja bi trebalo da predstavlja pravilnu lestvicu na kumulativnoj
skali (Primer 6).

Primer 6: Gradacija odgovora skalom
Da li imate bolove u glavi (oznaite samo jedan odgovor)
izuzetno ili nikad
ponekad
esto
skoro stalno

[ ]
[ ]
[ ]
[ ]

Drugi nain izraavanja skale nudi takozvani Likertov dijagram (Likertova skala), (Primer
7). U upitniku se mogu kombinovati tipovi pitanja.









28




Primer 7: Vrednovanje skalom i ujedno primer predloga upitnika

Tabela za procenu vodia
a. Obim i svrha
OBIM i SVRHA
1. Opti ciljevi strunih preporuka su jasno navedeni U potpunosti U potpunosti
se slaem 4 3 2 1 se ne slaem
Komentar:
2. Klinika pitanja obuhvaena preporukama U potpunosti U potpunosti
su jasno objanjena. se slaem 4 3 2 1 se ne slaem
Komentar:

Izbor pitanja se mora podrediti cilju utede vremena i interesovanju ispitanika. Ovome
mora da odgovara i tekst pitanja. Ispitiva mora da bira izmeu dva krajnosti: zdravstveni radnici
koji e obraivati odgovore hteli bi da imaju to tanije formulacije sa korienjem svakodnevne
strune terminologije. Ispitanicima, meutim, treba formulisati pitanja pomou jednostavnog
laikog jezika. Ujedno se ovde krije i opasnost da nee doi do iste interpretacije termina u
navedenim grupama. Meutim, mnogi pacijenti koji boluju od odreene bolesti poznaju sadraj
termina koji se tiu njihovog stanja. Reenje navedene dileme jeste relativno jednostavno: koristiti
alternativne izraze. Na primer: Da li ste nekada imali uticu (poutele oi ili poutelost koe)?".
Prilikom predloga upitnika bolje je pretpostaviti manje poznavanje ispitanika iz date oblasti.
Sofisticirana terminologija nije jedina barijera u komunikaciji. Korienje neprecizno definisanih ili
vieznanih izraza (esto, ponekad, malo, puno) poveava netanost odgovora.

Pozitivne i negativne strane primene upitnika

Uopteno moemo konstatovati da upitnik ima puno prednosti, ali istraiva mora da bude
svestan i ogranienja i prepreka. U sledeem pregledu (Tabela 3) pokazaemo one najbitnije.






29



Tabela 3: Uporeivanje povoljnosti i nepovoljnosti upitnika

Povoljnost Nepovoljnost
Manja optereenost u poreenju sa
intervjuom;
Prigodni za vee studije;
Lako moemo da ih analiziramo;
Mnogi softverski paketi nude
podrku zadavanja i tabulacije podataka;
Sniavaju pristrasnost time to svako
dobija isto pitanje;
Veina ljudi ima prethodno iskustvo
sa popunjavanjem upitnika;
Istraiva nema mogunost da utie
na odgovor, bilo verbalnim bilo neverbalnim
nainom;
Ispitanik ne mora da menja svoju
satnicu, moe da popuni upitnik onda kada
njemu odgovara.
Povratnost (niska), koja moe
drastino da utie na kvalitet rezultata;
Niska fleksibilnost upitnika, a time
gubljenje informacija o linim stavovima
ispitanika; otvorena pitanja smanjuju ovu
nepovoljnost nautrb vie diskusije;
Osoba koja je dobila da popuni
upitnik ne mora da bude ista ona osoba koja
ga popunjava (roditelj u ime deteta, ena u
ime svog supruga);
Nedovoljno obrazovanje znaajno
sniava kvalitet odgovora.



Sledea tabela e nam pokazati uporeivanje tipova pitanja (Tabela 4).

Tabela 4: Uporeivanje povoljnosti otvorenog i zatvorenog tipa pitanja
Otvorena pitanja
Omoguavaju upoznavanje irokog sadraja moguih tema, koje proizilaze iz date
problematike.
Mogue je koristiti ih i tada, kada nije mogue sastaviti iscrpan spisak
alternativnih odgovora.

Zatvorena pitanja
Odgovara se na njih brzo i lako;
Smanjuju nepovoljnost onima koji nisu navikli da itaju i piu (kad ispitanik sam
odgovara) ili onima koji nisu navikli da priaju (kod intervjua);
Lako se kodiraju, belee i statistiki obauju;
Lako se interpretiraju rezultati.


Ako se upitnik obraivati kompjuterom (ta je danas gotovo uvek tako), potrebno je
upamtiti pravilo za pojednostavljenje procesa zadavanjem, na primer time da se pre odgovaranja
pripreme numerisani kvadratii. Ako moemo da pretpostavimo da e se koristiti ita formulara
oblikovanje upitnika je jedna od najbitnijih pretpostavki prikupljanja podataka bez greaka.

30

Odluuje ne samo oblikovanje, nego i kvalitet papira i pisanja. I u ovome je znaajno pre
umnoavanja formulara posavetovati se sa strunjakom. Posle unoenja podataka na disk slede
procedure prethodne oobrade podataka. Ovde svrstavamo kontrolu zadavanja, odstranjivanje
pogrenih podataka, transformaciju podataka, oznaavanje nedostajuih podataka.

Kvalitet podataka

Jedna od esto diskutovanih tema u medicinskoj statistici je kvalitet podataka. Na osnovu
nekvalitetnih podataka ni najkomplikovanije postupke nee moi da objasni prihvatljiv zakljuak.
Jedna od bitnih pretpostavki kvalitetnih podataka je njihova homogenost. To znai da uslovi pod
kojima su dobijeni moraju da budu jednaki za sve sluajeve. Dobro predloene studije definiu
okolnosti pod kojima je dozvoljeno da se rade merenja. Primer moe da bude standardizacija
beleenja i kodiranja EKG kod epidemioloke obrade kardiovaskularnih oboljenja, kako to definie
Minesotski kod. On definie sredinu u kojoj moemo da beleimo EKG, u kakvom stanju mora da
bude ispitanik koliko dugo pre merenja ne sme da pui, jede, raditi naporan posao, koliko dugo
pre merenja mora da se odmara, itd. Slina striktna pravila se predlau i kod merenja krvnog
pritiska. To sve treba da obezbedi odstranjivanje interferencije onih faktora koji bi mogli da iskrive
rezultate studije.
Ni u najbolje predloenoj studiji se ne mogu izbei nedostajajui podaci u nekim merenjima.
esto ne moemo da dobijemo neke od podataka. Moe da se desi da e se razbiti epruveta sa
krvlju ili sa mokraom ili da pojedinac odbije da odgovori na neko pitanje. U ovakvim sluajevima
nije uvek neophodno iskljuiti ostale podatke tog pojedinca iz vrednovanja. Podatke koji nedostaju
obrauju se prema odreenim pravilima koji minimalizuju greku. Naravno, to je mogue do onog
momenta kada podaci nedostaju kod svih ili kod veine posmatranih jedinica. Podatak koji
nedostaje ne moemo da zamenimo sa nulom, zato to i nulta vrednost utie na rezultat statistike
analize. Ne moemo ga izostaviti, jer mnogi programi automatski stave u prazno mesto nulu.
Podatak koji nedostaje moramo da oznaimo nekim dogovorenim simbolom. esto se koristi
* (zvezdica), ili samo . (taka), odnosno drugi dogovoreni simbol. Dobar statistiki program ne
uzima u obzir prilikom prorauna ovaj podatak, i upozori da je u podacima odreeni broj
nedostajuih podataka.
Ako su svi podaci svrstani u formular, onda je potrebno saznati da se nije pojavila greka
prilikom zadavanja. Kod brojanih podataka se esto pojavi greka koja izmeni vrednost, da se na
neki nain izmakne iz rutinskog sadraja podataka. Ilustrovaemo to na jednostavnom primeru, u
kojem je istraiva utvrivao pol, starost, visinu i masu kod grupe ljudi, a rezultate je zapisao u
tabelu (Primer 8) programa OpenOffice Calc
17
i hteo je da proveri da li nije napravio greku.
Prirodno je da kod tako malog uzorka nije problem uraditi kontrolu kvaliteta i bez pomoi programa,
ali u ovom sluaju elimo da ilustrujemo postupak koji je potreban u sluaju veeg broja podataka.
Inicijale osoba ukljuenih u uzorak nije mogue prekontrolisati na moguu greku. Pol je ispitiva
odluio da kodira sa slovom M za mukarca, a slovom Z za enu. Jednostavnim saznanjem koliko
slova M i Z imamo u uzorku uveriemo se o tanost, odnosno pogrenost kodiranja pola (Primer 9).
Koristiemo pritom komandu COUNTIF(obim;uslov). Budui da znamo da imamo zajedno 8
merenja, rezultat 7 ukazuje na injenicu da jedno merenje nije tano kodirano. I stvarno, u merenju
sa inicijalima R.M. kao pol je navedeno slovo Y umesto M ili Z. Kako se dakle opredeliti, da li je

17
Koristimo tzv. open source program, koji je mogue skinuti sa interneta besplatno. tavie, veina prikaza je ista ili
slina sa prikazom Microsoft Office Excel.

31

re o mukarci ili o eni? Pomou inicijala (ili drugom identifikacijom ako je imamo) nekada
imamo mogunost da se vratimo nazad na datu osobu i ispravimo greku. Ako takvu mogunost
nemamo, onda radimo sa podatkom kao nedostajuom vrednosti ili izbacimo ceo subjekat iz obrade
ili shvatimo da se ova greka esto deava kod korienja domae tastature, kad taster oznaen sa Z
u stvarnosti zapisuje Y i obrnuto. Kad ispitiva odlui da sabere odreen rizik greke prilikom
poslednjeg pregleda, moe greku da popravi.


Primer 8: Podaci o polu, utrastu, visini i masi sakupljeni i zapisani od strane ispitivaa
Inicijali Pol
[M/Z]
Uzrast
[godine]
Visina
[m]
Telesna
masa
[kg]
J.M. M 54 1,56 89
F.R. Z 34 1,89 98
H.K. Z 30 1,67 6O
E.H. M 45 1.78 88
F.W. M 48 1,76 72
R.M. Y 3 1,82 105
Z.. Z 99 1,66 73
L.B. M 36 1,73 82


U koloni koja sadri podatke o uzrastu, navedena je minimalna starost 3 godine,
signalizirana komandom MIN (obim). Budui da istraiva nije radio sa decom, odmah mu je bilo
jasno da u spisku ima greku. Kod njenog ispravljanja ima sline mogunosti kao u prethodno
navedenom primeru. U dve poslednje kolone vidimo broj merenja 7, to signalizira greku. U
merenju E.H. u promenljivoj kod visine je za decimale koriena taka umesto zareza, to je
program vrednovao kao tekst, a ne kao broj. U merenju H.K., pak, bilo je korieno slovo O umesto
broja 0, sa istim tim efektom. CALC program nudi takoe komandu DATAPILOT, koja mnoge od
navedenih operacija uradi jednostavnije, ali njegovo korienje zahteva bolje poznavanje postupaka
u programu.
Kontrolu zadavanja podataka, a time i izbegavanje mnogih greaka, moemo da uradimo i
direktno u programu, tako da u pojedinim poljima koristimo komandu podataka VALIDATE.
Pomou postavljanja uslova moemo lako da kontroliemo zadate vrednosti i izbegnemo greke.











32



Primer 9: Zabeleka o rezultatima merenja u programu OpenOffice Calc zajedno sa
izraunavanjem





U R-u emo dobiti isti rezultat koristei komandu summary(), (Primer 10).

Primer 10: Zadavanje, kontrola podataka i uklanjanje greaka u programu R
> uzrast <-c(54,34,30,45,48,3,99,36) #zadavanje podataka, svi su celi brojevi, odvojeni zarezom
> uzrast # ispis sadraja promenljive
[1] 54 34 30 45 48 3 99 36
> visina <-c(1.56,1.89,1.67,1,78,1.76,1.82,1.66,1.73) # zadali smo vrednosti u promenljivu visina,
ali smo pogreili kod jedne vrednosti, gde smo umesto da decimalni broj napiemo sa takom
koristili zarez, to je program interpretirao kao posebnu vrednost, pogledaj zabeleku
> visina
[1] 1.56 1.89 1.67 1.00 78.00 1.76 1.82 1.66 1.73
> visina <-c(1.56,1.89,1.67,1.78,1.76,1.82,1.66,1.73)# ispravljena vrednost
> visina
[1] 1.56 1.89 1.67 1.78 1.76 1.82 1.66 1.73
> masa <- c(89,98,6O,88,72,105,73,82)# umesto znaka 0 bilo je zadano O. Program to odmah
javlja kao neoekivan simbol)
Error: unexpected symbol in "masa <- c(89,98,6O"
> masa <- c(89,98,60,88,72,105,73,82)# posle ispravke to je u redu
> masa
[1] 89 98 60 88 72 105 73 82
# prekontroliemo minimalne i maksimalne vrednosti i broj promenljivih
> summary(uzrast)
Min. 1st Qu. Median Mean 3rd Qu. Max.
Pol Uzrasr Visina Telesna masa
[M/Z] [roky] [m] [kg]
J.M. M 54 1.56 89
F.R. Z 34 1.89 98
H.K. Z 30 1.67 60
E.H. M 45 1,78 88
F.W. M 48 1.76 72
R.M. Y 3 1.82 105
Z.. Z 99 1.66 73
L.B. M 36 1.73 82
Broj jedinica 7 8 7 8 "=COUNTIF(B3:B10;"M")+COUNTIF(B3:B10;"Z")
Minimum 3 1.56 60 =MIN(C3:C10)
Maksimum 99 1.89 105 =MAX(E3:E10)
Inicijali

33

3.00 33.00 40.50 43.62 49.50 99.00
> summary(visina)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.560 1.667 1.745 1.734 1.790 1.890
> summary(masa)
Min. 1st Qu. Median Mean 3rd Qu. Max.
60.00 72.75 85.00 83.38 91.25 105.00
> length(uzrast)
[1] 8
> length(visina)
[1] 8
> length(masa)
[1] 8


Kodiranje zadatih podatka

Mnoge odgovore je potrebno pre kodirati unoenja u raunar. Ovaj postupak je neophodno
sprovesti sa velikom preciznou. Ispitanici odgovaraju na pitanja slobodnije, a onda se njihov
odgovor transformie u brojani kod prema unapred pripremljenom kljuu. Kodiranje bi trebalo da
rade radnici naroito uvebani za ovu namenu. Mnogi upitnici imaju oznaeno mesto za kod, tako
da ispitanik zna da tamo ne treba da pie. Primer kodiranja je oznaavanje naseljenog mesta
potanskim brojem. Ne moemo da oekujemo da e svi ispitanici tano odgovoriti potanskim
brojem svog naseljenog mesta, pa se zato naseljena mesta kodiraju pri obradi popunjenih upitnika.
Drugi primer je korienje meunarodne klasifikacije bolesti MKB (ICD). Bitno je da kodiranje
vri struno lice, koje zna da proceni i vea odstupanja od svakodnevno koriene terminologije.
Ovakvih sistema je vie, a odluiti se za jedan od njih iziskuje poznavanje sutine procesa i cilja
koji elimo da postignemo. Dok se prikupljaju podaci za pet bolesti, dovoljno je da se kodiraju
brojevima od jedan do pet. Ako se uzimaju u obzir sve bolesti disajnog sistema, onda je pogodno da
se iskoristi MKB. Ako ova ne odgovara kao prilino gruba i netana, onda se nudi klasifikacija
SNOMED ili drugi kodirajui sistem. Vrednosti se mogu kodirati na razliite naine. Na primer, u
CALC-u je mogue koristiti komandu IF (kriterijum; tano; netano). Ova komanda najpre
vrednuje kriterijum, a onda stavi u eliju broj ili tekst ili drugu vrednost prema tanosti, odnosno
netanosti rezultata testiranja kriterijuma. Za kodiranje je mogue koristiti i komandu FIND and
REPLACE iz menija EDIT. Veina statistikih programa nudi vie mogunosti kodiranja ili
transformacije promenljivih.


Osnove bezbednosti i uvanja podataka

Ne misli se na bezbednost podataka u smislu straha zbog njihove zloupotrebe. Neemo ovde
ni razmatrati etika pitanja i uvanje linih podataka. Misli se na jednostavne principe koji
spreavaju gubitak podataka. Najgore to moe da se desi kad utroite nekoliko dana i noi na

34

prikupljanje podataka i kad ih prebacite u kompjuter i, odjednom, kad ste na kraju, kompjuter se
pokvari ili podatke izbriete grekom. Zato elimo da naglasimo potrebu pravljenja kopija. Kad su
autori ove publikacije radili studiju za SZO, onda su u ugovoru imali obavezu da od svih zadatih
podataka naprave tri kopije, jednu da imaju u kompjuteru i to ne onom koji se koristi za rutinski rad,
drugi da imaju u mediju za uvanje podataka, koji se nalazi mimo kompjutera, a treu kopiju na
mediju van zgrade radnog mesta (za sluaj poara ili elementarne nepogode). Iako studentski rad
obino ne prelazi nekoliko hiljada redova, dobro je naviknuti se na pravljenje bekapa (back-up).
Dokazana je korist bekapovanja na eksternom disku, a takoe i redovno kopiranje celih
direktorijuma. Bekapovati moemo takoe i na internetu. Postoji vie komercijalnih i
nekomercijalnih davalaca prostora za bekapovanje podataka
18
. Za bekapovanje je mogue koristiti i
CD ROM, DVD, USB disk. To je samo pitanje sistematinog pristupa radu i utede puno vremena i
nepotrebnog stresa.

Zakljuak

U ovom poglavlju smo naveli principe sistematinog pristupa obradi podataka. Ne bismo
eleli da stvorimo utisak da je upitnik jedini i najbolji instrument za dobijanje podataka. Onda smo
predstavili primer instrumenata za kontrolu kvaliteta podataka, a na kraju smo panju posvetili
bezbednosti podataka. Principi na koje smo skrenuli panju koristie se u bilo kojoj obradi podataka.
U sledeem poglavlju panju emo posvetiti prvobitnom predstavljanju prikupljenih podataka.
















18
Ponuda stalno raste. Na primer, idrive http://www.idrive.com/ prua 2 GB besplatno, a za vie potrebno je platiti u
sutini simbolinu cenu.

35



Vebe

1. Pripremite upitnik o zadovljstvu studenata nastavom predmeta statistika i iskombinujte
otvorena i zatvorena pitanja.

2. Pripremite fiktivne odgovore dobijene od 15 ispitanika i prikaite ih u obliku tabele, saznajte
proraune i minimalne i maksimalne vrednosti.






































36




TREE POGLAVLJE
Pretstavljanje i prvobitna obrada
podataka

Sadraj poglavlja
Cilj poglavlja ................................................................................................................................. 36

Kakve podatke sam u stvari dobio? ............................................................................................... 37

Nedostajui podaci ........................................................................................................................ 37

Tabela ili grafikon? ........................................................................................................................ 39

Grafiko prikazivanje ................................................................................................................... 41

Saetak .......................................................................................................................................... 47

Vebe ............................................................................................................................................. 48













37


Cilj poglavlja

Posle uspeno zavrenog prikupljanja podataka, istraiva moe da pone da se bavi
pitanjem ta je u stvari uspeo da sazna. U ovom koraku se panja usmerava na obradu podataka,
pitanja koja se tiu osnovnih karakteristika uzorka, nain predstavljana podataka, zakljuivanje o
ulozi pojedinih promenljivih i slino. Isto kao i u prethodnim poglavljima, primeri su u statistikom
programu R.

Tabela 1: Ciljevi poglavlja
Informisati se o prvim koracima posle prikupljanja podataka
Predstaviti pravila prikazivanja podataka u formi tabela i grafikona
Navesti najee greke kod predstavljanja podataka

Kakve podatke sam, u stvari, dobio?

Ovo je prvo pitanje koje istraiva sebi postavi kad zavri prikupljanje podataka. ta treba
da uradi kako bi se orijentisao u tom pravcu? Podeliemo taj proces na nekoliko koraka, od kojih e
nam svaki od njih pribliiti razliite karakteristike naih podataka. I istraiva po pravilu napreduje
na isti nain, a esto mora i da se vrati na poetak.
U prvom koraku istraiva bi trebalo da proveri ta je u stvari prikupio. Ponimo sa tim
najjednostavnijim, koliko podataka je prikupljeno i koliki deo tih podatak je upotrebljiv. Ponimo
pitanjem: koliko podataka imam. U programu EXCEL postoji koamnda COUNT(od:do
19
), koja daje
broj elemenata u odgovarajuoj koloni, redu ili drugaije definisanom izboru (vie kolona ili
redova). To je isto mogue i u programu R, a postupak je ilustrovan Primerom 1.

Primer 1: Zadavanje podataka
Zadavanje: Istraiva je ispitivao vezu holesterola u krvi sa sistolnim i dijastolnim
krvnim pritiskom kod 11 mukaraca i ena. Izmerene vrednosti je poslagao u tabelu.
Hteo je da sazna koliko ima u svakoj grupi merenja.
Postupak: u prvom koraku napravio je matricu (tabelu) izmerenih vrednosti, tako da je
najpre stavio izmerene vrednosti u pojedine promenljive, a onda je od njih napravio
matricu pr1.3.
uzrast <- c(23,45,36,29,56,54,33,27,23,47,45)
hol <- c(6.8,4.5,6.4,4.7,5.1,6.2,19,6.2,16.9,4.9,7.3)
skp <-c(135,145,157,145,135,155,146,176,135,129,144)

19
Od jeste poetna adresa, do jeste konana adresa elije spiska

38

dkp <-c(75,80,80,75,90,90,75,80,80,75,90)
mas <- c(66,88,72,67,82,102,65,88,55,70,63)
Komanda c(), iz osnovne datoteke R, napravie vektor vrednosti, a pridruivanjem
pomou <- ili = napravie je prema nazivu promenljive. Komanda cbind() spojie
pojedine vektore u matricu po kolonama, a ako elimo da spaja po redovima
koristiemo analognu komandu rbind().
pr1.3 = cbind(uzrast, hol, skp, dkp, mas)

Slika 1: Relultat korienja komande summary() za osnovno opisivanje prikupljenih
podataka
Komanda summary() dae pregled osnovnih karakteristika pojedinih promenljivih. To su najmanja
vrednost (Min.), prvi kvartil (1
st
Qu.), medijana (Median), aritmetika sredina (Mean), trei kvartil
(3
rd
Qu.), najvea vrednost (Max.).
> summary(pr1.3)
uzrast hol skp dkp mas
Min. :23 Min. : 4.50 Min. :129.0 Min. :75.00 Min. : 55.00
1st Qu.:28 1st Qu.: 5.00 1st Qu.:135.0 1st Qu.:75.00 1st Qu.: 65.50
Median :36 Median : 6.20 Median :145.0 Median :80.00 Median :70.00
Mean :38 Mean : 8.00 Mean :145.6 Mean :80.91 Mean : 74.36
3rd Qu.:46 3rd Qu.: 7.05 3rd Qu.:150.5 3rd Qu.:85.00 3rd Qu.: 85.00
Max. :56 Max. :19.00 Max. :176.0 Max. :90.00 Max. :102.00

ta je istraiva saznao? Saznao je da najmlai ispitanik ima 23 godine, a najstariji 56
godina. Minimalne i maksimalne vednosti e mu nagovestiti da li je negde pogreio, odnosno da li
u uzorku ima nekoga starijeg od 100 godina ili mlaeg od 20 godina (s obzirom da je radio sa
odraslim ljudima).

Nedostajui podaci

Moe da se desi, a deava se esto, da i pored najvee volje ili nedostaju podaci ili su neki
podaci pogreni. Kako to moe da se desi? Situacije kad se razbije epruveta sa krvlju ili mokraom,
pojedinac istupi iz istraivanja i ne moemo ga pronai, pacijent odbije da ide na neko istraivanje,
esto su realnost u istraivanju. U svim navedenim sluajevima nije mogla da se dobije vrednost
jedne ili nekoliko promenljivih, iako je veina vrednosti bila ustanovljena.Takoe moe da se desi
da se zbog greke u zadavanju unela vrednost koja je jasno izvan obima, na primer uzrast umesto 49
godina zadat je kao 149, ili je krvni pritisak umesto 118 mmHg bio zadat kao 1118 mmHg. U
ovakvim sluajevima moemo da logino izvedemo tanu vrednost, ali ta u sluajevima kad to nije
mogue? Tada oznaimo nedostajui podatak, ili na engleskom missing value. Ovakvo merenje u

39

R oznaimo pridruivanjem specijalne vrednosti NA
20
.

Primer 2: Istraiva prilikom merenja krvnog pritiska nije saznao jednu vrednost u etvrtom
merenju i naveo ju je kao nedostajuu
U programu R zadaemo nedostajuu vrednost slovima NA.
> skp <-c(135,145,157,NA,135,155,146,176,135,129,144)
Ispis vrednosti promenljive skp bie
< skp
[1] 135 145 157 NA 135 155 146 176 135 129 144

Komanda sumary() onda daje sledeu tabelu, koja karakterie zadate podatke
> summary(stk)
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
129.0 135.0 144.5 145.7 152.8 176.0 1.0

Tabela ili grafikon?
Najjednostavnje je prikupljene podatke svrstati u tabelu. Da li je to i najbolji nain
prikazivanja? Ponimo time to emo da objasnimo emu takva tabela slui i kako se pravi.
Intuitivno svi ih koristimo prilikom prikupljanja podataka, kad svakom pojedincu prikljuimo
dobijene, odnosno izmerene vrednosti. Ili se to radi u obrascu u formi protokola, ili se koristi
spreadsheet, npr. EXCELL ili drugi program. U svakom sluaju, cilj ove tabele je da zabeleimo
vrednosti tokom istraivanja. Primer ovakve tabele, konstruisane u EXCELL, je Primer 3.
Programsko okruenje R nam nudi vie instrumenata za izradu tabela, ali to je komplikovanije nego
pri korienju tekstualnog editora ili spreadsheet-a.
Nezavisno od namene, tabele je potrebno je oznaiti nazivom. Prilikom beleenja rezultata
eksperimenta ili merenja takoe je potrebno oznaiti tabelu pogodnim nazivom, koji moe da se
pokae kao koristan, naroito kasnije kada bude potrebno da se vratimo protokolu i podsetimo se ta
ta tabela u stvari prikazuje. Tamo gde se radi sa veim brojem promenljivih, esto je potrebno
koristiti i podnaslove. Budui da ovaj tip tabele slui ujedno i kao protokol, dobro je da se uvede i
datum beleenja i ime osobe koja je unela podatke. Kolone moraju da imaju naziv promenljive i
jedinice mere. Kod svakog merenja trebalo bi da postoji prostor za komentar. Broj merenja odredie
i broj redova.
Kako se opredeliti kad hoemo da podatke koje smo prikupili prezentujemo kolegama ili
strunoj javnosti? U prvom redu moramo da shvatimo da su tabela i grafikon razliiti naini
predstavljanja iste informacije. Tabela moe da obuvata vie detalja, same podatke podeljene u
grupe. Grafikon daje iri pogled na situaciju, a time omoguava i uoavanje trendova i povezanosti.
Dakle, kad god je mogue, za predstavljanje detalja prikupljenih podataka bolje je da koristimo
tabelu, iako grafikon prua jo i mogunost povezivanja pojedinih taaka na vrednosnim krivama.
Tabela je preglednija, ali je esto tee saznati uzajamne veze izmeu promenljivih ili ustanoviti

20
NA znai not available

40

trendove. Dobra tabela treba da bude pregledna, sa jednostavnim i jasno razumljivim sadrajem
svakog polja. Nije potrebno iscrtavati sve linije, bilo vertikalne ili horizontalne u tabeli; previe
linija e smanjiti preglednost tabele. Ispravno odabrane linije pomoi e da se istaknu bitni delovi
tabele. Ponekad je dobro istaknuti znaajan rezultat ili ceo red podvui koristei liniju ili masnim
slovima (boldom), ili bojenjem elije ili linije. Uvek je bitno imati na umu itaoca i olakati njegovu
orijentaciju. Zato se akcenat stavlja na naziv tabele, koji mora nedvosmisleno i u potpunosti
objasniti njen sadraj. I u sluaju da italac nije video tabelu, u kontekstu sa tekstom u lanku ili
pradavanjem mora da bude jasno iz samog naziva tabele o emu nam ona govori.



Primer 3: Tabela rezultata sa nazivom











41

Primer 4: Tabela prikupljenih podataka. Obratite panju da je svaki ispitanik oznaen na dva
naina, prvi ID je uzet sa mesta uzorkovanja, a drugi ID (INT PID) je interna oznaka u bazi
podataka. Ovaj nain obeleavanja e omoguti orijentaciju u linoj bazi podataka, ali i sauvati
mogunost povezivanja sa izvorom podataka.


esto se zaboravlja na izraavanje decimala. Danas, kada kompjuteri izraunavaju
rezultate na mnotvo decimala, veoma je bitno shvatiti koliko brojeva iza decimalnog zareza (ili
take) ima smisla. Uopteno vai da to manje cifara iza decimalnog zareza, to bolje. Pogrenom
tanou se zove postupak kad se brojani podaci predstavljaju sa veom tanou od realne.
Budui da je tanost
21
prebaena u preciznost, reproduktivnost ili ponavljanost, ovakav postupak
onda vodi ka neobrazloenom viku sigurnosti. U nauci se zato koristi dogovor koji kae da ako
nije unapred odreena granica greaka, broj cifara korienih prilikom prezentacije podataka mora
da bude ogranien tanou samih podataka. Ako, dakle, merimo uzrast brojem proivljenih godina,
nije ispravno prikazivati prosean uzrast sa jednim ili vie decimalnih mesta. Ako za merenje
odreenog parametra koristimo ureaj ili metodu koja radi sa tanou na dva decimalna mesta, ne
moemo rezultate statistike obrade prezentovati na tri li vie decimalnih mesta. Ako izraunavamo
procente, trebali bismo ih zaokruivati na cele brojeve, zato to sam procenat predstavlja stotinu,
dok kad koristimo decimalno mesto prikazaemo hiljade, znai promile.


Grafiko prikazivanje

O prikupljenim podacima puno govori njihov grafiki prikaz. Jednostavan dijagram
izmerenih vrednosti puno e rei o njihovom karakteru. Komanda plot(stk,
main="promenljiva:STK", xlab="merenje", ylab="vrednost") e nacrtati dijagram razlaganja
podataka (Primer 5).
U komandu plot smo, osim nazivu promenljive stk, poslali tekst, kojim smo dali naziv
grafikonu (main="promenljiva:STK"), takoe smo odredili nazive za osu x i y (xlab="merenje",

21
Tanost u nauci, ininjerstvu i u statistici predstavlja stepen odgovornosti merenja ili izraunate vrednosti
prema njenoj stvarnoj (istinitoj) vrednosti. Preciznost (takoe nazvana reproducibilnost ili ponavljivost) izraava stepen
u kojem sledea merenja ili izraunavanja daju iste ili sline rezultate.

42

ylab="vrednost").
Dobra osobina R je injenica, da e se rezultujua slika preneti u drugi dokumenat time, da
na pritku slike nacrtane programom, posle pritiska na reenicu File-Copy to the clipboard-as
metafile se u memoriju stavi odreena slika, a pomou naredbe zalepi, odnosno paste stavie se u
dokument sa tekstom (npr. u ovaj dokument). Mogue je to uraditi i tako da se reenicom File-Save
as-JPG upamti slika u uzorku .jpg, a taj se onda stavi u tekst.



Primer 5: Dijagram razgranatih podataka, takoe oznaavan kao takasti, u engleskom kao
scattergram ili dot-plot chart



Sledea slika dokumentuje rezultat prenosa slike iz R u editor za tekst.








43

Primer 6: Histogram frekvencija, takoe nazivan frekventni poligon izmerenih vrednosti
svrstanih u grupe sa mnoenjem 10, iscrtae se pozivanjem komande hist(stk)
promenljiva: STK

izmerena veliina
Istraiva iz histograma ujedno moe da isita koliko vrednosti ima u intervalima po deset,
npr. u intervalu 130 do 140 ima 3 vrednosti.

Stablo i list (stem and leaf) je nain prikazivanja frekvencije, izraen bez korienja grafike.


Primer 7: Stem and leaf prikazivanja frekvencije podataka
> stk
[1] 135 145 157 145 135 155 146 176 135 129
144

> stem(stk, scale=1)
The decimal point is 1 digit(s) to the right of
the |
12 | 9
13 | 555
14 | 4556
15 | 57
16 |
17 | 6

Program razdeli sva posmatranja na vrednosti stabla i listova tako da vrednosti
stabla oznaavaju razred (Class) a vrednosti listova broj (Count). Svaki red se poinje razredom,
u naem sluaju je re o stotinama i deseticama, npr. broj 12 izraava 120, a 13 izraava 130. Iza

44



vertikalne linije se nalaze listovi, koje govore kakvi se podaci pojavljuju u odreenom
razredu, u naem primeru se iza broja 12 nalazi broj 9, a time se prikazuje injenica da se broj 129
pojavljuje jednom. U sluaju ponovnog pojavljivanja vrednosti, broj listova e se poveati, npr. u
razredu 130 je broj listova sa vrednou 5 tri puta, dakle to se prikae trima peticama. U razredu
150 je jedna vrenost 155 i jedna 157 i zato iza linije pie 57. Prednost ovog prikazivanja raspodele
vrednosti je i u tome da veoma dobro prikazuje ekstremne vrednosti.
Za zapisivanje podataka i njihovo kompleksno prikazivanje jako je koristan box plot, to
bismo mogli da prevedemo kao prikaz u kutiji ili kvartilni grafikon. Draemo se ipak izvornog
engleskog naziva. Boksplot grafiki prikazuje glavne zabeleene mere centralne tendencije, kao to
su aritmetika sredina i medijana, ali isto tako i mere disperzije: raspon, prvi i trei kvartil. Boksplot
indikuje i oblik rastavljanja vrednosti.





Primer 8: Boskplot grafikon sa podacima o sistolnom i distolnom krvnom pritisku (njihovo
zadavanje pogledaj u primeru 1)






















Ovaj grafikon (Primer 8) smo dobili komandom:
> boxplot(stk, dtk, main = "Krvni pritisak", ylab = "pritisak [torr]", names = c("Sistolni",
"dijastolni"))

Uoite da smo dodali naziv grafikona main = "Krvni pritisak", a takoe smo dodali i naziv
ose y ylab = "pritisak [torr]", a na kraju smo nazvali pojedine promenljive names = c("Sistolni",
"Dijastolni").
Podelom raspona podataka (minimum - maximum) na etiri jednaka dela dobijamo
takozvane kvartile. Ove emo objanjavati u sledeim poglavljima.
Naveemo i najee koriene grafikone, od kojih je svaki odgovarajui za prikazivanje
odreenih podataka. Stubiasti prikazuje podatke dobijene ili vaee u istom periodu (npr.
uporeivanje broja kreveta meu bolnicama, broj pacijenata sa razlilitim komplikacijama povreda,
broj studenata prema popuenim cigaretama i sl.). Ovakav grafikon koristimo onda kad ne
pretpostavljamo da postoji veza meu pojedinim kategorijama podataka. Kad hoemo da prikaemo
broj ljudi prema starosnim kategorijama ili prema broju popuenih cigareta ispravno je koristiti
stubiasti grafikon. Kad bi koristili linijski grafikon, mogli bi da steknemo utisak da izmeu kolona
sa brojem ljudi u starosnoj grupi 21-30 godina i starosti 31 40 godina postoji izmeu i neka
prelazna grupa, iju vrednost znamo na osnovu linije koja povezuje obe vrednosti koje prikazuje.
medijana
Ekstremna vrednost
maksimum

3. kvartil
1. kvartil
minimum




Slika 1: Linijski i stubiasti grafikon promenljive hol



Linijski grafikon predstavlja podatke zabeleene u vremenu, pokazujui nekakvo
vremensko kretanje ili trend (npr. kretanje incidencije utice tokom dve nedelje, kretanje broja
povreda u okrugu za godinu prema mesecima i slino). Ovakav grafikon onda omoguava
pretpostavku da su izmeu dve izmerene take prisutne vrednosti koje se mogu proitati iz
grafikona (iako to ne mora da bude u potpunosti tano). Na osnovu grafikona moemo jednostavno
da kaemo koji pokazatelj i kada je dobio najveu ili najmanju vrednost. Takoe moemo da
zakljuimo o prisustvu ili odsustvu odreenog trenda.
Grafikon u oblik kolaa predstavlja podatke koji zajedno ine celinu od 100%. Svaka
vrednost je prikazana kao iseak iz kruga (npr. pojava pojedinih uzroka smrtnosti u odnosu na sve
uzroke, podela uzorka prema broju popuenih cigareta i sl.). Omoguava posmatranje proporcije
delova iz celine podataka. Njime je mogue prikazati kvantitativne i kvalitativne podatke, od kojih
su poslednji veoma pogodni za ovu vrsta grafikona. U celini, pak, moramo da upozorimo da iako je
grafiki prikaz u obliku kolaa zgodan za uporeivanje, nae oko nije naviklo da uporeuje
povrine. Bolje je koristiti stubiasti grafikon za uporeivanje vrednosti.







Histogram of chol
chol
F
r
e
q
u
e
n
c
y
0 5 10 15 20
0
1
2
3
4
5
6
2 4 6 8 10
5
1
0
1
5
Index
c
h
o
l



Primer 9: Grafikon u obliku kolaa
Student je hteo da sazna koliko se njegove kolege bave sportom, a odgovore je svrstao
u etiri kategorije, kojima je prikljuio frekvencije odgovora. Dobio je sledeu
informaciju: etiri studenta su se bavila sportom profesionalno, 12 redovno, 32 ponekad,
a 18 se nije uopte bavilo sportom. Rezultate je prikazao grafikonom u obliku kolaa.
Reenje:
> sport<- c(4, 12, 32, 18)# zadavanje ulaznih podataka
> pie(sport, labels = c("Profesionalno", "Redovno", "Povremeno", "Ne"))
#pozivanje komande za oznake prikazane pod nazivom merenja



Uopteno je potrebno kod pravljenja grafikona i tabela pridravati se principa jednostavnosti
i razumljivosti. Rad nee dobiti na kvalitetu ako grafikon ili tabela budu vritali od boja.
Jednostavnost donosi sa sobom i potrebu dubljeg razmiljanja nad ciljem korienog grafikona.
Isprazno iskoriavanje mogunosti kompjuterskog generisanja grafikona esto prikriva dobru
nameru autora. Razumljivost opet podrazumeva da e svaka stavka u grafikonu biti nedvosmisleno
opisana, dakle na osama e biti prikazani ne samo naziv, ve i jedinice mere promenljve, pojedine
take ili kolone e se jasno razlikovati, u nazivu grafikona bie jasno napisano ta taj grafikon
prikazuje, koje podatke, kako su bili obraivani.

Saetak
Tano prikazivanje podataka je jako bitno zbog narednih statistikih saznanja. Grafiko
prikazivanje podataka i ispravno korienje prikaza naroito moe da dovede do odluivanja u
narednom postupku na izraajan nain, kao i do orijentisanja u smislu potvrde hipoteza, a takoe
moe da prikae i rezultate naunoj javnosti. U vebama emo predstaviti nekoliko studija sa
realnim podacima. Pokuaemo da podatke ubacimo u promenljive u R i da ih sauvamo za dalje
korienje u sledeim poglavljima.



Vebe


1. Istraiva
22
je ispitivao uticaj vie fiziolokih faktora na stanje pacijenata sa cistinom
fibrozom. Podaci koje je prikupio nalaze se u uzorku cystfibr iz datoteke IswR (otvoriti
korienjem komande library(ISwR)). Odredite veliinu pojedinih promenljivih, minimum i
maksimum i nacrtajte sliku sa grafikim prikazom svih podataka; nacrtajte pojedine slike za
svaki podatak pojedinano.
2. J.Klemensen
23
je posmatrao rasprostranjenost karcinoma u etiri grada u Danskoj. Podaci
koje je prikupio nalaze se u uzorku eba1977 u datoteci ISwR. Odredite duinu promenljivih,
minimum i maksimum i nacrtajte sliku sa grafikim prikazom podataka, gde to ima smisla i
nacrtajte pojedine slike za svaki podatak samostalno.























22
O'Neill et al. (1983), The effects of chronic hyperinflation, nutritional status, and posture on respiratory muscle
strength in cystic fibrosis, Am. Rev. Respir. Dis.,128:10511054.
23
J. Clemmensen et al. (1974), Ugeskrift for Lger, pp. 22602268.



ETVRTO POGLAVLJE
Mere centralne tendencije i disperzije

Sadraj poglavlja
Cilj poglavlja .......................................................................................................................50

Mere centralne tendencije....................................................................................................50

Oblici distribucije podataka oko srednje vrednosti.............................................................54

Mere disperzije podataka oko srednje vrednosti.................................................................56

Saetak.................................................................................................................................60

Vebe ...................................................................................................................................61






















Cilj poglavlja

Kad smo uspeli da prikupimo podatke i stekli osnovnu predstavu o njihovim celokupnim
karakteristikama, moramo da probamo da naeme takve brojane karakteristike koje e sakupljene
podatke prezentovati sa najveom moguom preciznou i jednoznanou. U ovom poglavlju
objasniemo osnovne mere koje se najee koriste. Ukazaemo kako ih razumno i tano
interpretirati. Nasuprot estom korienju ovih mera, mnogo puta intuitivno, njihovo korienje i
interpretacija esto su pogreni. U ovom poglavlju italac e se informisati o osnovnim postupcima
kod izraunavanja mera centralne tendencije i disperzije, razjasnie njihove osobine i saznae kada
i kako da ih ispravno koristi i interpretira. Kao i u prethodnom poglavlju, primeri su dati u
statistikom programu R.

Tabela 1: Ciljevi poglavlja
3. Razjasniti mere centralne tendencije i disperzije
4. Biti svestan osobina pojedinih mera
5. Upoznati se sa postupkom izraunavanja i interpretiranje rezultata


Mere centralne tendencije
Pod merom podrazumemo broj koji karakterie dati skup podataka. Pod centralnom
tendencijom podrazumevamo usmerenost podataka ka centru, sredini. Samo jedna mera, koriena
samostalno, nije dovoljna da opie skupa podataka. Neophodno je kombinovati je sa drugim
merama. Zato ovo poglavlje u nazivu ima i disperziju, koja je mera opisivanja difuzije skupa
podataka.

Definicija 1: Mere centralne tendencije
Mera centralne tendencije uzorka je broj koji karakterie centralno usmeravanje skupa
podataka. Najee koriena mera centralne tendencije odabranog uzorka su aritmetika
sredina, medijana i mod.


Aritmetika sredina
Uobiajena mera centralne tendencije je aritmetika sredina. Dobija se sabiranjem svih
vrednosti u uzorku i deljenjem tog zbira sa brojem vrednosti. Razlikujemo aritmetiku sredinu
populacije i aritmetiku sredinu uzorka. Raunanje obe aritmetike sredine je jednaka. Ako imamo
podatke za celu populaciju (izuzetno, na primer kao razultat popisa stanovnika), onda govorimo
o aritmetikoj sredini populacije i oznaavamo je grkim slovom (mi). Najee radimo sa
podacima dobijenim od uzorka populacije i u tom sluaju govorimo o aritmetikoj sredini uzorka, a



oznaavamo ga sa x (x bar). Aritmetika sredina ima osobine koje odreuju njenu iroku primenu.
Praktino sva statistika saznanja uraena na kvantitativnim promenljivim koriste aritmetiku
sredinu za dobijanje prve informacije o promenljivoj. Osobine aritmetike sredine je preporuuju za
esto korienje, mada njena interpretacija nije bez problema.
Glavna prednost aritmetike sredine je njena jednostavnost, laka razumljivost i lako
izraunavanje. Razumljvost dovodi do toga da i deca u osnovnoj koli brzo naue da koriste
aritmetinu sredinu (prosek) za raunanje pretpostavljene zakljune ocene. Ova jednostavnost i
prirodna razumljivost dovodi do njene izuzutno este primene, ali i do pogrene interpretacije
rezultata. Iz kole znamo da je zakljuena ocena bila prosek ocena. Uticale su na to, izmeu ostalog,
i ekstremne vrednosti (prisetite se oekivanja da e jedna slaba ocena biti ignorisana).
Osetljivost na ekstremne vrednosti utie na vrednost aritmetike sredine, tako da moe da
se desi da e ona u odreenim sluajevima postati neupotrebljva kao mera centralne tendencije.
Izraunavanje prosene ocene uenika koji je imao iz odreenog predmeta odreene vrednosti, kad
uzmemo u obzir i izostavljanja ekstremnih, je ilustracija osobina aritmetike sredine (Primer 1).

Primer 10: Izraunavanje zakljuene ocene kao primer proseka za ekstremne vrednosti (U
slovakom sistemu kolovanja ocena 1 znai odlian, a ocena 5 nedovoljan.)
Ocene: 1, 3, 2, 1, 1, 1, 5
onda je prosek ocena bio 2; meutim, ako uitelijca ne bi uzimala u obzir
jedinu peticu koju je uenik dobio, onda bi situacija bila drugaija
Ocene: 1, 3, 2, 1, 1, 1
sa prosekom 1,5. Ovde bi uiteljica mogla da se opredeli i za jedinicu kao
zakljuenu ocenu.

Sledea osobina aritmetike sredine je njena unikatnost, koja odreuje da za dati skup
podataka postoji samo jedna jedina aritmetika sredina. Za ilustraciju kako aritmetika sredina
izraava centralnu tendenciju, naveemo primer.

Primer 11: Izraunavanje aritmetike sredine i odstupanja podataka od nje
Zadajemo: Imamo skup rezultata merenja: 3 8 6 14 0 -4 0 12 -7 0 -10 i elimo da
izraunamo njihovu aritmetiku sredinu.
Reenje:
> podaci <- c(3, 8, 6, 14, 0, -4, 0, 12, -7, 0, -10)
> podaci
[1] 3 8 6 14 0 -4 0 12 -7 0 -10
> aritmetickasredina <- sum(podaci)/length(podaci)
> aritmetickasredina
[1] 2



> plot(podaci)



Pogledaemo kako se pojedini podaci razlikuju od aritmetike sredine:
> dif <- podaci - aritmetickasredina
> dif
[1] 1 6 4 12 -2 -6 -2 10 -9 -2 -12
> bargraph(dif)


Zbir odstupanja od aritmetike sredine pozitivnih i negativnih:
> dif
[1] 1 6 4 12 -2 -6 -2 10 -9 -2 -12
> pos <- sum(1, 6, 4, 12, 10)
> pos
[1] 33
> neg <- sum(-2, -6, -2, -9, -2, -12)
2 4 6 8 10
-
1
0
-
5
0
5
1
0
Index
u
d
a
j
e
-
1
0
-
5
0
5
1
0
a. sredina=2



> neg
[1] -33
Vidimo, da je zbir odstupanja pozitivnih i negativnih jednak. Dakle, stvarna
aritmetika sredina odreuje centralnu tendenciju podataka.


Medijana
Medijana konanog zbira je vrednost koja deli skupove na dva jednaka dela, takva da je
broj vrednosti veih ili jednakih medijani jednak broju vrednosti manjih ili jednakih medijani. Kad
je broj vrednosti neparan, onda e medijana biti srednja vrednost poreanih merenja. Ako je njihov
broj paran, onda su dve vrednosti u sredini, a medijana je njihova aritmetika sredina.
Ako bi uiteljica koristila medijanu za vrednovanje, onda bi raunanje izgledalo kao u
sledeem primeru (Primer 3).

Primer 12: Izraunavanje medijane za grupu brojeva
Ocene: 1, 3, 2, 1, 1, 1, 5
onda je prosek (aritmetika sredina) ocena 2.
Posle poreanih ocena prema veliini: 1,1,1,1,2,3,5
ostaje u sredini broj 1, to je medijana za date brojeve.
Ako bi uiteljica koristila medijanu za izraunavanje krajnjeg vrednovanja, ne
bi morala da se bavi ekstremnim vrednostima (na primer peticom).

Osobine medijane predodreuju je za iru upotrebu nego to je to danas sluaj. Ona je
unikatna kao i aritmetika sredina, postoji samo jedna medijana za dati skup podataka. Izraunava
se jednostavno. Senzitivnost na ekstremne vrednosti je manja nego kod aritmetike sredine,
odnosno one ne utiu na medijanu tako snano kao na aritmetiku sredinu. Medijana i aritmetika
sredina se pri normalnoj distribuciji promenljivih izjednaavaju (o podeli promenljivih u sledeim
poglavljima). Izraunavanje medijane u naem statistikom okruenju R nalazi se u sledeem
primeru.

Primer 13: Izraunavanje medijane u okruenju R
Koristiemo podatke iz primera o aritmetikoj sredini (Primer 2).
> podaci
[1] 3 8 6 14 0 -4 0 12 -7 0 -10
> sort (podaci)
[1] -10 -7 -4 0 0 0 3 6 8 12 14 # samo za ilustraciju postupka



> median (podaci)
[1] 0
Rezultat je 0.


Mod
U datom skupu vrednosti mod je ona vednost koja se najee pojavljuje. Moemo da ga
koristimo za prikaz kvalitativnih podataka. U primeru sa ocenama mod e ponovo biti jedinica.
Najee se koristi za vrednovanje skora. Ako su svi brojevi skupa jednaki, onda nema moda. Ako
se u skupu pojavljuje samo jedan jedini broj, onda govorimo da je skup unimodalan. Ako se dva
broja pojavljuju najee, onda govorimo o bimodalnom skupu podataka.


Oblici distribucije podataka oko srednje vrednosti

Za zakljuivanje o mogunostima statistike obrade podataka bitno je poznavanje oblika
distribucije podataka. To ne mora da znai da ih moramo prikazati vizuelno. Statistika vrednost,
koja karakterie simetriju podataka, naziva se koeficijent asimetrije ili nagib. Ako je njegova
vrednost bliska nuli, distribucija podatako oko aritmetike sredine je priblino simetrina. Ako
dobije vrednosti vee od nule, podaci su vie pomereni na levo od aritmetike sredine, a ako je
vrednost manja od nule, onda su pomereni na desnu stranu od aritmetike sredine. U sluaju
vrednosti veih od nule, govorimo o pozitivnom nagibu i u ovom sluaju aritmetika sredina je
udesno od medijane, a mod je ulevo od medijane. U sluaju vrednosti manjih od nule, govorimo o
negativnom nagibu i postavljanje aritmetike sredine prema medijani i modu je suprotno. Sledea
slika ilustruje ovakve sluajeve.

Primer 14: Prikazivanje tri tipa distribucije podataka oko aritmetike sredine







(a)







(b)







(c)

Za izraunavanje nagiba koristiemo komandu skewness iz datoteke e1071.




Za prikazivanje situacije sa slike (a) napraviemo objekat sa nazivom norm
> norm=c(1,2,2,3,3,3,4,4,4,4,5,5,5,5,5,6,6,6,6,6,6,7,7,7,7,7,8,8,8,8,9,9,9,10,10,11)
> library(e1071) #uitavamo datoteku 071
> skewness(norm) #Komandom skewness zatraiemo izraunavanje nagiba.
Rezultat:
> skewness(norm)
[1] 0


Nagib je jednak nuli, pa zakljuujemo da su podaci jednako nagnuti kao pri normalnoj
raspodeli i simetrini su u sredini. Uveriemo se u to i izraunavanjem aritmetike sredine i
medijane, koje obe iznose est. Grafikon (b) prikazuje primer kada je distribucija nagibljenija sa
nagibom manjim od nule (-0,5) i podacima pomerenim udesno, a grafikon (c) je suprotan primer,
kad je nagib vei od nule, dakle distribucija podataka je pomerena u levo. Na podacima iz primera u
treem poglavlju ilustrovaemo kako u stvarnosti izgledaju rezultati izraunavanja nagiba.
Zailjenost, strmost (ili spljotenost) karakterie koncenraciju vrednosti obeleja oko
srednje vrednosti. Koeficijent spljotenosti informie da li je koncentracija vrednosti istraivanog
obeleja vea ili manja nego u uzorku sa tzv. normiranom normalnom raspodelom. Ako je
koeficijent spljotenosti vei od nule, podela vrednosti obeleja je strmija (iljatija) nego normirana
normalna podela, a ako je manja od nule, raspodela vrednosti obeleja je zaravnjenija, ira nego
normirana normalna podela (o normalnoj podeli govoriemo kasnije).

Primer 15: Tri tipa distribucije i izraunavanje spljotenosti


(a)


(b)


(c)
Za izraunavanje zailjenosti koristiemo komandu kurtosis iz datoteke e1071.
Napravimo objekat sa nazivom norm:
>norm=c(1,2,3,3,3,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,6,6,6,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,8,



8,8,8,8,8,8,8,9,9,9,9,9,9,9,9,10,10,10,11,11,11,12,13)
> library(e1071) # uitajmo datoteku e1071
>kurtosis(norm) # zahtevajmo izraunavanje pljosnatosti.

Rezultat:
> kurtosis(norm)
[1] -0.005227106

Pljosnatost je ispala praktino jednaka nuli, pa zakljuujemo da su podaci jednako zailjeni
kao normirana normalna rapodela. Grafikon (b) prikazuje primer kada je podela zailjenija sa
zailjenou veom od nule (1.1), a grafikon (c) suprotan sluaj, kad kad je zailjenost manja od
nule, dakle distribucija podataka je ira.


Mere disperzije

Posle odreivanja centralne tendencije, potrebno je odrediti koliko blizu, odnosno koliko
daleko su rezultati disperzirani oko centra. Ova pojava se moe nazvati raipanje, disperzija ili
varijabilnost podataka. Disperzija skupa posmatranja opisuje razliitost ustanovljenu posmatranjem.
Ako bi svi podaci bili isti, onda ne bi bila prisutna nikakva disperzija, a ako su podaci blizu jedni
drugih, onda je disperzija mala. Postoji vie mera disperzije i svaka ima razliite osobine.
Objasniemo raspon populacije, interkvartilni razmak, varijansu, standardnu devijaciju i koeficijent
varijacije.

Raspon populacije
Raspon populacije je najjednostavnija mera disperzije podataka. Izraunava se kao razlika
izmeu najvie i najnie vrednosti skupa posmatranja. Njegova primena je ograniena, kada u obzir
uzimamo dve vrednosti, i zato je znaajno zavisna od ekstremnih vrednosti. Prednost raspona
populacije je lako izraunavanje.

Primer 16: Izraunavanje raspona populacije
Za izraunavanje koristimo komandu range, pomou koje emo saznati maksimalnu i
minimalnu vrednost promenljive.

>x=c(10,23,45,34,23,12,1,3,56,43,23,41,21,12,15)
>range(x)
[1] 1 56




Komanda nam je pruila najmanju i najveu vrednost u uzorku. Sam raspon populacije
saznaemo jednostavnim oduzimanjem minimalne od maksimalne vrednosti. Njihova razlika je
raspon populacije u uzorku, znai 55.

Interkvartilni razmak
U prolom poglavlju smo naveli da podelom uzorka na etiri jednaka dela dobijamo
kvartile. To su tri vrednosti promenljive, koje nju dele na etiri jednaka dela. Dobijaju se tako da se
podaci poreaju prema veliini i podele u etiri iste grupe. Tako svaka od njih sadri 25% (dakle )
svih podataka. Zato se to zove kvartil. Mogue su i finije podele: kada se uzorak podeli na deset
delova dobiemo decile ili ako uzorak delimo na sto delova govorimo o percentilima. Jedan od
kvartila, drugi po redu, jeste medijana Q
2
, koj smo ve naveli.

Slika 2: Kvartili i interkvartilni razmak


Interkvartilni razmak ne pada pod uticaj ekstremnih vrednosti i zato prua bolju i
neiskrivljenu sliku o disperziji podataka. S obzirom na njegovo jednostavno izraunavanje i lako
prikazivanje (box-plot) mogao bi da bude i ee korien. Izraunavanje kvartila omoguavaju
komande quantile() i summary().

Primer 17: Izraunavanje kvartila i interkvartilnog razmaka. Komande summary() izraunae
i aritmetiku sredinu. Vodite rauna o velikim slovima kod pozivanja komande IQR().
Koristiemo promenljivu chol iz prethodnih primera.
> quantile(chol)
0% 25% 50% 75% 100%
4.50 5.00 6.20 7.05 19.00
> summary(chol)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.50 5.00 6.20 8.00 7.05 19.00
> IQR(chol)
[1] 2.05

Q
1
Min Q
2
medijana
Q
3 Max
Interkvartilni razmak Q
3
- Q
1




Disperzija varijansa, srednje apsolutno odstupanje, srednja kvadratna fluktuacija
Tanija mera rasipanja vrednosti je disperzija, odnosno varijansa. Izraunavanje se zasniva
na sabiranju razlika vrednosti pojedinih merenja u odnosu na aritmetiku sredinu. Pre sabiranja su
ove vrednosti dignute na kvadrat, da se eliminiu znakovi. Zbir se onda podeli brojem merenja
smanjenim za jedan, to se oznaava kao n1. Ako su vrednosti posmatranog skupa blizu
aritmetike sredine, onda je njihova disperzija mala i obrnuto. Razlika n1 u izraunavanju se zove
broj stepena slobode. Za pojanjenje naveemo primer, koristei podatke o holesterolu iz
prethodnog poglavlja. Izraunata varijansa 25,2 je prema aritmetikoj sredini osam jako velika, to
pokazuje da su podaci znaajno rasuti od aritmetike sredine, a to moemo da vidimo i iz nacrtanog
takastog dijagrama (slika 2).

Primer 18: Izraunavanje vrednosti varijanse

Sluaj chol Odstupanja od
aritmetike sredine
Kvadrat
1 6,8 1,2 1,44
2 4,5 3,5 12,25
3 6,4 1,6 2,56
4 4,7 3,3 10,89
5 5,1 2,9 8,41
6 6,2 1,8 3,24
7 19 -11 121
8 6,2 1,8 3,24
9 16,9 -8,9 79,21
10 4,9 3,1 9,61
11 7,3 0,7 0,49
Aritmetika
sredina
8
Kvadrati odstupanja od aritmetike sredine
zajedno
252,34
Broj sluajeva 1 10
Varijansa 25,23

U okruenju R izraunavanje je jednostavno i sa istim rezultatom.



Koristiemo komandu var.
> chol
[1] 6.8 4.5 6.4 4.7 5.1 6.2 19.0 6.2 16.9 4.9 7.3
> var(chol)
[1] 25.234


Slika 3: Takasti dijagram predstavljenih podataka, aritmetika sredina je oznaena punom
linijom



Standrardna devijacija
Izraunavanjem korena vrednosti varijanse dobijamo standardnu devijaciju. Time se,
u stvari, vraamo do izvornih vrednosti odstupanja od aritmetike sredine, budui da smo za
izraunavanje varijanse vrednosti dizali na kvadrat. Rezultat je broj 5, koji jo uvek predstavlja
veliko odstupanje naspram aritmetike sredine osam, tako da je jasno da su podaci rasuti iroko oko
aritmetike sredine.


Primer 19: Izraunavanje standardne devijacije
> sd(chol)
[1] 5.023345

U svakodnevnoj praksi prednost se daje primeni standardne devijacije u odnosu na
varijansu, zato to je lake shvatljiva. Grubo moemo da kaemo da ona predstavlja presek



odstupanja od aritmetike sredine. Kad bi sva merenja imala istu vrednost, onda bi vrednost
standardne devijacije bila jednaka nuli. Standardna devijacija znaajno zavisi od udaljenih
izmerenih vrednosti. U primeru 8 izraunali smo interkvartilni razmak sa vrednou dva. To znai
da, zapravo, u uzorku imamo ekstremne vrednosti koje znaajno utiu na njegov oblik, to moemo
da vidimo i iz prikazanih vrednosti.

Koeficijent varijacije
Standardna devijacija predstavlja prosek odstupanja merenja od njihovih aritmetikih
sredina. Odnos standardne devijacije i aritmetike sredine mogue je izraziti u procentima i naziva
se koeficijent varijacije. Njegovo izraunavanje je vrlo jenostavno (primer 11).

Primer 20: Izraunavanje koeficijenta disperzija
> (sd(chol)/mean(chol))*100
[1] 62.79182

Iz rezultata moemo da zakljuimo da standardna devijacija predstavlja ak 63% vrednosti
aritmetike sredine, to potvruje znaajnu disperziju podataka.


Saetak

Mere centralne tendencije i disperzije su verovatno najee koriena sredstva za
opisivanje podataka. Uprkos tome, pojavljuju se este greke prilikom njihove interpretacije ili pri
njihovoj primeni. esto se izraunavaju i tamo gde nije mogue ouvati osnovne pretpostavke
njihove ispravne interpretacije. Obino se aritmetika sredina dobija i tada, kada nisu zadovoljeni
uslovi njene ispravne primene ne radi se o uzorku iz normalne distribucije. Takoe, korienje
mere centralne tendencije samostalno, bez mere disperzije navoenje samo aritmetike sredine, je
est nedostatak. Zaboravlja se i na medijanu, a u celosti malo se koriste kvartili i interkvartilni
razmak, sa boksplotom za opisivanje uzorka. Ovo poglavlje saima pravila prilikom odluivanja,
koju meru u datom sluaju koristiti i kako je interpretirati.











Vebe

1. Za sve kontinuirane promenljive uzorka cystfibr iz datoteke IswR (primer 1, poglavlje 3)
izraunajte vrenosti mera centralne tendencije. Koristite komande navedene u ovom poglavlju.

2. Razmotrite spljotenost i nagib distribuiranih vrednosti promenljivih age, height, weight,
bmp, fev1, rv, frc, tlc i pemax u okviru uzorka cystfibr. Nacrtajte histogram za ove promenljive i
saznajte da li je na osnovu mera centralne tendencije kod ovih promenljivih mogue proceniti da su
podaci normalno distribuirani.

3. Korienjem podataka iz uzorka eba1977 iz datoteke IswR (primer 2, poglavlje 3)
izraunajte kvartile pojedinih promenljivih i njihov meukvartilni razmak i probajte da
interpretirate rezultate.


PETO POGLAVLJE
Ocene uzorka

Sadraj poglavlja

Cilj poglavlja ................................................................................................................................. 63

Neophodne osnove verovatnoe .................................................................................................... 63

Normalna raspodela ....................................................................................................................... 64

Sluajni uzorak .............................................................................................................................. 66

Utvrivanje srednje vrednosti primenom sluajne raspodele........................................................ 67

t raspodela ..................................................................................................................................... 69

Intervalska ocena uzorka populacije ............................................................................................. 71

Intervalska ocena proporcije u populaciji ..................................................................................... 72

Saetak .......................................................................................................................................... 73

Primeri ........................................................................................................................................... 74


















63

Cilj poglavlja

U uvodnom delu ove knjige smo govorili o smislu statistike i naveli smo da se ona bavi
prikupljanjem podataka, njihovim beleenjem I, na osnovu njih, donoenjem zakljuaka. Objasnili
smo pojam statistike analize kao postupka zakljuivanja o populaciji na osnovu rezultata dobijenih
iz uzorka te populacije. Dok smo se u prethodnim poglavljima bavili radom sa podacima i naveli
osnovne statistike mere, u ovom poglavlju emo na osnovu prikupljenih podataka iz uzorka
izvoditi zakljuke oceloj celoj populaciji. Dakle, poeemo sa delom statistike koji se bavi
izvoenjem osobina populacije na osnovu uzorka, to se esto naziva i induktivna statistika.
Ovaj deo statistike zasnovan je na koncepciji sluaja, a time prirodno namee primenu
verovatnoe. Budui da u ovom udbeniku nije mogue objasniti celu koncepciju verovatnoe,
trudiemo se da koristimo intuitivan pristup, bez formula i matematiki zasnovanih koncepcija.
Posle strunog objanjenja osnova verovatnoe, prei emo na postupak koji omoguava
zakljuivanje o stvarnim vrednostima ili disperziji kod populacije na osnovu izabranog uzorka.

Tabela 2: Ciljevi poglavlja
Objasniti osnove verovatnoe
Navesti neke podele uzoraka
Objasniti pojam takaste i intervalske ocene
Intervalska ocena aritmetike sredine populacije

Neophodne osnove verovatnoe

Verovatnoa je svakodnevno korien pojam, koji izraava meru nesigurnosti da e se
neto desiti ili se nee desiti. Meteorolozi govore o verovatnoi kinih padavina, lekari o
verovatnoi odreene dijagnoze, studenti o verovatnoi da se poloi ili ne poloi ispit. Verovatnoa
je tesno povezana sa sluajnou. Svi smo u koli uili kako brojem izraziti mogunost da pri
bacanju kocke dobijemo odreeni broj, npr. etiri. Znamo da je ovaj rezultat upravo jedna od
mogunosti, kojih ima est. Rezultat, jedna estina, zovemo verovatnoom da e pasti ne samo
etvorka, ve i bilo koji broj na kocki. S obzirom na to da je verovatnoa padanja bilo kojeg broja
podjednaka, govorimo da je odreeni broj pao sluajno. Nismo sigurni koji e broj zaista pasti.
Ovo je vrlo pojednostavljen pogled na verovatnou. ee postavljamo pitanja o
deavanjima iz svakodnevnog ivota i oekujemo odgovor koji e moi da se upotrebi u
konkretnom sluaju. Ni statistika ni verovatnoa, meutim, nee dati ovakve odgovore, ne znaju da
kau ko e kad umreti, kakve bolesti ga oekuju ili kada e zavriti kolu i sa kakvim uspehom.
Znaju da kau da mukarac, koji se rodio 2005. godine u Slovakoj, moe da doivi 70,3 godine. To
ne znai da nema mukaraca koji e umreti pre ili kasnije. Na osnovu podataka koliko mukaraca je
umrlo u odreenoj godini i u odreenom uzrastu znamo da izraunamo verovatnou umiranja ili
preivljavanja do sledee godine, tako to broj mukaraca umrlih u odreenom uzrastu podelimo
brojem svih koji su umrli. Kad to uradimo za sve uzrasne grupe (npr. petogodinje) dobiemo
verovatnou umiranja svake od njih. Jasno je da, to je ovek stariji, to e biti vea verovatnoa
umiranja.


64

Definicija 2: Klasina definicija (Pjer Simon de Laplas)
Verovatnoa = Broj relevantnih dogaaja / Broj svih moguih dogaaja.

Drugim reima: Kolinik broja situacija u kojima e se desiti ono to nas zanima i zbir broja
situacija u kojima e se dogoditi ono to nas zanima i broja situacija u kojima se nee dogoditi
ono to nas zanima.


Normalna raspodela

Pretpostavite da ete izmeriti visinu svih devojaka na univerzitetu. Kakve vrednosti moemo
da oekujemo? Velika veina moe da ima visinu blizu proseka za devojke, to je utvreno
istraivanjem sprovedenim u celoj Slovakoj Republici (VI nacionalno istraivanje telesnog razvoja
dece i omladine, 2001.), a to je bilo 165 cm. Prirodno je, meutim, da su neke devojke nie, a neke
vie. Ako posmatramo njihov broj saznaemo da, to su devojke nie, to je i njihov broj manji i, isto
tako, to su vie, to je njihov broj manji. Slika 1 prikazuje rezultat.
Krajem 18. veka nemaki matematiar i naunik Johan Karl Fridrih Gaus (17771855)
poeo je da koristi krivu u obliku zvona za izraavanje situacije kada su podaci razdeljeni
simetrino i ravnomerno oko srednje vrednosti. Krivu moemo da naslikamo tako da
pretpostavljamo da je srednja vresnost 0, a standardna devijacija tano 1. Ova kriva se zove kriva
standardne normalne raspodele. Za nju je karakteristino da je simetrina oko srednje vrednosti
(oznaavamo je kao (grko slovo mi), dakle srednja vrednost populacije), kao i da su aritmetika
sredina, medijana i mod jednaki. Celokupna povrina ispod krive iznad ose x je jedinstvena. Zato
posle podele povrine ispod krive u mestu srednje vrednosti je 50% povrine u desno i 50% u levo
od srednje vrednosti.
Ako povrinu podelimo na mestu koje odgovara jednoj standardnoj devijaciji u desno i
jednoj u levo, dobiemo povrinu koja priblino odgovara 68% ukupne povrine, a ako koristimo
dve standardne devijacije, onda e povrina biti priblino 95%, a kod tri podele ak 99,7% povrine
ispod krive (Slika 2).
Normalna raspodela je tano odreena sa dva parametra: , odnosno srednja vednost
populacije i , odnosno varijansa populacije. Razne vrednosti pomeraju grafikon podele du ose x
i razne vrednosti menjaju njenu zailjenost (slika 3).









65

Slika 1: Kriva standardne normalne raspodele sa srednjom vrednosti 0 i standardnom
devijacijom 1


Slika 2: Povrina ispod krive standarne normalne raspodele











66

Slika 3: Razni oblici krive standardne normalne raspodele pri razliitm vrednostima
disperzije i pri konstantnoj aritmetikoj sredini

=0, =0,5

=0, =1

=0, =1,2





Sluajni uzorak
Princip odabira lanova ovog uzorka podrazumeva da svako iz populacije mora da ima
jednaku ansu da postane pripadnik uzorka. Sledei uslov je nezavisnost uzorkovanja, dakle da
izbor jednog pripadnika ne sme da ometa izbor bilo kojeg sledeeg. Svakodnevno se ovi uslovi
obezbeuju korienjem tabela sluanih brojeva.
I kada obezbedimo da svaki lan populacije ima istu ansu da dospe u uzorak, to ne znai da
e svi odabrani imati iste osobine. Razlike u srednjoj vrednosti i disperziji mogu da budu razliite.
Sledea slika nam ilustruje situaciju ponavljanih uzorkovanja iz normalno distribuirane populacije.
Uzorci su oznaeni njihovom srednjom vrednou (isprekidana linija) i disperzijom (puna linija).










-4 -2 0 2 4
0
. 0
0
0
. 0
5
0
. 1
0
0
. 1
5
0
. 2
0
0
. 2
5
0
. 3
0
x
y
-4 -2 0 2 4
0
. 0
0
. 2
0
. 4
0
. 6
0
. 8
x
y
-1.0 -0.5 0.0 0.5 1.0
0
. 0
0
. 1
0
. 2
0
. 3
0
. 4
x
y

67

Slika 4: Ponavljani uzorci iz normalno raspodeljene populacije


Svaki od uzoraka ima razliitu srednju vrednost (pogledajte srednje vrednosti uzoraka
oznaenih sa

x
) i razliitu disperziju. Tri prosene vrednosti pale su u oblast ograniene sa dve
standardne devijacije, dakle 2. Dve su pale van ove oblasti - prisetimo se da se u ovoj oblasti
nalazi 95% svih podataka, a time i izvora moguih uzoraka. Ovako uobiajeno izgleda ono ta radi
istraiva prilikom korienja statistike analize: napravi sluajni uzorak, izrauna njegove
karakteristike i proba da sazna gde se nalazi stvarna srednja vrednost populacije i kakva je njena
stvarna disperzija. Problem je, u stvari, da ne zna koji uzorak je uzeo.

Utvrivanje srednje vrednosti primenom sluajne raspodele

Vratimo se na osnovno pitanje statistike, a to je statistika analiza i kako e nam poznavanje
normalne raspodele pomoi u ovoj temi. Razjasniemo da se visina devojaka u Slovakoj kree oko
prosene vrednosti 165 cm i neka je standardna devijacija 10 cm. Ali pri svakom istraivanju ipak
ne moemo da ispitujemo sve devojke starosti 18 godina i vie u Slovakoj. U ovakvom sluaju
koristiemo sluajni uzorak. Iz primera sa slike 4 proizilazi da to vie se ovakvih uzoraka iz
populacije napravi, to je srednja vrednost njihovih srednjih vrednosti blia realnoj srednjoj
vrednosti populacije ili, to je dobijeni sluajni uzorak vei, time je njegova srednja vrednost blia
realnoj. Zato se trudimo da saznamo adekvetnu veliinu uzorka, tako da on najbolje reprezentuje
celu populaciju. Takoe moramo da shvatimo da je disperzija izmeu uzoraka zavisna delom i od
izbora uzorka. Disperziju populacije ne poznajemo, zato moramo da se orijentiemo ka njenom
otkrivanju putem uzorka, ija mera je standardna devijacija. Kada smo razjasnili da varijansa
uzorka zavisi od veliine uzorka, moramo je jednostavno dovesti u red tako to emo je podeliti
brojem merenja u uzorku. Kako bi se lake izraunavalo, umesto verijanse se koristi standardna
devijacija i podeli se korenom broja. Ovaj odnos se oznaava kao standardna greka aritmetike

68

sredine (standard error of the mean SEM).
Sada moemo da se vratimo na osnovnu temu ovog poglavlja, posveenu analitikoj
statistici, odnosno induktivnoj statistici. Najpre emo prikupiti injenice: znamo da imamo
populaciju iz koje sluajnim izborom dobijamo sluajni uzorak. Znamo da izraunamo aritmetiku
sredinu i standardnu devijaciju ovog uzorka, a time i da odredimo mere centralne tendencije.
Poznate su nam osnovne karakteristike normalne raspodele i oekujemo da populacija iz koje je
uzorak napravljen je normalno raspodeljena sa aritmetikom sredinom i varijansom . Pitanje je
kakva je realna vrednost aritmetike sredine u populaciji?
Raunica proizilazi iz injenice da 95% svih merenja je priblino u obimu 2, dakle u
rasponu dve varijanse sa obe strane aritmetike sredine. Pogledajte da u ovom sluaju znamo realnu
disperziju (varijansu) parametra u populaciji. Situacija u kojoj poznajemo disperziju populacije,
ali ne i njenu aritmetiku sredinu je vetaka (modelska), za svrhe objanjavanja principa postupka.
Postupak je ilustrovan primerom 1.

Primer 21: Priblino utvrivanje stvarne prosene vrednosti glikemije populacije
Istraiva je merio vrednosti eera u krvi. Merenje je napravio na 15 ljudi sa sledeim
vrednostima u mmol/l:
5.3, 6.1, 5.8, 6.2, 6.4, 5.9, 6.7, 7.1, 6.3, 6.6, 7.4, 6.6, 5.7, 6.4, 5.5
> gly<-c(5.3, 6.1, 5.8, 6.2, 6.4, 5.9, 6.7, 7.1, 6.3, 6.6, 7.4, 6.6, 5.7, 6.4, 5.5)
> gly
[1] 5.3 6.1 5.8 6.2 6.4 5.9 6.7 7.1 6.3 6.6 7.4 6.6 5.7 6.4 5.5
> length(gly)
[1] 15
> mean(gly)
[1] 6.266667
> var(gly)
[1] 0.3323810
> sd(gly)
[1] 0.5765249

Aritmetika sredina uzorka je 6,3 mmol/l (zaokruivaemo zbog preglednosti), varijansa
0,33 mmol/l i standardna devijacija 0,58 mmol/l.
Sada nam je potrebno da izraunamo koji deo disperzije odgovara veliini izabranog uzorka
> sqrt(var(gly)/length(gly))
[1] 0.1488581
> sd(gly)/sqrt(length(gly))
[1] 0.1488581

Obe metode izraunavanja dale su isti rezultat. Probajte i komandu std.error iz datoteke
plotrix. Daje nam istu vrednost.
> std.error(gly)
[1] 0.1488581
Rezultat: 6,3 0,15= 6,45 i 6,15 interpretiramo tako da je stvarna standardna devijacija
glikemije u populaciji izmeu 6,15 mmol/l i 6,45 mmol/l.


69

Da bi priblini rezultat doveli do tanog, moramo da koristimo jo jedan parametar, a on se
zove koeficijent poverenja i oznaava se kao malo z. On se uvodi i iz razloga da nas nekad ne
zanima 95% verovatnoe. Moemo da radimo i sa drugim vrednostima, npr. 99%. Aritmetika
sredina uzorka se obino zove i takasti rezultat aritmetike sredine populacije i njegova
vrednost se navodi kao procenitelj (estimator). Ishod ovakvog rezultata, nazvan kao intervalski
rezultat aritmetike sredine se izraunava:
procenitelj (koeficijent poverenja) x (standardna greka uzorka).

Vrednosti koeficijenta poverenja nai ete u tabeli normalne raspodele. Tu se, u stvari,
navodi vrednost za nivo poverenja (1 )/2. Alfa () je vrednost verovatnoe za koju srednja
vrednost uzorka ne odgovara aritmetikoj sredini populacije. Takoe treba da shvatimo da se
verovatnoa iskazuje ne u procentima, ve u decimalnim brojevima izmeu 1 i 0. Tako da alfa sa 99%
verovatnoe, to je 0,99, iznosi 0,01, zato to je 1 0,99 = 0,01. Vrednost z treba traiti u tabelama,
ali nju program izraunava kao u sledeem primeru, koji pokazuje izraunavanje iz prethodnog
primera 1.

Primer 2: Tana vrednost intervala stvarne srednje vrednosti populacije
> gly
[1] 5.3 6.1 5.8 6.2 6.4 5.9 6.7 7.1 6.3 6.6 7.4 6.6 5.7 6.4 5.5
> alfa<-(1-0.95)/2
> alfa
[1] 0.025
> z<-qnorm(alfa)
> z
[1] -1.959964
> sem=sd(gly)/sqrt(length(gly))
> sem
[1] 0.1488581
> donji<-mean(gly)-abs(z*sem)
> donji
[1] 5.97491
> gornji<-mean(gly)+abs(z*sem)
> gornji
[1] 6.558423

Rezultat: 95% srednjih vrednosti glikemije uzoraka populacije je
izmeu 5,97 i 6,56 mmol/l, ili moemo da kaemo da smo 95%
sigurni da se stvarna prosena vrednost glikemije populacije iz koje
dolazi uzorak nalazi meu 5,97 i 6,56 mmol/l.

Ovaj interval se zove intervalsko utvrivanje srednje vrednosti ili interval poverenja
srednje vrednosti ili confidence interval uzorka. Kao takav, predstavlja jako bitan deo statistikih
procedura. U savremenoj primenjenoj statistici korienje intervala poverenja uzorka je jako esta
i daje mu se prednost nad uobiajenim opisivanjem osobine uzorka pomou aritmetike sredine

70

i standardne devijacije.

t raspodela

Procenu stvarne srednje vresnosti radili smo na osnovu vie pretpostavki: jedna od njih bilo
je oekivanje da uzorak dolazi iz normalno distribuirane populacije; u drugom sluaju smo
oekivali da poznajemo varijansu populacije , a ujedno smo skrenuli panju da ovakva situacija
nije svakodnevni sluaj i koristili smo je kao model za objanjenje postupka. U situaciji kad ne
poznajemo ni srednju vrednost populacije, ni njenu varijansu, a imamo dovoljno veliki uzorak
izmeu 20 i 30 posmatranja, moramo da koristimo raspodelu koja se zove Studentova t raspodela.
Autor je V. S. Goset, koji je pisao pod pseudonimom Student i zato je i uao u upotrebu takav
naziv. Slino kao normalna raspodela i t-raspodela ima srednju vrednost 0, a ujedno je simetrino
raspodeljena oko srednje vrednosti. Za razliku od normalne raspodele (koja je imala disperziju
jednaku jedan), u Studentovoj raspodeli je disperzija vea od 1; meutim, prilikom veih uzoraka se
pribliava ka njoj i time se pravi cela porodica raspodela, kada je za svaku vrednost n - 1 drugaija
raspodela. U poreenju sa normalnom distribucijom, nema tako otar vrh, a ima vii rep (slika 5).
Vrednost n 1 se obino zove i stepen slobode ili broj stepena slobode, tako da je pri svakom
razliitom stepenu slobode i t raspodela drugaija. to vii stepen slobode - to i vea brojnost u
uzorka, a tim se i t raspodela vie pribliava prema normalnoj raspodeli.

Slika 5: Studentova t podela prilikom razliitih stepena slobode


Korienje ove podele prilikom utvrivanja stvarne srednje vrednosti u populaciji je
zasnovano na istom postupku kao pri i korienju vrednosti normalne raspodele:
procenitelj (koeficijent poverenja) x (standardna greka u uzorku).

Razlika je u izraunavanju koeficijenta poverenja, koji se izraunava na osnovu vrednosti t
raspodele prema odgovarajuem broju stepena slobode. Prednost ovog postupka je prevashodno
injenica da bolje prikazuje situacije, kada osim srednje vrednosti populacije otkrivamo i disperziju
populacije na osnovu njihovih taaka ocene, koje smo dobili iz uzorka. Uzorak mora da bude
dovoljno veliki, obino ne manje od 20 lanova. Ujedno je ovaj postupak manje osetljiv na

71

verovatnou normalne raspodele, a ponee i manja odstupanja od njega.

Intervalska ocena uzorka populacije

Spojiemo znanje o t raspodeli sa postupkom ocene uzorka i saznaemo precizniju ocenu
stvarne srednje vrednosti populacije (primer 3).

Primer 22: Izraunavanje intervala poverenja za procenu srednje vrednosti populacije
korienjem t podele
> gly<-c(5.3, 6.1, 5.8, 6.2, 6.4, 5.9, 6.7, 7.1, 6.3, 6.6, 7.4, 6.6, 5.7, 6.4, 5.5) # Pravljenje
vektora sa podacima iz primera 1
> gly
[1] 5.3 6.1 5.8 6.2 6.4 5.9 6.7 7.1 6.3 6.6 7.4 6.6 5.7 6.4 5.5
> mean(gly) # Izraunavanje srednje vrednosti uzorka
[1] 6.266667
> sem=sd(gly)/sqrt(length(gly)) # Izraunavanje standardne greke uzorka
> sem
[1] 0.1488581
> alfa<-(1-0.95)/2 # Izraunavanje verovatnoe za koeficijent poverenja
> alfa
[1] 0.025
> df <- length(gly-1) # Vrednost stepena slobode
> df
[1] 14
> t<- qt(alfa, df) # vrednost t raspodele za vrednost alfa i vrednost stepena slobode
> t
[1] -2.144787
> donji<-mean(gly)-abs(t*sem) # donja granica intervalne ocene srednje vrednosti uzorka
populacije
> donji
[1] 5.947398
> gornji<-mean(gly)+abs(t*sem) # gornja granica intervalne ocene srednje vrednosti uzorka
populacije
> gornji
[1] 6.585936

Rezultat interpretiramo u smislu zadatka, na primer tako da e 95% svih odabranih srednjih
vrednosti iz populacije biti izmeu 5.95 i 6.59 mmol/l.
Sigurno ste radoznali da nije neko izmislio jednostavniji proces kao dobiti inerval poverenja
za srednju vrednost populacije. Naravno da je izmislio. U R se nalazi komanda kojom se
korienjem t raspodele osim ostalog rauna i interval poverenja. Ova komanda t.test() izraunae,
osim intervala poverenja, i neke druge parametre o kojima emo govoriti u sledeim poglavljima.

72

Za ilustraciju emo koristiemo podatke o glikemiji iz prolog primera, a specifikacijom
promenljive gly, u koju smo je stavili u prethodnim koracima (ako niste iskljuili u meuvremenu
program R) i ujedno odreivanjem stepenom spoverenja 95% i zadavanjem conf.level = 0.95
dobijamo brzo rezultat (primer 4).


Primer 23: Interval poverenja za srednju vrednost populacije sa korienjem komande t.test()
>t.test(gly, conf.level = 0.95)

One Sample t-test

data: gly
t = 42.0983, df = 14, p-value = 3.819e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
5.947398 6.585936
sample estimates:
mean of x
6.266667

Intervalske ocene proporcije kod populacije

Studenti (ali ne samo oni) rado za izraavanje razlika meu merenjima koriste procente.
Procenat je deo (proporcija) celine preraunat na 100. Jako esto onda interpretiraju razliku izmeu
izraunatih procenata kao razliku izmeu merenja, a pri tom nisu svesni da je ovaj zavisan, izmeu
ostalog, i od veliine uzorka. Zato je jako znaajno izraunati intervalsku ocenu proporcije, isto kao
u sluaju srednje vrednosti. Neemo ga zato ilustrovati prema pojedinim koracima, ve emo
odmah prei na korienje komande na primeru studije u kojoj je utvreno da je u uzorku 185
mladih ljudi od njih 65, odnosno 35%, redovno puilo. Pitanje sledi: kakva je stvarna proporcija
puaa u populaciji pri verovatnoi 99%? Izraunavanje ilustruje primer 5.

Primer 5: Izraunavanje intervalske ocene proporcije
> prop.test(65, 185, conf.level = .99)
> prop.test(65, 185, conf.level = .99)
1-sample proportions test with continuity
correction

data: 65 out of 185, null probability 0.5
X-squared = 15.7622, df = 1, p-value = 7.182e-
05
alternative hypothesis: true p is not equal to 0.5

73

99 percent confidence interval:
0.2650632 0.4482346
sample estimates:
p
0.3513514

Obratite panju da smo u komandi prop.test() najpre odredili proporciju 35, a onda
celukopan broj u uzorku, a na kraju nivo poverenja, za koji izraunavamo interval poverenja.
Rezultat govori da je 99% svih proporcija puaa u populaciji izmeu 26% i 45%.

Saetak

Paljiv italac nauio je da korsti statistiku analizu za procenu stvarne srednje vrednosti
populacije na osnovu srednje vrednosti i standardne devijacije uzorka. Takoe je saznao kako otkriti
interval u kome se nalaze proporcije kod populacije, na osnovu proporcije odabranog uzorka. Ovo
znanje e se stalno ponavljati u raznim primerima u sledeim poglavljima. Ujedno je nauio o
sutini dve vrste raspodele, normalnoj i t raspodeli, a takoe i o prednostima za njihovo korienje.
Opet napominjemo da uvoenje takaste ocene srednje vrednosti ili proporcije bez navoenja
intervalske procene sa specifikacijom verovatnoe, mnogi nastavnici mogu da kvalifikuju kao
greku.











74

Primeri
24



Primer 1.
Istraiva se interesovao za vrednost nekih metala u krvih zdravih davalaca. Sluajnim
izborom odabrao je grupu davalaca i dobio je navedene podatke:
Se Zn Cu Mg
55 16,97 10,8 0,84
136,9 18,67 12,4 0,91
110,6 18,16 12,2 0,92
99,4 16,84 16,1 0,83
51,9 17,4 8,8 0,87
100 12,7 8,8 0,85
149,4 12,77 9,2 0,83
167,5 16,1 12,2 0,94
79,6 16,84 11,7 0,96
161,2 12,61 10,8 0,9
149,4 16,32 9 0,89
274,4 21,65 9,7 0,96
33,1 14,11 10,4 0,85
101,1 17,61 15,1 0,97
53,3 16,52 13,2 0,87

Hteo bi da sazna sa 99% verovatnoe, kakva je stvarna vrednost nivoa navedenih metala kod
populacije.

Primer 2.
Antropolog je istraivao razmere lobanja u uzorku sluajnog uzorka pojedinaca iz plemena
Kikuyu. Merio je sledee parametre: MB- Maksimalna irina lobanje , BH Visina lobanje od baze,
BL Visina lobanje od alveola, NH Nazalna visina lobanje i dobio je ove podatke:

MB BH BL NH
131 138 89 49
125 131 92 48
131 132 99 50
119 132 96 44
136 143 100 54
138 137 89 56
139 130 108 48

24
Upozorenje: za korektno koienje t testa neophodno je imati na raspolaganju barem 20 merenja iz uzorka, u
protivnom moramo da koristimo neparametarske metode, jer nemamo dovoljno jaku verovatnou iz priblino normalne
raspodele t. Ako je veliina uzorka vea od 30, moemo da koristimo t raspodelu zato to u tom sluaju t i N podele
su iste. Meutim, neemo da za provebavanje postupaka poveavamo broj merenja, da italac ne bi bio odvraen od
izraunavanja primera.

75

125 136 93 48
131 134 102 51
134 134 99 51
129 138 95 50
134 121 95 53
126 129 109 51
132 136 100 50
141 140 100 51

Interesovalo ga je kakve su prosene vrednosti navedeih parametara lobanja kod populacije
sa verovatnoom 95%.

Primer 3
Student je pratio poseenost fitnes centra u uzorku 150 ljudi sluajno pitanih na ulici.
Saznao je da 28 njih poseuje fitnes centar najmanje jednom nedeljno, a 89 ovakav centar nikad
nije posetilo. Hteo je da zna, kakva je stvarna proporcija redovnih posetilaca i onih koji jo nikada
nisu bili, na nivou pouzdanosti 90%, 95% i 99%.






















76

ESTO POGLAVLJE
Potvrivanje hipoteza

Sadraj poglavlja

Cilj poglavlja ................................................................................................................................. 77

Postupak prilikom potvrivanja hipoteza ...................................................................................... 77

Potvrivanje hipoteza .................................................................................................................... 81

Greke u procesu potvrivanja hipteza ......................................................................................... 89

Snaga testa ..................................................................................................................................... 89

p vrednost ...................................................................................................................................... 91

Saetak .......................................................................................................................................... 92

Vebe ............................................................................................................................................. 93














77

Cilj poglavlja

U prethodnom poglavlju smo zavirili u principe statistike analize srednje vrednosti,
odnosno proporcija promenljivih u populaciji, a na osnovu poznavanja njihovih takastih procena u
sluajnom uzorku. Sada emo ovaj princip rairiti tako to emo potvrivati hipoteze o osobinama
parametara populacije, opet na osnovu poznavanja parametara sluajnog uzorka. Uveemo
proceduru koja omoguava takvo zakljuivanje, a ujedno emo i prodiskutovati koncept greke u
statistici. Ovaj koncept e nam omoguiti ispravnu primenu i naroito interpretiranje p vrednosti u
vezi sa znaajnou odreene hipoteze.

Tabela 3: Ciljevi poglavlja
Objasniti pojam hipoteze i njene vrste
Opisati postupak potvrivanja hipoteza
Kako tano interpretirati rezultate potvrivanja hipoteza
Kakve vrste sta stistikih greaka postoje

Postupak prilikom potvrivanja hipoteza

Polazei od koncepta statistike analize, shvatamo postupak potvrivanja hipoteze kao
pomo istraivau, lekaru kliniaru ili drugom strunjaku, prilikom zakljuivanja o populaciji na
osnovu ispitivanja uzorka date populacije. S obzirom na injenicu da su ocene i potvrivanje
hipoteza veoma blisko povezane i koriste isti koncept, ovo poglavlje je prirodni nastavak
prethodnog. Pokazaemo i da korienje intervalske ocene vodi do istih zakljuaka kao korienje
postupka potvrivanja hipoteza. Meutim, radi lakeg razumevanja, prodiskutovaemo ova dva
postupka zasebno.
U uvodnom delu potrebno je razjasniti ta se misli pod pojmom hipoteze. Veoma uopteno
moemo da kaemo da se radi o prosuivanju o jednoj ili vie populacija. Testiranjem hipoteze se
utvruje da li je data pretpostavka spojiva sa dostupnim podacima. Na primer, specijalista higijene
eli da sazna da li je koncentracija metala u uzorcima vode u dozvoljenim granicama. Zato postavlja
hipotezu, dakle pretpostavlja, da e intervalska ocena srednje vrednosti Fe u vodi na osnovu
sluajno odabranih uzoraka biti u dozvoljenim granicama, odnosno vea od donje granice
dozvoljene koncentracije i manja od gornje granice. Moda e ga zanimati da li je ova vrednost
jednaka npr. vrednosti 0,03 mg na litar. Postupak potvrivanja hipoteze predstavljena je postupnim
koracima (Tabela 2).

Tabela 2: Postupak prilikom potvrivanja hipoteza
- Podaci
- Pretpostavke
- Hipoteze
- Statistiki test

78

- Raspodela rezultata testa
- Odluujue pravilo
- Rezultati statistikog testa
- Statistika odluka
- Administrativna ili klinika odluka

Pojedine korake emo postepeno objasniti. Skreemo panju da je sve korake neophodno
uraditi prilikom svakog procesa potvrivanja hipoteza, iako iskusan statistiar ne mora da radi
mnoge od njih tako detaljno, kao to emo mi sada uraditi.


1. Podaci
Na poetku cele procedure moramo da upoznamo sutinu podataka koji ine osnovu
testirajuih procedura. Mogu se koristiti mere centralne tendencije, disperzije, kao i grafiko
prikazivanje, dakle deskriptivna statistika. Na osnovu ovog poznavanja prelazimo na sledei korak.

2. Pretpostavke
Pretpostavke se odnose na raspodelu populacije iz koje potie uzorak. Pretpostavljamo da
uzorkujemo iz normalno distribuirane populacije ali, kako e se pokazati u narednim poglavljima,
moe da se pretpostavi i drugi nain raspodele. Ujedno moemo da pretpostavimo da su uzorci
nezavisni, ali da postoji jednaka disperzije u uzorcima pri primeni odreenog postupka uzorkovanja.
Pretpostavki se napravi vie, a esto se deava da im istraiva posveuje malu, ili nikakvu panju.
Onda se iznenadi da rezultati ne odgovaraju njegovim oekivanjima.

3. Hipoteze
Potvrivanje hipoteza pretpostavlja uvek dve hipoteze, od kojih jednu zovemo nultom, a
drugu alternativnom. Hipoteza koja treba da se potvruje je prva od njih, dakle nulta hipoteza,
oznaavana kao H
0
. Obino se naziva i hipotezom neprisutnosti razlike, zato to se prilikom
formulacije statistike hipoteze svako pitanje koje elimo da potvrdimo (ili opovrgnemo) trudimo
da preformuliemo u formu tako da pretpostaljamo da nema razlike (drugim reima, razlika je
jednaka nuli) izmeu dva ili vie posmatranih parametara. Ova koncepcija trai da budemo svesni
cilja statistikog saznanja i njegove formulacije. Pretpostavljamo da postoji razlika izmeu dva
uzorka, ali potvrujemo nultu hipotezu da su njihovi parametri, npr. srednje vrednosti jednake,
odnosno da izmeu njih nema razlike. Na primer, potvrujemo hipotezu da je srednja vrednost
jedne promenljive kod populacije jednaka srednjoj vrednosti druge populacije (dakle razlika izmeu
njih je 0 nulta hipoteza), ili da je srednja vrednost jednaka nekoj vrednosti (dakle, razlika srednje
vrednosti i pretpostavljene vrednosti jednaka je nuli, ili je disperzija jedne populacije jednaka
disperziji druge populacije. To je tvrdnja o saglasnosti (ili nedostatku razlike) sa stvarnim uslovima
u populaciji o kojoj se interesujemo. Proces potvrivanja hipoteza onda vodi ka saznanju da li
prihvatamo nultu hipotezu o nepostojanju razlike, odnosno o jednakosti parametara ili je
odbacujemo. Tada automatski prihvatamo alternativnu hipotezu H
A
, koja govori o postojanju

79

razlike meu parametrima.
Pretpostavimo da elimo da potvrdimo da li je prosean uzrast ispitivane populacije vei ili
manji od 25 godina (razliit od vrednosti 25 godina). Formulisaemo obe hipoteze tako da nulta
pretpostavlja da je prosean uzrast ispitivane populacije 25 godina, dok alternativna pretpostavlja da
je iznad ili ispod 25 godina. U skraenoj formi zapisaemo to ovako:
H
0
: = 25 alternativna hipoteza je H
A
: < > 25
U sluaju kada uporeujemo dve populacije, moemo da potvrdimo da li se srednja
vrednost jedne razlikuje od srednje vrednosti druge. Na primer, hoemo da saznamo da li je
savetovalite za smanjenje telesne mase dovelo do smanjenja kod sluajno odabranog uzorka u
poreenju sa kontrolnom grupom, koja nije koristila usluge savetovalita. Onda se hipoteze
formuliu tako da ako oznakom
1
oznaimo vrednost promenljive telesna masa populacije koja
koristi usluge savetovalita (dobijenom na osnovu sluajnog uzorka pojedinaca koji su koristili
usluge savetovalita), a sa
2
oznaimo vrednost promenljive telesna masa kod populacije kojoj
savetovanje nije bilo prueno (dobijenu na osnovu sluanog uzorka pojedinaca koji nisu
prisustvovali savetovanju), onda hipoteze formuliemo tako da je nulta hipoteza da su obe prosene
vrednosti telesne mase jednake, dok je alternativna hipoteza da nisu jednake.
H
0
:
1
=
2
H
A
:
1
<>
2

Ako nas interesuje samo efekat savetovanja na redukciju telesne mase, onda emo
utvrivati istu nultu hipotezu, ali trudiemo se prihvatimo samo alternativnu hipotezu da e
prosena vrednost telesne mase u grupi sa savetovanjem biti manja nego u grupi bez savetovanja:
H
0
:
1
=
2
H
A
:
1
<
2

Nulta hipoteza e se ili odbaciti ili prihvatiti. Ako se odbaci, onda moemo da obrazloimo
da dobijeni podaci nisu u skladu sa nultom hipotezom, meutim podravaju alternativnu hipotezu.
Ako se nulta hipoteza ne odbaci (prihvati se), onda moemo da obrazloimo da podaci nisu pruili
dovoljno informacija za odbacivanje nulte hipoteze. Prihvatanje ili odbacivanje nulte hipoteze jo
ne znai da je to u stvarnosti dokaz prisutnosti ili neprisutnosti razlike u parametrima. Izraavamo
se u smislu da (sa odreenom pretpostavkom) ova pojava moe da se desi. Ova koncepcija je
sutinska za ispravnu interpretaciju rezultata bilo kakvog procesa statistike indukcije.

4. Statistiki test
Primena odgovarajuih statistikih testova direktno utie na prihvatanje ili odbacivanje
nulte hipoteze. Statistiki test je algoritam ili postupak (veinom izraen formulom), ija ishodina
vrednost odreuje da li e nulta hipoteza biti prihvaena ili odbaena. Ishod statistikog testa je broj
koji lei na osi x raspodele populacije. Izbor adekvatnog statistikog testa je voen karakterom
pitanja na koje elimo statistiki da damo odgovor, a takoe i karakterom upotrebljenih podataka iz
uzorka.

5. Podela statistikih testova
Podela statistikih testova proizilazi iz poznavanja osobina uzorka i formulacije nulte
hipoteze. Veinom se navodi kod pojedinih statistikih testova.

6. Odluujue pravilo

80

Odluujue pravilo govori o tome ta treba da se desi sa nultom hipotezom. Kada sebi
predstavimo da su sve mogue vrednosti rezultata statistikog testa take na x osi grafikona njegove
distribucije, onda su te take, koje se prilikom prihvatanja nulte hipoteze pojave sa malom
verovatnoom, u tzv. zoni odbacivanja nulte hipoteze. Take koje se pojave sa visokom
verovatnoom su u tzv. zoni prihvatanja nulte hipoteze (Slika 1). Prema pravilima odbacujemo
nultu hipotezu ako je rezultat statistikog testa, izraunat u uzorku, u rasponu zone odbacivanja.
Ako izraunata vrednost nije u zoni odbacivanja, ali jeste u zoni prihvatanja, onda se nulta hipoteza
prihvata. Nivo znaaja odreuje povrinu ispod krive razlaganja rezultata statistikog testa iznad
zone odbacivanja i govorimo o verovatnoi odbacivanja nulte hipoteze.

Slika 1: Zona prihvatanja ili odbacivanja nulte hipoteze



7. Statistiki rezultati
Uporeuju se sa zonom prihvatanja ili odbacivanja nulte hipoteze i sazna se gde se
dobijene vrednosti nalaze u pogledu na obe zone.

8. Statistiko zakljuivanje
U ovom koraku odluiemo se o sudbini nulte hipoteze. Ako je vrednost statistikih
rezultata u rasponu zone prihvatljivosti nulte hipoteze, onda zakljuujemo da H
0
ne moemo da
odbacimo i prihvatamo je. Ako dobijena vrednost padne u zonu odbacivanja, onda zakljuujemo da
odbacujemo istinitost H
0
i moemo da prihvatimo alternativnu hipotezu H
A
.

9. Nauno zakljuivanje
Nauno zakljuivanje interpretira statistiki zakljuak i procenjuje naredni postupak, npr.
poveanje veliine uzorka. Jako je bitno i opredeliti se da li je statistiki razlika (veliina diferencije)
bitna (dovoljno velika) i kod naunog zakljuivanja.



Zona
prihvatanja
Zona odbacivanja

81

Potvrivanje hipoteza

Proces potvrivanja hipoteza pribliiemo na nekoliko primera. Jedan od njih e biti
potvrivanje hipoteza o srednjoj vrednosti, sledei e se ticati razlike aritmetikih sredina, poslednji
govori o razlici proporcija.

1. Potvrivanje hipoteze o aritmetikoj sredini populacije
Polazimo od opte pretpostavke da biramo iz populacije sa normalnom raspodelom, iako ovu
pretpostavku nekada nije mogue zadovoljiti. Kad se oekuje da je odstupanje od normalne
raspodele malo, opravdano je da se koriste ovi postupci potvrivanja hipoteze. Ako bi se raspodela
bitno razlikovala od normalne, onda bi primena ovih postupaka predstavljala veliku greku i
neohodno je koristiti druge postupke, npr. neparametrijske testove (blie o tome o neparametrijskim
testovima u poglavlju 10).



(a) Obostrani test

Primer 1: Zadavanje primera za obostran test
U studiji o tekim povredama mozga na odeljenju utvreno je da su pacijenti primljeni
sa ovom dijagnozom imali sledei nivo svesti, meren Glazgovskom skalom (GCS):
5, 4, 4, 5, 6, 5, 4, 5, 5, 6, 4, 5, 5, 4, 4, 5, 6, 5, 5, 5, 5, 5, 5, 5, 4, 5, 6.
Lekara je zanimalo da li je mogue da se kae da su pacijenti primljeni na odeljenje sa
prosenim GCS jednakom vrednosti 5.

Prema postupku potvrivanja hipoteza najpre steknemo miljenje o podacima.

Podaci
Podaci dolaze iz bolnikih beleenja o 27 pacijenata, primljenih na odeljenje sa
tekom povredom mozga. Prosena vrednost je 4,9.

Pretpostavke
Pretpostavljamo da su podaci normalno raspodeljeni i njihovu raspodelu saznajemo
pomou standardne devijacije 0,64.

Hipoteze
Pitanje u zadatku je bilo da li je pogue pretpostavljati da je stvarna srednja vrednost
populacije jednaka vrednosti 5. Dakle, formulacija hipoteza e biti sledea:
H
O
: = 5 H
A
: 5

Statistiki test
Budui da na uzorak dolazi iz populacije sa normalnom raspodelom, a disperziju
ove populacije saznajemo pomou standardne devijacije, koristiemo test Studentove t

82

raspodele
25
.

Raspodela statistikog testa
Ako je H
0
tana, onda je testirajua statistika podeljena prema Studentovoj t
raspodeli sa n 1 stepena slobode.

Odluujue pravilo
Ovo pravilo e nam rei da li da prihvatimo ili odbacimo nultu hipotezu da je
srednja vrednost jednaka vrednosti 5. Kada e biti H
0
pogrena? Onda, kada stvarna srednja
vrednost bude manja od 5 ili vea od 5. Kolika treba da bude razlika? Odgovor je u
verovatnoi sa kojom elimo da odbacimo istinsku H
0
, odnosno da napravimo greku tipa I.
Opredelimo se da e to biti na nivou = 0,05, dakle sa verovatnoom 5%. Moramo da
shvatimo da nas zanimaju vrednosti ne samo vee, nego i manje od 5. Dakle, testiraemo na
dve strane, pa zato moramo da verovatnou greke razdelimo na dve strane, na jednoj /2 =
0,025 i isto na drugoj strani /2 = 0,025. Pitamo se koje e vrednosti iz nae raspodele
odrediti gde lee navedene granice. Te vrednosti emo dobiiti iz tabele za t raspodelu, pri
broju stepena slobode n - 1, tj. 26 ili korienjem komande qt(), gde postavimo nivo
verovatnoe 0,025, sa kojom smo odluili da raunamo, a takoe i broj stepeni slobode, u
ovom sluaju 14. Zadavanjem > qt(0.025, 26), R e nam dati [1] -2,055529. Ovu vrednost
emo dalje zvati kritikom vrednou statistikog testa. Budui da proveravamo na obe
strane da li je stvarna vrednost manja ili vea od broja 5, onda govorimo o obostranom testu.
U ovakvom sluaju zona prihvatanja nulte hipoteze bie izmeu brojeva -2.055529 i
2.055529, a zona odbacivanja bie vrednost izraunatog statistikog testa manja od -
2.055529 ili vea od 2.055529 (slika 2).

Izraunata statistika vrednost
Statistiku vrednost izraunaemo pomou ve poznate komande t.test(gcs,mu=5,
conf.level = 0.95), gde je gcs vektor vrednosti, mu=5 govori da testiramo nultu hipotezu o
jednakosti stvarne srednje vrednosti sa vrednoi 5, a conf.level = 0.95 odreuje vrednost
verovatnoe. Rezultat
data: gcs
t = -0.9014, df = 26, p-value = 0.3757
alternative hypothesis: true mean is not equal to 5
95 percent confidence interval:
4.635511 5.142267

govori da je t test dao vrednost -0,9014.











25
Ne moemo da koristimo normalnu raspodelu kad ne poznajemo stvarnu varijansu populacije. Zato je traimo
pomou standardne devijacije i tada moramo da koristimo Studentovu t -raspodelu.

83

Slika 2: Odluujue pravilo o prihvatanju ili odbacivanju nulte hipoteze






















Statistika odluka
Na osnovu primene odluujueg pravila, prihvatamo H
0
onda kada je rezultat statistikog
testa izmeu kritinih vrednosti, odnosno izmeu brojeva -2.144787 i 2.144787. Budui da njena
vrednost lei stvarno meu njima (Slika 3), moemo da prihvatimo nultu hipotezu da je stvarna
srednja vrednost GCS jednaka vrednosti 5.


Slika 3: Postavljanje rezultata t testa prema kritikim vrednostima t raspodele



84


Struna odluka
Zakljuujemo da je stvarna srednja vrednost GCS kod pacijenata primljenih na odeljenje
posle teke povrede mozga u nivou vrednosti 5.
Kod detaljnije studije komande t.test() vidimo da izraunati interval poverenja 95 percent
confidence interval: 4.635511 5.142267 ima vrednost 5. To znai, samo da podsetimo, koliko su
usko povezane koncepcije otkrivanja i testiranja hipoteza.

(b) Jednostrani test
Prethodni test nazivamo obostran, zato to je verovatnoa odbacivanja rastavljena na obe
strane raspodele rezultata statistikog testa. Ako je zona odbacivanja samo na jednoj strani
raspodele, onda govorimo o jednostranom testu. Na istom primeru kao i u prethodnom sluaju,
pokazaemo kako da napravimo ovakav jednostran test.

Primer 2: Zadavanje
U studiji o tekim povredama mozga, na odeljenju su dobijeni podaci da su pacijenti
primljeni sa ovom dijagnozom imali sledei nivo svesti, meren Glazgovskom skalom
(GCS):
5, 4, 4, 5, 6, 5, 4, 5, 5, 6, 4, 5, 5, 4, 4, 5, 6, 5, 5, 5, 5, 5, 5, 5, 4, 5, 6.
Lekara je zanimalo da li je mogue rei da su pacijenti primani na odeljenje sa
prosenim GCS manjim od 5.

Postupak e biti isti, samo umesto pitanja da li je stvarna vrednost jednaka vrednosti 5,
pitaemo da li je ona manja od 5.

Podaci: isti kao u prethodnom primeru.
Pretpostavke: iste kao u prethodnom primeru.
Hipoteze: potvrivaemo da je stvarna srednja vrednost manja od 5. Zato nulta hipoteza
mora da pretpostavlja da je stvarna srednja vrednost jednaka ili vea od 5.
H
O
: 5 H
A
: < 5
Nejednaina vee ili jednako u nultoj hipotezi predstavlja, zapravo, bezbroj hipoteza.
Mi emo testirati samo deo koji izraava jednainu, zato to je mogue dokazati da
odluka vai za bilo koju proizvoljnu hipotezu iz datog skupa.
Statistiki test: ista kao u prethodnom primeru.
Raspodela rezultata statistikog testa: ista kao u prethodnom primeru.
Odluujue pravilo: Ostaemo na nivou verovatnoe 0,05, isto kao u prethodnom primeru.
Kada emo, meutim, zakljuiti da prihvatamo, odnosno odbacujemo nultu hipotezu? Onda,
kada je re o kritinoj vrednosti levo od sredine, dakle u smeru gde su jako mali brojevi.
Zona prihvatanja bie desno od kritine vrednosti, a zona odbacivanja levo (slika 4).
Odgovarajuu kritinu vrednost izraunaemo komandom t podele > qt(0.05, 26), sa
rezultatom -1.705618.
Izraunavanje statistikog testa:
> t.test(gcs, alternative = c("less"), mu = 5, conf.level = 0.05)
One Sample t-test
data: gcs
t = -0.9014, df = 26, p-value = 0.1878
alternative hypothesis: true mean is less than 5

85

Obratite panju da smo u komandi zadali specifikaciju alternativnog testa alternative
= c("less"), koja govori da potvrujemo alternativnu hipotezu da je srednja vrednost manja
od 5. Dobijeni rezultat ima vrednost -0,9014.
Statistika odluka: Ne moemo da odbacimo nultu hipotezu, budui da je izraunata
vrednost -0,9014 vea od kritine vrednosti -1,705618 ili -0,9014 > -1,705618.
Struna odluka: Stvaran prosek GCS kod pacijenata primljenih na odeljenje moe da bude
jednak ili vei od 5, na nivou znaaja 0,05.
Ovim smo zavrili testiranje hipoteza o jednoj aritmetikoj sredini. U sledeem delu emo se
koncentrisati na potvrivanje razlika izmeu dve aritmetike sredine. Ovo je veoma esto koriena
procedura, ali ne i svaki put ispravno ni primenjena, niti su rezultati uvek ispravno interpretirani.


Slika 4: Ilustracija zone prihvatanja i odbacivanja nulte hipoteze za srednju vrednost



2. Potvrivanje hipoteze za razliku aritmetikih sredina
Najee elimo da pokaemo da se dve aritmetike sredine razliite. Potvrujemo da li je
neka aktivnost dovela ili nije dovela do rezultata u formi razlike aritmetikih sredina merenja
promenljive. U ovim sluajevima potvrujemo neku od tri nulte hipoteze:
H
O
:
1

2
= 0 H
A
:
1

2
0 ili u formatu

H
O
:
1
=
2
H
A
:
1

2

H
O
:
1

2
0 H
A
:
1

2
< 0 ili u formatu

H
O
:
1

2
H
A
:
1
<
2

H
O
:
1

2
0 H
A
:
1

2
> 0 ili u formatu

H
O
:
1

2
H
A
:
1
>
2

Dok je prvi primer definicije H
0
obostrano potvrivanje hipoteza, druga dva primera
predstavljaju jednostrane testove. Njihovo korienje ilustrovaemo na primeru (primer 3).

Primer 3: Zadavanje
U studiji o tekim povredama mozga, na odeljenjima dve bolnice uporeivana je duina

86

boravka bolesnika u danima na jedinici intenzivne nege, sa ovim rezultatima. Bolnica A
za praeni period primila je 16 bolesnika sa tekom povredom mozga, a broj dana
hospitalizacije je bio:
6, 5, 6, 5, 8, 14, 17, 6, 10, 10, 3, 4, 13, 4, 11, 17.
Bolnica B u praenom periodu je primila 22 bolesnika sa tekom povredom mozga, sa
sledeom duinom hospitalizacije:
44, 8, 12, 24, 5, 20, 3, 20, 6, 22, 4, 3, 91, 6, 4, 4, 13, 9, 18, 10, 1, 40.
Manadment obe bolnice je zanimalo da li je na osnovu navedenih merenja mogue rei
da postoji razlika izmeu duine hospitalizacije u navedenim bolnicama.
Reenje zadatka emo prikazati prema navedenoj emi potvrivanja hipoteze.
Podaci: Podaci dolaze iz dve ustanove, u bolnici A je bilo u praenom periodu
hospitalizovano 16 bolesnika sa tekom povredom mozga, a u bolnici B ih je bilo 22.
Pretpostavke: Pretpostavljamo da je duina hospitalizacije normalno raspodeljena u
populaciji, zatim da su oba uzorka bila uzajamno nezavisna. Raspodelu svake populacije
utvrujemo na osnovu standardnih devijacija uzoraka.
Hipoteze: Menadement se pita da li je postoji razlika u prosenoj duini hospitalizacije
meu ove dve ustanove. Zato nulta hipoteza mora da pretpostavlja da ovaka razlika ne
postoji. Formalno emo ti zapisati kao:
H
0
:
1

2
= 0 H
A
:
1

2
0
ili na drugi nain


H
0
:
1
=
2
H
A
:
1

2

Obe varijante su po znaaju jednake, samo emo stvarnost jednakosti aritmetikih
sredina jednom izraziti kao razliku koja je jednaka nuli, a drugi put emo koristiti znak
jednakosti izmeu aritmetikih sredina obe populacije.
Statistiki test: bie to t raspodela sa zajednikom disperzijom dobijenom na osnovu
standardnih devijacija oba uzorka.
Raspodela rezultata testa: Ako je nulta hipoteza tana, onda je raspodela prema Studentovoj
t raspodeli, sa izraunatim brojem stepena slobode 23,939.
Odluujue pravilo: Izraunamo kritine vrednosti > qt(0.01, 23.939) sa rezultatom -
2.49261. Pri nivou verovatnoe 0,01 kritika vrednost za odluku iznosie t = 2,49261.
Nultu hipotezu moramo da odbacimo ako izraunata t vrednost bude mimo intervala
poverenja, sainjenog od od granica - 2,49261 do +2,49261.
Izraunavanje statistikog testa: Opet emo koristiti komandu t.test() sa sledeim
parametrima: > t.test(Hosp_A, Hosp_B, conf.level = 0.01), gde emo zadati oba proveravana
uzorka i nivo spoverenja 0,01. Rezultat
data: Hosp_A and Hosp_B
t = -1.7899, df = 23.939, p-value = 0.08612
obrazloie ne samo statistiki test, nego i broj stepena slobode (nije potrebno izraunavati
ga posebno).
Statistika odluka: Rezultat nas primorava da prihvatimo nultu hipotezu o neprisutnosti
razlike meu aritmetikim sredinama obe populacije, budui da -2.49261 < -1.7899 <
2.49261.
Struna odluka: Menadment moe da zakljui da, uz navedenu verovatnoom i na osnovu
podataka, nije utvrena ispitivana razlika izmeu prosenog vremena hospitalizacije u obe ustanove.
U posmatranom primeru nismo uspeli da ignoriemo nultu hipotezu, to znai da postoji ansa da
prilikom proirenja posmatranja ova razlika moe da se pojavi.


87

Relultat moemo da potvrdimo i pomou oslikavanja u boksplotu (slika 5).

Slika 5: Boksplot uporeivaja duine hospitalizacije u obe ustanove pomou >
boxplot(Hosp_A, Hosp_B)


Iz slike vidimo da izmeu obe aritmetike sredine nema razlike, meutim u drugoj bolnici je
disperzija podataka vea nego u prvoj.

3. Parno uporeivanje
U istraivanju delotvornosti lekova ili eksperimentalnih procedura esto radimo sa
nepoznatim uzorcima. Cilj ovakvih uporeivanja je minimalizovanje eksternog izvora disperzije
pribliavanjem slinosti parova za to vie promenljivih. Takoe kod svakog pojedinca radimo dva
merenja, veinom prvo pre intervencije ili davanja lekova, a drugo sledi posle intervencije ili posle
uzimanja leka. esto se deava da material, koji treba da se analizira, podeli na dve polovine i svaka
se meri drugom metodom. Nekada se parovi naprave na osnovu odgovarajue karakteristike, npr.
ljudi istog uzrasta i pola. Postupak analize je umeren na modifikovanje tako to se, umesto analize
svakog posmatranja, analiziraju razlike u parovima. Demonstriraemo ovaj postupak na primeru
gde se potvrivao uinak dijete na visinu sistolnog krvnog pritiska kod 10 pojedinaca. Pritisak je
bio meren pre poetka dijete i posle 20 dana nakon zapoinjanja iste. Rezultati merenja nalaze se u
sledeoj tabeli.








88

Primer 4: Zadavanje primera za parno uporeivanje

Sistolni krvni pritisak kod 12 pojedinaca pre i
posle dijete
Pojedinac Sistolni pritisak Razlika
Pre (X1) Posle (X2)
1 125 120 -5
2 150 145 -5
3 140 120 -20
4 160 140 -20
5 135 150 15
6 145 125 -20
7 130 160 30
8 160 125 -35
9 155 135 -20
10 140 120 -20
11 135 155 10
12 135 150 15
13 145 125 -20

Podaci: U tabeli je 12 merenja u parovima, pre i posle intervencije. Poslednja kolona predstavlja
razlike meu vrednostima u paru.
Pretpostavke: Posmatrane razlike predstavljaju sluajan uzorak iz populacije sa normalnom
raspodelom i logino je da je neophodno imati isti broj posmatranja kod obe grupe. U sluaju da to
nije tako, moramo se zadovoljiti samo uporeivanjem srednjih vrednosti aritmetikih sredina, kao
u primeru 3.
Hipoteze: Pretpostavljamo da emo uspeti da dokaemo da je dijeta uinkovita, a izmeu dve
aritmetike sredine postoji razlika. Zato nultu hipotezu formuliemo u smislu nepostojanja razlike
izmeu aritmetikih sredina ili je razlika vea od 0. Alternativna hipoteza pretpostavlja mogunost
da je razlika manja od 0. Ako oznaimo razliku izmeu aritmetikih sredina kao d =
2

1
, onda
moemo da formuliemo hipotezu na sledei nain:
H
0
:
2

1
0 odnosno H
0
:
2

1


H
A
:
2

1
< 0 odnosno H
0
:
2
<
1

Statistiki test: Dok je nulta hipoteza tana, t test je raspodeljen sa n 1, to jest 11 stepeni slobode.
U prolom sluaju imali smo dve disperzije, dok sada, kada radimo sa istim pojedincem, imamo
jednu zajedniku disperziju.
Odluujue pravilo: Prema konstrukciji nulte hipoteze koristiemo jednostran test na nivou 0,01,
koji govori o odbacivanju nulte hipoteze ako je rezultat testa manji od -2,718079 (> qt(0.01, 11)).
Izraunata vrednost testa: 1,1703
> t.test(X1, X2, alternative = c("less"), paired=T, conf.level = 0.01)
Paired t-test
data: X1 and X2
t = 1.1703, df = 12, p-value = 0.8677
alternative hypothesis: true difference in means is less than 0

Obratite panju da smo koristili specifikaciju paired=T za odreivanje naina izraunavanja
pomou parnog t-testa.

89

Statistika odluka: Prihvatiti nultu hipotezu o nepostojanju razlike izmeu parova, budui da je -
2,718079 < 1.1703.
Struna odluka: Do sada se nije potvrdio uinak proveravane dijete. Problem moe da bude i mali
broj posmatranja.
Parna posmatranja nisu uvek povoljna. Jedan od nedostataka je gubljenje stepena slobode, a
time i potreba za veim uzorkom. To moe da se povea trokove realizacije istraivanja.

Greke u procesu potvrivanja hipoteza
Posle savladavanja postupka potvrivanja hipoteza ukazaemo na neke mogue posledice
ovog procesa. Jedna od njih je pogrean zakljuak, koji ne napravi istraiva, ve je posledica
situacije koja je nastala u procesu uzorkovanja. Konstatujemo da u procesu zakljuivanja moe da
se desi greka prouzrokovana karakterom verovatnoe procesa. Dok bacamo kocku i 10 puta
uzastopno padne na 6, moe se pomisliti da je kocka nametena i da smo dobili pogrean rezultat.
Ali to ne mora da bude tano, i sa normalnom kockom moe da se desi da e vie puta uzastopno
pasti isti taj broj. To je sluajnost. Prilikom veeg broja bacanja moe se pre li kasnije sve ispraviti,
a uestalost svih brojeva moe biti jednaka. To je problem i sa malim uzorcima. To nam ukazuje na
injenicu da statistiar mora da zna da se nosi i sa ovakvom situacijom. Nazivamo je grekom tipa
I, to jest onda kada odbacimo pravila nulte hipoteze. U sluaju bacanja kocke, nulta hipoteza
pretpostavlja da svi brojevi na kocki imaju istu verovatnou. Kad, meutim, 10 puta padne na est,
pogreno zakljuimo da to nije tano i da broj est ima veu verovatnou da se pojavi nego ostali
brojevi. Ovakav zakljuak (kod nenametene kocke) je pogrean, a to je greka tipa I, odnosno
odbacujemo tanost nulte hipoteze. Verovatnoa da se napravi ovakva greka je jednaka vrednosti ,
to je ista alfa vrednost kakvu smo koristili kod otkria stvarne vrednosti kod populacije. Zato kad
je proizvoa prilikom provere leka na 100 pacijenata saznao da ovaj smanjuje temperaturu za
jedan stepen za 30 minuta sa standardnom devijacijom tri minuta, znamo da izraunamo da e
stvarna prosena vrednost biti u rasponu 29,4 minuta do 30,6 minuta. Kod dva pacijenata smo,
meutim, saznali, da se period uinka leka produio na 45 minuta i zato smo zakljuili da
informacija koju je dao proizvoa nije tana. Time smo u na zakljuak uveli greku tipa I,
odnosno odbacili smo tanu hipotezu.
ta je onda greka tipa II? Ona nastaje onda, kada bismo bacali lano nametenu kocku,
ali rezultati bacanja na to ne bi ukazivali (tome se ne bi obradovali ni laan igrai). Statistiki
reeno, prihvatili smo lanu, netanu nultu hipotezu, da svako bacanje ima jednako verovatnou za
sve brojeve. Ovako smo izgubili mogunost da otkrijemo lanu kocku, a isto tako i lanu hipotezu.
Pojava ove greke ima uticaj na vie faktora. U prvom redu je veliina uzorka. Ako bismo, u sluaju
kocke, bacali ee od 10 puta, onda bi se sigurno pokazalo da je neki od brojeva preferiran, a
kocka je lana, kao i hipoteza o jednakosti brojeva. Isto tako bitna je i veliina razlike koju elimo
da odredimo: to manja razlika, to je potreban vei uzorak i obrnuto.

Snaga testa
Greka tipa I, dakle odbacivanje tane hipoteze, ukazala nam je na slabost procedure
testiranja hipoteza. Kada pogledamo na ovu slabost optimistinim pogledom, onda je njena
suprotnost snaga testa da otkrije stvarnu razliku. Ovo se zove snaga testiranja hipoteze. Ona se meri
verovatnoom, koja je jednaka verovatnoi da doe do greke tipa II, ali sa suprotnim predznakom.
Drugim reima, snaga testa je verovatnoa odbacivanja H
0
za situacije kada je H
0
netana. Bitno je

90

imati u vidu da snaga testa zavisi od veliine uzorka i stvarne vrednosti parametra, kako smo o tome
ve ranije govorili.
Iako raunanje snage testa prevazilazi mogunosti i potrebe ovog teksta, pokazaemo da R
prua komande koje e omoguavaju takvo izraunavanje. Za komandu t.test(), sa kojom smo se
ve upoznali, to je komanda power.t.test(). Zadavanjem raznih parametara moemo da otkrijemo
snagu testa u raznim situacijama.
Ako ne elimo da izraunavamo snagu testa za pojedina zadavanja, internet nudi brojne
grafikone, iz kojih lako moemo da izvedemo vrednost, koja odgovara datoj situaciji. Ovde
dolazimo do sledee mogunosti praktine primene ovog postupka, a to je procena veliine uzorka.
Kad ponavljamo postupak iz primera, onda lako dolazimo do toga da za odreenu granicu vie nije
potrebno poveavati uzorak, zato to snaga testa ostaje na 100 procenata. Zato svako bespotrebno
merenje moe da nam znai trud ili novac koji nisu morali da budu utroeni, jer nam ne donose
nita novo, nikakvu veu tanost.

Primer 5: Snaga komande t.test()
Na osnovu podataka o glikemiji, pokazaemo izraunavanje snage t.testa
> gly
[1] 5.3 6.1 5.8 6.2 6.4 5.9 6.7 7.1 6.3 6.6
7.4 6.6 5.7 6.4 5.5
> power.t.test(n=length(gly), delta = 1, sd
= sd(gly), sig.level = 0.05)

Two-sample t test power calculation

n = 15
delta = 1
sd = 0.5765249
sig.level = 0.05
power = 0.9956279
alternative = two.sided

> power.t.test(100, delta = 1, sd = 0.577,
sig.level = 0.05)

Two-sample t test power calculation

n = 100
delta = 1
sd = 0.577
sig.level = 0.05
power = 1
alternative = two.sided

NOTE: n is number in *each* group

> power.t.test(5, delta = 1, sd = 0.577,
Podatke o glikemiji imamo iz prethodnih
primera


komandom power.t.test() zadajemo broj
merenja u uzorku veliine n, delta = 1
govori da elimo da testiramo stvarnu
razliku izmeu aritmetikih sredina;
zadajemo takoe i standardnu devijaciju i
nivo verovatnoe sig.level





Rezultat je visoka verovatnoa da greka
tipa I nee biti dostignuta


Probamo ta e se desiti kada veliinu
uzorka poveamo na 100, pri zadravanju
ostalih parametara







Pokazalo se da je snaga testa dostigla 1,

91

sig.level = 0.05)

Two-sample t test power calculation

n = 5
delta = 1
sd = 0.577
sig.level = 0.05
power = 0.6713634
alternative = two.sided

NOTE: n is number in *each* group
dakle maksimum. Drugim reima, test ima
maksimalnu snagu da sprei greku tipa I








Prilikom smanjenja veliine uzorka na 5,
snaga testa se e se znaajno sniziti na 0.67,
dakle na 67%

p vrednost

U zakljuku ovog poglavlja smatramo da je bitno ukratko govoriti o koncepciji p vrednosti,
ili tzv. pe i njenoj ulozi prilikom interpretacije znaajnosti ili signifikantnosti rezultata testa.
Standardno se navodi da je npr. razlika dva merenja znaajna, sa p < 0,05. Pokuaemo da
odgonetnemo ovu izreku u svetlu do sada neizreenog. Jasno nam je da testiranje hipoteza dovodi
do potvrivanja hipoteza o prisustvu ili odsustvu razlike, npr. izmeu aritmetikih sredina. Ovu
injenicu onda izraavamo prihvatanjem ili odbacivanjem nulte hipoteze, a u drugom sluaju
prihvatanjem alternativne hipoteze. Uvek odredimo na kom nivou elimo da potvrujemo H
0,
a ovu
verovatnou onda koristimo pri izraunavanju kritine vrednosti. Mogu je i drugi nain i to takav,
da kompjuter sam izraunava kada bi bilo dobro odbaciti nultu hipotezu, a prihvatti alternativnu. A
to je to nae p. Dakle, ako vidimo u rezultatu p = 0,123, jasno nam je da e kritina vrednost za
odbacivanje H
0
biti na nivou 12%, ta se iz pogleda uobiajenog postupka interpretacije rezultata u
biolokim naukama smatra za neprihvatljivo i zato se prednost daje prihvatanju H
0.
Pogledajte
rezultate naih primera, tamo gde smo prihvatili nultu hipotezu tamo je i komanda t.test() ispisala
vrednost p, oznaenu kao p-value veu od 0,5. Ovu vrednost moramo i da tano interpretiramo. Ako
na njenoj osnovi odbacujemo H
0,
mora da nam bude jasno da to jo ne znai da e sve razlike biti
razliite, to samo znai da radimo sa odreenom grekom, a to je verovatnoa njene pojave. Kakva
je to greka? To je greka iz odbacivanja tane nulte hipoteze, dakle tipa I. Kakav zakljuak
moemo da damo na osnovu rezultata utvrivanja razlika dve aritmetike sredine, kada program
izrauna p = 0,004? U prvom redu moramo da budemo svesni da u biolokim naukama radimo sa
uobiajenom vrovatnoom i to 0,05, 0,01, 0,001 i 0,0001. Sve izraunate verovatnoe uporediemo
sa ovim vrednostima tako da zapisana vrednost verovatnoe iz skupa uobiajenih bude vea nego
izraunata. Tako emo izraunatu vrednost p = 0,004 navoditi kao p < 0,01. Nije praksa da se
navodi sama izraunata vredenost. Interpretirati je moemo tako da je stvarna razlika aritmetikih
sredina verovatno na nivou 1% ili sa grekom 1%. Ovaj podatak nam je znaajan i prilikom
shvatanja da kod svakog sluaja razlika mora da da bude jednoznana. Zato podatak tipa pokazali
smo da je signifikantna razlika izmeu aritmetikih sredina ne bi trebalo da se pojavljuje u strunoj
literaturi (ni kod studenata). ta sa sluajevima kad je vrednost p vea od 0,05? Ni u takvom sluaju
ne navodimo njenu vrednost, ve navedemo n.s. kao znak da razlika nije bitna (signifikantna).
Mogue su i druge oznake - esto se koriste * (zvezdice) za oznaavanje nivoa verovatnoe, npr.
p<0,05 se oznaava *, p < 0,001 kao **, p < 0,0001, kao *** i tako dalje.

92




Saetak
U ovom poglavlju smo naveli postupak pri potvrivanju hipoteza, koji je deo statistike
analize. Ovaj postupak, iako ne ovako detaljno, koristiemo i u narednim poglavljima, ali neemo
navoditi sve korake. italac e ih pretpostavljati iza svake realizovane analize. Naveli smo i
koncepciju greke testiranja, a takoe i snagu testa. Iz praktinih razloga ovde smo svrstali i
razmiljanje o tanoj interpretaciji izraunatog nivoa verovatnoe.























93

Vebe

Zadatak 1.
Ispitiva je posmatrao 24-asovni utroak energije u MJ u grupi mravih i gojaznih. Interesovalo
ga je da li moe da zakljui da se prosene vrednosti utroka energije razlikuju. (Podaci su u IswR,
uzorak energy).


Zadatak 2.
Ispitiva je posmatrao energetski unos u KJ kod 11 ena pre i posle menstruacije. Da li moemo
da zakljuimo, da se prosean energetski unos razlikovao? Moemo da kaemo da je unos pre
menstruacije veo nego posle nje? (Podaci su u IswR, uzorak intake).


Zadatak 3.
Kod praenja radnika na izradi kadmijuma uporeivan je celokupni vitalni kapacitet kod dve
grupe: 1 izloenih vie od 10 godina, 2 neizloenih. Da li je mogue zakljuiti da je vitalni
kapacitet plua u prvoj grupi bio vei nego u drugoj? (Podaci su u IswR, uzorak vitcap).































94

SEDMO POGLAVLJE

Analiza varijanse

Sadraj poglavlja

Cilj poglavlja......................................................................................................................................95

Postupak.................................................................................................................................. 95

Poreenje viestrukih srednjih vrednosti.........................................................................................100

Bifaktorijalna ANOVA.....................................................................................................................102

Saetak.............................................................................................................................................104

Vebe................................................................................................................................................105






























95

Cilj poglavlja

U prethodnim poglavljima informisali smo se o nainima utvrivanja razlike izmeu dve
aritmetike sredine. Sigurno ste mogli da predstavite sebi situaciju kad treba da meusobno
uporedimo tri ili vie aritmetikih sredina. Jedan od moguih odgovora bi bio da ponovimo test
uporeivanja dve aritmetike sredine procedurom t.test(). Za tri aritmetike sredine bi morali da
uradimo tri uporeivanja: prvu aritmetiku sredinu sa drugom, drugu sa treom i prvu sa treom. To
nije tako komplikovano. Meutim, ta u situaciji kad treba da uporeujemo vie aritmetikih
sredina, recimo est? U ovakvoj situaciji broj kombinacija bie mnogo vei, ak 30. To bi ve
zahtevalo jako veliki napor. Pritom bi nam se javila jo jedna prepreka, a to je narastua greka.
Zamislite da stvarno napravimo est uzoraka i krenemo da ih uporeujemo pri prihvatanju
verovatnoe greke na nivou 0,05. Pri dvadeset ponavljanja, greka se izmeu sebe mnoi i na kraju
bismo dobili greku 0,64, odnosno verovatnoa da se odbaci tana hipoteza (greka tipa I) bi bila
0,64, tj. 64%. Priznajte da veran korisnik statistike ovo sebi ne moe da dozvoli. Osim toga, bilo bi
jako teko zanemariti uticaj naina izbora uzorka. Reenje prua postupak koji zovemo analizom
disperzije ANOVA (Analysis of Variance), a za razliku od prethodnog postupka, analiziraemo
razlike u disperziji izmeu pojedinih uzoraka. U ovom poglavlju pokazaemo kako ANOVA radi,
kako moemo da interpretiramo rezultate i kako da je koristimo u praksi.

Tabela 1: Ciljevi poglavlja
Objasniti osnovne postupke prilikom analize varijanse ANOVA
Interpretacija rezultata


Postupak

Prvi korak ine podaci koje elimo da analiziramo. Zadajemo u primeru 1.

Primer 24: Zadavanje primera i pravljenje uzorka podataka
Zadavanje:
Ispitiva se interesovao za duinu hospitalizacije (DH-broj dana provedenih u bolnici) operisanih
bolesnika na odeljenju u tri bolnice. elimo da znamo da li postoji razlika izmeu bolnica.
Postupak:
Svaku bolnicu je oznaio sa velikim slovom od A do C.
Vektor oznaene bolnice A: 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A'
Vektor vrednosti DH bolnice A: 9, 3, 14, 13, 14, 5, 3, 5, 11, 3, 8, 6, 5, 8
Vektor oznaene bolnice B: 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'
Vektor vrednosti DH bolnice B: 4, 4, 7, 7, 7, 4, 4, 3, 3, 4
Vektor oznaene bolnice C: 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C'
Vektor vrednosti DH bolnice C: 3, 6, 4, 9, 6, 4, 5, 5, 6, 3, 5
Napravio je dva vektora:
U vektor ABC je stavio podatke DH, u abc je stavio vektor oznaenih bolesnika:
> ABC<-c(9, 3, 14, 13, 14, 5, 3, 5, 11, 3, 8, 6, 5, 8, 4, 4, 7, 7, 7, 4, 4, 3, 3, 4, 3, 6, 4, 9, 6, 4, 5, 5, 6,
3, 5)
> abc<-c('A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
'B', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C')
Za razaznavanje oznaenih podataka potrebno je konvertovati vektor abc u vektor oznaen

96

pomou komande label():
> fact_abc <- factor(abc)
> fact_abc
[1] A A A A A A A A A A A A A A B B B B B B B B B B C C C C C C C C C C C
Levels: A B C
Za spajanje podataka i njihovo oznaavanje koristi se ablon podataka, dakle data frame, a ovo
spajanje se dobije komandom:
> bolnice<- data.frame(ABC, fact_abc)
> bolnice
ABC fact_abc
1 9 A
2 3 A ...
Sada u okviru bolnica imamo promenljivu ABC sa vrednostima broja dana hospitalizacije i
fact_abc sa oznakama. Poto smo pripremu podataka zavrili, moemo jo da prekontroliemo da
li je sve u redu, a koristiemo za to komandu summary().
> summary(bolnice)
ABC fact_abc
Min. : 3 A:14
1st Qu.: 4 B:10
Median : 5 C:11
Mean : 6
3rd Qu.: 7
Max. :14

Ovaj nain zadavanja ulaznih podataka za vie grupa koristiemo i u narednim sluajevima.
Obratite panju da je svaka bolnica primila razliit broj bolesnika: A 14, B 10 i C 11. I iz ovog
vidite da nije mogue za zadavanje podataka koristiti obinu matricu.
Podaci: predstavljaju uzorak iz tri bolnice, a u svakoj je bio zabeleen razliit broj sluajeva.
Karakteristike prikupljenih podataka su u tabeli 1.

Tabela 2: Podaci iz primera 1

Bolnica A Bolnica B Bolnica C
9 4 3
3 4 6
14 7 4
13 7 9
14 7 6
5 4 4
3 4 5
5 3 5
11 3 6
3 4 3
8 5
6
5

97

8
Broj 14 10 11
Zajedno sum() 107 47 56
Prosek
(aritmetika
sredina)
7,6 4,7 5,1
Za sve kolone Broj =35 Zajedno dana = 210

Pretpostavke: Odabrali smo tri grupe podataka sluajnim izborom iz populacije sa normalnom
raspodelom. Moraju da ispunjavaju sledee pretpostavke:
- Populacija je nezavisna (drugaije reeno: ne utiu jedna na drugu);
- Svaka od njih ima normalnu raspodelu;
- Disperzije su jednake.

Hipoteze: Isto kao u sluaju prilikom potvrivanja hipoteza o razlici aritmetikih sredina i u ovom
sluaju potvrujemo hipotezu da su aritmetike sredine u populaciji jednake.
Nultu hipotezu za korienje ANOVA procedure onda formuliemo uopteno kao:
H
0
:
1
=
2
= . . . =
k
, gde je
1
aritmetika sredina prve populacije, a broj svih aritmetikih
sredina ne znamo, pa zato koristimo indeks k, iza koga moemo da stavimo stvaran broj uzoraka. U
naem sluaju, dakle, nulta hipoteza e glasiti:
H
0
:
1
=
2
=
3

ta emo sa alternativnom hipotezom? Na prvi pogled moe da nam se ini da bi to trebalo
da bude hipoteza o nejednakosti svih aritmetikih sredina. Zapravo, to nije tako; morali bi da
imamo jako striktno pravilo, ukoliko bismo eleli da imamo sve aritmetike sredine razliite, a u
veini sluajeva to nam nije ni cilj. Tako da je alternativna hipoteza pretpostavka da najmanje dve
aritmetike sredine nisu jednake. Dakle, napisaemo
H
A
: Najmanje dve od aritmetikih sredina
1
,
2
, , , ,
k je
su razliite.
U naem sluaju to e biti za k = 3.
H
A
: Najmanje dve od aritmetikih sredina
1
,
2
,
3
su razliite.
Za razliku od testa razlike dve aritmetike sredine, u ANOVA je mogua samo jedna varijanta, a
to je razlika aritmetikih sredina; ni vea, ni manja se ne testira. To vai i za rezultat, jedina
informacija koju e ANOVA dati je informacija da postoje najmanje dve aritmetike sredine koje su
razliite. Za objanjenje koje su to dve aritmetike sredine, nephodno je koristiti druge testove.
Nasuprot tome, rezultat ANOVA je jako bitan za predstojei rad istraivaa statistiara.
Statistiki test. Od poetka poglavlja naglaavamo da je ANOVA koncipirana na potvrivanju
razlika izmeu varijansi. Prisetimo se da je t raspodela bila koriena onda kada smo se interesovali
za razlike u srednjim vrednostima i otkrivali smo disperziju kod populacije pomou standardne
devijacije uzorka. Iz razloga statistike korektnosti (objanjenje bi trailo korienje matematikog
aparata i dublje znanje matematike) neophodno je koristiti druge raspodele, odnosno F raspodelu.









98

Slika 1: Sluajevi F raspodele prilikom raznih stepena slobode


Ova raspodela nije simetrina oko aritmetike sredine, ali jeste odreena sa dva stepena
slobode. Sve F podele poinju nulom i zakrivljene su na desno. Stepen zakrivljenosti i njena visina
su dati sa dva stepena slobode, datim k 1 i n k. Dok prvo govori o broju uzoraka minus jedan,
drugo govori o broju svih merenja kod svih uzoraka minus broj uzoraka.
Izraunavanje statistikog testa: radi se u tri koraka. Izraunavanje zbira drugih korenova razlika,
izraunavanje njihovih aritmetikih sredina i formiranje F testa. Uprkos tome to R program
izraunava direktno kritine vrednosti i vrednosti testa, navodimo ukratko nain izraunavanja, iz
razloga objanjenja postupka. Prvi korak je podela celokupne disperzije istraivane promenljive y
(slovom y oznaiemo sve vrednosti dobijene u uzorku) u delove, koji omoguavaju dobijanje
uzroka disperzije. Usled navedenog, saznaemo koliko disperzije se nalazi u celom uzorku. Ako su
podaci jako heterogeni, onda e i ova disperzija biti velika i suprotno. Ovu meru disperzije
nazivamo celokupan zbir kvadrata i oznaavamo kao CZK. Njega delimo na dva dela: disperzija
izmeu grupa, koju emo nazvati zbir kvarata za kolone ZKZK i drugi, koji zovemo zbir
kvadrata za greku ZKG. Onda je celokupan zbir kvadrata jednak zbiru kvadrata za kolone i za
greku, skraeno zapisano kao CZK=ZKZK+ZKG. Postupak izraunavanja pojedinih zbirova je
sledei (s obzirom na obavezu da ne koristimo formule, opis postupaka zahteva vie rei):
Celokupan ZK, CZK se rauna tako da se od svakog merenja u svakoj koloni oduzme
celokupna aritmetika sredina, onda se ove razlike diu na kvadrat, ime se odstranjuju znakovi, i
na kraju se saberu po kolonama, a takoe se saberu sve kolone i dobije se krajnji zbir. Za one koje
se ne plae matematikog zapisivanja postupak se zapie kao: CZK = .
Zbir kvadrata za kolone, ZKZK se rauna kao razlika aritmetike sredine kolone i celokupne
aritmetike sredine, on se podigne na kvadrat, sve se sabere i zbir se pomnoi sa brojem kolona.
ZKZK = .
Zbir kvadrata za greku ZKG se izraunava tako da svakoj vrednosti u koloni oduzmemo
aritmetiku sredinu kolone, razlika se die na kvadrat i sabere se po kolonama i na kraju se saberu
zbirovi svih kolona. ZKG = .
Navedene operacije ilustrovaemo na naem primeru, ali u R bi bilo jako puno posla, pa za
takvu namenu radije koristimo EXCELL, imajui u vidu i da niko u realnom ivotu nee raditi ove
korake (Tabela 1).





99

Tabela 4: Izraunavanje zbirova kvadrata za rastavljanje disperzije

x
A
(x
A
-avrg
A
)
2
(x
A
-avrg
T
)
2
x
B
(x
B
-avrg
B
)
2
(x
B
-avrg
T
)
2
x
C
(x
C
-avrg
C
)
2
(x
C
-avrg
T
)
2
9 1.841836735 9 4 0.49 4 3 4.41 9
3 21.55612245 9 4 0.49 4 6 0.81 0
14 40.41326531 64 7 5.29 1 4 1.21 4
13 28.69897959 49 7 5.29 1 9 15.21 9
14 40.41326531 64 7 5.29 1 6 0.81 0
5 6.984693878 1 4 0.49 4 4 1.21 4
3 21.55612245 9 4 0.49 4 5 0.01 1
5 6.984693878 1 3 2.89 9 5 0.01 1
11 11.27040816 25 3 2.89 9 6 0.81 0
3 21.55612245 9 4 0.49 4 3 4.41 9
8 0.12755102 4 5 0.01 1
6 2.698979592 0
5 6.984693878 1
8 0.12755102 4
Koliina 14 10 11
Zajedno 107 211.2142857 249 47 24.1 41 56 28.91 38
avrg
j 7.64 15.08673469 4.7 2.41 5.1 2.6281818
(avrg
j
-avrg
T
)
2
82.5687474 12.8881 11.369158
Za sve kolone Koliina 35 Zbir 210 avrg
T 6
Rezultat CS 328 SMS+SC= 327.82
SMS 63.59571429
SC 264.2242857
Bolnica A Bolnica B Bolnica C


Izraunali smo pojedine zbirove kvadrata, a sada moramo da izraunamo samu disperziju. Prva
mera e govoriti o disperziji u kolonama - zvaemo je prosean kvadrat u koloni. Izraunava se
kao aritmetika sredina zbira kvadrata za greku, gde odgovarajui zbir kvadrata podelimo
stepenima slobode za datu kolonu. Druga mera e biti prosean kvadrat meu kolonama, a
izraunaemo ga kao srednju vrednost ZKZK, odnosno ZKZK podelimo celokupnim brojem
stepena slobode.
Ako bi vaila H
0
za jednakost atiritmetikih sredina, trebalo bi da su obe otkrivene disperzije
jednake. Ako su jednake, odnosno ako nisu jednake, dobiemo ih odnosom vrednosti prosenog
kvadrata izmeu kolona i u kolonama.
Rezultat se zove odnos varijansi (OV), a u naem sluaju je jednak koloniku 31,8 i 8,26, to
iznosi 3,85.


Odluka. Za odluku moramo da uporedimo izraunatu vrednost OV sa kritinom vrednou F
raspodele. Ako OV bude mnogo manja od kritine vrednosti, onda emo prihvatiti H
0
, a ako bude
vea, onda emo odbaciti H
0
i prihvatiemo H
A
. Kompjuter e nam pomoi da naemo kritine
vrednosti za stepene slobode izmeu kolona = 3 1 = 2 i u kolonama 35 3 = 32. Za nivo
poverenja koristiemo verovatnou 0,05. Komanda > qf(0.05, 2, 32, lower.tail = FALSE) dae nam
rezultat 3.294537. Dakle, rezultat testa OV = 3.85 je manji od kritine vrednosti F raspodele za
navedene stepene slobode = 3,29. Zato se odluujemo da odbacimo H
0
, gde smo pretpostavljali da
su sve aritmetike sredine iste, a prihvatiemo H
A
, sa pretpostavkom da se barem jedna aritmetika
sredina iz populacije razlikuje od ostalih.
Struna odluka: Istraiva moe da zakljui da se broj dana provedenih u bolnici razlikuje barem u
jednoj od njih. U kojoj, to moramo da saznamo u narednom postupku.
Da ne bismo morali da radimo ovako komplikovana raunanja, u R postoji vie mogunosti
kako izraunati ANOVA test. Pokazaemo korienje najjednostavnije komande anova(), koja

100

pretpostavlja pripremu podataka pomou komande lm(), (Tabela 4).

Tabela 4: Izraunavanje ANOVA za primer 1
> anova(lm(ABC ~ abc)) # Komanda lm(ABC ~ abc) priprema ulazee podatke za
komandu anova(). Argument komande ABC ~ abc govori da su vrednosti promenljive
ABC oznaene prema pripadanju grupi pomou promenljive abc.
Analysis of Variance Table

Response: ABC
Df Sum Sq Mean Sq F value Pr(>F)
abc 2 63.777 31.888 3.862 0.03145 *
Residuals 32 264.223 8.257
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Komentar: redr abc se odnosi na disperziju izmeu kolona, red oznaen kao Residuals se
odnosi ZKG. Izraunata vrednost F raspodele i verovatnoa alternativne hipoteze vode do
identinog zakljuka do kakvog smo doli u naem izlaganju.


Poreenje viestrukih srednjih vrednosti
Za utvrivanje koja od srednja vrednost se razlikuje koristiemo Dankanov test. On analizira
razlike izmeu promenljivih u grupama prilikom analize varijanse. Zasnovan je na razliitim
principima od ANOVA-e, pa rezultati ne moraju da budu jednaki rezultatima ANOVA-e. Obino se
zove i poreenje viestrukih srednjih vrednosti. Njegovo korienje pokazaemo na novom primeru
(Primer 2).

Primer 25: Korienje Dankanovog testa za viestrukih raspona
Zadavanje:
U etiri naselja sluajno je bilo odabrano 10 pojedinaca i kod njih je meren, izmeu ostalog, i
indeks telesne mase BMI. Ispitivai su se interesovali da li postoje razlike izmeu aritmetikih
sredina BMI kod populacije ispitivanih naselja.
Reenje:
U prvom koraku emo zadati podatke u promenljive, koje emo nazvati imenima naselja:
> Horna <- c(26, 27, 26, 30, 21, 22, 38, 20, 22, 20)
> Dolna <- c(20, 19, 24, 23, 22, 21, 20, 19, 22, 23)
> Vysna <- c(28, 32, 34, 32, 29, 41, 42, 33, 35, 28)
> Nizna <- c(20, 25, 28, 21, 22, 35, 29, 21, 26, 29)
> NASELJA <-c(Horna, Dolna, Vysna, Nizna)
> NASELJA
[1] 26 27 26 30 21 22 38 20 22 20 20 19 24 23 22 21 20 19 22 23 28 32 34 32 29
[26] 41 42 33 35 28 20 25 28 21 22 35 29 21 26 29
Pripremimo vektor oznaen tako da nam pokazuje pripadanje prema pojedinim naseljima.
> naselja = factor(rep(letters[1:4], each = 10))
> naselja
[1] a a a a a a a a a a b b b b b b b b b b c c c c c c c c c c d d d d d d d d
[39] d d

101

Levels: a b c d
> levels(naselja) <- c("Horna", "Dolna", "Vysna", "Nizna")
> obce
[1] Horna Horna Horna Horna Horna Horna Horna Horna Horna Horna Dolna Dolna
[13] Dolna Dolna Dolna Dolna Dolna Dolna Dolna Dolna Vysna Vysna Vysna Vysna
[25] Vysna Vysna Vysna Vysna Vysna Vysna Nizna Nizna Nizna Nizna Nizna Nizna
[37] Nizna Nizna Nizna Nizna
Levels: Horna Dolna Vysna Nizna
Imamo isti broj merenja u svakoj grupi: 10, zato moemo da koristimo komandu rep(letters[1:4],
each = 10), koja e napraviti lanac sa prva etiri slova abecede 10 puta. Komandom factor iz lanca
napraviemo uzorak oznaka. Ovaj postupak napravimo tako da umesto slova imamo nazive i to
pomou komande levels(). Imamo pripremljene podatke za putanje procedure ANOVA. Ova se
sastoji iz dva koraka. U prvom koraku pomou komande lm() pripremimo model, a u drugom
pustimo samu komandu anova().
> fit = lm(formula = NASELJA ~ naselja)
> anova(fit)
Analysis of Variance Table

Response: NASELJA
Df Sum Sq Mean Sq F value Pr(>F)
obce 3 770.87 256.958 12.629 8.585e-06 ***
Residuals 36 732.50 20.347
Rezultat omoguava odbacivanje H
0
o nepostojanju razlike izmeu aritmetikih sredina sa
verovatnoom p < 0,0001.
Pomou Dankanovog testa emo pokuati da saznamo gde se nalaze ti parametri koji se znaajno
razlikuju. Ovaj test se, meutim, ne nalazi meu standardnim datotekama R, pa je neophodno
instalirati novu datoteku, sa nazivom DTK (koristiti pritom okolinu R: Packages; Install
Package(s)...; Load Package). Sada moemo da pustimo komandu DTK:
> razlike <- DTK.test(NASELJA,naselja,a=0.05)
Komandu smo spustili sa dve promenljive i sa traenim nivoom znaajnosti 0,05.
> razlike
Diff Lower CI Upper CI
Dolna-Horna -3.9 -9.7096778 1.909678
Vysna-Horna 8.2 0.8418498 15.558150
Nizna-Horna 0.4 -6.8693162 7.669316
Vysna-Dolna 12.1 6.9545534 17.245447
Nizna-Dolna 4.3 -0.7175895 9.317589
Nizna-Vysna -7.8 -14.5502757 -1.049724
Rezultat je tabela razlika. Vidimo da neke razlike u rasponu ogranienom donjim i gornjim
intervalom poverenja (Lower CI a Upper CI) sadre nulu i neke ne. Prisetimo se da potvrujemo
H
0
o nepostojanju razlike izmeu aritmetikih sredina kada je njihova razlika nula. Zato tamo gde
se nalazi nula, H
0
je tana. To su razlike Dolna-Horna, Nizna-Horna i Nizna-Dolna. Ostali intervali
ne sadre nulu, pa ovde moemo da govorimo da postoji stvarna razlika izmeu aritmetikih
sredina na nivou 0,05. To su Vysna-Horna i Vysna-Dolna. Rezultat moemo da prikaemo i
grafiki.
> DTK.plot(razlike)

102





Bivarijantna ANOVA

U prethodnom odeljku smo analizu varijanse koristili za objanjenje razlike aritmetikih
sredina kvantitativne promenljive y posmatranih na vie grupa oznaenih x. Obino se promenljiva
y naziva zavisna promenljiva, a x nezavisna, zato to se vrednost y menja u odnosu na pripadanje
odreenoj vrednosti x. ANOVA se esto koristi za proveru da li razliiti nivoi nezavisne promenljive
x imaju odjek na razliite nivoima zavisne promenljive y. U ovakvom sluaju vrednost nazivamo x
faktor.
Pretpostavite da farmakoloka kompanija istrauje uinak novog leka na nivo holesterola, time
da pretpostavlja da taj lek sniava nivo holesterola u zavisnosti od njegove doze. U ovom sluaju
doza leka bie faktor. Iz tog razloga zabeleiemo etiri razliite doze: 5 mg dnevno, 10 mg dnevno,
15 mg dnevno i 20 mg dnevno. Pretpostavljamo da je kompanija ujedno odluila da proveri da li lek
ima razliit efekat ukoliko se daje jednom dnevno ili dva puta. U ovom sluaju javlja se sledei
faktor koji ima dva nivoa, a to je davanje jednom ili dva puta dnevno. Pretpostavimo da elite da to
proverite odjednom. Ovakav predlog studije se zove bivarijantna ANOVA, koja ispituje
zajedniko delovanje dva faktora na proseni odgovor. Naravno, da bi eksperiment mogao da se
napravi kao dve jednostrane ANOVA-e, ali time bi se ponito uticaj zajednikog delovanja faktora.
U naem primeru imaemo, dakle, vie kombinacija (Tabela 5).












103

Tabela 5: Predlog eksperimenta i razlaganje prema faktorima

Faktor
A B
Davanje Jednom
dnevno
Dva puta dnevno
5 mg Terapija 1 Terapija 2
10 mg Terapija 3 Terapija 4
15 mg Terapija 5 Terapija 6
20 mg Terapija 7 Terapija 8

Ovaj predlog eksperimenta je svakodnevan u klinikim studijama i zato se obino govori o
leenju (treatment) i u situacijama kada se ne radi o studiji korienja lekova. U naem sluaju,
dakle, imamo etiri nivoa faktora A i dva nivoa faktora B. Njihovom zajednikom kombinacijom
dobijamo osam raznih vrsta leenja.
Dvostrana ANOVA daje tri rezultata:
1. Glavni efekat faktora A
2. Glavni efekat faktora B
3. Interakciju A i B: efekat kombinacije faktora A i B.
U jednostranoj ANOVA-i razloili smo celokupnu varijansu na dve komponente CZK = ZKMK
+ ZKG. CZK predstavlja celokupnu varijansu zavisne promenljive y, ZKMK predstavlja varijansu
u grupama leenja, a ZKG je varijansa napravljena grekom. Potvrivali smo hipotezu da faktor
A uzrokuje, odnosno ne uzrokuje razliku u prosecima grupama-leenja.
H
0
:
1
=
2
= . . . =
i

Slovom i smo oznaili razne nivoe faktora A. Pri nejednakosti aritmetikih sredina moemo da
odbacimo H
0
i konstatujemo da je uticaj faktora A bio znaajan.
Prilikom dodavanja narednog faktora u dvostranoj ANOVA-i, situacija se komplikuje. Moramo
da dodamo novi faktor B, a time i njihovo zajedniko delovanje AB. Onda se celokupan zbir
kvadrata razloi na vie podzbirova:
ZKG = ZKA + ZKB + ZKAB + ZKG
ZKG predstavlja celokupnu varijansu u promenljivoj y, ZKA je zbir kvadrata za faktor A i
analogno za faktor B je ZKB. ZKAB je varijansa objanjena interakcijom faktora A i B. ZKG je
varijansa, koja je ostala neobjanjena i zato je smatrana za greku. S obzirom na kompleksnost
izraunavanja konstatovaemo samo da je analogno jednostranoj ANOVA-i i zakljuiemo da
komanda sadrana u R izraunava pojedine koeficijente. Postupak emo pokazati na primeru, koji
smo opisali u uvodu u ovom delu (Primer 3).

Primer 3: Izraunavanje dvostrane ANOVA-e
Zadavanje:
Prilikom klinikog ispitivanja leka za sniavanje holesterola u krvi bile su koriene etiri razliite
doze aktivne supstance: 5, 10, 15 i 20 mg, a ujedno su bile davane ili jednom dnevno ili u dve
doze. Nas zanima da li moemo da zakljuimo da je neki od faktora bio delotvoran.
Podaci:
> L51 <- c(5.4, 5.8, 6.0, 4.5, 7.9, 8.9, 9.9, 6.8, 8.3, 10.1) #doza 5mg 1x
> L101 <-c(6.2, 5.4, 8.9, 9.9, 6.5, 10.1, 12.5, 9.9, 5.4, 12.3) #doza 10mg 1x

104

> L151 <-c(4.5, 6.8, 7.3, 6.7, 4.5, 8.0, 9.0, 5.6, 5.3, 4.5) #doza 15mg 1x
> L201 <-c(5.1, 5.8, 5.4, 6.0, 4.8, 5.3, 6.0, 4.6, 5.0, 4.4) #doza 20mg 1x
> L52 <- c(6.4, 6.0, 7.0, 4.7, 6.9, 9.1, 9.8, 8.8, 8.1, 6.1) #doza 5mg 2x
> L102 <-c(5.2, 5.2, 9.9, 9.8, 5.5, 11.1, 10.5, 9.8, 6.4, 11.3) #doza 10mg 2x
> L152 <-c(5.5, 6.6, 8.3, 6.9, 5.5, 8.4, 7.0, 5.8, 6.3, 8.1) #doza 15mg 2x
> L202 <-c(4.6, 4.8, 5.6, 6.3, 5.8, 5.2, 6.4, 4.8, 5.1, 4.8) #doza 20mg 2x
> terapija <- c(L51, L101, L151, L201, L52, L102, L152, L202) #jedna promenljiva sa svim
vrednostima
> dosage <- gl(4,1,80) # promenljiva oznaena sa etiri vrste doza
> levels(dosage)<- c("5mg", "10mg", "15mg", "20mg") #dodali smo vrednost doza
> factor(dosage) #oblikovana kao faktor
> admin <- gl(2, 40, 80) # druga promenljiva oznaavanja administracije doza
> levels(admin)<- c("1x", "2x")
> factor(admin)
Izraunavanje ANOVA:
> fit <- lm(formula = terapija ~ dosage + admin)
> anova(fit)
Analysis of Variance Table

Response: terapija
Df Sum Sq Mean Sq F value Pr(>F)
dosage 3 10.28 3.4255 0.7799 0.5088
admin 1 0.21 0.2101 0.0478 0.8275
Residuals 75 329.39 4.3919
Rezultat:
Nije se pokazao uticaj ni doze ni davanja, zato prihvatamo nultu hipotezu, da se izmeu faktora
nisu pronale razlike u njihovom delovanju.

Kada nismo nali znaajne razlike meu delovanjima faktora, ne moramo da traimo koje su
kombinacije faktora razliite. Ako bi se nale, onda bismo primenili Dankanov test za traenje
razlika.


Saetak

U ovom poglavlju smo se posvetili analize varijanse u sluaju kada treba da uporeujemo
aritmetike sredine u vie grupa. Korienje ANOVA-e smo demonstrirali na dva primera
eksperimenta i to jednofaktorijalnom i dvofaktorijalnom ANOVA-om. Nauili smo da pripremimo
podatke za ovaj tip zadavanja, kao i da formuliemo model reavanja. Pokazali smo da ANOVA jo
ne donosi definitivno reenje, ve da moramo da ga traimo korienjem naredih postupaka. U
sledeim poglavljima pokazaemo korisnost ovog koncepta kod reavanja pitanja zavisnosti
promenljivih.







105

Vebe

1. Studija uticaja tri razliita naina anestezije na sadraj folne kiseline u krvi (u g/l) dala
je reenja iskazana u uzorku red.cell.folate iz datoteke ISwR. Istraivaa je zanimalo da
li je mogue izjaviti da su razliiti naini anestezije (promenljiva ventilation) povezani
sa razliitim nivoom folne kiseline (promenljiva folate) u krvi pacijenta.

2. U klinikoj studiji uticaja enalaprila na frekvenciju srca, koji je bio dat pre (nulti minut) i
posle (30, 60 i 120 minuta) devetorici pacijenata sa kongestivnom boleu srca.
Istraiva se pitao da li moe da kae da postoji razlika u frekvanciji srca pri davanju
leka u pojedinim vremenskim davanjima (uzorak heart.rate iz datoteke ISwR).

3. Prilikom studije farmakodinamike indomecithina, lek je bio davan intravenski estorici
dobrovoljaca. Naknadno su bile posmatrane koncentracije leka u krvi posle 0.25, 0.50,
0.75, 1.00, 1.25, 2.00, 3.00, 4.00, 5.00, 6.00, 8.00 sati. Istraiva je eleo da sazna da li
su postojale razlike u aritmetikim sredinama koncentracije indomecithina u
posmatranim vremenskim intervalima (uzorak Indometh datoteke datasets).
































106

OSMO POGLAVLJE
Regresija i korelacija

Sadraj poglavlja

Cilj poglavlja .............................................................................................................................. 107

Prosta linearna regresija .............................................................................................................. 107

Kvalitet regresivne prave ............................................................................................................ 111

Interval poverenja za koeficijent regresivne prave................................................................... 115

Predvianje, odnosno predikcija ................................................................................................. 116

Korelacija .................................................................................................................................... 118

Saetak ........................................................................................................................................ 120

Vebe ........................................................................................................................................... 121






















107

Cilj poglavlja

Do sada smo se interesovali naroito za to da li su jedna ili vie aritmetikih sredina jednake
ili se razlikuju. Koristili smo razliite metode za potvrivanje hipoteza o ovom odnosu. Bila su to
posmatranja, do kraja znaajno komplikovana uticajem jednog ili vie faktora i njihovim
zajednikim interakcijama. Da li moe da se unese dinamika promena u odnosu promenljivih? ta
ako su promenljive od sebe zavisne tako da vrednost jedne zavisi od vrednosti druge, a ova
zavisnost ima razliite oblike? U ovom poglavlju objasniemo kako da se ravnamo sa ovakvim
stavom u sluaju jedne ili vie zavisnih promenljivih, ija e vrednost zavisiti od aktuelne vrednosti
nezavisne promenljive. Za saznanje ovog tipa zavisnosti koristimo postupak koji obino zovemo
regresija, a prema vrsti odnosa govori se o raznim vrstama regresije. U ovom poglavlju posvetiemo
se iskljuivo linearnoj regresiji, odnosno odnosu koji u ovom najjednostavnijem odnosu dve
promenljive moemo izraziti pravom. Pojam regresije je bio uveden od lorda Galtona (1822 - 1911),
britanskog naunika koji je prouavao odnos izmeu visine dece i njihovih roditelja. Saznao je da
su deca ekstremno niskih ili ekstremno visokih roditelja pokazala tendenciju vraanju prema
prosenim vrednostima. Zato je postupak kojim je ovu pojavu kvantifikovao najpre nazvao
reverzijom, a kasnije mu je promenio naziv u regresiju. Danas ovaj naziv koristimo za sve postupke
koji bezlee odnose izmeu zavisne (krajnje) promenljive Y i nezavisne (kovarijantne ili
objanjavajue) promenljive X. Cilj regresije je da se ustanovi da li su X i Y u nekom sistemskom
odnosu i da se pretpostave ili otkriju vrednosti Y, koje odgovaraju vrednostima X.
Analiza korelacije, zasnovana na slinom postupku kao analiza regresije, meri snagu odnosa
meu promenljivima. I ovaj termin je uveo lord Galton. Pojednostavljeno moemo da kaemo da su
dve promenljive u korelaciji ako su promene u jednoj promenljivoj praene promenom u drugoj,
bilo u jednakom, bilo u suprotnom smislu promene. Na primer, incidencija ishemijske bolesti srca je
u pozitivnoj korelaciji sa mekou vode za pie, kako su to pokazale brojne epidemioloke studije.
Dakle, to je voda tvra, time je vea pojava IBS.

Tabela 1: Ciljevi poglavlja
1. Objasniti postupak linearne regresije
2. Biti svestan osobina pojedinih parametara
3. Pokazati naine merenja kvaliteta regresije
4. Proiriti prosta linearnu regresiju na multiplu
5. Pokazati mogunosti predikcije
6. Uvesti korelaciju kao meru snage odnosa

Prosta linearna regresija

I u sluaju regresije reiemo osnovno pitanje statistike analize, odnosno kakve zakljuke
moemo da donesemo o situaciji u populaciji na osnovu podataka iz uzorka. U svakom sluaju,
neophodno je raunati sa grekom, kako smo to naveli u prethodnim poglavljima. Regresija e nam
pruiti model odnosa koji je retko kad perfektan, a otean je odreenom grekom. Veliina ove
greke moe da presudi da li je model dovoljno taan prikaz situacije u populaciji i da li ga je
mogue koristiti i za predikciju vrednosti.
Regresiju moemo da sprovedemo pri ispunjenju odreenih pretpostavki o zavisnoj

108

promenljivoj Y i nezavisnoj promenljivoj X
i
. U prvom redu, pretpostavljamo da je nezavisna
promenljiva X nepromenljiva, dakle da se u toku posmatranja njene osobine ne menjaju. Takav
sluaj moe da bude vreme, uzrast, udaljenost i slino. Kada odluimo da e nezavisna promenljiva
biti uzrast i posmatramo je u godinjim intervalima, ne smemo da ovu odluku menjamo tokom
istraivanja. Ujedno moramo da pretpostavljamo da je zavisna promenljiva izmerena bez greke,
iako znamo da to nije uvek tako. Pretpostavljamo da iako postoji greka merenja, pa je smatramo
tako malom da je ne moramo uzimati u obzir. Sledea pretpostavka je da svakoj vrednosti X
odgovara skup vrednosti Y, koje su normalno raspodeljene. Zato pretpostavljamo da su vrednosti Y
normalno raspodeljene. Ujedno pretpostavljamo da aritmetike sredine svih subpopulacija Y lee na
jednoj pravoj i zato mogu biti prikazane jednakou prave. Na kraju, pretpostavljamao da su
vrednosti Y statistiki nezavisne, odnosno vrednosti Y izabrane za jedno X ne utiu na vrednosti Y
za drugo X.


Slika 1: Linearna regresija i uzorak populacije. Svakoj vrednosti X odgovara skup vrednosti Y,
koje su normalno raspodeljene i njihove aritmetike sredine lee na pravoj


Iz srednje kole se moda seate da je jednaina prave a = i + k*b, gde kada stavimo za i
taku u kojoj preseca nultu liniju, za razne vrednosti b dobiemo pojedine take prave. I u naem
sluaju linearna regresija je prikazana pravom
y = + x +
gde su i koeficijenti regresije, iz kojih izraava taku u kojoj see pravu os y, a predstavlja
ugao koji prava regresije zatvara sa osom x. Parametar predstavlja greku.
Cilj regresivne analize je pronai ovakvu pravu, otkriti njene parametre u populaciji na
osnovu podataka iz uzorka i zakljuiti koliko ona odgovara (objanjava) stvarnosti. Postupak
izraunavanja regresije predstaviemo na primeru (Primer 1).


i
Velikim slovima oznaavamo promenljive kod populacije, dok malim slovima oznaavamo promenljive
u uzorku.

109

Primer 1: Zadavanje zadatka
Epidemiolozi iz vie evropskih zemalja su pokuali da odgovore na pitanje da li moe da
se utvrdi odnos izmeu prosene godinje temperature i pojave raka dojke kod ena. Na
raspolaganju su imali podatke iz odreenih oblasti Velike Britanije, Norveke i vedske.
Dobili su sledee podatke:
Smrtnost: 102.5, 104.5, 100.4, 95.9, 87, 95, 88.6, 89.2, 78.9, 84.6, 81.7, 72.2, 65.1, 68.1,
67.3, 52.5
Temperatura: 10.7, 9.9, 10, 9.6, 9.2, 8.8, 8.5, 7.3, 7.9, 5.6, 6.8, 6.4, 5.7, 4.6, -0.1, 1.1
> rak <- c(102.5, 104.5, 100.4, 95.9, 87, 95, 88.6, 89.2, 78.9, 84.6, 81.7, 72.2,
65.1, 68.1, 67.3, 52.5)
> temperatura <- c(10.7, 9.9, 10, 9.6, 9.2, 8.8, 8.5, 7.3, 7.9, 5.6, 6.8, 6.4, 5.7, 4.6, -
0.1, 1.1)

Reenje zadatka poeemo time to emo temperaturu okoline smatrati nezavisnom
promenljivom (ona se menja nezavisno od nae volje i zato je precizno data za svaku zemlju), a
smrtnost od raka emo smatrati zavisnom promenljivom. Ujedno moemo da konstatujemo da su
zadovoljeni svi uslovi da bismo verovali da su pretpostavke za regresiju bile ispunjene. Prvi korak
e biti da prikaemo rezultate formom rasutog dijagrama (Slika 2).

Slika 2: Rasuti dijagram ulaznih podataka


Ve na prvi pogled na dijagram vidimo da sa poveavanjem temperature raste i smrtnost.
italac bi mogao da uzme lenjir i olovku i da nacrta pravu koja bi ila izmeu podataka tako da
bude priblino jednako udaljena od svakog merenja. Kako to uraditi tano, da bi to tanije bio
prikazan odnos izmeu obe promenljive? Jedan od moguih kriterijuma za unoenje prave je
postizanje to manjeg odstupanja prave od izmerenih podataka. S obzirom na to da podaci mogu da
odstupaju od prave u pozitivnom ili negativnom smeru, odstupanja se diu na kvadrat (time se gubi
negativna vrednost i pozitiva odstupanja). Metoda izraunavanja koja vodi ka odreivanju prave se
naziva metoda najmanjih kvadrata. Za itaoca koji bi hteo da se blie upozna sa ovom metodom,
na internetu se moe pronai dovoljno informacija o ovoj metodi. Mi emo iskoristiti raunar, koji

110

e da izrauna oba parametra ovakve prave, odnosno intercept taku preseka sa osom y, a time i
odstupanje od nule, a takoe i nagib prave.

Slika 3: Prelazake prave kroz podatke
> fit <- lm(formula = rak ~ temperatura)
> fit
Call:
lm(formula = rak ~ temperatura)

Coefficients:
(Intercept) temperatura
53.611 4.248

Objasniemo ta znae pojedini koeficijenti u ovom primeru. Kao to smo ve rekli,
jednaina e imati oblik y = 53,6 + 4,25*x. U naem sluaju x oznaava prosenu temperaturu u C.
Pretpostavimo da emo vrednost x postepeno poveavati za 1. Onda e za vrednost 0 rezultat biti y
= 53,6 + 4,25*0 = 53,6. To je intercept ili presek sa nulom. Kad je poveamo za 1, dobiemo y =
53,6 + 4,25*1 = 57,85 i ako idemo dalje, dobiemo y = 53,6 + 4,25*2 = 62,1, poveanje na tri
donee y = 53,6 + 4,25*3 = 66,35 i tako dalje. Svako poveanje x za jednu jedinicu rezultovae
porast vrednosti y tano za vrednost koeficijenta. Ovaj koeficijent zovemo jedinini prirataj
(smanjenje, ako je vrednost negativna) ili prirataj kod jedinine promene. On definie nagib
prave. Rezultat je mogue prikazati slikom (Slika 4).

Slika 4: Prikazivanje rezultata linije regresije i pokazivanje koeficijenta prilikom jedinine
promene
> koef <- coef(fit <- lm(formula = rak ~ temperatura)) # u promenljivu koef
smo stavili koeficijente iz regresije pomou komande coef, koja ih ekstrahuje
u formi promenljivih
> plot(temperatura, rak, xlab="C", ylab="smrtnost") # nacrtali smo
pojedine take
> abline(coef=koef) # i dodali pravu za korienje koeficijenata linije
regresije

111





Slika desno prikazuje kako zapravo funkcionie jedaina koju smo preveli podacima
pomou metoda najmanjih kvadrata (odstupanja). Malo a predstavlja pomeranje prave nasuprot
nule, malo b izraava prirataj prilikom jedinine promene nezavisne promenljive; drugim reima,
b izraava brojnost promene vrednosti zavisne promenljive za jednu jedinicu, prikazane kao x+1,
malo e predstavlja greku sa kojom izraavamo sve podatke. Prisetimo se ujedno osnovnog principa
statistike indukcije. Koeficijenti koje smo izraunali na osnovu vrednosti uzorka su taka otkria
stvarnih koeficijenata prave u populaciji. Zato je cilj regresije da se otkrije gde se nalaze stvarne
vrednosti koeficijenata a i b i na osnovu njih da se otkriju stvarne vrednosti zavisne promenljive y.
Zapis jednaine prave, koju se trudimo da otkrijemo kod populacije glasie
y = + *x +
U narednom delu posvetiemo se kvalitetu odgovaranja regresivne prave podacima i
vrednovanju koeficijenata.

Kvalitet regresivne prave

Kako moemo da vidimo na slici, prava retko kad prolazi kroz sva merenja. Pojedine take
odstupaju od prave i prosene vrednosti u smislu plus ili minus. to vie podaci odstupaju od prave,
to manje prava objanjava njihov odnos. Snaga odnosa izmeu nezavisne i zavisne promenljive je
srazmerna tome koliko prava (ili kriva) odgovara merenjima. Tada govorimo o tanosti
odgovaranja. Kada prava odgovara? to vie se pribliava takama merenja, a takoe i to je
manja disperzija taaka. Zato slino kao u ANOVA-i, pokuaemo da otkrijemo vrednost disperzije.
Slika 5 belei odnos merenja prema pravoj i prema aritmetikoj sredini vrednosti.






112

Slika 5: Ukupno, objanjeno i neobjanjeno odstupanje


Kao i u sluaju raunanja disperzije kod ANOVA-e, i u ovom sluaju izraunavamo drugi
koren odstupanja sa ciljem da odstranimo zajedniko delovanje pozitivnih i negativnih vrednosti.
Raunamo sledee zbirove odstupanja:
1. Ukupno odstupanje predstavlja udaljenost take od srednje vrednosti svih taaka;
2. Objanjeno odstupanje je razlika vrednosti pripadajue take na pravoj i srednje
vrednosti. Objanjenim se naziva zato to pokazuje koji deo odstupanja sniava
regresivna prava.
3. Neobjanjeno odstupanje je udaljenost merenja od regresivne prave.
Kada ova odstupanja dignemo na kvadrat i saberemo, dobijemo zbir kvadrata, odnosno
celokupan zbir kvadrata, objanjen i neobjanjen zbir kvadrata.
Logino je da zbir objanjenog i neobjanjenog zbira kvadrata bude jednak ukupnom. Ove
vrednosti onda koristimo kao mere disperzije. Ukupan zbir kvadrata predstavlja ukupnu disperziju
vrednosti zavisne promenljive Y. Objanjen zbir kvadrata predstavlja disperziju posmatrane
vrednosti Y objanjen regresivnom pravom. I, obrnuto, neobjanjen zbir kvadrata predstavlja deo
disperzije koju prava nije u stanju da objasni. Jasno je da to vie regresivna prava uspe da objasni
disperziju, to je odgovaranje bolje. U idealnom sluaju trebalo bi vrednost objanjene disperzije
pribliavati ka celokupnoj disperziji. Iz toga se izvela i mera, pomou koje vrednujemo kvalitet
regresije, a zovemo je koeficijentom odreenosti ili determinacije i oznaavamo je kao r
2
.
Objanjavamo ga kao meru koliko blizu je regresivna prava pojedinim takama merenja.

Slika 6: Detaljan ispis rezultata regresije pomou komande summary()
> summary(fit)

Call:
lm(formula = rak ~ temperatura)

113


Residuals:
Min 1Q Median 3Q Max
-12.7219 -5.7121 0.3592 4.3806 14.1140

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.6107 4.7845 11.205 2.24e-08 ***
teplota 4.2476 0.6282 6.762 9.15e-06 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
1

Residual standard error: 7.542 on 14 degrees of freedom
Multiple R-squared: 0.7656, Adjusted R-squared:
0.7488
F-statistic: 45.72 on 1 and 14 DF, p-value: 9.148e-06

Iz cele tabele rezultata za nas je trenutno najzanimljiva vrednost oznaena kao Multiple R-
squared sa vrednou 0,77. Dakle, vie od disperzije je objanjeno regresivnom pravom. Sledea
slika 7 demonstrira razne sluajeve sa kojima moemo da se sretnemo u praksi.
Do sada smo se bavili vrednou koeficijenta determinacije izraunatog iz merenja koja
direktno govore o odgovaranju prave pojedinanim merenjima, kao i o disperziji vrednosti u uzorku.
Kako smo ve nauili u prethodnim poglavljima, potrebno je jo da saznamo kakva je situacija kod
populacije, kako moemo da otkrijemo koliko su promenljive X a Y u linearnoj zavisnosti. To
zahteva postupak potvrivanja hipoteze i definiciju nulte i alternativne hipoteze.
Kako smo ve naznaili u postavljenom pitanju, nulta hipoteza e biti o nepostojanju
pravolinijskog odnosa izmeu promenljivih X i Y, koje su bile otkrivene na osnovu odabranog
uzorka i glasie:
H
0
: X i Y nisu u pravolinijskoj zavisnosti
H
A
: X i Y jesu u pravolinijskoj zavisnosti
Za potvrivanje H
0
koristiemo isti postupak kao u sluaju ANOVA-e. Priseamo se da smo
testirali odnos disperzija (varijansi) OV, koji je jednak odnosu prosenog zbira kvadrata
objanjenog i neobjanjenog odstupanja. Za izraunavanje prosenih zbirova potrebno je jo
odrediti stepen slobode. Vai pravilo da je broj stepena slobode za zbir kvadrata objanjen
regresijom jednak broju konstatnti (koeficijenata) snien za jedinicu. U sluaju jednostavne linearne
regresije, imamo dve konstante i to intercept i koeficijent nagiba prave. Iz toga proizilazi da emo
za objanjen deo zbira kvadrata koristiti broj stepena slobode 2 1 = 1. Za neobjanjen deo
koristiemo n 2 stepena slobode, dakle u ovom sluaju 16 2 = 14. Sam odnos izraunaemo kao
odnos prosenog zbira kvadrata objanjenog i neobjanjenog (Tabela 1)




114

Slika 7: Razne vrednosti odgovaranja regresivne prave vrednostima merenja




Tabela 5: Odnos disperzije za izraunavanje ANOVA za linearnu regresiju
Izvor varijanse
Zbir kvadrata
ZK
Stepen slobode
d.f.
Kvadrat aritm.
sredine
KAS
Odnos varijansi
OV
Linearna regresija ZK
objanjen
1 ZK
objanjen
/1
ZK
objanjen
/
ZK
neobjanjen

Neobjanjen
(rezidua)
ZK
neobjanjen
n - 2 ZK
neobjanjen
/(n - 2)
Zajedno ZK
ukupno
n - 1

O prihvatanju ili odbacivanju hipoteze H
0
odluiemo na osnovu F testa. Iako u tabeli
rezultata neemo nai vrednost OV, program nam prua direktnu vrednost verovatnoe za
prihvatanje, odnosno odbacivanje H
0
. Pogledajmo, ta nam o tome govori rezultat nae statistike:
F-statistic: 45.72 on 1 and 14 DF, p-value: 9.148e-06
Broj 9,1e-06 nam dozvoljava odbacivanje H
0
,

a prihvatanje H
A
sa nivoom poverenja p <
0,0001, ta je veoma visoka vrednost. Dakle, moemo da zakljuimo da je linearni odnos izmeu
prosene temperature i smrtnosti od raka znaajan sa verovatnoom p < 0,0001.


115

Interval poverenja za koeficijent regresivne prave

Regresivni koeficijent predstavlja stvarnu vrednost nagiba prave u populaciji. U naem
primeru vrednost koeficijenta b smo izraunali iz uzorka. Dakle, moemo da izjavimo da je b taka
otkria , a za njegovo otkrie potrebno je saznati da li se razlikuje od nule i kakav je odgovarajui
interval poverenja. Zato to i njegovu varijansu kod populacije otkrivamo na osnovu standardne
devijacije izraunate iz uzorka, moramo da koristimo Studentovu t-raspodelu. Ujedno
pretpostavljamo da su svi uzorci ovog koeficijenta u normalno raspodeljenoj populaciji.
Pokuaemo da saznamo da li se stvaran koeficijent u populaciji razlikuje od nule. Drugim
reima, potvrdiemo nultu hipotezu da je vrednost jednaka nuli.
H
0
= 0 H
A
0
Potvrivanje ove hipoteze sprovodi se istim postupkom kao pri potvrivanju hipoteze
o aritmetikoj sredini. Neemo prelaziti celo raunanje, ali emo pogledati ta nam je izraunao
statistiki program (Slika 5). Iz njega proizilazi da je vrednost take otkria koeficijenta 4,25,
standardna greka otkria je 0,63, kritina vrednost t raspodele za odgovarajui broj stepena slobode
je 6,76, a pritom dodata vrednost verovatnoe odbacivanja H
0
jeste 0,000009. Dakle, moemo da
zakljuimo da verovatnoa da je nagib prave jednak nuli tako mala, da moemo da kaemo, da sa
verovatnoom p < 0,0001 nagib jeste razliit od nule. Isti postupak moemo da koristimo i za taku
preseka sa nultom osom, a i tamo vidimo da se ovaj razlikuje od nule sa verovatnoom p < 0,0001.
Konstrukcija intervala poverenja za utvrivanje koeficijenta je zasnovana na istoj
koncepciji kao utvrivanje aritmetike sredine. Dakle, moraju da nam budu poznate take otkria a i
b, kao i standardna greka i onda odreujemo na kom nivou poverenja elimo da raunamo. Ove
vrednosti su nam poznate, ali da ne moramo da izraunavamo konkretne vrednosti, program e ih
izraunati za nas. Koristiemo komandu confint(object, parm, level = 0.95, ). Za object unesemo
promenljivu u kojoj smo zamenili rezultat regresije, u parm moemo detaljisati za koje koeficijente
elimo da raunamo; ako to ne navedemo, onda e program da izrauna za sve. Na kraju,
odrediemo nivo signifikantnosti za koji izraunavamo odgovarajue intervale poverenja. Ako ga ne
navedemo, automatski se primeni vrednost 0.95. Rezultat je ste u sledeoj slici (Slika 8).

Slika 8: Izraunavanje intervala poverenja za koeficijent regresije
> ci <- confint(fit)
> ci
2.5 % 97.5 %
(Intercept) 43.348947 63.872553
temperatura 2.900218 5.594925

Iz slike vidimo da stvarna vrednost koeficijenta regresije nazvanog temperatura lei izmeu
2,9 i 5,6 smrtnosti. To znai da pri poveanju temperature za jedan stepen moemo da oekujemo
poveanje smrtnosti u rasponu 2,9 do 5,6 smrtnosti.



116

Verovatnoa ili predikcija

Jedna od praktinih primena prave regresije je verovatnoa. Ona slui za dobijanje odgovora
na pitanje kakvu vrednost dobija Y u taki X koju nismo izmerili. Zaista je iroko korienje
predikcije u sluajevima kada elimo da pronaemo odgovore na pitanja iz svakodnevnog ivota.
Na primer, znamo da je visina deteta do odreene mere pravolinijska u odreenom dobu. Mi je
merimo, recimo, u dva mesena intervala. Postavljamo pitanje kakva bi bila vrednost posle mesec
dana. Ili imamo poveanje oboljenja (ili pad) i elimo da kaemo ta e se desiti za mesec ili za
godinu. U sluaju predvianja, meutim, moramo da budemo svesni da je predvianje vaee samo
ako ostanu ouvani uslovi u kojima je regresija bila izraunata.
Samu predikciju uradiemo veoma jednostavno sa korienjem komande predict(). U
sluaju da elimo predikciju za take koje se nalaze izmeu izmerenih taaka, koristiemo
pozivanje ove komande sa argumentom u formi izvrene regresije. Kada elimo da izraunamo
regresiju za odreene vrednosti nezavisne promenljive, moramo je specifikovati kao parametar, sa
istim nazivom kakav je imala nezavisna promenljiva, u naem sluaju to je bila temperatura. Da bi
bio u okviru promenljive, i za sam naziv je neophodno koristiti okvir za podatke, dakle data.frame.
Postupak izraunavanja i rezultat je u sledeoj slici (Slika 9).

Slika 9: Predikcija vrednosti pomou linearne regresije
> temperatura <-seq(1,20,1) #napravili smo promenljivu, koja sadri sekvenciju brojeva
od 1 do 20
> temperatura <- data.frame(teplota) # promenljivu smo transformisali u okvir za
podatke
> pred <- predict.lm(fit, newdata=teplota) #pozivamo komande predikcije i samu
predikciju zamenimo u promenljivu
> pred
1 2 3 4 5 6 7 8
57.85832 62.10589 66.35346 70.60104 74.84861 79.09618 83.34375 87.59132
9 10 11 12 13 14 15 16
91.83889 96.08646 100.33404 104.58161 108.82918 113.07675 117.32432 121.57189
17 18 19 20
125.81946 130.06704 134.31461 138.56218

Predikcija nam je dala seriju vrednosti koje odgovaraju vrednostima nezavisne promenljive
temperatura i izvan okvira izvorno izmerenih vrednosti. Izvorno najvia temperatura je bila 10,7C.
Mi smo napravili predikciju koja nam govori da kad bi se smrtnost od raka i prilikom viih
prosenih temperatura odrala onako kako smo izraunali, onda bi, na primer, pri temperaturi od
17C bila 125,82. Ali, uvek je to procena take, a kako onda da dobijemo procenu intervala?
Jednostavno dodamo argumente koji omoguavaju izraunavanje procene intervala, odnosno
intervala poverenja (Slika 10).




117

Slika 10: Izraunavanje intervala poverenja za predikciju
> pred <- predict.lm(fit, newdata=temperatura,
interval="confidence")
> pred
fit lwr upr
1 57.85832 48.81925 66.89740
2 62.10589 54.24867 69.96311
3 66.35346 59.61569 73.09124
4 70.60104 64.88351 76.31856
5 74.84861 69.98925 79.70796
6 79.09618 74.83387 83.35848
7 83.34375 79.30001 87.38749
8 87.59132 83.32902 91.85363
9 91.83889 86.97954 96.69825
10 96.08646 90.36894 101.80399
11 100.33404 93.59626 107.07181
12 104.58161 96.72439 112.43883
13 108.82918 99.79010 117.86825
14 113.07675 102.81495 123.33855
15 117.32432 105.81194 128.83671
16 121.57189 108.78924 134.35454
17 125.81946 111.75220 139.88673
18 130.06704 114.70440 145.42967
19 134.31461 117.64836 150.98086
20 138.56218 120.58586 156.53850

Na kraju ostaje samo da nacrtamo sliku. Pre toga moramo da objasnimo razliku izmeu
intervala poverenja i intervala predikcije. Intervali poverenja govore o verovatnom mestu gde se
nalazi parametar populacije. Predikcije vremenskih intervala govore gde moemo da oekujemo
naredne podatke take uzorka. Nasuprot ovome, interval prognoze, odnosno predikcije, govori o
rastavljanju vrednosti, ne o nesigurnosti prilikom odreivanja vrednosti iz populacije. Zato je uvek
iri od intervala poverenja. Pokazaemo to na slici (Slika 11).











118

Slika 11: Iscrtavanje 95% intervala poverenja i intervala predikcije
> ci.plot(fit, newdata=temperatura)


Korelacija

Regresivni model kojim smo se do sada bavili pretpostavlja da je zavisna promenljiva (Y)
sluajna, normalno distribuirana promenljiva. Nezavisna promenljiva nije sluajna, odnosno fiksna
je. Zadatak regresivne analize je traenje odgovarajue vrednosti zavisne promenljive prema
izabranim takama nezavisne. esto se javi situacija da traimo da li postoji ili ne postoji odnos
izmeu dve sluajne promenljive. Ovakav odnos onda zovemo korelacija. Pod njim
podrazumevamo odnos dve ravnopravne promenljive i korelacija izraava snagu tog odnosa. Ako je
odnos linearan, za njegovo izraunavanje koristimo postupak istovetan sa regresijom. U tom sluaju
pretpostavljamo da su obe promenljive rastavljene prema zajednikoj varijansi, koju nazivamo
zajednika podela ili distribucija. Kada se radi o normalnoj distribuciji, govorimo o bivarijantnoj
normalnoj raspodeli.
Snagu odnosa merimo analogno linearnoj regresiji, gde smo koristili koeficijent
odreivanja r
2
za izraavanje kvaliteta odgovaranja na take pravih. U sluaju korelacije
koristiemo koeficijent korelacije, koji je poznat pod nazivom Pirsonov koeficijent korelacije.
Njegova vrednost se kree u rasponu od -1 do +1. Kada ima pozitivnu vrednost onda je re o
odnosu koga iskazuje rastua prava (sa poveavanjem vrednosti x poveava se i vrednost y). Kad je
njegova vrednost negativna, onda se prava sputa (sa poveavanjem vrednosti x vrednost y opada).
Ako je koeficijent korelacije blii ili jednak nuli, govorimo da odnosa, odnosno korelacije izmeu
dve promenljive nema. Objasniemo blie vrednosti koeficijenta korelacije. Ako je ovaj jednak

119

broju 1 ili -1, onda govorimo o jakoj povezanosti, a sve take lee u jednoj ravni. Ako izraunat
koeficijent korelacije nije jednak 1, ali je dovoljno blizu, moemo da kaemo da ova koleracija
ukazuje na jaku vezu izmeu dve promenljive. Ako se koeficijent korelacije pribliava 0,5, onda
e se pre raditi o srednje jakom odnosu. U sluajevima kada se pribliava nuli, govorimo da je
odnos slab ili da odnosa nema. Izraunavanje koeficijenta korelacije emo pokazati u sledeem
primeru (Primer 2).

Primer 2: Utvrivanje snage korelacije izmeu procenta Meticilin rezistentnog Staph. aureusa
MRSA na odeljenju bolnice i duine hospitalizacije bolesnika
Istraivaa je zanimalo da li je mogue govoriti o odnosu izmeu uestalosti MRSA i
duine hospitalizacije bolesnika sa odreenom dijagnozom na odeljenju intenzivne nege.
Proao je 20 odeljenja i saznao je sledee podatke:
Odeljenje % MRSA Prosena duina
hospitalizacije
1 12 6
2 14 6
3 27 8
4 24 9
5 36 7
6 32 6
7 44 12
8 52 11
9 48 13
10 38 11
11 45 10
Odluio je da izrauna koeficijent korelacije za odreivanje tipa i snage odnosa.

Postupak:
> MRSA <-c(12, 14, 27, 24, 36, 32, 44, 52, 48, 38, 45)
> hosp <-c(6, 6, 8, 9, 7, 6, 12, 11, 13, 11, 10)
> cor(MRSA, hosp)
[1] 0.8012835
Izraunata vrednost koeficijenta korelacije jeste visoka, ali bismo trebali da potvrdimo da
li je njegova stvarna vrednost u populaciji nije jednak nuli potvrivanjem nulte hipoteze o
jednakosti koeficijenta sa nulom.
> cor.test(MRSA, hosp)

Pearson's product-moment correlation

data: MRSA and hosp
t = 4.0179, df = 9, p-value = 0.003028
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3878236 0.9463004
sample estimates:
cor

120

0.8012835

Interpretacija: Potvrivanje je pokazalo da moemo da odbacimo nultu hipotezu sa
verovatnoom manjom od 0,01. Ujedno smo dobili procenu intervala stvarnog
koeficijenta korelacije. Zakljuujemo da postoji srednje jak, pa ak i jak odnos izmeu
MRSA i duine hospitalizacije, takav da sa rastuom uestalou MRSA se produava i
vreme hospitalizacije.

Saetak

Bavili smo se upoznavanjem odnosa dve promenljive: nezavisne i zavisne. Objasnili smo
nain izraunavanja prave rezultata merenja pomou metode najmanjih kvadrata. Ujedno smo
objasnili kako se meri kvalitet rezultata postupkom slinim kao kod ANOVA-e. Takoe smo
govorili o korienju regresije za pretpostavljanje ili predikciju vrednosti. Na kraju poglavlja smo
naveli koncepciju merenja snage odnosa dve promenljive, to smo nazvali korelacija.
Ovo poglavlje daje samo uvod u iru problematiku regresije i korelacije. Njen prirodan sled
su metode multiple regresije i korelacije, kao i primena i drugih, nelinearnih regresija. S obzirom da
ova publikacija ima za cilj da navede samo osnove biostatistike, od svih navedenih mogunosti u
posebnom poglavlju emo se baviti logistikom regresijom (Poglavlje 9). itaoca koga interesuju i
druge vrste regresije upuujemo na izvore napredne statistike literature.
















121

Vebe

U studiji odnosa visine sistolnog krvnog pritiska i telesne mase pregledana je 102 sluajno
odabranih mukaraca i ena u malom mestu u SAD. Istraivaa je zanimalo da li se
poveavanjem vrednosti aritmetike stvarne telesne mase prema idealnoj poveava i sistolni
pritisak (uzorak bp.obese iz datoteke ISwR). Pokuajte da nacrtate i regresivne odnose.

Na osnovu podataka iz prethodnog zadatka odredite korelaciju promenljivih za mukarce i
ene.

122


DEVETO POGLAVLJE


Logistika regresija

Sadraj poglavlja


Cilj poglavlja ......................................................................................................................... 123
Zavisna i nezavisna promenljiva u logistikoj regresiji ........................................................ 123
Primena logistike regresije .................................................................................................. 124
Logistika funkcija i logistiki model.................................................................................. 125
Od logistike funkcije do logistikog modela...................................................................... 126
Primer poroajne mase i njenih prediktora ........................................................................... 126
Interpretacija rezultata logistike regresije ........................................................................... 131
Primena logistikog modela za predikciju ............................................................................ 132
Validnost i dijagnostika logistikog modela ......................................................................... 133
Pridruenost i interakcije ...................................................................................................... 136
Vebe ..................................................................................................................................... 138

123

Cilj poglavlja

Logistika regresija kao statistika metoda je jedna od najee primenjivanih u oblasti
epidemiologije, kao i u biomedicinskim naukama. Postoji nekoliko razloga zato je to tako, ali
najbitnija je injenica da pomou ove metode moemo da detaljno analiziramo uticaj nekoliko
promenljivih (istovremeno) na verovatnou nastajanja posmatrane pojave. Ova premisa omoguava
modeliranje multikauzaliteta nastajanja odreene pojave (u sluaju epidemiologije radi se o
oboljenju, smrtnosti, remisiji i slino). Cilj ovog poglavlja je da predstavi logistiku regresiju,
objasni njene rezultate i praktinu primenu.

Regresivna analiza se karakterie, izmeu ostalog, i time to ima jasno definisanu takozvanu
zavisnu i nezavisnu promenljivu. Slino kao i kod linearne, i kod logistike regresije moemo
nezavisnu promenljivu da nazovemo prediktorom, koji e da na odreeni nain (tano definisan
smerom i jainom) utie na zavisnu promenljivu. Kao kod drugih tipova regresivne analize, i u
sluaju logistike analize oznaavamo zavisnu promenljivu Y, a nezavisne promenljive X
1
,X
2
....X
n
.
Logistika regresija, meutim, osim slinosti sa drugim tipovima regresije, ima i svoje specifinosti.
O njima emo govoriti u narednim delovima ovog poglavlja.


Tabela 1: Ciljevi poglavlja
1. Uvesti koncepciju logistike regresije i njene primene u biomedicinskim
istraivanjima

2. Pojasniti raunanje parametara u sredini R

3. Takaste i intervalske procene regresivnih koeficijenata i odnos ansi

4. Navesti prognostike modele

5. Pristrasnost i interakcije.



Zavisna i nezavisna promenljiva u logistikoj regresiji


Zavisne promenljive

U sluaju regresivne analize, uopteno zavisnom promenljivom zovemo onu koja izraava
pojavu koju posmatramo, a koja je u vezi sa izloenou. Klasian primer iz epidemiologije je
odnos izmeu izloenosti faktoru rizika i bolesti. Bolest je u ovom sluaju zavisna promenljiva, ona
zavisi od izloenosti, to predstavlja nezavisnu promenljivu.
U logistikoj regresiji zavisna promenljiva je uvek dihotomna (binarna), to znai da moe
da dobije samo dve mogue vrednosti: 0 ili 1. Uobiajeno se brojem 1 oznaava prisutnost
odreene pojave (dakle oboljenje, smrtnost, remisija i slino), a sa 0 se oznaava odsustvo odreene
pojave (dakle zdrav ovek, preivljavanje, odsustvo remisije i slino). Sama regresivna analiza onda
ima za cilj da sazna uticaj jedne ili vie nezavisnih promenljivih na verovatnou da se data pojava
(oznaena kao 1 u okviru zavisne promenljive) javi.

124

Veoma je bitno ispravno kodirati zavisnu promenljivu, odnosno ispravno oznaiti pojavu
jedinice ili nule. Statistiki programi standardno daju rezultat pojave oznaene brojem jedan. Zato
kad jedinicom oznaimo bolesne ljude (a nulom zdrave), modeliramo verovatnou da e se ovek
razboleti, a ako jedinicom oznaimo zdrave ljude (a nulom bolesne), modeliramo verovatnou da se
ovek nee razboleti. Izmeu ovih situacija postoji sutinska razlika, pa je potrebno povesti panju
ve pri pripremanju baze podataka, koju emo posle koristiti prilikom analize.


Nezavisne promenljive

Uopteno u regresivnoj analizi nezavisim zovemo promenljive koje analiziramo kao faktore
koji utiu na posmatranu pojavu. Klasian primer iz epidemiologije su opet izloenost i bolest.
Izloenost je u ovom sluaju nezavisna promenljiva koja utie na nastanak posmatrane pojave.
Logistika metoda je metoda koja omoguava analiziranje istovremenog uticaja nekoliko
promenljivih na posmatranu pojavu. Zato se smatra adekvatnom metodom za multivarijantnu
analizu u sluajevima kada je zavisna promenljiva binarna (bolest/zdravlje, smrt/ivot, i sl.). Dobra
strana logistike regresije je to moe da otkrije uticaj faktora (nezavisnih promenljivih)
reprezentovanih mnogim drugima promenljivima moemo da koristimo kontinuirane i
kategorijalne promenljive u proizvoljnim kombinacijama (npr. kombinacija kontinuiranih faktora
kao to su uzrast, visina, telesna masa i kategorijalnih faktora kao pol i sl.).



Primena logistike regresije



Logistika regresija olakava izraavanje kompleksnih odnosa izmeu uzoraka nezavisnih
promenljivih i zavisnih promenljivih i identifikovanje nezavisne promenljive sa znaajnim,
signifikantnim uticajem na zavisnu promenljivu u okviru analiziranog uzorka.
Ujedno, na osnovu analize uticaja uzoraka nezavisne promenljive na zavisnu promenljivu u
okviru analiziranog uzorka, logistika regresija omoguava predvianje verovatnoe pojave,
izraavajui je zavisnom promenljivom kod pojedinca sa poznatom kombinacijom nezavisnih
promenljivih. To znai da omoguava izraunavanje verovatnoe smrtnosti, preivljavanja ili druge
pojave kod individue sa poznatim parametrima koji ine nezavisnu promenljivu, na osnovu
prethodnog raunanja koeficijenata logistike regresije.
Za konkretniju ilustraciju navedimo primer niske poroajne mase i faktora koji su povezani
sa ovom pojavom. Uzmimo zato populaciju majki i odaberimo iz nje uzorak 500 majki, kod kojih
smo saznali da li je dete roeno od date majke imalo normalnu ili nisku telesnu masu pri roenju.
Isto tako zabeleimo etniku pripadnost porodilje, njenu starost i da li je puila tokom trudnoe.
Zavisna promenljiva, u ovom sluaju promenljiva koja izraava da li se dete rodilo sa
normalnom ili sa niskom poroajnom masom, gde brojani kod 1 oznaava dete sa niskom
poroajnom masom, a brojani kod 0 oznaava dete roeno sa normalnom poroajnom masom.
Nezavisnim promenljivim bie dodeljene informacije koje smo dobili o porodiljama, dakle etnika
pripadnost, uzrast i puenje.
Primenom prvog naina pravljenja logistike regresije moemo da analiziramo na koji nain
pojedine nezavisne imaju veze sa zavisnom promenljivom (na koji nain etnika pripadanost, uzrast
i puenje majke utiu da li e se dete roditi sa niskom poroajnom masom), kvantifikovaemo ove

125

uticaje i njihov statistiki znaaj.
Primenom drugog naina izvrenja logistike regresije moemo da kod sluajno odabrane
majke (iz populacije iz koje smo odabrali spominjan 500-lani uzorak) predvidimo sa kojom
verovatnoom e se njeno dete roditi sa niskom poroajnom masom. Pritom emo iskoristiti
informacije dobijene prvim nainom primene logistike regresije i informacije o posmatranju
nezavisnih parametara kod izabrane majke. Drugim reima, ako kod izabrane majke saznamo uzrast,
etniku pripadnost i puenje, moi emo da predvidimo da li e se njeno dete roditi sa niskom ili
normalnom poroajnom masom.
U nastavku emo objasniti na koji nain primenjujemo i interpretiramo logistiku regresiju
postizanjem ova dva cilja.


Logistika funkcija i logistiki model


Jedna od osnovnih premisa logistike regresije je logistika funkcija. Pojednostavljeno
reeno, logistika funkcija, koju oznaavamo sa f(z), je matematika osnova za izraavanje
kompleksnih odnosa meu nezavisnim promenljivima i zavisnim promenljivima, veza koje
analiziramo. Slika prikazuje sigmoid logistike funkcije, gde se na osi x nalaze vrednosti Z, a osa Y
predstavlja vrednost funkcije. Kako ve znamo iz grafikona (Slika 1), vrednost f(z) pae uvek u
interval 0-1.



Slika 1: Grafika reprezentacija krive logistike regresije za jednu zavisnu promenjlivu



Iz reenog proizilazi da za bilo koju vrednost Z, ona e biti u logistikoj funkciji u rasponu
0 - 1. Ovu injenicu u epidemiologiji znamo da iskoristimo za izraavanje verovatnoe, koja se
takoe nalazi u intervalu 0 - 1, respektivno 0 - 100%.



126


Od logistike funkcije ka logistikom modelu


Pomou logistike funkcije f(z) moemo da saznamo verovatnou posmatrane pojave sa
pretpostavkom specifine kombinacije nezavisnih promenljivih izraenih vrednou Z (primenom
logistike regresije za predikciju verovatnoe odreene pojave). Uiniemo to korienjem sledeeg
odnosa, koji predstavlja matimatiki zapis logistikog modela:
f(z)= 1 / 1-e
-z

Iz navedenog vidimo da je vrednost Z u logistikoj regresiji kljuna. Pokazaemo ta tano
predstavlja i kako emo doi do nje. Z predstavlja brojano izraavanje kombinovanog uticaja
uzorka nezavisnih promenljivih na verovatnou pojave posmatrane zavisne promenljive. Ova
vrednost izraava uticaj svake nezavisne promenljive i sa svakom promenom bilo koje od njih se
menja. Uticaj pojedinih nezavisnih promenljivih na vrednost Z moe se izraziti sledeim odnosom:

Z=
0
+
1
X
1
+
2
X
2
+
3
X
3
+....
n
X
n


U ovom odnosu
0
predstavlja taku preseka, dakle vrednost Z u sluaju da sve nezavisne
promenljive imaju vrednost nula (tj. vrednost Z u sluaju da dati ovek nema ni jedan od faktora
rizika korieih u analizi). Vrednosti od
1
do
n
su koeficijenti regresije, koji su brojano izraeni
uticajem pojedinih nezavisnih promenljivih od X
1
do X
n
na rezultativnu vrednost Z. Drugim reima,
regresivni koeficijenti su brojane konstante koje izraavaju u kom pravcu i kakvim intenzitetom e
data promenljiva uestvovati u pojavi posmatrane pojave (npr. da e se ovek razboleti). Pod
intenzitetom se u ovom kontekstu misli na to koliko promena intenziteta vrednosti date nezavisne
promenljive promeni verovatnou da se pojavi posmatrana pojava. Pod smerom uticaja se u ovom
kontekstu misli da li poveanje vrednosti nezavisne promenljive povea ili smanji verovatnou da
se pojavi posmatrana pojava. Vrednost Z zato detaljno uzima u obzir kakav je intenzitet i smer
uticaja nezavisnih promenljivih na verovatnou pojave posmatrane pojave.



Primer poroajne mase i njenih prediktora


Jednostavnije je zapisati i objasniti korake logistike regresije na konkretnom primeru.

Sa ciljem objanjenja pojedinih koraka pri aplikaciji i interpretaciji logistike regresije,
koristiemo datoteku birthwt, koja je deo programa R. Ova datoteka sadri podatke o poroajnoj
masi 189 dece i podatke o rizinim faktorima majki, koji mogu da utiu na roenje deteta sa masom
manjom od 2500g, to jeste uoptena granica za nisku poroajnu masu (deca sa masom manjom od
2500g roena su sa niskom poroajnom masom).
Zavisna promenljiva u ovom sluaju je faktor da li se dete rodilo sa niskom poroajnom
masom ili sa normalnom poroajnom masom. U datoj bazi podataka zavisna promenljiva je
promenljiva sa nazivom low, koja ima vrednost 1 ako je dete imalo poroajnu masu manju od
2500g, a vrednost 0, ako je imalo normalnu poroajnu masu, dakle iznad 2500g.
Datoteka sadri i druge promenljive koje belee prisutnost rizinih faktora kod majki.
Uzmimo u obzir uzrast majki, oznaen kao promenljiva sa nazivom age (kontinuirana
promenljiva u godinama), zatim puenje majke tokom trudnoe, sadrano u promenljivoj sa

127

nazivom smoke (kategorijalna promenljiva 1-da , 0-ne) i etnika pripadnost majke, iz
promenljive sa nazivom race (majka belkinja -1, majka crnkinja -2, majka druge rase -3).
Obratite panju da kao predikatore u ovom sluaju koristimo kontinuiranu promenljivu
(promenljivu age) i kategorijalnu promenljivu (promenljive race i smoke). Logistika
regresija omoguava analiziranje i kontinuiranih i kategorijalnih nezavisnih promenljivih.
Posle zadavanja na ekranu dobijamo sledei prikaz u programu R library(MASS),
data(birthwt) i list(birthwt), (Slika 2).


Slika 2: Ulazni podaci primera poroajne mase




Ako elimo da budemo sigurni da e promenljive, koje su kategorijalne, i biti analizirane
kao kategorijalne (takva nesigurnost se pojavi ukoliko su kategorije izraene brojanim kodom),
transformiemo ih u R pomou sledeih komandi (u naem primeru re je o promenljivim race i
smoke):

birthwt$smoke=as.factor(birthwt$smoke) i

birthwt$race=as.factor(birthwt$race).

U naem sluaju posmatrana pojava je roenje deteta sa niskom poroajnom masom.
Saznaemo, dakle, da li pojedini prediktori poveavaju ili smanjuju mogunost da se dete rodi sa
niskom telesnom masom, kao i intenzitet uticaja pojedinih promenljivih.
Za ovu namenu koristiemo komandu glm u sledeoj formi :

regresija = glm (low ~ age+ smoke+ race, family=binomial, data=birthwt)
summary (regresia)


128

Komanda e u prvom redu napisati rezultate logistike regresije analize u objekat sa
nazivom regresija (ovaj naziv je proizvoljan i moete ga staviti prema potrebi). Komanda
summary onda odtampa sadraj datog objekta na ekranu (Tabela 2).



Tabela 6: Rezultat logistike regresije





Prva kolona prikazuje spisak prediktora (nezavisnih promenljivih), zajedno sa takom
preseka (intercept). Druga kolona prikazuje koeficijente regresije (estimate), trea kolona prikazuje
standardnu greku koeficijenata regresije (std.error), etvrta kolona prikazuje rezutat statistikog
testa (Valdov test ili Z-test) za date prediktore, a poslednja kolona prikazuje p-vrednosti za
odgovarajue prediktore.

U sluaju kategorijalnih promenljivih smoke i race koeficijent je izraunat za sve
kategorije date promenljive. Prilikom izraunavanja uticaja pojedinih kategorija, jedna od njih se
automatski odredi kao referentna u pogledu prema kojoj se izrauna koeficijent regresije uticaja
preostalih kategorija. Koeficijent regresije uticaja referentne kategorije je 0 (nula). Program R
prilikom korienja komandi glm ili lrm ne pie u tabeli referentne kategorije. Zato je uvek ta
kategorija nezavisne promenljive, koja se ne nalazi u tabeli, referentna. Program R odreuje, kao
referentnu, onu kategoriju koja se nalazi prva u redosledu. U sluaju da su kategorije oznaene
brojanim kodovima, re je o kategoriji sa najmanjim brojanim kodom. U sluaju da su kategorije
oznaene reima, referentna e biti ona kojoj se poetno slovo nalazi prvo u abecedi. Ako elimo da
promenimo ovaj redosled, potredno je promenljive odgovarajue svrstati. Ovom aspektu blie emo
se posvetiti u delu o interpretaciji rezultata.
Predmet naeg interesovanja iz pogleda interpretacije rezultata su, iz navedene tabele, najpre
koeficijenti regresije i odgovarajue p-vrednosti.
Koeficijent regresije uopteno odreuje pravac i intenzitet uticaja datog prediktora na razvoj
posmatrane pojave. Ako koeficijent regresije pozitivnu vrednost (u ovom sluaju, na primer,
promenljiva smoke), u interpretaciji moemo navesti da pripadanje date majke kategoriji
1 promenljive smoke (dakle, ta majka je pua) poveava verovatnou da e se dete roditi sa
niskom poroajnom masom. Ukoliko koeficijent regresije ima negativnu vrednost (u ovom sluaju,
na primer, promenljiva age), uticaj je suprotan, odnosno ako se povea vrednost promenljive,
sniava se i verovatnoa da se dete rodi sa niskom poroajnom masom.
P-vrednost Valdovog testa ukazuje na to da li je uticaj date nezavisne promenljive na
zavisnu promenljivu, iskazan koeficijentom regresije, statistiki signifikantan ili ne. Data p-
vrednost se odnosi na test hipoteze o nultom uticaju, odnosno o nezavisnosti datih promenljivih. U
naem sluaju p-vrednost pripadajua promenljivoj age odnosi se na testiranje hipoteze o

129

nezavisnoj promenljivoj age kao prediktora (nezavinle promenljive) i zavisne promenljive low,
koja sadri informaciju o niskoj, odnosno normalnoj poroajnoj masi. Neemo se posebno
zadravati na interpretaciji p-vrednosti, zato to je ona opisana u prethodnim poglavljima.
Koeficijenti regresije, u obliku kako smo ih do sad izraunavali, su dosta komplikovani za
interpretaciju. Jednostavnije je da se dati koeficijenti regresije preraunaju na vrednosti Odds Ratio,
odnosno unakrsni odnos ansi, parametra koji se u epidemiologiji svakodnevno koristi. Odnos ansi
(OR) dobiemo na sledei nain:
OR
1
= e

1


Odnos ansi je jednak e podignutim na kvadrat odgovarajuim koeficijentom regresije. Na
slian nain izraunamo OR za sve koeficijente regresije u tabeli. U programu R za ovo moemo da
koristimo komandu exp. Kad bismo eleli da izraunamo OR iz naih koeficijenata koji su zapisani
u objektu regresija (pogledaj sliku gore), primenjujemo komandu exp na sledei nain:

exp(regresija$coefficients)

Rezultat e biti sledee vrednosti OR (Tabela 3).


Tabela 3: Koeficijenti regresije



U interpretaciji koeficijenata regresije, odnosno OR, moramo da vodimo rauna ne samo sa
njihovim takastim ocenama, koje smo dobili korienjem logistike regresije, ve su nam potrebne
i njihove intervalske ocene, izraene na osnovu intervala poverenja. Budui da ih sama komanda
glm() nee izraunati automatski, moramo da koristimo dodatnu komandu confint(). Nju emo
primeniti na objekat regresija, napravljen u prethodnom koraku, koji sadri rezultate logistike
regresivne analize. Zadaemo ovaj prikaz:

confint(regresija)

a rezultat su intervali poverenja za koeficijente regresije pojedinih nezavisnih promenljivih (Tabela
4).








130

Tabela 4: Intervali poverenja za koeficijente regresije




Data tabela sadri kolone, pri emi prva sadri nazive promenljivih, druga sadri donju
granicu intervala poverenja, a trea kolona gornju granicu.
Za izraunavanje intervala poverenja za OR koristiemo postupak kao pri transformisanju
koeficijenata regresije za OR, dakle

exp(confint(regresija))

i dobiemo sledeu tabelu sa nazivom promenljivih i pripadajuim gornjim i donji granicama
intervala poverenja, (Tabela 5).



Tabela 5: Intervali poverenja za unakrsni odnos ansi OR



Za zbirno zapisivanje svih koeficijenata regresije, pripadajuim OR i intervala poverenja
oko OR, u naem konkretnom sluaju koristiemo sledee funkcije u R:

sum.coef<-summary(regresija)$coef
est<-exp(sum.coef[,1])
upper.ci<-exp(sum.coef[,1]+1.96*sum.coef[,2])
lower.ci<-exp(sum.coef[,1]-1.96*sum.coef[,2])
summary(regresija)

131

cbind(regresija$coef,est,lower.ci,upper.ci)

Rezultat ovog uzorka je sledea pregledna tabela, koja predstavlja kljune informacije
rezultata (prva kolona prikazuje nazive promenljivih, druga kolona koeficijente regresije, kolona
oznaena est sadri vrednosti OR, a kolona oznaena lower.ci i upper.ci sadri donje,
odnosno gornje granice intervala poverelja OR ), (Tabela 6).

Tabela 6: Prikazivanje rezultata u jednoj tabeli



Interpretacija rezultata logistike regresije


Prilikom interpretacije rezultata logistike regresije jako je bitno biti svestan injenice da
logistika regresija analizira kompleksan odnos izmeu skupa nezavisnih promenljivih i jedne
zavisne promanljive. Omoguavanje ovakve kompleksne analize odnosa je razlog to je logistika
regresija metoda izbora pri analizi uticaja vie rizinih faktora na jedno oboljenje - dakle prilikom
tipine epidemioloke analize.
Praktian znaaj ima injenica da logistika regresija omoguava analiziranje uticaj jedne
nezavisne promenljive na zavisnu promenljivu, pri emu uzimamo u obzir (izvagamo) uticaj drugih
nezavisnih promenljivih koje, i kada nisu primarni predmet naeg interesovanja, mogu da budu sa
zavisnom promenljivom statistiki znaajno povezane. Time to emo ove nezavisne promenljive
ukljuiti u nau analizu, odfiltriraemo njihov skriveni uticaj i vie emo se pribliiti stvarnom
izraavanju odnosa izmeu nezavisne promanljive iji uticaj nas primarno zanima i izmeu zavisne
promenljive. Na ovakav nain radimo takozvanu izvaganu analizu i dobijamo izvagano OR (u
statistikoj i strunoj literaturi se ovakav OR obino oznaava kao adjusted OR). Bitno je biti
svestan da ako u uzorak nezavisnih promenljivih dodamo sledeu nezavisnu promenljivu (ili vie
nezavisnih promenljivih odjednom), ili ako iz uzorka nezavisnih promenljivih jednu ili vie
nezavisnih promenljivih izbacimo, mogu da se promene koeficijenti regresije i statistika znaajnost
njihovog uticaja.
Ako se vratimo na na primer sa prediktorima niske poroajne mase, onda OR u tabeli za
pojedine nezavisne moemo da interpretiramo reima za pojedine promenljive. Nezavisna
promenljiva age potvruje da kada se povea starost majke za jedinicu, sniava se ansa da e se
njeno dete roditi sa niskom poroajnom masom 0,96 puta, sa pretpostavkom da ostale nezavisne
promenljive ostanu konstantne. Na osnovu toga to interval poverenja ukljuuje i broj 1, odnosno
da je p-vrednost, koja pripada koeficijentu regresije od kojeg je dato OR izvedeno, vea od 0,05,
ovaj uticaj nije statistiki signifikantan.
Nezavisna promenljiva promenljiva smoke je kategorijalna, pa se njena interpretacija
pomalo razlikuje. Setimo se takozvane referentne kategorije, o kojoj smo govorili u prethodnim
delovima poglavlja. Ponovimo da je uticaj pojedinih kategorija date nezavisne promenljive relativan
prema referentnoj kategoriji. U sluaju ove promenljive referentna kategorija je oznaena u bazi
podataka brojanim kodom 0, odnosno majka-nepua. OR pripadajue kategorije oznaene

132

brojanim kodom 1, dakle majka pua, interpretiramo na sledei nain: ako majka na osnovu
promenljive smoke spada u kategoriju puaa, u poreenju sa kategorijom nepuaa u naoj bazi
podataka, ansa da e se njeno dete roditi sa niskom poroajnom masom e se poveati se za 2,98
puta sa pretpostavkom da ostale nezavisne promenljive ostanu konstantne. Na osnovu toga to
interval poverenja ukljuuje broj 1, odnosno da p-vrednost pripadajua regresivnom koeficijentu, iz
kojeg je bio izveden dati OR, je manja od 0,05, ovaj uticaj je statistiki signifikantan.
Nezavisna promaneljiva promenljiva race je takoe kategorijalna, pa je interpretiramo
slino kao promenljivu smoke. U sluaju ove promenljive, referentna kategorija je ona oznaena
oznaena u bazi podataka brojanim kodom 1, odnoson majka kavkaske rase (referentna
kategorija u tabeli nije prisutna). OR koji pripada kategoriji oznaenoj brojanim kodom 2,
odnosno majka crnkinja, interpretiramo na sledei nain: ako majka na osnovu promenljive
race spada u kategoriju crnkinja, u poreenju sa kategorijom kavkaske rase u naoj bazi podataka,
ansa da njeno dete bude roeno sa niskom poroajnom masom se poveava 2,75 puta sa
pretpostavkom da ostale nezavisne promenljive ostanu konstantne. OR koje pripada kategoriji
oznaenoj brojanim kodom 3, dakle majke druge rase, interpretiramo na sledei nain: ako
majka na osnovu promenljive race spada u kategoriju druge rase, u poreenju sa kategorijom
majki kavkaske rase u naoj bazi podataka, ansa da dete bude roeno sa niskom poroajnom
masom poveava se 2,88 puta sa pretpostavkom da ostale nezavisne promenljive ostanu
konstantne.
Na osnovu injenice da interval poverenja u sluaju kategorije 2 i 3 ne ukljuuje broj 1,
odnosno da p-vrednost pripada koeficijentima regresije, od kojih su bili izvedeni dati OR, je <0,05,
ovi uticaji su statistiki signifikantni.



Primena logistikog modela na predikciju


Nakon to smo kompleksno analizirali odnose izmeu uzorka nezavisnih promenljivih i
zavisne promenljive u naem uzorku, sada emo govoriti o primemi logistike regresije za
predikciju verovatnoe da e nastati posmatrana pojava. Ako ostanemo kod naeg primera, onda
govorimo o predikciji da se majci sa odreenom kombinacijom posmatranih nezavisnih
promenljivih (prediktora) rodi dete sa normalnom ili sa niskom poroajnom masom.
Analiziraemo konkretan primer majke, kod koje smo saznali sledee vrednosti prediktora:

X
1
, dakle age = 21 godina

X
2
, dakle smoke = 1 ili pua
X
3
, dakle race = 3 ili druga rasa

Za predikciju koristimo nama ve poznatu komandu logistkog modela

f(z)=1/1+e
-z


Kako bismo odredili verovatnou pojave f(z), to je u ovom sluaju niska poroajna masa
izraena brojem 1 u okviru promenljive low, moramo da izraunamo vrednost Z i ubacimo je
u ovaj odnos. Vrednost Z dobijemo nama ve poznatim nainom pomou odnosa:


133

Z=
0
+
1
X
1
+
2
X
2
+
3
X
3,
gde je

0
= vrednost koeficijenta regresije za intecept,

1
= vrednost koeficijenta regresije za promenljivu age,

2
= vrednost koeficijenta regresije za kategoriju promenljive smoke1, budui da je re o puau,

3
= vrednost koeficijenta regresije za kategoriju promenljive race3, budui da je re o majci
druge rase,

i zato je
Z= -1.00755 + (-0.03488 ) X
1
+ 1.10055 X
2
+ 1.05673

X
3

gde je posle umetanja vrednosti X
1
, odnosno utrasta:
Z= -1.00755 + (-0.03488 ) * 21

+ 1.10055 X
2
+ 1.05673

X
3

Z= 0.42

Posle zamene vrednosti Z u odnos
f(z)=1/1+e
-z


dobijamo
f(z)=1/1+e
-(0,42)


a posle
f(z)=0,6 , odnosno
f(z)=60%.

Kod 21-godinje majke puaa druge rase, verovatnoa roenja deteta sa niskom
poroajnom masom prema modelu nepravljenom u naem uzorku je 60%.



Validnost i dijagnostika logistikog modela


Dijagnostika ili vrednovanje modela je skup naziva za kompleksne pokazatelje koji govore
o tome koliko je validan model koji smo napravili. Kako smo definisali dve vrste primene
logistikog modela, tako emo sada da objasnimo koji atributi su bitni pri obe primene.


Signifikantnost uticaja prediktora na zavisnu promenljivu

Ovaj vid validnosti modela se pre svega odnosi na primenu logistike regresije na
kompleksnu analizu odnosa izmeu uzoraka nezavisnih promenljivih i zavisne promenljive.
Odluujui atribut za vrednovanje signifikantnosti uticaja pojedinih nezavisnih promenljivih na
zavisnu promenljivu je rezultat Valdovog testa hipoteze o nezavisnosti promenljive od date
nezavisne promenljive. Ako p-vrednost pripadajua Valdovom testu za datu nezavisnu promenljivu
ukazuje na odbacivanje ovakve hipoteze, data promenljiva ima statistiki signifikantan uticaj na
zavisnu promenljivu.
U optimalnom modelu sve obuhvaene nezavisne promenljive imaju signifikantan uticaj na
zavisnu promenljivu. Obino se, meutim, sreemo sa sluajem gde su u modelu obuhvaene i

134

nezavisne promenljive sa statistikim nesignifikantnim uticajem. U ovakvom sluaju potrebno je
model promeniti izbacivanjem, odnosno dodavanjem nezavisnih promenljivih sve dok ne
postignemo takav model, gde e sve nezavisne promenljive imati statistiki signifikantan uticaj.
Za traenje optimalnog modela moemo da iskoristimo tri naina. Prvi je takozvana
napredna selekcija, gde pravljenje modela poinjemo univarijantnom analizom uticaja pojedinih
nezavisnih promenljivih na zavisnu promenljivu, a do konanog modela obuhvatimo one
promenljive kod kojih se sazna statistiki signifikantni uticaj pri univarijantnoj analizi. Drugi nain
je takozvana povezana selekcija, prilikom koje najpre u modelu obuhvatimo sve nezavisne
promenljive, koje imamo na raspolaganju. Naknadno iz nje izbacimo promenljive sa
nesignifikantnim uticajem i ponovimo analizu. Ovu proceduru ponavljamo sve dok ne dobijemo
model gde sve nezavisne promenljive imaju signifikantni uticaj na zavisnu promenljivu. Trei nain
je kombinacija elemenata napredne i povezane selekcije.
Ako se vratimo na na zadatak, model koji smo napravili sadri tri nezavisne promenljive,
od kojih jedna promenljiva age, ima nesignifikantan uticaj. Za optimalizaciju modela radili bismo
sledee:

Na prvobitan model sadrao je tri nezavisne promenljive: age, smoke i race.

U programu R smo komandom:

regresija = glm (low ~ age+ smoke+ race, family=binomial, data=birthwt)
summary (regresija)

dobili model sa sledeim parametrima (Tabela 7).

Tabela 7: Koeficijenti regresije i njihov znaaj



Na osnovu Valdovog testa se, dakle, nije pokazao statistiki signifikantan uticaj promenljive
age, zato emo koristiti metodu povezane selekcije i izraziemo ovu nezavisnu promenljivu iz
modela. Onda analizu ponovimo pomou sledee komande:

regresija = glm (low ~ smoke + race, family=binomial, data=birthwt)
summary (regresija)

i dobijemo model sa novi m parametrima (Tabela 8).






135


Tabela 8: Novi parametri posle povezane selekcije




Iz navedene tabele proizilazi da je uticaj obe nezavisne promenljive koje su u modelu
statistiki signifikantan. Obratite panju na kljunu pojavu: posle izbacivanja jedne od promenljivih
i ponavljanja analize, vrednost i signifikantnost uticaja promenljivih, koje su ostale u modelu, se
zamenila.


Validnost modela kao celine

Ova vrsta validnosti se pre svega odnosni na primenu logistike regresije na predikciju.
Logistiki model ovde vrednujemo kao celinu, za razliku od individualnog vrednovanja zavisnih
promenljivih, koje smo spomenuli u prethodnom delu. Problematika prognostikog modelovanja i
dijagnostikih modela je kompleksan problem, koji prevazilazi ciljeve ove publikacije, pa emo
zato govoriti samo o nekoliko osnovnih aspekata.
Osnovni atributi validnosti prognostikog modela su AUC (Area Under the Curve), odnosno
povrina ispod krive ROC i Nagelkerkeovog R
2
. AUC, ponekad oznaen i sa C, je vrednost koja se
uvek nalazi u rasponu od 0,5 do 1. Vrednost AUC=1 ukazuje na model sa visokom
diskriminativnom sposobnou, odnosno sposobnou da ispravno odredi obolele i zdrave. Vrednost
AUC=0,5 ukazuje na model sa praktino nultom diskriminativnom sposobnou. Ovaj parametar
proizilazi iz specifinosti i senzitivnou modela, odnosno sposobnosti predvianja stvarno
pozitivnih i stvarno negativnih sluajeva.
Nagelkerkeov R
2
je jedan od pseudokoeficijenata determinacije. Njegov znaaj je slian
znaaju stvarnog koeficijenta determinacije, meutim metod njegovog izraunavanja je drugaiji
(kada pri logistikoj regresiji nije re o linearnoj zavisnosti, nije mogue odrediti koeficijent
determinacije, kako ga poznajemo u linearnoj regresiji zato i ima naziv pseudokoeficijent
determinacije). Ovde govorimo o parametru koji dobija vrednost od 0 do 1. to se vrednost vie
pribliava 1, time je model validniji. Izraunamo vrednost AUC i Nagelkerkeovog R
2
za model u
naem primeru.
Oba navedena parametra, kao i sledee parametre koriene pri prognostikom modelovanju
(to nije predmet ove publikacije), dobijamo, na primer, korienjem komande lrm iz paketa Design
u programu R. Komanda ima sledei oblik:

library(Design)
data(birthwt)
lrm (low ~ smoke + race, data=birthwt)

Rezultat su odgovarajui parametri prikazani u Tabeli 9.

136

Tabela u donjem delu se slae sa onom koju smo dobili komandom glm. Iznad nje se nalazi
nekoliko sledeih parametara koji se odnose na model, meu kojima je i AUC (u ovom sluaju
oznaen kao C) i Nagelkerkeov R
2
, koji je u ovom sluaju izraen kao R
2
.
U naem zadatku je C=0,65, to govori o umerenoj do dobroj diskriminatornoj sposobnosti
modela. Model koji smo napravili e umereno do dobro dokazati i ispravno odrediti da li e se dete
odreene majke roditi sa normalnom ili sa niskom poroajnom masom. R
2
ima u ovom konkretnom
sluaju 0,105, to je vrednost relativno bliska nuli. Ovo ukazuje na nisku validnost modela.
Nagelkerkeov R
2
ne bi trebalo da se uzima za odluujui kriterijum prilikom vrednovanja validnosti
modela, ve pre kao podravajua informacija za interpretaciju.


Tabela 9: Rezultat dijagnostikog modela





Pridruenost (confounding) i interakcije

Jedna od kljunih uloga epidemiologije je sposobnost da se objasni odnos izmeu odreenih
definisanih faktora i zdravstvenog efekta. Kada bismo odnos koji elimo da objasnimo postavili kao
jednostavan kauzalni odnos izmeu izloenosti faktoru rizika R i efekta E, morali bi da uzmemo u
obzir kompleks sledeih faktora i okolnosti, koji na ovaj jednostavno postavljen odnos mogu da
utiu i menjaju na razliite naine. U epidemiologiji definiemo dva osnovna tipa ovakvih uticaja.
Govorimo o pridruenosti i interakciji.

Pridruenost

Pridruenost bismo mogli jednostavno da definiemo kao kombinaciju uticaja rizinog
faktora, iji uticaj na zdravstveni efekat opisujemo sa efektom drugih rizinih faktora na nama
posmatran efekat. Ova premisa proizilazi iz kompleksnosti odnosa u prirodi i iz injenice da ni

137

jedan zdravstveni efekat nije prouzrokovan iskljuivo uticajem jednog faktora, nego moe da bude
rezultat uticaja vie faktora. U sluaju pridruenosti razmiljamo o efektu faktora rizika R1 na
zdravstveni efekat E i o efektu faktora rizika R2 na taj isti zdravstveni efekat E kao o dva mogua
naina pojave posmatranog zdravstvenog stanja.


Interakcije

Interakcije moemo da opiemo kao uticaj faktora R2, koji nije neophodno primarni
predmet naeg interesovanja, na efekat prouavanog faktora rizika R1 na posmatrani zdravstveni
efekat E. Dakle, radi se o modifikaciji odreenog faktora na posmatrani zdravstveni efekat drugim
faktorom. Meutim, ujedno dati faktor R2 moe da bude u odreenoj kauzalnoj vezi sa
posmatranim zdravstvenim efektom. Ovde govorimo o meunezavisnom delovanju, gde faktor R2
sam po sebi utie na zdravstveni efekat i ujedno je u interakciji sa faktorom R1. Promena faktora R2
moe da izazove promenu uticaja faktora R1 na zdravstveni efekat E.


Kako izai na kraj sa pridruenou i interakcijama

Primarno bi sve snage na eliminisanje uticaja na mogue pridruenosti i interakcije trebalo
koncentrisati na fazu dizajna epidemioloke studije. Posle definisanja kauzalnog odnosa, koji je u
studiji primarni predmet naeg interesovanja, trebali bismo da se trudimo da identifikujemo faktore
koji mogu u datom sluaju da deluju kao pridruenosti ili da izazovu interakcije. Dobar nain kako
da se dizajnom epidemioloke studije minimiziraju ovakvi uticaji je randomizovan izbor iz
populacije ili meovanje (sparivanje). Obe ove procedure su predmet bazine epidemiologije.
U praksi, meutim, nije mogue spreiti pojavu pridruenosti i interakcije samo dizajnom
studije, tako da je potrebno posvetiti im panju i u fazi statistike analize podataka. Najbolja
strategija kako analizirati pridruenost i interakcije je stratifikovana statistika analiza i upotreba
specifinih statistikih testova (Mantel-Hencelove procedure i sl. ).
Koncept pridruenosti i interakcije detaljno je prodiskutovan u mnogim udbenicima
epidemilogije, a opis statistikih procedura, koje interakcije i pridruenosti analiziraju je
kompleksan i nije predmet ovog udbenika. Faktori spomenuti u ovom poglavlju trebalo bi da budu
odgovorno izvagani i uzeti u obzir prilikom bilo kojeg postupka multivarijantne analize, ukljuujui
i logistiku regresiju.















138

Vebe


1. Prema zadacima i uputstvima u ovom poglavlju napravite sledeu analizu: analizirajte na koji
nain oboljenje mokrane beike, uzrast, hipertenzija, gojaznost i trajanje estrogene terapije
potenciraju razvoj endomerijalnog karcinoma. Izraunajte pojedine koeficijente regresije, unakrsni
odnos ansi (OR) i njihov interval poverenja. Pokuajte da napravite optimalan model za predikciju
endometrijalnog karcinoma na osnovu dostupnih promenljivih i interpretirajte da li je uticaj
pojedinih prediktora u modelu signifikantan. Vrednujte model kao celinu. Koristite datoteku
bdendo u okviru paketa Epi u programu R.

2. Razmislite o pridruenostima i interakcijama u okviru prethodnog zadatka o endometrijalnom
karcinomu. Pokuajte da predloite optimalan dizajn epidemioloke studije za saznanje datih
faktora za razvoj endometrijalnog karcinoma.
































139

DESETO POGLAVLJE
Hi-kvadrat i neparametarske statistike

Sadraj poglavlja


Cilj poglavlja ............................................................................................................................... 140

Osobine hi-kvadrat raspodele ...................................................................................................... 140

Hi-kvadrat test i tabele kontigencije ........................................................................................... 140

2x2 tabele.................................................................................................................................... 141

m x n tabele................................................................................................................................. 144

Neparametrijski testovi .............................................................................................................. 145

Skale ........................................................................................................................................... 145

Znakovni test .............................................................................................................................. 146

Test medijana ............................................................................................................................... 150

Vilkoksonov test za dva uzorka ................................................................................................... 151

Kruskal-Volis analiza disperzije .................................................................................................. 152

Saetak ........................................................................................................................................ 155
Vebe ........................................................................................................................................... 167














140

Cilj poglavlja

Do sada smo govorili o statistikom pristupu koji se odnosio na izmerene podatke, a oni su
bili normalno raspodeljeni, odnosno priblino normalno raspodeljeni. Ali, u svakodnevnom ivotu,
u klinikim i epidemiolokim studijama, esto se sreemo sa podacima u numerikom obliku, u
obliku uestalosti (broj oboljenja, broj sluajeva sa simptomima i bez njih, broj puaa i slino).
Sreemo se i sa situacijom gde izvorno izmerene kvantitativne podatke (uzrast, nivo eera
glikemije u krvi) menjamo u kategorije i zanima nas zastupanje u ovim kategorijama (starosne
kategorije, glikemija poviena i dotina vrednost). esto se sreemo sa situacijom kada uslove
normalne raspodele iz raznih razloga ne moemo da ispunimo, naroito usled malog uzorka. U
ovom poglavlju baviemo se ovakvom vrstom problema i naveemo osnovne postupke prilikom
njihovog reenja i interpretacije.

Tabela 1: Ciljevi poglavlja
1. Objanjenje osobina hi-kvadrat raspodele
2. Primena hi-kvadrat testa za 2x2 i m puta n tabele
3. Osnovi neparametrijski testovi


Osobine hi-kvadrat raspodele

Hi-kvadrat raspodelu (
2
) moemo da izvedemo iz normalne raspodele. Za svaki stepen
slobode raspodela ima drugaiji umeren oblik krive (Slika 1).

Obratite panju da je oblik raspodele za prva dva stepena slobode znaajno razliit od
ostalih.


Hi kvadrat test i tabele kontigencije

Tabele kontigencije (contingency table) omoguavaju tabelarnu ukrtenu klasifikaciju
podataka. Predstavljaju kombinaciju dve (ili vie) tabela frekvencije, tako da svaka unutranja elija
predstavlja jednoznaajnu kombinaciju specifinih vrednosti (ovde nazivanu i kategorija) ukrteno
tabelarnih promenljivih. Dakle, omoguava saznanje frekencije, broja ispitanika, koji odgovaraju
specifinoj kategoriji za vie od jedne promenljive. Ispitivanje ovih frekvencija omoguava
saznanje relacija, odnosa izmeu promenljivih. Tabela kontigencije odgovara samo nominalnim
promenljivim ili brojanim promenljivim, koje dostiu relativno mali broj skupova vrednosti. U
sluaju da je neophodno koristiti brojanu promenljivu sa veim brojem dobijenih vrednosti,
potrebno je najpre je prekodirati, gde e vrednost promenljive biti jednoznano dodeljena u neku
kategoriju (napr. nizak, srednji, visok). Najjednostavnija tabela kontigencije je ona koja ima dve
kolone i dva reda (Tabela 1). Dodavanjem kolona i redova tabela se komplikuje i govorimo o r x c
ili m x n tabelama. Slova r ili m oznaavaju broj redova, a slova c ili n govore o broju kolona.


141


Slika 1: Hi kvadrat raspodela za razliite stepene slobode




Tabela 7: Tabela kontigencije 2x2


Hi-kvadrat test jes zasnovan na uporeivanju testiranih podataka koji imaju hi-kvadrat
raspodelu. Najee korieni testovi slue za saznanje da li su distribucije raspodele poreklom iz
dve ili vie populacija uzajamno razliite. Ovi testovi obino koriste zbirne podatke (podatke o
kvalitativnim vrednostima). Moe se raditi o uporeivanju uzoraka iz posmatrane populacije sa
teorijski oekivanom distribucijom.


2 x 2 tabele

Najjednostavniji oblik tabele kontigencije je 2x2 tabela, gde su obe promenljive binarne,
dajui samo dve mogue vrednosti, postavljene tako da za potkategorije jedne karakteristike uvode
horizontalne (u redovima -r), a potkategorije druge karaktristike se navode vertikalno (u kolonama
-c). Testovi zavisnosti meu karakteristikama u kolonama i u redovima mogu se uraditi onda
pomou hi-kvadrat testa. Konstrukciju tabele kontigencije pokazaemo na primeru (Primer 1).
Tabela ima dva reda i dve kolone, obe promenljive su binarne, dakle tipa ili/ili. Ili je imao uesnik
nesree na glavi kacigu, ili je nije imao i ili je zavrio u komi ili bez kome. To su sluajevi koji se
uzajamno iskljuuju, dakle niko ne moe da i ima i nema kacigu. Na drugoj strani, pogledajte da
C D
A a b a+b
B c d c+d
a+c b+d a+b+c
+d


142

etiri polja nude sve mogue kombinacije koje stvarno mogu da se dese: sa kacigom i bez kome, sa
kacigom i sa komom, bez kacige i bez kome, bez kacige i sa komom.

Primer 1: Primer pravljenja tabele kontigencije
Primer: U studiji uzroka povreda traio se uinak zatitne kacige kod motociklista, koji su imali
ozbiljnu saobraajnu nezgodu. Saznalo se da od 254 uesnika nezgoda na motorima kacigu je
koristilo 176, a od njih je preivelo ozbiljnu povredu praenu komom 23, dok oje onih koji nisu
koristili kacigu 56 osoba posle nezgode ostalo u komi. Da li je mogue rei da kaciga titi uesnike
od ozbiljnih povreda mozga praenih komom?

Tabela kontigencije: Prema gore navedenom slikovitom primeru i na osnovu zadavanja
zabeleiemo poznate podatke u tabelu:

Bez kome Sa
komom

Kaciga 23 176
Bez kacige 56
254

Dopuniemo raunanje u redovima i kolonama i napraviemo tabelu kontigencije:

Bez kome Sa
komom

Kaciga 153 23 176
Bez kacige 22 56 78
175 79 254

Iz ovako napravljene tabele jo ne znamo odgovoriti na pitanje istraivaa.



Zbir prvog reda govori koliko je bilo svih onih koji su nosili kacigu, a zbir drugog reda
koliko je bilo onih bez kacige. U prvoj koloni su svi koji nisu zavrili u komi, a u drugoj su svi koji
su zavrili u komi. esto je pitanje da li je pri konstrukciji tabele potrebno pridravanje nekog
redosleda, ta treba da bude u redu, a ta u koloni. Takvo pravilo ne postoji, jedino je potrebno
obratiti panju redosleda prilikom interpretacije rezultata.
Vratimo se pitanju kako emo da saznamo da li kaciga stvarno uva onog koje je nosi od
kome prilikom udesa na motoru. Poinjemo sa bilansom kakva je verovatnoa da uesnik nesree
nee imati kacigu. Rezultat navedenog predstavlja odnosom onih koji su imali kacigu prema
ukupnom broju. Iz tabele sa kompleksnim zadavanjem (Primer 1) saznaemo da je to broj 176/254
= 0,69. Verovatnoa ne upasti u komu posle povrede je analogna broju svih koji nisu imali komu
prema svima u uzorku, dakle 175/254 = 0,69 (razlika je tako mala, da se nee prikazati na dve
decimale). Postaviemo pitanje kakva je verovatnoa nositi kacigu i ne pasti u komu. U srednjoj

143

koli se ui da je kombinacija dve verovatnoe jednaka njihovom proizvodu, dakle u naem sluaju
to bi bilo 0,69 x 0,69 = 0,48. Koliko je to sluajeva iz celog uzorka saznaemo tako to broj
sluajeva pomnoimo verovatnoom nositi kacigu i ne upasti u komu, odnosno 254 x 0,48 =
121,26. Dakle, ako bi vaile izraunate verovatnoe, imali bismo u prvom kvadratu broj 121,26
sluajeva, a ne posmatranih 153 sluaja. Ovaj postupak vodi ka oekivanim vrednostima. One se
izraunaju ili na ovaj nain ili moemo da koristimo skraen postupak, gde pomnoimo zbirove u
odgovajajuem redu i koloni i podelimo sa celokupnim zbirom. Ako zadrimo oznake iz tabele 1,
onda moemo da napiemo formulu izraunavanja oekivane vrednosti za prvu eliju, oznaenu kao

a:
( ) ( )
d + c + b + a
c + a b + a -


Ovo pravilo uoptiemo za sve elije: oekivana vrednost elije jednaka je koliniku
proizvoda zbira reda i zbira kolone sa ukupnim zbirom.
Kako bi ustanovili da li postoji saglasnost izmeu opaenog (Observed -O) i oekivanog
( Expected - E), u praksi se koristi saznanje gospodina Pirsona, da hi-kvadrat raspodelu moemo da
koristimo kao test slaganja izmeu posmatranja i hipoteze. Izraunaemo vrednost hi-kvadrat tako
to emo izraunati koren razlika opaene i oekivane vrednosti u svakoj eliji u tabeli, pa ovaj
podeliti vrednou oekivanom u datoj eliji, pa rezultate onda podelimo.

2
=
(
O
i
E
i
)
2
E
i



Broj stepena slobode se izraunava kao proizvod broja redova smanjen za jedan i broja
kolona, isto tako smanjenih za 1.
df = (r 1) * (k 1)
(ako oznaimo broj redova r, broj kolona k i broj stepena slobode df).

Hi-kvadrat onda potvruje hipotezu da su dva kriterijuma nezavisna, nasuprot alternative da
dva kriterijuma nisu nezavisna. Ako izraunata vrednost testa dobije ili prekorai kritinu vrednost
za dati broj stepena slobode i verovatnou, odbacujemo hipotezu o nezavisnosti.


Primer 2: Izraunavanje hi-kvadrata u tabeli 2x2
> kaciga <-c(153, 23, 22,56) # ulazni podaci svrstani po redovima
> x <- matrix(kaciga, nrow=2, byrow=T) # transformacija na matricu i njeno
ispisivanje
> x
[,1] [,2]
[1,] 153 23
[2,] 22 56
# dozivanje komande prop.test()
> prop.test(x, alternative = c("two.sided"), conf.level = 0.95, correct =
FALSE)


144

2-sample test for equality of proportions without continuity
correction

data: x
X-squared = 86.9855, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
95 percent confidence interval:
0.4756761 0.6988577
sample estimates:
prop 1 prop 2
0.8693182 0.2820513


Rezultat testiranja hipoteze na nivou znaajnosti 0,95 i 0,99 ( p< 0,05 kao i < 0,01) nam
omoguava odbacivanje hipoteze o nezavisnosti. Rezultat hi kvadrat testa je dovoljno visok (86,98),
ta govori da posmatrana veza nije samo uticaj sluaja. Dakle, naa struna interpretacija glasi da je
oigledan uticaj kacige na pojavu kome pri tekim povredama mozga.
Prilikom odreivanja testa nismo morali da koristimo Jejtsovu korekciju (imali smo
dovoljno velike brojeve u tabeli kontigencije). Kad bismo ipak eleli da je koristimo (preporuuje
se u sluaju kad je vrednost u polju manja od 5) morali bi da zadamo correct = Yes. Razlika u
izraunavanju sa korienjem ove korekcije u naem sluaju nee biti dramatina.


m x n tabele


Situacija u kojoj tabela kontigencije ima vie od dve kolone ili dva reda nije retka. Onda
pojednostavimo postupak iz sluaja dve kolone i dva reda na proizvoljan broj kolona i redova.
Postupak je slian kao i u prethodnom sluaju, s tom razlikom da moramo da koristimo drugu
proceduru postupak za izraunavanje rezultata testa (Primer 3).

Primer 3: m x n kontingentna tabela i Pirsonov hi-kvadrat test
Zadavanje: Niska poroajna masa je definisana kao masa novoroeneta manja od
2500g. Istraiva je ispitivao zavisnost poroajne mase od puenja majke. Imao je tri
grupe: nepuaice, puaice i bive puae. Zapitao se da li puaka navika utie na
poroajnu masu novoroeneta.
Nepuaica Biva puaica Puaica
Poroajna masa < 2500g 140 153 27
Poroajna masa 2500 g 2197 1510 433

Reenje
> masa <- c(140, 153, 27, 2197, 1510, 433)
> masa<- matrix(masa, ncol=2) # transformacija na matricu sa dve kolone
> masa
[,1] [,2]

145

[1,] 140 2197
[2,] 153 1510
[3,] 27 433
> chisq.test(masa) # test

Pearson's Chi-squared test

data: masa
X-squared = 16.3411, df = 2, p-value = 0.0002829

Interpretacija: Moemo da zakljuimo da, sa verovatnoom mogue greke p < 0,001,
poroajna masa zavisi od puenja majke (odbacili smo nultu hipotezu nezavisnosti
efekata puenja i poroajne mase).

Neparametrijski testovi
Kako smo ve naveli, neparametrijski testovi su postupci koji ne pretpostavljanju da su
podaci normalno raspodeljeni. Uopteno gledano, ne pretpostavljaju poznavanje raspodele u
populaciji. Zato se obino oznaavaju i nazivom statistiki testovi bez raspodele (distribution-free
statistics). Neparametrijski testovi imaju dve bitne karakteristike, kojima se razlikuju od
parametrijskih: ne potvruju hipotezu o parametrima populacije, a ujedno ih moemo koristiti i u
sluajevima kada je oblik populacije, iz koje potie uzorak, poznat. Njihova zasigurna prednost je
njihova dokazana sposobnost prilikom ispitivanja podataka koji govore o rezultatima merenja na
niim skalama vrednuje se redosled. Obino se jo spominje prednost jednostavnijeg raunanja,
ta danas, prilikom korienja kompjutera, nije tako bitno. Navedeni postupci imaju i negativnu
stranu, a to je njihova nia snaga. Zato u sluaju kada je mogue da biramo izmeu parametrijskog
i neparametrijskog testa, a ujedno nam to omoguavaju uslovi, odluiemo se za parametrijske.


Skale

Pre nego to preemo na pojedine neparametrijske statistike testove, moramo blie da
popriamo o skalama, naroito zato to su neparametrijski testovi pogodan instrument za obradu
podataka dobijenih na takozvanim niim skalama merenja.
Skale merenja nastaju na taj nain to odreenom objektu ili deavanju prikljuimo broj na
osnovu skupa pravila. Tako nastaju skale koje je mogue podeliti u etiri osnovne vrste: nominalna,
ordinalna, intervalna i odnosna (racio) skala.
Najjednostavnija je nominalna skala, koja nastaje prikljuivanjem imena posmatranja.
Ime moe da bude i broj, odnosno cifra. Primer je Meunarodna klasifikacija bolesti, koja svakoj
dijagnozi prikljuuje jedinstvenu kombinaciju slova i brojeva. Svakodnevne su i dihotomne skale,
na primer mukarac - ena, zdrav bolestan, pua nepua. Naravno, podela moe da bude i vie,
na primer pua bivi pua nepua. Pritom granice izmeu kategorija ne moraju da budu
ravnomerne i uopte ne moraju kvantitativno da se uporeuju u smislu vei ili manji.
Ordinalna ili redna skala omoguava svrstavanje objekata prema tome koje imaju vie, a
koje manje kvaliteta. Za razliku od intervalskih promenljivih, one nam ne omoguavaju da kaemo
za koliko je to vie kvaliteta. Primer je rezultat leenja: izleeni bez posledica, izleeni sa trajnim

146

posledicama, neizleeni, umrli. Skale intenziteta mogu da budu odreene kao nepua povremen
pua redovan umeren pua redovan strastven pua. Pritom granice izmeu kategorija ne
moraju da budu ravnomerne, ali ih ve moemo kvantitativno uporeivati u smislu vie ili manje
(strastveni pua je eksponiran veom dozom nikotina nego umereni ili povremeni pua).
Ovu skalu koristimo prilikom vrednovanja socio-ekonomskih karakteristika, kao i
zdravstvenog stanja, na primer Glazgovska skala kome (Glasgow Coma Scale) ili skala teine
povrede (Injury Severity Scale).
Intervalna skala je preciznija od ordinalne na taj nain to je poznata udaljenost izmeu
dva merenja skale. Tipian primer ovakve skale je skala merenja temperature. Celzijusova skala
poinje sa nulom, ta je dogovorena vrednost, isto kao 100 stepeni. Take izmeu njih su rastue
temperature, a njihova udaljenost je jednaka i jedinica je jedan stepen Celzijusa. Budui da postoje
vrednosti manje od 0C, znamo da i ova vrednost sadri odreen kvantitet i nije krajnja taka na
skali.
Odnosne skale su najkompleksnije skale. Sadre sve karakteristike nominalne, ordinalne i
intervalne skale. Sastoje se, dakle, ne samo od jednako udaljenih taaka, ve sadre i nultu taku
koja ima znaenje. Ako pitamo ispitanike statistikog ispitivanja za uzrast, onda e razlika izmeu
dve proizvoljne uzastopne take sa sledeim godinama starosti uvek biti jednaka. Nula prikazuje
taku kada se ovek rodio. Moemo da uporeujemo, zato to je 70-godinji ovek tano dva puta
stariji 35-godinjaka. Slino je i kod merenja telesne mase i visine. U ovako napravljenim skalama
obino moemo da koristimo parametrijske testove. Neparametrijske testove smo prinueni da
koristimo ako imamo na raspolaganju male uzorke (n je manje od 30, odnosno 20) i ne moemo da
obezbedimo pretpostavku da podaci dolaze iz normalno distibuirane populacije.
U praktinom ivotu moemo da, na primer, uzrast izrazimo ne samo u nizu pojedinih
godina na intervalnoj skali, ve to moe da bude i po dekadama. Zato je znaajno da se intervali
ne poklapaju i da budu identini, a definicija dekada mora da bude jednoglasno usvojena. Na primer,
godine od 20 do 29, od 30 do 39 i tako dalje. U ovakvom sluaju smo transformisali nae merenje
na niu skalu rednu i ne moramo koristiti neparametrijske testove.

Znakovni test

Jedan od prvih statistikih testova koje smo prikazali bio je t-test za potvrivanje hipoteze
o aritmetikoj sredini populacije. Potvrivali smo da je aritmetika sredina populacije jednaka,
manja ili vea od odreene vrednosti i da je razlika dve aritmetike sredine jednaka nuli, odnosno
da su aritmetike sredine jednake. Vie puta smo naglasili da rezultati ovog testa mogu da budu
tani samo onda kada je bila ispotovana pretpostavka normalne raspodele uzorka. Takoe smo
naveli da, to je manji broj merenja u uzorku, to je pridravanje ovog pravila sumnjivije. ta onda
raditi u sluaju kad je uzorak mali, a raspodela ne pokazuje da se radi o Gausovoj, odnosno merenja
su pravljena na intervalnoj ili odnosnoj skali? U tom sluaju moramo da posegnemo za
neparametrijskim testom, koji ne testira ni aritmetiku sredinu ni varijansu.
U ove testove spada i znakovni test, koji se ne bavi aritmetikom sredinom, ve medijanom
kao testom centralne tendencije. Znamo da u sluaju normalne raspodele populacije (ili Studentove
raspodele) vrednost medijane i aritmetike sredine je jednaka. Pri drugaijoj raspodeli mogu se
meusobno znatno razlikovati. Jedini uslov korienja ovog testa je uslov povezanosti potvrivanja
promenljive. Ovaj test se zove znakovni zato to se umesto brojeva koriste znakovi + i -. Pomou
ovog testa moemo da potvrujemo hipotezu o jednakosti ili veem ili manjem u odnosu na
medijanu, kao i hipotezu o razlici medijana meu posmatranim parovima.
U prvom sluaju istraiva se pitao da li medijana skora jednaka odreenoj vrednosti

147

(Primer 4).

Primer 4: Primer za izraunavanje znakovnog testa
Zadavanje: Na odeljenju intenzivne nege hospitalizovani su bolesnici sa
razliitim nivoom poremeaja svesti, merenim Glazgovskom skalom kome (GCS)
sa rezultatima navedenim u tabeli. Istraivai su se pitali da li je mogue rei da je
medijana skora 9.
Bolesnik
1 2 3 4 5 6 7 8 9 10
Skor 12 9 6 8 7 11 9 10 12 10


Ovde je re o skoru, kao i o malom broju poreenja na spojenoj skali. Zato nije opravdano
da koristimo t-test, ve moramo da traimo znakovni test. elimo da potvrdimo hipotezu da je
medijana posmatranog skora jednaka 9. U prvom koraku preveemo vrednosti na znakove,
koristei + ako je vrednost vea od potvrivane medijane i - ako je manja. Sluaj jednakosti
oznaiemo sa 0 i dobiemo tabelu.





Tabela 3: Znakovi odstupanja GCS od potvrivane vrednosti medijane 9

Bolesnik
1 2 3 4 5 6 7 8 9 10
Skor 12 9 6 8 7 11 9 10 12 10
Znakovi + 0 - - - + 0 + + +

Vidimo da je broj znakova + 5, a samo 3. Jednaka devetki su samo dva sluaja. Ako
ne uzimamo u obzir merenja koja su jednaka potvrivanoj vrednosti 9, onda imamo vie merenja
u plusu, nego u minusu. Pretpostavljamo, ako bi bilo tano da je medijana jednaka 9, onda bi
trebalo da bude isti broj odstupanja u smislu plus i minus. Prisetimo se naina izraunavanja
medijane, kada svrstamo vrednosti prema veliini, a ona vrednost, koja se nakon podele nalazi
tano na polovini je medijana. Dakle, potvrivana nulta hipoteza i alternativna hipoteza bie:
H
0
median GCS = 9 H
A
median GCS 9
budui da pretpostavljamo da je broj pozitivnih i negativnih razlika od potvrivane vrednosti jednak,
moemo da hipoteze formuliemo ovako:
H
0
P(+) = P(-) = 0,5 H
A
P(+) P(-) 0,5
Nulta hipoteza govori da je verovatnoa pozitivnih i negativnih odstupanja jednaka,
odnosno da je verovatnoa 0,5. Sledei zakljuak je zasnovan na potvrivanju hipoteze na osnovu
binometrijske podele. To e za nas napraviti program (Tabela 2), a nama ostane samo interpretacija

148

rezultata. Za izraunavanje emo koristiti komandu sign.test(), koja je deo paketa BSDA. Njega je
neophodno najpre potraiti u CRAN i instalirati pre nego to postane mogue koristiti ovu komandu.
Komanda zahteva vie argumenata: sign.test(x, y = NULL, md = 0, alternative = "two.sided",
conf.level = 0.95). Prilikom testa, gde utvrujemo jednakost medijane merenja neke vrednosti,
argument x sadri vrednost testirane promenljive u formi brojeva (ne znakova). Argument md je
onda jednak vrednosti medijane koju potvrujemo. Argument alternative = "two.sided" je podeen
na obostran test, a mogue ga je podesiti i na manji less ili vei greater. Na kraju moemo da
odredimo nivo poverenja, pretstavljen vrednou 0,95. Rezultat potvrivanja naeg primera
videemo u sledeoj tabeli (Tabela 2).
Pozvali smo komandu sign.test sa podacima zamenjenim u promenljivu GCS i proveravali
jednainu medijana merenja prema vrednosti 9. Koristili smo dvostran test i interval poverenja 0.95.
U rezultatu se pojavilo s = 5, to nam govori da smo imali pet posmatranja u smislu plusa.
Verovatnoa odbacivanja alternativne hipoteze jeste p-value = 0.7266, ime moramo da prihvatimo
nultu hipotezu o jednakosti medijana vrednosti 9. O tanosti ove odluke svedoi i interval poverenja
za medijanu, koji sadri vrednost 9.

Tabela 2: Izraunavanje znakovnog testa za primer 4
>GCS <- c(12, 9, 6, 8, 7, 11, 9, 10, 12, 10)
> sign.test(GCS, y = NULL, md = 9, alternative = "two.sided", conf.level =
0.95)
$rval

One-sample Sign-Test

data: GCS
s = 5, p-value = 0.7266
alternative hypothesis: true median is not equal to 9
95 percent confidence interval:
7.324444 11.675556
sample estimates:
median of x
9.5


$Confidence.Intervals
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.8906 8.0000 11.0000
Interpolated CI 0.9500 7.3244 11.6756
Upper Achieved CI 0.9785 7.0000 12.0000

Warning message:
In return(rval, Confidence.Intervals) :
multi-argument returns are deprecated

Sada, kada znamo kako funkcionie znakovni test, moemo ga koristiti i za potvrivanje
razlika izmeu dve medijana pri parnom testu, u istraivanju slinom kao i u sluaju parnog t-testa.
Njegovo korienje emo pokazati na sledeem primeru (Primer 5).

149


Primer 5: Rezultati vrednovanja kvaliteta strunih vodia (guidelines) pomou AGREE pre i
posle sagledavanja sugestija
Zadavanje: Pri pripremi vodia koristi se instrument AGREE za vrednovanje atributa,
izraenog reima kao Struno savetovanje je potkrepljeno sa praktinim
instrumentima. Posle prvog vrednovanja autorski kolektiv je uradio savetovane
promene i vrednovanje je bilo ponovljeno tim istim vrednovateljem. U tabeli su
rezultati vrednovani pre i nakon realizacije preporuka pojedinih vrednovatelja na skali
slaganja sa izjavom u rasponu 1 sve do 4. Prvi broj je izraavao potpuno neslaganje sa
izjavom, a broj 4 potpuno slaganje.

Vrednovatelj
1 2 3 4 5 6 7
Pre 2 3 3 3 4 3 2
Posle 3 4 2 4 3 2 4
Poruilac vodia pita da li se postiglo poboljanje vrednovanja posle izvrenih
sugestija.

Radiemo isto kao i u prethodnom sluaju, dakle saznaemo kolika je razlika u smislu plusa,
a koliko u smislu minusa. Hipotezu emo formulisati tako da nas zanima da li je medijana odgovora
posle uvoenja modifikacija vea nego na poetku formulacije vodia.
H
0
medijana Pred = medijana Po H
A
medijana Po < medijana Pred
ili je moemo formulisati i ovako:
H
0
medijana razlike je jednaka 0 H
A
medijana razlike je vea od 0.
Za potvrivanje hipoteza koristiemo istu komandu, samo u ovom sluaju imaemo dve
promenljive. U pogledu jednostanog karaktera testa, koristiemo nivo poverenja 0,95, gde e biti
granica prihvatanja/odbacivanja hipoteze u sluaju da je vea od 0. Rezultat potvrivanja je u tabeli
3. Potvrivali smo da je medijana vrednovanja sadrana u promenljivoj posle je vea od medijane u
promenljivoj pre. Rezultat provere dat je u tabeli 3. Iz tog razloga smo kao prvu promenljivu
komande sign.test() uveli promenljivu posle, a posle nje je sledila promenljiva pre. Potvrivali smo
situaciju alternativne hipoteze u smislu jednostranosti testa vei pri nivou poverenja alfa = 0,05.

Tabela 5: Rezultat znakovnog testa za primer 5
> pred <- c(2, 3, 3, 3, 4, 3, 2)
> po <- c(3, 4, 2, 4, 3, 2, 4)
> sign.test(po, pred, alternative = "greater", conf.level = 0.05)
$rval

Dependent-samples Sign-Test

data: po and pred
S = 4, p-value = 0.5
alternative hypothesis: true median difference is greater than 0

150

5 percent confidence interval:
1.228571 Inf
sample estimates:
median of x-y
1

$Confidence.Intervals
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.0078 2.0000 Inf
Interpolated CI 0.0500 1.2286 Inf
Upper Achieved CI 0.0625 1.0000 Inf

Warning message:
In return(rval, Confidence.Intervals) :
multi-argument returns are deprecated


Rezultat je pokazao da postoje etiri merenja gde je razlika pozitivna. Dakle, rezultat
potvrivanja nulte hipoteze je pokazao da je moramo prihvatiti, odnosno odbaciti alternativnu
hipotezu da postoji razlika izmeu medijana.

Test medijana

Znakovni test je zasnovan na pretpostavci da su dva uzorka u uzajamnom odnosu i
predstavlja neparametrijsku varijantu parnog t-testa. esto se, meutim, pojavljuju situacije kada
dva uzorka nisu uzajamno povezana, a broj merenja nije uparen i moe da bude razliit. Kod
normalno raspodeljenih populacija to nije problem i onda koristimo t-test, a varijansu populacije
otkriemo na osnovu varijanse uzorka. U sluaju da ne moemo da oekujemo normalnu raspodelu
populacije iz kojih biramo uzorak, onda moramo da radimo sa medijanama. Za potvrivanje da li
postoji ili ne razlika izmeu medijana dve populacije, koristimo test medijana, poznat i po njegovim
autorima kao Vestenberg-Mudov test medijana. Statistiko okruenje R nudi u osnovnom paketu
stats komandu mood.test(x, y, alternative = c("two.sided", "less", "greater"), ). Postupak je
zasnovan na raunanju medijana za oba uzorka. Onda se frekvencija sluajeva veih od zajednike
medijane i manjih od zajednike medijane stave u tabelu 2x2. Pogledajte tabelu 6.


Tabela 6: Tabela 2x2 za izraunavanje testa medijane

Promenljiva 1 Promenljiva 2 Zajedno
Broj sluajeva veih od zajednike medijane a b a+b
Broj sluajeva manjih od zajednike medijane c d c+d
Zajedno a+c b+d a+b+c+d

Dalje raunanje je, zapravo, jednostavan hi-kvadrat test, isti kao na poetku poglavlja.

151

Izraunavanje za korienje komande mood.test() ilustrovaemo na sledeem primeru 6. Korienje
komande je veoma jednostavno, naveemo obe promenljive i dok god elimo da testiramo
obostranim testom, to ne moramo posebno ni da specifikujemo.

Primer 6: Uporeivanje medijane teine povrede hospitalizovanih na dva odeljenja
Zadavanje: Primarijus odeljenja traumatologije u veem gradu tvrdi da su povrede, koje su
hospitalizovane na njegovom odeljenju, tee od onih koje su hospitalizovane kod njegovog kolege
u bolnici u manjem mestu. Odluili su da uporede teinu povreda na oba odeljenja primenom ISS,
to je skor teine povrede zasnovan na anatomskom vrednovanju (tabela).

Bolnica ISS skor
gradska 45 52 35 37 62 75 35 25 45 49 25 75 9
prigradska 36 42 75 49 75 75 36 25 9 49 50

Da li je mogue na osnovu prikazanih podataka rei da je teina povreda kod primljenih pacijenata
razliita?
Reenje:
> grad <- c(45,52,35,37,62,75,35,25,45,49,25,75,9)
> selo <- c(36,42,75,49,75,75,36,25,9,49,50)
> mood.test(grad, selo)

Mood two-sample test of scale

data: grad and selo
Z = -0.1285, p-value = 0.8977
alternative hypothesis: two.sided

Rezultat nam govori da test nije doneo statistiki bitnu razliku izmeu medijana oba uzorka.
Danas se ovaj test koristi samo retko, zbog njegove male snage. Za reenje navedenog
problema prednost dajemo Vilkoksonovom testu za dva uzorka. Komanda koja ga obavlja je
napisana tako da e reiti i test jednog uzorka, kao i parni test. Mi emo navesti samo prvi od njih.


Vilkoksonov test za dva uzorka

Vilkokson i Man Vitni su opisali testove ranga koji su se pokazali slinim. Pod pojmom test
ranga podrazumeva se neparametrijska procedura uporeivanja razlika, odnosno povezanost
zasnovana na posmatranju poretka testirajuih podataka. Ovaj test se ponaa isto kao t-test.
Komanda koja ga realizuje zove se veoma jednostavno wilcox.test(x, y = NULL, alternative =
c("two.sided", "less", "greater"), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int
= FALSE, conf.level = 0.95, )
26
. Lako je razumeti da se iza x i y zameni naziv promenljive sa
uzorcima. I izbor hipoteze koju elimo da potvrujemo isti je kao to je bio u prethodnim

26
Obratite panju da korienje testa parnog uporeivanja potrauje zadavanje paired = T

152

sluajevima. Ako elimo da utvrujemo jednakost, odnosno nejednakost prema odreenoj vrednosti
aritmetike sredine populacije, moemo da koristimo i varijantu za parni test, kada navodimo paired
= TRUE. Izraunavanje intervala poverenja pri nivou verovatnoe se odreuje na osnovu ostala dva
uvedena argumenta conf.int = TRUE, conf.level = 0.99. Za demonstraciju korienja testa
iskoristiemo situaciju iz primera 6 i nazvaemo ga primer 7.

Primer 7: Korienje Vilkoksonovog testa ranga za reenje primera 6.
> grad <- c(45,52,35,37,62,75,35,25,45,49,25,75,9)
> selo <- c(36,42,75,49,75,75,36,25,9,49,50)
> wilcox.test(grad, selo, alternative = c("two.sided"))

Wilcoxon rank sum test with continuity correction

data: grad and vselo
W = 62.5, p-value = 0.62
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(grad, selo, alternative = c("two.sided")) :
cannot compute exact p-value with ties

Rezultat je analogan prethodnom primeru - nema razlike u medijanama obe populacije iz
kojih potiu uzorci.

Kruskal-Volis analiza varijanse

Deava se da ne moemo da ispunimo uslove parametarske ANOVA-e, najee usled
malog broja podataka pojedinih uzoraka, ili u sluajevima kada ne moemo da govorimo o
normalnoj raspodeli podataka, zato to su to, na primer, nie skale, ili podaci u obliku skora. U
ovakvom sluaju moramo da posegnemo za neparametrijskom analizom varijanse, koja nosi ime po
njenim autorima, dakle Kruskal-Volis. Isto kao i njen ekvivalent i ona potvruje hipotezu za vie od
dve populacije. Njen rezultat je zakljuak da su najmanje dve populacije razliite i onda je mogue
koristiti Vilkoksonov test za dva uzorka kako bi saznali koje su to dve populacije razliite. Za
razliku od ANOVA-e, koja radi sa varijansama populacija, Kruskal-Vollis uporeuje medijane i
saznaje da li su ili nisu jednake. Postupak je zasnovan na principu uporeivanja redosleda, isto kao
Vilkoksonov test. Postupak sledi ukoliko su redosledi slini, odnosno razliiti. Njegovo korienje
pokazaemo na primeru u kojem je student saznavao kako su pacijenti zadovoljni sa radom tri
lekara, koje smo nazvali Jan, Fero i Mihal. Svakog od njih vrednovali smo njihovim pacijentima,
tako da se nije desilo da pacijent jednog vrednuje drugog lekara, ve se uvek izjanjavao samo
prema tome koji se lekar za njega direktno brinuo. Vrednovali su na skali od 1 do 4, gde je 1
izraavalo veliko nezadovoljstvo, a 4 veliko zadovoljstvo (Primer 8).





153

Primer 8: Uporeivanje tri uzorka pomou Kruskal Volisovog neparametrijskog testa
Zadavanje: Pacijenti su vrednovali rad trojice lekara; svakog lekara, u pogledu
zadovoljstva njegovim radom, vrednovalo je njegovih 10 pacijenata. Na skali od 1
do 4 izrazili su zadovoljstvo (4) ili nezadovoljstvo (1). Studenta je zanimalo postoji
li razlika meu ispitivanim lekarima.

Lekari
Jan Fero Mihal
4 2 2
3 3 3
4 3 3
4 3 2
3 4 2
3 4 1
2 3 3
3 4 2
2 4 1
4 3 2


Postupak: Istraiva je koristio komandu kruskal.test() sledeim postupkom:
> jan <-c(4, 3, 4, 4, 3, 3, 2, 3, 2, 4)
> fero <-c(2, 3, 3, 3, 4, 4, 3, 4, 4, 3)
> michal <-c(2, 3, 3, 2, 2, 1, 3, 2, 1, 2) # zadao je podatke
> lekari <- list(jan, fero, michal) # komanda trai zadavanje podataka
u oblike liste
> kruskal.test(lekari) # pozivanje komande

Kruskal-Wallis rank sum test

data: lekari
Kruskal-Wallis chi-squared = 10.6238, df = 2, p-value = 0.004933


Rezultat je jasan, prisutne su razlike kod najmanje dva uzorka na nivou poverenja p < 0,01.
Koji se od uzoraka meusobno razlikuju - ne znamo. Pokuajmo da nacrtamo boksplot dijagram,
verovatno e nam pomoi da se orijentiemo. Nacrtaemo ga pozivanjem komande koju smo ve
koristili, dakle boxplot() sa parametrom lekari, koji sadri rezultate tri lekara (Slika 2). Iz njega
jasno vidimo da je razlika izmeu treeg lekara, odnosno Mihala i njegove dvojice kolega Jana i
Fere. Da bismo ovu injenicu proverili i raunanjem, uradiemo Vilkoksonov test za svaki par
lekara, odnosno napraviemo sledee parove: Jan-Fero, Jan-Mihal, Fero-Mihal (Tabela 7).

154



Slika 4: Prikazivanje podataka iz zadatka 8
> boxplot(lekari)


Tabela 7: Utvrivanje razlike medijana izmeu dvojice lekara iz primera 8
> wilcox.test(jan, fero)

Wilcoxon rank sum test with continuity correction

data: jan and fero
W = 47, p-value = 0.837
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(jan, fero) : cannot compute exact p-value with ties
> wilcox.test(jan, michal)

Wilcoxon rank sum test with continuity correction

data: jan and michal
W = 83, p-value = 0.009911
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(jan, michal) :
cannot compute exact p-value with ties
> wilcox.test(fero, michal)

Wilcoxon rank sum test with continuity correction

155


data: fero and michal
W = 87, p-value = 0.003675
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(fero, michal) :
cannot compute exact p-value with ties

Utvrivanje je donelo oekivani rezultat. Izmeu Jana i Fere nije bilo statistiki znaajne
razlike, ali izmeu Jana i Mihala i Fere i Mihala ova razlika je bila na nivou poverenja p < 0,01.
Dakle potvrdili smo sumnju koju nam je donela slika 2.

Saetak
Neparametrijki statistiki testovi su u nekim oblastima neopravdano zanemareni. U
sluajevima kad se radi sa skalama, sa skorovima, ili su opravdane sumnje o raspodeli populacije,
da je malo merenja, naroito je dobro korienje ovih postupaka. Testova je vie nego to smo
mogli da navedemo u ovom poglavlju. Veinom su jako jednostavni i intuitivni. Odabrali smo samo
one koje ilustruju korienje posmatrane i oekivane frekvencije, testiranje srednje vrednosti
uzoraka i uporeivanje srednjih vrednosti dva ili vie uzoraka, kako bismo ukazali na to kako su ovi
testovi konstruisani. Ako italac eli da zna vie, lako e ih pronai u odgovarajuim publikacijama
ili na internetu.
























156




Vebe

U bolnici Odense University Hospital dr K.T. Drevjecki se interesovao za preivele
bolesnike posle operacije melanoma. Zabeleio je podatke o 207 bolesnika. Interesovalo ga
je da li postoji razlika izmeu polova (promenljiva sex) u pojavljivanju melanoma u odnosu
pojavljivanja ira (promenljiva ulc), (uzorak melanom iz datoteke ISwR).

Studija energetskog unosa (kJ) napravljena je kod 11 ena u periodu pre (promenljiva pre) i
posle (promenljiva post) menstruacije (uzorak intake iz datoteke ISwR). Da li je mogue
zakljuiti, da se energetski unos razlikuje u ovakvim periodima?


U zadatku 1 iz poglavlja 7 primenite neparametrijsku metodu analize varijanse.



























157

DODATAK
Reenje zadataka

Sadraj

Poglavlje 3 Prezentacija i prvobitna obrada podataka................................................................. 158

Poglavlje 4 Mere centralne tendencije i disperzije ..................................................................... 158

Poglavlje 5 Ocene uzorka ............................................................................................................ 159

Poglavlje 6 Potvrivanje hipoteza ............................................................................................... 159

Poglavlje 7 Analiza varijanse ...................................................................................................... 160

Poglavlje 8 Regresija i korelacija ................................................................................................ 163

Poglavlje 9 Logistika regresija .................................................................................................. 163

Poglavlje 10 Hi-kvadrat i neparametrijski testovi ....................................................................... 166




















158

Poglavlje 3
PREZENTACIJA I PRVOBITNA OBRADA PODATAKA
Primer 1.
> library(ISwR)
> data(ISwR)
> attach(cystfibr)
> summary(cystfibr)
> length(height)
> barplot(height) # stubiasti dijagram
> hist(height) # histogram

Primer 2.
> library(ISwR)
> data(ISwR)
> attach(eba1977)
> summary(pop)
> summary(cases)
> length(pop)
> length(cases)
> barplot(pop) # stubiasti dijagram
> barplot(cases)

Poglavlje 4
MERE CENTRALNE TENDENCIJE I DISPERZIJE
Primer 1.
> summary(cystfibr)
> range(age)
> range(pemax)
> IQR(age)
> IQR(pemax)
> var(age)
> var(pemax)
> sd(cystfibr)
> (sd(age)/mean(age))*100 # koeficijent varijanse

Primer 2.
> library(e1071)
> kurtosis(age)
> skewness(age)
> summary(cystfibr) # na osnovu blizine aritmetike sredine i medijane u svim promenljivim
moemo da zakljuimo da su sve promenljive priblino normalno raspodeljene

Primer 3.

> IQR(pop)
[1] 326.75

159

> IQR(cases)
[1] 4
> summary(pop)
Min. 1st Qu. Median Mean 3rd Qu. Max.
509.0 628.0 791.0 1100.0 954.8 3142.0
> summary(cases)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.000 7.000 10.000 9.333 11.000 15.000
Interpretacija: relativno velika disperzija podataka, naroito u promenljivoj pop.

Poglavlje 5
OCENE UZORKA

Primer 1.
Se 67.48 - 162.22
Zn 14.45 - 18.25
Cu 9.64 - 13.1
Mg 0.85 0.93

Primer 2.
MB 128.09 - 134.71
BH 131.13 - 137.00
BL 94.44 - 101.03
NH 48.69 51.84

Primer 3.
fitness centar najmanje jednom u nedelji
90% CI: 0,14 0,25
95% CI: 0,13 0,26
99% CI: 0,12 0,28

fitness centar nikad
90% CI: 0.52 0.66
95% CI: 0.51 0.67
99% CI: 0,48 0,69

Poglavlje 6
POTVRIVANJE HIPOTEZA

Primer 1.
> t.test(expend~stature,data=energy)
t = -3.8555, df = 15.919, p-value = 0.001411
Interpretacija: Prisutna je razlika meu dve aritmetike sredine sa nivoom poverenja
p<0,01


160

Primer 2.
> t.test(intake$pre, intake$post, paired=T)
t = 11.9414, df = 10, p-value = 3.059e-07
Interpretacija: Prisutna je razlika izmeu dve aritmetike sredine sa nivoom
poverenja p<0,0001
> t.test(intake$pre, intake$post, alternative = c("g"), paired=T)
t = 11.9414, df = 10, p-value = 1.530e-07
Interpretacija: Prva aritmetika sredina je vea od druge, sa nivoom poverenja
p<0,0001

Primer 3.
> t.test(vital.capacity~group, data=vitcap, alternative = c("l"))
t = -2.9228, df = 19.019, p-value = 0.004362
Interpretacija: Prva aritmetika sredina je manja od druge sa nivoom poverenja
p<0,01


Poglavlje 7
ANALIZA VARIJANSE

Primer 1.
> data(red.cell.folate)
> attach(red.cell.folate)
[1] "red.cell.folate"
> anova(lm(folate~ventilation))
Analysis of Variance Table
Response: folate
Df Sum Sq Mean Sq F value Pr(>F)
ventilation 2 15516 7757.9 3.7113 0.04359 *
Residuals 19 39716 2090.3
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Interpretacija: Postoje najmanje dve aritmetike sredine koje se razlikuju na nivou
poverenja p<0,05

Primer 2.
> attach(heart.rate)
> anova(lm(hr~subj+time))
Analysis of Variance Table

Response: hr
Df Sum Sq Mean Sq F value Pr(>F)
subj 8 8966.6 1120.82 90.6391 4.863e-16 ***
time 3 151.0 50.32 4.0696 0.01802 *
Residuals 24 296.8 12.37
---
Signif. Codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

161

Interpretacija: Postoje najmanje dve aritmetike sredine, koje se razlikuju na nivou
poverenja p<0,0001

Zadatak 3.

> attach(Indometh)
> anova(lm(conc~Subject+time))
Analysis of Variance Table

Response: conc
Df Sum Sq Mean Sq F value Pr(>F)
Subject 5 0.729 0.1458 0.7078 0.6199
time 1 13.129 13.1294 63.7440 5.824e-11 ***
Residuals 59 12.152 0.2060
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Interpretacija: Postoje najmanje dve aritmetike sredie koje se razlikuju na nivou
poverenja p<0,0001


Poglavlje 8
REGRESIJA I KORELACIJA

Zadatak 1
> muskarci<-lm(bp~obese, subset=(sex==0))
> zene<-lm(bp~obese, subset=(sex==1))
> summary(mukarci)

Call:
lm(formula = bp ~ obese, subset = (sex == 0))

Residuals:
Min 1Q Median 3Q Max
-25.645 -9.533 -1.598 7.060 59.315

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 102.11 17.49 5.839 6.76e-07 ***
obese 21.65 14.50 1.493 0.143
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 16.36 on 42 degrees of freedom
Multiple R-squared: 0.05038, Adjusted R-squared: 0.02777
F-statistic: 2.228 on 1 and 42 DF, p-value: 0.1430

> summary(zene)

162


Call:
lm(formula = bp ~ obese, subset = (sex == 1))

Residuals:
Min 1Q Median 3Q Max
-23.522 -12.348 -2.203 3.907 71.500

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 82.517 12.048 6.849 6.14e-09 ***
obese 31.204 8.426 3.703 0.000488 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 17.56 on 56 degrees of freedom
Multiple R-squared: 0.1967, Adjusted R-squared: 0.1824
F-statistic: 13.72 on 1 and 56 DF, p-value: 0.000488
Interpretacija: U grupi mukaraca ovaj odnos nije bio linearan, u grupi ena
je bio, na nivou poverenja p<0,001

Grafiki prikaz linija regresije
> muskarci.koef=coef(muskarci)
> zene.koef<-coef(zene)
> plot(bp[sex==1]~obese[sex==1], type="p", data=bp.obese)
> abline(zene.koef)
> plot(bp[sex==0]~obese[sex==0], type="p")
> abline(muskarci.koef)

Primer 2.
> cor.test(bp[sex==1], obese[sex==1], use="complete.obs")

Pearson's product-moment correlation

data: bp[sex == 1] and obese[sex == 1]
t = 3.7035, df = 56, p-value = 0.000488
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2092256 0.6297033
sample estimates:
cor
0.443551




163


Poglavlje 9
LOGISTIKA REGRESIJA

Primer 1
# Nabrojmo potrebne pakete komandi
library(Epi)
library(Design)
data(bdendo)#uitajmo datoteku bdendo, koju emo analizirati
list(bdendo)#ispiimo sadraj datoteke
ishod:
set d gall hyp ob est dur non duration age cest agegrp age3
1 1 1 No No Yes Yes 4 Yes 96 74 3 70-74 65-74
2 1 0 No No <NA> No 0 No 0 75 0 70-74 65-74
3 1 0 No No <NA> No 0 No 0 74 0 70-74 65-74
4 1 0 No No <NA> No 0 No 0 74 0 70-74 65-74
5 1 0 No No Yes Yes 3 Yes 48 75 1 70-74 65-74
6 2 1 No No No Yes 4 Yes 96 67 3 65-69 65-74
7 2 0 No No No Yes 1 No 5 67 3 65-69 65-74
...
# sprovodimo analizu logistike regresije
regresia = glm (d ~ gall + age + hyp + ob + duration, family=binomial, data=bdendo)
summary (regresia)
ishod:
Call:
glm(formula = d ~ gall + age + hyp + ob + duration, family = binomial,
data = bdendo)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6151 -0.6210 -0.5032 -0.3819 2.3037
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.786590 2.110149 -1.794 0.0727 .
gallYes 0.948717 0.424708 2.234 0.0255 *

164

age 0.017384 0.029468 0.590 0.5552
hypYes 0.155425 0.351137 0.443 0.6580
obYes 0.591857 0.368249 1.607 0.1080
duration 0.017941 0.004328 4.146 3.39e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 255.65 on 249 degrees of freedom
Residual deviance: 225.95 on 244 degrees of freedom
(65 observations deleted due to missingness)
AIC: 237.95
Number of Fisher Scoring iterations: 4
exp(regresia$coefficients)#Izraunajmo unakrsni odnos ansi (OR)
confint(regresia)#Izraunajmo intervale poverenja za koeficijente regresije
exp(confint(regresia))# Izraunajmo intervale poverenja za OR
Ishod:
> exp(regresia$coefficients)
(Intercept) gallYes age hypYes obYes duration
0.02267278 2.58239544 1.01753618 1.16815423 1.80734072 1.01810324
> confint(regresija)
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) -8.021432122 0.29136951
gallYes 0.099872975 1.77538514
age -0.040501445 0.07559717
hypYes -0.540143340 0.84263645
obYes -0.111409248 1.34114768
duration 0.009530787 0.02656875
> exp(confint(regresia))
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 0.0003283494 1.338259
gallYes 1.1050305429 5.902554
age 0.9603077765 1.078528

165

hypYes 0.5826647270 2.322482
obYes 0.8945725721 3.823429
duration 1.0095763495 1.026925
#Iskoristiemo sledee komande na stvaranje zbirne tabele sa koeficijentima regresije, unakrsnim
odnosima ansi i intervalima poverenja
sum.coef<-summary(regresija)$coef
est<-exp(sum.coef[,1])
upper.ci<-exp(sum.coef[,1]+1.96*sum.coef[,2])
lower.ci<-exp(sum.coef[,1]-1.96*sum.coef[,2])
cbind(regresia$coef,est,lower.ci,upper.ci)
Ishod:
est lower.ci upper.ci
(Intercept) -3.78659011 0.02267278 0.0003625014 1.418077
gallYes 0.94871744 2.58239544 1.1233213219 5.936651
age 0.01738419 1.01753618 0.9604311989 1.078036
hypYes 0.15542492 1.16815423 0.5869576117 2.324843
obYes 0.59185655 1.80734072 0.8781733449 3.719631
duration 0.01794133 1.01810324 1.0095038341 1.026776
Interpretacija:
Prisustvo oboljenja mokrane beike kod ispitanika iz analizirane populacije poveava ansu
nastanka raka endometriju,a za 2,58 puta. Produenje estrogenskog leenja poveae ansu pojave
raka endometrijuma kod ispitanika iz analizirane populacije za 1,01 puta. Uticaj ostalih
promenljivuh u okviru datog modela nije statistiki znaajan.

Primer 2
# Na osnovu rezultata primera 1 izdvojiemo iz odela promenljive sa nesignifikantnim uticajem
i uradiemo analizu logistike regresije pomou sledee komande:
lrm (d ~ gall + duration, data=bdendo)
Ishof:
Logistic Regression Model
lrm(formula = d ~ gall + duration, data = bdendo)
Frequencies of Responses
0 1
241 57
Frequencies of Missing Values Due to Each Variable

166

d gall duration
0 0 17
Obs Max Deriv Model L.R. d.f. P C Dxy Gamma Tau-a R2 Brier
298 1e-08 32.67 2 0 0.762 0.525 0.578 0.163 0.167 0.137
Coef S.E. Wald Z P
Intercept -2.17803 0.223378 -9.75 0.0000
gall=Yes 0.99616 0.399998 2.49 0.0128
duration 0.01884 0.003944 4.78 0.0000
Interpretacija:
Uticaj obe promenljive u modelu je ostao statistiki signifikantan. Na osnovu vrednosti C (odnosno
AUC) = 0,762 i vrednosti R2=0,167 moemo da zakljuimo da model ima dobru diskriminativnu
sposobnost. Niska vrednost R2 moe biti prouzrokovana niskim brojem prediktora i modela.



Poglavlje 10
HI-KVADRAT I NEPARAMETRIJSKI TESTOVI

Primer 1.
> data(melanom)
> table(ulc, sex)
sex
ulc 1 2
1 47 43
2 79 36
chisq.test(ulc, sex)

Pearson's Chi-squared test with Yates' continuity correction

data: ulc and sex
X-squared = 5.1099, df = 1, p-value = 0.02379

Interpretacija: na nivou poverenja p<0,05 moemo da zakljuimo da postoji razlika izmeu
polova u pogledu pojavljivanja ira.

Primer 2.
> data(intake)
> attach(intake)
> wilcox.test(pre, post, paired=T)

Wilcoxon signed rank test with continuity correction


167

data: pre and post
V = 66, p-value = 0.00384
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(pre, post, paired = T) :
cannot compute exact p-value with ties

Interpretacija: Na nivou poverenja p<0,01 moemo da zakljuimo da postoji razlika izmeu
enegetskog unosa pre i posle menstruacije.

Primer 3.
> data(red.cell.folate)
> attach(red.cell.folate)
> kruskal.test(folate~ventilation)

Kruskal-Wallis rank sum test

data: folate by ventilation
Kruskal-Wallis chi-squared = 4.1852, df = 2, p-value = 0.1234
Interpretacija: Nisu se pronali znaajene razlike izmeu grupa.

You might also like