You are on page 1of 7

1.

Uvod
1.1. ta je statistika? Kada se pomene re statistika veina ljudi pomisli na brojeve, tabele i grafikone u kojima se predstavljaju podaci o broju roenih ili umrlih, rastu cena, rastu ili padu proizvodnje, meteoroloki podaci i dr. Meutim, re statistika ima drugo znaenje koje je poznato samo ljudima koji su je uili. Statistika je deo primenjene matematike i ima svoje sopstvene simbole, terminologiju, sadraj, teoreme i tehnike. U primeni statistike metodologije esto je potrebno da se naprave neke pretpostavke, iji broj varira od situacije do situacije. Zbog toga je statistika metodologija nerazumljiva za ljude koji se njome ne bave, to dovodi do udnih i duhovitih, a ponekad i skeptinih komentara o statistici i statistiarima. Na primer, za statistiare se kae da su to osobe koje vuku matematiki preciznu liniju od neosnovane pretpostavke do pouzdanog zakljuka. Ili, jedno od optuujuih miljenja o tehnikama i metodologijama koje se primenjuju u statistici kae da se pod statistikom analizom esto podrazumeva manipulacija vieznanim podacima uz pomo zbunjujuih metoda da bi se reio problem koji nije definisan. Jedan od najpoznatijih komentara o statistici dao je Mark Tven u svom pismu upuenom lordu Dizraeliju u kome kae: "Postoje tri vrste lai: lai, paklene lai i statistika." Svi ovi komentari su posledica nerazumevanja statistike kao nauke i na neki nain, predstavljaju zloupotrebu statistike od strane neprofesionalaca. Statistika se primenjuje u svim oblastima ivota, odnosno svuda gde zakljuak mora da se donese na osnovu nekompletne informacije. Prema tome, ona utie na na ivot na mnogo naina. Taj uticaj moemo da ignoriemo, ali ne moemo da ga eliminiemo, jer drugi koriste statistiku za donoenje zakljuaka koji utiu na na ivot. Definicija kojom bi mogla da se opie statistika kao nauka bila bi sledea: Statistika je nauka koja se bavi (1) sakupljanjem, organizacijom i kondenzacijom podataka i (2) analizom u cilju izvoenja zakljuka o prirodi tih podataka kada se posmatra samo jedan njihov deo. Statistika je vitalna komponenta svakog istraivakog projekta, od poetnog stepena planiranja eksperimenta pa do krajnje prezentacije rezultata. Dobro planiranje eksperimenta poveava koliinu informacija koje se iz tog eksperimenta dobijaju, a dobra statistika obrada krajnjih rezultata poveava njihovu naunu vrednost. Stoga je neophodno da od samog poetka naunog projekta bude ukljuen i statistiar. 1.2. Vrste statistike Deskriptivna statistika Oblast statistike koja se bavi numerikim opisivanjem (deskripcijom) podataka naziva se deskriptivna statistika. Deskriptivna statistika je korienje brojeva u cilju sumiranja informacija koje su poznate od samog poetka. Podruje koje pokriva deskriptivna statistika moe da se podeli u tri oblasti:

1-2 1. Sakupljanje, ureivanje i tabelarno predstavljanje podataka 2. Grafiko predstavljanje podataka 3 Numerika karakterizacija podataka

Statistika u farmaciji

Ureivanjem podataka postie se bolja preglednost podataka, a time mogu da se dobiju vrednije informacije. Jedni isti podaci mogu da se urede i grafiki predstave na razliite naine, a koji emo izabrati zavisi od toga koje informacije elimo da dobijemo. Pod numerikom karakterizacijom podrazumeva se izraunavanje razliitih veliina kojima mogu da se opiu odreene karakteristike skupa. Numerike veliine kojima se opisuju karakteristike skupa mogu da se prema funkciji podele u etiri grupe: a. Pozicione veliine (srednja vrednost, medijana) kojima se opisuje prosena veliina pojedinanih vrednosti b. Veliine rasipanja skupa (raspon vrednosti, varijansa, standardna devijacija, koeficijent varijacije, kvartilna odstupanja) kojima se kvantificira varijabilnost pojedinanih vrednosti c. Veliine kojima se opisuje oblik raspodele (koeficijenti asimetrije i zailjenosti), koja definie vrstu i nain na koji su pojedinane vrednosti ureene d. Veliine asocijacije (koeficijenti korelacije, regresije, kontigencije, asocijacije) kojima se kvantificira nain i intenzitet zavisnosti izmeu dve ili vie mernih veliina. Inferencijalna statistika Organizovanje podataka uz pomo metoda koje obuhvata deskriptivna statistika koristi se u naunim granama u kojima je samo sakupljanje podataka od velikog znaaja, na primer u meteorologiji i demografiji. Meutim, u nekim naunim disciplinama nije dovoljno samo sakupiti podatke, ve je potrebno i iz njih izvui odreeni zakljuak. Grana statistike koja se bavi izvoenjem zakljuaka uprkos poetnoj nesigurnosti (neizvesnosti), odnosno izvoenjem zakljuaka na bazi nekompletne informacije naziva se inferencijalna statistika. Inferencijalna statistika je korienje brojeva u cilju dobijanja numerike informacije o veoj grupi od one iz koje su originalni podaci dobijeni. U inferencijalnoj statistici uvek postoji verovatnoa da se donese pogrean zakljuak, obzirom da na samom poetku postoji neizvesnost. Za kontrolu i merenje eventualne greke, odnosno odreivanje stepena nesigurnosti u donoenju zakljuka takoe se koriste statistike metode. Metode koje se koriste u inferencijalnoj statistici mogu da se podele u dve glavne grupe: a. Metode za ocenjivanje nepoznatih veliina b. Statistiki testovi za ispitivanje hipoteza 1.3. Statistika terminologija Populacija U statistici neki izrazi imaju tehniko znaenje koje moe da se razlikuje od svakodnevnog korienja. Izraz populacija se u svakodnevnom govoru koristi da se njime opie grupa ljudi ili stvari koje nas iz nekog razloga interesuju. Statistiki posmatrano populaciju predstavljaju sve vrednosti, ljudi ili stvari koje nas interesuju iz odreenih razloga, odnosno za odreene studije. Na slici 1.1. prikazano je kako od iste grupe ljudi moe da se dobije nekoliko razliitih populacija. Populacija moe biti mala ili velika, ali kljuna stvar je da ona sadri SVE subjekte ili vrednosti koje nas interesuju. Takoe je vano rei da populacija ne moe da se definie dok nije potpuno poznata svrha sakupljanja podataka. To moe da se ilustruje sledeim primerom: pretpostavimo da elimo da izraunamo procenat studenata koji nisu stekli uslov za upis druge godine studija. Posle ovakve formulacije odmah se postavlja vie pitanja. Na koje se studente misli, da li na studente svih univerziteta u Srbiji, ili samo jednog ili na studente samo jednog fakulteta? Da li treba uzeti u obzir i studente viih kola? Za koji vremenski period treba sakupiti podatke? Pravilna definicija populacije

S. Spasi- Predavanja 2009/2010.

1-3

za ovaj primer bi mogla da bude sledea: populacija studenata beogradskih univerziteta koji su u prethodnoj kolskoj godini upisali prvu godinu studija, a kategorija koja nas interesuje su studenti koji su stekli uslov za upis druge godine studija.

Populacija pola

Populacija godina starosti

Populacija nivoa obrazovanja

Slika 1.1. Razne vrste populacije iz iste grupe osoba

Uzorak Iz ovoga to je reeno o populaciji jasno je da ona obuhvata sve osobe, objekte ili merenja, a za posmatranje se esto uzima njen deo koji se oznaava kao uzorak. Uzorak je prema tome, neki deo populacije. ta realno predstavlja uzorak u odnosu na populaciju prikazano je na sl. 1.2.

Slika 1.2. Odnos populacije i uzorka Ako je svrha statistike studije da se sazna neto o populaciji, postavlja se pitanje zato se za posmatranje uzima uzorak, a ne cela populacija. U nekim situacijama mogue je za posmatranje uzeti celu populaciju i takva studija se naziva census. Meutim, kada je populacija suvie velika nije mogue istraivanjem obuhvatiti sve njene lanove (to bi zahtevalo mnogo vremena ili suvie velike trokove ili ak uopte nije izvodljivo), pa se za posmatranje uzima jedan njen deo, odnosno uzorak. Ponekad je dovoljno uzeti za posmatranje uzorak, jer se ukljuivanjem svih lanova populacije u istraivanje ne dobija znaajniji zakljuak. Postoji vie naina kojima moe da se odabere uzorak iz populacije, a osnovna podela bi bila: metode odabira koje su zasnovane na verovatnoi i metode odabira bez primene verovatnoe.

Metode odabira uzorka na osnovu verovatnoe zasnivaju se na tome da se lan populacije uvrsti u uzorak sluajnim izborom, odnosno da se primeni proces selekcije koji ne favorizuje nijedan poseban primerak. Pri tome polazimo od pretpostavke da e tako odabrani uzorak adekvatno reprezentovati osobine populacije, a ako uzorak dobro reprezentuje populaciju onda e biti tano izvoenje zakljuka o populaciji na osnovu uzorka. Primenom ovih metoda dobijaju se sledee vrste sluajnih uzoraka: prost, startificirani, sistematski i klaster uzorak. 1. Prost sluajni uzorak je onaj koji se formira tako da svi njegovi lanovi imaju istu ansu da budu izabrani iz populacije, pri emu izbor jednog lana populacije ne utie na izbor ostalih lanova.

1-4

Statistika u farmaciji

Osim toga, odabir lanova populacije za uzorak moe biti sa ponavljanjem (jedan lan populacije moe da se pojavi u uzorku vie puta) ili bez ponavljanja (jedan lan populacije moe da se pojavi u uzorku samo jedanput. Ako broj lanova populacije oznaimo sa N, a broj lanova uzorka sa n, onda je udeo (frakcija) lanova uzorka u odnosu na celu populaciju jednak f = n/N. Kada je n/N < 0,1 (< 10%) tada populaciju smatramo beskonanom, a ako je n/N > 0,1 (> 10%) kaemo da je populacija konana, to u praktinoj primeni znai vrlo velika. Odabiranje sluajnog uzorka moe da se ilustruje sledeim primerima: - Izvlaenje dve karte (n = 2) iz paketa od 52 karte (N = 52): f = 2/52 = 0,038 - Odabiranje 4 studenta (n = 4) iz grupe od 200 studenata (N = 200): f = 4/200 = 0,02 - Izvlaenje 5 dobitnika u nagradnoj igri u kojoj je stiglo 1200 tanih odgovora: f = 5/1200 = 0,0042. Za odabiranje uzorka iz populacije mogu da se primene mehaniki postupci: karte se pomeaju i izvuku se dve bez gledanja, ili imena studenata se napiu na ceduljama, stave u kutiju i izvuku 4 cedulje ili svi tani odgovori se stave u kutiju i izvue 5 odgovora bez gledanja. Umesto mehanikog odabiranja, moe da se primeni tablica sluajnih brojeva, to je uz pomo raunara jednostavan postupak. Pre odabira uzorka mora da se odredi okvir uzorka, odnosno deo populacije iz koga se uzorak odabira. To moe da bude telefonski imenik, spisak pacijenata, spisak studenata itd. Prost sluajni uzorak, kako mu samo ime kae je jednostavan i njegov sastav zavisi od verovatnoe da ba pravi lanovi populacije budu odabrani. Prednost ovog uzorka je upravo to to je jednostavan za odabir, a nedostaci su mu to je potrebno da se zna veliina populacije, svaki lan populacije mora da bude dostupan i nije efikasan kada je raspodela populacije asimetrina. Zbog toga se deava da ovakav uzorak ne reprezentuje uvek u potpunosti karakteristike populacije, pa ovaj nain odabira uzorka nije uvek statistiki najefikasniji.

X X

X X X

populacija

odabir metodom sluajnih brojeva

uzorak

Slika 1.3. Prost sluajni uzorak 2. Sistematski sluajni uzorak je statistiki mnogo precizniji nain odabira nego to je to sluaj sa prostim sluajnim uzorkom i pogodan je za istraivanja u kojima se iz velike populacije izdvaja relativno mali uzorak. Osim toga, ovaj nain odabira uzorka je nekad najjednostavniji i stoga najpogodniji. Sistematski uzorak se obrazuje tako to se prvo odredi veliina uzorka n, a zatim odredi veliina intervala k prema kome e se uzimati lanovi populacije (uzima se svaka k-ta vrednost iz populacije). Interval k se izrauna iz izraza k = N/n. Primera radi, ako elimo da procenimo koliki je prosean broj recepata po pacijentu koji dolaze kod lekara opte prakse, nema potrebe da sabiramo sve izdate recepte, ve moemo da to uradimo iz sistematski odabranog uzorka. Ako se u ispitivanom periodu lekaru opte prakse javilo 3000 pacijenata (N = 3000), a procenjujemo da nam je za nae ispitivanje dovoljan uzorak od 100 pacijenata (n = 100), onda je k = 3000/100 = 30. To znai da emo u na uzorak ukljuiti svakog 30-og pacijenta upisanog u protokol. Da bismo odredili od kog broja treba zapoeti posluiemo se tablicom sluajnih brojeva i odabrati jedan broj izmeu 1 i 30. Ako dobijemo, na primer broj 10, onda e prvi lan uzorka biti 10-ti pacijent upisan u protokol, a zatim sledi svaki 30-ti do kraja spiska.

S. Spasi- Predavanja 2009/2010.

1-5

Slika 1.4. Formiranje sistematskog uzorka za N = 64 i n = 8 3. Stratificirani sluajni uzorak se obrazuje tako da se populacija prvo podeli u homogene podgrupe, a zatim se iz svake podgrupe izdvoji sluajni uzorak odreene veliine. Podgrupe u koje se deli populacija moraju da budu uzajamno iskljuive (lanovi jedne podgrupe ne mogu po svojim karakteristikama da budu lanovi druge) i da imaju najmanje jednu zajedniku karakteristiku koja ih povezuje. Na primer, ako elimo da analiziramo uspeh studenata u odnosu na uslove u kojima stanuju podeliemo populaciju koja nas zanima u pet podgrupea a. studenti koji stanuju kod svoje kue u mestu studiranja, b. studenti koji stanuju kod svoje kue izvan mesta studiranja, c. studenti koji stanuju u iznajmljenim stanovima, d. studenti koji stanuju kod roaka i e. studenti koji stanuju u studentskom domu. Iz svake od ovih podgrupa obrazovaemo sluajni uzorak odreene veliine, to moe da se uradi na dva naina: - u svim podgrupama je isti udeo uzorka to je proporcionalni stratificirani uzorak, - u svim podgrupama nije isti udeo uzorka to je disproporcionalni stratificirani uzorak. Stratificiran uzorak je statistiki mnogo precizniji nego prost sluajni uzorak jer se deljenjem populacije u podgrupe poveava verovatnoa da se u uzorak ukljue i neke minorne grupe.

Slika 1.3. Formiranje stratificiranog uzorka

4. Klaster sluajni uzorak se obrazuje tako da se populacija prema odreenom kriterijumu podeli u segmente nazvane klasteri (engl. cluster grozd), a zatim se sluajnim izborom odabere odreen broj klastera. U uzorak se ukljue svi lanovi populacije koji pripadaju odabranim klasterima ili se iz svakog klastera formira sluajni uzorak. Na primer, ako bismo hteli da analiziramo potronju antibiotika u zdravstvenim ustanovama u Srbiji u odreenom vremenskom periodu, onda bismo to mogli da uradimo ispitivanjem klaster uzorka. Prvi korak u tome je da teritoriju Srbije podelimo po okruzima, pri emu svaki okrug predstavlja jedan klaster, a onda sluajnim izborom odaberemo odreeni broj klastera koje emo analizirati. U ispitivanje ukljuimo sve zdravstvene ustanove u odabranim okruzima (ili se od ustanova u jednom klasteru formira sluajni uzorak) i na osnovu njihove potronje antibiotika izvrimo procenu za celu teritoriju Srbije. Metode odabira uzorka bez uticaja verovatnoe zasnivaju se na procesima selekcije koji ne ukljuuju sluajan izbor, pa ne zavise od teorije verovatnoe. U ovu vrstu uzoraka spadaju uzorci koji se formiraju na osnovu slobodne procene ili prema svrsi istraivanja. To ne znai da su ovako odabrani uzorci manje reprezentativni za populaciju, ali esto nismo sigurni da li ovako odabrani

1-6

Statistika u farmaciji

uzorci zaista dobro reprezentuju populaciju. Iz tog razloga mnogi istraivai radije koriste sluajne uzorke. Ovakav uzorak se koristi na primer, u anketama koje se sprovode na ulici pri emu mogu da se u uzorak ukljue sve osobe koje prou pored anketara. Ako se na primer, takva anketa sprovodi da bi se dobilo miljenje o nekoj vrsti proizvoda koji koriste samo mlade ene, anketar e svojim istraivanjem da obuhvati ene odreenih godina, na osnovu slobodne procene njihove starosti. Promenljive veliine U statistikim eksperimentima sakupljaju se razliite informacije. Na primer, sakupljaju se informacije o visini, teini, starosti, polu i branom stanju ljudi koji pripadaju nekoj odreenoj grupi i karakteristika tih informacija je da one variraju. Sve veliine koje mogu da se menjaju na bilo koji nain nazivaju se promenljive veliine ili varijable. Promenljive koje imaju numeriku vrednost oznaavaju se kao kvantitativne, a one koje su predstavljene nenumerikim informacijama, oznaavaju se kao kvalitativne. Kvantitativne promenljive mogu biti klasifikovane kao diskretne ili kontinuirane. Diskretna promenljiva je ona ije mogue vrednosti obrazuju konaan skup brojeva (najee skup celih brojeva). Na primer, broj dece u porodici ili broj kreveta u bolnici predstavljaju primer diskretne promenljive. Kontinuirana promenljiva je ona ije mogue vrednosti obrazuju interval vrednosti. Visina ili teina neke osobe predstavljaju primer kontinuirane promenljive jer mogu biti izraene kao celi brojevi ili decimalni brojevi, zavisno od toga kakva se tanost trai. Podaci Za izraavanje vrednosti neke promenljive slue podaci; to informacije koje statistiari sakupljaju, obrauju i analiziraju. Zavisno od toga kakve su promenljive i podaci mogu biti kvalitativni ili kategoriki i kvantitativni ili numeriki. Kategoriki podaci se svrstavaju u kategorije koje su bazirane na nekoj kvalitativnoj osobini. Mogu biti binarni i ne-binarni. Binarni podaci su vrsta kategorikih podataka kod kojih postoje samo dve kategorije: muko ensko, pua nepua, prisutan odsutan itd. Kategoriki podaci se izraavaju nominalnom ili ordinalnom skalom Numeriki podaci su rezultat merenja neke kvantitativne osobine objekata koji se prouavaju i dele se na diskretne i kontinuirane. Diskretni podaci su oni podaci kod kojih su mogue samo neke vrednosti izmeu koji postoji odreeno rastojanje. Ovi podaci se dobijaju prostim prebrojavanjem: broj studenata na asu, broj dece u porodici itd. Kontinuirani podaci se dobijaju merenjem, a kod njih su mogue sve vrednosti unutar nekog intervala i nema razmaka izmeu vrednosti. Primer: visina, teina, sadraj aktivne supstance u leku, koncentracija glukoze u krvi itd. Skale merenja Za izraavanje podataka koriste se razliiti nivoi ili skale merenja, koji su vani stoga jer odreuju nain na koji e podaci biti interpretirani, kao i kakva statistika analiza e biti primenjena. Postoje etiti osnovne skale merenja i to: Nominalna Ordinalna Intervalna i Skala odnosa

1. Nominalna skala je najjednostavniji nivo merenja kojim se predstavljaju kategoriki podaci. Nominalnom skalom se podaci svrstavaju u kategorije koje su bazirane na nekoj kvalitativnoj osobini i meu kojima nijedna kategorija nema prednost. Kategorije ne mogu da se urede po odreenom

S. Spasi- Predavanja 2009/2010.

1-7

redosledu, niti postoji kriterijum po kome bi se vrednosti mogle da odrede vee od ili manje od drugih vrednosti. Primeri za nominalnu skalu merenja su sledee varijable: Boja kose: smea, plava, crna itd. Rasa: bela, crna, uta itd. Pol: muki, enski Status puenja: puai, nepuai Kategorije u nominalnoj skali mogu biti oznaene slovima (A muki pol, B enski pol) ili brojevima (1 muki pol, 2 enski pol), pri emu slova i brojevi slue samo kao oznake i nemaju nikakvo drugo znaenje. 2. Ordinalna skala je nivo merenja kojim se predstavljaju kategoriki podaci, koji su klasifikovani u kategorije po odreenom redosledu, ali rastojanje izmeu kategorija nema tano odreeno znaenje. Redosled kategorija moe biti izraen kao "rating" ili "ranking". Kod "rating" skale je rangiranje izvreno na osnovu subjektivnog doivljaja ispitanika. Atributi neke promenljive su numeriki oznaeni, ali brojevi imaju samo kvalitativno znaenje i ne podrazumevaju jednake intervalne razlike. Primer za ovu vrstu skale je nain na koji se izraava bol: 0 bez bola, 1 slab bol, 2 umeren bol, 3 srednje jak bol i 4 vrlo jak bol. Oznake od 0 do 4 ne podrazumevaju kvantitativnu razliku izmeu kategorija (kategorija 2 ne podrazumeva dvostruko jai bol u odnosu na kategoriju 1), ve samo redosled u odnosu na jainu. Na isti nain bismo mogli da napravimo kategorizaciju nekih atributa po vanosti: 0 nevaan, 1 malo vaan, 2 umereno vaan, 3 prilino vaan i 4 jako vaan. Kod "ranking" skale se promenljive ureuju (rangiraju) po interesovanju, znaaju, vanosti i sl. i redna mesta koja one imaju u tom ureivanju oznaavaju se brojevima od 1 do n. Ovom skalom se izraavaju kolske ocene, rezultati sportskih takmienja, rezultati funkcionalnih i screening testova itd. 3. Intervalna skala podrazumeva takoe ureivanje atributa neke promenljive po odreenom redosledu, ali rastojanje u tom redosledu atributa ima odreeno znaenje. Kod intervalne skale su najee, poetak (nula) i merne jedinice proizvoljno odreeni. Ovom skalom se izraavaju dani u kalendaru (poetak kalendara je proizvoljno odreen, kao i duina dana) i temperatura. 4. Skala odnosa je nivo merenja u kome uvek postoji apsolutna nula sa odreenim znaenjem, pa je kod skale odnosa mogue odrediti frakciju merenja. Ovom skalom se izraavaju numeriki podaci kao to su visina, teina, starost, broj pacijenata itd. Izvori podataka. Kad se govori o nainu na koji se podaci prikupljaju postoje dva osnovna naina: primarni i sekundarni. Primarni izvori podataka su eksperimenti, istraivanja i posmatranja, a sekundarni su ve publikovane informacije do kojih se dolazi raznim vrstama pretraivanja (tampanog materijala ili on-line).