1 Uvod U Statistiku

UVOD U STATISTIKU 1. KOLOKVIJ 05.12.2016. god.
• Statistika – obrada brojčanih podataka radi jasnijeg prikazivanja

• Znanost o prikupljanju, uređivanju, analiziranju i interpretiranju brojčanih podataka dobivenih opažanjem
ili mjerenjem procesa ili objekata.
• Predznanje potrebno za Statističke metode
• Matematičko: logika određivanja vjerojatnosti, korijenovanje, potenciranje, jednadžbe s jednom
nepoznanicom
• Metodološko: poznavanje i služenje terminima: Nezavisna/eksperimentalna varijabla, zavisna
varijabla; eksperimentalni/neeksperimentalni istraživački nacrt
• Postanak statistike – prevalencija zaraznih bolesti, hazardne igre
• U primijenjenoj psihologiji statistika se prvi put pojavljuje oko 1920., kada su postavljene neke hipoteze o
nastanku nesreća, pa je predloženo da se te hipoteze provjere tako što bi se uspoređivalo ono se pod
vidom tih hipoteza može očekivati s onim što se zapravo događa. Naime, ti prvi pokušaji prodora
statistike u svakodnevnu praksu i primijenjenu znanost ostali su u početku bez većeg odjeka
• Tek za vrijeme 2. svj. rata usporedno s eksplozivnim porastom znanstvenih spoznaja u prirodnim i
društvenim znanostima, naglo prodire i statistički način mišljenja
• Statistička metodologija postala je u savremenom životu donekle i dio općeg obrazovanja i opće kulture
• Za savremenog čovjeka, koji se bavi znanstvenim radom, postoje 4 razine na kojima on treba statistiku.
Poznavanje statističke metodologije nam omogućava:
1. Praćenje stručne i znanstvene literature (razumijevanje statističkih termina i simbola)
2. Obradu rezultata prikupljenih istraživanjem ili eksperimentom, radi DESKRIPCIJE (sistematiziranje,
preglednost) i ANALIZE (testiranje razlika, povezanosti, prognoza) rezultata
 Deskriptivna statistika – područje koje se bavi opisivanjem konkretnih rezultata dobivenih prilikom
nekog ispitivanja ili mjerenja; njena zadaća – opisati podatke na način da ih sredi i sažme, kako bi
bili što pregledniji. Deskriptivna statistika bavi se
 distribucijama rezultata; ako nam je poznato kako se neka pojava distribuira, možemo s većim
razumijevanjem interpretirati pojedinačne rezultate
 pitanjem što je normalno, a što nenormalno – pri čemu izraz normalno znači prosječno, što je
najčešće, ili bez bolesnih znakova i sl. Najteži problem jest pitanje granice između normalnog i
nenormalnog, zdravog i bolesnog jer uvijek postoji značajno preklapanje simptoma između bolesne
i zdrave grupe, ali neki grafički statistički postupci nam omogućavaju da s relativno najmanje
pogrešaka odredimo gdje se ta granica nalazi
 korelacijom – ona nam omogućava postavljanje prognoze iz jedne pojave u drugu, što je korelacija
viša, prognoza je točnija
3. zaključivanje iz konkretnog slučaja na opći zakon
 inferencijalna statistika – skup statističkih postupaka koji nam omogućava stvaranje zaključaka s
određenom razinom točnosti, te da ustanovimo smijemo li ili ne smijemo neku pojavu smatrati
generalnom tj općevažećom. Potpuna, 100%-tna sigurnost u statističkom zaključivanju je
nemoguća, ali možemo postići sigurnost koja je blizu sigurnosti od 100%
 inferencijalna statistika je to opreznija u zaključivanju, što smo na manjem broju podataka dobili
neke rezultate. Što je broj podataka veći, to sigurniji možemo biti da dobiveni rezultati vrijede i
inače. Međutim, to važi po uslovom da je uzorak na kojom smo mjerenje izvršili
REPREZENTATIVAN za grupu kojoj taj uzorak pripada, tj da uzorak nije pristran.
 Primarno značenje u inferencijalnoj statistici ima problem uzorka i njegove reprezentativnosti jer
svi zaključci koje izvedemo iz rezultata, vrijede samo onda ako je uzorak pravilno izabran; zato je
neki zovu i statistikom uzoraka
4. Planiranje istraživanja i eksperimenta – izrada eksperimentalnog nacrta, pri čemu je bitno:
 Pitanje eksperimentalne i kontrolne skupine
 Efekt nekog određenog djelovanja možemo provjeriti samo onda ako smo ispitali i slučajeve
bez utjecaja tog djelovanja
 Skupinu na kojoj provjeravamo efekt neke metode zovemo eksperimentalnom, a skupinu na
kojoj metoda nije primijenjena kontrolnom
1
 Kontrolna i eksperimentalna skupina moraju biti međusobno što sličnije u svim onim
svojstvima koja bi mogla imati utjecaj na ono što ispitujemo; na taj način jedina razlika između
njih će biti da smo na jednoj primijenili, a na drugoj nismo primijenili postupak
 U laboratorijskim istivanjima (relativno) lakše provesti izjednačavanje eksperimentalne i
kontrolne skupine, dok je u kliničkom radu i uopće u radu na terenu to vrlo teško, jer smo
prisiljeni raditi na prigodnom uzorku, tj na jedinom koji imamo
 Pitanje veličine uzorka; potrebna veličina zavisi od više faktora:
 Željena preciznost rezultata – što nam je potrebna veća preciznost, potreban je i veći uzorak
 Varijabilnost pojave koju ispitujemo – što pojava više varira, potreban veći uzorak
 Frekvencija pojave – što je pojava općenito rjeđa, to je potreban veći uzorak
 Točno je da jedino statistički obrađeni podaci imaju znanstvenu vrijednost, ali to ne znači da nam
statistička obrada garantira znanstvenu vrijednost podataka. Statistička obrada je samo metoda obrade
podataka, ne garantira da je prikupljanje podataka ispravno provedeno niti da je čitavo istraživanje
dobro planirano
 Rašireno mišljenje da su fizikalne znanost mnogo „egzaktnije“ od tzv statističkih znanosti, tj znanosti
koje se bave živim bićima (biologija, medicina, psihologija, sociologija, antropologija itd). prema
mišljenju Virginije Senders, razlika između njih je u sljedećem:
 Varijabilnost većine fizikalnih zakona je tako malena da ne maskira pojavu koju istražujemo, dok je
varijabilnost životnij pojava tj živog materijala nekada toliko velika da otežava pronalaženje
zakonitosti
 Od „statističkih“ znanosti se često traži da se da prognoza o funkcioniranju i ponašanju jednog
individuuma, dok se od fizike rijetko zahtijeva da da prognozu o jednoj jeidnoj molekuli ili atomu.
Sociolozi i psiholozi mogu uspješno dati prognozu o velikoj skupini ljudi, ali te znanosti ne mogu
dati (osim u nekim rijetkim slučajevima) sigurnu prognozuu što će neki određeni pojedinac učiniti
ili što će se s njim dogoditi. Takav individualni pristup zovemo još i kliničkim, a pristup preko
velikog broja statističkim
 Glavni razlozi negativnog stava velikog broja ljudi prema statistici:
1. Iskrivljeno i simplificirano značenje pojma statistika; mnogi ga upotrebljavaju samo za
označavanje tabelarnog pregleda nekih podataka
2. Nepoznati termini i simboli
3. Vjerojatno glavni razlog – mnogi ljudi smatraju da je statistiku nemoguće razumjeti bez znanja
matematike, što nije točno. Glavni statistički principi se mogu usvojiti potpuno logičkim putem,
a od matematike je potrebno znati samo 4 osnovne operacije + vaditi drugi korijen. Ozbiljnije
poznavanje matematike potrebno je samo profesionalnim statističarima, a ono što samo
konzument statistike treba razumjeti jeste kako primijeniti statističke metode i u kojoj situaciji
 Što doprinosi „statističkoj” anksioznosti? Pan i Tang(2005):
o strah od matematike
o nemogućnost povezivanja gradiva sa svakodnevnim životom
o dinamika tumačenja gradiva
o stav profesora
 Zajonc (1965) – teorija socijalne facilitacije
o Eksperimentalna i kontrolna grupa (performanse na laganim i teškim zadacima, sa
promatračima i bez)
o Dokazano i na žoharima!
 Statistika odgovara na 3 važna pitanja:
o Kako prikupiti podatke – kvaliteta
 Istraživački nacrt (metodologija i statistika)
 Valjanost i pouzdanost mjernog instrumenta (statistika i psihometrija)
 Valjanost mjernog postupka (statistika, psihometrija , metodologija)
 Kako podatke analizirati i sažeti
 Točnost sažetih podataka
o Točnost generalizacije
o Procjena pogreške zaključivanja
2
MJERNE SKALE
 MJERENJE – pridruživanje mjernih oznaka nekom objektu
 Za razliku od prirodnih znanosti, u društvenim obično nema direktnih fizičkih skala, zato je definirano
postojanje više vrsta mjernih skala:
o Nominalna skala (kategorije)
o Ordinalna (rangovi)
o Intervalna
o Omjerna
o Hibridne skale – svojstva više osnovnih skala
 Ove se skale razlikuju po preciznosti, količini informacija koje nam daju i po matematičkim
operacijama koje nam dopuštaju koristiti
NOMINALNA SKALA
 Upotrebljavamo broj kao oznaku za neku klasu ili kategoriju; istu stvar označavamo istim brojem, tj
umjesto imena predmeta navodimo njegov broj (npr brojevi igrača u sportu, brojevi automobila itd)
 Nominalne skale u stvari i nisu nikakve skale, jer nam brojevi služe samo za identifikaciju objekta, tj
služi kategorizaciji, a ne njegovo mjerenje!!
 Nema odnosa među kategorijama u smislu veće-manje, bolje-lošije
 Matematičko statistički postupci koje možemo koristiti: brojenje (frekvencije, %), dominantna
vrijednost, račun proporcija, hi-kvadrat test, fi, Cramerov fi, koeficijent kontingencije C
ORDINALNA SKALA
 Služe za označavanje redoslijeda
 Određuju samo je li nešto veće ili manje od drugoga, ali ne i razliku među vrijednostima. Razlike
između pojedinih jedinica skale nisu jednake (ekvidistantne).
 Pozitivna skala: skala u kojoj je prva katergorija slabija od druge, druga slabija od treće itd
 Negativna skala: prva kategorija bolja od druge, druga bolja od treće itd
 Statistički postupci: sve navedeno za nominalnu skalu, koeficijent korelacije, ro koef korelacije, tau,
teta, koef konkordinacije W i poluinterkvartilno raspršenje
INTERVALNA SKALA
 Poznat redoslijed vrijednosti, ali i razlika među njima
 Neka definirana razlika jednaka na svakom dijelu skale (razlika od 1'C uvijek jednaka na svakom
dijelu skale)
 Specifično za intervalnu skalu:
o Nulta vrijednost određena arbitrarno, tj nije apsolutna nula (i zato ne možemo reći da je temperatura
od 100'F dva puta veća od 50'F, jer ako te vrijednosti pretvorimo u stupnjeve Celzijusa, dobivamo
38'C i 10'C)
o Ne možemo koristiti operaciju dijeljenja jer ne postoji apsolutna nula
 Računske operacije: sve navedeno za nominalnu i ordinalnu skalu, M, S.D., z-vrijednosti, r koeficijenti
korelacije, uključujući parcijalnu i multiplu korelaciju
OMJERNA SKALA
 Zovu se još i „ratio-skale“
 Imaju sva svojstva intervalnih skala, tj poznat poredak i razlika među rezultatima
 Dodatno imaju i svojstvo da definirani brojčani odnosi uvijek imaju jednake omjere (konstante) na bilo
kojem dijelu skale – ekvidistantne jedinice; jednaki brojčani odnosi (omjeri) znače i jednake odnose u
mjerenoj pojavi. To je moguće zato što ove skale imaju APSOLUTNU NULU i zato možemo utvrditi
da je težina od 90 kg 3 puta veća od 30 kg, jer je to točno u svakom sustavu mjerenja, tj u bilo kojim
težinskim jedinicama.
 Većina fizikalnih jedinica pripada ovoj skali: metri, vrijeme(s), težina/masa(kg), sila(N), otpor(om) itd
3
 Računske operacije: sve navedeno za nominalnu, ordinalnu i intervalnu skalu + geometrijska sredina i
koeficijent varijabilnosti V. Koeficijent varijabilnosti može se, uz oprez, upotrijebiti i kod intervalnih
skala, ali samo ako uspoređujemo varijabilnost u istoj varijabli.
VJEROJATNOST
POVIJESNI POČECI ISTRAŽIVANJA VJEROJATNOSTI
• Vrlo je teško reći kada su započela znanstvena istraživanja vjerojatnosti iz kojih su proizašla glavna
područja statističkog rezoniranja i statističke metodologije
• Stari Egipćani 3500 g. prije Kr. igrali neke igre slične našim igrama kockom
• Čovječanstvo je i u stoljećima koja su slijedila imalo već mnogo iskustva u hazardnim igrama kockom
• Međutim, pravilo da će kod ispravne kocke svaka njena strana pasti otprilike jednako puta (pri velikom
broju bacanja kocke) potiče iz 1560. godine od talijanskog liječnika, profesora geometrije i kockara
Girolama Cardana („Liber de ludo alea“ – knjiga o igrama kockom); izračunao je da je vjerojatnost
svake strane kocke 1/6 i upozorio da to vrijedi samo kod ispravne igraće kocke
• Galileo Galilei 1620. objavio svoja „Razmišljanja o igrama kockom“ gdje govori o vjerojatnosti
različitih ishoda ako se igra DVJEMA kockama (ako bacamo 2 kocke, možemo dobiti 36 ishoda, tj
kombinacija)
• Oko 1655. Francuski matematičari Blaise Pascal i Piere de Fermat započeli pismenu diskusiju o
zakonima vjerojatnosti kod igraće kocke, potaknuti pismem što ga je Pascalu poslao kockar Chevalier
de Mere
• Subjektivna vjerojatnost - vjerovanje o vjerojatnosti pojavljivanja pozitivnih i negativnih ishoda:
dobitka na kladionici i oboljevanju od raka; spada u psihološke, a ne u statističke pojmove; odnosi se
na svakodnevno iskustvo i logiku i nije u skladu sa zakonima koje nam daje statistika
• Praktički je nemoguće da se kod većeg broja bacanja svaki broj pojavi jednako puta – potpuno jednaka
šansa uzrokuje nejednaku raspodjelu brojeva
NAJOSNOVNIJA PRAVILA
• Teorija skupova – teorija vjerojatnosti – statistika
• S (N)-prostor sa svim mogućim događajima (ishodima) u skupu događaja: 6 stranica kocke {1, 2, 3, 4,
5, 6}
• Događaj (n)-podskup prostora događaja (ishoda): jedna stranica kocke: npr. broj 6
1. Razine vjerojatnosti: ako je potpuno sigurno da će se nešto dogoditi, onda je vjerojatnost tog
događaja maksimalna i bilježi se s p=1 (lat. probabilitas = vjerojatnost); ako je potpuno sigurno da se
nešto neće dogoditi, vjerojatnost tog događaja nije nikakva i bilježi se s p=0. Između apsolutne
sigurnosti i apsolutne nemogućnosti nalaze se svi ostali slučajevi manje ili veće vjerojatnosti
(vjerojatni događaji – oni su predmet izučavanja)
2. Vjerojatnost – omjer broja povoljnih događaja (n) i svih mogućih događaja (N). P=n/N. Vjerojatnost
da će se između N događaja, koji su jednako vjerojatni a međusobno nezavisni, dogoditi jedan
određeni među njima jest 1/N.
3. ZAKON ADICIJE: Vjerojatnost da će se dogoditi bilo koji od nekoliko međusobno isključivih
događaja je suma vjerojatnosti svakog pojedinačnog događaja (međusobno isključivi – ako se dogodi
jedan događaj, drugi se ne mogu istovremeno dogoditi) p(A U B)=p(A)+p(B)
4. ZAKON MULTIPLIKACIJE: Vjerojatnost da će se zajedno dogoditi dva ili više nezavisna događaja
je produkt vjerojatnosti svakog od tih događaja p(A i B)= p(A∩B)= p (A) x p (B)
5. Ako netko ima N mogućnosti da učini jedan zadatak, r mogućnosti da učini drugi zadatak i p
mogućnosti da učini treći, onda je broj svih mogućih kombinacija tih triju zadataka N*r*p
6. Formula za izračunavanje svih mogućih kombinacija: n!
7. Ako među n predmeta želimo ustanoviti koliko je mogućih permutacija za r tih predmeta, koristimo
formulu: n!/(n-r)!
8. Ako nam nije važan redoslijed, formula je: n!/[r!(n-r)!] – binomni koeficijent
BAYESOVI STATISTIČKI PRINCIPI
Uvjetna vjerojatnost
• Vjerojatnost pojave događaja A, uz uvjet da se prethodno pojavio događaj B
• Bayes (1701-1761)- engleski svećenik; izradio pravila koja omogućuju mijenjanje vjerojatnosti
nekog ishoda (a priori-A), pod utjecajem dobivanja novih informacija (a posteriori- B)
4
• Bayesovo pravilo: Povezuje uvjetnu (aposteriornu) i prethodnu (apriornu) vjerojatnost slučajnih
događaja A i B*
• *Među događajima mora postojati određeni odnos
P ( B| A ) P ( A )
• Bayesov princip danas zauzima ključno mjesto u teoriji odlučivanja. P ( A|B )=
P (B )
PSIHOLOŠKI UZROCI NEKIM POGREŠKAMA KOD PROSUĐIVANJA VJEROJATNOSTI

1. Vrlo česta zabluda – očekujemo da će se dugo nepojavljivanje neke pojave „nadoknaditi“ kasnijim
pojavljivanjem (a zapravo je vjerojatnost pojavljivanja nekog ishoda uvijek jednaka, potpuno bez
obzira na to što je prethodilo). Drugi vid te iste predrasude sastoji se u tom da vjerujemo da ishod koji
se upravo dogodio nakon toga ima „neko vrijeme“ manju vjerojatnost da se pojavi. Identična pojava je
vjerovanje, ako se neki ishod dugo nije pojavio, da je sve veća šansa za njegovo pojavljivanje. Slična
je i predrasuda prema nekoj određenoj „pravilnosti“ u rezultatima (npr rijetko će tko u prognozi lota
prognozirati brojeve 1,2,3,4,5,6, iako je za pojavljivanje te kombinacije jednaka vjerojatnost kao i za
bilo koju drugu kombinaciju od 6 brojeva). Nadalje, poznato je da se većina ljudi kod igranja neke igre
čistog slučaja ponaša kao da ima mogućnost utjecaja na rezultat (ako želimo kockom baciti br 1,
poznato je da ćemo zamahnuti mekše i nježnije nego ako želimo baciti br 6). Također je poznato da
smo kod ishoda, koji ovise djelomično o slučaju, a ne o našoj vještini i sposobnosti, skloni da svoje
uspjehe pripisujemo korištenju vještine, a neuspjehe utjecaju slučaja)
2. Često smatramo da će se kod velikog broja pokušaja „jednake šanse“ izjednačiti po broju ishoda. No
najvjerojatnije će se dogoditi upravo obrnuto; tj apsolutna razlika između takmaca vjerojatno će
postajati sve veća, a smanjivat će se jedino razlika u proporciji, tj. što je veći broj bacanja, to će
postotak ishoda „glava“ i „pismo“ biti sve bliži odnosu 50% : 50%. Povećanjem broja pokušaja
PROPORCIJA će se – uz povremene varijacije – postupno približavati teoretski očekivanom odnosu
50:50, ali apsolutne razlike od očekivane frekvencije mogu biti sve veće i veće (iz toga proizlazi da
onaj koji na kraju neke duge igre gubi, lako može izgubiti mnogo više, nego onaj koji gubi na početku
igre.
Kombinatorika Je li važan Koristimo li sve Bez ponavljanja S ponavljanjem
redoslijed elemente? elemenata elemenata
PERMUTACIJE Da Da Pn=n ! n!
P=
s !∗r !∗k !
KOMBINACIJE Ne Ne; 1≤r≤n n!
C= n+r−1
C=
r !∗( n−r ) ! ( )r
VARIJACIJE Da Ne; 1≤r≤n n! V =n y
V=
( n−r ) !
• Formula kojom se izračunava vjerojatnost da će se u nekoj igri slučaja kod različitog broja pokušaja
neki određeni rezultat pojaviti barem jedanput: 1-q na m; q – vjerojatnost da se taj rezultat neće
pojaviti, m – broj pokušaja
• Praktički možemo biti sigurni da bismo na nekoliko desetaka hiljada pokušaja izvukli barem jedanput
karo asa, ali TEORETSKI vjerojatnost postaje sve veća, ali nikada ne dostiže 1!
PERMUTACIJE (Redoslijed) – Bez ponavljanja PERMUTACIJE (Redoslijed) – S ponavljanjem
 Permutacije nastaju međusobnim razmještanjem  Ako su neki elementi u permutaciji isti onda se
određenog broja elemenata tako da svaki takve permutacije nazivaju permutacije s
razmještaj sadrži sve elemente i razlikuje se od ponavljanjem.
svih ostalih razmještaja. n!
Formula: P¿
 Ako su svi elementi međusobno različiti, onda s!• r!• k !
se takve permutacije zovu „permutacije bez n – broj elemenata permutacije
ponavljanja“. Formula: Pn = n! s, r, k – broj istih elemenata u permutaciji
Mora biti zadovoljen uvjet s + r +k ≤ n
KOMBINACEIJE – BEZ PONAVLJANJA KOMBINACIJE S PONAVLJANJEM
 Kombinacije nastaju kada se od n elemenata,  Formiraju se grupe u kojima može biti istih
koji su na raspolaganju, formiraju grupe od r elemenata tada su to kombinacije s
elemenata, tako da ni u jednoj grupi svi elementi ponavljanjem.
nisu isti.
5
 Neka je n ukupan broj elemenata, a r broj n+ r−1
elemenata u grupi, tada se broj kombinacija Formula: Cn = ( r )
(grupa) može izračunati po formuli:
n n!
r( )= r ! ( n−r ) !
VARIJACIJE-BEZ PONAVLJANJA VARIJACIJE-S PONAVLJANJEM
 Varijacije nastaju kad se od n elemenata  Ako u formiranim grupama ima istih elemenata
formiraju grupe od r elemenata vodeći računa o tada su to varijacije s ponavljanjem.
redoslijedu elemenata u grupama. Formula za računanje varijacija s
Varijacijesukombinacije+ permutacije ponavljanjem:
Ako su u formiranim grupama svi elementi
različiti onda su to varijacije bez ponavljanja. Vn = ny
n!
Formula: V n ¿ ( n−r ) ! ; r ≤n
MJERE CENTRALNE TENDENCIJE

- Pod izrazom „prosjek“ obično mislimo na neku srednju vrijednost koja najbolje reprezentira promatranu
pojavu, odnosno na vrijednost oko koje se kreće najviše rezultata u toj pojavi. Termin „prosječan“ ne znači
uvijek „prosječan“ u smislu aritmetičke sredine, može značiti i „središnji“ (medijan) ili „najčešći“ (mod).
- Mjere centralne tenencije (parametri središnjih vrijednosti) – vrijednosti koje prezentiraju skupinu rezultata
u slučaju kada oni imaju tendenciju grupiranja oko neke vrijednosti.
ARITMETIČKA SREDINA (engl. Mean – M); X; A.M.; mi

 Jedna od najčešćih i najpoznatijih mjera prosjeka
 Suma ili zbroj svih rezultata, podijeljen brojem tih rezultata
 Smije se računati kada su rezultati:
o a)na intervalnoj i omjernoj mjernoj skali („prave mjerene vrijednosti”)
o b)potječu iz istovrsnog mjerenja (istog ispitivanja)
o c)dovoljno velik broj mjerenja (min N=30)
o d)distribucija rezultata se ne smije (mnogo) razlikovati od normalne distribucije
 Karakteristike podataka koje utječu na veličinu M:
o Vrijednost rezultata – više individualne vrijednosti, viša M
o Broj rezultata – veći broj rezultata, manja promjena M dodavanjem novih rezultata
 Zove se i težište rezultata (jer na nju djeluje vrijednost rezultata), tj. težina rezultata (koja se očtuje u
njihovom odstupanju od M) iznad i ispod M uvijek je jednaka – M je točka oko koje suma pozitivnih i
negativnih odstupanja iznosi nula
ZAJEDNIČKA ARITMETIČKA SREDINA

 Kada imamo podatke više različitih skupina (skupine s vlastitim aritmetičkim sredinama), njihovu
zajedničku M ne smijemo računati tako što zbrojimo sve pojedinačne M i podijelimo ih njihovim
brojem (osim u slučaju kad su sve M dobivene iz jednog broja mjerenja) jer je M kao težište rezultata
osjetljiva na vrijednost i broj rezultata pa bi zajednička M zbog jedne ekstremne M mogla biti značajno
pomaknuta (no ako je pojedinačna M dobivena iz malog broja mjerenja, u ukupnom broju mjerenja ne
bi smjela imati značajniji utjecaj)
 Ako u svakoj skupini NEMAMO jednaki broj rezultata
 Potrebno ju je računati na način da se svaka `posebna` aritmetička sredina (M svake skupine) pomnoži
s brojem pripadajućih rezultata, te se svi takvi rezultati podijele sa sumom svih mjerenja.
MEDIJAN (CENTRALNA VRIJEDNOST – C)

 Vrijednost koja se u nizu rezultata, poredanih po veličini, nalazi točno u sredini
 Položaj rezultata koji zauzima C se određuje po formuli Položaj C=(N+1)/2
6
 Koristi se umjesto M kada su prisutni:
o Ekstremni rezultati
o Asimetrične distribucije rezultata
 Rezultati izraženi na omjernoj, intervalnoj ili ordinalnoj skali
 Karakteristike podataka koje utječu na veličinu medijana: samo broj rezultata
 Jedna od praktičnih upotreba C sastoji se u lociranju optimalnog položaja
 C je ona točka od koje je najmanja suma svih odstupanja
MODALNA VRIJEDNOST (DOMINANTNA) – Mod; D

 Vrijednost s najvećom frekvencijom (koja je u nizu mjerenja najčešće postignuta; tj. broj koji
dominira)
 Na nju ne utječe ni broj ni vrijednost rezultata, samo FREKVENCIJA
 Ako imamo rezultate grupirane u rezredu, aproksimativna D je sredina onog razreda koji ima najveću
frekvenciju
GEOMETRIJSKA SREDINA (G)

 Prema deifiniciji, G je n-ti korijen iz umnožaka između N brojeva
 Pretežno se koristi kao mjera prosječne brzine nekih promjena
 U računanju podrazumijeva usporedbu odnosa podataka koji slijede jedan za drugim
 Uvjeti računanja:
o Rezultati izraženi na omjernoj skali
o Ne može se računati ako je ijedan pojedinačni rezultat nula ili negativan
HARMONIJSKA SREDINA (H)

 Koristi se za izračunavanje prosjeka nekih odnosa
 Rezultat obično uključuje dvije karakteristike a računa se prosjek jedne u odnosu na drugu
karakteristiku
 Rezultati ne mogu biti nula ili negativni
MJERE VARIJABILNOSTI
Ako su vrijednosti nekog niza mjerenja gusto grupirane oko srednje vrijednosti, onda nam ta srednja
vrijednost dobro reprezentira rezultate. Ako su vrijednosti mjerenja samo minimalno grupirane oko srednje
vrijednosti, onda nam ona slabo reprezentira rezultate.
Kad bi sve vrijednosti nekog niza mjerenja bile jednake, onda bi srednja vrijednost bila potpuno točan
reprezentant svih rezultata.
Kad rezultati ne bi pokazivali nikakvu centralnu tendenciju, tj. nikakvo grupiranje oko neke srednje
vrijednosti – ta nam srednja vrijednost ne bi reprezentirala ništa.
Mjera centralne tendencije sama po sebi nije dovoljan reprezentant rezultata. Potrebno je znati kako se
rezultati grupiraju oko aritmetičke sredine, odnosno kakva je distribucija. Uvidom u distribuciju znamo
koliko dobro aritmetička sredina reprezentira rezultate.
Mjere varijabilnosti-ukazuju na to koliko rezultati variraju oko srednje vrijednosti.
Djelovanje nesistematskih faktora

1. Pri svakom mjerenju djeluju nesistematski varijabilni faktori koju su uzrok razlikovanja rezultata.
Budući da nesistematski varijabilni faktori djeluju po slučaju, najčešći ishod je ... Što?
2. Što je veći broj mjerenja, dobiva se pravilnija distribucija mogućih ishoda nekog mjerenja. Pravilnost
distribucije očituje se u tome što se najčešće pojavljuje jedan rezultat koji se nalazi na sredini
mogućih rezultata.
Čestina pojavljivanja rezultata koji odstupaju od srednjeg rezultata opada, što su udaljeniji od srednjeg
(aritmetičke sredine).
RASPON (R)
 Razlika između najvećeg i najmanjeg rezultata
7
 Najjednostavnija, ali i najnetočnija mjera varijabilnosti rezultata – vrlo nesigurna i varljiva, jer bilo
koji ekstremni rezultat znatno povećava raspon
 Osnovni nedostatak raspona – on je obično to veći, što je veći broj mjerenja neke pojave – tj. štp je
veći broj rezultata (sa stajališta zakona vjerojatnosti tu je pojavu lako razumjeti: uzmemo li sve
rezultate u obzir, raspon je razlika između najvećeg i najmanjeg rezultata; uzmemo li u obzir samo
nekoliko rezultata, vrlo je mala vjerojatnost da će među njima biti upravo najveći i najmanji rezultat)
SREDNJE ODSTUPANJE (SO)

 Prosječna veličina odstupanja pojedinačnih rezultata (bez obzira na smjer odstupanja)
 Srednje odstupanje možemo računati za M, C i Mod ali ne služi za neka dalja računanja pa se ne
koristi često
STANDARDNA DEVIJACIJA
 Kada bi se prosječno odstupanje računali vodeći računa o predznaku (a ne apsolutna vrijednost), suma
u tom slučaju iznosila bi 0. Razlog: M je, kao težište rezultata, vrijednost od koje suma odstupanja
iznad i ispod nje uvijek iznosi 0
 kako bi se to izbjeglo rezultati se mogu kvadrirati- što je odstupanje veće, to ono dolazi više do
izražaja ako je kvadrirano
 Ako kvadrirana odstupanja zbrojimo i izračunamo im aritmetičku sredinu, dobit ćemo mjeru
varijabiliteta koja se naziva varijanca – prosječna suma kvadriranih odstupanja (M kvadriranih
odstupanja se izračunava se s N-1, a ne s N u nazivniku)
 Međutim, varijancu je nemoguće grafički predočiti, te nije prikladna za razumijevanje varijabiliteta, pa
se koristi standardna devijacija, koja je zapravo korijen iz varijance i može se prikazati kao potpuno
definirani razmak na skali rezultata. Ta mjera se koristi kao standard za mjerenje varijabiliteta rezultata
 S.D. nam pokazuje je li M dobar ili loš reprezentant rezultata, pokazuje kako se rezultati nekog
mjerenja grupiraju oko M
 Da bi se mogla koristiti kao mjera, distribucija mora biti barem približno normalna
 Osim u posve deskriptivnoj analizi uzorka (kada nas zanimaju karakteristike samo postojećih rezultata
u uzorku), N u nazivniku dolazi i onda ako računamo S.D. populacije (dakle svih mogućih slučajeva).
No kako nam populacija gotovo nikada nije poznata, to gotovo nikada ne dolazi u obzir (osim kada
definicijom ograničimo populaciju; npr. svi učenici 7.a razreda neke škole)
 Kada su rezultati pravilno, simetrično i „normalno“ grupirani oko M, onda je u intervalu koji obuhvaća
M+-1s, 68,26% svih rezultata. To znači, ako aritmetičkoj sredini lijevo i desno dodamo vrijednost S.D.
(odnosno, od M oduzmemo, i također joj pribrojimo S.D.), obuhvatit ćemo oko 68% rezultata. Ako M
dodamo lijevo i desno dvije S.D., obuhvatit ćemo u idealnom slučaju 95,44% svih rezultata. Ako joj
dodamo lijevo i desno 3 S.D., obuhvatit ćemo 99,73% rezultata, dakle praktički sve rezultate.
 S.D. smije se računati samo uz M, a ne i uz druge mjere centralne tendencije
 Odnos između raspona i S.D. gotovo nikad nije manji od 2 ili veći od 6,5 (može nam poslužiti da
provjerimo jesmo li napravili pogrešku u postavljanju decimalnog zareza)
KOEFICIJENT VARIJABILNOSTI (V)

 Kad su nam poznate M i S.D. nekih rezultata, onda su ti rezultati potpuno definirani i možemo ih
uspoređivati s nekim drugim rezultatima
 Koristimo V kada želimo usporediti varijabilnost različitih pojava i svojstava, pokazuje koliki postotak
vrijednosti M iznosi vrijednost S.D.
 V je vrlo korisna mjera u slučajevima kada želimo znati:
o U kojem svojstvu neka grupa varira više, a u kojem manje
o Koja od grupa varira više, a koja manje u istom svojstvu
POLUINTERKVARTILNO RASPRŠENJE
• mjera varijabiliteta koja se koristi uz medijan (centralna vrijednost)
• Q = ( Q3 – Q1) / 2
• Indeks poluinterkvartilnog raspršenja je polovica razlike između numeričke veličine rezultata koji se nalazi
na granici prve četvrtine (prvog kvartila) i treće četvrtine u nizu rezultata poredanih po veličini.
8
• Q1 i Q3 su granične vrijednosti prvog, odnosno trećeg kvartila.
• Granične vrijednosti kvartila se određuju tako da se utvrdi vrijednost koja se u nizu rezultat poredanih
po veličini, od manjeg prema većem, nalazi upravo na granici prve četvrtine (25%), odnosno treće
četvrtine (75%) ukupnog broja rezultata.
• Da bismo utvrdili vrijednost kvartila, trebamo odrediti mjesto gdje se nalazi vrijednost prvog i trećeg
kvartila: Mjesto rezultata Q1: RQ1= ¼*(N+1)
Mjesto rezultata Q3: RQ3= ¾*(N+1)
GRAFIČKO PRIKAZIVANJE REZULTATA

• Zašto je bitno: Preglednost, lakše razumijevanje značenja prikupljenih rezultata
• Ne korištenjem grafičkih prikaza:
1. Moguće računske pogreške se ne uoče
2. Šansa da nećemo uočiti neke neočekivane karakteristike, koje se ne mogu uočiti običnim pregledom
brojeva, se povećava
3. Ne možemo uočiti specifičan trend odnosa među rezultatima
TABELARNO PRIKAZIVANJE
 Tablica treba imati sažet, a ipak dovoljno informativan naslov
 Dakle: „Tablica”, redni broj, naslov tablice
 Primjer: Tablica 6.1. Rezultati diplomskih ispita na Filozofskom fakultetu u šk. 2012./2013.
 U stupce stvaljamo varijable (mjerena svojstva); u redove stavljamo sve što se odnosi na varijablu
(ispitanici)
 U tablici se, između ostalog, prikazuju:
• f –frekvencija, čestina javljanja
• Rf –relativna frekvencija, dobijemo na način da podijelimo frekvenciju s ukupnim brojem (N)
• Rf%-relativna je frekvencija izražena u postocima, pomnožimo relativnu frekvenciju sa 100
• Kf–kumulativna frekvencija, ukupan zbroj frekvencija, uključujući i zadnju
• RKf%-relativna kumulativna frekvencija, dobije se na način da kumulativnu frekvenciju dijelimo s
ukupnim brojem
 Uz navedeno, najčešće se prikazuju mjere središnjih vrijednosti, mjere varijabiliteta, te rezultati
statističkih testova.
GRAFIČKO PRIKAZIVANJE
• Pri deskripciji rezultata, najčešći način prikazivanja je u:
1. Kružnim dijagramima (pie-chart)
2. Horizontalnim/vertikalnim stupcima
3. Poligonima frekvencija
4. Trodimenzionalnim prikazima
• PRAVILA GRAFIČKOG PRIKAZIVANJA - Na grafičkom prikazu moraju postojati naslovi za:
- graf
- horizontalnu os x-apscisa
- vertikalnu os y-ordinata
• Odnos apscise i ordinate =>odnos y:x = od 2:3 do 3:4
• Legenda osi=>sa strane ili ispod osi
• Ekvidistantni intervali na obje osi
• Presijecanje osi-ako intervali nisu ekvidistantni
• U većini slučajeva= x-os čini nezavisna, a y-os zavisna varijabla!
• Kad se radi o čistoj deskripciji međusobno nezavisnih ili slabo zavisnih podataka, najčešći način
grafičkog prikazivanja je u horizontalnim ili vertikalnim stupcima i u kružnom dijagramu (torta-
dijagram).
KRUŽNI DIJAGRAM
 Koristi se za prikaz JEDNOG mjerenog svojstva
 Jasnije uočavanje izražene pojave
9
 Mjerenu pojavu izražava u postocima (%),
 Kut koji u kružnom dijagramu zauzima pojedini postotak , računa se prema formuli:
kut=frekvencija*360/N
HISTOGRAMI/POLIGONI FREKVENCIJA
• Koordinatni sustav koristimo kada želimo grafički prikazati rezultate koji se razvijaju u vremenu (npr
krivulja dnevne temperature) ili koji se grupiraju oko neke reprezentativne vrijednosti.
• Položaj jedne točke u ravnini potpuno je određen s dvije koordinate koje su međusobno okomite.
Horizontalna koordinata, apscisa ili os x služi za registraciju vrijednosti mjerenja, a vertikalna
koordinata, ordinata ili os y služi za registraciju frekvencije.
• Ako su rezultati grupirani u razrede, onda na apscisu unesemo razrede, ili sredinu razreda, u zavisnosti
od toga želimo li rezultate prikazati histogramom ili poligonom frekvencija.
POLIGON FREKVENCIJA
• Poligon je više ili manje pravilna krivulja kojoj totalna površina odgovara ukupnoj frekvenciji svih
rezultata, ali površina iznad pojedinog razreda ne odgovara frekvenciji tog razreda, već frekvenciju
razreda označuje samo visina poligona točno iznad sredine razreda.
• Na apscisu se unose vrijednosti rezultata (ako su grupirani, sredina razreda), a na ordinatu
frekvencije.
• Crta se tako da iznad svake izmjerene vrijednosti (ili sredine razreda) označimo točke u visini ordinate
koja odgovara frekvenciji te vrijednosti.
• Točke se spajaju i poligon treba uzemljiti, tj. na lijevu i desnu stranu krivulje ga dovesti na nultu
frekvenciju apscise.
HISTOGRAMI
 Prikazivanje distribucije rezultata pomoću stupaca, kojima površina i visina odgovara frekvenciji
pojedinog razreda, a suma površina svih stupaca odgovara ukupnoj frekvenciji svih razreda (N).
 Histogram je najtočniji prikaz distribucije frekvencije rezultata, ali u praksi se češće koristi poligon jer
je pregledniji (sličniji teoretskoj krivulji) osobito ako prikazujemo dvije ili više distribucija.
 Ako imamo dvije distribucije (koje sadrže različit broj rezultata), prije grafičkog prikazivanja
moramo prethodno obje distribucije svesti na „zajedničku mjeru“ (zbog lakšeg uspoređivanja).
To se postiže tako što se za svaki razred izračunaju relativne frekvencije, tj svaka se frekvencija
prikaže u postotku ukupnog broja.
 Iz histograma i poligona frekvencija se može očitati jedino dominantna vrijednost: to je u
histogramu razred s najvišim stupcem, a u poligonu razred iznad kojega se nalazi vrh krivulje
LINIJSKI VS STUPČASTI DIJAGRAMI

• Kontinuirane varijable – linijski
• Diskontinuirane – stupčasti
NAPOMENE ZA TABELARNE PRIKAZE

• svaka tablica treba biti samoopisna (to znači da ima kratak naslov, ali dovoljno jasan)
• dodatna objašnjenja ili legende se stavljaju odmah ispod tablice
• stupci i re(t)ci moraju biti logički poredani da olakšaju usporedbu
• tablice moraju biti uredne i čitljive
NAPOMENE ZA GRAFIČKE PRIKAZE

• na horizontalnu os (apscisu) se nanose vrijednosti nezavisne varijable (spol, godine, kategorije)
• na vertikalnu os (ordinatu) se nanose vrijednosti zavisne (kontinuirane) varijable (dob, visina,
intenzitet ljubomore, prosječna plaća)
• omjer vertikalne i horizontalne osi je od 2/3 y=2/3x
• u ishodištu je nula
• ako su rezultati previsoki, presijecanje apscise i/ili ordinate (udaljenost od nule)
• prikaz negativnih vrijednosti
• kompozicija grafikona (sredina slike)
10
• X i Y osi bi trebale biti pravilno označene i imati ekvidistantne jedinice
• opisni naslov grafičkog prikaza mora biti jednostavan i jasan
GRUPIRANJE REZULTATA
•U slučaju grafičkog prikazivanja većeg broja rezultata („pješke”):
1. treba pronaći raspon rezultat (najveći-najmanji)
2. raspon se podijeli na neparan broj kategorija (5,7,9,11)
3. odrediti interval razreda (Raspon/broj razreda)
4. napraviti tablicu distribucije, koja uključuje razrede, sredinu razreda, frekvenciju, a može i
relativnu frekvenciju(f/N), kumulativnu i relativnu kumulativnu f
• U popularnim časopisima, dnevnoj štampi i sl često se zbog veće „plastičnosti“ rezultata daju
trodimenzionalni grafički prikazi nekih odnosa veličina, što NIJE pogodan način! Kocka koja ima 2
puta dužu stranicu od neke druge kocke, bit će po svom volumenu 8 puta veća od prve. Iako su odnosi
ispravni, dojam što ga slika daje ni približno nije realan!
• U praksi, tj u raznim popularnim člancima problem se obično „rješava“ tako da se odnosi visina tih
predmeta stave u stvarne brojčane odnose, što dovodi do teškog nasilja nad rezultatima. Ako se to
učini namjerno, onda to predstavlja falsificiranje rezultata. A ako se crtač pridržava onog što smo rekli
o odnosu volumena, onda postiže kod čitaoca neopravdano malo efekt!
• Ako podatke želimo prikazati trodimenzionalno, onda se to može jedino tako da različite količine
(vrijednosti) prikažemo sumom jednakih volumenskih jedinica.
• Upozorenje i za dvodimenzionalne prikaze: ako se količine umjesto stupcima prikazuju kvadratima ili
krugovima, to također nije pogodno, jer kvadrat dvostruko dužih stranica po površini je 4 puta veći
(isto vrijedi i za krug; krug 2 puta većeg poluprečnika ima 4 puta veću površinu), i kvadrat dvostruke
površine NEĆE davati dojam dva puta većeg kvadrata!
• Pogreška pri crtanju histograma koja se u praksi često događa: katkad se 2 ili više razreda žele spojiti
zajedno. Pogreška se sastoji u tome da se u poligon unese dvostruko širok pravokutnik (jer zauzima 2
razreda) koji ima visinu koja je nastala zbrajanjem visina prijašnjih pravokutnika (npr 5+5=11), a to je
pogrešno! Ispravno crtanje stupca iznad oba spojena razreda moralo bi izgledati tako da visina stupca
ide do 5,5, jer to znači za oba razreda zajedno 11, što odgovara realnom stanju,
• M je težište rezultata što se može dokazati pomoću histograma – ako ga izrežemo iz nekog debelog i
čvrstog materijala, pa ako na apscisi označimo vrijednost M, moći ćemo na tom mjestu histogram
postaviti u ravnotežu.
• Postoji još jedan vrlo koristan i praktičan način grafičkog prikazivanja; naročito pogodan kada želimo
brz pregled koliko se rezultata ili koliki se postotak rezultata nalazi ispod ili iznad nekog kokretnog
rezultata, kao i podatak o tome gdje se otprilike nalazi centralna vrijednost. Taj način prikazivanja se
naziva KRIVULJA KUMULATIVNE FREKVENCIJE (Galtanova oživa).
• Na apscisu se nanesu prave gornje granice razreda, a na ordinati se nalazi kumulativna (ili relativna
kumulativna) frekvencija. Prave gornje granice računski dobijemo tako da uzmemo sredinu između
gornje vrijednosti jednog razreda i donje vrijednosti idućeg razreda.
• Ako nas zanima neki određeni rezultat x, pa ako s tog rezultata povučemo s apscise paralelu s
ordinatom sve do krivulje, a od krivulje paralelu s apscisom sve do ordinate, dobivamo odgovor koliko
ima rezultata u toj grupi koji su manji ili jednaki rezultatu x, te koliko ima koji su veći od njega.
• Ako frekvencije imamo u relativnim frekvencijama, tj u postotcima, onda bismo te iste podatke mogli
davati u postotcima.
• Centralnu vrijednost bismo mogli očitati sa krivulje relativne kumulativne frekvencije tako da s
ordinate kod oznake 50% povučemo paralelu s apscisom do krivulje, i odande spustimo okomicu na
apscisu, te tamo očitamo vrijednost C.
NORMALNA RASPODJELA, NEKE DRUGE RASPODJELE

• Distribucija rezultata u statistici označava raspodjelu rezultata, odnosno frekvenciju/učestalost kojom
se u nekom skupu rezultata, poredanih po veličini pojavljuju pojedini rezultati.
• Svaka statistička analiza podataka počinje provjerom oblika distribucije
11
• nastavlja se njezinom statističkom deskripcijom (računanjem središnjih vrijednosti, varijabilitetai sl.)
• Oblik distribucije može ukazati na to uz koji model pristaju dobiveni rezultati
• Podatak o tome da li distribucija odstupa od određenog modela ili ne-utječe na odabir daljnjih
postupaka statističke obrade
• Distribucija utječe i na kasniju interpretaciju rezultata.
• Postoji veći broj matematički opisanih distribucija.
• Postoje distribucije za:

• kontinuirane varijable
• diskretne varijable
• Ako varijabla može poprimiti bilo koju vrijednost između neke dvije specificirane vrijednosti
radi se o kontinuiranoj varijabli(npr., učinak na testu; 0 do 100% ).
• Ako su rasponi vrijednosti beskonačni, varijabla je diskretna(npr. koliko je puta pala glava kod
bacanja novčića: od nula do plus beskonačnosti).
• Teorijske distribucije za diskretnu varijablu: binomna i Poissonova.
• Teorijske distribucije za kontinuiranu varijablu jesu : normalna(Gaussova), Studentova t-
distribucija, F-distribucija...
Normalna distribucija
• naziva se normalna ili zvonolika krivulja ili Gaussova krivulja
• osnova za razumijevanje glavnih statističkih pojmova vjerojatnosti
• Galtonova daska s čavlima za demonstraciju postanka normalne raspodjele
• Normalna je raspodjela rezultanta istodobnog djelovanja golemog broja faktora koji djeluju u jednom
ili u drugom smjeru, po slučaju se najčešće više ili manje ukidaju, ali isto se tako po slučaju nekada i
zbrajaju, te tako dolazi do značajno aberantnih rezultata.
• Takav oblik distribucije rezultat je dvije tendencije ili sile koje djeluju na rezultate:
1. tendencija koncentriranja rezultata oko jedne vrijednosti, koja je uvjetovana konstantnim
faktorima(najčešće je to veličina pojave ili predmeta mjerenja ili opažanja)
2. tendencija raspršivanja rezultata koja je uvjetovana nesistematskim varijabilnim faktorima
• Ako mnogo puta mjerimo neku pojavu (na većem broju ispitanika), dolazi do tendencije grupiranja
rezultata oko jedne vrijednosti
• međutim, pri mjerenju radimo (svjesno ili nesvjesno) manje ili veće pogreške, pa se zato rezultati
pojedinačnih mjerenja razlikuju (tendencija razlikovanja rezultata).
• Nesistematski varijabilni faktori po slučaju skreću mjereni rezultat čas na jednu čas na drugu stranu, pa
se ta skretanja najčešće međusobno poništavaju te zato dobivamo i najviše rezultata koji odgovaraju
pravoj vrijednosti mjerene pojave, koja odgovara konstantnim faktorima.
• Napomena: Cjelokupna parametrijska statistika počiva na pretpostavci o normalnoj raspodjeli
rezultata u populaciji na kojoj su dobiveni rezultati!
• Parametrijska statistikaje područje statistike koje se temelji na parametrima populacije iz koje se bira
uzorak na kojemu se dobiju neki podaci mjerenjem ili opažanjem. Parametrijska statistika se temelji na
normalnoj distribuciji.
Glavni uvjeti da kod nekog mjerenja dobijemo normalnu raspodjelu su ovi:

1. Ono što mjerimo moralo bi se i u prirodi normalno distribuirati
o Pojave koje se NE distribuiraju po normalnoj raspodjeli:
 Bilirubin u krvi daje asimetričnu raspodjelu
 Dijametar ljudskog srca daje bimodalnu raspodjelu (bi-modalnu, dva moda, krivulja s 2
vrha)
 distribucija ljudske težine lagano je asimetrična nadesno (desni kraj distribucije lagano
razvučen) Razlog: ako se visina distribuira po normalnoj raspodjeli, onda se težina NE
12
može distribuirati po normalnoj raspodjeli. Čovjek je u osnovi proporcionalno građen,
što će reći da su viši ljudi u prosjeku i krupniji (deblji) od niskih, pa će prema tome i
čovjekova težina (budući da mu se visina distribuira po normalnoj raspodjeli) dati
lagano asimetričnu distribuciju
2. Mora postojati veliki broj rezultata –zakon vjerojatnosti (kod malog broja mjerenja neke
pojave pa bila ona i idealno normalno distribuirana u prirodi, pukim slučajem možemo dobiti
distribuciju koja nimalo ne sliči normalnoj)
3. Da su sva mjerenja provedena istom metodom i u što sličnijim vanjskim prilikama
4. Skupina na kojoj se vrše mjerenja morala bi biti homogena po ostalim svojstvima, a
heterogena po svojstvu koje se mjeri. (kod mjerenja visine da su homogeni po dobi, spolu i
sl, a heterogeni po visini)
Značajke normalne distribucije

• Normalna distribucija (kao i sve ostale distribucije) je matematički posve točno definirana
• Normalna distribucija –u potpunosti je opisana aritmetičkom sredinom i varijancom (sd). iz toga
slijedi da postoje normalne raspodjele vrlo različite širine: od uskih (leptokurtičnih) do vrlo širokih
(platikurtičnih)
• Mjesto infleksije(gdje iz konveksne prelazi u konkavnu) iznad ±1sd
• Potpuno je simetrična distribucija, zvonolikog oblika, koja se približava osi apscise
• Svi koeficijenti asimetrije kod normalne krivulje su nula
• Vrijednost koeficijenta zaobljenosti ili kurtičnosti je kod normalne distribucije jednak 3
Moment
• fizikalni pojam kojeg je uveo K. Pearson.
• U statistici postoji više momenata, a definiraju se razlikom između svakog pojedinog rezultata i
aritmetičke sredine svih rezultata.
∑ xi
• Matematički je definiran kao kao mi = N
gdje je:
• mi -moment prvog, drugog, trećeg ili četvrtog reda
• xi-odstupanje svakog pojedinog rezultata od aritmetičke sredine u nekoj distribuciji rezultata
podignuto na i-tu potenciju (potencija momenta prvog reda je 1, drugog 2 itd.)
• N-broj rezultata koji čini neku distribuciju.
Moment prvog reda–iznosi nula i njime je definirana aritmetička sredina m1 = Σ (X -M) / N
Moment drugog reda-varijanca m2= Σ (X -M)2/ N
Moment trećeg reda–(a)simetričnost m3= Σ (X -M)3/ N
o Kada je m3= 0 distribucija je simetrična, m3>0 pozitivno asimetrična, m3<0 negativno asimetrična
(slika).
o Koeficijent asimetrije α3je omjer trećeg momenta i sd podignute na treću potenciju
α3= m3/sd3.
• Koef (a)simetrije poprima vrijednosti od najčešće +/-2
• Moment četvrtog reda-kurtičnost ili zaobljenost m4= Σ (X -M)4/ N Koef. zaobljenosti α4= m4/sd4
• koef. zaobljenosti normalne distribucije je = distribucija je mezokurtična;
• ako je veći od 3, distribucija je leptokurtična (šiljastija višeg i užeg vrha);
• ako je manjiod3, ona je platokurtična(plosnatija).
Oblici normalne distribucije: -različite aritmetičke sredine, jednaka varijabilnost
Oblici normalne distribucije:-različita varijabilnost rezultata
Oblici normalne distribucije:-leptokurtična(izrazitije grupiranje rezultata oko središnje vrijednosti,
odnosno u smanjeno raspršenje rezultata)
13
Oblici normalne distribucije: - platokurtična (slabije izraženo grupiranje rezultata oko središnje
vrijednosti, tj. povećano je raspršenje rezultata)
Simetrična distribucija
• Pozitivno i negativno asimetrične distribucije
Pozitivno asimetrične: -veći dio rezultata se grupira oko nižih vrijednosti Npr., visina plaće
Negativno asimetrične: -veći dio rezultata se grupira oko viših vrijednosti Npr., školske ocjene
Ako aritmetičkoj sredini :

• dodamo lijevo i desno po jednu standardnu devijaciju (mjeru varijabilnosti), obuhvatili smo
površinu koja čini oko 68% cijele površine krivulje, odnosno 68,26% svih rezultata.
• S dvije SD oko aritmetičke sredine, obuhvaćamo oko 95, 44% svih rezultata,
• a s tri standardne devijacije gotovo sve rezultata, tj. 99,73%rezultata.
• Doslovno se ne mogu obuhvatiti svi rezultati i s nekoliko SD, jer se krivulja normalne distribucije
asimptomatski približava apscisi , pa se teoretski spajaju u beskonačnost
JOŠ NEKE ZNAČAJKE O TEORIJI VJEROJATNOSTI...

• Vjerojatnost pojedinih kombinacija možemo izračunati pomoću tzv. binomne raspodjele (p+q) na n; pri
čemu je p=vjerojatnost da će se nešto dogoditi, q=vjerojatnost da se nešto neće dogoditi, a eksponent n
je broj faktora. Vjerojatnost da će se nešto dogoditi + vjerojatnost da neće uvijek je 100% (p=1) pa je
prema tome (p+q) uvijek = 1
• Pomoću Pascalova trokuta moguće je utvrditi različite kombinacije i bez računanja. Pascalov trokut:
svaki idući red dobiven je tako da su sumirana 2 broja koji su lijevo i desno iznad njega. Pomoću
Pascalova trokuta mogu se izračunati i binomni koeficijenti ako n očitamo u redu Pascalova trokuta, a x
na položaju x+1 u istom tom redu
• Još jedan način za izračunavanje različitih ishoda jednake vjerojatnosti je tzv stablo vjerojatnosti
• Još jedna formula za izračunavanje vjerojatnosti pojavljivanja nekog ishoda kod binomne raspodjele
n!
Pk = ∗p k∗q n−q,
k ! ( n−k ) !
pri čemu je
p = vjerojatnost da će se nešto dogoditi;
q = vjerojatnost da se nešto neće dogoditi;
k = broj pogodaka (npr 2 šestice kod bacanja kocke);
n = veličina uzorka (npr 3 igraće kocke)
• Razlika između binomne i normalne raspodjele (više teoretske nego praktične prirode)-binomna nastaje
kombinacijom faktora, kod kojih je pojavljivanje uvijek jednako vjerojatno (npr 50% ili 10% ili bilo
koja druga vjerojatnost) dok je kod normalne raspodjele situacija nešto drukčija
• Osim normalne i binomne raspodjele postoe npr Poissonova raspodjela-također slučajna raspodjela,
samo, za razliku od normalne raspodjele, slučajna raspodjela vrlo rijetkih događaja (normalna raspodjela
je raspodjela događaja kojima se vjerojatnost kreće u blizini 50%). Postoje još i F – raspodjela, hi-
kvadrat raspodjela itd
• Povijest nastanka spoznaja o normalnoj raspodjeli:
o posebno je za te podatke zaslužna američka statističarka Helen Walker
o matematičar Abraham De Moivre ustanovio da je distribucija bacanja novčića, kada je broj novčića
velik (binomna raspodjela), poprima jedan definitivni oblik koji je on 1733. uspio izraziti
jednadžbom
o istovremeno, švicarski matematičar Jacquess Bernoulli upozorio da bi teorija vjerojatnosti mogla
biti od koristi u ekonomiji i društvenim znanostima; tek je 1713 (8 god nakon njegove smrti)
objavljena njegova knjiga „Ars conjectandi“ tj „Umjetnost hazarda“
o Laplace u Francuskoj i Gauss u Njemačkoj, nezavisno jedan od drugoga, a vjerojatno i ne znajući za
De Moivreove rezultate, matematički definirali krivulju vjerojatnosti ili krivulju pogrešaka. Kasnije
je nazvana Gaussovom, jer se smatralo da ju je on prvi opisao i matematički definirao. No 1924.
Carl Pearson otkrio rukopise De Moivrea
14
o Belgijski statističar Adolph Quetelet je definitivno formulirao i objavio Bernoullijevu misao da se ta
krivulja može primijeniti ne samo na pogreške mjerenja u fizici, već i na ostale podatke mjerenja;
prvi je upozorio da se statistika može korististi i u bilo kojem drugom području mjerenja, dakle i
kod mjerenja mentalnih i moralnih svojstava.
15

1 Uvod U Statistiku

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Uvod U Statistiku

Uploaded by

Copyright:

Available Formats

UVOD U STATISTIKU 1. KOLOKVIJ 05.12.2016. god.

• Statistika – obrada brojčanih podataka radi jasnijeg prikazivanja

PSIHOLOŠKI UZROCI NEKIM POGREŠKAMA KOD PROSUĐIVANJA VJEROJATNOSTI

MJERE CENTRALNE TENDENCIJE

ARITMETIČKA SREDINA (engl. Mean – M); X; A.M.; mi

ZAJEDNIČKA ARITMETIČKA SREDINA

MEDIJAN (CENTRALNA VRIJEDNOST – C)

MODALNA VRIJEDNOST (DOMINANTNA) – Mod; D

GEOMETRIJSKA SREDINA (G)

HARMONIJSKA SREDINA (H)

Djelovanje nesistematskih faktora

SREDNJE ODSTUPANJE (SO)

KOEFICIJENT VARIJABILNOSTI (V)

GRAFIČKO PRIKAZIVANJE REZULTATA

LINIJSKI VS STUPČASTI DIJAGRAMI

NAPOMENE ZA TABELARNE PRIKAZE

NAPOMENE ZA GRAFIČKE PRIKAZE

NORMALNA RASPODJELA, NEKE DRUGE RASPODJELE

• Postoje distribucije za:

Glavni uvjeti da kod nekog mjerenja dobijemo normalnu raspodjelu su ovi:

Značajke normalne distribucije

Ako aritmetičkoj sredini :

JOŠ NEKE ZNAČAJKE O TEORIJI VJEROJATNOSTI...

You might also like