You are on page 1of 12

1

ZA SVEUČILIŠTE JURJA DOBRILE U PULI


UVOD

Što je statistika i što rade statističari?

Statistika je znanost o prikupljanju, sređivanju, analizi i interpretaciji podataka.

Riječ „statistika" ima i druga značenja:


 skup podataka,
 veličina koju smo izračunali iz podataka.

Populacija i uzorak

Populacija ili statistički skup je skup osoba, stvari i pojava ili drugih objekata, čije osobine istražujemo
statističkom metodom.

Članovi populacije zovu se statističke jedinice, a njihov zbroj zove se veličina populacije.

Promatranje čitave populacije zove se cenzus.


Dio ili podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a broj jedinica u
uzorku zove se veličina uzorka.

Deskriptivna i inferencijalna statistika

Deskriptivna statistika obuhvaća postupke sređivanja, tabličnog i grafičkog prikazivanja podataka, te


izračunavanja raznih statističkih pokazatelja, kao sto je npr. aritmetička sredina. Dobiveni rezultati odnose se
isključivo na dane podatke i ne uopćavaju se.

Inferencijalna statistika proučava metode kojima se pomoću dijela informacija (uzorka), donosi zaključak o
cjelini (populaciji).
Procjenjivanje parametara i testiranje hipoteza su tipični postupci koji spadaju u inferencijalnu statistiku.
Postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak slučajan.

Statističke varijable

Svojstvo koje posjeduju sve statističke jedinice i koje za različite statističke jedinice može poprimiti različite
vrijednosti ili modalitete zove se statistička varijabla ili statističko obilježje.

Varijable se mogu podijeliti u dvije skupine:


1. kategoričke ili kvalitativne,
2. numeričke ili kvantativne.

Varijable se razlikuju i prema mjernoj skali.

Prikazivanje podataka

Tekst
Kada treba prikazati svega nekoliko vrijednosti
Primjer: Od 25 ispitanih studenata, njih 17 ili 68% ima položen ispit iz matematike

Tablica
Pregledno prikazuje veću količinu podataka.
2
Grafikon
Za uočavanje pravilnosti i veza.

LOKACIJA I DISPE RZIJA

Distribucije

Statistički podaci imaju raspodjelu ili distribuciju, čije su glavne osobine:


 lokacija ili centralna tendencija,
 disperzija ili raspršenje,
 oblik (asimetrija i zaobljenost).

Osobine distribucije istražujemo grafičkim prikazima, kao i numeričkim pokazateljima, koji se zovu mjere.
Mjere lokacije zovu se još srednje ili prosječne vrijednosti.

Aritmetička sredina

Aritmetička sredina je najvažnija mjera lokacije i kratko je zovemo sredina ili prosjek.
Aritmetička sredina je težište podataka i uvijek se nalazi između najmanje i najveće podatkovne vrijednosti.

Devijacije

Devijacija ili odstupanje podatkovne vrijednosti Xi od aritmetičke sredine X definira se kao razlika Xi - X .
Zbroj devijacija uvijek iznosi nula.

Predznak devijacije pokazuje u kojem smjeru se podatkovna vrijednost nalazi u odnosu na aritmetičku sredinu,
a njena apsolutna vrijednost pokazuje udaljenost od aritmetičke sredine.

Apsolutna vrijednost devijacije (apsolutna devijacija) može se koristiti za mjerenje disperzije. Još je bolje ako
se devijacija kvadrira (kvadratna devijacija).

Varijanca, standardna devijacija i koeficijent varijacije

Varijanca S2 niza numeričkih vrijednosti X1, X2,…,Xn, definira se kao aritmetička sredina kvadratnih
devijacija tih vrijednosti.

Standardna devijacija S je po definiciji jednaka korijenu iz varijance.

Koeficijent varijacije CV definira se kao omjer standardne devijacije i aritmetičke sredine.

Svojstva varijance i standardne devijacije

Varijanca ne može biti negativna.


Varijanca je jednaka nuli jedino kada su svi podaci međusobno jednaki.
Podaci s većom disperzijom imaju i veću varijancu.

Standardna devijacija se uvijek nalazi između najmanje i najveće


apsolutne devijacije

Alternativna formula za varijancu

Varijanca se može alternativno izračunati kao razlika aritmetičke sredine kvadrata i kvadrata aritmetičke sredine
3
Zbroj kvadrata nije isto što i kvadrat zbroja.

KVAN TI LI

Medijan

Medijan je vrijednost koja se nalazi u središtu uređenog niza podataka.

Uređen niz podataka označavamo s X(1),X(2),…,X(n), a vrijednosti X(i) zovemo uređajne statistike.

Kvantili

Generalizacijom medijana dolazimo do kvantila.

Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takva da:


(1) proporcija podataka koji su manji ili jednaki od Xp iznosi barem p,
(2) proporcija podataka koji su veci ili jednaki od Xp iznosi barem 1 p.

Kvintili = 0.2, 0.4, 0.6, 0.8


Decili = 0.1, 0.2, 0.3, ..., 0.9
Percentili = 0.01, 0.02, ..., 0.99

Kakav je odnos između aritmetičke sredine i medijana?

Kod simetrične distribucije, aritmetička sredina i medijan jednaki su.

Kod pozitivno, odnosno negativno asimetrične distribucije, aritmetička sredina je veća, odnosno manja od
medijana.

DISTRIBUCIJE FREKVENCIJA

Osnovni pojmovi

Distribucije frekvencija nastaju grupiranjem podataka.

Grupiranje je postupak sažimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.
Pritom, svaku podatkovnu vrijednost treba svrstati u točno jednu grupu

Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno relativnom
frekvencijom.
Popis grupa i njihovih frekvencija zove se distribucija frekvencija.
Distribucije frekvencija prikazuju se tablično i grafički.

Apsolutne i relativne frekvencije

Apsolutne frekvencije n1, n2, . . . , nk su nenegativni cijeli brojevi čiji je zbroj jednak broju podataka.

Relativne frekvencije p1, p2, . . . , pk jednake su omjeru apsolutnih frekvencija i broja podataka.

Relativne frekvencije su nenegativni racionalni brojevi čiji zbroj iznosi jedan.


4
Kumulativne frekvencije

Kumulativna apsolutna frekvencija Ni definira se kao zbroj prvih i apsolutnih frekvencija

Kumulativna relativna frekvencija Pi definira se kao zbroj prvih i relativnih frekvencija.

Kumulativne frekvencije obično računamo rekurzivno

Diskretne i neprekidne numeričke varijable

Diskretne varijable
 vrijednosti su izolirane
 postoji najmanja mjerna jedinica
 brojanje
 npr. broj studenata na nastavi, broj bakterija u ml vode,…
Neprekidne varijable
 vrijednosti tvore kontinuum - neprekidan interval brojeva
 po volji malena mjerna jedinica
 mjerenje (mjernim instrumentom)
 npr. vrijeme, visina, tlak, . . .

Grupiranje neprekidnih numeričkih podataka - razredi

Grupiranje neprekidnih numeričkih podataka provodi se tako da se brojevni interval koji sadrži podatkovne
vrijednosti „izreže" na određen broj podintervala, koje zovemo razredima, a grupe se pritom sastoje od
podatkovnih vrijednosti koje pripadaju istom razredu.

Broj razreda k treba prikladno odabrati. Pritom, čvrstih pravila nema, osim da k ne smije biti prevelik, jer je
grupiranje postupak sažimanja podataka, niti premalen, jer bi se tako izgubili važni detalji. Obično uzimamo k
između 5 i 15.

Grupiranjem u razrede gube se informacije - popis razreda i njihovih frekvencija nije istovjetan nizu
negrupiranih podataka, jer smo grupiranjem u razrede izgubili pojedinačne podatkovne vrijednosti.

Razredna sredina, veličina razreda, gustoća frekvencije

Razredna sredina xi je aritmetička sredina granica razreda.

Veličina razreda hi je udaljenost između granica razreda.

Gustoća apsolutne frekvencije je omjer apsolutne frekvencije i veličine razreda.

B I VAR I JAT N I PO DAC I

Podaci s obzirom na broj varijabli

S obzirom na broj varijabli koje istovremeno promatramo, podaci mogu biti


 univarijatni (1),
 bivarijatni (2),
 multivarijatni (≥2).
5
Ako jednu od promatranih varijabli označimo s X, a drugu s Y , onda bivarijatne podatke za n statističkih
jedinica možemo zamisliti kao niz od n uređenih parova podatkovnih vrijednosti.

Obično ih prikazujemo u obliku tablice s n redaka i dva stupca.

Veze između varijabli

Bivarijatne podatke obično prikupljamo jer nas zanima veza (asocijacija, korelacija, kovarijacija, zavisnost)
između varijabli.
Veza između varijabli može biti:
 deterministička (funkcijska) - npr. količina-iznos,
 stohasticka (slučajna, statistička) - npr. visina-težina.
U statistici se bavimo samo stohastičkim vezama.

Postoji li veza?

Ako točke u dijagramu raspršenja nisu raspoređene nasumice, nego njihov horizontalni položaj utječe na
vertikalni i obratno, onda su varijable povezane ili korelirane.

Tip veze:
 linearna - ako su točke u dijagramu raspršenja raspoređene oko pravca
 nelinearna - ako su točke raspoređene oko krivulje
 rastuća - porast jedne varijable uglavnom povlači porast (pozitivna)
 padajuća - pad vrijednosti povlači pad (negativna)

Jakost veze:
 jaka
 slaba
 potpuna ili savršena

Kovarijanca

Kovarijanca Sxy numeričkih varijabli X i Y definira se kao aritmetička sredina produkata njihovih devijacija.
Kovarijanca je mjera isključivo linearne korelacije.

Kovarijanca je pozitivna, odnosno negativna ako su varijable u pozitivnoj, odnosno negativnoj linearnoj
korelaciji.
Kovarijanca iznosi 0 ako varijable nisu povezane, ali ne samo tada.

Što je linearna korelacija jača, to je apsolutna vrijednost kovarijance veća


Vrijednost kovarijance zavisi o mjernim jedinicama.

Koeficijent linearne korelacije

Koeficijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli.

Interpretacija jakosti linearne korelacije na osnovu koeficijenta r zavisi o području primjene.

Kovarijanca i koeficijent linearne korelacije simetrični su u varijablama X i Y , tj. ako varijable zamijene uloge,
kovarijanca i koeficijent linearne korelacije neće promijeniti vrijednost.
Kovarijanca neke varijable sa samom sobom jednaka je varijanci te varijable.

6
Tablica kontingencije

Bivarijatne distribucije frekvencija prikazuju se u obliku tablice kontingencije.


Tablica kontingencije sluzi klasifikaciji ili razvrstavanju statističkih
jedinica prema vrijednostima dvije ili vise statističkih varijabli.

Zajednička distribucija

Frekvencije nij tvore zajedničku distribuciju, jer one prikazuju distribuciju statističkih jedinica prema obje
varijable istovremeno.
Zbroj svih zajedničkih frekvencija iznosi n.

Marginalne distribucije

Zbrajanjem zajedničkih frekvencija po recima i stupcima dolazimo do marginalnih distribucija.


Marginalne distribucije pokazuju distribuciju statističkih jedinica prema samo jednoj varijabli i neovisno o
drugoj varijabli.
Zbroj frekvencija svake marginalne distribucije iznosi također n.

Uvjetne distribucije

Svaki stupac i redak u zajedničkoj distribuciji također predstavlja distribuciju jedinica prema jednoj od
promatranih varijabli, ali uz uvjet da je druga varijabla poprimila određenu vrijednost.
Te distribucije zovu se uvjetne distribucije.
Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.

Relativne frekvencije

Relativne frekvencije dobivaju se tako da se apsolutne frekvencije podijele sa svojim zbrojem.

Statistička nezavisnost

Varijable su po definiciji statistički nezavisne ako su uvjetne relativne distribucije jednake marginalnoj
relativnoj distribuciji

Opažene i očekivane frekvencije

Frekvencije nij i pij zovu se opažene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu očekivane ili teorijske
frekvencije

Varijable su statistički nezavisne ako i samo su opažene frekvencije jednake očekivanima.


Zbroj očekivanih frekvencija u istom retku ili stupcu jednak je marginalnoj frekvenciji, a zbroj svih očekivanih
frekvencija iznosi n, odnosno 1.

Hi-kvadrat

Statistička nezavisnost je vrlo strog zahtjev, koji praktički nikada neće biti ispunjen za realan skup statističkih
podataka.
Svake dvije statističke varijable su manje ili više zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje
opaženih frekvencija od očekivanih.
Upravo tome služi mjera koju zovemo hi-kvadrat, koju označavamo s X2.
Hi kvadrat je uvijek veći od nule.
Što se opažene frekvencije više razlikuju od očekivanih, to će X2 imati veću vrijednost.
Najveća vrijednost X2 zavisi o broju promatranja n i dimenzijama tablice kontingencije.
7
VJ E R O JAT N O ST

Slučajni pokus

Slučajni pokus je svaki proces čiji rezultat ne možemo sa sigurnošću predvidjeti.


Primjeri:
 bacanje novčića,
 bacanje kocke,
 izvlačenje karte iz špila karata,

Vjerojatnosni prostor

Vjerojatnosni prostor je teorijski model slučajnog pokusa, koji se sastoji od:


 prostora ishoda,
 prostora događaja,
 vjerojatnosne mjere ili vjerojatnosti.

Ishodi i prostor ishoda

Ishod ili elementarni događaj je rezultat slučajnog pokusa koji se ne može rastaviti na manje dijelove.
Skup svih ishoda zove se prostor ishoda ili prostor elementarnih događaja.

Događaji

Događaj je skup nekih (ne nužno svih) ishoda.


Prema tome, događaj je podskup od Ω.

Skup svih događaja zove se prostor događaja.

Isključivi događaji

Događaji A i B zovu se isključivi ili disjunktni ako se A i B ne mogu istovremeno dogoditi.

Za proizvoljno mnogo događaja Ai kažemo da su isključivi ako su oni isključivi u parovima.

Vjerojatnost

Vjerojatnost ili vjerojatnosna mjera je funkcija koja svakom događaju pridružuje realan broj iz intervala [0, 1],
koji izražava mogućnost da događaj nastupi.

Oblici vjerojatnosti:
 teorijska - npr. broj povoljnih kroz broj mogućih ishoda,
 empirijska - dugoročna relativna frekvencija,
 subjektivna - osobno uvjerenje.

Uvjetna vjerojatnost

Uvjetna vjerojatnost događaja B uz uvjet A je vjerojatnost događaja B ako je poznato da je nastupio događaj A.

Nezavisni događaji

Ako nastupanje događaja A ne mijenja vjerojatnost od B, onda se događaji A i B zovu nezavisni.

8
S LU ČAJ N E VAR I JAB LE I VEKTORI

Slučajna varijabla

Funkcija koja svakom ishodu slučajnog pokusa pridružuje broj zove se slučajna varijabla.

Slučajne varijable dijele se na diskretne i neprekidne.

Očekivanje

Očekivanje slučajne varijable X možemo shvatiti kao dugoročnu aritmetičku sredinu od X.

Varijanca

Varijanca proizvoljne slučajne varijable X definira se kao očekivanje kvadratne devijacije od X-

Bernoullijeva distribucija

Diskretna slučajna varijabla X koja poprima samo vrijednosti 0 i 1 zove se Bernoullijeva slučajna varijabla.

Aditivnost - svojstvo koje kaže da je vjerojatnost unije dva isključiva događaja jednaka zbroju vjerojatnosti tih
događaja.

Funkcija gustoće vjerojatnosti

Neprekidne su one slučajne varijable koje imaju funkciju gustoće vjerojatnosti.

N O R MALNA DI STR I B UC I JA

Svojstva normalne distribucije:

 Linearna transformacija normalne slučajne varijable je normalna slučajna varijabla.

 Zbroj nezavisnih normalnih slučajnih varijabli je normalna slučajna varijabla.

 Zbroj velikog broja nezavisnih jednako distribuiranih slučajnih varijabli ima približno normalnu
distribuciju (centralni granični teorem).

Graf funkcije fX zove se normalna krivulja.

Distribucija N(0, 1) zove se standardna normalna distribucija.

U Z O R K O V A NJ E

Slučajni uzorak

Da bismo u inferencijalnoj statistici mogli koristiti teoriju vjerojatnosti, uzorak mora biti slučajan.
Uzorak je slučajan ako odluku o tome koje ce statističke jedinice biti uključene u uzorak donosimo na slučajan
način, npr. nasumičnim izvlačenjem listića iz kutije ili generiranjem slučajnih brojeva na računalu.

9
Uzorkovanje

Uzorkovanje možemo provesti:


 s ponavljanjem,
 bez ponavljanja.
Premda je uzorkovanje s ponavljanjem matematički jednostavnije,u praksi redovito koristimo uzorkovanje bez
ponavljanja.

Populacija i parametri

Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to onom koju bismo
dobili kada bismobiz populacije slučajno odabrali jednu statističku jedinicu.
Numeričke osobine populacije zovu se parametri.

Uzorak i statistike

Pod slučajnim uzorkom veličine n podrazumijevamo niz od n nezavisnih jednako distribuiranih slučajnih
varijabli X1, X2,…,Xn, čija je distribucija jednaka distribuciji populacije.

Svaka transformacija slučajnog uzorka Y je također slučajna varijabla, čiju distribuciju vjerojatnosti nazivamo
distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu slučajnu
varijablu nazivamo statistikom.

Zbroj uzorka

Ako populacija ima normalnu distribuciju, onda je zbroj uzorka također normalno distribuiran.
Ako populacija nema normalnu distribuciju, onda je zbroj uzorka približno normalno distribuiran kad je uzorak
velik.

Aritmetička sredina uzorka

Ako populacija ima normalnu distribuciju, onda je aritmetička sredina uzorka također normalno distribuirana.
Ako populacija nema normalnu distribuciju, onda je aritmetička sredina uzorka približno normalno
distribuirana kad je uzorak velik.

Varijanca uzorka

Ako je populacija normalna, onda su aritmetička sredina i varijanca nezavisne slučajne varijable.

Korigirana varijanca uzorka

Očekivanje korigirane varijance uzorka jednako je varijanci populacije.

P R O C J E NJ I V A NJ E P A R A M E T A R A

Procjenjivanje parametara je postupak približnog određivanja vrijednosti nepoznatog parametra populacije.


Statistika koju koristimo u tu svrhu zove se procjenitelj, a njena vrijednost zove se procjena.

Procjenjivanje parametara može biti:


 točkovno,
 intervalno.

10
Konzistentnost

Za procjenitelj kažemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra tezi k 1
kada veličina uzorka n tezi k +∞

Aritmetička sredina je konzistentan procjenitelj sredine populacije, a varijanca uzorka je konzistentan


procjenitelj varijance populacije.

Primjenom neprekidnih matematičkih operacija (zbrajanje, množenje, korjenovanje,…) na konzistentne


procjenitelje dobivaju se ponovno konzistentni procjenitelji.

Ako pristranost procjenitelja iznosi 0 onda za procjenitelj T kažemo da je nepristran.


Procjenitelj koji nije nepristran zove se pristran.

Srednja kvadratna pogreška

Očekivanje kvadrata razlike T - θ zove se srednja kvadratna pogreška od T.

Prostor parametra

Skup svih mogućih vrijednosti parametra zove se prostor parametra.

Intervali povjerenja

Intervalni procjenitelj ili interval povjerenja parametra θ je interval čije granice V i W mogu zavisiti o
slučajnom uzorku, ali ne i o nepoznatim parametrima.

Ako su obje granice intervala C slučajne, onda za C kažemo da je dvosmjerni ili dvostrani interval
povjerenja.
Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra, onda za V
kažemo da je donja granica povjerenja za θ, a interval C nazivamo gornjim intervalom povjerenja.
Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.

Najmanja vjerojatnost da je θ element od C zove se razina povjerenja od C.

Pivot

Pivot je slučajna varijabla koja zavisi o slučajnom uzorku X1,X2,…,Xn i parametru θ, ali čija distribucija
vjerojatnosti ne zavisi o θ.

Nama će pivot U uvijek biti neprekidna slučajna varijabla.

T E S T I R A NJ E H I P O T E Z A

Statistička hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u kojemu pomoću
uzorka provjeravamo je li istinita ili lažna.

Koraci u testiranju hipoteza

1. Postaviti nul i alternativnu hipotezu.


2. Odabrati razinu značajnosti.
3. Odabrati test statistiku.
4. Odrediti kritično područje.

11
5. Provesti uzorkovanje i izračunati vrijednost test statistike.
6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.

Nul i alternativna hipoteza

Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom, a drugu
alternativnom hipotezom.
Kao nul hipotezu uglavnom biramo tvrdnju za koju želimo pokazati da je lažna, dok tvrdnju za koju bismo
htjeli pokazati da je istinita stavljamo u alternativnu hipotezu.
Nul hipoteza obično označava početno stanje, izostanak učinka ili nepotrebnost poduzimanja neke aktivnosti, a
alternativna hipoteza tvrdi da je došlo do promjene, da postoji učinak ili da je potrebno nešto poduzeti.

Razina značajnosti

Najveća vjerojatnost pogreške odbacivanja zove se razina značajnosti ili signikantnosti testa i označava se s α

Razina značajnosti treba biti malen pozitivan broj.


Uobičajene vrijednosti za jesu 0.01, 0.05 i 0.10, odnosno 1%, 5% i 10%.

Odluku o tome koliko će iznositi donosimo uzimajući u obzir posljedice pojedinih pogreški i činjenicu da
smanjivanjem vjerojatnosti pogreške jednog tipa nužno povećavamo vjerojatnost pogreške drugog tipa.

12

You might also like