Professional Documents
Culture Documents
Statistika - Teorija Ukratko
Statistika - Teorija Ukratko
Populacija i uzorak
Populacija ili statistički skup je skup osoba, stvari i pojava ili drugih objekata, čije osobine istražujemo
statističkom metodom.
Članovi populacije zovu se statističke jedinice, a njihov zbroj zove se veličina populacije.
Inferencijalna statistika proučava metode kojima se pomoću dijela informacija (uzorka), donosi zaključak o
cjelini (populaciji).
Procjenjivanje parametara i testiranje hipoteza su tipični postupci koji spadaju u inferencijalnu statistiku.
Postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak slučajan.
Statističke varijable
Svojstvo koje posjeduju sve statističke jedinice i koje za različite statističke jedinice može poprimiti različite
vrijednosti ili modalitete zove se statistička varijabla ili statističko obilježje.
Prikazivanje podataka
Tekst
Kada treba prikazati svega nekoliko vrijednosti
Primjer: Od 25 ispitanih studenata, njih 17 ili 68% ima položen ispit iz matematike
Tablica
Pregledno prikazuje veću količinu podataka.
2
Grafikon
Za uočavanje pravilnosti i veza.
Distribucije
Osobine distribucije istražujemo grafičkim prikazima, kao i numeričkim pokazateljima, koji se zovu mjere.
Mjere lokacije zovu se još srednje ili prosječne vrijednosti.
Aritmetička sredina
Aritmetička sredina je najvažnija mjera lokacije i kratko je zovemo sredina ili prosjek.
Aritmetička sredina je težište podataka i uvijek se nalazi između najmanje i najveće podatkovne vrijednosti.
Devijacije
Devijacija ili odstupanje podatkovne vrijednosti Xi od aritmetičke sredine X definira se kao razlika Xi - X .
Zbroj devijacija uvijek iznosi nula.
Predznak devijacije pokazuje u kojem smjeru se podatkovna vrijednost nalazi u odnosu na aritmetičku sredinu,
a njena apsolutna vrijednost pokazuje udaljenost od aritmetičke sredine.
Apsolutna vrijednost devijacije (apsolutna devijacija) može se koristiti za mjerenje disperzije. Još je bolje ako
se devijacija kvadrira (kvadratna devijacija).
Varijanca S2 niza numeričkih vrijednosti X1, X2,…,Xn, definira se kao aritmetička sredina kvadratnih
devijacija tih vrijednosti.
Varijanca se može alternativno izračunati kao razlika aritmetičke sredine kvadrata i kvadrata aritmetičke sredine
3
Zbroj kvadrata nije isto što i kvadrat zbroja.
KVAN TI LI
Medijan
Uređen niz podataka označavamo s X(1),X(2),…,X(n), a vrijednosti X(i) zovemo uređajne statistike.
Kvantili
Kod pozitivno, odnosno negativno asimetrične distribucije, aritmetička sredina je veća, odnosno manja od
medijana.
DISTRIBUCIJE FREKVENCIJA
Osnovni pojmovi
Grupiranje je postupak sažimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.
Pritom, svaku podatkovnu vrijednost treba svrstati u točno jednu grupu
Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno relativnom
frekvencijom.
Popis grupa i njihovih frekvencija zove se distribucija frekvencija.
Distribucije frekvencija prikazuju se tablično i grafički.
Apsolutne frekvencije n1, n2, . . . , nk su nenegativni cijeli brojevi čiji je zbroj jednak broju podataka.
Relativne frekvencije p1, p2, . . . , pk jednake su omjeru apsolutnih frekvencija i broja podataka.
Diskretne varijable
vrijednosti su izolirane
postoji najmanja mjerna jedinica
brojanje
npr. broj studenata na nastavi, broj bakterija u ml vode,…
Neprekidne varijable
vrijednosti tvore kontinuum - neprekidan interval brojeva
po volji malena mjerna jedinica
mjerenje (mjernim instrumentom)
npr. vrijeme, visina, tlak, . . .
Grupiranje neprekidnih numeričkih podataka provodi se tako da se brojevni interval koji sadrži podatkovne
vrijednosti „izreže" na određen broj podintervala, koje zovemo razredima, a grupe se pritom sastoje od
podatkovnih vrijednosti koje pripadaju istom razredu.
Broj razreda k treba prikladno odabrati. Pritom, čvrstih pravila nema, osim da k ne smije biti prevelik, jer je
grupiranje postupak sažimanja podataka, niti premalen, jer bi se tako izgubili važni detalji. Obično uzimamo k
između 5 i 15.
Grupiranjem u razrede gube se informacije - popis razreda i njihovih frekvencija nije istovjetan nizu
negrupiranih podataka, jer smo grupiranjem u razrede izgubili pojedinačne podatkovne vrijednosti.
Bivarijatne podatke obično prikupljamo jer nas zanima veza (asocijacija, korelacija, kovarijacija, zavisnost)
između varijabli.
Veza između varijabli može biti:
deterministička (funkcijska) - npr. količina-iznos,
stohasticka (slučajna, statistička) - npr. visina-težina.
U statistici se bavimo samo stohastičkim vezama.
Postoji li veza?
Ako točke u dijagramu raspršenja nisu raspoređene nasumice, nego njihov horizontalni položaj utječe na
vertikalni i obratno, onda su varijable povezane ili korelirane.
Tip veze:
linearna - ako su točke u dijagramu raspršenja raspoređene oko pravca
nelinearna - ako su točke raspoređene oko krivulje
rastuća - porast jedne varijable uglavnom povlači porast (pozitivna)
padajuća - pad vrijednosti povlači pad (negativna)
Jakost veze:
jaka
slaba
potpuna ili savršena
Kovarijanca
Kovarijanca Sxy numeričkih varijabli X i Y definira se kao aritmetička sredina produkata njihovih devijacija.
Kovarijanca je mjera isključivo linearne korelacije.
Kovarijanca je pozitivna, odnosno negativna ako su varijable u pozitivnoj, odnosno negativnoj linearnoj
korelaciji.
Kovarijanca iznosi 0 ako varijable nisu povezane, ali ne samo tada.
Kovarijanca i koeficijent linearne korelacije simetrični su u varijablama X i Y , tj. ako varijable zamijene uloge,
kovarijanca i koeficijent linearne korelacije neće promijeniti vrijednost.
Kovarijanca neke varijable sa samom sobom jednaka je varijanci te varijable.
6
Tablica kontingencije
Zajednička distribucija
Frekvencije nij tvore zajedničku distribuciju, jer one prikazuju distribuciju statističkih jedinica prema obje
varijable istovremeno.
Zbroj svih zajedničkih frekvencija iznosi n.
Marginalne distribucije
Uvjetne distribucije
Svaki stupac i redak u zajedničkoj distribuciji također predstavlja distribuciju jedinica prema jednoj od
promatranih varijabli, ali uz uvjet da je druga varijabla poprimila određenu vrijednost.
Te distribucije zovu se uvjetne distribucije.
Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.
Relativne frekvencije
Statistička nezavisnost
Varijable su po definiciji statistički nezavisne ako su uvjetne relativne distribucije jednake marginalnoj
relativnoj distribuciji
Frekvencije nij i pij zovu se opažene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu očekivane ili teorijske
frekvencije
Hi-kvadrat
Statistička nezavisnost je vrlo strog zahtjev, koji praktički nikada neće biti ispunjen za realan skup statističkih
podataka.
Svake dvije statističke varijable su manje ili više zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje
opaženih frekvencija od očekivanih.
Upravo tome služi mjera koju zovemo hi-kvadrat, koju označavamo s X2.
Hi kvadrat je uvijek veći od nule.
Što se opažene frekvencije više razlikuju od očekivanih, to će X2 imati veću vrijednost.
Najveća vrijednost X2 zavisi o broju promatranja n i dimenzijama tablice kontingencije.
7
VJ E R O JAT N O ST
Slučajni pokus
Vjerojatnosni prostor
Ishod ili elementarni događaj je rezultat slučajnog pokusa koji se ne može rastaviti na manje dijelove.
Skup svih ishoda zove se prostor ishoda ili prostor elementarnih događaja.
Događaji
Isključivi događaji
Vjerojatnost
Vjerojatnost ili vjerojatnosna mjera je funkcija koja svakom događaju pridružuje realan broj iz intervala [0, 1],
koji izražava mogućnost da događaj nastupi.
Oblici vjerojatnosti:
teorijska - npr. broj povoljnih kroz broj mogućih ishoda,
empirijska - dugoročna relativna frekvencija,
subjektivna - osobno uvjerenje.
Uvjetna vjerojatnost
Uvjetna vjerojatnost događaja B uz uvjet A je vjerojatnost događaja B ako je poznato da je nastupio događaj A.
Nezavisni događaji
8
S LU ČAJ N E VAR I JAB LE I VEKTORI
Slučajna varijabla
Funkcija koja svakom ishodu slučajnog pokusa pridružuje broj zove se slučajna varijabla.
Očekivanje
Varijanca
Bernoullijeva distribucija
Diskretna slučajna varijabla X koja poprima samo vrijednosti 0 i 1 zove se Bernoullijeva slučajna varijabla.
Aditivnost - svojstvo koje kaže da je vjerojatnost unije dva isključiva događaja jednaka zbroju vjerojatnosti tih
događaja.
N O R MALNA DI STR I B UC I JA
Zbroj velikog broja nezavisnih jednako distribuiranih slučajnih varijabli ima približno normalnu
distribuciju (centralni granični teorem).
U Z O R K O V A NJ E
Slučajni uzorak
Da bismo u inferencijalnoj statistici mogli koristiti teoriju vjerojatnosti, uzorak mora biti slučajan.
Uzorak je slučajan ako odluku o tome koje ce statističke jedinice biti uključene u uzorak donosimo na slučajan
način, npr. nasumičnim izvlačenjem listića iz kutije ili generiranjem slučajnih brojeva na računalu.
9
Uzorkovanje
Populacija i parametri
Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to onom koju bismo
dobili kada bismobiz populacije slučajno odabrali jednu statističku jedinicu.
Numeričke osobine populacije zovu se parametri.
Uzorak i statistike
Pod slučajnim uzorkom veličine n podrazumijevamo niz od n nezavisnih jednako distribuiranih slučajnih
varijabli X1, X2,…,Xn, čija je distribucija jednaka distribuciji populacije.
Svaka transformacija slučajnog uzorka Y je također slučajna varijabla, čiju distribuciju vjerojatnosti nazivamo
distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu slučajnu
varijablu nazivamo statistikom.
Zbroj uzorka
Ako populacija ima normalnu distribuciju, onda je zbroj uzorka također normalno distribuiran.
Ako populacija nema normalnu distribuciju, onda je zbroj uzorka približno normalno distribuiran kad je uzorak
velik.
Ako populacija ima normalnu distribuciju, onda je aritmetička sredina uzorka također normalno distribuirana.
Ako populacija nema normalnu distribuciju, onda je aritmetička sredina uzorka približno normalno
distribuirana kad je uzorak velik.
Varijanca uzorka
Ako je populacija normalna, onda su aritmetička sredina i varijanca nezavisne slučajne varijable.
P R O C J E NJ I V A NJ E P A R A M E T A R A
10
Konzistentnost
Za procjenitelj kažemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra tezi k 1
kada veličina uzorka n tezi k +∞
Prostor parametra
Intervali povjerenja
Intervalni procjenitelj ili interval povjerenja parametra θ je interval čije granice V i W mogu zavisiti o
slučajnom uzorku, ali ne i o nepoznatim parametrima.
Ako su obje granice intervala C slučajne, onda za C kažemo da je dvosmjerni ili dvostrani interval
povjerenja.
Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra, onda za V
kažemo da je donja granica povjerenja za θ, a interval C nazivamo gornjim intervalom povjerenja.
Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.
Pivot
Pivot je slučajna varijabla koja zavisi o slučajnom uzorku X1,X2,…,Xn i parametru θ, ali čija distribucija
vjerojatnosti ne zavisi o θ.
T E S T I R A NJ E H I P O T E Z A
Statistička hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u kojemu pomoću
uzorka provjeravamo je li istinita ili lažna.
11
5. Provesti uzorkovanje i izračunati vrijednost test statistike.
6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.
Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom, a drugu
alternativnom hipotezom.
Kao nul hipotezu uglavnom biramo tvrdnju za koju želimo pokazati da je lažna, dok tvrdnju za koju bismo
htjeli pokazati da je istinita stavljamo u alternativnu hipotezu.
Nul hipoteza obično označava početno stanje, izostanak učinka ili nepotrebnost poduzimanja neke aktivnosti, a
alternativna hipoteza tvrdi da je došlo do promjene, da postoji učinak ili da je potrebno nešto poduzeti.
Razina značajnosti
Najveća vjerojatnost pogreške odbacivanja zove se razina značajnosti ili signikantnosti testa i označava se s α
Odluku o tome koliko će iznositi donosimo uzimajući u obzir posljedice pojedinih pogreški i činjenicu da
smanjivanjem vjerojatnosti pogreške jednog tipa nužno povećavamo vjerojatnost pogreške drugog tipa.
12