Professional Documents
Culture Documents
Populacija se sastoji od skupa individua ili individualnih objekata određenog tipa. Primjer:
ako skuplajmo podatke o visini djece do 6 godina, populaciju predstavljaju sva djeca do 6
godina. Nije moguće ispitati sve pa uzimamo samo uzorak, odnosno podskup populacije.
Skupljanje podataka
Podatke možemo skupljati eksperimentalno ili opažanjem.
Moda
(Aritmetička sredina) Neka je dat niz opažanja uzorka x , x
1 , x
2 , … x
3 moda je definisana sa
n
X = (x + x
1 + x
2 + … + x
3 ) / n. Aritmetička sredina je jednostavno numerički prosjek.
n
Medijana
Neka je dat niz x , x
1 , x
2 , … x
3 u rastućem redoslijedu. Medijana je definisana sa:
n
X = x za n
(n+1)/2 neparno
X = ½ * (x n/2 + x ) za n
(n+2)/2 parno
Varijansa
Kod varijanse podaci mogu varirati malo ili mnogo. Rang uzorka se računa kao X X
max min.
Za izmjerenu vrijednost u uzorku x , x
, … x
1 2 varijansa je definisana sa:
n
2 2
s = sum(x x)
i / (n 1) *napomena [ x u zagradi predstavlja modu ]
Standardna devijacija
2
Standardna devijacija se predstavlja kao s = sqrt(s )
i mjeri kvadrat odstupanja od
aritmetičke sredine.
Stepen slobode
Stepen slobode računamo kao v = n1.
Vrste vrijednosti
Vrijednosti mogu biti diskretne i kontinualne.
Frekvencija iste vrijednosti
U proračunima gdje se iste vrijednosti više puta ponavljaju koristi se frekvencija,
tj. broj
ponavljanja iste vrijednosti.
Grafičko predstavljanje podataka
Graf, histogram, histogramrelativna frekvencija.
Eksperiment
U statistici, eksperiment je bilo koji proces koji proizvodi skup podataka. Prilikom izvođenja
eksperimenta možemo imati konačno mnogo ili beskonačno mnogo ishoda.
Ako je on konačan,pišemo ga kao skup sa
Skup S je skup svih mogućih ishod statističkog eksperimenta. ishodima odvojenim zarezom
Presjek događaja A i B je skup elemenata iz S koji se nalaze i u skupu A i u skupu B.
Događaj je podskup skupa ishoda. Unija A i B je skup elem.koji se nalaze ili u A ili u B ili u oba skupa. Komplement od A
u oznaci A' je podskup elemenata iz S koji nisu u A. Ako se događaji ne mogu desiti u
isto vrijeme kažemo da su uzajamno isključivi ili disjunktni.
Prvi fundamentalni pricnip prebrojavanja
Ako se operacija 1 može izvesti na n načina, operacija 2 može izvesti na n
1 načina i
2
operacija k može izvesti na n načina, onda se operacije 1, 2, …, k mogu izvesti na n
k * n
1 *
2
… * n načina.
k
Permutacija
Permutacije je utvrđivanje redoslijeda u skupu objekata.
Br.permutacija od n objekata je n!. Ako od n objekata tražimo mogući redoslijed ali samo od r objekata dolazimo do pojma
varijacije,imamo: n!/(n-r)!. Cirkularne permutacije (n-1)!
Broj načina da n objekat smjestimo u r ćeliju gdje je n objekat u prvoj ćeliji, n
1 objekat u
2
drugoj ćeliji itd. gdje je n + n
1 + … + n
2 = n je:
r
Uslovna distribucija slučajne promjenljive X uz zadano Y = y je:
Statistička nezavisnost
Neka su X i Y dvije slučajne promjenljive sa zajedničkom funkcijom distribucije f(x,y) i
marginalnim distribucijama g(x) i h(y). Za X i Y kažemo da su statistički nezavisne ako vrijedi
f(x,y) = g(x) * h(y) za sve vrijednosti (x,y) unutar ranga. (Ako postoji bar jedan par (x,y) za
koje ovo ne vrijedi, tada kažemo da X i Y nisu statistički nezavisne.)
Matematičko očekivanje
Neka je X slučajna promjenljiva sa distribucijom f(x). Očekivana vrijednost od X je
μ = E(x) = sum(x * f(x)) kada je x diskretna
μ = E(x) = ∫ x * f(x) dx kada je x kontinualna [u granicama od ∞ do +∞]
Matematičko očekivanje g(x)
Neka je X slučajna promjenljiva sa distribucijom f(x), a g(x) druga slučajna promjenljiva koja
zavisi od X. Očekivana vrijednost od X je
μ = E(g(x)) = sum(g(x) * f(x)) kada je x diskretna
μ = E(g(x)) = ∫ g(x) * f(x) dx kada je x kontinualna [u granicama od ∞ do +∞]
Matematičko očekivanje dvije slučajne varijable X i Y
Neka su X i Y dvije slučajne varijable sa distribuicijom f(x,y). Moda ili očekivana vrijednost od
funkcije g(x,y) je
μ = E(g(x,y)) = sum(g(x,y) * f(x,y)) kada je x diskretna
μ = E(g(x,y)) = ∫ g(x,y) * f(x,y) dx kada je x kontinualna [u granicama od ∞ do +∞]
Varijansa slučajne promjenljive
2
Raspršenost slučajne promjenljive X se najčešće mjeri sa očekivanjem od g(x) = (x μ) koje
nazivamo varijansa var(x).
Standardna devijacija od X
Pozitivni korijen od varijanse naziva se standardna devijacija od X
Devijacija opažanja
Vrijednost X μ naziva se devijacija opažanja X od mode μ.
2 2
Varijansa slučajne promjenljive x je var(x) = E(x) μ
Kovarijansa
Posmatramo dvije slučajne varijable X i Y sa modama μ i μ
x . Definišimo dalje da je
y
g(x,y) = (x μ)(y μ
x ) iz ovog slijedi da je očekivanje g(x,y) pozitivno ako je dosta parova
y
(x,y) skupa veće ili manje od očekivanih vrijednosti.
Ako je dosta parova suprotnog predznaka, očekivanje g(x,y) je negativno. Ako je otprilike isti
broj parova u obje kategorije, očekivanje g(x,y) je blizu nule.
Ako su X i Y nezavisne, tada je g(x,y) = 0.
Neka su X i Y slučajne promjenljive sa zajedničkom distribucijom f(x,y). Kovarijansa od X i Y:
Neka su X i Y slučajne varijable sa kovarijansom i standardnim devijacijama s i s
1
2
korelacijski koeficijent od X i Y definisan je sa:
Čebišljev teorem
Vjerovatnoća da slučajna promjenljiva ima vrijednost standardnih devijacija od očekivanih
2
vrijednosti je veća od 1 (1/k)
Očekivanje i varijansa linearnih kombinacija slučajnih promjenljivih
Teorem 1:
Ako su a i b konstante onda vrijedi da je E(aX + b) = a*E(X) + b
Posljedica:
E(b) = b
E(aX) = a*E(X)
Teorem 2:
Ako imamo dvije slučajne promjenljive X i Y tada vrijedi
E( f(x,y) + g(x,y) ) = E( f(x,y) ) + E( g(x,y) )
Binomijalna i multinomijalna distribucija
Bernulijev proces
Eksperiment se sastoji od ponovljenih pokušaja. Svaki pokušaj ima dva moguća ishoda:
uspjeh i neuspjeh . Vjerovatnoća uspjeha p je konstantna pri svakom pokušaju. Ponovljeni
pokušaji su nezavisni.
P(X = x) = b(x; n, p) [x broj uspješnih ishoda; n broj pokušaja; p vjerovatnća uspjeha]
Zašto se naziva binomna distribucija?
Jer koristimo binomnu formulu.
Matmeatičko očekivanje (moda) i varijansa u bernulijevom procesu
μ = n*p Matematičko očekivanje
2
s = n*p*q Verijansa
Multinomijalna raspodjela
Slična je binomijalnoj, samo što svaki pokušaj može imati više ishoda.
Primjer za multinomijalnu raspodjelu sa kishoda
Hipergeometrijska raspodjela
Kod hipergeometrijske raspodjele pokušaji nisu nezavisni tj. provode se bez zamjene.
Primjer je vađenje iz špila karata.
h(x; N, n, k)
Veza između binomne i hipergeometrijske distribucije
Ako je populacija velika tada se N malo mijenja pa su ove distribucije slične. Vrijednost k/N
ima ulogu vjerovatnoće p u binomnoj distribuciji.
Poisonova distribucija i poisonov proces
X je slučajna veličina koja predstavlja broj pojavljivanja nekog događaja u vremenskom
intervalu ili području.
Poisonov proces nema memoriju, dakle broj pojavljivanja događaja u nekom vremenskom
intervalu ili području ne zavisi od broja pojavljivanja na nekom drugom intervalu ili području.
Vjerovatnoća da će se događaj desiti u nekom malom vremenskom intervalu ili području
proporcionalna je veličini intervala ili područja i ne zavisi od broja događaja van ovog
intervala ili područja.
Vjerovatnoća da će se dva događaja desiti u istom vremenskom intervalu ili na istom
području je zanemariva
Poisonova slučajna varijabla
Broj pojavljivanja je slučajna varijabla X koju nazivamo Poisonova slučajna varijabla i njoj
pridružujemo poisonovu distribuciju.
Uniformna neprekidna distribucija
Uniformna neprekidna distribucija ima jednaku funkciju raspodjele na nekom intervalu [A,B].
Normalna distribucija
Jedna od najvažnijih distribucija i približno opisuje mnoge fenomene u prirodi, sociologiji,
industriji itd.
Grafik je zvonasta kriva koja je u potpunosti određena sa modom i sa
varijansom.
Binomna i normalna raspodjela dobro aproksimiraju jedna drugu. Aproksimacija je dobra ili
za velike n ili za p približno 0,5.
Eksponencijalna raspodjela i veza između Poisonove i eksponencijalne?
Populacija (iz predavanja 8)
Populacija su sva opažanja koja su nam od interesa. Populaciji pripada neka funkcija
raspodjele f(x). Uzorak je podskup populacije.
Statistika
Bilo koja funkcija slučajne promjenljive koju formira uzorak naziva se statistika.
Centralni limit teorem
Ako je X sredina uzorka veličine n od populacije sa matematičkim očekivanje μ i varijansom
2
s tada je distribucija od Z:
Predavanje 9
Potrebno znati matematičko očekivanje, varijansu ili neku drugu vrijednost populacije koja
nam nije poznata. Obzirom da vrijednost nije poznata, uzimamo uzorak i izračunavamo
vrijednost za naš uzorak.
Tako dobijena vrijednost je približna, ali
nije jednaka tačnoj vrijednosti. Kako bismo
procijenili koliko je naša vrijednost dobra koristimo distribuciju.
Bijas
Uzorak koji daje lošu procjenu neke vrijednosti naziva se bijas.
Primjer je kada tražimo prosječnu visinu, a svi naši uzorci su ispodprosječne visine.
Estimacija i estimacijske vrijednosti
Fokus stavljamo na estimaciju/procjenu statitstičkih parametara. Naprimjer, vrijednost x od
X, proračunatog iz uzorka n je estimacijska vrijednost parametra mi
(estimirana/procjenjena vrijednost).
Porast veličine uzorka koji se razmatra dovodi do porasta tačnosti estimiranja, ali to ne
znači da ćemo uspjeti procijeniti tačnu vrijednost za statistički parametar koji razmatramo.
Interval estimacije je interval u kojem očekujemo vrijednost statističkog parametra.
Potrebno je znati odgovarajuće slučajne varijable, obzirom da za različite slučajne
varijable dobijamo uži ili širi
interval estimacije.
Kod procjene je bitno napomenuti da što je veći uzora to je
varijansa manja.
P( < teta <
A ) = 1 α (1)
B
Proračunat interval na osnovu (1) naziva se 100(1 α)% interval povjerenja.
α Koeficijent povjerenja / Stepen povjerenja
Ukoliko je X srednja vrijednost slučajnog uzorka veličine n iz populacije za koju je poznata
2
varijansa s , onda je 100(1 α)% interval povjerenja.
Ako su X i X
1 srednje vrijednosti nezavisnih uzoraka veličina n
2 i n
1 iz raspodjela sa poznatim
2
2 2
varijansama s 1i s
2onda je 100(1 α)% interval pouzdanosti:
U slučaju da su Varijanse različite i nepoznate:
Estimacija proporcije p je binomijalni eksperiment prikazan kao p = X / n [ X broj uspjeha
]
Statistička hipoteza
Tvrdnja, pretpostavka ili postavka koja se odnosi na jednu ili više populacija, a može se ili
prihvatiti ili odbaciti. Tačnost hipoteze ne možemo nikada sa sigurnošću odrediti, osim ako
nismo ispitali cijelu populaciju.
Nulhipoteza
Ona hipoteza koju testiramo i označavamo je sa H 0
Alternativna hipoteza
To je ona koju prihvatamo ukoliko je nulhipoteza H 0 odbačena.
Greška tipa I
Ona se dešava u slučaju kada odbijamo nulhipotezu iako je ona tačna. Vjerovatnoća da
ćemo počiniti grešku tipa I naziva se nivo signifikantnosti α.
Greška tipa II
Ona se dešava u slučaju kada prihavatamo nulhipotezu iako je ona pogrešna. Vjerovatnoća
da ćemo počiniti grešku tipa II je β.
Vjerovatnoća da ćemo počiniti bilo koju od ove dvije greške može se smanjiti povećanjem
uzorka koji posmatramo.
Osobine testiranja hipoteze:
● Vjerovatnoća pojave greške tipa I i II su zavisne. Smanjivanje vjerovatnoće pojave
jedne greške dovodi do povećanja vjerovatnoće pojave druge greške.
● Veličina kritičnog regiona (i vjerovatnoća pojave greške tipa I) može se smanjiti
promjenom kritičnih vrijednosti.
● Povećanje veličine uzorka istovremeno smanjuje I i II.
● Ako je nulhipoteza neispravna, greška tipa II je najveća ako se pretpostavljena
vrijednost približava stvarnoj.
Testovi mogu biti jednostrani i dvostrani .
Pristup testiranju: klasični i alternativni.
Klasični pristup:
1. Utvrditi nul i alternativnu hipotezu
2. Izabrati i fiksirati nivo značaja α
3. Izabrati testnu statistiku i utvrditi kritični interval na osnovu
α
4. Odbaciti nulhipotezu ukoliko je vrijednost testne statistike u uzorku u kritičnom
regionu. U suprotnom je prihvatamo.
5. Donijeti zaključak.
Alternativni pristup:
1. Utvrditi nul i alternativnu hipotezu
2. Izabrati testnu statistiku
3. Izračunati Pvrijednost na osnovu dobivene vrijednosti u uzorku
4. Koristiti dobivenu Pvrijednost i znanje o sistemu da se donese zaključak
Testovi proporcija i varijansi: Jedan uzorak
Imamo binomni eksperiment i broj uspjeha X. Testiramo hipotezu da je proporcija uspjeha
jednaka nekoj zadanoj vrijednosti p = p [p parametar binomne distribucije].
0
Alternativna hipoteza može biti jednostrana ili dvostrana.
H : p
0 = p
0
H : p < p
1 , p > p
0 , p != p
0 0
Odluku baziramo na slučajnoj promjenljivoj X ako je ona daleko od očekivanog np onda
0
hipotezu odbacujemo, u suprotnom je prihvatamo.
X je diskretna pa je zbog toga teško formirati kritičnu regiju. To je razlog zbog kojeg
koristimo Pvrijednot.
Uputsvo iznad vrijedi za dvosmjerni test, dok za jednosmjerni koristimo analogno, samo je
razlika P vrijednost:
Odnosno X <= x, u zavisnosti od alternativne hipoteze.
Testovi proporcija i varijansi: Dva uzorka testiranje dvije proporcije
Testiramo da li su proporcije jednake p = p
1 2 što predstavlja našu nulhipotezu. Alternativne
hipoteze mogu biti p < p
1 ili p
2 > p
1 ili p
2 != p
1 .
2
Testna statistika na osnovu koje donosimo odluku je slučajna varijabla P P
1 . Izaberemo
2
dva uzorka n i n
1 i iz njih izračunamo tražene vrijednosti.
2
Linearna regresija:
U statistici, linearna regresija se odnosi na svaki pristup modeliranju relacija između jedne ili
više varijabli označene sa Y, te jedne ili više varijabli označene sa X. Koristimo metod
najmanjih kvadrata. Ne procjenjujemo cijelu populaciju nego samo uzorak. Pošto su zadane
neke tačke iz populacije(uzorak) mi formiramo liniju. Nepoznate parametre treba naći tako da
je suma apsolutnih grešaka najmanja tj. tako da najbolje opisuje model.