Professional Documents
Culture Documents
Statistika Sazetak Formule PDF
Statistika Sazetak Formule PDF
1. Deskriptivna statistika
Medijan skupa podataka je srednji podatak ako je broj podataka neparan, a aritmetika
sredina dvaju srednjih ako je broj podataka paran.
Raspon podataka x1, x2,...,xn poredanih prema veliini je razlika xn-x1 najveeg i najmanjeg
podatka.
| x1 x | + | x 2 x | +...+ | x n x |
PAO:=
n
1
3. Varijanca uzorka ( s ' ) 2 definira se kao prosjeno kvadratno odstupanje od prosjeka:
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
( s ' ) 2 :=
n
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
s2 : =
n 1
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
s:= .
n 1
Primjer 9. Mjerenjem vremena izmeu dviju uzastopnih poruka pristiglih na neku adresu
dobiveni su sljedei podatci (u sekundama):
12, 8, 1, 7, 24, 4, 4, 6, 20, 10, 3, 2, 22, 23, 8, 6, 5, 25, 16, 3, 1, 14, 15, 18, 2, 6, 27, 19, 12, 4,
20, 14, 3, 13, 8, 15, 30, 5, 7, 16.
1 2 3 4 5 6 7 8 10 12 13 14 15 16 18 19 20 22 23 24 25 27 30
2 2 3 3 2 3 2 3 1 2 1 2 2 2 1 1 2 1 1 1 1 1 1
Vidimo da frekvencije variraju iako imaju i opi trend prema opadanju. To bi jo izrazitije
bilo da smo stavili frekvencije 0 za brojeve od 1 do 30 koji se ne pojavljuju.
0.5 - 5.5 5.5 10.5 10.5 15.5 15.5 20.5 20.5 25.5 25.5 30.5
2
11 9 7 6 4 2
Vidimo da, nakon ovakvog grupiranja, frekvencije razreda opadaju, to se dobro vidi i iz
histograma. To je jedan od najvanijih razloga grupiranja.
Kaemo da podatci imaju zvonoliku distribuciju ako za histogram frekvencija (ili relativnih
frekvencija, svejedno) vrijedi:
Uz ove uvjete histogram (odnosno pripadna krivulja) ima zvonolik oblik. Praksa pokazuje da
takav oblik imaju histogrami distribucija kod velikih uzoraka, pri mjerenju mnogih
statistikih fenomena (statistikih obiljeja), poput mase, visine, postotka elementa koji se
moe nekom tehnolokom metodom izdvojiti iz neke rudae, grjeaka pri mjerenju,
kvocijenta inteligencije itd. Za takva statistika obiljeja uoeno je sljedee empirijsko
pravilo:
3
U intervalu < x - s', x + s' > ima oko 68% podataka, tj. oko 2/3 podataka (povrine
histograma)
U intervalu < x - 2s', x + 2s' > ima oko 95% podataka (povrine histograma)
U intervalu < x - 3s', x + 3s' > su gotovo svi podatci (gotovo itava povrina).
2. Procjenjivanje.
x1 + x 2 + ... + x n
x=
n
( x1 x ) 2 + ... + ( x n x ) 2
s2 = , (u nazivniku je n-1, a ne n)
n 1
( x1 x ) 2 + ... + ( x n x ) 2
Standardnu devijaciju s(X) procjenjujemo izrazom s = .
n 1
4
<2 ,+2 > (to bismo mogli provjeriti da znamo i ),
n n
a to je isto kao da kaemo da bi se odprilike u 95 od 100 ponavljanja, oekivanje nalo u
intervalu < x 2 ,x+2 > (to bismo opet mogli provjeriti da znamo i ).
n n
Umjesto broja 2, za vjerojatnost 0.95, mogli bismo u tablici jedinine normalne razdiobe T (ili
odgovarajuoj proceduri u Excelu ili Mathematici) nai precizniji podatak: 1.96. Naime,
P(|T|<1.96) = 0.95
Slino bismo mogli odrediti simetrine intervale oko aritmetike sredine za druge
vjerojatnosti, a ne samo za 0.95 .
Openito je interval pouzdanosti za vjerojatnost 1-2p, jednak
< x zp , x + zp >
n n
gdje je zp takav realni broj, za kojega vrijedi P(T>zp) = p, zj. broj iza kojega je povrina
ispod grafa funkcije gustoe jedinine normalne razdiobe jednaka p.
Veliina x = koja se tu pojavljuje zove se standardna grjeka, gdje je n broj
n
mjerenja (duljina uzorka).
Ako je n dovoljno velik, recimo oko 30, onda je t(n-1) praktino jednaka jedininoj
normalnoj razdiobi, pa moemo umjesto Studentove razdiobe koristiti jedininu normalnu.
Naravno, ako se sluimo odreenim statistikim paketom, to je nepotrebno. Takodjer, tada
interval pouzdanosti dobijemo izravno.
5
Predpostavimo da je X normalno distribuirana sluajna veliina s oekivanjem
i varijancom 2 .
Neka smo na osnovi n mjerenja dobili procjene:
x za njeno oekivanje ,
s 2 za njenu varijancu 2 .
Testiramo hipotezu:
H0: = 0 ,
gdje je 0 neka deklarirana vrijednost.
Napominjemo da bismo prije toga trebali provjeriti hipotezu o bliskosti varijanca (koju treba
formulirati), a nakon to testiranje varijanaca pozitivno proe, moemo pristupiti testiranju
oekivanja.
x 0
Testiranje se zasniva na injenici da broj moemo interpretirati kao sluajnu
s
n
vrijednost sluajne varijable t(n-1) (ta se razdioba zove test-statistika).
Postupak opisujemo uz kontrahipotezu 0 , dakle imamo:
(I)
H0: = 0
Ha: 0
x 0
1. Raunamo t exp = .
s
n
2. Biramo nivo signifikantnosti (razinu znaajnosti) to je obino 0.05 Znaenje nivoa
signifikantnosti je : = P(H0 odbacujemo| H0 je istinita).
Taj se broj zove i pogrjeka prve vrste.
6
Kontrahipotezu 0 koristimo u pravilu onda ako su neki podatci iz uzorka manji, a neki
vei od deklarirane vrijednosti 0 .
(II).
H0: = 0
Ha: > 0
Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili veina od njih) vei
od 0 .
1. korak je kao i u (I).
2. Tu je t0 = t (k) , P( t(k) > t0) = (a ne kao u (I)):
2
3. Ako je texp < t0 , hipotezu prihvaamo, inae je odbacujemo.
Dakle, podruje prihvaanja je < , t 0 >, a odbacivanja < t 0 , + >.
Ovo je primjer jednostrukog testa (podruje odbacivanja je od jednoga dijela).
(III).
H0: = 0
Ha: < 0
Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili veina od njih)
manji od 0 .
Postupak je slian onome iz (II), samo to je podruje prihvaanja <- t 0 , + >.
Tom testu u pravilu predhodi F-test. Nakon to taj proe nastavlja se s t-testom (testiranju
oekivanja), tj. s testiranjem hipoteze:
Hipoteza se, primjenom t-testa, provodi se slino kao kod = 0 (razlika je samo u prvom
koraku).
1. Izrauna se:
x1 x 2
t exp =
(n1 1) s12 + (n 2 1) s 22 n1 + n 2
n1 + n 2 2 n1 n 2
(n1 1) s12 + (n 2 1) s 22 n1 + n 2
gdje obino oznaavamo: s d =
n1 + n2 2 n1 n2
7
3. Prihvati se neki nivo signifikantnosti (obino =0.05, ali moe i =0.01 ili =0.1)
Smisao nivoa signifikantnosti u testiranju je, kao i inae, sljedei:
P(Postavljena se hipoteza odbacuje| postavljena je hipoteza istinita) = .
4. Iz tablica t-razdiobe izrauna se kritina vrijednost pomou koje odredjujemo upada li
izraunata vrijednost texp u kritino podruje. Kritina vrijednost ovisi o nivou
signifikantnosti , o broju stupnjeva slobode (dakle o broju mjerenja), ali i o naoj
kontrahipotezi koja moe biti:
a) 1 2 (kad testiramo jesu li te dvije veliine jednake ili razliite). Tada kritina
vrijednost t0 ima znaenje: P(|t|>t0) = , gdje t oznaava Studentovu (t-razdiobu).
Hipotezu prihvaamo ako je |texp|<t0 (inae je odbacujemo).
Ako izriito drukije ne kaemo uvijek smatramo da je kontrahipoteza takva.
b) 1 > 2 (koja ima smisla samo ako je x1 > x 2 , iako se moe provoditi i inae) .
Tada kritina vrijednost t0 ima znaenje: P(t>t0) = (t0 je drukiji od onog iz a)).
Hipotezu prihvaamo ako je texp<t0, inae je odbacujemo.
c) 1 < 2 (koja ima smisla samo ako je x1 < x 2 , iako se moe provoditi i inae) .
Tada kritina vrijednost t0 takodjer ima znaenje: P(t>t0) = .
Hipotezu prihvaamo ako je texp > - t0, inae je odbacujemo.
2 - test.
Rezultate mjerenja sluajne varijable zapiemo u tablicu tako da u gornji redak stavljamo
postignute rezultate podijeljene u L razreda: nulti, prvi,...,(L-1)-ti , a u donji frekvencije fi tih
razreda.
Iz predpostavke o teoretskoj distribuciji izraunaju se pripadne teoretske frekvencije (u lekciji
je to pokazano za Poissonovu distribuciju).
Hipoteza je da se podatci ravnaju prema teoretskoj distribuciji.
Postupak se provodi ovako:
8
(tada smatramo da udaljenost izmeu eksperimentalnih i teoretskih podataka nije
prevelika), inae je odbacujemo.
Dakle podruje prihvaanja (kritino podruje) je <0, 2 (k ) >, a podruje odbacivanja
< 2 (k ) , + >.
Ako smo mjerenjem dviju zavisnih veliina, za prvu od njih veliinu x, dobili podatke
x1, x2,..., xn ,
a za drugu, veliinu y, korespondirajue podatke
y1, y2,..., yn,
onda te podatke moemo shvatiti kao n ureenih parova:
(x1,y1), (x2,y2), ... (xn,yn)
koje geometrijski moemo predoiti kao n toaka ravnine.
Tada meu svim pravcima s jednadbom y = ax+b,
najbolje ovim podatcima odgovara onaj s parametrima
a=
n xi y i xi y i
, b=
x y x x y
2
i i i i i
.
n x ( xi )
2
i
2
n x ( x )
2
i i
2
Ako su toke (x1,y1), (x2,y2), ... (xn,yn) grupirane oko regresijskog pravca, onda govorimo da
su podatci korelirani (linearno korelirani). Na osnovi toga govori se da su pripadne
veliine x,y korelirane. Razina koreliranosti mjeri se koeficijentom korelacije
n xi y i xi y i
r :=
n xi2 ( xi ) 2 n y i2 ( yi ) 2