Professional Documents
Culture Documents
Statistika Sazetak Formule PDF
Statistika Sazetak Formule PDF
1. Deskriptivna statistika
Aritmetika sredina brojeva x1, x2,...,xn :
x + x 2 + ... + x n
x= 1
n
Na primjer, aritmetika sredina brojeva 1,2,3,4,5 je broj
1 + 2 + 3 + 4 + 5 15
=
= 3.
5
5
PAO:=
| x1 x | + | x 2 x | +...+ | x n x |
n
( s ' ) 2 :=
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
n
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
n
s2 : =
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
n 1
s:=
( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2
.
n 1
2 2
1 1
2 1
1 1
Vidimo da frekvencije variraju iako imaju i opi trend prema opadanju. To bi jo izrazitije
bilo da smo stavili frekvencije 0 za brojeve od 1 do 30 koji se ne pojavljuju.
(IV) Grupirajmo podatke u razrede duljine 5:
0.5 - 5.5
15.5 20.5
20.5 25.5
25.5 30.5
11
Vidimo da, nakon ovakvog grupiranja, frekvencije razreda opadaju, to se dobro vidi i iz
histograma. To je jedan od najvanijih razloga grupiranja.
(V) Odredimo, najmanji podatak, najvei podatak i raspon:
min = 1
max = 30
raspon = max min = 30-1 = 29.
(VI) Odredimo medijan i aritmetiku sredinu i unaprijed procijenimo njihov odnos.
Odredimo kvartile.
S obzirom da su podatci vie grupirani na poetak, medijan je manji od aritmetike sredine.
Kako je n = 40, medijan je aritmetika sredina 20-og i 21-og podatka. Dakle:
8 + 10
=9
Medijan =
2
458
= 11.45 (zaista je medijan manji).
Aritmetika sredina, x =
40
Prvi kvartil: q1 = 4.5
Drugi kvartil (medijan): q2 = 9
Trei kvartil: q3 = 17
(VII) Odredimo varijancu i standardnu devijaciju te korigiranu varijancu i korigiranu
standardnu devijaciju uzorka.
Varijanca: (s')2 = 63.1975
Standardna devijacija: s' = 7.9497 (na 4 decimale)
Korigirana varijanca: s2 = 64.8179 (na 4 decimale)
Korigirana standardna devijacija: s = 8.0510 (na 4 decimale).
Kaemo da podatci imaju zvonoliku distribuciju ako za histogram frekvencija (ili relativnih
frekvencija, svejedno) vrijedi:
(N1) Povrina je koncentrirana oko aritmetike sredine.
(N2) Povrina je priblino simetrino rasporeena lijevo i desno od aritmetike sredine
(N3) Povrine rastu odprilike do aritmetike sredine, potom padaju.
Uz ove uvjete histogram (odnosno pripadna krivulja) ima zvonolik oblik. Praksa pokazuje da
takav oblik imaju histogrami distribucija kod velikih uzoraka, pri mjerenju mnogih
statistikih fenomena (statistikih obiljeja), poput mase, visine, postotka elementa koji se
moe nekom tehnolokom metodom izdvojiti iz neke rudae, grjeaka pri mjerenju,
kvocijenta inteligencije itd. Za takva statistika obiljeja uoeno je sljedee empirijsko
pravilo:
U intervalu < x - s', x + s' > ima oko 68% podataka, tj. oko 2/3 podataka (povrine
histograma)
U intervalu < x - 2s', x + 2s' > ima oko 95% podataka (povrine histograma)
U intervalu < x - 3s', x + 3s' > su gotovo svi podatci (gotovo itava povrina).
2. Procjenjivanje.
Neka je X sluajna varijabla.
Oekivanje E(X) procjenjujemo aritmetikom sredinom podataka
x=
x1 + x 2 + ... + x n
n
( x1 x ) 2 + ... + ( x n x ) 2
,
n 1
(u nazivniku je n-1, a ne n)
( x1 x ) 2 + ... + ( x n x ) 2
.
n 1
,x+2
>
n
n
Smisao intervala pouzdanosti nije da se oekivanje u njemu nalazi s vjerojatnou 0.95
(naime nije sluajna veliina i nalazi se ili ne nalazi u tom intervalu). Taj se smisao moe
interpretirati na primjer tako da bi se odprilike u 95 od 100 ponavljanja ovih n mjerenja,
aritmetika sredina x nala u intervalu
<2
,+2
< x zp
,x+2
, x + zp
>
n
n
gdje je zp takav realni broj, za kojega vrijedi P(T>zp) = p, zj. broj iza kojega je povrina
ispod grafa funkcije gustoe jedinine normalne razdiobe jednaka p.
Veliina x =
Testiranje hipoteze
= 0
(t-test)
5
x 0
moemo interpretirati kao sluajnu
s
n
vrijednost sluajne varijable t(n-1) (ta se razdioba zove test-statistika).
Postupak opisujemo uz kontrahipotezu 0 , dakle imamo:
(I)
H0: = 0
Ha: 0
1. Raunamo t exp =
x 0
.
s
n
2. Biramo nivo signifikantnosti (razinu znaajnosti) to je obino 0.05 Znaenje nivoa
signifikantnosti je : = P(H0 odbacujemo| H0 je istinita).
Taj se broj zove i pogrjeka prve vrste.
4. Ako je je |texp| < t0 hipotezu prihvaamo, inae je odbacujemo. Podruje izmeu kritine
vrijednosti i njoj suprotne <-t0, t0> zovemo podrujem prihvaanja (kritino podruje),
ostatak je podruje odbacivanja. Smisao je u tome, to hipotezu prihvaamo ako texp upadne
u podruje prihvaanja, inae je odbacujemo.
Ovaj test zovemo dvostrukim, naziv moemo tumaiti tako to se podruje odbacivanja od
dvaju simetrinih dijelova. Naime, tu podruje odbacivanja ima dva simetrina dijela, svaki
povrine
Kontrahipotezu 0 koristimo u pravilu onda ako su neki podatci iz uzorka manji, a neki
vei od deklarirane vrijednosti 0 .
(II).
H0: = 0
Ha: > 0
Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili veina od njih) vei
od 0 .
1. korak je kao i u (I).
2. Tu je t0 = t (k) , P( t(k) > t0) =
(a ne
kao u (I)):
2
3. Ako je texp < t0 , hipotezu prihvaamo, inae je odbacujemo.
Dakle, podruje prihvaanja je < , t 0 >, a odbacivanja < t 0 , + >.
Ovo je primjer jednostrukog testa (podruje odbacivanja je od jednoga dijela).
(III).
H0: = 0
Ha: < 0
Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili veina od njih)
manji od 0 .
Postupak je slian onome iz (II), samo to je podruje prihvaanja <- t 0 , + >.
Testiranje hipoteze
1 = 2
(t-test).
Tom testu u pravilu predhodi F-test. Nakon to taj proe nastavlja se s t-testom (testiranju
oekivanja), tj. s testiranjem hipoteze:
H0: 1 = 2 (nulta hipoteza)
Hipoteza se, primjenom t-testa, provodi se slino kao kod = 0 (razlika je samo u prvom
koraku).
1. Izrauna se:
t exp =
x1 x 2
(n1 1) s12 + (n 2 1) s 22
n1 + n 2 2
n1 + n 2
n1 n 2
(n1 1) s12 + (n 2 1) s 22
n1 + n2 2
n1 + n 2
n1 n2
3. Prihvati se neki nivo signifikantnosti (obino =0.05, ali moe i =0.01 ili =0.1)
Smisao nivoa signifikantnosti u testiranju je, kao i inae, sljedei:
P(Postavljena se hipoteza odbacuje| postavljena je hipoteza istinita) = .
4. Iz tablica t-razdiobe izrauna se kritina vrijednost pomou koje odredjujemo upada li
izraunata vrijednost texp u kritino podruje. Kritina vrijednost ovisi o nivou
signifikantnosti , o broju stupnjeva slobode (dakle o broju mjerenja), ali i o naoj
kontrahipotezi koja moe biti:
a) 1 2 (kad testiramo jesu li te dvije veliine jednake ili razliite). Tada kritina
vrijednost t0 ima znaenje: P(|t|>t0) = , gdje t oznaava Studentovu (t-razdiobu).
Hipotezu prihvaamo ako je |texp|<t0 (inae je odbacujemo).
Ako izriito drukije ne kaemo uvijek smatramo da je kontrahipoteza takva.
b) 1 > 2 (koja ima smisla samo ako je x1 > x 2 , iako se moe provoditi i inae) .
Tada kritina vrijednost t0 ima znaenje: P(t>t0) = (t0 je drukiji od onog iz a)).
Hipotezu prihvaamo ako je texp<t0, inae je odbacujemo.
c) 1 < 2 (koja ima smisla samo ako je x1 < x 2 , iako se moe provoditi i inae) .
Tada kritina vrijednost t0 takodjer ima znaenje: P(t>t0) = .
Hipotezu prihvaamo ako je texp > - t0, inae je odbacujemo.
2 - test.
Rezultate mjerenja sluajne varijable zapiemo u tablicu tako da u gornji redak stavljamo
postignute rezultate podijeljene u L razreda: nulti, prvi,...,(L-1)-ti , a u donji frekvencije fi tih
razreda.
Iz predpostavke o teoretskoj distribuciji izraunaju se pripadne teoretske frekvencije (u lekciji
je to pokazano za Poissonovu distribuciju).
Hipoteza je da se podatci ravnaju prema teoretskoj distribuciji.
Postupak se provodi ovako:
1. Raunanje broja hikvadrat eksperimentalno koji je mjera udaljenosti
eksperimentalnih i teoretskih frekvencija.
( f L 1 f t , L 1 ) 2
( f 0 f t 0 ) 2 ( f 1 f t1 ) 2
2
exp :=
+
+ ... +
ft0
f t1
f t , L 1
2. Odreivanje broja stupnjeva slobode: k=L-1-l
gdje je l broj parametara teoretske razdiobe (za Poissonovu i eksponencijalnu l=1, za
normalnu i binomnu l=2), i nivoa signifikantnosti (u pravilu =0.05).
3. Odreivanje kritine vrijednosti 2 (k ) koja ima znaenje
P( 2 (k ) > 2 (k ) ) = ,
gdje je 2 (k ) hikvadrat razdioba s k stupnjeva slobode (to je test-statistika).
2
4. Hipotezu prihvaamo ako je exp
< 2 (k )
n xi y i xi y i
n x ( xi )
2
i
x y x x y
b=
n x ( x )
2
i
2
i
n xi y i xi y i
n xi2 ( xi ) 2 n y i2 ( yi ) 2