Statistika – sažetak i popis formula

1. Deskriptivna statistika
Aritmetička sredina brojeva x1, x2,...,xn : x + x 2 + ... + x n x= 1 n Na primjer, aritmetička sredina brojeva 1,2,3,4,5 je broj

1 + 2 + 3 + 4 + 5 15 = = 3. 5 5

Frekvencija nekog podatka je broj pojavljivanja tog podatka. Na primjer, za podatke 1,1,2,2,2,3,4 broj 1 ima frekvencioju 2, broj 2 frekvenciju 3, a brojevi 3 i 4 po frekvenciju 1.

Ako podatke grupiramo u razrede, onda slično definiramo frekvencije razreda. Relativna frekvencija (podatka ili razreda), po definiciji je kvocijent obične frekvencije i ukupnog broja podataka. Zato je zbroj relativnih frekvencija jednak 1.
Medijan skupa podataka je srednji podatak ako je broj podataka neparan, a aritmetička sredina dvaju srednjih ako je broj podataka paran.

Na primjer, za podake 1,2, 4, 11, 13 medijan je 4 (srednji podatak), 4+7 a za podatke 1,2,4,7,11,13 medijan je = 5.5 (aritmetička sredina 3. i 4. podatka) 2
Raspon podataka x1, x2,...,xn poredanih prema veličini je razlika xn-x1 najvećeg i najmanjeg podatka.

Na primjer, raspon podataka 1,1,2,2,3,11,64 je 64-1=63
Kvartili dijele podatke u četiri jednakobrojne skupine. Prvi ili donji kvartil je broj od kojega je 25% podataka manje ili je njemu jednako. Drugi je kvartil medijan. Treći ili gornji kvartil je broj od kojega je 75% podataka manje ili je njemu jednako. Mjere rasipanja (disperzije) podataka. 1. Suma apsulutnih vrijednosti odstupanja podataka od aritmetičke sredine:

SAO:= |x1- x |+|x2- x |+...+|xn- x |.
2. Prosječno apsolutno odstupanje od aritmetičke sredine:

PAO:=

| x1 − x | + | x 2 − x | +...+ | x n − x | n

1

. 4. 20. umjesto n ima n-1. 23. 15. 8.5 – 20. 3. 3. (IV) Grupirajmo podatke u razrede duljine 5: 0. + ( x n − x ) 2 n 4. 23. (II) Poredajmo podatke prema veličini (od manjeg prema većem): 1. 19. 6. 7.5 15. 4.6. 8.5 – 25. 3..5. 30.. 12. 6. 5. 10. kojom se procjenjuje standardna devijacija populacije: s:= ( x1 − x ) 2 + ( x 2 − x ) 2 + . 22.5 2 . 2. 14. Primjer 9. 1. 14.. 25. 20. 27.5 20. 7. + ( x n − x ) 2 n −1 (razlikuje se po tome što u nazivniku. 16. 20. dakle n = 40. a u oznaci što nema crtice). 3. 6. 8. 4. 14.. 3. 18. 27. 18. Mjerenjem vremena između dviju uzastopnih poruka pristiglih na neku adresu dobiveni su sljedeći podatci (u sekundama): 12. 30. 10. Standardna devijacija uzorka s' je drugi korijen iz varijance uzorka: s':= ( x1 − x ) 2 + ( x 2 − x ) 2 + . 6. (III) Napravimo tablicu frekvencija: 1 2 3 4 5 6 7 8 10 12 13 14 15 16 18 19 20 22 23 24 25 27 30 2 2 3 3 2 3 2 3 1 2 1 2 2 2 1 1 2 1 1 1 1 1 1 Vidimo da frekvencije variraju iako imaju i opći trend prema opadanju.3.. 2. 25. 8. 1. 16. korigirana standardna devijacija uzorka s. 12. 12. 20. (I) Prebrojimo podatke. 19.. 22. n −1 Dosadašnje pojmove ilustriramo Primjerom 9. + ( x n − x ) 2 n 5. 3. 1. 15. 16. 15. 13.5 5. 6. 8. Korigirana varijanca (nepristrana procjena varijance populacije) s2 : = ( x1 − x ) 2 + ( x 2 − x ) 2 + .5 – 30. 2.5 10. 4. iz lekcije: Deskriptivna statistika. 5.5 – 10. + ( x n − x ) 2 . 8. 5. 5. Varijanca uzorka ( s ' ) 2 definira se kao prosječno kvadratno odstupanje od prosjeka: ( s ' ) 2 := ( x1 − x ) 2 + ( x 2 − x ) 2 + . 16. 7.5 . 14. 4. 13.6. 7. 4. 15.. Vidimo da ih ima 40. To bi još izrazitije bilo da smo stavili frekvencije 0 za brojeve od 1 do 30 koji se ne pojavljuju. 2.5 25. 24.5 – 15.

1975 Standardna devijacija: s' = 7. To je jedan od najvažnijih razloga grupiranja. Kažemo da podatci imaju zvonoliku distribuciju ako za histogram frekvencija (ili relativnih frekvencija. Varijanca: (s')2 = 63. medijan je aritmetička sredina 20-og i 21-og podatka. potom padaju.9497 (na 4 decimale) Korigirana varijanca: s2 = 64.11 9 7 6 4 2 Vidimo da. nakon ovakvog grupiranja. Praksa pokazuje da takav oblik imaju histogrami distribucija kod velikih uzoraka. poput mase. svejedno) vrijedi: (N1) Površina je koncentrirana oko aritmetičke sredine. Odredimo kvartile. pri mjerenju mnogih statističkih fenomena (statističkih obilježja). najveći podatak i raspon: min = 1 max = 30 raspon = max – min = 30-1 = 29. x = 40 Prvi kvartil: q1 = 4. Za takva statistička obilježja uočeno je sljedeće empirijsko pravilo: 3 . Aritmetička sredina. (VI) Odredimo medijan i aritmetičku sredinu i unaprijed procijenimo njihov odnos.8179 (na 4 decimale) Korigirana standardna devijacija: s = 8. postotka elementa koji se može nekom tehnološkom metodom izdvojiti iz neke rudače.0510 (na 4 decimale). medijan je manji od aritmetičke sredine. Dakle: 8 + 10 =9 Medijan = 2 458 = 11. frekvencije razreda opadaju.5 Drugi kvartil (medijan): q2 = 9 Treći kvartil: q3 = 17 (VII) Odredimo varijancu i standardnu devijaciju te korigiranu varijancu i korigiranu standardnu devijaciju uzorka. što se dobro vidi i iz histograma. S obzirom da su podatci više grupirani na početak. visine. najmanji podatak. Kako je n = 40. grješaka pri mjerenju. kvocijenta inteligencije itd. Uz ove uvjete histogram (odnosno pripadna krivulja) ima zvonolik oblik. Empirijsko pravilo za zvonolike distribucije frekvencija.45 (zaista je medijan manji). (V) Odredimo. (N2) Površina je približno simetrično raspoređena lijevo i desno od aritmetičke sredine (N3) Površine rastu odprilike do aritmetičke sredine.

2·s'. n −1 (u nazivniku je n-1. Očekivanje procjenjujemo aritmetičkom sredinom podataka. a ne n) Standardnu devijaciju s(X) procjenjujemo izrazom s = ( x1 − x ) 2 + . Taj se smisao može interpretirati na primjer tako da bi se odprilike u 95 od 100 ponavljanja ovih n mjerenja. interval pouzdanosti (odprilike) > n n Smisao intervala pouzdanosti nije da se očekivanje µ u njemu nalazi s vjerojatnošću 0.U intervalu < x . n −1 2. Označimo E(X)= µ i V(X) = σ 2 . x + 2·s' > ima oko 95% podataka (površine histograma) U intervalu < x . x + s' > ima oko 68% podataka. 1. + ( x n − x ) 2 . oko 2/3 podataka (površine histograma) U intervalu < x . Tada je. aritmetička sredina x našla u intervalu <x−2 σ .x+2 σ 4 . x + 3·s' > su gotovo svi podatci (gotovo čitava površina). Neka je X slučajna varijabla. Procjenjivanje... Postupak određivanja intervala pouzdanosti. Očekivanje E(X) procjenjujemo aritmetičkom sredinom podataka x= x1 + x 2 + .. + ( x n − x ) 2 . 2.. Ako je X normalno distribuirana i ako je poznata standardna devijacija σ .95 (naime µ nije slučajna veličina i nalazi se ili ne nalazi u tom intervalu)..3·s'. Interval pouzdanosti za očekivanje – prava vrijednost mjerene veličine. biti očekivanje µ .. + x n n Varijancu V(X) procjenjujemo izrazom s2 = ( x1 − x ) 2 + . tj. uz 95% vjerojatnost. To je interval pouzdanosti. bez obzira je li X normalno distribuirana. Zato nas zanima interval oko x unutar kojega će.s'. uz određenu sigurnost. ali aritmetička sredina ne mora biti (i u pravilu nije) jednaka (nepoznatom) očekivanju.

za vjerojatnost 0. onda je t(n-1) praktično jednaka jediničnoj normalnoj razdiobi. x + zp ⋅ σ σ Testiranje hipoteze µ = µ0 (t-test) 5 . P(t(k) > tp(k) ) = p Ako je n dovoljno velik. pa možemo umjesto Studentove razdiobe koristiti jediničnu normalnu. Naravno. recimo oko 30. a ne samo za 0.95 .> (što bismo mogli provjeriti da znamo µ i σ ).95. Tada možemo postupiti kao u 1. Takodjer. n<30. to je nepotrebno.96. tj. 2. n n gdje je t(n-1) Studentova razdioba s k=n-1 stupnjeva slobode.µ+2 σ σ σ < x − zp ⋅ σ . 3. gdje je n broj n mjerenja (duljina uzorka). mogli bismo u tablici jedinične normalne razdiobe T (ili odgovarajućoj proceduri u Excelu ili Mathematici) naći precizniji podatak: 1. U praksi smo gotovo uvijek prisiljeni procijeniti σ pomoću s. Općenito je interval pouzdanosti za vjerojatnost 1-2p. ako se služimo određenim statističkim paketom. a značenje broja tp(k) je sljedeće: P(|t(k)| > tp(k) ) = 2p.95 Slično bismo mogli odrediti simetrične intervale oko aritmetičke sredine za druge vjerojatnosti. problem se može riješiti. tj. Veličina σ x = koja se tu pojavljuje zove se standardna grješka. tada interval pouzdanosti dobijemo izravno. Naime.x+2 > n n gdje je zp takav realni broj. iako nije nemoguća. Treba napomenuti da je predpostavka da znamo σ (a da µ procijenjujemo iz n mjerenja) nerealna. x + t p (k ) >.96) = 0. uz vjerojatnost 1-2p: s s < x − t p (k ) . Tada se situacija usložnjava. zj. P(|T|<1. medjutim za parametre normalne razdiobe. a σ nepoznat – procjenjujemo ga pomoću s (postupak korektan za sve n) Tada je interval pouzdanosti. broj iza kojega je površina ispod grafa funkcije gustoće jedinične normalne razdiobe jednaka p. <µ−2 σ . X je normalno distribuirana. a X ne mora biti normalno distribuirana. očekivanje µ našlo u > (što bismo opet mogli provjeriti da znamo µ i σ ). jednak intervalu < x − 2 . n n a to je isto kao da kažemo da bi se odprilike u 95 od 100 ponavljanja. za kojega vrijedi P(T>zp) = p. Ako je n velik (obično se uzima ako je n>30). ako predpostavimo da je X normalno distribuirana. n n Umjesto broja 2. i ako je poznata standardna devijacija σ .

broj t0. Napominjemo da bismo prije toga trebali provjeriti hipotezu o bliskosti varijanca (koju treba formulirati).05. ako drukčije ne specificiramo µ ≠ µ 0 ). tj. To je zato što je kontrahipoteza oblika µ ≠ µ 0 . što hipotezu prihvaćamo ako texp upadne u područje prihvaćanja. Naime. i kontrahipotezi koja je.Predpostavimo da je X normalno distribuirana slučajna veličina s očekivanjem µ i varijancom σ 2 . 2 pa se dopuštaju otkloni na obje strane. 2 4. označava broj iza kojega je ispod grafa t-razdiobe površina jednaka 0.025. Ovaj test zovemo dvostrukim. inače je odbacujemo. s n 2. svaki površine . ostatak je područje odbacivanja. U tablici t-razdiobe određujemo kritičnu vrijednost t0 (ovisno o broju stupnjeva slobode k=n-1. gdje je α nivo signifikntnosti . Testiranje se zasniva na činjenici da broj x − µ0 možemo interpretirati kao slučajnu s n vrijednost slučajne varijable t(n-1) (ta se razdioba zove test-statistika). α 6 . s 2 za njenu varijancu σ 2 . gdje je µ 0 neka deklarirana vrijednost. inače je odbacujemo. dakle imamo: (I) H0: µ = µ 0 Ha: µ ≠ µ 0 1. u slučaju α =0. Dakle. Područje između kritične vrijednosti i njoj suprotne <-t0. t0> zovemo područjem prihvaćanja (kritično područje). Postupak opisujemo uz kontrahipotezu µ ≠ µ 0 . Računamo t exp = x − µ0 . Testiramo hipotezu: H0: µ = µ 0 . P(|t(k)|>t0) = α . 3. Smisao je u tome. Ako je je |texp| < t0 hipotezu prihvaćamo. možemo pristupiti testiranju očekivanja. tu područje odbacivanja ima dva simetrična dijela. Značenje kritične vrijednosti: t0 = t α (k). Taj se broj zove i pogrješka prve vrste. a nakon što testiranje varijanaca pozitivno prođe. naziv možemo tumačiti tako što se područje odbacivanja od dvaju simetričnih dijelova. Biramo nivo signifikantnosti (razinu značajnosti) α što je obično 0. Neka smo na osnovi n mjerenja dobili procjene: x za njeno očekivanje µ .05 Značenje nivoa signifikantnosti je α : = P(H0 odbacujemo| H0 je istinita).

tj. Ako je texp < t0 . 1.t 0 . + ∞ >. t 0 >. + ∞ >. (II). samo što je područje prihvaćanja <. H0: µ = µ 0 Ha: µ > µ 0 Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili većina od njih) veći od µ 0 . 2. Dakle. provodi se slično kao kod µ = µ 0 (razlika je samo u prvom koraku). H0: µ = µ 0 Ha: µ < µ 0 Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili većina od njih) manji od µ 0 . 7 . primjenom t-testa.Kontrahipotezu µ ≠ µ 0 koristimo u pravilu onda ako su neki podatci iz uzorka manji. područje prihvaćanja je < − ∞. 1. (III). Nakon što taj prođe nastavlja se s t-testom (testiranju očekivanja). korak je kao i u (I). Ovo je primjer jednostrukog testa (područje odbacivanja je od jednoga dijela). Tu je t0 = tα (k) . Odredi se broj stupnjeva slobode k=n1+n2-2. P( t(k) > t0) = α (a ne α Testiranje hipoteze µ1 = µ 2 (t-test). Postupak je sličan onome iz (II). s testiranjem hipoteze: H0: µ 1 = µ 2 (nulta hipoteza) Hipoteza se. a neki veći od deklarirane vrijednosti µ 0 . hipotezu prihvaćamo. kao u (I)): 2 3. a odbacivanja < t 0 . Izračuna se: t exp = x1 − x 2 2 (n1 − 1) s12 + (n 2 − 1) s 2 n1 + n 2 − 2 n1 + n 2 n1 n 2 gdje obično označavamo: s d = 2 (n1 − 1) s12 + (n 2 − 1) s 2 n1 + n2 − 2 n1 + n 2 n1 n2 2. inače je odbacujemo. Tom testu u pravilu predhodi F-test.

Kritična vrijednost ovisi o nivou signifikantnosti α . 4. iako se može provoditi i inače) . + ft0 f t1 f t . gdje je χ 2 (k ) hikvadrat razdioba s k stupnjeva slobode (to je test-statistika). Tada kritična vrijednost t0 ima značenje: P(|t|>t0) = α . iako se može provoditi i inače) . c) µ1 < µ 2 (koja ima smisla samo ako je x1 < x 2 . χ 2 ... Hipotezu prihvaćamo ako je texp > .. inače je odbacujemo. gdje t označava Studentovu (t-razdiobu). ali i o našoj kontrahipotezi koja može biti: a) µ 1 ≠ µ 2 (kad testiramo jesu li te dvije veličine jednake ili različite).. a u donji frekvencije fi tih razreda.(L-1)-ti . Hipotezu prihvaćamo ako je |texp|<t0 (inače je odbacujemo). ( f L −1 − f t . L −1 2. i nivoa signifikantnosti α (u pravilu α =0.1) Smisao nivoa signifikantnosti u testiranju je. b) µ 1 > µ 2 (koja ima smisla samo ako je x1 > x 2 .test. Računanje broja hikvadrat eksperimentalno koji je mjera udaljenosti eksperimentalnih i teoretskih frekvencija. za normalnu i binomnu l=2). Tada kritična vrijednost t0 takodjer ima značenje: P(t>t0) = α . Prihvati se neki nivo signifikantnosti α (obično α =0.05). Hipotezu prihvaćamo ako je texp<t0.3. 2 3. Iz predpostavke o teoretskoj distribuciji izračunaju se pripadne teoretske frekvencije (u lekciji je to pokazano za Poissonovu distribuciju).. Tada kritična vrijednost t0 ima značenje: P(t>t0) = α (t0 je drukčiji od onog iz a)).t0. 2 2 4. Određivanje broja stupnjeva slobode: k=L-1-l gdje je l broj parametara teoretske razdiobe (za Poissonovu i eksponencijalnu l=1. Rezultate mjerenja slučajne varijable zapišemo u tablicu tako da u gornji redak stavljamo postignute rezultate podijeljene u L razreda: nulti.05. ali može i α =0. kao i inače. Hipotezu prihvaćamo ako je χ exp < χ α (k ) 8 . o broju stupnjeva slobode (dakle o broju mjerenja). Određivanje kritične vrijednosti χ α (k ) koja ima značenje 2 P( χ 2 (k ) > χ α (k ) ) = α . Ako izričito drukčije ne kažemo uvijek smatramo da je kontrahipoteza takva. sljedeći: P(Postavljena se hipoteza odbacuje| postavljena je hipoteza istinita) = α . Iz tablica t-razdiobe izračuna se kritična vrijednost pomoću koje odredjujemo upada li izračunata vrijednost texp u kritično područje. Hipoteza je da se podatci ravnaju prema teoretskoj distribuciji.. inače je odbacujemo. prvi.01 ili α =0. L −1 ) 2 ( f 0 − f t 0 ) 2 ( f 1 − f t1 ) 2 2 χ exp := + + . Postupak se provodi ovako: 1.

2 Dakle područje prihvaćanja (kritično područje) je <0. . . onda govorimo da su podatci korelirani (linearno korelirani)..(tada smatramo da udaljenost između eksperimentalnih i teoretskih podataka nije prevelika).. Ako je r blizu 1. Pogrješke druge vrste: β := P(Hipotezu prihvaćamo| Hipoteza je lažna). to je visoka pozitivna.yn) grupirane oko regresijskog pravca.β . veličinu y. Više o tome ima u lekciji. Na osnovi toga govori se da su pripadne veličine x. xn ..y korelirane. dobili podatke x1. (x2. pak.. Ti su se parametri dobili metodom najmanjih kvadrata koja se zasniva na načelu da suma kvadrata razlika eksperimentalnih i teoretskih podataka bude minimalna. + ∞ >. (x2. Ako je. Jakost testa: 1. a ako je blizu -1 to je visoka negativna koreliranost. najbolje ovim podatcima odgovara onaj s parametrima a= n∑ xi y i − ∑ xi ∑ y i n ⋅ ∑ x − ( ∑ xi ) 2 i 2 ..y2). Geometrijski to znači da regresijski pravac najmanje odstupa od početnih točaka.. (xn.y2). onda te podatke možemo shvatiti kao n uređenih parova: (x1. 9 . : Metoda najmanjih kvadrata i koeficijent regresije Ako smo mjerenjem dviju zavisnih veličina... ∑x ∑ y −∑x ∑x y b= n ⋅ ∑ x − (∑ x ) 2 i i i i i 2 i 2 .. za prvu od njih – veličinu x. i Dobiveni pravac s jednadžbom y = ax+b zove se regresijski pravac. Općenito kod testiranja imamo ove nazive Pogrješka prve vrste: α : = P(Hipotezu odbacujemo| Hipoteza je istinita). r blizu nule koreliranost je vrlo niska.. Razina koreliranosti mjeri se koeficijentom korelacije r := n∑ xi y i − ∑ xi ∑ y i n∑ xi2 − (∑ xi ) 2 ⋅ n∑ y i2 − (∑ yi ) 2 Taj je broj između -1 i 1. x2.. inače je odbacujemo. (xn.y1). a područje odbacivanja 2 < χ α (k ) . a za drugu. χ α (k ) >.yn) koje geometrijski možemo predočiti kao n točaka ravnine.y1). Ako su točke (x1. y2.. yn. korespondirajuće podatke y1. Tada među svim pravcima s jednadžbom y = ax+b.

Sign up to vote on this title
UsefulNot useful