You are on page 1of 17

1

Dora Selei

Statistika uz pomo softvera Statistica 7.1.

Predavanja iz predmeta STATISTIKA za studente smera C3

10. januar 2008.

http://www.im.ns.ac.yu/Personal/selesid/download/StatistikaVezbe.rar

PROBABILITY CALCULATOR
Poznati zakon tri sigme iz teorije verovatnoe tvrdi da za sluajnu promenljivu sa normalnom raspodelom X : N (m, 2 ) vae ocene
P{m X m + } 0.68 P{m 2 X m + 2 } 0.95 P{m 3 X m + 3 } 0.998

Zadatak. Proveriti u Statistici zakon tri sigme. Reenje: U Statistici se moe koristiti Statistics Probability Calculator Probability Distribution Calculator za izraunavanje tablinih vrednosti funkcije raspodele za normalnu raspodelu. Odaberimo raspodelu Z (Normal), ekirajmo kuicu pored Two tailed, unesimo X da je 1, mean 0, st.dev. 1, i izraunavanjem p-vrednosti (povrine rafirane oblasti ispod grafika funkcije gustine) dobijamo 0.682689. Slino, za X jednako 2 dobijamo 0.954500, a za X jednako 3 dobijamo 0.997300. Iste vrednosti se dobiju i ako ostavimo u nestandardizovanom obliku da je mean 100, st.dev. 15, i redom vrednosti X da je 115, 130, 145.

Primedba: mogue je da je Windows nameten tako da se decimalni brojevi piu sa decimalnim zarezom umesto sa decimalnom takom. Proverite stanje na raunaru na kojem radite!

DESCRIPTIVE STATISTICS
Slui za izraunavanje numerikih karakteristika obeleja (srednja vrednost, medijana, mod, varijansa, standardna devijacija, koeficijenti spljotenosti i nagiba i dr.) i za grafiko prikazivanje uzorake raspodele (histogram, pie-chart, box-plot i dr.) Zadatak. Kod 30 seoskih domainstava izvren je popis po broju stabala ljiva i dobijeni su podaci 6, 13, 9, 14, 10, 18, 13, 11, 5, 15, 17, 20, 19, 19, 16, 14, 6, 15, 11, 13, 21, 12, 23, 12, 22, 12, 16, 22, 14, 17 Grafiki prikazati uzorak i odrediti njegove numerike karakteristike.

Prikazaemo Box-Whiskers plot, histogram i pitu od ljiva. Uzorak je uneen u prvu kolonu, numerike karakteristike se mogu izraunati opcijom Statistics Basic Statistics/Tables Descriptive Statistics. Otvara se dijalog prozor, u Variables treba selektovati kolonu V1 (ljive), a zatim se na Summary, Frequency tables, Histograms, Box and whiskers plots dobiju rezultati. Pri tome se na tabu Advanced ekiranjem odgovarajuih kuica (Median, Mode, Skewness, Kurtosis) raunaju i te brojne karakteristike. Skewness je koeficijent nagiba, a kurtosis je koeficijent spljotenosti.

Na tabu Options se ekiranje kuice Median/Quartiles/Range postie da Box and whiskers plot nacrta kvartile umesto srednje vrednosti plus/minus standardna devijacija. U meniju Graphs Histograms se pod Categories moe namestiti broj intervala u histogramu. Slino se pod Graphs 2D Graphs Box Plots mogu podesiti opcije za box and whiskers grafik, a pod Graphs 2D Graphs Pie Charts raznorazne opcije za pita-grafikone (npr. Explode slice, ili na tabu Advanced pod Pie legend izabrati Percent).

TESTIRANJE HIPOTEZA VEZANIH ZA PARAMETRE NORMALNE RASPODELE (z test, t test)


U programskim paketima kao to su Statistica i dr., koristi se tzv. p vrednost za testiranje hipoteza. P vrednost je najmanja vrednost verovatnoe nastanka greke 1. vrste (tj. minimalno alfa) za koje se jo uvek odbacuje nulta hipoteza. U praksi to znai sledee: ako npr. fiksiramo nivo poverenja = 0.05 , tada prihvatamo nultu hipotezu ako Statistica da p vrednost veu od 0.05 odgovarajueg testa, a odbacujemo nultu hipotezu ako Statistica da p vrednost manju od 0.05. Slino, ako radimo na nivou poverenja = 0.01 , tada prihvatamo nultu hipotezu, ako je rezultujua p vrednost testa vea od 0.01, a za manje p vrednosti je odbacujemo. 1. Test H 0 (m = m0 ) protiv H1 (m m0 ) uz poznato 2 . (A)

Otvara se sa Statistics Basic Statistics/Tables Difference tests: r, %, means. U dijalog prozoru koristimo srednji deo (Difference between two means normal distribution) i treba ekirati kuicu Single mean 1 vs. Population mean 2. Vrednosti koje treba uneti su M1, M2, StDev1 i N1, pri emu M1 predstavlja uzoraku srednju vrednost tj. X n , M2 je parametar koji se testira tj. m0 , StDev1 je poznata(!) vrednost parametra , dok je N1 obim uzorka. Klikom na Compute Statistica rauna p vrednost testa. Za izbor two-sided test radi se alternativna hipoteza H1 (m m0 ) , a za one-sided se testira H1 (m > m0 ) ili H1 (m < m0 ) . Zadatak: Iz obeleja sa normalnom N(m,25) raspodelom izvuen je uzorak obima n = 100 i na osnovu njega izraunato X 100 = 22, 4 . Testirati hipotezu H 0 (m = 19) protiv H1 (m 19) i H1 (m > 19) . Reenje: Primeniemo test (A). Stavimo da je M1=22,4 ; M2=19 ; StDev1=5 ; N1=100. Za test H1 (m 19) birajmo test Two-sided, a za H1 (m 19) birajmo One-sided. U oba sluaja dobijamo p-vredost jednaku skoro nuli, dakle, hipotezu H0 odbacujemo.

6 2. Test H 0 (m = m0 ) protiv H1 (m m0 ) uz nepoznato 2 . (B)

Otvara se sa Statistics Basic Statistics/Tables t-test, single sample. Pod Variables izaberimo kolonu u koju smo prethodno uneli uzorak, zatim pod test all means against unesimo vrednost m0 . Klikom na Summary dobijamo rezultate izraunavanja, specijalno u poslednjoj koloni traenu p vrednost. Na tabu Advanced moemo prikazati Box-Whiskers plot za test, a moemo proveriti i na Normal Plot da li uzorak prati normalnu raspodelu (pretpostavka da bi se mogao primeniti t-test je da obeleje ima normalnu raspodelu). Zadatak: Nedeljna koliina padavina ima normalnu raspodelu. Izvrena je serija merenja koliine padavina (izraeno u mm) tokom 30 dana iji su rezultati 2, 5, 6, 8, 11, 11, 13, 14, 15, 15, 16, 16, 17, 17, 17, 18, 18, 19, 20, 21, 21, 23, 24, 24, 25 , 27, 28, 29, 31, 33. Testirati hipotezu da je srednja vrednost koliina padavina jednaka sa 16. Reenje: Primeniemo test (B). P-vrednost jednaka sa 0.137972 pokazuje da se hipoteza H0 prihvata.

3. Test H 0 ( = 0 ) protiv H1 ( 0 ) . Ovaj test ne postoji u Statistici barem ne onaj koji smo radili na predavanjima....
2 4. Test H 0 (m1 = m2 ) protiv H1 (m1 m2 ) uz poznate 12 , 2 .

(AA)

Otvara se sa Statistics Basic Statistics/Tables Difference tests: r, %, means. U dijalog prozoru koristimo srednji deo (Difference between two means normal distribution). Kuica Single mean 1 vs. Population mean 2 NE sme da bude ekirana. Vrednosti koje treba uneti su M1, M2, StDev1, Stdev2, N1 i N2, pri emu M1, M2 predstavljaju srednje vrednosti prvog i drugog uzorka redom (tj. X N 1 i X N 2 ), StDev1 i StDev2 su poznate(!) vrednosti parametara 1 i 2 , dok su N1 i N2 obimi odgovarajuih uzoraka. Klikom na Compute Statistica rauna p vrednost testa. Za izbor two-sided test radi se alternativna hipoteza H1 (m1 m2 ) , a za one-sided se testira H1 (m1 > m2 ) ili

H1 (m1 < m2 ) .
Zadatak: Dve fabrike proizvode komjutersku opremu. Vek trajanja zvunih kartica proizvedenih u prvoj fabrici ima N(m1, 361) raspodelu, a vek trajanja zvunih kartica proizvedenih u drugoj fabrici ima N(m2, 256) raspodelu. Na osnovu uzorka obima 300 za prvu i obima 500 za drugu fabriku, dobijeno je srednje vreme trajanja zvunih

8 kartica od 454 dana za prvu i 467 dana za drugu fabriku. Testirati da li ove dve fabrike proizvode zvune kartice istog kvaliteta. Reenje: Primeniemo test (AA). Stavimo da je M1=454 ; M2=467 ; StDev1=19 ; StDev2=16 ; N1=300 ; N2=500. Rezultujua p-vrednost je vrlo blizu nule, tako da hipotezu H0 odbacujemo. Dakle, kvalitet karitca se razlikuje.

2 5. Test H 0 (m1 = m2 ) protiv H1 (m1 m2 ) uz nepoznate 12 , 2 .

(C)

Otvara se sa Statistics Basic Statistics/Tables t-test, independent, by Variables. Ovaj test koristimo pod pretpostavkom da smo prethodno uneli podatke tako to smo elemente prvog uzorka stavili u prvu kolonu, a elemente drugog uzorka u drugu kolonu. Pod Variables izaberimo 1. i 2. kolonu u koje smo prethodno uneli uzorke iz 1. i 2. populacije, tako da se pod First list pojavi 1. kolona, a kod Second list 2. kolona. Klikom na Summary dobijamo rezultate izraunavanja, specijalno u poslednjoj koloni traenu p vrednost. Na tabu Advanced moemo prikazati Box-Whiskers plot za test, a moemo proveriti i ekiranjem kuice kod Homogeneity of variances da li su 1 i 2 statistiki jednaki (pretpostavka da bi se mogao primeniti t-test je da obeleja imaju statistiki jednake varijanse). Premda su ponu eni testovi Levene's test, kao i Brown & Forsythe test dosta nepouzdani, tako da nema potrebe odustati od t-testa, ak i ako ovi testovi daju rezultat da su sigme nehomogene.

Primedbe: ovaj test, t-test, independent, by Variables se koristi ako imamo dva nezavisna uzorka npr. iz dve populacije. U Statistici postoje i testovi za dva zavisna uzorka (t-test, dependent) npr. ako se neko merenje vri na istom uzorku pre i posle nekog eksperimenta. Test t-test, independent, by Groups slui za isto testiranje kao i by Variables, samo su osnovni podaci uneeni na drugaiji nain u tabelu (zainteresovani mogu proitati u Help fajlu detalje.)
Zadatak: U jedom preduzeu su poela da se kvare dva aparata za fotokopiranje. Zbog loe finansijske situacije preduzee je u mogunosti da popravi samo jedna od njih. Da bi se odluili koji aparat da poprave (onaj koji se vie koristi), dnevno je meren broj kopija napravljenih na svakom od njih u toku 6 dana za prvi aparat, i u toku 8 dana za drugi aparat. Broj kopija je dat u tabeli: Broj dnevnih kopja na 1. aparatu 500 480 500 520 390 610 Broj dnevnih kopja na 2. aparatu 450 380 430 510 340 500 380 370 Proveriti na nivou znaajnosti 0,05 da li je opravdana odluka da se popravi prvi aparat.

Reenje: Primeniemo test (C). Rezultujua p-vrednost je 0,045007 (za dvostrani test) dakle na nivou 0,05 odbacujemo H0, to znai da se prvi aparat statistiki znaajno vie koristi, te jeste opravdana odluka za njegovu popravku. Primedba: Za jednostrani test tj. ako testiramo H1 (m1 > m2 ) kao to je ra eno na predavanjima, treba p-vrednost podeliti sa dva pa je nova p-vrednost 0,045007:2 = 0,0225.

10

11

PIRSONOV (PEARSON)
U Statistici se koristi opcija Statistics

2 -

TEST

Distribution Fitting.

Zadatak: Anketirano je 100 studenata i dobijen je prosean broj njihovih poseta pozoritu u toku godine:

.....itd..... Sa pragom znaajnosti 0,05 testirati hipotezu da je broj poseta pozoritu sluajna promenljiva koja ima normalnu raspodelu. Reenje: Podaci se nalaze u fajlu Pozoriste.sta. Kliknimo na Statistics Distribution Fitting, birajmo Normal od Continuous distributions (to su neprekidne raspodele) a za Variables izaberimo prvu (i jedinu) kolonu koja sadri podatke. Na tabu Quick sa klikom na Summary: Observed and expected distribution dobijamo tabelu grupisanih frekvencija sa teorijskim frekvencijama (broj intervala se moe podesiti na tabu Parameters). Klikom na Plot of observed and expected distribution dobijamo histogram koji upore uje podatke sa teorijskom raspodelom. Na tabu Options moemo ekirati da li elimo da pored 2 -testa bude izvren i srodni test Kolmogorov-Smirnova, i da li elimo da se intervali spajaju tako da frekvencija svakog od njih bude vea ili jednaka od 5. U reenju Pozoriste.stw data su reenja jednom po defaultu uzetim parametrima, i jednom sa parametrima podeenim na broj intervala 7, minimum -1,

12 maximum 14 (kao gore u tabeli). Dobijena p-vrednost pokazuje da se uzorak slae sa normalnom raspodelom.

13

Zadatak: Broj prodatih knjiga u toku jednog dana registrovan je u knjiari u periodu od 500 dana. Dobijeni su sledei rezultati: xi 0 1 2 3 4 5 6 i vie fi 200 186 85 23 5 1 0 gde je xi broj prodatih knjiga u toku jednog dana, a fi frekvencija dana sa xi prodatih knjiga. Sa pragom znaajnosti 0,05 testirati hipotezu da je broj prodatih knjiga sluajna promenljiva koja ima Poasonovu raspodelu. Reenje: Podaci se nalaze u fajlu knjige.sta. Kliknimo na Statistics Distribution Fitting, birajmo Poisson od Discrete distributions (to su diskretne raspodele) i nastavimo dalje kao i u prethodnom zadatku. Reenje videti u knjige.stw. Podaci se slau sa Poasonovom raspodelom.

14 Primeujemo i da Statistica rauna ocenu nepoznatih parametra u raspodeli. U ovom primeru se metodom maksimalne verodostojnosti dobija ocena parametra Poissonove raspodele da je = 0.9 .

15 Zadatak: Izme u 800 prvih dekadnih cifara broja cifre 0,1, 2, 3, 4, 5, 6, 7, 8, 9 pojavile su se redom 74, 92, 83, 79, 80, 73, 77, 75, 76, 91 puta. Sa pragom znaajnosti 0,05 testirati hipotezu da cifre broja imaju diskretnu uniformnu raspodelu. Reenje: Podaci se nalaze u fajlu Pi.sta. Kliknimo na Statistics Distribution Fitting, birajmo Rectangular od Continuous distributions (uzeemo neprekidnu uniformnu raspodelu jer diskretna uniformna nije ponu ena) i nastavimo dalje kao i u prethodnom zadatku. Reenje videti u Pi.stw. Cifre broja imaju uniformnu raspodelu.

16

ISPITIVANJE NEZAVISNOSTI 2 - TESTOM (TABELE KONTINGENCIJE)


Testiramo H 0 ( X i Y su nezavisni) protiv H1 ( X i Y su zavisni) . U Statistici je potrebno samo otvoriti bilo kakav Spreadsheet, ali nema potrebe uneti podatke u neki .sta fajl. Samo kliknimo na Statistics Nonparametrics 2 x 2 Tables.

Zadatak: Ispituje se nezavisnost teine (X) i visine (Y) stanovnika jedne regije. Svi rezultati su svrstani u sledee kategorije: visoki-niski, gojazni-mravi. Uzorak od 310 merenja je dao rezultate: Y X gojazni mravi 14 59 36 201 visoki niski

Kliknimo na Statistics Nonparametrics 2 x 2 Tables. Otvara se dijalog prozor 2x2 u koji unosimo tabelu datu u zadatku, dakle samo brojeve 14, 36, 59, 201 . Rezultat je p= 0.4179, dakle, hipoteza H 0 se prihvata tj. nema zavisnosti izme u teine i visine.

17

Zadatak: Ispitano je 500 osoba kojima je postavljeno pitanje da li bi na predstojeim izborima radije glasali za kanidata mukog ili enskog pola. Dobijeni su rezultati: Kandidat Bira M 180 130 90 100 M

Ispitati da li rezultati izbora zavise od pola biraa.

Rezultat je p= 0.0199, dakle, hipoteza H 0 se odbacuje tj. postoji zavisnost izme u pola biraa i pola preferiranog kandidata.