Professional Documents
Culture Documents
1224573841
1224573841
ta moramo da nauimo:
Da matematiki operiemo sa aritmetikom sredinom i da razumemo ta se deava kao posledica klasinih operacija (+,-,* i /) Da razumemo potrebu i primenu standardizacije skorova Da nauimo kako da tranformiemo varijablu u Z skorove Da posredstvom Z skorova razumemo intervale poverenja od 95% i 99% Da nauimo da interpretiramo intervale poverenja aritmetike sredine Da nauimo kako da identifikujemo ekstremne vrednosti (outliere) Da razumemo alternativne mere centralne tendencije 5% odseena sredina i M estimator
Dodavanje konstante c = 3
Ako na originalne vrednosti jednog seta podataka dodamo konstantu (c) svakoj od vrednosti u nizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina + konstanta Ako na originalne vrednosti jednog seta podataka dodamo konstantu (c), novoformirani skor e imati istu varijansu i standardnu devijaciju kao to je to bio sluaj sa originalnim setom podataka
Oduzimanje konstante c = 5
Ako od originalnih vrednosti jednog seta podataka oduzmemo konstantu (c), od svake vrednosti u niizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina - konstanta Ako od originalnih vrednosti jednog seta podataka oduzmemo konstantu (c), novoformirani skor e imati istu varijansu i standardnu devijaciju kao to je to bio sluaj sa originalnim setom podataka
Mnoenje konstantom c = 2
Ako originalne vrednosti jednog seta podataka pomnoimo sa konstantom (c), i to mnoenjem svake vrednosti u nizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina * konstanta Ako originalne vrednosti jednog seta podataka pomnoimo konstantom (c), 2 novoformirani skor e imati varijansu c puta veu od varijanse originalnog seta i standardnu devijaciju koja je c puta vea od originalnog seta podataka
Deljenje konstantom c = 4
Ako originalne vrednosti jednog seta podataka podelimo sa konstantom (c), i to deljenjem svake vrednosti u niizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina / konstanta Ako originalne vrednosti jednog seta podataka podelimo konstantom (c), novoformirani skor e imati varijansu 1/ c 2 puta veu od varijanse originalnog seta i standardnu devijaciju koja je 1/c puta vea od originalnog seta podataka
Standardizovani Z Skorovi
Na ovom primeru dat je univerzalan nain za formiranje tzv. z Skorova. Standardizovani z Skorovi se dakle izraunavaju:
posmatrana vrednost aritmetick asredina zSkor = s tan dardnadevi jacija
Izraeno formulom:
xi x z = s
Primer sa formulom
U prethodnom primeru:
Z skorovi i distribucija
Zahvaljujui Z skorovima, relativno je jednostavno izraunati koji procenat varijanse je pokriven unutar odreenog Z skora kao to se moe videti u Excel tabeli, a standardni kriterijumi intervala poverenja od 95% i 99% mogu se videti na grafikonima 1,2,3,4 i 5
Grafikon 1
Grafikon 2
Grafikon 3
-3
+3
DVA KLJUNA STANDARDA KOJA E KASNIJE UNIVERZALNO VAITI ZA ODREIVANJE STATISTIKE ZNAAJNOSTI (TZV. p vrednost () )
Grafikon 4
Grafikon 5
99% 0,5%
-1,96
+1,96
-2,58
+2,58
DIjalog
Istraiva: Ja sam obavio istraivanje na bazi sluajnog uzorka i na osnovu rezultata sam dobio podatak da je aritmetika sredina ukupnog broja zavrenih godina kolovanja u Crnoj Gori 11,87. Budui da sam oekivao da je ta srednja vrednost manja, mora da je neki problem sa uzorkom Statistiar: Zato bi problem bio sa uzorkom, je li uzorak bio sluajan ili nije? Istraiva: Da, bio je sluajan i ukupno je bilo 1000 ispitanika Statistiar: A kolika je standardna devijacija? Istraiva: 3.083 Statistiar: (nekoliko minuta provodi za raunarom i zakljuuje)...Ne, ne, sve je u redu, podatak koji si dobio je sasvim OK, u emu je problem? Istraiva: Pa problem je u tome to ja mislim da je rezultat mog istraivanja proizvod loe sree u pogledu izbora ispitanika i mislim da kada bi ponovio istraivanje ja ne bih dobio istu vrednost. Statistiar: Vidi, ima sree, ja sluajno imam podatke sa popisa o celokupnoj populaciji koji ukljuuju podatke o broju zavrenih godina kolovanja. Ako eli mogu da izvuem jedan uzorak od isto tako 1000 ispitanika da proverimo. Istraiva: Sjajno! Uradi to to pre... Statistiar: Evo odmah, to nije nikakav problem imamo bazu podataka u raunaru. Izvukao sam jedan uzorak i dobio sam podatak da je na bazi tog uzorka prosean broj godina kolovanja 11,79, dakle, sve je uredu sa tvojim istraivanjem.
Istraiva: Pa, prosek koji si ti dobio jeste ipak malo manji od onog koji sam ja dobio, bie ipak da sam ja bio loe sree... Iako je i taj podatak daleko iznad mog oekivanja Statistiar: Ne, ne slaem se da si bio loe sree evo, napraviemo dvadeset uzoraka pa da proverimo:
Uzorak 2: 11,88 Uzorak 5: 11,92 Uzorak 8: 12,04 Uzorak 11:11,71 Uzorak 14:12,00 Uzorak 17:11,83 Uzorak 20:11,85 Uzorak 3: 12,01 Uzorak 6: 11,69 Uzorak 9: 11,77 Uzorak 12:11,95 Uzorak 15:11,90 Uzorak 18:11,59 Uzorak 4: 12,06 Uzorak 7: 11,71 Uzorak 10: 11,99 Uzorak 13: 12,05 Uzorak 16: 12,04 Uzorak 19: 12,01
Istraiva: Vidi, sve vrednosti koje si dobio su jako blizu, jesi li ti siguran da je sve u redu sa raunarom? Statistiar: Naravno da sam siguran, ja ne znam na osnovu kojih informacija si ti bazirao svoja oekivanja, ali koliko vidim od 20 uzoraka, samo jedna vrednost koju sam dobio u uzorku br 18, tanije da je prosek 11,59, je izvan intervala poverenja koji sam mogao da izraunam na osnovu tvog proseka, dok je prosek svih ostalih uzoraka u okviru intervala poverenja od 95%. Istraiva: O kakvim to intervalima govori? Statistiar: Govorim o intervalu povrenja od 95%, naime to je klasian standard koji validira dobijene podatke, naroito kada je re o aritmetikoj sredini Istraiva: I kako si to izraunao moliu lepo? Statistiar. Jednostavno, rekao si da si dobio prosek 11,87, da ti je uzorak bio sluajan sa ukupnim brojem od 1000 ispitanika i da je standardna devijacija 3,083 Istraiva: Tano tako, i ta s tim? Statistiar: Dakle, po tvojim podacima moemo rei da je verovatnoa da je aritmetika sredina koju si dobio rezultat loe sree jednaka verovatnoi 1: 20 Istraiva: Kako to? Statistiar: Jednostavno, svaka aritmetika sredina po prirodi stvari budui da je rezultat uzorka a ne itave populacije sadri standardnu greku merenja. Ova greka se izraunava tako to se standardna devijacija (3,083) podeli sa kvadratnim korenom ukupnog broja ispitanika:
Statistiar: Dakle, kad obavim ovu operaciju dobijam vrednost da je greka aritmetike sredine 0,098. Na osnovu toga ja znam sa 95% sigurnosti da se prosek ukupnog broja kolovanja u Crnoj Gori kree: 11,87 1.96*0.098 Statistiar: Ili tanije, sa 95% poverenja znam da je tvoja aritmetika sredina izmeu 11,68 i 12,06. Ukoliko pogleda aritmetike sredine koje smo dobili na osnovu 20 uzoraka, jasno je da samo jedan uzorak (br 18 gde je aritmetika sredina 11,59) ima aritmetiku sredinu koja nije u okviru ovog intervala, to je potpuno u skladu sa samim intervalom, jer je 1 uzorak od 20 tano iznosi 5% verovatnoe. Istraiva: Sad sam zbunjen, ta tano hoe da kae? Statistiar: Hou da kaem da ukoliko biramo 100 uzoraka u 95 od njih nai emo da se aritmetika sredina broja zavrenih godina kolovanja kree u rasponu od 11,68 do 12,06, a u 5 od tih uzoraka moemo nai da to nije tako. Ovo je razlog da govorimo u kategorijama 95% intervala poverenja, i da kaemo da moemo prilino (sa 95% sigurnosti) biti uvereni u podatak. Istraiva: Dobro, ali nikako mi nije jasna matematika koju si izveo za taj interval, tanije, jasno mi je kako si izraunao standardnu greku aritmetike sredine, ali nikako mi nije jasno zato si tu greku mnoio sa 1,96??? Statistiar: Jednostavno zato to tako preporuuje centralna granina teorema, naime, ako je distribucija normalna, onda polje koje pokriva 95% vrijanse sa obe strane distribucije ostavlja prostor od po 2,5% na krajevima distribucije a 2,5% polja odgovara vrednosti od 1,96 standardne devijacije. Dakle, 2,5% povrine znai da standardnu greku aritmetike sredine moramo mnoiti sa 1.96, a onda dobijenoj vrednosti dodati i oduzeti tih 2,5% sa obe strane Istraiva: Dobro, dobro, predajem se.... Prihvatama da je podatak koji sam dobio sasvim dobar Statistiar: On je onoliko dobar koliko smo to izrazili 95% intervalom poverenja, ni vie ni manje od toga......
Primer iz dijaloga
N-1000
(11,87- 1.96*0.098) < 95%CI < (11,87- 1.96*0.098) 95% CI= od 11,68 do 12,06
99%CI
(11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098) 99% CI= od 11,62 do 12,12
Mean 95% Confidence Interval for Mean 99% Confidence Interval for Mean Lower Bound Upper Bound Lower Bound Upper Bound 11,87 11,68 12,06 11,62 12,12
Jo nekoliko statistika
5% odseena sredina
Jedna od mera centralne tendencije koja je alternativna aritmetikoj sredini jeste i 5% odseena sredina. Ova mera centralne tendencije se formira tako to se od ukupne varijanse odsee (dakle ne kalkuliu se) 5% ekstremnih vrednosti Dobijeni podatak podatak je precizniji u odnosu na aritmetiku sredina ukoliko eksremne vrednosti zaista prave problem u distribuciji U naem primeru 5% odseena sredina = 12,08 to je znatno vie od aritmetike sredine = 11,87 Ova vrednost 5% odseene sredine je ak izvan 95% CI, to nam ukazuje da su ekstremno male vrednosti u naoj distribuciji zaista problem u proceni aritmetike sredine
M estimatori
M estimatori jesu robustne mere centralne tendencije koje u situaciji kada imamo relativno duge krajeve u distribuciji u kojima su identifikovane ekstremne vrednosti jesu bolje mere centralne tendencije u odnosu na aritmetiku sredinu M estimatori se izraunavaju na nain da se sve vrednosti u distribuciji a koji su osnov za raunanje aritmetike sredine, kalkuliu tako da vei ponder dobijaju one vrednosti koje su blizu aritmetikoj sredini, a to se neka vrednnost vie udaljava od aritmetike sredine, to je njen ponder manji Na ovaj nain, prema tome, srednja vrednost koja se dobije je manje osetljiva na ekstremne vrednosti Razlika izmeu M estimatora i 5% odseene sredine je u tome to M estimatori kalkuliu sve vredsnoti u distribuciji, samo svaku od tih vrednsoti razliito ponderiu, dok u 5% odseena sredina, jednostavno iz kalkulacije izbacuje 5% ekstrema U svakom sluaju vredsnoti ova dva parametara moraju biti relativno sline, u suprotnom imamo ozbiljan problem sa distribucijom U naem sluaju Huberov M estimator = 12,05 a 5% odseena sredina = 12,08..... Ovaj podatak nam jo jednom ukazuje da u naoj distribuciji smo imali relativno veliki broj malih ekstremnih vrednosti
ZADACI ZA VEBE
Obavljaete aritmetike operacije sa konstantom i analizirae te dobijene varijable sa originalnom varijablom Nauiete da transformiete varijeble u standardizovane varijable z skorovi Nauiete da proizvedete output za dodatnu deskriptivnu statistiku Nauiete da anlizirate i razumete 95%CI Nauiete da identifikujete outliere i da interpretirate 5% odseenu sredinu i M estimatore