You are on page 1of 34

Deskriptivna statistika III

ta moramo da nauimo:
Da matematiki operiemo sa aritmetikom sredinom i da razumemo ta se deava kao posledica klasinih operacija (+,-,* i /) Da razumemo potrebu i primenu standardizacije skorova Da nauimo kako da tranformiemo varijablu u Z skorove Da posredstvom Z skorova razumemo intervale poverenja od 95% i 99% Da nauimo da interpretiramo intervale poverenja aritmetike sredine Da nauimo kako da identifikujemo ekstremne vrednosti (outliere) Da razumemo alternativne mere centralne tendencije 5% odseena sredina i M estimator

Aritmetike operacije i uticaj na aritmetiku sredinu i standardnu devijaciju: dodavanje konstante

Dodavanje konstante c = 3

Aritmetika sredina je vea za 3 a varijansa i standardna devijacija su identine

Ako na originalne vrednosti jednog seta podataka dodamo konstantu (c) svakoj od vrednosti u nizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina + konstanta Ako na originalne vrednosti jednog seta podataka dodamo konstantu (c), novoformirani skor e imati istu varijansu i standardnu devijaciju kao to je to bio sluaj sa originalnim setom podataka

Aritmetike operacije i uticaj na aritmetiku sredinu i standardnu devijaciju: oduzimanje konstante

Oduzimanje konstante c = 5

Aritmetika sredina je manja za 5 a varijansa i standardna devijacija su identine

Ako od originalnih vrednosti jednog seta podataka oduzmemo konstantu (c), od svake vrednosti u niizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina - konstanta Ako od originalnih vrednosti jednog seta podataka oduzmemo konstantu (c), novoformirani skor e imati istu varijansu i standardnu devijaciju kao to je to bio sluaj sa originalnim setom podataka

Aritmetike operacije i uticaj na aritmetiku sredinu i standardnu devijaciju: mnoenje konstantom

Mnoenje konstantom c = 2

Aritmetika sredina je vea za 4 a standardna devijacija se poveala za 2

Ako originalne vrednosti jednog seta podataka pomnoimo sa konstantom (c), i to mnoenjem svake vrednosti u nizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina * konstanta Ako originalne vrednosti jednog seta podataka pomnoimo konstantom (c), 2 novoformirani skor e imati varijansu c puta veu od varijanse originalnog seta i standardnu devijaciju koja je c puta vea od originalnog seta podataka

Aritmetike operacije i uticaj na aritmetiku sredinu i standardnu devijaciju: deljenje konstantom


Aritmetika sredina je manja za 4 a standardna devijacija se smanjila za 0.25

Deljenje konstantom c = 4

Ako originalne vrednosti jednog seta podataka podelimo sa konstantom (c), i to deljenjem svake vrednosti u niizu, novoformirani skor e imati aritmetiku sredinu koja iznosi originalna aritmetika sredina / konstanta Ako originalne vrednosti jednog seta podataka podelimo konstantom (c), novoformirani skor e imati varijansu 1/ c 2 puta veu od varijanse originalnog seta i standardnu devijaciju koja je 1/c puta vea od originalnog seta podataka

EMU OPERACIJE SA ARITMETIKOM SREDINOM


U drutvenim istraivanjima uobiajeno da se drutvene i politike pojave mere na nain formiranja odreenih skorova (skala i indexa) Kada se formiraju skorovi, neretko elimo da optimisujemo skorove sa ciljem da numeriki nizovi budu smisleni za interpretaciju (recimo od 1-100 ili od 0 10) U ovim postupcima obino smo prinueni da promenimo originalan set podataka te prema tome moramo znato ta e se desiti sa aritmetikom sredinom i konstantom u situacijama da primenimo neke od operacija

Problem standardizacije skorova


Do sada smo zakljuili da svaka vrednost na nekoj skali (npr 115) ima smisla samo ukoliko znamo distribuciju vrednosti na datoj varijabli i ukoliko u odnosu na ovu distribuciju moemo da interpretiramo mesto koje ima ta pojedina vrednost (115). Naime, ukoliko znamo da je aritmetika sredina na toj varijabli 110, onda znamo da je 115 vee od aritmetike sredine. Ali ni ovaj podatak nam ne govori dovoljno, naime, ova vrednost 115 bitno zavisi od distribucije, tj. postavljamo pitanje da li je ta vrednost unutar jedne, dve ili tri standardne devijacije. Drugim reima, vrednost od 115 na skali ima potpuno drugaiji smisao u zavisnosti od toga da li je standardna devijacija npr. 5 ili 15 poena.

Potreba za standardizovanim skorovima


Kako bi identifikovali relativno mesto opservirane vrednosti na datoj distribuciji, tada nije dovoljno samo da znamo devijaciju, ve je potrebno da devijaciju transformiemo na numeriku vrednost koja odgovara standardnoj devijaciji za dati skor. Cilj ovakvog postupka bio bi da lociramo svaku vrednost na nain da odredimo koliko je standardnih devijacija ta vrednost udaljena od aritmetike sredine Prema tome, ideja standardizacije skorova je veoma jednostavna, ali vana i upotrebljiva, naime, u okviru svake varijable, na osnovu pretpostavke o normalnoj distribuciji, svaka vrednost e biti transformisana tako da novoformirana vrednost jednostavno numeriki izraava koliko je standardnih devijacija udaljena od aritmetike sredine.

Standardizovani skorovi: primer


Npr., imamo skor od 450 u distribuciji koja ima aritmetiku sredinu 400 i standardnu devijaciju 25 Budui da skor odstupa od aritmetike sredine za 50 a standardna devijacija je 25, mi jednostavno znamo da ako podelimo 50 sa 25 (50/25) dobijamo vrednost 2 Ovaj podatak govori o tome da je na skor u okvirima od 2 standardne devijacije u odnosu na aritmetiku sredinu

Standardizovani Z Skorovi
Na ovom primeru dat je univerzalan nain za formiranje tzv. z Skorova. Standardizovani z Skorovi se dakle izraunavaju:
posmatrana vrednost aritmetick asredina zSkor = s tan dardnadevi jacija

Izraeno formulom:

xi x z = s

Primer sa formulom
U prethodnom primeru:

450 400 z= = 2.0 25


U ovoj situaciji nam novoformirana vrednost iskazana preko z Skora ukazuje da je originalna vrednost vea za dve standardne devijacije u odnosu na aritmetiku sredinu, to je mnogo informativnije i jednostavnije za interpretaciju Dalje, u jednom jedinom numerikom podatku, z Skoru, dat je na najjednostavniji nain podatak i kolika je aritmetika sredina i kolika je standardna devijacija

Z skorovi kao varijabla


Upotrebljivost Z skorova je u tome to mi u statistikoj obradi podataka moemo lako i efikasno da sve vrednosti jedne varijable transformiemo u z skorove Na ovaj nain nova varijabla predstavlja standardizovanu varijablu. Kljuno je vano znati da bez obzira kolika je aritmetika sredina i standardna devijacija originalne varijable, novoformirana standardizovana varijabla koja se bazira na Z skorovima imae aritmetiku sredinu = 0 i standardnu devijaciju = 1 Na novoformiranoj varijabli, lako moemo onda analizom distribucije z skorova da na jedan jednostavan nain uoimo odstupanja od srednje vrednosti i to u pravim jedinicama odstupanja koje odgovaraju meri standardne devijacije

Primer Z skorova originalna varijabla

Transformisana varijabla - Z skorovi

Z skorovi i distribucija
Zahvaljujui Z skorovima, relativno je jednostavno izraunati koji procenat varijanse je pokriven unutar odreenog Z skora kao to se moe videti u Excel tabeli, a standardni kriterijumi intervala poverenja od 95% i 99% mogu se videti na grafikonima 1,2,3,4 i 5

Grafikon 1

Grafikon 2

34,15% 34,15% 95,45% 2,3% 16% -1 16% +1 -2 +2 2,3%

Grafikon 3

99,73% 0,135% 0,135%

-3

+3

DVA KLJUNA STANDARDA KOJA E KASNIJE UNIVERZALNO VAITI ZA ODREIVANJE STATISTIKE ZNAAJNOSTI (TZV. p vrednost () )

Grafikon 4

Grafikon 5

95% 2,5% 2,5% 0,5%

99% 0,5%

-1,96

+1,96

-2,58

+2,58

Kriterijum za intervale poverenja


Grafikoni pokazuju koji procenat opservacija je obuhvaen aritmetikom sredinom i bilo koje druge vrednosti kada je kriterijum za merenje distance standardna devijacija Radi testiranja hipoteza, a ovo e biti predmet na sledeem predavanju, u statistici se koriste dva standarda, 95% i 99% i ovo su prema tome dva uobiajena intervala poverenja u okviru kojih interpretiramo rezultate Na grafikonima uoiti i zapamtiti da je 95% interval poverenja +/- 1,96 standardne devijacije, a 99% interval poverenja +/- 2,58 standardne devijacije

Procena poverenja u dobijenu vrednost aritmetike sredine


Aritmetika sredina je kljuna mera centralne tendencije zato to veliki broj statistikih metoda kojima se testiraju hipoteze operie sa ovim parametrom No obzirom da je ovaj podatak proizvod procene koji se bazira na uzorku, postavlja se pitanje njegove preciznosti, ili drugim reima, uzorak po sebi sadri greku merenja, jer znamo da je: priblino jednako x S toga, kljuna stvar jeste da na neki validan nain procenimo poverenje koje moemo imati u dobijeni podatak.

DIjalog
Istraiva: Ja sam obavio istraivanje na bazi sluajnog uzorka i na osnovu rezultata sam dobio podatak da je aritmetika sredina ukupnog broja zavrenih godina kolovanja u Crnoj Gori 11,87. Budui da sam oekivao da je ta srednja vrednost manja, mora da je neki problem sa uzorkom Statistiar: Zato bi problem bio sa uzorkom, je li uzorak bio sluajan ili nije? Istraiva: Da, bio je sluajan i ukupno je bilo 1000 ispitanika Statistiar: A kolika je standardna devijacija? Istraiva: 3.083 Statistiar: (nekoliko minuta provodi za raunarom i zakljuuje)...Ne, ne, sve je u redu, podatak koji si dobio je sasvim OK, u emu je problem? Istraiva: Pa problem je u tome to ja mislim da je rezultat mog istraivanja proizvod loe sree u pogledu izbora ispitanika i mislim da kada bi ponovio istraivanje ja ne bih dobio istu vrednost. Statistiar: Vidi, ima sree, ja sluajno imam podatke sa popisa o celokupnoj populaciji koji ukljuuju podatke o broju zavrenih godina kolovanja. Ako eli mogu da izvuem jedan uzorak od isto tako 1000 ispitanika da proverimo. Istraiva: Sjajno! Uradi to to pre... Statistiar: Evo odmah, to nije nikakav problem imamo bazu podataka u raunaru. Izvukao sam jedan uzorak i dobio sam podatak da je na bazi tog uzorka prosean broj godina kolovanja 11,79, dakle, sve je uredu sa tvojim istraivanjem.

Istraiva: Pa, prosek koji si ti dobio jeste ipak malo manji od onog koji sam ja dobio, bie ipak da sam ja bio loe sree... Iako je i taj podatak daleko iznad mog oekivanja Statistiar: Ne, ne slaem se da si bio loe sree evo, napraviemo dvadeset uzoraka pa da proverimo:
Uzorak 2: 11,88 Uzorak 5: 11,92 Uzorak 8: 12,04 Uzorak 11:11,71 Uzorak 14:12,00 Uzorak 17:11,83 Uzorak 20:11,85 Uzorak 3: 12,01 Uzorak 6: 11,69 Uzorak 9: 11,77 Uzorak 12:11,95 Uzorak 15:11,90 Uzorak 18:11,59 Uzorak 4: 12,06 Uzorak 7: 11,71 Uzorak 10: 11,99 Uzorak 13: 12,05 Uzorak 16: 12,04 Uzorak 19: 12,01

Istraiva: Vidi, sve vrednosti koje si dobio su jako blizu, jesi li ti siguran da je sve u redu sa raunarom? Statistiar: Naravno da sam siguran, ja ne znam na osnovu kojih informacija si ti bazirao svoja oekivanja, ali koliko vidim od 20 uzoraka, samo jedna vrednost koju sam dobio u uzorku br 18, tanije da je prosek 11,59, je izvan intervala poverenja koji sam mogao da izraunam na osnovu tvog proseka, dok je prosek svih ostalih uzoraka u okviru intervala poverenja od 95%. Istraiva: O kakvim to intervalima govori? Statistiar: Govorim o intervalu povrenja od 95%, naime to je klasian standard koji validira dobijene podatke, naroito kada je re o aritmetikoj sredini Istraiva: I kako si to izraunao moliu lepo? Statistiar. Jednostavno, rekao si da si dobio prosek 11,87, da ti je uzorak bio sluajan sa ukupnim brojem od 1000 ispitanika i da je standardna devijacija 3,083 Istraiva: Tano tako, i ta s tim? Statistiar: Dakle, po tvojim podacima moemo rei da je verovatnoa da je aritmetika sredina koju si dobio rezultat loe sree jednaka verovatnoi 1: 20 Istraiva: Kako to? Statistiar: Jednostavno, svaka aritmetika sredina po prirodi stvari budui da je rezultat uzorka a ne itave populacije sadri standardnu greku merenja. Ova greka se izraunava tako to se standardna devijacija (3,083) podeli sa kvadratnim korenom ukupnog broja ispitanika:

Statistiar: Dakle, kad obavim ovu operaciju dobijam vrednost da je greka aritmetike sredine 0,098. Na osnovu toga ja znam sa 95% sigurnosti da se prosek ukupnog broja kolovanja u Crnoj Gori kree: 11,87 1.96*0.098 Statistiar: Ili tanije, sa 95% poverenja znam da je tvoja aritmetika sredina izmeu 11,68 i 12,06. Ukoliko pogleda aritmetike sredine koje smo dobili na osnovu 20 uzoraka, jasno je da samo jedan uzorak (br 18 gde je aritmetika sredina 11,59) ima aritmetiku sredinu koja nije u okviru ovog intervala, to je potpuno u skladu sa samim intervalom, jer je 1 uzorak od 20 tano iznosi 5% verovatnoe. Istraiva: Sad sam zbunjen, ta tano hoe da kae? Statistiar: Hou da kaem da ukoliko biramo 100 uzoraka u 95 od njih nai emo da se aritmetika sredina broja zavrenih godina kolovanja kree u rasponu od 11,68 do 12,06, a u 5 od tih uzoraka moemo nai da to nije tako. Ovo je razlog da govorimo u kategorijama 95% intervala poverenja, i da kaemo da moemo prilino (sa 95% sigurnosti) biti uvereni u podatak. Istraiva: Dobro, ali nikako mi nije jasna matematika koju si izveo za taj interval, tanije, jasno mi je kako si izraunao standardnu greku aritmetike sredine, ali nikako mi nije jasno zato si tu greku mnoio sa 1,96??? Statistiar: Jednostavno zato to tako preporuuje centralna granina teorema, naime, ako je distribucija normalna, onda polje koje pokriva 95% vrijanse sa obe strane distribucije ostavlja prostor od po 2,5% na krajevima distribucije a 2,5% polja odgovara vrednosti od 1,96 standardne devijacije. Dakle, 2,5% povrine znai da standardnu greku aritmetike sredine moramo mnoiti sa 1.96, a onda dobijenoj vrednosti dodati i oduzeti tih 2,5% sa obe strane Istraiva: Dobro, dobro, predajem se.... Prihvatama da je podatak koji sam dobio sasvim dobar Statistiar: On je onoliko dobar koliko smo to izrazili 95% intervalom poverenja, ni vie ni manje od toga......

Aritmetike sredine na veem broju uzoraka iste populacije

Primer iz dijaloga
N-1000

(11,87- 1.96*0.098) < 95%CI < (11,87- 1.96*0.098) 95% CI= od 11,68 do 12,06

99%CI

(11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098) 99% CI= od 11,62 do 12,12
Mean 95% Confidence Interval for Mean 99% Confidence Interval for Mean Lower Bound Upper Bound Lower Bound Upper Bound 11,87 11,68 12,06 11,62 12,12

Jo nekoliko statistika

Ekstremne vrednosti (outlieri)


U svakoj distribuciji koja ima veliki broj vrednosti postoje tzv. ekstremne vrednosti (outlieri) Ekstremne vrednosti su,dakle, one koje su neuobiajeno velike ili neuobiajeno male u odnosu na ostale vrednosti BUdui da su mere centralne tendencije, naroito aritmetika sredina osetljive na extremne vrednosti, njima se u analizi mora posvetiti posebna panja S toga se mi trudimo da identifikujemo extremne vrednosti, pre svega ne bi li na osnovu njihove identifikacije utvrdili da postoji neka greka u merenju. SPSS identifikuje ekstremne vrednosti, i uz to identifikuje sluajeve koji imaju extremne vrednosti i to kako u tabeli tako i korienjem tzv box plota:

Box plot za identifikaciju ekstremnih vrednosti

Korienje histograma za identifikaciju ekstremnih vrednosti


Ekstremne vrednosti se takoe mogu identifikovati korienjem histograma:

5% odseena sredina
Jedna od mera centralne tendencije koja je alternativna aritmetikoj sredini jeste i 5% odseena sredina. Ova mera centralne tendencije se formira tako to se od ukupne varijanse odsee (dakle ne kalkuliu se) 5% ekstremnih vrednosti Dobijeni podatak podatak je precizniji u odnosu na aritmetiku sredina ukoliko eksremne vrednosti zaista prave problem u distribuciji U naem primeru 5% odseena sredina = 12,08 to je znatno vie od aritmetike sredine = 11,87 Ova vrednost 5% odseene sredine je ak izvan 95% CI, to nam ukazuje da su ekstremno male vrednosti u naoj distribuciji zaista problem u proceni aritmetike sredine

M estimatori
M estimatori jesu robustne mere centralne tendencije koje u situaciji kada imamo relativno duge krajeve u distribuciji u kojima su identifikovane ekstremne vrednosti jesu bolje mere centralne tendencije u odnosu na aritmetiku sredinu M estimatori se izraunavaju na nain da se sve vrednosti u distribuciji a koji su osnov za raunanje aritmetike sredine, kalkuliu tako da vei ponder dobijaju one vrednosti koje su blizu aritmetikoj sredini, a to se neka vrednnost vie udaljava od aritmetike sredine, to je njen ponder manji Na ovaj nain, prema tome, srednja vrednost koja se dobije je manje osetljiva na ekstremne vrednosti Razlika izmeu M estimatora i 5% odseene sredine je u tome to M estimatori kalkuliu sve vredsnoti u distribuciji, samo svaku od tih vrednsoti razliito ponderiu, dok u 5% odseena sredina, jednostavno iz kalkulacije izbacuje 5% ekstrema U svakom sluaju vredsnoti ova dva parametara moraju biti relativno sline, u suprotnom imamo ozbiljan problem sa distribucijom U naem sluaju Huberov M estimator = 12,05 a 5% odseena sredina = 12,08..... Ovaj podatak nam jo jednom ukazuje da u naoj distribuciji smo imali relativno veliki broj malih ekstremnih vrednosti

ZADACI ZA VEBE
Obavljaete aritmetike operacije sa konstantom i analizirae te dobijene varijable sa originalnom varijablom Nauiete da transformiete varijeble u standardizovane varijable z skorovi Nauiete da proizvedete output za dodatnu deskriptivnu statistiku Nauiete da anlizirate i razumete 95%CI Nauiete da identifikujete outliere i da interpretirate 5% odseenu sredinu i M estimatore

You might also like