Statistika Vladimir S.

You might also like

You are on page 1of 109

1

2008.
2
Uvod
Definicije podataka kontinualnog i diskretnog
tipa
Podaci kontinualnog tipa su npr. brojne vrednosti iz
skupa realnih brojeva. Takvi podaci mogu imati
bilo koju vrednost iz opsega (-,+)
Podaci diskretnog tipa mogu imati samo odredjene
vrednosti, npr. Broj osoba u nekom eksperimentu
moe biti samo ceo broj.
Upotreba dodatnih metoda evaluacije uzoraka
Retrospektiva gradiva kroz primere
3
Teme:
Stablo-list struktura
Zadaci
Aritmetika sredina
Mod
Medijana
Kvartili
Primeri
Merenje varijacije
Druge mere varijacije
4
Mere rasipanja jedninica neke populacije
Sve pomenute teme se preklapaju i slue
merenju raznih odstupanja pojedinih jedinica od
neke vrednosti
Arit.
Sr.
Har
moni
jska
sredi
na
Mo
da
Medi
jana
5
Prikaz rezultata-Stablo-list
Omoguava efikasniji prikaz podataka u odnosu
na histogram za vei broj observacija,
posmatranja, merenja, npr. dvocifreni.
Slika se dobija sortiranjem observacija, merenja
po redovima u skladu sa prvom cifrom.
6
Prikaz rezultata-Stablo-list
Formiramo tabelu sa dve kolone.
U koloni 1 su cifre od 0-9, i one odgovaraju prvoj cifri
nekog broja observacija ili merenja.
Za svako merenje-posmatranje (rezultat), u koloni 2
zapisujemo drugu cifru u redu u kome se u koloni 1
nalazi prva cifra. Moe biti vie drugih cifara sa istom
prvom, to znai da e u koloni 2 biti vie cifara u istom
redu.
Sortiramo sve druge cifre po rastuem redosledu u
svakom redu kolone 2.
7
Prikaz rezultata-Stablo-list
Rezultati ispita
Formiranje stablo-list strukture
8
9
Prikaz rezultata-Stablo-list
Stablo- kolona 1. Listovi kolona 2.
Cela struktura moe biti tumaena i kao histogram sa
klasama od 10 poena.
Efikasnije od histograma jer su detaljnije informacije.
Listovi mogu biti i dve sledee cifre, iza vodee. Npr. red
stabla 0,4 | 07 13 82 90, predstavlja podatke, 0,407;
0,413; 0,482; 0,490;
Za ogroman broj ispitivanja ovakav dijagram ne moe se
lako konstruisati i treba pribegavati drugim metodama.
10
Vebanje
U ispitivanju gradjana kako se dovoze do
radnog mesta dobijeni su sledei podaci:
Sopstveni prevoz -25 osoba
U neijem vozilu -3 osobe
Autobusom -7 osoba
Ostalo -5 osoba.
Izraunati Relativne Frek. svake kategorije
prevoza i nacrtati kruni (torta) dijagram

11
Mere centra i rasipanja podataka.
Prethodne metode-vizuelizacija prikupljenih
podataka.
Korak dalje-dobijanje numerikih vrednosti radi
lociranja centra podataka i raunanja raznih
odstupanja.
Uzorak-deo populacije. Raun se odnosi ns
uzorak
Podaci se numeriu oznaavaju na razliite
naine
x
1,
x
2 ,
x
3 ,
x
4 , ...
x
n,
n-broj merenja, posmatranja, jedinica
12
Srednja vrednost
Vaan momenat u prouavanju distribucije
podataka nekog uzorka-raunanje neke
centralne vrednosti oko koje se grupiu svi
podaci. Dva najee upotrebljavanja termina
su: srednja vrednost (aritmetika sredina) i
medijana.

=
= = =
+ + + +
= =
+ + + +
n
i
i
n
x x
n n
x x x x
1
3 2 1
n
merenja n zbir 1 ...
74 , 3
5
7 , 18
5
7 , 3 6 , 5 1 , 4 2 , 3 1 , 2
13
Mase beba rodjene tokom jednog dana u
nekom porodilitu su u kg: 9,2; 6,4; 10,5; 8,1;
7,8


kg 8,5
5
8 , 7 1 , 8 5 , 10 4 , 6 2 , 9
=
+ + + +
= x
Prikaz podataka takastim dijagramom
14
Medijana
Medijana uzorka je vrednost koja se nalazi u
sredini niza kada se merenja poredjaju od
najmanje ka najveoj vrednosti.
Medijana deli niz merenja na dva dela.
Ako je broj merenja neparan medijana je
jednoznano odredjena.
Ako je broj merenja paran broj medijana se
rauna kao srednja vrednost dve centralne
vrednosti.
15
Medijana
Medijana uzorka je vrednost koja se nalazi u sredini
niza kada se merenja poredjaju od najmanje ka
najveoj vrednosti.
Medijana deli niz merenja na dva dela.
Ako je broj merenja neparan medijana je
jednoznano odredjena.
Ako je broj merenja paran broj medijana se rauna
kao srednja vrednost dve centralne vrednosti.
Mase beba rodjene tokom jednog dana u nekom
porodilitu su u kg: 9,2; 6,4; 10,5; 8,1; 7,8.
6,4 7,8 8,1 9,2 10,5

16
Izraunati medijanu i srednju vrednost
vremena poluraspada hemijskih elemenata,
15, 3, 46, 623, 126, 64
3, 15, 46, 64, 126, 623
Medijana
Srednja vrednost
dana 55
2
64 46
=
+
=
2 , 146
6
877
6
623 126 64 46 15 3
= =
+ + + + +
= x
Poslednji iznos u nizu veoma utie na promenu srednje
vrednosti, a samo jedan element ima period poluraspada
dui od 146,2 dana. Srednja vrednost nije pravi
pokazatelj centralne vrednosti. Potreban je vei broj
podataka. Medijana bolje reprezentuje ovaj uzorak.
17
Ako je deo neke populacije dat u obliku
x
1,
x
2 ,
x
3 ,
x
4 , ...
x
n
sa odgovarajuim frekvencijama
f
1,
f
2 ,
f
3 ,
f
4 , ...
f
n
, i ako su vrednosti obeleja X
poredjane po rastuim vrednostima, onda formiramo
sume
f
1
,

f
1
+f
2
, f
1
+f
2
+f
3
,..

dok se ne zadovolji uslov

18
( )
1
3 2 1
1 1 2
1 1
1 3 2 1 3 2 1
...
2
medijana nalazi se kojoj u klase granica leva
...
2 2
t nejednakos a zadovoljav M medijana onda
...
2
...
+

+ +
+
+ + + +
+ =

= = =
+ = + s s =
+ + + + s s + + + +
k
k
e
n n
k e k
k k
f
f f f f
N
d L M
L
x x x x d
d L
d
x M
d
x L
e
f f f f
N
f f f f
19
Klase Frekvencije
116-135 1
136-155 2
156-175 1
176-195 5
196-215 24
216-235 45
236-255 44
256-275 36
276-295 23
296-315 14
316-335 2
336-355 1
356-375 1
376-392 1
Ukupno N=200
Medijana
Moda
20
Iz tabele imamo da je






Geometrijski, medijana je predstavljena takom na
apscisi iz koje polazi vertikalna linija koja deli
histogram na dva dela jednakih povrina.
246
44
78 100
20 236
: je jednaka i 255 - 236 klasi pripada medijana pa
122 44 45 24 5 1 2 1
78 45 24 5 1 2 1
=

+ =
= + + + + + +
= + + + + +
e
M
21
Moda
Moda M
o
je ona vrednost obeleja X kojoj
odgovara najvea frekvencija 2,2,3,7,8,8,8,10,11
M
o
=8

U nekim sluajevima moe se desiti
da moda ne postoji, 4,5,7,10,15,18,20
da ima vie modalnih vrednosti u jednom skupu
podataka 3,3,5,7,7,7,9,11,12,12,12,15,21, (M
o1
=7,
M
o2
=12)
22
Za podatke rasporeene u klase moda se izraunava
prema obrascu
( )
( ) ( )
1 , 235
44 45 24 45
24 45
20 216
primer prethodni Za
sledece susedne i e frekvencij modalne razlika
prethodne susedne i e frekvencij modalne razlika
a frekvencij najveca odgovara kojoj klase
klase modalne granica leva -
2
1
2 1
1
=
+

+ =
A
A
A + A
A
+ =
o
o
M
L
d L M
23
Geometrijska sredina
Geometrijska sredina G skupa vrednosti
x
1,
x
2 ,
x
3 ,
x
4 , ...
x
n
je n-ti koren njihovog proizvoda

( ) log ... log log
1
log
: anjem logaritmov obavlja se G racunanje ije Jednostavn
...
sredina ka geometrijs je onda , ,...f f , f , f
ama frekvencij sa pojavljuju X obelezja vrednosti se Ako |
...
2 2 1 1
3 2 1
N 3 2 1
3 2 1
3 2 1
N N
n
f
N
f f f
N
N
x f x f x f
N
G
x x x x G
x x x x G
N
+ + + =
=
=
24
Harmonijska sredina
Harmonijska sredina obeleja X je reciprona vrednost
aritmetike sredine (srednje vrednosti), recipronih vrednosti
obeleja x
1,
x
2 ,
x
3 ,
x
4 , ...
x
n
.

= =
= =
N
i
i
i
N
i
i
i
x
f
N
x
f
N
H
1 1
1
1
25
Kvantili
Za veliki broj podataka, jedinica posmatranja, potrebno
je skup podataka podeliti u vie delova.
Taka podele skupa u dve polovine je medijana.
Take podela skupa na etvrtine se nazivaju kvartili (prvi,
drugi i trei kvartil).
Take podele skupa na 10 jednakih delova nazivaju se
decili.
Take podele skupa na jo manje frakcije nazivaju se
percentili.

26
Percentil 100p- takva vrednost da, kada poredjamo podatke
po veliini od najmanjeg do najveeg, najmanje 100p%
jedinica posmatranja (elemenata uzorka) je jednako ili manje
od te vrednosti, a najmanje 100(1-p)% je jednako ili iznad te
vrednosti.
Raunanje percentila se vri na sledei nain:
poredjamo podatke po rastuem redosledu
raunamo proizvod (veliina uzorka)(proporcija p)=Np
Ako Np nije ceo broj, vrednost zaokruujemo na prvi vei
ceo broj i vrednost obeleja na tom rednom mestu je prvi
kvantil.
Ako je Np ceo broj, vrednost raunamo srednju vrednost
obeleja na tom i sledeem rednom mestu, i to je prvi
kvantil.
27
Primer
Merenje buke saobraaja u dB. Izveno je 50 merenja
buke na ulicama i podaci su poredjani po rastuem
redosledu u tabeli. Izraunati kvartile i
10 te percentile.

28
Da bi odredili prvi kvartil uzimamo p=0,25 i raunamo
proizvod Np, dakle Np=500,25=12,5. Ovo nije ceo broj,
pa se uzima prvi vei, a to je 13.
Podatak na 13-tom mestu u tabeli je 57,2. Dakle, to je prvi
kvartil. Obeleava se sa Q
1
=57,2.
Ovo znai da imamo 13 vrednosti u skupu koje su manje
ili jednake vrednosti 57,2 , a 38 vrednosti jednakih ili iznad
vrednosti 57,2.
Za raunanje medijane uzimamo p=0,5, pa imamo
Np=500,5=25. Ovo je ceo broj pa raunamo srednju
vrednost obeleja na 25. i 26-tom mestu u tabeli. Dakle,
medijana=(60,8+61,0)/2=60,9.
29
Da bi odredili 10-ti percentil uzimamo p=0,1 i
raunamo proizvod Np, dakle Np=500,1=5. Ovo
je ceo broj, pa raunamo srednju vrednost obeleja
na 5. i 6-tom mestu u tabeli. 10-ti
percentil=(55,8+55,9)/2=55,85.
Ovo znai da imamo 10% vrednosti u skupu koje su
manje ili jednake vrednosti 55,85.
30
Merenje varijacije
Dobra studija podataka podrazumeva proraun
varijacija oko centralnih vrednosti.

Centralne vrednosti na ovim takastim dijgramima su
iste, ali rasipanje podataka oko tih vrednosti se razlikuje
31
Kako je srednja vrednost mera centra varijacija
individualnih podataka od centra predstavljena je
njihovim odstupanjem od srednje vrednosti.
x - x uzorka vred. sred. - elem. pojedinog vred. odstupanje = =
Za skup podataka 3,5,7,7,8 imamo da je:


Tako da se odstupanja dobijaju
oduzimanjem broja 6 od svake pojedinane
vrednosti elementa.
( ) 6 5 / 30 5 / 8 7 7 5 3 = = + + + + = x
32
Elementi
uzorka
x
Odstupanje
x-x
3
5
7
7
8
-3
-1
1
1
2
33
Odstupanje i varijansa uzorka
( ) ( )
( )
1 1
odstupanja kvadrata suma
uzorka Varijansa
naziva se koja velicina nova se uvodi
odstupanja znake li eleiminisa Dabi
0
1
2
2

=
= =


=
n
x x
n
s
x x odstupanja
n
i
i
i
34
Primer: Izraunati varijansu uzorka
za skup 3,5,7,7,8

Za ovaj skup, n=5.
Raunamo
Srednju vrednost
Pojedinana odstupanja svih elemenata
Sumu kvadrata odstupanja
Varijansu uzorka
35
Tabelarni prikaz rezultata
Kvad. odst. odstupanje Elementi uzorka

36
Standardna devijacija-standardno
odstupanje
Raunanje varijanse podrazumeva sumu kvadrata,
pa se deava da takva vrsta merenja odstupanja
rezultate daje u mernim jedinicama koje su
kvadrirane.
Merenje mase-odstupanja u kg
2
.
Da bi se to izbeglo, uvodi se pojam standardne
devijacije.
( )
1
varijanse
1
2

= =

=
n
x x
s
n
i
i
37
Primer:
Izraunati
standardno
odstupanje za
uzorak 1,4,5,9,11.

Nacrtati
takaste
dijagrame za
ovaj i za skup
podataka
3,5,7,7,8
Takasti dijagrami
Izraunavanje s
38
Alternativni izraz za varijansu uzorka
( )
(
(

=


n
x
x
n
s
i
i
2
2 2
1
1
Izraz koji ne zahteva raunanje individualnih
odstupanja
Skrauje postupak, naroito ako je srednja
vrednost broj sa vie decimala
39
Primer:U psiholokom eksperimentu mereno je
vreme reakcije 6 pacijenata na odredjenu
stimulaciju. Vremena reakcije su u sekundama
bila 4,2,3,3,6,3. Izraunati standardnu devijaciju.
40
Zakljuak
Odstupanje ukljuuje i znak ispred svoje vrednosti.
Varijansa uzorka- eliminie znak odstupanja, ali iskazuje
kvadrirane vrednosti mernih jedinica elemenata uzorka.
Standardna devijacija-eliminie kvadrate vrednosti mernih
jedinica.
Standardna devijacija se moe posmatrati kao opseg u kome
lee podaci u odnosu na srednju vrednost.

s
s
s
3 x intervalu u se nalazi podataka 99,7%
2 x intervalu u se nalazi podataka 95%
x intervalu u se nalazi podataka 68%
ivno aproksimat
: zvona tipa raspodele Za

41
Druge mere varijacije
Opseg uzorka povremeno se koristi kao izraz za
varijaciju-odstupanje.
opseg uzorka=najvea vrednost el.-najmanja vrednost
el.




najmanja vrednost=52,0
najvea vrednost =77,1
opseg uzorka (OU)=77,1-52,0 dB

42
Kao mera rasejanja-rasturanja podataka opseg
uzorka ima dve najznaajnije osobine:
izuzetno ga je lako izraunati i
interpretirati.
Ozbiljni nedostaci potiu iz prevelike
osetljivosti na suvie veliki ili suvie mali broj
podataka u uzorku.
Zaobilazi informacije sadrane u rasejanju
podataka unutar samog uzorka.
43
Za bolje reavanje ovih nedostataka napravljen je
kompromis merenjem intervala izmedju prvog i
treeg kvartila.
interkvartilni opseg uzorka=trei kvartil-prvi
kvartil (IOU)
ovaj opseg reprezentuje duinu intervala koji je
pokriven centralnom polovinom podataka.
ovaj tip mere odstupanja se esto koristi u
izvetajima vlade kada se radi o nekim
raspodelama koje imaju veliki broj podataka u
jednom pravcu.
Ovo se kombinuje sa standardnom devijacijom.
44
Primer
Izraunati interkvartilni opseg uzorka iz tabele
saobraajne buke.
U ranijem primeru izraunati su prvi i trei
kvartil: Q
1
=57,2 dB i Q
3
=64,6 dB.
Sada je
IOU= Q
3
- Q
1
= 64,6 dB - 57,2 dB=7,4 dB
45
Pravougaoni (box) dijagrami
U poslednje vreme se esto upotrebljavaju i
predstavljaju sumarnu sliku informacija izraenih u
kvartilima.
Glavno obeleje su pet znaajnih vrednosti:
minimalna vrednost el., prvi kvartil, drugi kvartil,
trei kvartil, maksimalna vrednost elementa.
Centralna polovina podataka izmedju prvog i
treeg kvartila predstavlja se pravougaonikom i
medijalnom linijom unutar pravougaonika.
Izvan pravougaonika se produava linija od Q
3
do
maksimalne vrednosti i od Q
1
do minimalne
vrednosti.
46
Slika predstavlja box dijagram za podatke iz
tabele saobraajne buke







Box dijagrami su naroito pogodni za prikaz
nekoliko razliitih uzoraka, to omoguava
bolje uporedjivanje njihovih podataka.
50 60 70 80
Q
1
Q
2
Q
3
47
Slika prikazuje iznos reflektovane svetlosti u
infracrvenoj oblasti snimljenoj iz satelita
iznad umskih i urbanih predela.
120
110
100
90
80
70
60

umski predeli Urbani predeli
48
Provera stabilnosti podataka du vremenskog perioda
Izraunavanje srednje vrednosti i varijanse uzorka tretira sve
podatke podjednako ne vodei pri tome rauna o nekoj
vremenskoj raspodeli ili o njihovoj promeni tokom nekog
vremenskog perioda. To spada u vrstu obrade podataka koji su
stabilni (ili je pak njihova promena stalna) tokom nekog
vremena, i takav proces pos-matranja podataka je statistiki
kontrolisan.
Da bi se proverila stabilnost podataka du nekog vremenskog
intervala podaci se moraju grafiki predstaviti u zavisnosti od
vremena, ili bar po redosledu po kome su dobijani ili
posmatrani.
Rezultujui grafik takvog tipa se naziva vremenski graf ili graf
vremenske serije. Takav graf pokazuje da li su podaci stabilni i
da li postoji nekakav trend promene tokom vremena.
49
Primer
Jedna policijska stanica je posmatrala broj
prekovremenih sati rada na posebnim sluajevima kao
to su velike pljake, pokuaji ubistva itd. Iako takvi
dogadjaji nisu predvidljivi pokazalo se da postoji
odredjena konstantnost kada se podaci grupiu du
vremenskog perioda od est meseci.
Vrednosti prekovremenih sati rada na posebnim
sluajevima u prethodnih osam godina su:

2200 875 957 1758 868 398 1603 523
2034 1136 5326 1658 1945 344 807 1223
Nacrtati vremenski dijagram.
50
Period od est meseci
P
r
e
k
o
v
r
e
m
e
n
i

r
a
d

(
u

s
a
t
i
m
a
)

51
Primer
Robna razmena izmedju SAD i Japana moe se
meriti prema kursu dolar/jen, odnosno brojem
jena za koji se moe kupiti jedan dolar. Iako su
te promene dnevne, dati su podaci za celu
godinu.




Nacrtati vremenski dijagram i proveriti stabilnost
podataka.
godina
kurs
52
godina

k
u
r
s

53
Sa grafika se moe uoiti da postoji opadajui
trend du vremena tako da kurs dolar/jen
svakako nije u statistikoj kontroli. Dolar je
kupovan za manje jena sa prolaskom vremena
izmedju 85. i 95. godine.
Proizvodjai imaju potrebu za posmatranjem
kritinih dimenzija, temperatura, i drugih
parametara, i ako parametri variraju, te varijacije
moraju biti u nekom dozvoljenom intervalu.
Za takve potrebe pravi se tzv. kontrolni graf koji
omoguava vizuelnu inspekciju podataka ili
varijacije podataka.
54
P
r
e
k
o
v
r
e
m
e
n
i

r
a
d

(
u

s
a
t
i
m
a
)

Period od est meseci

55
Prouavanje podataka
sa vie promenljivih
obeleja
56
Jedinjenja ugljo-
vodonika na
mesecu
Po dolasku Apola na
mesec, naunici su traili
od astronauta da sakupe
to vie uzoraka kamenja
koje bi poneli na zemlju
radi ispitivanja hemijskog
sastava. Naroito je bilo
vano ispitati sadraj i
uee ugljovodonika.
57
Uvod
Do sada - prouavani podaci sa jednim obelejem,
jednom promenljivom.
Posmatranja dve ili vie promenljivih se esto
belee za individualne jedinice uzorka, npr. teina i
visina osoba, ili broj golova koje je jedan tim
postigao ili primio.
Prouavanjem vie ovakvih promenljivih tei se
pronalasku neke eventualne povezanosti izmedju
njih, i da li neka od njih moda ima znaajnijeg
uticaja na ostale.
58
Primeri ilustracije koncepta
Sluajevi nekih ispitivanja po dve karakteristike u
posebnim jedinicama uzorka:
pol i hobi studenata nekog univerziteta
koliina cigara iskorienih na dan i kapacitet plua
odraslih osoba
starost neke aeroflote i vreme potrebno za reparaciju
Karakteristike obeleja koja se posmatraju mogu biti
obe numerikog, obe opisnog ili po jedna od oba tipa.
Numerika obeleja su npr. broj cigara, starost aviona
neke aeroflote
Opisna obeleja npr. Pol, hobi, boja kose, boja koe i
dr.



59
Kada se dve osobine posmatraju za individualne
jedinice uzoraka i svaka osobina se belei nekim
kvalitativnim kategorijama, onda rezultijui
podaci mogu biti skupljeni u formi tabele sa
dvostrukom frekvencijom. Kategorije za jedno
obeleje se markiraju uz levu marginu, za drugo
uz gornju marginu a frekvencije se belee u elije
tabele. Tabela se naziva unakrsno-klasifikovana,
ili tabela unakrsnih vrednosti.
Saimanje podataka sa vie
promenljivih
60
Primer
Eksperiment je radjen sa 400 osoba kojima su
postavljana pitanja koja se tiu njihovog uea u
sindikatu i njihovog stava prema smanjenju budeta
u svrhe socijalnih programa.
Pokazalo se da su njih 176 lanovi sindikata. Od tih
176, 112 je dalo podrku budetu, 36 je ostalo
uzdrano a 28 su bili protiv.
Potrebno je proraunati i formirati raspodelu
odgovora na odredjena pitanja. To se postie, u
prvom stepenu proraunom relativnih frekvenci
elija.

61
Unakrsno-klasifikovana tabela
podrava
budet
uzdrano
ne
podrava
budet
ukupno
lan
sindikata
112 36 28 176
nije lan
sindikata
84 68 72 224
ukupno 196 104 100 400
62
Raunanje relativnih frekvenci
Za ovakav proraun podeliemo vrednost
frekvencije svake elije sa ukupnim brojem
ispitanika 400.
U zavisnosti specificiranih zahteva unakrsne
klasifikacije moe se zahtevati proraun elijskih
frekvencija u odnosu na ukupne marginalne
vrednosti. Moe se zahtevati poredjenje stava
prema budetu lanova sindikata sa onima koji nisu
lanovi. To se postie raunanjem odgovarajuih
relativnih frakvenci, i formiraju se dve tabele.
63
Tabela relativnih frekvencija
podataka u odnosu na sve ispitanike
podrava
budet
uzdrano
ne
podrava
budet
ukupno
lan
sindikata
0,28 0,09 0,07 0,44
nije lan
sindikata
0,21 0,17 0,18 0,56
ukupno 0,49 0,26 0,25 1,00
64
Tabela sa relativnim frekvencijama u
odnosu na ukupne marginalne
vrednosti prema lanstvu u sindikatu
podrava
budet
uzdrano
ne
podrava
budet
ukupno
lan
sindikata
0,636 0,205 0,159 1,00
nije lan
sindikata
0,375 0,304 0,321 1,00
65
Iz prethodne tabele- razliiti stavovi prema
budetu izmedju dve grupacije sindikalaca i
nesindikalaca.
Podrka budetu je jaa medju lanovima
sindikata nego medju onima koji to nisu.
Jedno od pitanja je: Da li ove posmatrane razlike
samo trenutna sluajnost takvog uzorka ili zaista
postoje znatne razlike u stavu izmedju gradjana
koji su lanovi sindikata i onih koji to nisu?

66
Paradox Simpsona
U tabeli 1. su prikazani rezultati sa prijemnog ispita
nekog univerziteta. Potrebno je proveriti da li su
bolje rezultate na prijemnom ispitu postigli
mukarci ili devojke.
Tabela 2. je tabela relativnih frekvencija polganja
prijemnog ispita prema polu kandidata.
67
Tabela 2 Primljeni
Nisu primljeni

UKUPNO
Mukarci 0,418 0,581 1,00
Devojke 0,312 0,687 1,00
Tabela 1 Primljeni
Nisu primljeni

UKUPNO
Mukarci 223 557
Devojke
UKUPNO 321 839
324
88 282
518
194
68
Prema poslednjoj - tabeli 2. relativnih frekvenci onih
koji su poloili prijemni prema polu kandidata, ini se
da su uspenije prijemni uradili mukarci, jer je 41,8%
od svih mukaraca poloilo prijemni, dok je od svih
devojaka, samo 31,2% poloilo prijemni.
Medjutim, ako se posmatra uspeh prema polaganju
prijemnog ispita po smerovima, kojih ima dva,
elektronika i umetnost, tada dolazimo do drugaijeg
zakljuka.
Neka su u sledeim tabelama predstavljeni podaci o
uspehu na prijemnom prema smerovima, a u skladu
sa brojkama iz tabele 1.
69
Elektronika Primljeni
Nisu primljeni

UKUPNO
Mukarci 151 35 186
Devojke 16 2 18
UKUPNO 167 37 204
Istorija Primljeni
Nisu primljeni

UKUPNO
Mukarci 82 289 371
Devojke 72 192 264
UKUPNO 154 481 635
Tabela 3.
Tabela 4.
70
Elektronika Primljeni
Nisu primljeni

UKUPNO
Mukarci 0,812 0,188 1,00
Devojke 0,889 0,12 1,00
Istorija Primljeni
Nisu primljeni

UKUPNO
Mukarci 0,22 0,78 1,00
Devojke 0,27 0,73 1,00
Tabela 3.
Tabela 4.
71
Na osnovu prethodne dve tabele vidi se da su i
na smeru elektronika (0,889) i na smeru istorije
(0,27) devojke uspenije uradile prijemni ispit.

Ovakva mogunost donoenja razliitog
zakljuka u zavisnosti kako su podaci
predstavljeni tabelama unakrsnih vrednosti,
naziva se Simpsonov paradoks.
72
Zadatak 1
Mineralna voda iz 18 izvora klasifikovana je kao nisko
ili visoko alkalna i sa manjim ili veim sadrajem
gvodja. Sa visokim alkalitetom procenjeno je 9 izvora,
6 je sa veim sadrajem gvodja, 5 ima obe visoke
vrednosti i alkalitet i gvodje.
Formirati tabelu dvostrukih vrednosti
Izraunati relativne frekvencije elija.
Izraunati relativne frekvencije prema ukupnom
alkalitetu.
Izraunati relativne frekvencije prema ukupnom
sadraju gvodja.
73
Vei sadraj Fe
Manji sadraj
Fe

UKUPNO
Visok Alk. 0,28 0,22 0,5
Nizak Alk. 0,05 0,44 0,5
UKUPNO 0,33 0,66 1,00
Vei sadraj Fe
Manji sadraj
Fe

UKUPNO
Visok Alk. 5 9
Nizak Alk.
UKUPNO 6 18
4
1 9
12
8
74
Vei sadraj
Fe
Manji sadraj
Fe

UKUPNO
Visok Alk. 0,55 0,44 1,00
Nizak Alk. 0,11 0,88 1,00
Vei sadraj Fe
Manji sadraj
Fe

Visok Alk. 0,83 0,33
Nizak Alk. 0,16 0,66
UKUPNO 1,00 1,00
75
Zadatak 2
Obavljen je razgovor sa 185 osoba, koje su bile
pod nekim stresom. Njih 76 su alkoholiari
(alkosi), 81 je depresivnog raspoloenja, 54
osobe su pod oba uticaja.
Formirati dvostruku tabelu frekvenci.
Izraunati relativne frekvence za elije tabele

76
Alkoholik
Nije alkoholik

UKUPNO
Depresivan 54 81
Nije depres.
UKUPNO 76 185
Alkoholik
Nije alkoholik

UKUPNO
Depresivan 0,29 0,14 0,43
Nije depres. 0,11 0,44 0,56
UKUPNO 0,41 0,58 1,00
27
22 104
109
82
77
U tabeli su dati podaci za broj kazni za nepropisno
parkiranje u 30 ulica u gradu. Kreirati Tabelu frekvencija i
relativnih frekvencija i prikazati podatke histogramom
1 2 1 3 4 0 0 1 2 3
2 5 1 2 1 0 0 1 0 2
0 2 6 5 3 2 3 1 1 0
Zadatak
78
U tabeli su dati podaci o broju kupaca i broju artikala kupljenih
u jednom supermarketu tokom jednog dana. Predstaviti podatke
histogramom. Izraunati modu i medijanu.
Broj artikala Broj kupaca
0-5
5-10
10-15
15-20
20-25
25-30
30-35
35-40
25
20
28
34
30
22
11
5
Zadatak
79
Trai se procena brzine rasta nekih biljaka u odnosu na tip
soli koji se koristi u njihovoj ishrani. Podaci su dati u Tabeli 1.
Tip soli
Rast A B C
Dobar
16 8 14
Srednji
31 16 21
Odlian
18 36 25
65 60 60
Izraunati relativne frekvencije svih elija i uporediti kvalitet
rasta sa pojedinim tipovima soli.
Zadatak
80
Za 60 automobila u nekom salonu dobijeni su sledei
podaci:
8 automobila ima manuelni menja i pogon sa dizel
motorom
30 automobila ima automatski menja i pogon sa
benzinskim motorom
40 automobila ima benzinski motor

a) Odrediti ukupne marginalne vrednosti prema tipu
menjaa i vrsti pogona
b) Kreirati tabelu relativnih frekvenci
c) Izraunati relativne frekvence prema svakom od
obeleja


81
Linearna regresija
82
Istraivanje zavisnosti izmedju dve
promenljive (x i y)
Prvi korak- predstavljanje n parova (x,y) na rasutom
dijagramu.
Ako postoji mogunost aproksimacije (predstavljanja)
skupa svih taaka na dijagramu, koje potiu od parova
(x,y), jednom pravom linijom, tada moemo definisati
linearnu zavisnost medju promenljivim x i y.
U tom sluaju mogue je odrediti parametre linearne
regresije (regresija y od x), koji na najbolji nain opisuju
linearnu zavisnost dvaju promenljivih.
Ovakva vrsta regresije je sa jednom promenljivom, jer
je y zavisno samo od promenljive x.


83
Prava linearne regresije
Matematiki izraz koji predstavlja linearnu regresiju



x- nezavisna, ulazna promenljiva
y- zavisna, izlazna promenljiva.
Ovo je, ustvari, vrednost koja se oekuje za
promenljivu y kada je poznata vrednost promenljive
x
est naziv za y- fitovana vrednost

0 1
| | + = x y
84
parametar |
0
predstavlja vrednost odseka izmedju
koordinatnog poetka rasutog dijagrama, i preseka
regresione linije (prave) sa y- osom. To je vrednost y,
kada je x=0.
parametar |
1

predstavlja nagib ili gradijent regresione
linije. Opisuje porast promenljive y, kada se ulazna
promenljiva x promeni za jedininu vrednost.
Parametri |
1
i |
0
se zajedniki nazivaju koeficijenti linearne
regresije, ili samo koeficijenti regresije

0 1
| | + = x y
85
( )( )
( )
x y
x x
y y x x
n
y
y
n
x
x
n
n
n
i
i
n
i
i
1 0
1
2
i
1
i i
1
1 1
, ,
| |
|
=


=
= =


= =
Raunanje koeficijenata
prave linearne regresije

Rezultat izraz za linarnu
pravu sa konkretnim
vrednostima, npr.

45 , 0 318 , 2 + = x y
0 1
| | + = x y
86
Crtanje regresione linije
Kada su izraunati parametri |
1
i |
0
, i dobijen izraz za regresionu
pravu, npr.

prelazi se na crtanje te prave na rasuti dijagram.

Uzimamo npr. tri vrednosti za promenljivu x, iz skupa- uzorka
(x
1
,x
2
,x
3
, ..., x
k
, x
k+1
,...x
m
,..., x
n
), npr. x
2
,x
k
i x
m
.

Svaku od vrednosti zamenimo u izraz za regresionu pravu, i
dobijemo tri vrednosti za promenljivu y (y ,y,y'"). Ova tri para
(x
2
,y ), (x
k
y ), (x
m
,y '" ), predstavljaju take kroz koje treba
provui liniju koja reprezentuje linearnu regresiju za promenljive x
i y.
45 , 0 318 , 2 + = x y
87
Primer
Ispitivano je vreme reakcije pacijenata, kojima je
u krvotok ubrizgan odredjeni stimulans.
Vreme- sekunde
Stimulans- mm
3
Za pet pacijenata zabeleeni su sledei rezultati:

88
Tabela rezultata ispitivanja
Red. Br.
pacijenta
Koliina
stimulansa
(mm
3
)
Vreme
reakcije
(s)
1
2
3
4
5
1
2
3
4
5
1
1
2
2
4
89
Rasuti dijagram
1 2 3 4 5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
V
r
e
m
e

r
e
a
k
c
i
j
e
Kolicina stimulansa (mm
3
)
90
Regresiona prava
1 2 3 4 5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
B
Linear Fit of Data1_B
V
r
e
m
e

r
e
a
k
c
i
j
e
Kolicina stimulansa (mm
3
)
91
x
i
y
i
x
i
2
x
i
y
i
1
2
3
4
5
1
1
2
2
4
1
2
9
16
25
1
2
6
8
20
x
i
=15


y
i
=10


x
i
2
=55

x
i
y
i
=37

Tabela sa vrednostima potrebnim za raunanje koeficijenata |
0
i |
1
92
( )( )
( )
x y
n
y x
y x S
n
x
x S
S
S
x x
y y x x
n n
n
xy
n
n
xx
xx
xy
n
n
1 0
1
i
1
i
1
i i
2
1
i
1
2
i
1
2
i
1
i i
1
10
7
| |
|
=
=
|
.
|

\
|
|
.
|

\
|
=
=
|
.
|

\
|
=
=

Mogua je upotreba
jednostavnijih izraza za
izraunavanje
koeficijenata |
1
i |
0,
, kao
to je pokazano na slici
desno.

Ovakav pristup je bri, jer
je mogue koristiti tabele
sa manje kolona, iji se
medjuzbirovi koriste za
dobijanje krajnje traene
vrednosti

93
Dat je skup podataka u Tabeli:












Odrediti koeficente linearne regresije i nacrtati
regresionu pravu

Primer
x
i
y
i
7 2
4 4
6 2
2 5
1 7
1 6
3 5
94
95
x
i
y
i
x
i
2
y
i
2
x
i
y
i
7 2 49 4 14
4 4 16 16 16
6 2 36 4 12
2 5 4 25 10
1 7 1 49 7
1 6 1 36 6
3 5 9 25 15

24 31 116 159 80
96
97
Primer
Dati su parovi podataka (x,y)

(2,5), (1,3), (5,6), (0,2), (3,9)


Nai koeficijente linearne regresije i izraunati
koeficijent korelacije r
98
Primer
H 120 82 90 8 38 20 2,8 66 2,0 20 85
C 105 110 99 22 50 50 7,3 74 7,7 45 51
Dati su podaci o vlaznosti vazduha I temperature u nekom
hemijskom procesu

Naci koeficijente linearne regresije i izracunati koeficijent
korelacije r
99
Ispitni zadatak 1.
Skup podataka 24, 31, 72, 35, 90, 81, 84, 40, 41, 42, 53, 56, 58,
47, 49, 72, 87, 78, 80, 79
-predstaviti stablo-list strukturom.
Za ovaj skup:
Prvi kvartil iznosi :
Medijana iznosi:_________
Trei kvartil iznosi:
Za ovaj skup 35-ti percentil iznosi:

Za ovaj skup podataka
a) ima vie modalnih vrednosti
b) moda ne postoji
c) ima tano jedna modalna vrednost
d) ne znam
100
Ispitni zadatak 2.
Slobodna mesta Broj aviona
1-5
5-10
10-15
15-20
20-25
2
4
2
1
3
101
Za podatke iz prethodne tabele sa merodavnom levom
granicom klase vai:
Medijana se nalazi u klasi __-__
Vrednost medijane iznosi______
Moda se nalazi u klasi ___-___
Vrednost mode iznosi________
Zaokruiti tane iskaze:
a) Moe se odrediti taan broja aviona sa manje od 10
slobodnih mesta
b) Moe se odrediti taan broj aviona sa vie od 10
slobodnih mesta
c) Moe se odrediti taan broj aviona sa 2 slobodna
mesta
d) Moe se odrediti taan broj aviona sa manje od 25
slobodnog mesta
102
Ispitni zadatak 3.
Prodaja 20 artikala je
izraena tabelom, tako da
je leva granica vaea.
Predstaviti podatke
histogramom.

Cena (din.) Broj komada
5-10
10-15
15-20
20-25
25-30
4
2
6

5
103
Ispitni zadatak 4.
Od 60 ispitanih osoba, 18 nemaju sopstveni auto, od
kojih 10 ima poloen vozaki ispit, dok je dvostruko
vie osoba sa poloenim nego nepoloenim ispitom.
_______ je procenat vozaa koji nemaju ni poloen
ispit ni auto u odnosu na sve ispitanike
_______ je procenat vozaa sa poloenim ispitom i
svojim autom u odnosu na sve koji imaju svoj auto
_______ je procenat vozaa sa autom i poloenim
ispitom u odnosu na sve ispitanika
104
Ispitni zadatak 5.
U tabeli su date relativne frekvence prema polu za 60 ispitanih osoba, od
kojih su 40 ene, u pogledu odnosa rekreativnog bavljenja sportom i pola
(/M).

Upisati taan broj osoba
_______ ena se bavi rekreacijom
_______ mukaraca se ne bavi rekreacijom
_______ osoba se ne bavi rekreacijom
_______ osoba se bavi rekreacijom
Bavi se
rekreacijom
Ne bavi se
rekreacijom
ene 0,2 1,0
Mukarci 0,7 1,0
105
Ispitni zadatak
Skup podataka 24, 31, 72, 35, 90, 81, 84, 40, 41, 42, 53, 56, 58,
47, 49, 72, 87, 78, 80, 79
-predstaviti stablo-list strukturom.
Za ovaj skup:
Prvi kvartil iznosi :
Medijana iznosi:_________
Trei kvartil iznosi:
Za ovaj skup 35-ti percentil iznosi:

Za ovaj skup podataka
a) ima vie modalnih vrednosti
b) moda ne postoji
c) ima tano jedna modalna vrednost
d) ne znam
106
Ispitni zadatak
Slobodna mesta Broj aviona
1-5
5-10
10-15
15-20
20-25
2
5
2
1
3
107
Za podatke iz prethodne tabele sa merodavnom levom granicom
klase vai:
Medijana se nalazi u klasi __-__
Vrednost medijane iznosi______
Moda se nalazi u klasi ___-___
Vrednost mode iznosi________

Zaokruiti tane iskaze:
a) Moe se odrediti taan broja aviona sa manje od 10 slobodnih
mesta
b) Moe se odrediti taan broj aviona sa vie od 10 slobodnih
mesta
c) Moe se odrediti taan broj aviona sa 2 slobodna mesta
d) Moe se odrediti taan broj aviona sa manje od 25 slobodnog
mesta
108
Ispitni zadatak
Od 20 studenata nekog univerziteta, medju kojima je 8
ena, 25% od ukupnog broja studenata su ene sa smera
umetnosti, 7 mukaraca je sa smera ekonomije.

Ukupan procenat studenata smera umetnosti je:

Od ukupnog broja mukaraca, umetnost studira njih____%
109
Ispitni zadatak
Za dati rasuti dijagram,
koeficijent korelacije
iznosi________

Koeficijenti linearne
regresije su
|
0
=_______ ,
|
1
=________
-1 0 1 2 3 4 5 6 7 8 9
1
2
3
4
5
Y

X

You might also like