You are on page 1of 12

Praktični dio materijala

III.1. Procjena parametara


Sadržaj
1 Procjena očekivanja, varijance, proporcije i kvantila 1

2 Procjena distribucije 2
2.1 Procjena funkcije distribucije . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Analiza distribucije iz koje dolazi uzorak . . . . . . . . . . . . . . . . . . . 4

3 Procjenitelji 7

1 Procjena očekivanja, varijance, proporcije i kvan-


tila
Problem procjene parametara svodi se na odgovarajuće mjere opisne statistike.

Zadatak 1. Promotrimo tablicu djelatnici.

(a) Procijenite očekivanje, varijancu i medijan distribucije iz koje dolazi varijabla placa_prije.

(b) Procijenite vjerojatnost da slučajno odabrani djelatnik ima visoku stručnu spremu.

(c) Procijenite vjerojatnost da je slučajno odabrani djelatnik stariji od 35 godina.


d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici )
attach ( d j e l a t n i c i )
#( a )
#P r o c j e n a o č e k i v a n j a :
mean ( p l a c a_p r i j e )
#P r o c j e n a v a r i j a n c e :
var ( p l a c a_p r i j e )
#P r o c j e n a medijana :
median ( p l a c a_p r i j e )
#( b )
prop . t a b l e ( t a b l e ( o b r a z o v a n j e ) )
#P r o c j e n a t e v j e r o j a t n o s t i j e 0 . 0 6 .
#( c )
prop . t a b l e ( t a b l e ( dob >35) )
#P r o c j e n a t e v j e r o j a t n o s t i j e 0 . 2 6 .
 

1
Praktični dio materijala

2 Procjena distribucije
Distribuciju iz koje dolazi uzorak možemo izučavati na nekoliko načina.

2.1 Procjena funkcije distribucije


Empirijsku funkciju distribucije u R-u možemo dobiti s ecdf().

#e m p i r i j s k u f u n k c i j u d i s t r i b u c i j e dobijemo s e c d f ( )
x <− rnorm ( 1 0 )
ecdf (x)
plot ( ecdf (x) )

#možemo j e k o r i s t i t i i kao f u n k c i j u za p r o c j e n u v j e r o j a t n o s t i
x <− rnorm ( 1 0 0 )
Fn <− e c d f ( x )
Fn ( 1 ) #p r o c j e n a za F ( 1 ) − r e l a t i v n a f r e k v e n c i j a v r i j e d n o s t i manjih i l i
jednakih 1
prop . t a b l e ( t a b l e ( x<=1))
pnorm ( 1 ) #ovo j e t e o r i j s k a v r i j e d n o s t k o j u o v d j e znamo j e r smo uzorak
s i m u l i r a l i i z s t a n d a r d n e normalne d i s t r i b u c i j e
 

Diskretne distribucije možemo procijeniti i empirijskom (tablicom) distribucije što je


zapravo tablica relativnih frekvencija.

#e m p i r i j s k a t a b l i c a d i s t r i b u c i j e v a r i j a b l e r u k o v o d s t v o
( tab <− prop . t a b l e ( t a b l e ( r u k o v o d s t v o ) ) )
#Vezano uz Zadatak 4 . i z t e o r i j s k i h m a t e r i j a l a uočimo :
#o č e k i v a n j e e m p i r i j s k e d i s t r i b u c i j e :
sum ( a s . numeric ( names ( tab ) ) ∗ tab )
#š t o j e
mean ( r u k o v o d s t v o )
#v a r i j a n c a e m p i r i j s k e d i s t r i b u c i j e :
sum ( ( ( a s . numeric ( names ( tab ) )−mean ( r u k o v o d s t v o ) ) ^2) ∗ tab )
#š t o j e
( l e n g t h ( r u k o v o d s t v o ) −1)/ l e n g t h ( r u k o v o d s t v o ) ∗ var ( r u k o v o d s t v o )
 

Zadatak 2. Iz tablice hormon uklonite sve retke s NA vrijednostima.

(a) Nacrtajte empirijsku funkciju distribucije.

(b) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude veća od 50.

(c) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude veća od 55 i manja ili jednaka 75.

(d) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude manja od 55.1.

2
Praktični dio materijala

(e) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude manja ili jednaka 55.1.

(f) Odredite empirijsku distribuciju varijable dijagnoza.


hormon <− r e a d . c s v 2 ( ’ hormon . c s v ’ )
s t r ( hormon )
hormon2 <− na . omit ( hormon )
s t r ( hormon2 )
a t t a c h ( hormon2 )
#( a )
plot ( ecdf ( gastrS ) )
#( b )
Fn <− e c d f ( g a s t r S )
1−Fn ( 5 0 )
#i l i direktno relativnom frekvencijom :
prop . t a b l e ( t a b l e ( g a s t r S > 5 0 ) )
#( c )
Fn ( 7 5 ) − Fn ( 5 5 )
#i l i
prop . t a b l e ( t a b l e ( g a s t r S > 55 & g a s t r S <= 7 5 ) )
#( d )
prop . t a b l e ( t a b l e ( g a s t r S < 5 5 . 1 ) )
#( e )
prop . t a b l e ( t a b l e ( g a s t r S <= 5 5 . 1 ) )
#i l i
Fn ( 5 5 . 1 )
#( f )
prop . t a b l e ( t a b l e ( d i j a g n o z a ) )
 

Zadatak 3. Napravite simulaciju koja ilustrira da je empirijska funkcija distribucije kon-


zistentan procjenitelj funkcije distribucije.


#ECDF j e k o n z i s t e n t a n p r o c j e n i t e l j i k o n v e r g i r a t ć e t e o r i j s k o j f u n k c i j i
distribucije
#Za uzorak i z N( 0 , 1 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− rnorm ( i )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −4 , 4 ) , main = p a s t e ( " n =" ,
i))
c u r v e ( pnorm ( x ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}

#Za uzorak i z U( 0 , 1 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {

3
Praktični dio materijala

x <− r u n i f ( i )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −0.5 , 1 . 5 ) , main = p a s t e ( " n
=" , i ) )
c u r v e ( p u n i f ( x ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}

#Za uzorak i z E( 1 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− rexp ( i )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −0.5 , 8 ) , main = p a s t e ( " n ="
, i))
c u r v e ( pexp ( x ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}

#Za uzorak i z binomne ( 2 0 , 0 . 5 )


n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− rbinom ( i , 2 0 , 0 . 5 )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( 0 , 2 0 ) , main = p a s t e ( " n =" ,
i))
c u r v e ( pbinom ( x , 2 0 , 0 . 5 ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}

#Za uzorak i z P o i s s o n o v e ( 3 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− r p o i s ( i , 3 )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −1 , 9 ) , main = p a s t e ( " n =" ,
i))
c u r v e ( p p o i s ( x , 3 ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}
 

2.2 Analiza distribucije iz koje dolazi uzorak


Empirijska funkcija distribucije nije prikladna za dublji uvid u distribuciju iz koje dolazi
uzorak. U tu svrhu koristi se nekoliko grafičkih prikaza.
Histogram je jedan od prikaza raspodjele podataka na osnovu kojeg se može uočiti
oblik distribucije iz koje dolazi uzorak. Osim frekvencija, histogram može prikazivati i
procjenu gustoće distribucije uzorka (uz argument probability=TRUE). Pri tome visina
stupaca proporcionalna je relativnoj frekvenciji podataka u odgovarajućem intervalu, a
ukupna površina stupaca iznosi 1.

#P r i m j e r : Histogram 1000 s l u č a j n i h b r o j e v a ( r e a l i z a c i j e s l u č a j n o g uzorka (X
_ 1 , . . . , X_1 0 0 0 ) ) i z s t a n d a r d n e normalne d i s t r i b u c i j e .
uzorak <− rnorm ( 1 0 0 0 , 0 , 1 )
h i s t ( uzorak )

4
Praktični dio materijala

h i s t ( uzorak , p r o b a b i l i t y = TRUE) # i l i h i s t ( x , f r e q = FALSE)


h i s t ( uzorak , p r o b a b i l i t y = TRUE, b r e a k s = 3 0 )
#i z o v i h h i s t o g r a m a l a k o s e može n a s l u t i t i normalna d i s t r i b u c i j a

#Histogram uz p r e t p o s t a v l j e n u t e o r i j s k u g u s t o ć u s p r o c i j e n j e n i m parametrima
h i s t ( uzorak , p r o b a b i l i t y = TRUE)
c u r v e ( dnorm ( x , mean ( uzorak ) , sd ( uzorak ) ) , −3, 3 , add = TRUE) #x j e ime
argumenta f u n k c i j e dnorm k o j i f u n k c i j a c u r v e k o r i s t i za c r t a n j e

#P r i m j e r : Histogram 1000 s l u č a j n i h b r o j e v a ( r e a l i z a c i j e s l u č a j n o g uzorka (X


_ 1 , . . . , X_1 0 0 0 ) )
# i z normalne d i s t r i b u c i j e s o č e k i v a n j e m 0 i v a r i j a n c o m 2 5 .
x <− rnorm ( 1 0 0 0 , 0 , 1 )
y <− rnorm ( 1 0 0 0 , 0 , 5 )
#h i s t o g r a m e uzoraka x i y p r i k a z a t ćemo , r a d i usporedbe , j e d a n pored drugog
par ( mfrow=c ( 1 , 2 ) )
h i s t ( x , p r o b a b i l i t y = TRUE, b r e a k s = 2 0 , xlim = c ( −20 ,20) )
h i s t ( y , p r o b a b i l i t y = TRUE, b r e a k s = 2 0 , xlim = c ( −20 ,20) )
dev . o f f ( )
 

Za uzorke iz neprekidnih distribucija ima smisla razmatrati i procjenu funkcije gus-


toće. Takva procjena prvenstveno je korisna za uvid u distribuciju iz koje dolazi uzorak.
Histogram relativnih frekvencija može predstavljati jednu grubu procjenu funkcije gus-
toće. Zaglađivanjem je moguće dobiti procijenjenu funkciju gustoće. Odgovarajuća R
funkcija je density().

### P r o c i j e n j e n a f u n k c i j a g u s t o ć e
x <− rnorm ( 1 0 0 0 )
hist (x)
density (x)
plot ( density (x) )
#N a j č e š ć e j e p r i k a z u j e m o uz o d g o v a r a j u ć u t e o r i j s k u
p l o t ( density ( x ) , c o l = " red " )
c u r v e ( dnorm ( t , mean ( x ) , sd ( x ) ) , xname=" t " , add = TRUE) #p r i m i j e t i t i xname
argument , x j e ime v a r i j a b l e
#U p r e t p o s t a v l j e n o j t e o r i j s k o j g u s t o ć i parametre p r o c j e n j u j e m o .
 

QQ-plot (quantile-quantile plot) je jedan od najboljih načina kako usporediti dis-


tribuciju uzorka s nekom pretpostavljenom teorijskom distribucijom. To je graf koji se
dobije tako da se u koordinatnom sustavu prikažu teorijski kvantili neke distribucije u
ovisnosti o uzoračkim kvantilima danog uzorka. Svaka točka (x, y) na ovom grafu odgo-
vara p-kvantilu teorijske distribucije (x koordinata) i p-kvantilu uzorka (y koordinata).
Graf se sastoji od tako dobivenih točaka za različite vrijednosti p. Ako je distribucija iz
koje dolazi uzorak jednaka pretpostavljenoj distribuciji, tada bi točke koje predstavljaju
kvantile trebale približno ležati na pravcu.
QQ-plot treba interpretirati na sljedeći način. Ako su distribucije jednake tada točke leže
približno na pravcu y = x. Ako je jedna distribucija linearna transformacija druge tada
točke grafa leže na nekom pravcu y = ax + b, a, b ∈ R. Ako točke ne leže na pravcu tada
postoji nekoliko mogućnosti:

5
Praktični dio materijala

• sve osim nekoliko točaka ne leže na pravcu — moguće postojanje stršećih vrijednosti,

• lijevi i desni krajevi se nalaze ispod ili iznad pravca — repovi distribucija se ne
podudaraju,

• zakrivljenost grafa — ukazuje na asimetričnost distribucije uzorka u odnosu na


promatranu teorijsku,

• stepenast graf — uzorak dolazi iz diskretne distribucije.

Najčešće se želi ustanoviti dolazi li uzorak iz normalne distribucije. Pripadna R funkcija


je qqnorm(). Funkcijom qqline() crtamo pravac koji prolazi kroz donji i gornji kvartil
kako bi lakše uočili pravocrtnu strukturu.

#P r i m j e r :
x <− rnorm ( 1 0 0 0 , 0 , 1 )
qqnorm ( x )
qqline (x)
#Točke l e ž e p r i b l i ž n o na pravcu , vidimo da j e t o upravo pravac y=x ,
#d i s t r i b u c i j e b i mogle b i t i j e d n a k e
#Očekivano , j e r su t o s l u č a j n i b r o j e v i i z N( 0 , 1 )

#P r i m j e r :
x <− rnorm ( 1 0 0 0 , 5 , 1 )
qqnorm ( x )
qqline (x)
#Točke su o p e t na pravcu , a l i sada t o n i j e y=x . D i s t r i b u c i j e su povezane
linearnom transformacijom .

#P r i m j e r :
#Pokušajmo u s p o r e d i t i x s t−d i s t r i b u c i j o m s 4 s t u p n j a s l o b o d e . One su
s l i č n e a l i t ima t e ž e r e p o v e .
#F u n k c i j a p p o i n t s ( x ) g e n e r i r a v r i j e d n o s t i u kojima ć e s e r a č u n a t i
vrijednost kvantila
#f u n k c i j o m qt ( k v a n t i l t d i s t r i b u c i j e )
x <− rnorm ( 1 0 0 0 , 0 , 1 )
q q p l o t ( qt ( p p o i n t s ( x ) , 4 ) , x )
q q l i n e ( x , d i s t r i b u t i o n = f u n c t i o n ( q ) qt ( q , 4 ) )
#vidimo da s r e d n j i d i o l e ž i na pravcu , a l i k r a j e v i su z a k r i v l j e n i š t o
u k a z u j e na r a z l i k e u d i s t r i b u c i j i r e p a
#t o u k a z u j e da smo v j e r o j a t n o p o g r e š n o p r e t p o s t a v i l i t d i s t r i b u c i j u uzorka

#P r i m j e r :
x <− rexp ( 1 0 0 0 , 1 )
qqnorm ( x )
qqline (x)
#z a k r i v l j e n o s t u k a z u j e da j e d i s t r i b u c i j a a s i m e t r i č n a
#usporedimo l i s k v a n t i l i m a e k s p o n e n c i j a l n e d i s t r i b u c i j e
q q p l o t ( qexp ( p p o i n t s ( x ) , 1 ) , x )
q q l i n e ( x , d i s t r i b u t i o n = qexp )
#t o č k e l e ž e na pravcu i t o baš y=x

6
Praktični dio materijala

 

Zadatak 4. Grafički analizirajte distribucije iz kojih dolaze varijable visina i placa_prije u


tablici djelatnici. Usporedite s odgovarajućim normalnim distribucijama i komentirajte.


d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici )
attach ( d j e l a t n i c i )
#V i s i n a :
h i s t ( v i s i n a , p r o b a b i l i t y = TRUE)
c u r v e ( dnorm ( x , mean ( v i s i n a ) , sd ( v i s i n a ) ) , add=TRUE, c o l=" r e d " )
plot ( density ( visina ) )
c u r v e ( dnorm ( x , mean ( v i s i n a ) , sd ( v i s i n a ) ) , add=TRUE, c o l=" r e d " )
qqnorm ( v i s i n a )
qqline ( visina )
#G r a f i č k i p r i k a z i s u g e r i r a j u da j e v i s i n a normalno d i s t r i b u i r a n o o b i l j e ž j e .
#Pl ac a p r i j e
h i s t ( p l a c a_p r i j e , p r o b a b i l i t y = TRUE)
c u r v e ( dnorm ( x , mean ( p l a c a_p r i j e ) , sd ( p l a c a_p r i j e ) ) , add=TRUE, c o l=" r e d " )
p l o t ( d e n s i t y ( p l a c a_p r i j e ) )
c u r v e ( dnorm ( x , mean ( p l a c a_p r i j e ) , sd ( p l a c a_p r i j e ) ) , add=TRUE, c o l=" r e d " )
qqnorm ( p l a c a_p r i j e )
q q l i n e ( p l a c a_p r i j e )
#O č i g l e d n o p l a c a_p r i j e ne d o l a z i i z normalne d i s t r i b u c i j e .
#Uočavamo a s i m e t r i č n o s t u odnosu na normalnu d i s t r i b u c i j u .
 

3 Procjenitelji
Svojstva procjenitelja možemo testirati i kroz simulacije na način da izučavamo njihove
vrijednosti na puno (N ) generiranih uzoraka iste veličine (n).

Zadatak 5. 1 Ivica skuplja sličice, ali ne zna koliko ih ima ukupno. Sličice su numerirane
brojevima 1, . . . , K pri čemu je K nepoznat. Dosad je skupio n sličica x1 , . . . , xn . Kako
bi na osnovu toga procijenio ukupan broj sličica, Ivica je definirao tri procjene:

θb1 = max{x1 , . . . , xn },
n+1
θb2 = max{x1 , . . . , xn },
n
θb3 = 2x̄n .
1
Problem originalno potječe iz Drugog svjetskog rata kada je jedno od pitanja kojim su se bavili
saveznici bilo kolika je njemačka mjesečna proizvodnja tenkova. Zabilježeni su serijski brojevi nekih
komponenti zaplijenjenih i uništenih tenkova (to odgovara brojevima na sličicama koje je Ivan dobio).
Na osnovu toga je procijenjen broj tenkova i pokazalo se da su procjene bile daleko bolje od obavještajnih
procjena. Za više detalja vidjeti: https://en.wikipedia.org/wiki/German_tank_problem

7
Praktični dio materijala

Napravite simulaciju kojom ćete testirati svojstva definiranih procjenitelja na sljedeći na-
čin: generirajte 1000 uzoraka veličine 10 iz diskretne uniformne distribucije na {1, . . . , 100}.
Za svaki od uzoraka izračunajte vrijednosti sva tri procjenitelja. Usporedite procijenjene
gustoće tri niza dobivenih procjena. Izračunajte prosjek i varijancu dobivenih procjena.


t h e t a 1 <− f u n c t i o n ( x ) max( x )
t h e t a 2 <− f u n c t i o n ( x ) ( ( l e n g t h ( x ) + 1 ) / l e n g t h ( x ) ) ∗ max( x )
t h e t a 3 <− f u n c t i o n ( x ) 2 ∗ mean ( x )

N <− 1000
v r i j t h e t a 1 <− c ( )
v r i j t h e t a 2 <− C( )
v r i j t h e t a 3 <− c ( )

f o r ( i i n 1 :N) {
uzorak <− sample ( 1 : 1 0 0 , 1 0 , r e p l a c e = TRUE)
v r i j t h e t a 1 <− c ( v r i j t h e t a 1 , t h e t a 1 ( uzorak ) )
v r i j t h e t a 2 <− c ( v r i j t h e t a 2 , t h e t a 2 ( uzorak ) )
v r i j t h e t a 3 <− c ( v r i j t h e t a 3 , t h e t a 3 ( uzorak ) )
}

par ( mfrow = c ( 1 , 3 ) )
p l o t ( d e n s i t y ( v r i j t h e t a 1 ) , main = e x p r e s s i o n ( hat ( t h e t a [ 1 ] ) ) )
a b l i n e ( v = 100)
p l o t ( d e n s i t y ( v r i j t h e t a 2 ) , main = e x p r e s s i o n ( hat ( t h e t a [ 2 ] ) ) )
a b l i n e ( v = 100)
p l o t ( d e n s i t y ( v r i j t h e t a 3 ) , main = e x p r e s s i o n ( hat ( t h e t a [ 3 ] ) ) )
a b l i n e ( v = 100)

#O č i g l e d n o t h e t a 3 ima n a j v e ć u v a r i j a n c u .
#t h e t a 2 n a j b l i ž e j e s t v a r n o j v r i j e d n o s t i :
mean ( v r i j t h e t a 1 )
mean ( v r i j t h e t a 2 )
mean ( v r i j t h e t a 3 )

var ( v r i j t h e t a 1 )
var ( v r i j t h e t a 2 )
var ( v r i j t h e t a 3 )
 

8
Praktični dio materijala

Zadaci za vježbu
Zadatak 6. Tablica podataka zdravlje nalaze se zdravstveni podaci anketiranih ispita-
nika.

• godine sadrži dob ispitanika u godinama

• spol sadrži informaciju o spolu (M - muški spol, Z - ženski spol) ispitanika

• zdravlje sadrži subjektivne ocjene vlastitog zdravstvenog stanja ispitanika

• broj pregleda sadrži informacije o ukupnom broju zdravstvenih pregleda za svakog


ispitanika u tekućoj kalendarskoj godini

• dodatno zdravstveno sadrži informaciju o dodatnom zdravstvenom osiguranju za sva-


kog ispitanika (1 - ispitanik je dodatno osiguran, 0 - ispitanik nije dodatno osiguran)

• cijena sadrži cijenu u kunama najskupljeg zdravstvenog pregleda svakog ispitanika u


tekućoj kalendarskoj godini.

(a) Procijenite donji kvartil, medijan i gornji kvartil distribucije iz koje dolazi varijabla
godine. Interpretirajte vrijednost procjene gornjeg kvartila.

(b) Procijenite očekivanje i standardnu devijaciju distribucije iz koje dolazi varijabla go-
dine. Na što ukazuje standarnda devijacija?

(c) Postoji li stršeća vrijednost među podacima varijable godine (ako postoji, zapišite ju i
komentirajte)? Tvrdnju podkrijepite prikladnim grafičkim prikazom.

(d) Napravite novu varijablu godine1 koja opisuje dob ispitanika, ali ne sadrži stršeće
vrijednosti. Procijenite očekivanje, standardnu devijaciju i medijan distribucije iz koje
dolazi varijabla godine1. Usporedite dobivene procjene za varijable godine i godine1.
Što zaključujete?

(e) Procijenite distribuciju iz koje dolazi varijabla zdravlje te vjerojatnost da ispitanik


subjektivno ocijeni svoje zdravstveno stanje s barem 3.

(f) Procijenite distribuciju iz koje dolazi varijabla zdravlje, posebno za one koji imaju,
odnosno nemaju dodatno zdravstveno osiguranje. Potom procijenite vjerojatnost da
slučajno izabrani ispitanik ocijeni svoje zdravlje s 5 ako ima, odnosno nema dodatno
zdravstveno osiguranje i komentirajte.

(g) Procijenite vjerojatnost da slučajno odabrani ispitanik ima najviše 2 zdravstvena pre-
gleda u godini. Na temelju dobivenog, procijenite vjerojatnost da u (novom) slučajnom
uzorku od 200 ispitanika njih barem 90 ima najviše 2 zdravstvena pregleda u godini.
Koliko takvih ispitanika očekujete u novom uzorku?

9
Praktični dio materijala

(h) Procijenite i grafički prikažite funkciju distribucije i funkciju gustoće varijable cijena.
Je li distribucija simetrična?

(i) Pretpostavite da ima smisla koristiti normalnu distribuciju kao statistički model za
varijablu cijena. Zapišite parametarski statistički model i procijenite pripadni pa-
rametar (koje je dimenzije?). Koristeći dobiveni model procijenite vjerojatnost da
slučajno odabrani ispitanik plati najskuplji zdravstveni pregled u godini više od 200 kn.

(j) Na jednom grafu prikažite empirijsku funkciju distribucije varijable cijena i funkciju
distribucije normalne slučajne varijable iz prethodnog podzadatka. Koristeći empirij-
sku funkciju distribucije procijenite vjerojatnost da slučajno odabrani ispitanik plati
najskuplji zdravstveni pregled u godini više od 200 kn. Usporedite s dobivenom rezul-
tatom iz prethodnog podzadatka. Komentirajte.


#( a )
q u a n t i l e ( godine , c ( 0 . 2 5 , 0 . 5 , 0 . 7 5 ) )

#d o n j i k v a r t i l , medijan , g o r n j i k v a r t i l :
#25% 50% 75%
#3 5 . 0 4 0 . 0 5 3 . 5

#i n t e r p r e t a c i j e p r o c j e n e g o r n j e g k v a r t i l a :
#v j e r o j a t n o s t da s l u č a j n o o d a b r a n i i s p i t a n i k i z ove p o p u l a c i j e
#bude mlađi od 5 3 . 5 i z n o s i barem 0 . 7 5

#( b )
mean ( g o d i n e )
sd ( g o d i n e )
#o č e k i v a n a dob s l u č a j n o odabranog i s p i t a n i k a j e 4 6 . 6 1 godinu , a s t . dev .
29.06
#p r o c i j e n j e n a s t . dev u k a z u j e na v e l i k o o d s t u p a n j e od o č e k i v a n j a

#c )
boxplot ( godine )
#K u t i j a s t i d i j a g r a m u k a z u j e na p o s t o j a n j e s t r š e ć e v r i j e d n o s t i
#To o b j a š n j a v a v e l i k u v r i j e d n o s t s t a n d a r d n e d e v i j a c i j e
max( g o d i n e )
#s t r š e ć a v r i j e d n o s t : 235 g o d i n a ( nemoguće , k r i v o unesena v r i j e d n o s t u
tablicu )

#( d )
g o d i n e 1<−g o d i n e [ godine <150]
m u l t i . fun <− f u n c t i o n ( x ) {
c ( a r i t . s r e d = mean ( x ) , s t . dev = sd ( x ) , med = median ( x ) )
}
s a p p l y ( l i s t ( godine , g o d i n e 1 ) , m u l t i . fun )
# [ ,1] [ ,2]
#a r i t . s r e d 4 6 . 6 0 7 8 4 4 2 . 8 4 0 0 0
#s t . dev 29.05724 11.07923
#med 40.00000 39.50000

10
Praktični dio materijala

#Z a k l j u č u j e m o kako su s e p r o c j e n e za o č e k i v a n j e i standardnu d e v i j a c i j u
#v i š e p r o m i j e n i l e u odnosu na p r o c j e n u za medijan
#( p r o c j e n a medijana n i j e o s j e t l j i v a na s t r š e ć e v r i j e d n o s t i )

#e )
prop . t a b l e ( t a b l e ( z d r a v l j e ) )
#z d r a v l j e
#1 2 3 4 5
#0 . 0 7 8 4 3 1 3 7 0 . 1 5 6 8 6 2 7 5 0 . 3 5 2 9 4 1 1 8 0 . 2 3 5 2 9 4 1 2 0 . 1 7 6 4 7 0 5 9
sum ( prop . t a b l e ( t a b l e ( z d r a v l j e ) ) [ 3 : 5 ] )

# procjena v j e r o j a t n o s t i : 0.765

#f )
prop . t a b l e ( t a b l e ( z d r a v l j e [ dodatno_z d r a v s t v e n o ==1]) )
#1 2 3 4 5
#0 . 0 7 1 4 2 8 5 7 0 . 0 7 1 4 2 8 5 7 0 . 2 1 4 2 8 5 7 1 0 . 2 1 4 2 8 5 7 1 0 . 4 2 8 5 7 1 4 3
prop . t a b l e ( t a b l e ( z d r a v l j e [ dodatno_z d r a v s t v e n o ==0]) )
#1 2 3 4 5
#0 . 0 8 1 0 8 1 0 8 0 . 1 8 9 1 8 9 1 9 0 . 4 0 5 4 0 5 4 1 0 . 2 4 3 2 4 3 2 4 0 . 0 8 1 0 8 1 0 8

#p r o c j e n e v j e r o j a t n o s t i :
#ima dopunsko : 0 . 4 2 8 5 7 1 4 3 , nema dopunsko : 0 . 0 8 1 0 8 1 0 8

#p r i m j e ć u j e m o da j e puno veća v j e r o j a t n o s t da i s p i t a n i k
#o c i j e n i s v o j e z d r a v l j e s 5 kod o n i h k o j i imaju dopunsko

#g )
e c d f ( b r o j_p r e g l e d a ) ( 2 )
#Binomna d i s t r i b u c i j a X=B( n , p ) s parametrima : n=200 , p =0.412
#Zanima nas v j e r o j a t n o s t P(X>=90)=1−P(X<=89)
1−pbinom ( 8 9 , 2 0 0 , 0 . 4 1 2 )
#0 . 1 5 4
#očekujemo E [X]=np=200∗ 0 . 4 1 2 = 8 2 . 4 ~ 82 o s o b e u novom uzorku

#h )
plot ( ecdf ( cijena ) )
plot ( density ( cijena ) )
#n i j e

#i )
#s t a t i s t i č k i model :
#p o g l e d a t i P r i m j e r 2 . s p r e d a v a n j a ( S t a t i s t i č k i model )
#parametar \ t h e t a =(\mu, \ sigma ^2) , g d j e j e su \mu i \ sigma ^2 o č e k i v a n j e
#i v a r i j a n c a normalne d i s t r i b u c i j e
#p r o c j e n a za \mu ( o č e k i v a n j e ) :
mean ( c i j e n a ) #1 7 4 . 2 1 9 4
#p r o c j e n a za \ sigma ^2 ( v a r i j a n c a ) :
var ( c i j e n a ) #1 0 6 4 . 7 9 3
#p r o c j e n a v j e r o j a t n o s t i : P(X>200)
1−pnorm ( 2 0 0 , 1 7 4 . 2 1 9 4 , 3 2 . 6 3 1 1 6 )
#0 . 2 1 5

11
Praktični dio materijala

#j )
plot ( ecdf ( cijena ) )
c u r v e ( pnorm ( x , 1 7 4 . 2 1 9 4 , 3 2 . 6 3 1 1 6 ) , add = TRUE, c o l = ’ r e d ’ , lwd = 3 )
1− e c d f ( c i j e n a ) ( 2 0 0 )
#0 . 2 5 5
#uočavamo r a z l i k u u procjenama ( 0 . 0 4 ) j e r za v a r i j a b l u c i j e n a normalna
distribucija
#kao s t a t i s t i č k i model n i j e p r i k l a d n a .
 

12

You might also like