Professional Documents
Culture Documents
2 Procjena distribucije 2
2.1 Procjena funkcije distribucije . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Analiza distribucije iz koje dolazi uzorak . . . . . . . . . . . . . . . . . . . 4
3 Procjenitelji 7
(a) Procijenite očekivanje, varijancu i medijan distribucije iz koje dolazi varijabla placa_prije.
(b) Procijenite vjerojatnost da slučajno odabrani djelatnik ima visoku stručnu spremu.
d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici )
attach ( d j e l a t n i c i )
#( a )
#P r o c j e n a o č e k i v a n j a :
mean ( p l a c a_p r i j e )
#P r o c j e n a v a r i j a n c e :
var ( p l a c a_p r i j e )
#P r o c j e n a medijana :
median ( p l a c a_p r i j e )
#( b )
prop . t a b l e ( t a b l e ( o b r a z o v a n j e ) )
#P r o c j e n a t e v j e r o j a t n o s t i j e 0 . 0 6 .
#( c )
prop . t a b l e ( t a b l e ( dob >35) )
#P r o c j e n a t e v j e r o j a t n o s t i j e 0 . 2 6 .
1
Praktični dio materijala
2 Procjena distribucije
Distribuciju iz koje dolazi uzorak možemo izučavati na nekoliko načina.
#možemo j e k o r i s t i t i i kao f u n k c i j u za p r o c j e n u v j e r o j a t n o s t i
x <− rnorm ( 1 0 0 )
Fn <− e c d f ( x )
Fn ( 1 ) #p r o c j e n a za F ( 1 ) − r e l a t i v n a f r e k v e n c i j a v r i j e d n o s t i manjih i l i
jednakih 1
prop . t a b l e ( t a b l e ( x<=1))
pnorm ( 1 ) #ovo j e t e o r i j s k a v r i j e d n o s t k o j u o v d j e znamo j e r smo uzorak
s i m u l i r a l i i z s t a n d a r d n e normalne d i s t r i b u c i j e
(b) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude veća od 50.
(c) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude veća od 55 i manja ili jednaka 75.
(d) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude manja od 55.1.
2
Praktični dio materijala
(e) Procijenite vjerojatnost da kod slučajno odabrane osobe izmjerena koncentracija hor-
mona gastrS bude manja ili jednaka 55.1.
hormon <− r e a d . c s v 2 ( ’ hormon . c s v ’ )
s t r ( hormon )
hormon2 <− na . omit ( hormon )
s t r ( hormon2 )
a t t a c h ( hormon2 )
#( a )
plot ( ecdf ( gastrS ) )
#( b )
Fn <− e c d f ( g a s t r S )
1−Fn ( 5 0 )
#i l i direktno relativnom frekvencijom :
prop . t a b l e ( t a b l e ( g a s t r S > 5 0 ) )
#( c )
Fn ( 7 5 ) − Fn ( 5 5 )
#i l i
prop . t a b l e ( t a b l e ( g a s t r S > 55 & g a s t r S <= 7 5 ) )
#( d )
prop . t a b l e ( t a b l e ( g a s t r S < 5 5 . 1 ) )
#( e )
prop . t a b l e ( t a b l e ( g a s t r S <= 5 5 . 1 ) )
#i l i
Fn ( 5 5 . 1 )
#( f )
prop . t a b l e ( t a b l e ( d i j a g n o z a ) )
#ECDF j e k o n z i s t e n t a n p r o c j e n i t e l j i k o n v e r g i r a t ć e t e o r i j s k o j f u n k c i j i
distribucije
#Za uzorak i z N( 0 , 1 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− rnorm ( i )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −4 , 4 ) , main = p a s t e ( " n =" ,
i))
c u r v e ( pnorm ( x ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}
#Za uzorak i z U( 0 , 1 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
3
Praktični dio materijala
x <− r u n i f ( i )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −0.5 , 1 . 5 ) , main = p a s t e ( " n
=" , i ) )
c u r v e ( p u n i f ( x ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}
#Za uzorak i z E( 1 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− rexp ( i )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −0.5 , 8 ) , main = p a s t e ( " n ="
, i))
c u r v e ( pexp ( x ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}
#Za uzorak i z P o i s s o n o v e ( 3 )
n <− c ( 1 0 , 5 0 , 1 0 0 , 1 0 0 0 )
par ( mfrow = c ( 2 , 2 ) )
for ( i in n) {
x <− r p o i s ( i , 3 )
p l o t ( e c d f ( x ) , c o l = " r e d " , lwd = 2 , xlim = c ( −1 , 9 ) , main = p a s t e ( " n =" ,
i))
c u r v e ( p p o i s ( x , 3 ) , c o l = ’ b l u e ’ , lwd = 3 , l t y = 3 , add = T)
}
4
Praktični dio materijala
#Histogram uz p r e t p o s t a v l j e n u t e o r i j s k u g u s t o ć u s p r o c i j e n j e n i m parametrima
h i s t ( uzorak , p r o b a b i l i t y = TRUE)
c u r v e ( dnorm ( x , mean ( uzorak ) , sd ( uzorak ) ) , −3, 3 , add = TRUE) #x j e ime
argumenta f u n k c i j e dnorm k o j i f u n k c i j a c u r v e k o r i s t i za c r t a n j e
5
Praktični dio materijala
• sve osim nekoliko točaka ne leže na pravcu — moguće postojanje stršećih vrijednosti,
• lijevi i desni krajevi se nalaze ispod ili iznad pravca — repovi distribucija se ne
podudaraju,
#P r i m j e r :
x <− rnorm ( 1 0 0 0 , 5 , 1 )
qqnorm ( x )
qqline (x)
#Točke su o p e t na pravcu , a l i sada t o n i j e y=x . D i s t r i b u c i j e su povezane
linearnom transformacijom .
#P r i m j e r :
#Pokušajmo u s p o r e d i t i x s t−d i s t r i b u c i j o m s 4 s t u p n j a s l o b o d e . One su
s l i č n e a l i t ima t e ž e r e p o v e .
#F u n k c i j a p p o i n t s ( x ) g e n e r i r a v r i j e d n o s t i u kojima ć e s e r a č u n a t i
vrijednost kvantila
#f u n k c i j o m qt ( k v a n t i l t d i s t r i b u c i j e )
x <− rnorm ( 1 0 0 0 , 0 , 1 )
q q p l o t ( qt ( p p o i n t s ( x ) , 4 ) , x )
q q l i n e ( x , d i s t r i b u t i o n = f u n c t i o n ( q ) qt ( q , 4 ) )
#vidimo da s r e d n j i d i o l e ž i na pravcu , a l i k r a j e v i su z a k r i v l j e n i š t o
u k a z u j e na r a z l i k e u d i s t r i b u c i j i r e p a
#t o u k a z u j e da smo v j e r o j a t n o p o g r e š n o p r e t p o s t a v i l i t d i s t r i b u c i j u uzorka
#P r i m j e r :
x <− rexp ( 1 0 0 0 , 1 )
qqnorm ( x )
qqline (x)
#z a k r i v l j e n o s t u k a z u j e da j e d i s t r i b u c i j a a s i m e t r i č n a
#usporedimo l i s k v a n t i l i m a e k s p o n e n c i j a l n e d i s t r i b u c i j e
q q p l o t ( qexp ( p p o i n t s ( x ) , 1 ) , x )
q q l i n e ( x , d i s t r i b u t i o n = qexp )
#t o č k e l e ž e na pravcu i t o baš y=x
6
Praktični dio materijala
d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici )
attach ( d j e l a t n i c i )
#V i s i n a :
h i s t ( v i s i n a , p r o b a b i l i t y = TRUE)
c u r v e ( dnorm ( x , mean ( v i s i n a ) , sd ( v i s i n a ) ) , add=TRUE, c o l=" r e d " )
plot ( density ( visina ) )
c u r v e ( dnorm ( x , mean ( v i s i n a ) , sd ( v i s i n a ) ) , add=TRUE, c o l=" r e d " )
qqnorm ( v i s i n a )
qqline ( visina )
#G r a f i č k i p r i k a z i s u g e r i r a j u da j e v i s i n a normalno d i s t r i b u i r a n o o b i l j e ž j e .
#Pl ac a p r i j e
h i s t ( p l a c a_p r i j e , p r o b a b i l i t y = TRUE)
c u r v e ( dnorm ( x , mean ( p l a c a_p r i j e ) , sd ( p l a c a_p r i j e ) ) , add=TRUE, c o l=" r e d " )
p l o t ( d e n s i t y ( p l a c a_p r i j e ) )
c u r v e ( dnorm ( x , mean ( p l a c a_p r i j e ) , sd ( p l a c a_p r i j e ) ) , add=TRUE, c o l=" r e d " )
qqnorm ( p l a c a_p r i j e )
q q l i n e ( p l a c a_p r i j e )
#O č i g l e d n o p l a c a_p r i j e ne d o l a z i i z normalne d i s t r i b u c i j e .
#Uočavamo a s i m e t r i č n o s t u odnosu na normalnu d i s t r i b u c i j u .
3 Procjenitelji
Svojstva procjenitelja možemo testirati i kroz simulacije na način da izučavamo njihove
vrijednosti na puno (N ) generiranih uzoraka iste veličine (n).
Zadatak 5. 1 Ivica skuplja sličice, ali ne zna koliko ih ima ukupno. Sličice su numerirane
brojevima 1, . . . , K pri čemu je K nepoznat. Dosad je skupio n sličica x1 , . . . , xn . Kako
bi na osnovu toga procijenio ukupan broj sličica, Ivica je definirao tri procjene:
θb1 = max{x1 , . . . , xn },
n+1
θb2 = max{x1 , . . . , xn },
n
θb3 = 2x̄n .
1
Problem originalno potječe iz Drugog svjetskog rata kada je jedno od pitanja kojim su se bavili
saveznici bilo kolika je njemačka mjesečna proizvodnja tenkova. Zabilježeni su serijski brojevi nekih
komponenti zaplijenjenih i uništenih tenkova (to odgovara brojevima na sličicama koje je Ivan dobio).
Na osnovu toga je procijenjen broj tenkova i pokazalo se da su procjene bile daleko bolje od obavještajnih
procjena. Za više detalja vidjeti: https://en.wikipedia.org/wiki/German_tank_problem
7
Praktični dio materijala
Napravite simulaciju kojom ćete testirati svojstva definiranih procjenitelja na sljedeći na-
čin: generirajte 1000 uzoraka veličine 10 iz diskretne uniformne distribucije na {1, . . . , 100}.
Za svaki od uzoraka izračunajte vrijednosti sva tri procjenitelja. Usporedite procijenjene
gustoće tri niza dobivenih procjena. Izračunajte prosjek i varijancu dobivenih procjena.
t h e t a 1 <− f u n c t i o n ( x ) max( x )
t h e t a 2 <− f u n c t i o n ( x ) ( ( l e n g t h ( x ) + 1 ) / l e n g t h ( x ) ) ∗ max( x )
t h e t a 3 <− f u n c t i o n ( x ) 2 ∗ mean ( x )
N <− 1000
v r i j t h e t a 1 <− c ( )
v r i j t h e t a 2 <− C( )
v r i j t h e t a 3 <− c ( )
f o r ( i i n 1 :N) {
uzorak <− sample ( 1 : 1 0 0 , 1 0 , r e p l a c e = TRUE)
v r i j t h e t a 1 <− c ( v r i j t h e t a 1 , t h e t a 1 ( uzorak ) )
v r i j t h e t a 2 <− c ( v r i j t h e t a 2 , t h e t a 2 ( uzorak ) )
v r i j t h e t a 3 <− c ( v r i j t h e t a 3 , t h e t a 3 ( uzorak ) )
}
par ( mfrow = c ( 1 , 3 ) )
p l o t ( d e n s i t y ( v r i j t h e t a 1 ) , main = e x p r e s s i o n ( hat ( t h e t a [ 1 ] ) ) )
a b l i n e ( v = 100)
p l o t ( d e n s i t y ( v r i j t h e t a 2 ) , main = e x p r e s s i o n ( hat ( t h e t a [ 2 ] ) ) )
a b l i n e ( v = 100)
p l o t ( d e n s i t y ( v r i j t h e t a 3 ) , main = e x p r e s s i o n ( hat ( t h e t a [ 3 ] ) ) )
a b l i n e ( v = 100)
#O č i g l e d n o t h e t a 3 ima n a j v e ć u v a r i j a n c u .
#t h e t a 2 n a j b l i ž e j e s t v a r n o j v r i j e d n o s t i :
mean ( v r i j t h e t a 1 )
mean ( v r i j t h e t a 2 )
mean ( v r i j t h e t a 3 )
var ( v r i j t h e t a 1 )
var ( v r i j t h e t a 2 )
var ( v r i j t h e t a 3 )
8
Praktični dio materijala
Zadaci za vježbu
Zadatak 6. Tablica podataka zdravlje nalaze se zdravstveni podaci anketiranih ispita-
nika.
(a) Procijenite donji kvartil, medijan i gornji kvartil distribucije iz koje dolazi varijabla
godine. Interpretirajte vrijednost procjene gornjeg kvartila.
(b) Procijenite očekivanje i standardnu devijaciju distribucije iz koje dolazi varijabla go-
dine. Na što ukazuje standarnda devijacija?
(c) Postoji li stršeća vrijednost među podacima varijable godine (ako postoji, zapišite ju i
komentirajte)? Tvrdnju podkrijepite prikladnim grafičkim prikazom.
(d) Napravite novu varijablu godine1 koja opisuje dob ispitanika, ali ne sadrži stršeće
vrijednosti. Procijenite očekivanje, standardnu devijaciju i medijan distribucije iz koje
dolazi varijabla godine1. Usporedite dobivene procjene za varijable godine i godine1.
Što zaključujete?
(f) Procijenite distribuciju iz koje dolazi varijabla zdravlje, posebno za one koji imaju,
odnosno nemaju dodatno zdravstveno osiguranje. Potom procijenite vjerojatnost da
slučajno izabrani ispitanik ocijeni svoje zdravlje s 5 ako ima, odnosno nema dodatno
zdravstveno osiguranje i komentirajte.
(g) Procijenite vjerojatnost da slučajno odabrani ispitanik ima najviše 2 zdravstvena pre-
gleda u godini. Na temelju dobivenog, procijenite vjerojatnost da u (novom) slučajnom
uzorku od 200 ispitanika njih barem 90 ima najviše 2 zdravstvena pregleda u godini.
Koliko takvih ispitanika očekujete u novom uzorku?
9
Praktični dio materijala
(h) Procijenite i grafički prikažite funkciju distribucije i funkciju gustoće varijable cijena.
Je li distribucija simetrična?
(i) Pretpostavite da ima smisla koristiti normalnu distribuciju kao statistički model za
varijablu cijena. Zapišite parametarski statistički model i procijenite pripadni pa-
rametar (koje je dimenzije?). Koristeći dobiveni model procijenite vjerojatnost da
slučajno odabrani ispitanik plati najskuplji zdravstveni pregled u godini više od 200 kn.
(j) Na jednom grafu prikažite empirijsku funkciju distribucije varijable cijena i funkciju
distribucije normalne slučajne varijable iz prethodnog podzadatka. Koristeći empirij-
sku funkciju distribucije procijenite vjerojatnost da slučajno odabrani ispitanik plati
najskuplji zdravstveni pregled u godini više od 200 kn. Usporedite s dobivenom rezul-
tatom iz prethodnog podzadatka. Komentirajte.
#( a )
q u a n t i l e ( godine , c ( 0 . 2 5 , 0 . 5 , 0 . 7 5 ) )
#d o n j i k v a r t i l , medijan , g o r n j i k v a r t i l :
#25% 50% 75%
#3 5 . 0 4 0 . 0 5 3 . 5
#i n t e r p r e t a c i j e p r o c j e n e g o r n j e g k v a r t i l a :
#v j e r o j a t n o s t da s l u č a j n o o d a b r a n i i s p i t a n i k i z ove p o p u l a c i j e
#bude mlađi od 5 3 . 5 i z n o s i barem 0 . 7 5
#( b )
mean ( g o d i n e )
sd ( g o d i n e )
#o č e k i v a n a dob s l u č a j n o odabranog i s p i t a n i k a j e 4 6 . 6 1 godinu , a s t . dev .
29.06
#p r o c i j e n j e n a s t . dev u k a z u j e na v e l i k o o d s t u p a n j e od o č e k i v a n j a
#c )
boxplot ( godine )
#K u t i j a s t i d i j a g r a m u k a z u j e na p o s t o j a n j e s t r š e ć e v r i j e d n o s t i
#To o b j a š n j a v a v e l i k u v r i j e d n o s t s t a n d a r d n e d e v i j a c i j e
max( g o d i n e )
#s t r š e ć a v r i j e d n o s t : 235 g o d i n a ( nemoguće , k r i v o unesena v r i j e d n o s t u
tablicu )
#( d )
g o d i n e 1<−g o d i n e [ godine <150]
m u l t i . fun <− f u n c t i o n ( x ) {
c ( a r i t . s r e d = mean ( x ) , s t . dev = sd ( x ) , med = median ( x ) )
}
s a p p l y ( l i s t ( godine , g o d i n e 1 ) , m u l t i . fun )
# [ ,1] [ ,2]
#a r i t . s r e d 4 6 . 6 0 7 8 4 4 2 . 8 4 0 0 0
#s t . dev 29.05724 11.07923
#med 40.00000 39.50000
10
Praktični dio materijala
#Z a k l j u č u j e m o kako su s e p r o c j e n e za o č e k i v a n j e i standardnu d e v i j a c i j u
#v i š e p r o m i j e n i l e u odnosu na p r o c j e n u za medijan
#( p r o c j e n a medijana n i j e o s j e t l j i v a na s t r š e ć e v r i j e d n o s t i )
#e )
prop . t a b l e ( t a b l e ( z d r a v l j e ) )
#z d r a v l j e
#1 2 3 4 5
#0 . 0 7 8 4 3 1 3 7 0 . 1 5 6 8 6 2 7 5 0 . 3 5 2 9 4 1 1 8 0 . 2 3 5 2 9 4 1 2 0 . 1 7 6 4 7 0 5 9
sum ( prop . t a b l e ( t a b l e ( z d r a v l j e ) ) [ 3 : 5 ] )
# procjena v j e r o j a t n o s t i : 0.765
#f )
prop . t a b l e ( t a b l e ( z d r a v l j e [ dodatno_z d r a v s t v e n o ==1]) )
#1 2 3 4 5
#0 . 0 7 1 4 2 8 5 7 0 . 0 7 1 4 2 8 5 7 0 . 2 1 4 2 8 5 7 1 0 . 2 1 4 2 8 5 7 1 0 . 4 2 8 5 7 1 4 3
prop . t a b l e ( t a b l e ( z d r a v l j e [ dodatno_z d r a v s t v e n o ==0]) )
#1 2 3 4 5
#0 . 0 8 1 0 8 1 0 8 0 . 1 8 9 1 8 9 1 9 0 . 4 0 5 4 0 5 4 1 0 . 2 4 3 2 4 3 2 4 0 . 0 8 1 0 8 1 0 8
#p r o c j e n e v j e r o j a t n o s t i :
#ima dopunsko : 0 . 4 2 8 5 7 1 4 3 , nema dopunsko : 0 . 0 8 1 0 8 1 0 8
#p r i m j e ć u j e m o da j e puno veća v j e r o j a t n o s t da i s p i t a n i k
#o c i j e n i s v o j e z d r a v l j e s 5 kod o n i h k o j i imaju dopunsko
#g )
e c d f ( b r o j_p r e g l e d a ) ( 2 )
#Binomna d i s t r i b u c i j a X=B( n , p ) s parametrima : n=200 , p =0.412
#Zanima nas v j e r o j a t n o s t P(X>=90)=1−P(X<=89)
1−pbinom ( 8 9 , 2 0 0 , 0 . 4 1 2 )
#0 . 1 5 4
#očekujemo E [X]=np=200∗ 0 . 4 1 2 = 8 2 . 4 ~ 82 o s o b e u novom uzorku
#h )
plot ( ecdf ( cijena ) )
plot ( density ( cijena ) )
#n i j e
#i )
#s t a t i s t i č k i model :
#p o g l e d a t i P r i m j e r 2 . s p r e d a v a n j a ( S t a t i s t i č k i model )
#parametar \ t h e t a =(\mu, \ sigma ^2) , g d j e j e su \mu i \ sigma ^2 o č e k i v a n j e
#i v a r i j a n c a normalne d i s t r i b u c i j e
#p r o c j e n a za \mu ( o č e k i v a n j e ) :
mean ( c i j e n a ) #1 7 4 . 2 1 9 4
#p r o c j e n a za \ sigma ^2 ( v a r i j a n c a ) :
var ( c i j e n a ) #1 0 6 4 . 7 9 3
#p r o c j e n a v j e r o j a t n o s t i : P(X>200)
1−pnorm ( 2 0 0 , 1 7 4 . 2 1 9 4 , 3 2 . 6 3 1 1 6 )
#0 . 2 1 5
11
Praktični dio materijala
#j )
plot ( ecdf ( cijena ) )
c u r v e ( pnorm ( x , 1 7 4 . 2 1 9 4 , 3 2 . 6 3 1 1 6 ) , add = TRUE, c o l = ’ r e d ’ , lwd = 3 )
1− e c d f ( c i j e n a ) ( 2 0 0 )
#0 . 2 5 5
#uočavamo r a z l i k u u procjenama ( 0 . 0 4 ) j e r za v a r i j a b l u c i j e n a normalna
distribucija
#kao s t a t i s t i č k i model n i j e p r i k l a d n a .
12