You are on page 1of 10

Comparació de les estimacions dels paràmetres en la

distribució gamma. Mètode dels Moments i de


Màxima Versemblança
Yasmin Belkhir, Hector Mata, Neus Vegas

4 de desembre de 2020

Resum
En aquest article generem una funció gamma per estudiar dos mètodes d’esti-
mació (els estimadors de moments i de màxima versemblança) i ens basem en el
biaix, la variància i l’error quadràtic mitjà per poder-los evaluar. Comparem els es-
timadors dels paràmetres emprant simulacions canviant la mida mostral i els valors
paràmetres reals. Per dur a terme l’anàlisi de les dades aplicarem diferents tècniques
informàtiques utilitzant RStudio.

1
1 Introducció
Aquest estudi busca saber quin dels dos mètodes d’estimació que emprearem ens dona un
resultat més acertat en una distribució gamma per a determinats valors dels paràmetres,
mitjançant mostres simulades d’aquesta distribució.
Els dos mètode que utilitzarem per estimar són: el mètode de màxima versemblança
(MLE) i el mètode d’estimació de moments. Aplicant els dos podrem generar histogra-
mes que ens mostrin els estimadors possibles per als paràmetres ν i α.
Per comparar-los haurem de calcular el biaix i l’error quadràtic mitjà i poder decidir quin
s’ajusta més a la distribució gamma.

2 Metodologia
La funció de distribució de gamma és:

αν
f (x; α; ν) = Γ(ν)
xν−1 exp(−νx), x>0

Per poder comparar els mètodes d’estimació, fixem els paràmetres α = 0.2 i ν = 0.5,
la mida mostral n = 500 i el nombre de repeticions N = 1000 vegades. Generem amb
RStudio 500 valors d’una distribució gamma i guardem en vectors els 1000 valors de les
estimacions de cada paràmetre per cadascuna de les mostres de gamma generades.

Realitzem un histograma per als valors estimats de cada parámetre amb els resultats
de les múltiples simulacions dels estimadors pels dos mètodes proposats.

2.1 Mètode dels moments:

al<-0.20; nu<-0.50; n<-100


n.rep<-1000
alm<-numeric(n.rep)
num<-numeric(n.rep)
for(k in 1:n.rep){
xdat<-rgamma(n,shape=nu,scale=1/al)
mu<-mean(xdat)
s2<-var(xdat)
alm[k]<-mu/s2
num[k]<-mu^2/s2
}

2
par(bg="grey98", mar=c(6,5,4,1), mfcol=c(1,2))
hist(num, main="Estimacions de nu per Moments", xlab = "Valors estimats
de nu")
mitjanuM<-mean(num); abline(v=mitjanuM,col="red")
abline(v=nu,col="blue")

hist(alm, main="Estimacions de alpha per Moments", xlab = "Valors estimats


d'alpha")
mitjalphaM<-mean(alm); abline(v=mitjalphaM,col="red")
abline(v=al,col="blue")

Estimacions de nu per Moments Estimacions de alpha per Moments

250
250
Frequency

Frequency

150
150

0 50
0 50

0.2 0.4 0.6 0.8 1.0 0.1 0.2 0.3 0.4


Valors estimats Valors estimats
de nu d'alpha

El plot de la esquerra en mostra els valors estimats en les simulacions de la distribució


gamma per a ν i el de la dreta els valors estimats d’α pel mètode dels moments. Les
ablines blaves marquen els valors de ν i α reals, mentre que les ablines vermelles ens
senyalen les mitjanes de ν i α per les simulacions.

Com podem observar, la mitjana de ν̂ és 0.5404051 i la de α̂ és 0.2195653.

2.2 Mètode de Màxima Versemblança


Per comparar els gràfics obtinguts, generarem també els histogrames per al mètode de
Màxima Versemblança.

library(MASS)
nu<-0.5; al<- 0.2
estimadornu<-numeric(n.rep)
estimadoralpha<-numeric(n.rep)
for(k in 1:n.rep){
xdat2<-rgamma(n,shape= nu ,scale=1/al)

3
res<-fitdistr(xdat2, densfun="gamma")
estimadoralpha[k]<-res$estimate[2]
estimadornu[k]<-res$estimate[1]
}

par(bg="grey98", mar=c(6,5,4,1), mfcol=c(1,2))


hist(estimadornu, main="Estimacions de nu per MLE",
xlab = "Valors estimats de nu")
mitjanu<-mean(estimadornu); abline(v=mitjanu,col="red")
abline(v= nu ,col="blue")

hist(estimadoralpha, main="Estimacions de alpha per MLE",


xlab = "Valors estimats d'alpha")
mitjalpha<-mean(estimadoralpha); abline(v=mitjalpha,col="red")
abline(v=al,col="blue")

Estimacions de nu per MLE Estimacions de alpha per MLE


200
250

150
Frequency

Frequency

100
150

50
0 50

0.4 0.5 0.6 0.7 0.8 0.10 0.15 0.20 0.25 0.30 0.35 0.40

Valors estimats de nu Valors estimats d'alpha

El plot de la esquerra en mostra els valors que s’han estimat en les simulacions de la
distribució gamma per a ν i el de la dreta els valors estimats d’α pel mètode de màxima
versemblança. Les ablines blaves marquen els valors de ν i α reals, mentre que les ablines
vermelles ens senyalen les mitjanes de ν i α per les simulacions.

Com podem observar, la mitjana de ν̂ és 0.5105711 i la de α̂ és 0.2092445.

Amb els resultats representats en els histogrames veiem que la diferència entre la
mitjana de ν̂ i el seu valor real, i entre α̂ i el seu valor real és molt petita. Tot i així veiem
una distància menor en els gràfics de MLE.

4
2.3 MSE, RMSE, biaix i variància.
Com hem vist anteriorment, la diferència de valors obtinguts en els dos mètodes és molt
petita, però un dels dos casos serà el que s’ajusta millor a la nostra distribució gamma.
Podem intuïr que el millor serà el que ha donat una mitjana més propera al valor real
però fem les comprovacions adients.

Per poder saber quin estimador és més acertat hem de tenir en compte el biaix, que
és la diferència entre el valor estimat i el valor real(en aquest cas ν = 0.5 i α = 0.2), i la
variància del estimador.

1. Calculem l’error quadràtic mitja , conegut també en anglès per Mean Squared Er-
ror(MSE), dels estimadors. Amb el qual podrem fer una comparació d’eficiència, ja que
inclou la informació de variància i biaix.

M SE(φ̂) = V ar(φ̂) + b(φ̂)2


Per al mètode dels moments:

varalM<- sum((alm-mean(alm))^2)/n.rep; varnuM<-sum((num-mean(num))^2)/n.rep

biaxalM<-sum(abs(alm-al))/n.rep; biaixnuM<-sum(abs(num-nu))/n.rep

MSEalM<-varalM + biaxalM^2
MSEnuM<-varnuM + biaixnuM^2

El MSE d’α és 0.006 i el de ν de 0.024 .

Per al mètode de màxima Versemblança :

varal<- sum((estimadoralpha- mean(estimadoralpha) )^2)/n.rep


varnu<-sum((estimadornu-mean(estimadornu))^2)/n.rep
biaxal<-sum(abs(estimadoralpha-al))/n.rep
biaixnu<-sum(abs(estimadornu-nu))/n.rep

MSEal<-varal + biaxal^2
MSEnu<-varnu + biaixnu^2

El MSE d’α és 0.003 i el de ν de 0.006 .

Com sabem que el MSE és la suma de la variància i el biaix, és lògic pensar que a
menor valor de MSE més acertat serà l’estimador.

2. Prenent l’arrel quadrada de l’error quadràtic mitjà tenim el RMSE. A diferència


del MSE, el RMSE utilitza la mateixa unitat de mesura que el paràmetre d’interès.

Per al mètode dels moments:

5
RMSEalM<-sqrt(MSEalM)
RMSEnuM<-sqrt(MSEnuM)

El RMSE d’α és 0.075 i el de ν de 0.155 .

Per al mètode de màxima Versemblança :

RMSEal<-sqrt(MSEal)
RMSEnu<-sqrt(MSEnu)

El RMSE d’α és 0.051 i el de ν de 0.078 .

En aquest cas, observem que el RMSE de ν i d’α, calculat a partir del mètode dels
moments, ens dona valors elevats a diferència que si els calculem a partir del mètode de
versemblança.

Amb els resultats obtinguts fins ara tenim que el millor mètode per predir els paràme-
tres d’una distribució gamma és el de màxima versemblança. Com hem vist és el que ens
mostrarà un valor més proper i amb una variància més petita, sobretot en el cas d’estimar
el parámetre ν.

2.4 Com millorar les estimacions.


Comprovem que succeeix en augmentar la mida de la mostra n= 100, 500, 1000 i 5000.

Nu amb n=100 Nu amb n=500 Nu amb n=1000 Nu amb n=5000


30

25

25
250

20

20
20
Frequency

Frequency

Frequency

Frequency
15

15
150

10

10
10

5
0 50

5
0

0.48 0.50 0.52 0.48 0.50 0.52 0.48 0.50 0.52 0.48 0.50 0.52

Valors estimats de nu Valors estimats de nu Valors estimats de nu Valors estimats de nu


Alpha amb n=100 Alpha amb n=500 Alpha amb n=1000 Alpha amb n=5000
200

30
10 15 20 25

20
150
Frequency

Frequency

Frequency

Frequency
15

20
100

10

5 10
50

5
5
0

0.18 0.20 0.22 0.18 0.20 0.22 0.18 0.20 0.22 0.18 0.20 0.22

6
Taula 1: Per màxima versemblança

ν n=100 n=500 n=1000 n=5000


Variància 0.0037 7 × 10−4 3 × 10−4 10−4
Biaix 0.0485 0.0205 0.0135 0.0066
RMSE 0.0781 0.0328 0.0217 0.0106
α
Variància 0.0016 2 × 10−4 10−4 0
Biaix 0.0318 0.0122 0.0087 0.0047
RMSE 0.0511 0.0197 0.0138 0.0072

Hem reduït la representació gràfica per als valors de l’estimador per Versemblança
entre (0.48, 0.52) per nu
ˆ i entre (0.18, 0.22) per a α̂ . En ambdós casos veiem que a major
mida de la mostra més centrades estaràn les dades, per això s’observa cada vegada un
histograma amb més dades i menys "retallat". Això provoca que aquest valors s’aproximin
més al valor real, cada cop que augmentem la mostra la mitjana de les estimacions és mès
propera al valor real (ablines) i menor serà l’error.
Tal i com mostra la Taula 1, quan major es la n menor es la variància, menor és el
biaix i per tant, menor és el RMSE.

Veient això podem pensar que potser el mètode de Moments és igual de eficaç si
augmentem la mida, així doncs anem a comprovar-ho.

Nu amb n=100 Nu amb n=500E Nu amb n=1000 Nu amb n=5000


30

25

25
250

20

20
20
Frequency

Frequency

Frequency

Frequency
15

15
150

10

10
10

5
0 50

5
0

0.48 0.50 0.52 0.48 0.50 0.52 0.48 0.50 0.52 0.48 0.50 0.52

Valors estimats de nu Valors estimats de nu Valors estimats de nu Valors estimats de nu


Alpha amb n=100 Alpha amb n=500 Alpha amb n=1000 Alpha amb n=5000
200

30
10 15 20 25

20
150
Frequency

Frequency

Frequency

Frequency
15

20
100

10

5 10
50

5
5
0

0.18 0.20 0.22 0.18 0.20 0.22 0.18 0.20 0.22 0.18 0.20 0.22

7
Taula 2: Per màxima versemblança

ν n=100 n=500 n=1000 n=5000


Variància 0.0142 0.0029 0.0015 3 × 10−4
Biaix 0.0997 0.043 0.0307 0.0138
RMSE 0.1553 0.0686 0.0491 0.0221
α
Variància 0.0033 6 × 10−4 3 × 10−4 10−4
Biaix 0.0473 0.0202 0.0143 0.0064
RMSE 0.0747 0.0322 0.0229 0.0102

S’observa per als resultats obtinguts que succeeix el mateix que amb el mètode de
versemblança, és a dir, a major mostra millors estimacions, tot i que seguim obtenint
millors resultats per versemblança.
Tot i això, la Taula 1 i la Taula 2 no mostren cap estimador no esbiaixat (amb biaix =
0). Aquest cas seria el idoni, ja que ens donaria un estimador amb esperança igual a el
valor real del paràmetre.
Podem intuïr que si seguim augmentat la mostra arribarà un punt en el que el biax serà
nul, i per tant direm que aquest estimadors són consistents.

2.5 Canvi de paràmetres


Per comprovar que per a la distribuió gamma sempre és més vàlid aquest mètode genera-
rem proves canviant els valors de ν i α.

Per al mètode dels Moments:

Per a màxima versemblança:

8
Efectivament el mètode de màxima versemblança segueix sent el més eficient ja que
ens dona valors més petits de biaix, variància i RMSE.
Veiem també que s’aconsegueixen millors resultats quan tenim valors de ν i α petits,
tenint en compte que només poden ser positius.

3 Conclusions
Ara que ja hem fet totes les comprovacions adients, podem afirmar que el mètode més
eficaç a l’hora d’estimar els paràmetres d’una distribució gamma és el de màxima versem-
blança. A més sabem que els podem millorar augmentant la mida de la mostra.
Això es compleix per a qualsevol valor de ν i α i com més petit sigui el valor real d’aquests
paràmetres, més acertada s’erà l’estimació.
Hem de remarcar que el mètode de moments és igual de vàlid per estimar-los, i a més
té les seves avantatges. En aquest estudi em vist que a l’hora d’executar les comandes
de R per trobar els estimadors, compilava de manera molt més lenta per al mètode de
màxima versemblança. Això es deu a que els càlculs són molt més complexos i necessiten
més temps per a ser processats.

Per tant, sempre que tinguem una mostra gran i ens trobem en el cas d’una distribució
gamma; ens hem de plantejar si volem que la estimació sigui una mica més ajustada o
si preferim un procés més senzill, en aquest segon cas empreariem el mètode dels moments.

9
4 Bibliografia
Símbolos, tutoriales y recursos para escribir en LaTeX. (2020). Retrieved 4 December
2020, from https://manualdelatex.com/

Espinosa, C. (2020). Graficando con R. El inicio. Retrieved 4 December 2020, from


https://ciespinosa.github.io/Graficando/

Root Mean Square Error of Prediction - an overview, ScienceDirect Topics. (2020). Re-
trieved 4 December 2020, from https://www.sciencedirect.com/topics/engineering/root-
mean-square-error-of-prediction

knitr, S., and Marx, D. (2020). Suppress library comments from output with knitr. Re-
trieved 4 December 2020, from https://tex.stackexchange.com/questions/152488/suppress-
library-comments-from-output-with-knitr

R: Maximum-likelihood Fitting of Univariate Distributions. (2020). Retrieved 4 De-


cember 2020, from https://stat.ethz.ch/R-manual/R-patched/library/MASS/html/fitdistr.html

Save Time and Improve your Marks with CiteThisForMe, The No. 1 Citation Tool.
(2020). Retrieved 4 December 2020, from https://www.citethisforme.com/

10

You might also like