You are on page 1of 3

Institut for Matematiske Fag Kbenhavns Universitet

Sandsynlighedsregning og Statistik (SS) Michael Srensen, Helle Srensen December 2011

Projekt: Den logaritmiske normalfordeling

Projektet skal aeveres senest fredag 6. januar 2012 kl. 10.15 ved forelsningernes start. For sen aevering accepteres ikke! Projektet skal laves i grupper p 34 studerende. Gruppen aeverer en flles besvarelse. Brug den ocielle forside der ligger p Absalon, og udfyld den med navne, holdnumre og underskrifter.
Vi skal undersge den logaritmiske normalfordeling, dels sandsynlighedsteoretisk og ved simulation, og dels se hvordan man ved transformation kan analysere data der kan beskrives ved en logaritmisk normalfordeling. Der er vink til nogle af sprgsmlene, herunder hjlp til R, sidst i opgaven, men prv frst om I kan lse sprgsmlene uden hjlp.
Del 1: Sandsynlighedsregning

Lad X vre normalfordelt med middelvrdi og varians 2 . Fordelingen af Y = exp(X) kaldes den logaritmiske normalfordeling med parametre (, 2 )  naturligvis fordi log(Y ) er N (, 2 )-fordelt. 1. Vis at sandsynlighedsttheden for Y er givet ved

1 (log y )2 f (y) = exp 2 2 y 2 2

, y>0
2 /2

2. Vis at middelvrdien af Y er givet ved E(Y ) = e+


2

.
2

3. Vis at variansen for Y er givet ved Var(Y ) = (e 1)e2+ . Medianen for en kontinuert fordeling med fordelingfunktion F er det tal z hvor F (z) = 1/2. 4. Bestem medianen for X 's fordeling. Bestem derefter medianen for Y 's fordeling.
Del 2: Simulation

5. Simulr 5000 observationer fra den logaritmiske normalfordeling med parametre (5, 0.25). 6. Tegn et histogram p sandsynlighedsskala over de simulerede vrdier (sledes at det totale areal af rektanglerne er 1). Indtegn tthedsfunktionen 1

for den logaritmiske normalfordeling i samme tegning. Sammenlign histogrammet og tthedsfunktionen. 7. Beregn gennemsnit, stikprvevarians og stikprvespredning (y , s2 og s) samt stikprvemedian for de simulerede vrdier. Sammenlign med resultaterne fra sprgsml 24.
Del 3: Analyse af datast

Vi skal nu analysere et datast over det daglige indtag af A-vitamin for 2224 personer. Datasttet er tilgngeligt i len avit.txt. Der er to variable: avit der angiver det daglige indtag af A-vitamin (mlt i RE, dvs. mikrogram retinol), samt sex der har vrdien 1 hvis observationen er for en mand og 2 hvis observationen er for en kvinde. Data stammer fra en strre undersgelse af danskernes kostvaner fra 1986. (Haraldsdottir, J., Holm, L., Jensen, J.H. and Mller, A, 1986, Danskernes kostvaner 1985, Levnedsmiddelstyrelsen, publ. nr. 138.) 8. Indls datasttet i R. 9. Lav en ny variabel, avitM, der indeholder indtaget af A-vitamin for mndene. Hvor mange mnd indgr i undersgelsen? Lav en ny variabel mere, logavitM, der indeholder den naturlige logaritme til vrdierne i avitM. 10. Tegn histogrammer og QQ-plots for variablene avitM og logavitM. Diskuter gurerne. 11. Beregn gennemsnit, stikprvevarians og stikprvespredning for logavitM. 12. Tegn histogrammet for logavitM igen, denne gang sammen med ttheden for normalfordelingen med middelvrdi og varians lig med de vrdier I beregnede i sprgsml 11. Tegn ogs histogrammet for avitM igen, denne gang sammen med ttheden for den tilhrende logaritmiske normalfordeling. Diskuter gurerne. 13. Opstil en statistisk model for logavitM. Angiv estimaterne for parametrene i modellen. Angiv ogs den teoretiske samt den estimerede fordeling for estimatorerne. 14. Beregn et 95% kondensinterval for det gennemsnitlige logaritmiske Avitaminindtag for mnd. I skal bde beregne kondensintervallet 'i hnden' (dvs. stte tal ind i de rette formler) og bruge t.test funktionen. Kontrollr at I fr det samme. 15. Foresl et estimat for medianen i fordelingen af A-vitaminindtaget for mnd. Bestem ogs et 95% kondensinterval for denne median.

R-hjlp og andre hints

2. Kig evt. frst p specialtilfldet hvor = 0. Brug for eksempel MS, stning 4.2.3 med t(x) = ex og X N (0, 2 ), og omskriv integranden til noget der har med ttheden for N ( 2 , 2 ) at gre. 4. Hvad sker der med medianen ved transformation af en stokastisk variabel med en voksende funktion? 5. Kommandoen sim <- rnorm(5000,mean=5,sd=0.5) laver en vektor med 5000 simulerede udfald fra normalfordelingen med middelvrdi 5 og varians 0.25. Hvordan kan I bruge disse vrdier til at simulere udfald fra den logaritmiske normalfordeling? 6. Husk at hist(x, prob=T) laver et histogram p sandsynlighedsskala for vektoren x. Prv evt. at eksperimentere med nclass, for eksempel hist(x, nclass=25). Ttheden for den logaritmiske normalfordeling med parametre (, 2 ) kan deneres og indtegnes i et allerede eksisterende plot p flgende mde:

f <- function(y,mu,sigma) her skrives funktionsudtrykket yval <- seq(0,1000,1) fval <- f(yval, 5, 0.5) lines(yval, fval)
7. Se afsnit 4 i Getting started with R. 8. Brug read.table og attach som beskrevet i afsnit 3 i Getting started with R. Husk at angive den fulde sti til len, eller at skifte 'arbejdskatalog' (working directory) til det katalog hvor datalen ligger. attach-kommandoen gr at variablene i datasttet kan bruges direkte. 9. Se afsnit 2 i Getting started with R. Kommandoen avit[sex==1] kan for eksempel vre nyttig. Lngden af en vektor x kan beregnes med kommandoen length(x). Den naturlige logaritme hedder log i R. 10. Et QQ-plot der sammenligner variablen x med en normalfordeling kan laves med kommandoen qqnorm(x). Virker det rimeligt at antage at avitM og/eller logavitM er normalfordelt? 12. Se vink til sprgsml 6. 15. Se vink til sprgsml 4.

## definerer y-vrdier ## ttheden i y-vrdierne ## tegn oveni plot

You might also like