You are on page 1of 19

B

vo U
Estadística – Grau Bioquímica
Tema 5. Models continus.

al a -
l C tic
ue ís
Miquel Calvo - Departament d’Estadística
iq ad
M st

Classificació de les variables aleatòries


E

Variables aleatòries discretes


 recorregut finit o infinit numerable
 per exemple, associades a experiments on es compta el nombre de vegades que
t.

s'ha presentat un esdeveniment


 els punts de recorregut corresponen a salts en el gràfic de la funció de distribució
ep

Variables aleatòries continues


 generalment associades a experiments on la v.a. pren valors en un interval real:
mesures biomètriques, concentracions de metabòlits, intervals de temps, àrees, etc.
D

 un cas particular son les variables aleatòries absolutament continues on existeix


una funció real f tal que:
x
F ( x)   f (t ) dt


f és la funció de densitat de probabilitat de la variable X.

Miquel Calvo - Departament d’Estadística 2

1
Funció de distribució discreta vs continua

B
vo U
al a -
l C tic
ue ís
Miquel Calvo - Departament d’Estadística 3
iq ad
M st

Funció de densitat discreta vs continua


E

 la densitat discreta
 pren valors positius únicament en els punts del recorregut
t.

 és la probabilitat que la variable prengui el valor x: f (x) = prob (X = x).


ep

 la densitat continua
 pren valors en el conjunt dels reals
 no és una probabilitat, en particular, no està acotada per 1
D

 la probabilitat que una v.a. continua prengui un valor concret és

prob(X = x) = 0 per tot x real

Miquel Calvo - Departament d’Estadística 4

2
Probabilitat en intervals: densitat continua

cua esquerra de la distribució

B
b
p ( X  b)  p ( X  b )  F ( b)   f ( x ) dx


vo U
al a -
cua dreta de la distribució

p( X  a )  p( X  a )  1  F (a )   f ( x) dx

l C tic a
ue ís
Miquel Calvo - Departament d’Estadística 5
iq ad
M st

Probabilitat en intervals: densitat continua - 2


E

 l'àrea sota la funció de densitat entre dos punts a i b és la probabilitat de que la


v.a. prengui valors entre a i b.
t.

b
 a
f ( x ) dx  F (b)  F ( a )
ep

 p( a  X  b )
 p( a  X  b )
 p( a  X  b )
 p( a  X  b )
D


 tota v.a. absolutament continua verifica:
 
f ( x ) dx  1

Miquel Calvo - Departament d’Estadística 6

3
El model Uniforme
 el model continu més simple: la variable pren valors dins l’interval definit pels
paràmetres a i b imposant la condició que tots els intervals de mateixa longitud
continguts en [a,b] tinguin la mateixa probabilitat de ser observats

B
 és el model probabilístic corresponent a triar un nombre real a l’atzar dins de [a, b]
 la funció de densitat es defineix com

vo U
1
f ( x)  on a  x  b
ba

al a -
 la uniforme (0,1) es representa com:

l C tic
ue ís
Miquel Calvo - Departament d’Estadística 7
iq ad
M st

El model Uniforme - 2
E

 la funció de densitat U(a,b) permet calcular fàcilment la distribució per


qualsevol valor x dins (a,b)
x x 1 xa
t.

F ( x)   f (t )dt   dt  si a  x  b
 0 ba ba
 per tant en el cas de la U(0,1)
ep

F ( x)  x si 0  x  1
D

Miquel Calvo - Departament d’Estadística 8

4
Esperança i variància dels models continus

• sigui X una v.a. absolutament continua amb funció de densitat f(x). L'esperança
matemàtica de X és (suposant que existeixi la integral.)

B

E ( X )   x f ( x ) dx


vo U
 la variància d'una v.a. quantifica la dispersió respecte a la seva esperança. És un
paràmetre de dispersió. La definició és:

var( X )  E (( X  E ( X )) 2 )   ( x  E ( X ) 2 f ( x ) dx


al a -
i és el promig teòric de las desviacions al quadrat dels diferents valors que pren la
variable respecte al seu valor mig teòric o esperança.

 una expressió equivalent tant per discretes com per contínues és:

l C tic var( X )  E ( X 2 )  E 2 ( X )
ue ís
Miquel Calvo - Departament d’Estadística 9
iq ad
M st

El model Uniforme - 3
E

 aplicant les expressions anteriors a la funció de densitat U(a,b)

b
t.

 b x x2  b2  a 2 b  a
E( X )   x f ( x )dx   dx   
 a ba 2(b  a )  a 2(b  a ) 2
ep

b
b x2 x3  b3  a 3 b2  ab  a 2
E( X 2 )   dx   
a ba 3(b  a )  a 3(b  a ) 3
D

b2  ab  a 2  b  a   b  a 
2 2

var( X )    
3  2  12

Miquel Calvo - Departament d’Estadística 10

5
B
vo U
El model normal

al a -
l C tic
ue ís
Miquel Calvo - Departament d’Estadística 11
iq ad
M st

El model Normal
E

 el model continu més important en Estadística, resulta freqüent que variables


observades puguin ser descrites amb una distribució normal
 moltes tècniques d'inferència estadística es basen en les propietats de la normal
t.

 la funció de densitat es defineix com


ep

1  ( x   )2 
f ( x)  exp   on -   x  
2  2 2 
D

 depèn de dos paràmetres μ (qualsevol valor real) i σ (real positiu).


 s'indica que una variable X segueix el model normal amb X ~ N( μ ,σ).
 per exemple, si la normal és μ=0 i σ=1 s'abreuja N(0 , 1). Aquesta és la normal
tipificada, usualment anomenada Z.

Miquel Calvo - Departament d’Estadística 12

6
Els paràmetres μ i σ en el model Normal

 E(X) = μ

B
 Simètrica respecte a la mitjana μ
 Mitjana, moda i mediana són iguals (μ)

vo U
al a -
 Var(X) = σ2, la desviació típica és σ.
 l'àrea sota la densitat entre -∞ i x
correspon (com a totes les contínues)

l C tic
al valor de la distribució en el punt x:
ue ís
Miquel Calvo - Departament d’Estadística 13
iq ad
M st

Els paràmetres μ i σ en el model Normal (2)


E
t.
ep
D

consultar la URL http://cinna.upc.edu:3838/statmedia/Statmedia_2/


Miquel Calvo - Departament d’Estadística 14

7
Densitat i distribució del model Normal
 en principi, la distribució es calcula integrant la funció de densitat:
x
1  (t   ) 2 
F ( x )  p( X  x )   exp  dt

B
 2  2 2 
 malauradament, no hi ha una expressió analítica per aquesta integral. Si no es

vo U
poden calcular probabilitats directament, com solucionar el problema ?
 una possibilitat és aproximar la integral mitjançant tècniques de càlcul
numèric. Però μ i σ poden prendre infinits valors, caldria avaluar la integral
per cada possible parella de valors.

al a -
 una propietat important es refereix a la seva transformació lineal:
 si X ~ N(μ,σ) i definim Y = aX+b (amb a ≠ 0), aleshores Y ~ N(aμ+b , |a|σ)
 aquesta propietat permet resoldre la integració numèrica en termes d'una
l C tic
única normal: aquesta densitat de referència és la normal tipificada N(0,1)
ue ís
Miquel Calvo - Departament d’Estadística 15
iq ad
M st

Densitat N(0,1) i tipificació


E

 Si X ~ N( μ ,σ) i definim Z = (X- μ) / σ aleshores Z ~ N(0,1). Per tant:

X   x    x   x
FX ( x )  p( X  x )  P    P Z   FZ  
         
t.

 la transformació del càlcul de la funció de distribució d'una normal qualsevol a la


ep

normal tipificada s'anomena tipificació

 la tipificació permet abordar el càlcul de probabilitat d'un interval per a qualsevol


normal disposant només de la informació de la N(0,1)
D

 per exemple, si X ~ N(3,2) i es vol calcular FX (5,06)

 5,06  3 
FX (5,06)  p( X  5,06)  P  Z   FZ 1,03
 2 
 les taules estadístiques que es poden trobar en molts texts clàssics no s'utilitzen
actualment, es pot aconseguir accés fàcilment tant a programes específics (paquets
estadístics com R) o els d‘ús general (fulls de càlcul com Excel o Calc)

Miquel Calvo - Departament d’Estadística 16

8
Calcular probabilitats amb R
 per tal de calcular FZ (1,03), la crida a pnorm amb tots els paràmetres és

B
 la normal tipificada permet escurçar la crida utilitzant les opcions per defecte

vo U
 també podem evitar la tipificació

al a -
 alguns valors extrems amb Z

l C tic
 qualsevol normal inclou el 99.7% de valors a ± 3σ
ue ís
Miquel Calvo - Departament d’Estadística 17
iq ad
M st

Calcular quantils amb R


E

 per calcular el quantil que acumula el 95% d’una Z la crida a qnorm és:
t.

 de nou, amb Z podem escurçar la crida utilitzant les opcions per defecte
ep

 o evitar la tipificació
D

 alguns valors especials

Miquel Calvo - Departament d’Estadística 18

9
Alguns exemples de càlculs
El pes dels individus d'una població té distribució normal amb paràmetres que
depenen del sexe: els homes tenen una distribució N(μ=76; σ=5), i les dones una
N(μ=68 ; σ=6). En aquest context:

B
1. S'escull un home a l'atzar, quina probabilitat té de pesar entre 72 i 78 kg?

vo U
2. Quina és la proporció de dones de més de 76 kg? I la d'homes?

3. Si la proporció d'homes és del 45% i escollim un individu a l’atzar (no es


coneix el sexe) quina probabilitat té de pesar més de 72 kg?

al a -
4. En la població de dones, quin és el pes corresponent al tercer quartil?

Consulteu el document Mp4 Models continus amb R-Commander al campus de

l C tic
l’assignatura per tal de resoldre les 4 qüestions amb R-Commander. Aquest
document inclou també les comandes de R de les 2 transparències anteriors.
ue ís
Miquel Calvo - Departament d’Estadística 19
iq ad
M st E
t.
ep

Teorema Central del Límit


D

Miquel Calvo - Departament d’Estadística 20

10
Combinacions lineals de Normals
 la suma de 2 v.a normals independents és també normal, i per extensió, també ho
és qualsevol combinació lineal de normals independents

B
 cas particular: si considerem n v.a. independents amb distribució Xi ~ N(μi,σi) per
a i=1 , 2 , ... , n la suma X1 + X2+ ... + Xn, té com a model:
 n 

vo U
n n

X i ~ N   i ,
 i 1  i
2 

i 1  i 1 
 si les n v.a. tenen idèntica distribució Xi ~ N(μ,σ) aleshores es simplifica a:

al a -
  
 
n
1 n
X
i 1
i ~ N n , n , Xn   X i ~ N  , n 
n i 1

 exemple: assumim que el pes dels homes ~ N(76;5) i el de les dones ~ N(68;6).

l C tic
Un edifici disposa d'un ascensor que admet una carrega màxima de 300 Kg.
Calculeu la probabilitat que el ascensor no arranqui per excedir el pes:
1. quan pugen 4 dones 2. quan pugen 2 dones i 2 homes
ue ís
Miquel Calvo - Departament d’Estadística 21
iq ad
M st

Sumes de binomials
E

 en sumar 2 binomials X1~B(n1,p) X2~B(n2,p) independents, resulta: X1+X2 ~


B(n1+n2,p). Aquesta propietat es coneix com reproductibilitat
 conseqüència: qualsevol B(n,p) es pot considerar com suma de n binomials
independents B(1,p), és a dir, una B(n,p) és la suma de n Bernouillis(p).
t.

 a continuació es representen les binomials amb n=5, 20 i 50, totes 3 amb p=0.5
ep

(punts negres) juntament amb la densitat normal (corba vermella), de mitjana n/2 i
variància n/4.
D

Miquel Calvo - Departament d’Estadística 22

11
Sumes de Poissons
 en sumar 2 Poissons independents resulta una nova variable que també és Poisson.
 per tant, una variable aleatòria Poisson X~P(λ) es pot considerar com una suma de

B
n Poissons independents de la forma:
X1+...+Xn ~ P(λ) i cada Xi ~ P(λ/n)

vo U
 així, si considerem la Poisson Pn ~ P(n), es pot considerar la suma de n P(1).
 a continuació es representen les Poissons amb λ=1, 5 i 20, (punts negres)
juntament amb la densitat normal (corba vermella) amb μ = λ i σ2 = λ.

al a -
l C tic
ue ís
Miquel Calvo - Departament d’Estadística 23
iq ad
M st

El teorema central del límit


E

• descriu el comportament de sumes infinites de variables amb el mateix model


• la versió més simple de TCL proporciona els següents corolꞏlaris quan es
consideren sumes de variables independents i idènticament distribuïdes, cadascuna
t.

amb mitjana μ i variància σ2


1. la suma de n v.a. Sn = X1+X2+...+ Xn convergeix en llei a una N(nμ , n1/2σ)
ep

2. la mitjana de n v.a. n-1Sn convergeix en llei a una normal N(μ , n-1/2σ)


 un sinònim de convergència en llei a la normal és asimptòticament normal
 el TCL presenta el comportament de sumes infinites de v.a., fa referència a
D

successions infinites, i el resultat es refereix a una distribució final teòrica o de


referència en el límit
 ara bé, el TCL permet utilitzar aquesta distribució final de referència per
aproximar distribucions corresponents a sumes finites
 el TCL permet aproximar la funció de distribució, sigui contínua o discreta, però
no permet aproximar la funció de densitat discreta per una normal

Miquel Calvo - Departament d’Estadística 24

12
Aproximacions de la binomial
 1er resultat demostrat de convergència a una normal per de Moivre, 1733.

 
L
B ( n, p )  N np , npq

B
 l'estudi numèric de l'error comès al aproximar la binomial per la normal permet
establir regles generals per una binomial amb n finit:

vo U
n ≥ 30 0.1 ≤ p ≤ 0.9 aproximar a normal mitjana μ=np, σ2=np(1-p)
n ≥ 30 0 < p < 0.1 aproximar a Poisson λ=np
n ≥ 30 0.9 < p < 1 aproximar la v.a. recíproca* a Poisson λ=n(1-p)

al a -
n < 30 p qualsevol no aproximar, calcular amb variable original
 nota: si la binomial correspon al nº de vegades que apareix A en n repeticions, la
variable recíproca serà el nº de vegades que apareix AC, per tant, una B (n, 1-p).
 Exemples:

l C tic
1. una B (36; 0,5) és aprox. N(18, 3).
3. una B (100; 0,01) és aprox. P(1).
2. una B (100; 0,9) és aprox. N(90, 3).
4 una B (100; 0,95) s'aproxima mitjançant
la recíproca, (B(100;0,05)), aprox. P(5).
ue ís
Miquel Calvo - Departament d’Estadística 25
iq ad
M st

Exemple aproximació binomial


E

 En una campanya de vacunació infantil és conegut que apareix algun efecte


secundari en un 13% de casos. Si es vacunen 1000 nens, quina és la probabilitat de
que tinguin alguna reacció a la vacuna més de 100 d'ells?
t.

 Assumint independència entre les vacunacions dels 1000 nens, la distribució


exacta de la variable "número de nens amb reacció de 1000 vacunats" segueix una
ep

distribució binomial de paràmetres (1000; 0,13).


 Si s’empren directament el càlcul de la probabilitat:
prob( X  100)  1  prob( X  100)  1  F (100)

100 1000

 1  k 1000  k
D

k  0,13 0,87
k 0  
representa un cert esforç numèric. En canvi, plantejat en termes aproximats:

X ~ N 1000  0,13, 1000  0,13  0,87  N (130,10,635)
 100  130 
prob( X  100)  1  prob  Z   1  prob  Z  2,821
 10,635 
 1  (1  0,9976)  0,9976
Miquel Calvo - Departament d’Estadística 26

13
Aproximacions de la Poisson
 asimptòticament Normal de mitjana nλ y variància nλ.

 
L
P ( )  N  , 

B
 l'estudi numèric de l'error comès al aproximar la Poisson per la normal permet

vo U
establir regles generals per una Poisson amb λ finit:

λ ≥ 10 aproximar a la normal de mitjana µ=λ, var. σ2=λ


λ < 10 no aproximar, calcular amb variable original

al a -
 Exemples:
1. una Poisson (16) és aproximadament una normal (16, 4).

l C tic
2. una Poisson (100) és aproximadament una normal (100, 10).
3. una Poisson (5) no es pot aproximar.
ue ís
Miquel Calvo - Departament d’Estadística 27
iq ad
M st

Variables aproximadament normals


E

 en experiments reals en general no es coneix la distribució teòrica de les variables


estudiades. En canvi, es pot establir la distribució empírica mitjançant una mostra.
 amb la mostra es pot construir l'histograma de classes. Des del segle XIX es
t.

coneix que la distribució empírica presenta molts cops un aspecte aproximadament


normal.
ep

 per exemple, un estudi sobre el pes dels homes de 18 anys a Catalunya presenta el
següent histograma:
D

Miquel Calvo - Departament d’Estadística 28

14
Variables aproximadament normals (2)

 el pes és el resultat de l’efecte de factors ambientals (dieta, exercici, malalties, ...) i


congènits (diferents gens afecten aquesta característica, veure Genetics of fat
intake in the determination of body mass)

B
 es pot associar a la suma de moltes variables, amb diferents grau d'influència. El

vo U
TCL explica que aparegui una distribució aprox. normal.

 de forma similar, és explicable la normalitat aproximada de moltes variables

al a -
biomètriques (alçades, longituds, concentracions metabòliques, distribucions
d'edat, ...) així com de la de moltes variables quantitatives d’altres camps del
coneixement com de les ciències experimentals, socials, les enginyeries, ...

 malgrat la importància de la normal, no és la distribució de referència en tot estudi


l C tic
ue ís
Miquel Calvo - Departament d’Estadística 29
iq ad
M st E
t.
ep

Material complementari
D

Miquel Calvo - Departament d’Estadística 30

15
El model Exponencial
 associat a variables que mesuren l’interval de temps/longitud/àrea/volum que
transcorre entre 2 esdeveniments en un procés de Poisson, on els esdeveniments
succeeixen contínua i independentment d’acord a una taxa en promig constant.

B
1  x
f ( x )  exp   on 0  x  
 la funció de densitat es defineix com   

vo U
x
 de forma que la distribució és F ( x )    1e t /  dt  1  e  x /  si x  0
0
 i els paràmetres principals

al a -
E(X) = α, var(X) = α2

 el model Poisson P(λ) compta el nombre


d’esdeveniments per interval, mentre que

l C tic
l’exponencial Exp(α) recull la magnitud
de l’interval entre 2 esdeveniments
consecutius. En aquest context, λ= α-1
ue ís
Miquel Calvo - Departament d’Estadística 31
iq ad
M st

Independència de variables aleatòries


E

 de forma intuïtiva 2 v.a. són independents si el valor que pren una d'elles no
afecta a la probabilitat de cap valor de l'altre.

 de vegades la independència és evident per l'enunciat de l'experiment: per exemple


t.

llançant un dau i una moneda les v.a "Puntuació del dau“ i "Indicador de cara".

 altres cops, la dependència és també clara


ep

P = "puntuació del dau“


I = "indicador de puntuació par"
per exemple si I=1, P només pot ser 2, 4 o 6; si P=3 aleshores I =0 .
D

 altres cops només es pot intuir la possible dependència: per exemple. "alçada en
cm." i "pes en Kg."

Miquel Calvo - Departament d’Estadística 32

16
Independència de variables aleatòries (2)
 la definició formal passa per recordar la regla del producte per 2 esdeveniments.
Aplicant la definició a esdeveniments del tipus X ≤ a :

B
2 v.a. X, Y són independents si i només si

P( X ≤ a ∩ Y ≤ b ) = P( X ≤ a ) ꞏ P( Y ≤ b ) = FX(a) ꞏ FY(b)

vo U
 una conseqüència immediata de la independència de X i Y és que

al a -
P( a < X ≤ c ∩ b < Y ≤ d ) = P( a < X ≤ c ) ꞏ P( b < Y ≤ d )

l C tic
ue ís
Miquel Calvo - Departament d’Estadística 33
iq ad
M st

Propietats de l’esperança i la variància


E

• Les variables aleatòries continues i discretes verifiquen la linealitat de l'esperança


matemàtica
1. E( X + Y ) = E (X) + E (Y)
2. E ( kꞏX ) = k ꞏ E (X) per tot número real k
t.

3. E (k) = k per tot número real k


4. E ( aꞏX+b ) = a ꞏ E(X) + b per tota parella de números reals a i b
ep

i també es compleix que


5. E ( XꞏY ) = E (X) ꞏ E (Y) únicament si X e Y són v.a. independents
 Propietats de la variància
1. Var (X) ≥ 0
2. Var (kꞏX) = k2 ꞏ Var (X) per tot número real k
D

3. Var (k) = 0 per tot número real k


4. Var (aꞏX+b) = a2 ꞏ Var (X) per tota parella de reals a i b
5. Var ( X + Y ) = Var (X) + Var (Y) únicament si X e Y son independents.

• la variància té com unitat física el quadrat de la unitat original de la variable. No és el cas


de la desviació típica que es defineix com:
 x  var( X )  E (( X  E ( X )) 2 )

Miquel Calvo - Departament d’Estadística 34

17
Sumes de variables aleatòries
 la suma de 2 v.a. X1, X2 , definides sobre Ω, correspon a la següent aplicació: :

B
vo U
 la suma de 2 v.a. pot generalitzar-se a sumes de 3, 4,... i, en general, n variables aleatòries.
 el TCL s'ocupa de successions de v.a.: un conjunt on el 1er element és una v.a, el 2on la
suma de 2 v.a., el 3er una suma de tres, i així successivament.

al a -
 una successió és un conjunt amb ∞ elements, designat simbòlicament com {Xn}.
 cada element de {Xn} porta associada una determinada funció de distribució:

l C tic Xn → Fn
ue ís
Miquel Calvo - Departament d’Estadística 35
iq ad
M st

El teorema central del límit


E

Sigui X1, X2,...,Xn,...un conjunt de v.a. independents idènticament distribuïdes,


cadascuna amb distribució F, y suposem que E(Xk) = μ i var(Xk) =σ2 per a tot
element del conjunt. Si la suma normalitzada de n termes és:
t.

Aleshores
ep

la convergència es produeix tant si la variable és discreta com absolutament contínua.

Corolꞏlaris importants
D

1.Si considerem la suma ordinària de las n v.a., Sn = X1+X2+...+ Xn , la successió {Sn}


convergeix en llei a una Normal de mitjana nμ i variància nσ2

2.Si considerem la mitjana de las n variables aleatòries n-1Sn la successió de mitjanes


convergeix en llei a una normal de mitjana μ i variància n-1σ2

Miquel Calvo - Departament d’Estadística 36

18
Taula de la funció de distribució N(0,1)

B
vo U
F(1,03) = 0,8485

al a -
F-1(0,9798) = 2,5

l C tic
ue ís
Miquel Calvo - Departament d’Estadística 37
iq ad
M st

Taula de la funció de distribució N(0,1) - 2


E
t.
ep

F(4) = 0,99997
D

F(1,645) = 0,950

Miquel Calvo - Departament d’Estadística 38

19

You might also like