You are on page 1of 18

Metodos Estadsticos II Sabando/Villa Cox/Meja

Apuntes de Clase # 1
Fecha: II Termino-2012
1. Teora de la probabilidad
1.1. Deniciones basicas
Denicion 1.1.1 (Espacio muestral) Es el conjunto de todos los resultados posibles de un ex-
perimento. Se lo suele representar con la letra S.
Denicion 1.1.2 A cada resultado o elemento de un espacio muestral se lo llama punto muestral
Ejemplo 1.1.1 Si se esta interesado en el n umero que muestra la cara superior de un dado en un
lanzamiento entonces el espacio muestral es
S
1
= {1, 2, 3, 4, 5, 6}
Si solo interesa si el n umero es par o impar, el espacio muestral es
S
2
= {par, impar}
Denicion 1.1.3 Si un espacio muestral contiene un n umero nito de posibilidades o una serie
interminable con tantos elementos como n umeros enteros existen, se llama espacio muestral dis-
creto
Denicion 1.1.4 Si un espacio muestral contiene un n umero innito de posibilidades igual al n ume-
ro de puntos en un segmento de lnea, se llama espacio muestral continuo
Denicion 1.1.5 (Evento) Es un subconjunto del espacio muestral.
Ejemplo 1.1.2 Se esta interesado en que el resultado del lanzamiento de un dado sea divisible para
tres. El evento A = {3, 6} es el conjunto de resultados que cumplen la condicion indicada. A es un
subconjunto de S
1
del ejemplo 1.1.1.
Nota En el ejemplo anterior A es un evento porque A S
1
y porque tanto en A como en S
1
el
experimento se reere al resultado del lanzamiento de un dado.
Denicion 1.1.6 (Probabilidad de un evento) La probabilidad de un evento discreto A, P(A),
es la suma de todas las probabilidades que se asignan a los puntos muestrales en A. Por tanto
0 P(A) 1 P() = 0 P(S) = 1
Ejemplo 1.1.3 Si se lanza dos veces una moneda, Cual es la probabilidad de que ocurra al menos
una cara?
Solucion El espacio muestral para este experimento es
S = {HH, HT, TH, TT}
donde H representa cara y T sello
Cada uno de estos resultados tiene la misma probabilidad de ocurrencia. Por tanto, asignamos
una probabilidad de w =
1
4
a cada uno de los puntos muestrales. Si A representa el evento que
ocurra al menos una cara, entonces
A = {HH, HT, TH} y P(A) =
1
4
+
1
4
+
1
4
=
3
4
A1-1
Denicion 1.1.7 La probabilidad condicional de B dado A, que se denota con P(B|A), se dene
como
P(B|A) =
P(A B)
P(A)
si P(A) > 0
Teorema 1.1.1 Si A, B y C son tres eventos cualquiera en un espacio muestral S tal que P(AB) =
0, entonces
P(A B C) = P(A) P(B|A) P(C|A B)
Demostracion Si se escribe A B C como (A B) C y se usa la denicion 1.1.7 se obtiene
P(A B C) = P[(A B) C]
= P(A B) P(C|A B)
Si se aplica otra vez la denicion 1.1.7 se encontrara el resultado deseado
P(A B C) = P(A B) P(C|A B)
= [P(A) P(B|A)] P(C|A B)
= P(A) P(B|A) P(C|A B)
Denicion 1.1.8 Dos eventos A y B son independientes si y solo si
P(B|A) = P(B) y P(A|B) = P(A)
En cualquier otro caso A y B son dependientes
Teorema 1.1.2 Dos eventos A y B son independientes si y solo si
P(A B) = P(A)P(B)
Demostracion Para esta prueba basta aplicar las deniciones 1.1.7 y 1.1.8
Denicion 1.1.9 (Variable aleatoria) Es una una funcion que asocia un n umero real con cada
elemento del espacio muestral.
Teorema 1.1.3 (Funciones de variables aleatorias) Si X es una variable aleatoria, entonces la
funcion g(X) tambien es una variable aleatoria.
Ejemplo 1.1.4 Se sacan dos bolas de manera sucesiva sin reemplazo de una urna que contiene 4
bolas rojas y 3 negras. Los posibles resultados y los valores y de la variable aleatoria Y , donde Y es
el n umero de bolas rojas, son
Espacio muestral y
RR 2
RB 1
BR 1
BB 0
Denicion 1.1.10 Una variable aleatoria se llama variable aleatoria discreta si se puede contar
su conjunto de resultados posibles. Cuando una variable aleatoria puede tomar valores en una escala
continua, se la denomina variable aleatoria continua
Observacion 1.1.1 A menudo los posibles valores de una variable aleatoria continua son precisa-
mente los mismos valores que contiene el espacio muestral continuo.
En la mayor parte de los problemas practicos, las variables aleatorias continuas representan datos
medidos, mientras que las variables aleatorias discretas representan datos contados.
A1-2
1.2. Funciones de probabilidad
Denicion 1.2.1 La funcion f(x) es una funcion masa de probabilidad de la variable aleatoria
discreta X si y solo si se satisfacen las siguientes condiciones
f(x) 0 para cada valor dentro de su dominio;

x
f(x) = 1, donde la suma se extiende sobre todos los valores dentro de su dominio;
P(X = x) = f(x) para cada valor dentro del intervalo de X.
Denicion 1.2.2 La funcion f(x) es una funcion de densidad de probabilidad de la variable
aleatoria continua X, si y solo si se satisfacen las siguientes condiciones
f(x) 0, para < x <
_

f(x)dx = 1
P(a < X < b) =
_
b
a
f(x)dx.
Vale aclarar que la integral de a + es una manera de decir que se esta integrando sobre todo
el rango de posibles valores de la variable aleatoria X. Otra manera de expresar esta condicion es:
_
x
f(x)dx = 1
Nota 1 En la mayora de los casos se utilizara el termino funcion de probabilidad para refe-
rirse de manera general a las funciones de masa de probabilidad y a las funciones de densidad de
probabilidad.
Nota 2 La funcion de probabilidad de una variable aleatoria discreta es necesariamente una
funcion de masa de probabilidad. De la misma manera la funcion de probabilidad de una variable
aleatoria continua es una funcion de densidad de probabilidad.
Denicion 1.2.3 La funcion f(x, y) es una funcion de masa de probabilidad conjunta de las
variables aleatorias discretas X y Y si y solo si
f(x, y) 0 x X y y Y

y
f(x, y) = 1
P(X = x, Y = y) = f(x, y) x X y y Y
Para cualquier region A en el plano xy, P[(X, Y ) A] =

A
f(x, y)
Denicion 1.2.4 La funcion f(x, y) es una funcion de densidad conjunta de las variables alea-
torias continuas X y Y si
f(x, y) 0 x, y R
_

f(x, y) dx dy = 1
P[(X, Y ) A] =
_
A
_
f(x, y) dx dy, para cualquier region A en el plano xy
Denicion 1.2.5 (Generalizacion) La funcion f(x
1
, x
2
, . . . , x
m
) es una funcion de probabilidad
conjunta de las m variables aleatorias X
1
, X
2
, . . . , X
m
si y solo si
f(x
1
, x
2
, . . . , x
m
) 0 para cada valor dentro del dominio de la funcion;

x
1

x
2
. . .

x
m
f(x
1
, x
2
, . . . , x
m
) = 1
P(X
1
= x
1
, X
2
= x
2
, . . . , X
m
= x
m
) = f(x
1
, x
2
, . . . , x
m
)
para cualquier valor que se encuentre en el dominio de la funcion;
A1-3
Para cualquier region A en el hiperplano x
1
, x
2
x
m
,
P[(X
1
, X
2
, . . . , X
m
) A] =

. . .

A
f(x
1
, x
2
, . . . , x
m
)
para el caso discreto, y
f(x
1
, x
2
, . . . , x
m
) 0 x
1
, x
2
, . . . , x
m
( , )
_

. . .
_

f(x
1
, x
2
, . . . , x
m
)dx
1
dx
2
. . . dx
m
= 1
Para cualquier region A en el hiperplano x
1
, x
2
x
m
,
P[(X
1
, X
2
, . . . , X
m
) A] =
_ _
. . .
_
A
f(x
1
, x
2
, . . . , x
m
)dx
1
dx
2
. . . dx
m
para el caso continuo.
Denicion 1.2.6 La distribucion acumulada F(x) de una variable aleatoria discreta X con
distribucion de probabilidad f(x) es
F(x) = P(X x) =

tx
f(t) para < x <
Denicion 1.2.7 (Generalizacion) Sean X
1
, X
2
, . . . , X
m
un conjunto de variables aleatorias dis-
cretas con funcion de masa de probabilidad conjunta f(x
1
, x
2
, . . . , x
m
). Su funcion de distribucion
acumulada, F(x
1
, x
2
, . . . , x
m
), esta denida de la siguiente manera
F(x
1
, x
2
, . . . , x
m
) = P(X
1
x
1
, X
2
x
2
, . . . , X
m
x
m
)
=

t
1
x
1

t
2
x
2
. . .

t
m
x
m
f(t
1
, t
2
, . . . , t
m
)
para todo x
1
, x
2
, . . . , x
m
(, )
Denicion 1.2.8 La distribucion acumulada F(x) de una variable aleatoria continua con fun-
cion de densidad f(x) es
F(x) = P(X x) =
_
x

f(t)dt para < x <


Observacion 1.2.1 Consecuencias de la denicion anterior son:
P(a < X < b) = F(b) F(a) y;
f(x) =
dF(x)
dx
si la derivada existe.
Denicion 1.2.9 (Generalizacion) Sean X
1
, X
2
, . . . , X
m
un conjunto de variables aleatorias con-
tinuas con funcion de densidad de probabilidad conjunta f(x
1
, x
2
, . . . , x
m
). Su funcion de distri-
bucion acumulada, F(x
1
, x
2
, . . . , x
m
), esta denida de la siguiente manera
F(x
1
, x
2
, . . . , x
m
) = P(X
1
x
1
, X
2
x
2
, . . . , X
m
x
m
)
=
_
x
1

_
x
2

. . .
_
x
m

f(t
1
, t
2
, . . . , t
m
) dt
1
dt
2
. . . dt
m
para todo x
1
, x
2
, . . . , x
m
(, )
Observacion 1.2.2 Consecuencias de la denicion anterior son:
P(a
1
< X
1
< b
1
, a
2
< X
2
< b
2
, . . . , a
m
< X
m
< b
m
) =
F(b
1
, b
2
, . . . , b
m
) F(a
1
, a
2
, . . . , a
m
); y,
f(x
1
, x
2
, . . . , x
m
) =
d
m
F(x)
dx
1
dx
2
. . . dx
m
si todas las derivadas existen.
A1-4
Teorema 1.2.1 Si X es una variable aleatoria continua y a y b son constantes reales con a b,
entonces
P(a X b) = P(a X < b) = P(a < X b) = P(a < X < b)
Denicion 1.2.10 Las distribuciones marginales de X sola y Y sola son
g(x) =

y
f(x, y) y h(y) =

x
f(x, y)
para el caso discreto, y
g(x) =
_

f(x, y) dy y h(y) =
_

f(x, y) dx
para el caso continuo
Denicion 1.2.11 (Generalizacion) Sean X = {X
1
, X
2
, . . . , X
m
} un conjunto de m variables
aleatorias con funcion de probabilidad (o densidad) conjunta f(x
1
, x
2
, . . . , x
m
), B = {X
j
1
, X
j
2
, . . . , X
j
k
}
un subconjunto cualquiera de X y B

= {X
j
k+1
, X
j
k+2
, . . . , X
j
m
} el complemento de B, es decir
X = B B

. La funcion de probabilidad marginal g(x


j
1
, x
j
2
, . . . , x
j
k
) del conjunto de variables
aleatorias en B esta denida como
g(x
j
1
, x
j
2
, . . . , x
j
k
) =

x
j
k+1

x
j
k+2
. . .

x
j
m
f(x
1
, x
2
, . . . , x
m
)
para el caso discreto, y
g(x
j
1
, x
j
2
, . . . , x
j
k
) =
_

f(x
1
, x
2
, . . . , x
m
) dx
j
k+1
dx
j
k+2
. . . dx
j
m
para el caso continuo
Ejemplo 1.2.1 La funcion de probabilidad conjunta de W, X, Y y Z esta dada por f(w, x, y, z).
Como se calcula la funcion de probabilidad marginal de W y Z?
Solucion Si f(w, x, y, z) es una funcion de probabilidad entonces se esta tratando con un conjunto
de variables aleatorias discretas, por tanto la funcion de probabilidad marginal de W y Z estara dada
por
h(w, z) =

xX

yY
f(w, x, y, z)
Nota Si W, X, Y y Z fueran un conjunto de variables aleatorias continuas, entonces
h(w, z) =
_

f(w, x, y, z) dx dy
Denicion 1.2.12 Sean X y Y dos variables aleatorias, discretas o continuas. La distribucion
condicional de la variable aleatoria Y , dado que X = x, es
f(y|X = x) =
f(x, y)
g(x)
, g(x) > 0
De manera similar, la distribucion condicional de la variable aleatoria X, dado que Y = y, es
f(x|Y = y) =
f(x, y)
h(y)
, h(y) > 0
Denicion 1.2.13 (Generalizacion) Sean X = {X
1
, X
2
, . . . , X
m
} un conjunto de m variables alea-
torias con funcion de probabilidad conjunta f(x
1
, x
2
, . . . , x
m
); y, A = {X
i
1
, X
i
2
, . . . , X
i
r
} y B =
{X
j
1
, X
j
2
, . . . , X
i
s
} dos subconjuntos cualquiera disjuntos (A B = ) y exhaustivos (A B = X)
de X. La funcion de probabilidad condicional de las variables aleatorias X
i
1
, X
i
2
, . . . , X
i
r
dado
X
j
1
= x
j
1
, X
j
2
= x
j
2
, . . . , X
j
s
= x
j
s
esta denida por
h(x
i
1
, x
i
2
, . . . , x
i
r
|X
j
1
= x
j
1
, X
j
2
= x
j
2
, . . . , X
j
s
= x
j
s
) =
=
f(x
i
1
, x
i
2
, . . . , x
i
r
, x
j
1
, x
j
2
, . . . , x
i
s
)
g(x
j
1
, x
j
2
, . . . , x
i
s
)
=
f(x
1
, x
2
, . . . , x
m
)
g(x
j
1
, x
j
2
, . . . , x
i
s
)
siempre y cuando g(x
j
1
, x
j
2
, . . . , x
i
s
) > 0.
A1-5
Ejemplo 1.2.2 Las variables aleatorias V, W, X, Y y Z tienen funcion de densidad conjunta f(v, w, x, y, z).
Cual es la formula para calcular la distribucion condicional de V, W y Z dado X y Y ?
Solucion Deniendo como h(v, w, z|x, y) a la distribucion condicional en cuestion y aplicando la
formula de la denicion 1.2.13 se tiene
h(v, w, z|x, y) =
f(v, w, x, y, z)
g(x, y)
Ejemplo 1.2.3 La funcion de densidad conjunta para las variables aleatorias X y Y es
f(x, y) =
_
_
_
1
4
(2x +y) para 0 < x < 1 ; 0 < y < 2
0 en otro caso
encuentre h(y|X = x), la densidad condicional de Y dado X = x
Solucion Se necesita calcular primero g(x), la funcion de densidad marginal de X.
g(x) =
_
2
0
f(x, y) dy =
_
2
0
1
4
(2x +y) dy
=
1
4
_
2xy +
y
2
2
_

y=2
y=0
=
1
4
(4x + 2)
g(x) =
1
2
(2x + 1) para 0 < x < 1
Aplicando las deniciones sobre distribuciones condicionales se tiene
h(y|X = x) =
f(x, y)
g(x)
=
1
4
(2x +y)
1
2
(2x + 1)
h(y|X = x) h(y|x) =
1
2
_
2x +y
2x + 1
_
para 0 < x < 1; 0 < y < 2 y cero en otro caso.
Observacion 1.2.3 Cuando no se especica el valor numerico en el que se condiciona la distribu-
cion se suele simplicar h(y|X = x) como h(y|x).
Ejemplo 1.2.4 En el ejemplo anterior suponga que se esta interesado en encontrar la funcion de
densidad conjunta de Y dado X =
1
/4.
Solucion Reemplazando x =
1
/4 se obtiene
h(y|X =
1
/4) =
1
2
_
2 (
1
/4) +y
2 (
1
/4) + 1
_
=
1
2
_
(1+y)
/2
3
/2
_
h(y|X =
1
/4) =
1 +y
6
para 0 < x < 1 ; 0 < y < 2
Observacion 1.2.4 En un sentido estricto h(y|x) es una funcion que depende solo de y puesto que
x es un valor dado. La ventaja de expresar la distribucion condicional como se pidio en el ejercicio
original, es que de esa manera se estan representando a todas las posibles funciones de densidad
condicional en una sola expresion.
Denicion 1.2.14 (Independencia estocastica) Sean X y Y dos variables aleatorias, discretas o
continuas, con distribucion de probabilidad conjunta f(x, y) y distribuciones marginales g(x) y h(y),
respectivamente. Se dice que las variables aleatorias X y Y son estocasticamente independientes
si y solo si
f(x, y) = g(x)h(y)
para todo x, y en sus respectivos dominios.
A1-6
Denicion 1.2.15 (Generalizacion 1) Sean X
1
, X
2
, . . . , X
m
un conjunto de variables aleatorias,
discretas o continuas, con distribucion de probabilidad conjunta f(x
1
, x
2
, . . . , x
m
) y distribucio-
nes marginales g
1
(x
1
), g
2
(x
2
), . . . , g
m
(x
m
), respectivamente. Se dice que las variables aleatorias
X
1
, X
2
, . . . , X
m
son estocasticamente independientes si y solo si
f(x
1
, x
2
, . . . , x
m
) = g
1
(x
1
) g
2
(x
2
) . . . g
m
(x
m
)
Denicion 1.2.16 (Generalizacion 2) Sea X = {X
1
, X
2
, . . . , X
m
} un conjunto de variables alea-
torias, discretas o continuas, con funcion de probabilidad conjunta
f(x
1
, x
2
, . . . , x
m
)
B = {X
i
1
, X
i
2
, . . . , X
i
r
} un subconjunto cualquiera de X con funcion de probabilidad
g
B
(x
i
1
, x
i
2
, . . . , x
i
k
)
y B

= {X
i
k+1
, X
i
k+2
, . . . , X
i
m
} el complemento de B

con funcion de probabilidad


g
B
(x
i
k+1
, x
i
k+2
, . . . , x
i
m
)
Se dice que el conjunto de variables aleatorias en B es estocasticamente independiente del conjunto
de variables aleatorias en B

si y solo si
f(x
1
, x
2
, . . . , x
m
) = g
B
(x
i
1
, x
i
2
, . . . , x
i
k
) g
B
(x
i
k+1
, x
i
k+2
, . . . , x
i
m
)
Teorema 1.2.2 Si dos conjuntos de variables aleatorias A y B son independientes entonces cada
variable aleatoria que se encuentra en A es independiente de cualquiera de las que se encuentra en
B y viceversa.
La demostracion de este teorema se deja de tarea. Suponga que las variables aleatorias en X se encuentran
ordenadas de tal manera que A = {X
1
, X
2
, . . . , X
i
} y B = {X
i+1
, X
i+2
, . . . , X
m
}, donde i es un n umero cualquier
entre 1 y m; luego pruebe la independencia entre dos elementos elementos cualquiera X
j
A y X
k
B.
2. Esperanza matematica
2.1. Medidas de posicion central
Denicion 2.1.1 (Valor esperado) Sea X una variable aleatoria con distribucion de probabilidad
f(x). La media o valor esperado de X esta denida por
= E(X) =

x
xf(x)
si X es discreta, y
= E(X) =
_

xf(x) dx
si X es continua.
Teorema 2.1.1 Sea X una variable aleatoria con funcion de probabilidad f(x). La media o valor
esperado de la variable aleatoria g(X) es

g(x)
= E[g(x)] =

x
g(x)f(x)
si X es discreta, y

g(x)
= E[g(x)] =
_

g(x)f(x) dx
si X es continua
A1-7
Denicion 2.1.2 Sean X y Y variables aleatorias con distribucion de probabilidad conjunta f(x, y).
La media o valor esperado de la variable aleatoria g(X, Y ) es

g(x,y)
= E[g(X, Y )] =

y
g(x, y)f(x, y)
si X y Y son discretas, y

g(x,y)
= E[g(X, Y )] =
_

g(x, y)f(x, y) dx dy
si X y Y son continuas
Denicion 2.1.3 Sean X y Y dos variables aleatorias con funcion de probabilidad conjunta f(x, y),
el valor esperado condicional de X dado Y , se dene como:
E(X|y) =
_
_
_

x
xf(x|y) si X es una v.a. discreta
_

xf(x|y) dx si X es una v.a. continua


2.2. Varianza y covarianza
Denicion 2.2.1 Sea X una variable aleatoria con funcion de probabilidad f(x) y media . La
varianza de X es

2
= Var(X) = E[(X )
2
] =

x
(x )
2
f(x)
si X es discreta, y

2
= Var(X) = E[(X )
2
] =
_

(x )
2
f(x) dx
si X es continua.
La raz cuadrada positiva de la varianza, , se llama desviacion estandar de X.
Teorema 2.2.1 La varianza de una variable aleatoria X se puede expresar de la siguiente manera

2
= Var(X) = E(X
2
)
2
Demostracion Para el caso discreto se puede escribir

2
=

x
(x )
2
f(x) =

xX
(x
2
2x +
2
)f(x)
=

x
x
2
f(x) 2

x
xf(x) +
2

x
f(x)
Como =

x
xf(x) (vease la denicion 2.1.1), y

x
f(x) = 1 para cualquier distribucion de
probabilidad discreta (vease la denicion 1.2.3), se sigue que

2
=

x
x
2
f(x) 2 +
2

x
f(x)
=

x
x
2
f(x)
2
= E(X
2
)
2
//
QED
Para el caso continuo:

2
=
_

(x )
2
f(x) dx =
_

(x
2
2x +
2
)f(x) dx
=
_

x
2
f(x) dx 2
_

xf(x) dx +
2
_

f(x) dx
Similar al caso discreto, =
_

xf(x) dx por denicion y


_

f(x) dx = 1 para cualquier distri-


bucion de probabilidad continua. Se concluye que

2
=
_

x
2
f(x) dx
2
= E(X
2
)
2
//
QED
A1-8
Teorema 2.2.2 Sea X una variable aleatoria con distribucion de probabilidad f(x). La varianza
de la variable aleatoria g(X) es

2
g(X)
= E{[g(X)
g(x)
]
2
} =

x
[g(x)
g(X)
]
2
f(x)
si X es discreta, y

2
g(X)
= Var[g(X)] =
_

[g(x)
g(X)
]
2
f(x) dx
si X es continua
Demostracion [g(X)
g(X)
]
2
es una funcion de X que se puede representar por j(X). Si a esta
nueva funcion j(X) se le aplica el teorema 2.1.1 se tendra que
E[j(X)] =

x
j(x)f(x)
para el caso discreto, y
E[j(X)] =
_

j(x)f(x) dx
para el caso continuo
Volviendo a reemplazar j(x) por [g(X)
g(X)
]
2
se obtiene el resultado deseado.
Denicion 2.2.2 La varianza condicional de X dado Y se dene como:
Var(X|y) =
_
_
_

x
(x
X
)
2
f(x|y) si X es una v.a. discreta
_

(x
X
)
2
f(x|y) dx si X es una v.a. continua
Denicion 2.2.3 (Covarianza) Sean X y Y variables aleatorias con distribucion de probabilidad
conjunta f(x, y). La covarianza de X y Y es

XY
= Cov(X, Y ) = E[(X
X
)(Y
Y
)] =

y
(x
X
)(y
Y
)f(x, y)
Si X y Y son discretas, y

XY
= Cov(X, Y ) = E[(X
X
)(Y
Y
)] =
_

(x
X
)(y
Y
)f(x, y) dx dy
Si X y Y son continuas.
La covarianza, a traves de su signo, indica la direccion de la variacion conjunta de X y Y . Su
magnitud sin embargo, depende de la escala de medida, por lo que una medida preferible suele ser
el coeciente de correlacion.
Denicion 2.2.4 (Correlacion) Sean X y Y variables aleatorias con covarianza
XY
y desviacio-
nes estandar
X
y
Y
, respectivamente. El coeciente de correlacion X y Y es

XY
=

XY

Y
Observaciones 2.2.1 El coeciente mide el grado de variacion conjunta que hay entre las variables
X y Y , es independiente de las unidades en que se midan y satisface la desigualdad
1
XY
1
El signo es el mismo que el de la covarianza y por tanto su interpretacion. La ventaja del coeciente
de correlacion sobre la covarianza es que es comparable, sin embargo, esta comparacion solo establece
un orden y no magnitudes.
A1-9
Teorema 2.2.3 La covarianza de dos variables aleatorias X y Y con medias
X
y
Y
, respectiva-
mente, puede ser expresada de la siguiente manera

XY
= E(XY )
X

Y
Demostracion Para el caso discreto se puede escribir

XY
=

y
(x
X
)(y
Y
)f(x, y)
=

y
(xy
X
y
Y
x +
X

Y
)f(x, y)
=

y
xyf(x, y)
X

y
yf(x, y)

y
xf(x, y) +
X

y
f(x, y)
=

y
xyf(x, y)
X

y
y

x
f(x, y)

x
x

y
f(x, y) +
X

y
f(x, y)
Utilizando las deniciones 1.2.4 y 1.2.10 se tiene

XY
=

y
xyf(x, y)
X

y
yh(y)
Y

x
xg(x) +
X

Y
y aplicando la denicion de valor esperado (denicion 2.1.1) se obtiene el resultado deseado

XY
=

y
xyf(x, y)
X

Y

Y

X
+
X

Y
=

y
xyf(x, y)
X

Y
= E(XY )
X

Y
//
QED
Para el caso continuo basta reemplazar los sumatorios por integrales y la prueba esta completa.
Teorema 2.2.4 La covarianza de X consigo misma es igual a la varianza de X
Cov(X, X) = Var(X)
Prueba Utilizando el teorema 2.2.3

XX
= Cov(X, X) = E(X X)
X

X
= E(X
2
)
2
X
= Var(X) //
QED
Teorema 2.2.5 Si las variables aleatorias X y Y son independientes entonces
Cov(X, Y ) = 0
Lo contrario no es necesariamente cierto.
Teorema 2.2.6 Sean X y Y dos variables aleatorias independientes. Entonces
E(XY ) = E(X)E(Y )
Lo contrario no es necesariamente cierto.
A1-10
Demostracion Por la denicion 2.1.2
E(XY ) =
_

xyf(x, y) dx dy
Como X y Y son independientes, entonces de acuerdo a la denicion 1.2.14 se puede decir que
f(x, y) = g(x)h(y)
Donde g(x) y h(y) son las distribuciones marginales de X y Y , respectivamente. De aqu
E(XY ) =
_

xy g(x)h(y) dx dy =
_

xg(x) dx
_

yh(y) dy
= E(X)E(Y )
Teorema 2.2.7 (Generalizacion 1) Si las variables aleatorias X
1
, X
2
, . . . , X
m
son independien-
tes, entonces
E(X
1
, X
2
, , X
m
) = E(X
1
)E(X
2
) E(X
m
)
Lo contrario no es necesariamente cierto.
Teorema 2.2.8 (Generalizacion 2) Sean
A = {X
i
1
, X
i
2
, . . . , X
i
r
} y B = {X
j
1
, X
j
2
, . . . , X
j
s
}
dos conjuntos de variables aleatorias cualquiera. Si las variables aleatorias en A son independientes
de las que se encuentran en B entonces
E(X
i
1
X
i
2
X
i
r
X
j
1
X
j
2
X
j
s
) = E(X
i
1
X
i
2
X
i
r
)E(X
j
1
X
j
2
X
j
s
)
Lo contrario no es necesariamente cierto.
2.3. Medias y varianzas de combinaciones lineales de variables aleatorias
Teorema 2.3.1 Si a y b son constantes, entonces
E(aX +b) = aE(X) +b
Demostracion Por denicion de valor esperado (denicion 2.1.1)
E(aX +b) =
_

(ax +b)f(x) dx
=
_

axf(x) dx +
_

bf(x) dx
= a
_

xf(x) dx +b
_

f(x) dx
la integral del primer termino de la ecuacion anterior es la denicion de E(X) y la integral del
segundo termino es igual a 1, entonces tenemos
E(aX +b) = aE(X) +b
Corolario 2.3.1 Si a = 0 entonces E(b) = b. Se concluye que el valor esperado de una constante b
es igual a esta misma constante
Corolario 2.3.2 Si b = 0 se tiene que E(aX) = aE(X)
Teorema 2.3.2 El valor esperado de la suma o diferencia de dos o mas funciones de una variable
aleatoria X es la suma o diferencia de los valores esperados de las funciones. Es decir.
E[g(X) h(X)] = E[g(X)] E[h(X)]
A1-11
Demostracion Por denicion
E[g(X) h(X)] =
_

[g(x) h(x)]f(x) dx
=
_

g(x)f(x) dx
_

h(x)f(x) dx
= E[g(X)] E[h(X)]
Teorema 2.3.3 El valor esperado de la suma o diferencia de dos o mas funciones de las variables
aleatorias X y Y es la suma o diferencia de los valores esperados de las funciones. Es decir
E[g(X, Y ) h(X, Y )] = E[g(X, Y )] E[h(X, Y )]
Demostracion Si f(x, y) es la distribucion de densidad conjunta de X y Y (o probabilidad
conjunta en el caso discreto), entonces por la denicion 2.1.2 se tiene que
E[g(X, Y ) h(X, Y )] =
_

[g(x, y) h(x, y)]f(x, y) dx dy


=
_

g(x, y)f(x, y) dx dy

h(x, y)f(x, y) dx dy
= E[g(X, Y )] E[h(X, Y )] //
QED
Para el caso discreto basta con reemplazar las integrales por sumatorias.
Corolario 2.3.3 Si g(X, Y ) = g(X) y h(X, Y ) = h(Y ) se obtiene
E[g(X) h(Y )] = E[g(X)] E[h(Y )]
Corolario 2.3.4 Al hacer g(X, Y ) = X y h(X, Y ) = Y , se observa que
E(X Y ) = E(X) E(Y )
Observacion Sobre el valor esperado se podra concluir que es un operador lineal, es decir, el
valor esperado de una suma de elementos es siempre la suma del valor esperado de los elementos.
Teorema 2.3.4 Si a y b son constantes, entonces

2
aX+b
= Var(aX +b) = a
2

2
X
= a
2

2
Demostracion Por denicion

2
aX+b
= E{[(aX +b)
aX+b
]
2
}
y por el teorema 2.3.1 se sabe que

aX+b
= E(aX +b) = a +b
entonces

2
aX+b
= E[(aX +b a b)
2
] = E[(aX a)
2
] =
= E{[a(X )]
2
} = E[a
2
(X )
2
]
utilizando el corolario 2.3.2 se obtiene

2
aX+b
= a
2
E[(X )
2
]
nalmente, por la denicion de varianza (denicion 2.2.1)

2
aX+b
= a
2

2
X
= a
2

2
A1-12
Corolario 2.3.5 Al hacer a = 1, se tiene que

2
X+b
= Var(X +b) = Var(X) =
2
Corolario 2.3.6 Si b=0 entonces

2
aX
= Var(aX) = a
2
Var(X) = a
2

2
X
= a
2

2
Teorema 2.3.5 Si X y Y son variables aleatorias con distribucion de probabilidad conjunta f(x, y),
entonces

2
aX+bY
= Var(aX +bY ) = a
2
Var(X) +b
2
Var(Y ) + 2ab Cov(X, Y )
= a
2

2
X
+b
2

2
Y
+ 2ab
XY
Demostracion Por denicion

2
aX+bY
= E{[(aX +bY )
aX+bY
]
2
}
Utilizando el corolario 2.3.4 y el corolario 2.3.2 se tiene que

aX+bY
= E(aX +bY ) = aE(X) +bE(Y ) = a
X
+b
Y
Por tanto,

2
aX+bY
= E{[(aX +bY ) (a
X
+b
Y
)]
2
}
= E{[a(X
X
) +b(Y
Y
)]
2
}
= E[a
2
(X
X
)
2
+b
2
(Y
Y
)
2
+ 2ab(X
X
)(Y
Y
)]
= E[a
2
(X
X
)
2
] + E[b
2
(Y
Y
)
2
] + E[2ab(X
X
)(Y
Y
)]
= a
2
E[(X
X
)
2
] +b
2
E[(Y
Y
)
2
] + 2abE[(X
X
)(Y
Y
)]
= a
2
Var(X) +b
2
Var(Y ) + 2ab Cov(XY )
= a
2

2
X
+b
2

2
Y
+ 2ab
XY
Corolario 2.3.7 Si X y Y son variables aleatorias independientes, entonces

2
aX+bY
= a
2

2
X
+b
2

2
Y
Demostracion El resultado se obtiene aplicando el teorema 2.2.6 (si X y Y son independientes,
entonces E(XY ) = E(X)E(Y ) ) junto con el teorema 2.2.3 (
XY
= E(XY ) E(X)E(Y )). La
conclusion es que si X y Y son independientes,
XY
= 0, quedando demostrado el corolario.
Corolario 2.3.8 Si X y Y son variables aleatorias con distribucion de probabilidad conjunta f(x, y)
entonces

2
aXbY
= Var(aX bY ) = a
2
Var(X) +b
2
Var(Y ) 2ab Cov(X, Y )
= a
2

2
X
+b
2

2
Y
2ab
XY
Corolario 2.3.9 Si X y Y son variables aleatorias independientes, entonces

2
aXbY
= a
2

2
X
+b
2

2
Y
Teorema 2.3.6 (Generalizacion 1) Si X
1
, X
2
, . . . , X
m
son variables aleatorias independientes,
entonces

2
a
1
X
1
+a
2
X
2
+...+a
m
X
m
= a
2
1

2
X
1
+a
2
2

2
X
2
+. . . +a
2
m

2
X
m
Teorema 2.3.7 (Generalizacion 2) Si X
1
, X
2
, . . . , X
m
son variables aleatorias y
Y =
m

i=1
a
i
X
i
donde a
1
, a
2
, . . . , a
m
son constantes, entonces
Var(Y ) =
m

i=1
a
2
i
Var(X
i
) + 2

i<j
a
i
a
j
Cov(X
i
, X
j
)
donde la doble suma se extiende para todos los valores de i y j, desde 1 hasta m, para los que i < j
A1-13
La demostracion de este teorema se deja de tarea
Pistas para la demostracion Suponga que tenemos el siguiente conjunto de n umeros
{c
1
, c
2
, c
3
, c
4
}
entonces
(c
1
+c
2
+c
3
+c
4
)
2
= c
2
1
+c
2
2
+c
2
3
+c
2
4
+
+c
1
c
2
+c
1
c
3
+c
1
c
4
+
+c
2
c
1
+c
2
c
3
+c
2
c
4
+
+c
3
c
1
+c
3
c
2
+c
3
c
4
+
+c
4
c
1
+c
4
c
2
+c
4
c
3
=
= c
2
1
+c
2
2
+c
2
3
+c
2
4
+
+2c
1
c
2
+ 2c
1
c
3
+ 2c
1
c
4
+
+2c
2
c
3
+ 2c
2
c
4
+
+2c
3
c
4
=
=
4

i=1
c
2
i
+ 2

i<j
c
i
c
j
Lo que se necesita hacer para demostrar el teorema es desarrollar un polinomio como el anterior,
pero con m elementos en vez de 4.
Teorema 2.3.8 Si X
1
, X
2
, . . . , X
m
son variables aleatorias y
Y
1
=
m

i=1
a
i
X
i
y Y
2
=
m

i=1
b
i
X
i
donde a
1
, a
2
, . . . , a
m
, b
1
, b
2
, . . . , b
m
son constantes, entonces
Cov(Y
1
, Y
2
) =
m

i=1
a
i
b
i
Var(X
i
) +

i<j
(a
i
b
j
+a
j
b
i
) Cov(X
i
, X
j
)
La demostracion de este teorema se deja de tarea
2.4. Momentos
Denicion 2.4.1 El r-esimo momento alrededor del origen de una variable aleatoria X, deno-
tado por

r
, es el valor esperado de X
r
, simbolicamente,

r
= E(X
r
) =

x
x
r
f(x)
para r = 0, 1, 2, . . . donde X es discreta, y

r
= E(X
r
) =
_

x
r
f(x) dx
donde X es continua.
Observacion 2.4.1 Si r = 1 se tiene que

1
= E(X) = , es decir, el valor esperado de la variable
aleatoria X.
A1-14
Denicion 2.4.2 El r-esimo momento alrededor de la media de una variable aleatoria X,
denotado por
r
, es el valor esperado de (X )
r
; simbolicamente,

r
= E[(X )
r
] =

x
(x )
r
f(x)
para r = 0, 1, 2, . . . cuando X es discreta, y

r
= E[(X )
r
] =
_

(x )
r
f(x) dx
cuando X es continua
Observaciones 2.4.2

0
= 1 y
1
= 0 para cualquier variable aleatoria para la cual exista.
Si r = 2 se tiene que
2
= E[(X )
2
] = Var(X).
2.5. Teorema de Chebyshev
Teorema 2.5.1 Si y son la media y la desviacion estandar de una variable aleatoria X, entonces
para cualquier constante positiva k la probabilidad es al menos 1
1
k
2
que X asumira un valor dentro
de k desviaciones estandar de la media.
P (|X | < k) 1
1
k
2
Demostracion De acuerdo con la denicion de varianza

2
= E[(X )
2
] =
_

(x )
2
f(x) dx
y por tanto

2
=
_
k

(x )
2
f(x) dx +
_
+k
k
(x )
2
f(x) dx +
_

k
(x )
2
f(x) dx
Dado que (x )
2
f(x) es no negativo se puede borrar la segunda integral para obtener

_
k

(x )
2
f(x) dx +
_

k
(x )
2
f(x) dx
Adicionalmente (x )
2
k
2

2
para x k o x +k, y por tanto

_
k

k
2

2
f(x) dx +
_

k
k
2

2
f(x) dx
que se puede re-expresar como
1
k
2

_
k

f(x) dx +
_

k
f(x) dx;
2
= 0
La suma de ambas integrales es la probabilidad de que X tenga un valor menor o igual a k o
mayor o igual a +, es decir
P (|X | k)
1
k
2
y en consecuencia
P (|X | < k) 1
1
k
2
A1-15
2.6. Funciones generatrices de momentos
Los momentos de la mayora de las distribuciones se pueden determinar directamente con los metodos
descritos en la sub-seccion 2.4, el metodo de las funciones generatrices de momentos proporciona
simplicaciones considerables en algunos casos.
Denicion 2.6.1 la funcion generatriz de momentos de una variable aleatoria X, donde existe,
esta dada por
M
X
(t) = E(e
tX
) =

x
e
tx
f(x)
cuando X es discreta y
M
X
(t) = E(e
tX
) =
_

e
tx
f(x) dx
cuando X es continua
Observacion 2.6.1 La variable independiente es t y por lo general es de interes los valores de t
cercanos a 0.
Teorema 2.6.1
d
r
M
X
(t)
dt
r

t=0
=

r
Demostracion Si se sustituye e
tx
por su expansion en la serie de Maclaurin se tiene que
e
tx
= 1 +tx +
t
2
x
2
2!
+. . . +
t
r
x
r
r!
+. . .
As, para el caso discreto se obtiene
M
x
(t) =

x
_
1 +tx +
t
2
x
2
2!
+. . . +
t
r
x
r
r!
+. . .
_
f(x)
=

x
f(x) +t

x
xf(x) +
t
2
2!

x
x
2
f(x) +. . . +
t
r
r!

x
x
r
f(x) +. . .
= 1 + t +

2

t
2
2!
+. . . +

r

t
r
r!
+. . .
Al diferenciar la funcion r veces con respecto a t se obtendra
d
r
M
X
(t)
dt
r
=

r

r(r 1) [r (r 1)] t
rr
r!
+
+

r+1

(r + 1)[(r + 1) 1] [(r + 1) (r 1)] t
(r+1)r
(r + 1)!
+. . .
+

r+s

(r +s)[(r +s) 1] [(r +s) (r 1)] t
(r+s)r
(r +s)!
+. . .
simplicando
d
r
M
X
(t)
dt
r
=

r
+

r+1
t +

r+2

t
2
2!
+. . . +

r+s

t
s
s!
+. . .
evaluando en t = 0
d
r
M
X
(t)
dt
r

t=0
=

r
//
QED
Observacion 2.6.2 La dicultad principal al usar la serie de Maclaurin de una funcion generatriz
de momentos para determinar los momentos de una variable aleatoria usualmente no es encontrar
la funcion, sino expandirla en la serie de Maclaurin. Por esto el teorema anterior es de utilidad.
A1-16
Teorema 2.6.2 Si a y b son constantes, entonces
M
X+a
(t) = E[e
(X+a)t
] = e
at
M
X
(t)
M
bX
(t) = E(e
bXt
) = M
X
(bt);
MX+a
b
(t) = E
_
e
(
X+a
b
)t
_
= e
a
b
t
M
X
_
t
b
_
Ejemplo 2.6.1 X tiene la siguiente funcion de probabilidad
f(x) =
1
8
_
3
x
_
para x = 0, 1, 2, 3
Encontrar la funcion generatriz de momentos de esta variable aleatoria y calcular

1
y

2
.
Solucion De acuerdo con la denicion 2.6.1 la funcion generatriz de momentos sera
M
X
(t) = E(e
tX
) =
1
8

3

x=0
e
tx
_
3
x
_
=
1
8
(1 + 3e
t
+ 3e
2t
+e
3t
) =
1
8
(1 +e
t
)
3
//
Por el teorema 2.6.1

1
=
dM
X
(t)
dt

t=0
=
3
8
(1 +e
t
)
2
e
t

t=0
=
3
2
//
y

2
=
d
2
M
X
dt
2

t=0
=
3
4
(1 +e
t
)e
2t
+
3
8
(1 +e
t
)
2
e
t

t=0
= 3 //
Ejemplo 2.6.2 Si la funcion de densidad de X esta dada por
f(x) =
_
1 para 0 < x < 1
0 otro caso
determinar su funcion generatriz de momentos, calcular

1
y
2
.
Solucion De acuerdo con la denicion 2.6.1 la funcion generatriz de momentos de X esta dada
por
M
X
(t) =
_
1
0
e
xt
dx =
_
e
xt
t
_

1
0
=
e
t
1
t
Por el teorema 2.6.1

1
=
dM
X
(t)
dt

t=0
=
te
t
e
t
+ 1
t
2

t=0
=
0
0
para solucionar la indenicion se utiliza la regla de LHopital

1
=
te
t
2t

t=0
=
1
2
//
Para calcular
2
primero se necesita determinar M
(X)
(t). De acuerdo al teorema 2.6.2
M
(Xu)
(t) = e
t
M
X
(t) = e
t

e
t
1
t
Aplicando ahora el teorema 2.6.1

2
=
dM
2
(X)
dt
2

t=0
=
_
2e
t
_
te
t
e
t
+ 1
t
2
_
+
2
e
t

e
t
1
t
+
+e
t
_
t
2
e
t
2te
t
+ 2e
t
2
t
3
__

t=0
A1-17
las tres fracciones se convierten en indeniciones de la forma
0
0
, al evaluar en t = 0, por lo que se
requiere aplicar LHopital. Luego de hacer las operaciones del caso se obtiene que

2
=
2
= +
2
+
1
3
=
1
2
+
1
4
+
1
3
=
1
12
//
Observacion 2.6.3 Del ejemplo anterior se puede inferir que en realidad no se eval ua la funcion
en t = 0 sino que se determina su lmite cuando t tiende a cero.
Teorema 2.6.3 En caso de existir, hay una correspondencia unvoca entre las funciones generatrices
de momentos y las funciones de probabilidad.
Teorema 2.6.4 Si la funcion generatriz de momentos de una variable aleatoria se aproxima a la
de otra variable aleatoria, entonces la funcion de probabilidad de la primera variable aleatoria se
aproxima a la de la segunda variable aleatoria bajo las mismas condiciones lmite.
Teorema 2.6.5 Si X
1
, X
2
, . . . , X
m
son variables aleatorias independientes y Y = X
1
+X
2
+. . .+X
m
,
entonces
M
Y
(t) =
m

i=1
M
X
i
(t)
donde M
X
i
(t) es el valor de la funcion generatriz de momentos de X
i
en t.
2.7. Momentos Producto
Denicion 2.7.1 El r-esimo y s-esimo momentos productos alrededor del origen de las va-
riables aleatorias X y Y , denotados por

r,s
es el valor esperado de X
r
Y
s

r,s
= E(X
r
Y
s
) =

y
x
r
y
s
f(x, y)
para r = 0, 1, 2, . . . y s = 0, 1, 2, . . . cuando X y Y son discretas, y

r,s
= E(X
r
Y
s
) =
_

x
r
y
s
f(x, y) dx dy
si X y Y con continuas.
Observacion 2.7.1 Seg un la denicion anterior

1,0
corresponde a E(X), la esperanza de X; y

0,1
corresponde a E(Y ), la esperanza de Y .
Denicion 2.7.2 El r-esimo y s-esimo momentos producto alrededor de la media de las
variables aleatorias X y Y , denotadas por
r,s
, es el valor esperado de (X
X
)
r
(Y
Y
)
s

r,s
= E[(X
X
)
r
(Y
Y
)
s
]
=

y
(x
X
)
r
(y
Y
)
s
f(x, y)
para r = 0, 1, 2, . . . y s = 0, 1, 2, . . . cuando X y Y son discretas, y

r,s
= E[(X
X
)
r
(Y
Y
)
s
]
=
_

(x
X
)
r
(y
Y
)
s
f(x, y) dx dy
cuando X y Y son continuas.
Observacion 2.7.2
1,1
es la covarianza entre X y Y .
A1-18