You are on page 1of 36

Captulo 2

Variables aleatorias
2.1. Introduccion
En muchos experimentos resulta mas facil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,
podramos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta
cosa. Si usaramos un 1 para el que contesta me agrada
2
un o para el que contesta
me desagrada, el espacio muestral para este experimento tiene 2
50
elementos. Cada
uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1
o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podra hacerse si, por ejemplo, nos interesa solamente
el n umero de personas a quienes les agrada (o equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podra interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, o a la tercera parte; y as denir la cantidad X =
n umeros de 1s encontrados entre los 50, de esta manera tendramos capturada la
esencia del problema.
Ahora el espacio muestral que recorre X es el conjunto {0, 1, 2, . . . , 50}, el cual es
35
Probabilidad y Estadstica
mucho mas facil de manejar que el original. Para denir esta cantidad X es necesario
denir una funcion del espacio muestral original, , a un nuevo espacio, usualmente
el conjunto de los n umeros reales. En general se tiene la siguiente
Denicion 2.1.1. Una variable aleatoria es una funcion del espacio muestral en
los n umeros reales.
Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implcita-
mente. Veamos algunos ejemplos en la siguiente tabla:
Experimentos Variable Aleatoria
Arrojar dos dados X = suma de los n umeros obtenidos
Arrojar una moneda 25 veces X = n umero de caras obtenidas en los 50 tiros
Aplicar diferentes tipos de fertilizantes
a grupos de plantas X = rendimiento por acre
En la denicion de v.a. tenemos denido un nuevo espacio muestral (el rango o recorrido
de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual
esta denida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
= {
1
,
2
, . . . ,
n
}
con una funcion de probabilidad P, y denimos una v.a. X con un rango en X = {x
1
, x
2
, . . . , x
n
}.
Deniremos una funcion de probabilidad P
X
sobre X del siguiente modo:
P
X
(X = x
i
) = P({
j
/ X(
j
) = x
i
}) (2.1)
Note que la funcion P
X
a la izquierda del igual en (2.1) es una funcion de probabilidad
inducida por X, denida en terminos de la probabilidad original P. La igualdad (2.1) for-
malmente dene una funcion de probabilidad, P
X
, para la v.a. X. Por supuesto que se
debera vericar que P
X
satisface los axiomas de Kolmogorov, lo cual se deja como ejerci-
cio. Como son equivalentes, simplemente (2.1) se escribira como P(X = x
i
) en lugar de
P
X
(X = x
i
)
Probabilidad y Estadstica
Segundo Semestre 2005
36 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Notacion Variables aleatorias siempre seran denotadas por letras imprenta may usculas
tales como, X, Y , Z, X
1
, X2, Y
1
, etc; y los valores de su realizacion (o su rango) con su
correspondiente letra min uscula. As, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Denimos
la v.a. X = n
o
de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
X()
CCC 3
CCS 2
CSC 2
SCC 2
CSS 1
SCS 1
SSC 1
SSS 0
El rango de valores de la v.a. X es X = {0, 1, 2, 3}. Asumiendo equiprobabilidad, se
tiene P({}) = 1/8 . De este modo podremos confeccionar la siguiente tabla:
x P
X
(X = x)
0 1/8
1 3/8
2 3/8
3 1/8
Por ejemplo P
X
(X = 1) = P({CSS, SSC, SCS}) =
3
8
.
Ejemplo 2.1.3. Sea formado por los 2
50
arreglos de tama no 50 formado por 1s y 0s.
Denimos X = cantidad de 1s obtenidos. Se tiene entonces que X = {0, 1, 2, . . . , 50}.
Supongamos que los 2
50
arreglos son igualmente probables. La P(X = 27) puede ser obteni-
da contando todas las cadenas que contienen exactamente 27 1s en el espacio muestral
original. Como cada cadena es igualmente probable, tenemos que
P(X = 27) =
Nro. de cadenas con 27 1s
Nro. total de cadenas
=
_
50
27
_
2
50
.
Probabilidad y Estadstica
Segundo Semestre 2005
37 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
En general
P
X
(X = i) =
_
50
i
_
2
50
Estos ejemplos anteriores tienen un y un X nito. Tambien X podra ser numerable.
Si X no es numerable, tambien es posible denir la funcion de probabilidad inducida P
X
de
forma similar a la anterior:
Para A X,
P
X
(X A) = P({ / X() A}).
Esta tambien dene legtimamente una funcion de probabilidad que cumple con los
axiomas de Kolmogorov.
2.2. Funciones de Distribucion
Con toda v.a. X, tenemos asociada una funcion llamada funcion de distribucion
acumulativa de X, dicha tambien f.d.a.
Denicion 2.2.1. La f.d.a. de una v.a. X, denotada por F
X
(x), se dene por:
F
X
(x) = P
X
(X x) x R
Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa
la cantidad de caras obtenidas. Determinemos F
X
(x)
x < 0 = F
X
(x) = P
X
(X x) = 0
0 x < 1 = F
X
(x) = P
X
(X x) = P(X = 0) = 1/8
1 x < 2 = F
X
(x) = P
X
(X x) = P(X = 0) +P(X = 1) = 1/2
2 x < 3 = F
X
(x) = P
X
(X x) = P(X = 0) +P(X = 1) +P(X = 2) = 7/8
x 3 = F
X
(x) = 1
Finalmente, la funcion de distribucion asociada a X es,
F
X
(x) =
_

_
0 si x < 0
1/8 si 0 x < 1
1/2 si 1 x < 2
7/8 si 2 x < 3
1 si x 3
Probabilidad y Estadstica
Segundo Semestre 2005
38 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Le proponga al lector que graque esta funcion, obtendra un graco en R
2
con las siguientes
caractersticas:
(a) F
X
(x) esta denida x, no solamente en X. Por ejemplo: F
X
(2,5) = 7/8
(b) Presenta saltos en los valores x
i
X, y la media de los saltos en x
i
es P(X = x
i
).
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la
funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbolicamente se tiene:
lm
xx
+
i
F
X
(x) = F
X
(x
i
) si x
i
X
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que estan denidas en terminos de probabilidad.
Teorema 2.2.1. La funcion F(x) es una f.d.a. s y solo s las siguientes tres condiciones
se cumplen:
(a)
lm
x
F(x) = 0 lm
x
F(x) = 1
(b) F(x) es no decreciente como funcion de x.
(c) F(x) es continua a la derecha, esto es:
lm
xx
+
0
F(x) = F(x
0
) x
0
.
Prueba:
Para probar la condicion necesaria, basta escribir F(x) en terminos de la funcion de prob-
abilidad. Para la suciencia o sea, que si una funcion F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),
deberamos establecer que existe un espacio muestral , una funcion de probabilidad P
sobre , y una v.a. X denida sobre , tal que F es la f.d.a. de X.
Probabilidad y Estadstica
Segundo Semestre 2005
39 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
X = {1, 2, 3, . . .}, entonces para x = 1, 2, . . . ,
P(X = x) = (1 p)
x1
p ,
ya que debemos encontrar x 1 fallas hasta obtener la siguiente cara, ademas los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
F
X
(x) = P(X x) =
x

i=1
P(X = i) =
x

i=1
(1 p)
i1
p , x = 1, 2, . . .
recordar que la suma parcial de una serie geometrica es
n

k=1
t
k1
=
1 t
n
1 t
, t = 1 (2.2)
Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra prob-
abilidad, encontramos que la f.d.a. de nuestra v.a. X es
F
X
(x) = P(X x)
=
1 (1 p)
x
1 (1 p))
p
= 1 (1 p)
x
, x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta funcion, por ejemplo para p = 0,3.
Es facil mostrar que 0 < p < 1 para que F
X
(x) satisfaga las condiciones del teorema (2.2.1).
lm
x
F
X
(x) = 0, ya que F
X
(x) = 0 x < 0 y
lm
x
F
X
(x) = lm
x
[1 (1 p)
x
] = 1.
Probabilidad y Estadstica
Segundo Semestre 2005
40 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la funcion
F
X
(x) =
1
1 + exp
x
,
la cual satisface las condiciones de teorema (2.2.1).
Por ejemplo,
lm
x
F
X
(x) = 0, ya que lm
x
exp
x
=
y
lm
x
F
X
(x) = 1, ya que lm
x
exp
x
= 0
Si derivamos F
X
(x) una vez, tenemos
d
dx
F
X
(x) =
exp
x
(1 + exp
x
)
2
> 0 ,
mostrando que F
X
es creciente como funcion de x. F
X
no solamente es continua a la derecha.
Sino tambien continua. Este es un caso especial de la llamada distribucion logstica.
Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.
que sea continua o no. En efecto, la asociacion nos conduce a la siguiente denicion,
Denicion 2.2.2. Una v.a. X es continua se F
X
(x) es una funcion continua de x. Una
v.a. X es discreta de F
X
(x) es una funcion dada a trozos con respecto a x.
Necesitamos denir la nocion de cuando dos v.a. son identicamente distribuidas.
Denicion 2.2.3. Se dice que dos v.a. X e Y estan identicamente distribuidas si para
cualquier conjunto A, P(X A) = P(Y B)
Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.
Esto es, la denicion ultima anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Denimos las v.a. X e Y como sigue,
X = n umero de caras obtenidas
Y = n umero de cecas obtenidas
Probabilidad y Estadstica
Segundo Semestre 2005
41 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
La distribucion de X esta dada en el ejemplo (2.1.2), y se verica facilmente que
la distribucion de Y es exactamente la misma; esto signica que para valores de k =
0, 1, 2, 3 P(X = k) = P(Y = k). As, X e Y estan identicamente distribuidas, sin em-
bargo, no para los mismos puntos se cumple X() = Y (). X = Y .
Igual distribucion de v.a., no implica igualdad en las v.a.
Teorema 2.2.2. Las siguientes armaciones son equivalentes:
(a) Las v.a. X e Y estan identicamente distribuidas
(b) F
X
(x) = F
Y
(x) para cada x.
Prueba:
Para mostrar la equivalencia, debemos demostrar que cada armacion implica la otra.
Veamos que (a) =(b).
Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,
P(X A) = P(Y B).
En particular, para el conjunto (, x] se tiene
P(X (, x]) = P(Y (, x]) x.
Pero esta ultima igualdad es equivalente a:
P(X x) = P(Y x) x,
o que F
X
(x) = F
Y
(x) para cada x.
La implicacion inversa, (b) =(a) es mucho mas difcil de probar. Para mostrarla se requiere
usar una batera pesada de - algebras de Borel. No entraremos aqu en mas detalles. Es
suciente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar
que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para
mas detalles ver Chung,1977).
Probabilidad y Estadstica
Segundo Semestre 2005
42 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
2.2.1. Densidad y Funciones de masa
Asociada con una v.a.X y su f.d.a. F
X
(x) existe otra funcion, llamada seg un corresponda:
funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).
Los terminos (f.d.p.) y (f.m.p.) se reeren, respectivamente, a los casos continua y discreto.
Ambas funciones esta relacionadas con probabilidades puntuales de v.a.
Denicion 2.2.4. Una funcion de masa de probabilidad, f.m.p., de una v.a. discreta esta da-
da por:
f
X
(x) = P(X = x) , x.
Ejemplo 2.2.5. Para la distribucion geometrica del ejemplo (2.2.2) tenemos la f.m.p.,
f
X
(x) = P(X = x) =
_
_
_
(1 p)
x1
p si x = 1, 2, . . .
0 en otro caso
Recordar que f
X
(x) o equivalentemente P(X = x) es la medida del salto de la f.d.a. en
x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente
sumar sobre todos los puntos de un evento en forma apropiada.
Por lo tanto, para enteros positivos a y b, con a b, nosotros tenemos,
P(a X b) =
b

k=a
f
X
(k) =
b

k=a
(1 p)
k1
p.
As, se puede conseguir con esto un caso especial
P(X b) =
b

k=1
f
X
(k) = F
X
(b).
Una convencion ampliamente aceptada, la cual tambien nosotros adoptaremos, es la de
anotar con letras imprentas may usculas las f.d.a.s; y con la correspondiente min uscula la
f.m.p. o la f.d.p. respectiva.
Debemos tener un poco mas de cuidado en nuestra denicion de f.d.p. en el caso continuo.
Si ingenuamente tratamos de probar calcular P(X = x) para v.a. continuas, conseguiremos
lo siguiente: ya que {X = x} {x < X x} para cualquier > 0, nosotros tendremos
a partir del teorema (1.2.1) parte f. que,
P(X = x) P(x < X x) = F
X
(x) F
X
(x ),
Probabilidad y Estadstica
Segundo Semestre 2005
43 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
para cualquier > 0. Por lo tanto,
0 P(X = x) lm
x
+
[F
X
(x) F
X
(x )] = 0,
por la continuidad de F
X
. Sin embargo, si nosotros comprendemos el proposito de la f.d.p.,
su denicion sera clara.
Denicion 2.2.5. La funcion de densidad de probabilidad o f.d.p., f
X
(x), de una v.a.
continua X es la funcion que satisface:
F
X
(x) =
_
x

f
X
(x) dt para todo x. (2.3)
Una nota sobre notacion: La expresion X tiene una distribucion dada por F
X
(x)se
abrevia simbolicamente por X F
X
(x), donde leemos el smbolo como esta distribui-
do como. Tambien podremos en forma similar escribir X f
X
(x) o, si X e Y tienen la
misma distribucion, X Y .
En el caso de v.a. continuas no necesitamos ser cuidadosos en la especicacion de incluir
o no los extremos de los intervalos para el calculo de probabilidades. Como P(X = x) = 0
si X es una v.a. continua,
P(a < X < b) = P(a < X b) = P(a X < b) = P(a X b).
En este punto, ya debe estar claro que la f.d.p. (o p.m.f.) contienen la misma informacion
que la f.d.a. Seg un sea el caso se puede ocupar una u otra para resolver problemas, de
acuerdo si facilita o no su resolucion.
Ejemplo 2.2.6. Para la distribucion logstica dada en el ejemplo anterior. Se pide, deter-
minar su f.d.p. y determinar una metodologa para calcular la P(a < X < b)
Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto
f
x
(x) =
d
dx
F
X
(x) =
exp
x
(1 + exp
x
)
2
.
El area bajo la curva f
x
(x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Probabilidad y Estadstica
Segundo Semestre 2005
44 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Figura 2.1: Area bajo la curva logistica
P(X [a, b]) = F
X
(b) F
X
(a) =
_
b

f
X
(x) dx
_
a

f
X
(x) dx =
_
b
a
f
X
(x) dx.
Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas
consecuencias de la denicion.
Teorema 2.2.3. Una funcion f
X
(x) es una f.d.p. (o una f.m.p.) de una variable aleatoria
X si y solo s
(a) f
X
(x) 0 x.
(b)

x
f
X
(x) = 1 (f.m.p.) o
_
+

f
X
(x) dx = 1 (f.d.p.).
Prueba:
Si f
X
(x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las deniciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
1 = lm
x
F
X
(x) =
_
+

f
X
(t) dt.
Probabilidad y Estadstica
Segundo Semestre 2005
45 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene f
X
(x) podemos
denir F
X
(x) y recurrir al Teorema 2.2.1.
Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X
1
y X
2
el pun-
taje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =
max{X
1
, X
2
}. Determinar la f.m.p y la f.d.a. de la v.a. X
X x max{X
1
, X
2
} x X
1
x X
2
x.
La ultima igualdad se deduce de la denicion de maximo!.
{X x} es equivalente a,
{X
1
x} {X
2
x}.
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
P(X x) = P[{X
1
x} {X
2
x}]
= P(X
1
x) P(X
2
x).
Si suponemos que los dados son equilibrados , se tiene que
P(X
1
= l) = P(X
2
= l) =
1
6
con l = 1, . . . , 6.
Luego,
P(X
i
x) =
x

l=1
P(X
i
= l) =
x
6
x = 1, 2, . . . , 6, i = 1, 2.
Finalmente,
P(X x) =
x
2
36
, x = 1, . . . , 6.
Siendo esta su f.d.a.. Pero
P(X = x) = P(X x) P(X x 1
=
x
2
36

(x 1)
2
36
=
2x 1
6
, x = 1, . . . , 6.
Probabilidad y Estadstica
Segundo Semestre 2005
46 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Siendo esta su f.m.p
Que ocurre si lanzamos ahora innitamente el dado en forma independiente?
Si razonamos como en la parte ultima anterior del ejemplo, sea S
i
el puntaje obtenido
en el i-esimo lanzamiento, i=1,. . . ,k.
Nos interesa la v.a. Y = el puntaje maximo obtenido:
Y = max {S
1
, S
2
, . . . ,
k
}.
Por denicion del maximo, {Y y} es equivalente a,
{S
1
y} {S
2
y} . . . {S
k
y}.
Luego, usando la independencia de los lanzamientos, se obtiene que
P(Y y) =
k

i=1
P(S
i
y) =
_
y
6
_
k
, y = 1, . . . , 6.
Finalmente, para y = 1, 2, . . . , 6,
P(Y = y) = P(Y y) P(Y y 1) =
1
6
k
[y
k
(y 1)
k
].
Calcular la probabilidad de que el maximo valor ledo sea un valor y en innitos lanzamien-
tos, corresponde a tomar
lm
k
P(Y = y).
Para calcular este lmite, debe notar que la f.m.p. de Y se puede escribir de manera equiv-
alente como
P(Y = y) =
y
k
6
k
_
1
_
y 1
y
_
k
_
.
Al tomar lmite se obtiene:
lm
k
P(Y y) =
_
_
_
0 si y < 6
1 si y = 6
Esto signica que en un n umero innito de lanzamientos, la probabilidad de obtener un
puntaje maximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje
igual a 6 es uno!!!.
Probabilidad y Estadstica
Segundo Semestre 2005
47 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Ejemplo 2.2.8. Probar que la funcion dada por
f
X
(x) =
1

2
exp
x
2
/2
. (2.4)
es una funcion de densidad de probabilidad
En efecto, obviamente f
X
(x) > 0. Para vericar que es una densidad, falta comprobar
que
_

f
X
(x) dx = 1.
Sea a =
_

e
x
2
/2
dx. Deberemos probar que a
2
= 2. Para lo cual, notar que
a
2
=
_

e
x
2
/2
dx
_

e
y
2
/2
dy =
_

e
(x
2
+y
2
)/2
dxdy;
y tomando, en la integral doble, coordenadas polares (r, ) queda
a
2
=
_
2
0
d
_

0
e
r
2
/2
r dr = 2.
Esta densidad se dene como la densidad normal tpica (o estandar), y se la anota con la
letra griega , de donde en adelante siempre que veamos (x), nos estamos reriendo a la
densidad de una v.a. con distribucion Normal estandar, denida por (2.4).
Ejemplo 2.2.9. Supongase que la v.a. X es continua, y se tiene la funcion dada por
f(x) =
_
_
_
kx si 0 < x < 1
0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota f
X
(x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P(X = 0,5) = 0, y por lo tanto f
X
(0,5) no la representa. Solo cuando la funcion se integra
entre dos lmites produce una probabilidad. Sin embargo, es posible dar una interpretacion
de xf
X
(x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce
que
P(x X x +x) =
_
x+x
x
f
X
(s) ds = xf
X
() , x x +x.
Si x es peque no, xf
X
(x) es aproximadamente igual a P(x X x + x). Si f
X
es
continuo por la derecha, esta llega a ser mas segura cuando x 0.
Probabilidad y Estadstica
Segundo Semestre 2005
48 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
2.3. Transformaciones y Esperanzas
A menudo, si nosotros somos capaces de modelar un fenomeno en terminos de la va X
con una F
X
(x), tambien tendremos la relacion con la conducta de funciones de X. En esta
seccion estudiaremos tecnicas que nos permitiran ganar informacion acerca de funciones de
X que podran ser de interes, que puede ir desde ser completa (las distribuciones de esas
funciones) a muy vaga (la conducta del promedio).
2.3.1. Distribuciones de funciones de una Variable Aleatoria
Si X es una v.a. con fda F
X
(x), entonces cualquier funcion de X, digamos g(X), es
tambien una v.a.. A menudo g(X) es de interes en s misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su
conducta probabilstica, en terminos de la de X. Esto es, para cualquier conjunto A,
P(Y A) = P(g(X) A) ,
esto muestra que la distribucion de Y depende de las funciones F
X
y g. Dependiendo de
la eleccion de g, es algunas veces posible obtener una expresion tratable para el calculo de
esta probabilidad.
Formalmente, si nosotros escribimos y = g(x), la funcion g(x) dene una mapeo del espacio
muestral de X, X, a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto
es,
g(x) : X Y.
Es posible asociar con g un mapeo inverso, denotado por g
1
, el cual es un mapeo prove-
niente de subconjuntos de Y a subconjuntos de X, y esta denido por
g
1
(A) = {x X : g(x) A}.
Note que el mapeo g
1
esta denido de conjuntos en conjuntos, esto es, g
1
(A) es el conjunto
de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
Probabilidad y Estadstica
Segundo Semestre 2005
49 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
formado por un solo punto, digamos A = {y}. Entonces
g
1
({y}) = {x X : g(x) = y}.
En este caso casi siempre se escribe g
1
(y) en lugar de g
1
({y}). Sin embargo, la cantidad
g
1
(y) puede a un ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g
1
(y) en el conjunto unitario {x},
y escribiremos g
1
(y) = x.
Si la v.a. Y esta denida por Y = g(X), es posible escribir para cualquier conjunto A Y,
P(Y A) = P(g(X) A)
= = P({x X : g(x) A}) (2.5)
= P(X g
1
(A)).
Esta dene la distribucion de probabilidades de Y . Sera justo mostrar que esta distribucion
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es
Y = {y : y = g(x), x X}, el cual tambien es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
f
Y
(y) = P(Y = y) =

xg
1
(y)
P(X = x) =

xg
1
(y)
f
X
(x), para y Y ,
y f
Y
(y) = 0 para y / Y. En este caso para encontrar la fmp de Y solo es necesario identicar
g
1
(y), para cada y Y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la
forma
f
X
(x) = P(X = x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n,
donde n es un entero positivo y 0 p 1. Encontrar la fmp de Y = g(X), siendo g(x) =
n x
Valores como n y p que al tomar diferentes valores producen diferentes funciones de
probabilidad, se llaman parametros de la distribucion. Consideremos la va. Y = g(X),
donde g(x) = nx. Esto es Y = nX. Aqu X = {0, 1, 2, , n} y Y = {y : y = g(x), x
Probabilidad y Estadstica
Segundo Semestre 2005
50 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
X} = {0, 1, 2, , n}. Para cualquier y Y, n x = g(x) = y s y solo si x = n y. As,
g
1
(y) es entonces simplemente el punto x = n y, y
f
Y
(y) =

xg
1
(y)
f
X
(x)
= f
X
(n y)
=
_
n
n y
_
p
ny
(1 p)
n(ny)
=
_
n
y
_
(1 p)
y
p
ny
Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y
(1 p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas
simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
F
Y
(y) = P(Y y)
= P(g(X) y)
= P({x X : g(x) y}) (2.6)
=
_
{xX: g(x)y}
f
X
(x) dx.
Muchas veces resulta difcil identicar {x X : g(x) y} y resolver la integral de f
X
(x)
bajo esa region.
Cuando hacemos transformaciones, es importante mantener presente los espacios mues-
trales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando
hacemos una transformacion de X a Y = g(X), lo mas conveniente es usar,
X = {x : f
X
(x) > 0} y Y = {y : y = g(x) para alg un x X}. (2.7)
La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal con-
junto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de
Probabilidad y Estadstica
Segundo Semestre 2005
51 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
la distribucion. Este terminologa puede tambien aplicarse para una fmp o, en general, para
una funcion no negativa.
Es mucho mas facil tratar con aquellas g(x) que son monotonas, esto es aquellas que
satisfacen
a. u > v = g(u) > g(v) (crecientes) o
b. u < v = g(u) > g(v) (decrecientes)
Si la transformacion x g(x) es monotona, entonces esta es (1-1) de X Y. Tambien
para Y denida como en (2.7), para cada y Y, existe un x X tal que g(x) = y. As la
transformacion g unvocamente manda xs en ys. Si g es monotona, g
1
es univaluada,
esto es g
1
(y) = x s y solo s y = g(x). Si g es creciente, esto implica que
{x X : g(x) y} = {x X : g
1
(g(x)) g
1
(y)}
= {x X : x g
1
(y)}.
Mientras que si g es decreciente, esto implica que
{x X : g(x) y} = {x X : g
1
(g(x)) g
1
(y)}
= {x X : x g
1
(y)}.
Si g(x) es una funcion creciente, entonces usando (2.6), podemos escribir
F
Y
(y) =
_
{xX: xg
1
(y)}
f
X
(x) dx
=
_
g
1
(y)

f
X
(x) dx
= F
X
(g
1
(y)).
Si g(x) es decreciente, se tiene,
F
Y
(y) =
_
g
1
(y)

f
X
(x) dx
= 1 F
X
(g
1
(y)). (aqu fue usada la continuidad de X)
Resumimos estos resultados en el siguiente teorema
Probabilidad y Estadstica
Segundo Semestre 2005
52 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Teorema 2.3.1. Supongamos que X tiene una fda F
X
(x), sea Y = g(X), X e Y denidos
como en (2.7).
a. Si g es una funcion creciente sobre X, F
Y
(y) = F
X
(g
1
(y)) para y Y.
b. Si g es una funcion decreciente sobre X y X es una v.a. continua,
F
Y
(y) = 1 F
X
(g
1
(y)) para y Y.
Ejemplo 2.3.2. Sea X f
X
(x) = 1.I(0 < x < 1), de donde se tiene X U(0, 1). Es-
to ultimo se lee X con distribucion uniforme en el intervalo (0,1). Se pide determinar
F
X
(x), F
Y
(y), f
Y
(y) si Y = g(X) = logX.
Se aconseja siempre vericar que, en este caso la f
X
es una densidad.
Determinacion de F
X
:
F
X
(x) =
_
x

f
X
(t) dt para todo x R, por denicion,
i. Si x < 0 = f
X
(x) = 0 =F
X
(x) =
_
x

0 dt = 0.
ii. Si 0 < x < 1 = f
X
(x) = 1 =F
X
(x) =
_
0

0 dt +
_
x
0
1 dt = 0 + t
_
x
0
= x.
iii Si x 1 = f
X
(x) = 0 =F
X
(x) =
_
0

0 dt +
_
1
0
1 dt +
_
x
1
0 dt = 0 + t
_
1
0
+ 0 = 1.
De donde se tiene,
F
X
(x) =
_

_
0 si x < 0
x si 0 < x < 1
1 si x 1
Determinacion de F
Y
:
Veamos si g(x) es monotona en el soporte de X, X.
d
dx
g(x) =
1
x
< 0 , para x (0, 1) = X,
de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . Y denido
como en (2.7), resulta ser Y = (0, ). Queda calcular la g
1
(y) para y Y = (0, ); la
cual resulta de y = g(x) = logx = y = logx = x = e
y
= g
1
(y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
F
Y
(y) = 1 F
X
(g
1
(y)) = 1 F
X
(e
y
) = 1 e
y
, y Y = (0, )
Probabilidad y Estadstica
Segundo Semestre 2005
53 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Para determinar f
Y
(y) queda diferenciar la fda de Y , as
f
Y
(y) =
d
dy
F
Y
(y) = e
y
(y > 0)
La fdp y la fda de Y respectivamente son:
f
Y
(y) = e
y
I(0, ) , F
Y
(y) =
_
_
_
0 si y 0
1 e
y
si y > 0
Este resultado arma que si: X U(0, 1) =Y = logX Exp(1).
Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresion resultante
esta dada por el siguiente teorema
Teorema 2.3.2. Supongamos X v.a. con una fdp f
X
(x). Sea Y = g(X), donde g es
monotona una transformacion de X; X e Y son respectivamente sus soportes. Suponga
ademas que f
X
(x) es continua sobre X, y que g
1
(y) tiene una derivada continua sobre Y.
Entonces la fdp de Y esta dada por:
f
Y
(y) =
_
_
_
f
X
(g
1
(y)) |
d
dy
g
1
(y)) | si y Y
0 e.o.c.
(2.8)
Demostracion: Aplicando al teorema ultimo la regla de la cadena, se tiene
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
F
X
(g
1
(y)) = f
X
(g
1
(y))
d
dy
g
1
(y) g creciente
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
(1 F
X
(g
1
(y)) = f
X
(g
1
(y))
d
dy
g
1
(y) g decreciente
La cual puede ser expresada en forma consisa como en (2.8).
Ejemplo 2.3.3. Ses f
X
(x) la fdp de una va. gamma, entonces esta tiene la forma,
f
X
(x) =
1
(n 1)!
n
x
n1
e
x/
I(0, )
representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =
g(X) = 1/X .
Probabilidad y Estadstica
Segundo Semestre 2005
54 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el
resultado ultimo no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es
monotona sobre ciertos intervalos.
Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X
2
.
En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,
donde cada uno de ellos representa el intervalo donde g(x) = x
2
es monotona. En general
este sera el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp f
X
(x), Y = g(X), y se dene el so-
porte de X, X. Supongamos que existe una particion A
0
, A
1
, . . . , A
k
de X, tal que P(X
A
0
) = 0 y f
X
(x) es continua sobre cada A
i
. Ademas, supongase que existen funciones
g
1
(x), g
2
(x), . . . , g
k
(x), denidas sobre A
1
, . . . , A
k
respectivamente, satisfaciendo:
(a) g(x) = g
i
(x) , para x A
i
(b) g
i
(x) es monotona sobre A
i
(c) El conjunto Y = {y : y = g
i
(x) , para alg unx A
i
} es el mismo para cada i = 1, . . . , k y
(d) g
1
(y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces
f
Y
(y) =
_
_
_

k
i=0
f
X
(g
1
(y)) |
d
dy
g
1
(y)) | si y Y
0 e.o.c.
El punto mas importante en este teorema es que X puede ser divididos en conjuntos
A
1
, . . . , A
k
, tal que g(x) sea monotona sobre cada A
i
. Es posible ignorar el conjunto excep-
cional A
0
, ya que P(X A
0
) = 0. Esta es una tecnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada g
i
(x) es una transformacion 1 1
de A
i
en Y.
Ejemplo 2.3.5. Sea X una va. con la distribucion Normal estandar, entonces
f
X
(x) =
1

2
exp
x
2
/2
I(, )
Sea Y = X
2
. Halle f
Y
(y)
Probabilidad y Estadstica
Segundo Semestre 2005
55 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado
de libertad. Cerramos esta seccion con una especial y muy conocida transformacion, la
transformacion de probabilidad integral.
Teorema 2.3.4. Consideremos X va. continua con fda F
X
(x) y se dene la va. Y = F
X
(x).
Entonces Y U(0, 1), tal que P(Y y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a F
1
X
, la inversa de la fda con alg un detalle.
Si F
X
es estrictamente creciente, entonces F
1
X
esta bien denida como
F
1
X
(y) = x F
X
(x) = y (2.9)
Sin embargo, si la fda llega a ser constante en alg un intervalo, entonces su inversa no esta bi-
en denida por (2.10).
Cualquier x [x
1
, x
2
], por ejemplo (intervalo donde la F
X
(x) es constante), satisface
F
X
(x) = y. Este problema se soluciona, deniendo F
1
X
(y), para 0 < y < 1, del siguiente
modo,
F
1
X
(y) = inf{x : F
X
(x) y}, (2.10)
esta denicion coincide con de F
1
X
(y) cuando F
X
(x) = y no es constante, pero provee una
F
1
X
siempre univariada
Dem. del teorema:
Para Y = F
X
(X) = g(X); Y = (0, 1).
P(Y y) = P(F
X
(X) y)
= P(F
1
X
(F
X
(X)) F
1
X
(y)) (F
1
X
creciente)
= P(X F
1
X
(y))
= F
X
(F
1
X
(y)) (denicion de F
X
)
= y (continuidad de F
X
)
En los puntos extremos se tiene P(Y y) = 1 para y 1, y P(Y y) = 0 para y 1,
mostrando as que Y U(0, 1)
Probabilidad y Estadstica
Segundo Semestre 2005
56 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Como se razono detras de la igualdad
P(F
1
X
(F
X
(X)) F
1
X
(y)) = P(X F
1
X
(y))?
esta requiere una particular atencion. Si F
X
es estrictamente creciente, entonces es ver-
dad que F
1
X
(F
X
(X)) = X. Sin embargo, si F
X
presenta alg un escalon, puede suceder que
F
1
X
(F
X
(X)) = X, pero eso se salva ocupando la denicion para F
1
X
con en (2.10).
Una aplicacion de este teorema esta en la generacion de muestras aleatorias provenientes
de una distribucion particular. Si se quiere generar una observacion x proveniente de una
poblacion con fda F
X
, necesitamos generar solamente el n umero aleatorio uniforme u entre
0 y 1, y resolver para x la ecuacion F
X
(x) = u.
2.4. Valores Esperados
El valor esperado o esperanza de una v.a. X es, su valor promedio. Aqu hablamos de
valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.
El valor esperado de una distribucion, tambien puede ser pensado como una medida de
centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion
de probabilidad, queremos obtener un n umero que resuma un valor tpico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el
perodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x 1 2 3 4 5 6 7
f
X
(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02
Probabilidad y Estadstica
Segundo Semestre 2005
57 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Podemos considerar a la poblacion como aquella formada por 15000 personas, cada
una con su propio valor de X (seg un la cantidad de materias en las que inscribio en ese
a no academico); la proporcion con cada valor X esta dada por f
X
(x) de la tabla. Por
ejemplo podramos interpretar el valor f
X
(1) = P(X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Analogamente, f
X
(2) = P(X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y as siguiendo, se genera la tabla (2.4)
x 1 2 3 4 5 6 7
f
X
(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02
N
o
registrado 150 450 1950 3750 5850 2550 300
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma
como formada por los valores X.
Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera uti-
lizarlo para calcular valores caractersticos de esa poblacion (como por ejemplo la media )
y hacer inferencias a partir de tales caractersticas.
Si se quisiera determinar el n umero promedio de cursos por estudiante, o el valor prome-
dio de X de la poblacion, debemos calcular el n umero total de cursos y dividir entre el
n umero total de estudiantes. El valor promedio de X de la poblacion es entonces,
1(150) + 2(450) + 3(1950) + + 7(300)
15000
= 4,57, (2.11)
como
150
15000
= 0,01 = f
X
(1);
450
15000
= 0,03 = f
X
(2); . . . , etc., otra expresion para el cociente
(2.11) es:
1 f
X
(1) + 2 f
X
(2) + 3 f
X
(3) + + 7 f
X
(7) (2.12)
Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,
solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
Probabilidad y Estadstica
Segundo Semestre 2005
58 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
El valor promedio, o la media de X es entonces un promedio ponderado de los posibles
valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.
La expresion (2.13), nos conduce la siguiente denicion de valor esperado o media de una
poblacion.
Denicion 2.4.1. El valor esperado o media de una va. g(X), denotado por E g(X), es
E g(X) =
_
_
_
_

g(x) f
X
(x) dx si X es continua

xX
g(x) f
X
(x) =

xX
g(x) P(X = x)) si X es discreta
Suponiendo que la integral o suma existen. Si E | g(X) |= diremos que E g(X) no
existe.
Ejemplo 2.4.1. Supongamos que X tiene una distribucion exponencial , es decir su fdp
es,
f
X
(x) =
1

e
x/
I(0 x < ) > 0
Se pide encontrar E X
Rta. E X =
Ejemplo 2.4.2. Si X tiene una distribucion binomial con parametros n y p, entonces su
fmp es,
P(X = x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n
donde n es un entero positivo, 0 p 1, y para cada par de valores jos n y p, la fmp
suma 1. Determine el valor esperado de X.
Rta.: E X = np
Ejemplo 2.4.3. Un ejemplo clasico de una variable aleatoria cuyo valor esperado no existe
es la variable aleatoria Cauchy, cuya fdp es,
f
X
(x) =
1

1
1 +x
2
, x .
Mostrar, entonces que E | g(X) |= .
Probabilidad y Estadstica
Segundo Semestre 2005
59 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
El proceso de tomar esperanza es una operacion lineal, lo cual signica que la esperanza
es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX +b) = aE X +b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayora de tales propiedades se derivan de las propiedades de la integral o la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g
1
(X), g
2
(X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
(a) E (ag
1
(X) +bg
2
(X) +c) = aE (g
1
(X)) +bE (g
2
(X)) +c.
(b) Si g
1
(x) 0, x = E (g
1
(X)) 0.
(c) Si g
1
(x) g
2
(x), x = E (g
1
(X)) E (g
2
(X)).
(d) Si a g
1
(x) b, x = a E (g
1
(X)) b.
Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pesandola con
relacion a considerarla como un buen aciertopara el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X b)
2
, o sea buscamos el valor de b mas cercano a X. Podemos as, determinar el
valor de b que minimiza E(X b)
2
y, por lo tanto esto podra interpretarse en terminos
estadsticos como la b usqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X b)
2
, ya que la respuesta podra depender de X, siendo as un
predictor in util de X).
Podramos proceder a minimizar E(X b)
2
ocupando las herramientas que nos provee el
calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en
relacion con este problema y la E X, as escribimos
E(X b)
2
= E(X E X +E X b)
2
= E((X E X) + (E X b))
2
= E(X E X)
2
+ (E X b)
2
+ 2E((X E X)(E X b)),
Probabilidad y Estadstica
Segundo Semestre 2005
60 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
en esta ultima igualdad hemos expandido el cuadrado. Ahora note que
E((X E X)(E X b)) = (E X b)E(X E X) = 0
ya que (E X b) es constante sale fuera de la expresion, y E(X E X) = E X E X = 0.
Esto signica que
E(X b)
2
= E(X E X)
2
+ (E X b)
2
. (2.13)
No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el
segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mn
b
E(X b)
2
= E(X E X)
2
(2.14)
Existe un resultado similar para la mediana.
Cada vez que evaluemos la esperanza de una funcion no lineal de X, podemos proceder de
dos maneras diferentes. De la denicion de E g(X), sera posible calcular directamente
E g(X) =
_

g(x)f
X
(x) dx. (2.15)
Pero tambien podramos primero encontrar la fdp f
Y
(y) para la va. Y = g(X), y luego
calcular
E g(X) = E Y =
_

y f
Y
(y) dy. (2.16)
Ejemplo 2.4.5. Sea X U(0, 1), Y = g(X) = log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
2.5. Momentos y Funciones Generadoras de Mo-
mentos
Los distintos momentos de una distribucion son una importante clase de esperanzas.
Denicion 2.5.1. Para cada entero n, el n-esimo momento de X (o de F
X
(x)), notado

n
, es

n
= E X
n
.
Probabilidad y Estadstica
Segundo Semestre 2005
61 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
El n-esimo momento central de X, es

n
= E (X )
n
,
donde =

= E X
Ademas de la media, E X, de una va., quiza el momento mas importante es el central
de segundo orden, mas com unmente conocido como la varianza.
Denicion 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =
E(X E X)
2
. La raz cuadrada positiva de la V ar X se denomina desviacion estandar de
X.
La varianza de una medida del grado de diseminacion de una distribucion alrededor de
la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(Xb)
2
es minimizada eligiendo b =
E X. Consideremos ahora la medida absoluta de este mnimo. La interpretacion agregada
a la varianza es que valores grandes de la misma, signican que X es muy variable. En
el extremo, si V ar X = E(X E X)
2
= 0, entonces X = E X con probabilidad 1, y no
existe variacion en X. La desviacion estandar tiene la misma interpretacion cualitativa:
peque nos valores de la misma signican que X esta probablemente muy cerca de E X, y
grandes valores signica que X es muy variable. La desviacion estandar es mas facil para
interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.
X.
Ejemplo 2.5.1. Supongamos X Exp(). Hemos calculado ya E X = . Se propone
ahora calcular V ar X.
Rta.: V ar X =
2
Vemos que la varianza de una distribucion exponencial esta directamente relacionada
con el parametro . Es posible dibujar distintas distribuciones exponenciales, cambiando
los valores de . De esta manera sera posible notar como la distribucion esta mas concentrada
alrededor de su media para valores peque nos de . El comportamiento de la varianza de
una va. exponencial, como una funcion de , es una caso especial del comportamiento de la
varianza resumido en el siguiente teorema,
Probabilidad y Estadstica
Segundo Semestre 2005
62 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Teorema 2.5.1. Si X es una va. con varianza nita, entonces para cualquier par de con-
stantes a, b se cumple,
V ar(aX +b) = a
2
V ar X.
En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,
V ar X = E X
2
(E X)
2
, (2.17)
la cual es muy facil de demostrar.
Ejemplo 2.5.2. Supongamos que X Bib(n, p). Hemos probado que E X = np. Se pide
ahora calcular V ar X.
Rta.: V ar X = np(1 p)
Para calcular momentos de orden mas alto se procede de manera analoga. En aplica-
ciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen
razones estadsticas para examinar momentos de orden mas algo que 2.
Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de
probabilidad, la funcion generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Denicion 2.5.3. Sea X una va. con fda. F
X
. La funcion generadora de momentos (fgm)
de X(o F
X
) , denotada por M
X
(t) ,es
M
X
(t) = E e
t X
,
suponiendo que la esperanza exista para valores de t en alg un entorno del 0. Esto es, existe
un h > 0 tal que, para todo t (h, h) E e
t X
existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Probabilidad y Estadstica
Segundo Semestre 2005
63 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Mas explcitamente, podemos escribir la fgm de X como
M
X
(t) =
_

e
t x
f
X
(x) dx Si X es continua
M
X
(t) =

xX
e
t x
f
X
(x) Si X es discreta
Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
Teorema 2.5.2. Si X tiene fgm M
X
(t), entonces
E X
n
= M
(n)
X
(0),
donde se dene
M
(n)
X
(0) =
d
n
dt
n
M
X
(t)|
t=0
.
Es decir el n-esimo momento de la va. X es igual a la n-esima derivada de la fgm de X
evaluada en t = 0
Del teorema ultimo anterior es facil mostrar que,
d
dt
M
X
(t)|
t=0
= E X e
t X
|
t=0
= E X.
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
f
X
(x) =
1
()

x
1
e
x/
, 0 < x < , > 0, > 0,
donde () representa la funcion gamma. Determinar la M
X
(t) para esta va.
Rta.: M
X
(t) =
_
1
1t
_

si t <
1

.
Ejemplo 2.5.4. Para otra ilustracion sobre el calculo de la fgm, consideremos una dis-
tribucion discreta, la distribucion binomial. Si X Bin(n, p), determina la fgm de X
Rta.: M
X
(t) = [pe
t
+ (1 p)]
n
.
Podra ocurrir que existan dos va. con distintas fdp, pero que generen los mismos mo-
mentos, e.d.,
X
1
f
1
, X
2
f
2
con f
1
= f
2
,
Probabilidad y Estadstica
Segundo Semestre 2005
64 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
pero tal que E X
r
1
= E X
r
2
r = 0, 1, . . ..
Querramos tener condiciones para poder caracterizar las distribuciones con iguales momen-
tos. El siguiente teorema muestra como puede ser caracterizada una distribucion usando su
fgm.
Teorema 2.5.3. Sean F
X
(x), F
Y
(y) dos fda tales que sus momentos existen
(a) Si F
X
y F
Y
tienen soporte acotado, entonces F
X
(u) = F
Y
(u) s y solo s
E X
r
= E Y
r
r = 0, 1, . . ..
(b) Si las fgm existen y se cumple M
X
(t) = M
Y
(t) para todo t en alg un entorno del 0,
entonces F
X
(u) = F
Y
(u) u.
La demostracion de este teorema recae en las teora de las transformaciones de Laplace(ver
Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.
Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b esta dada
por
M
Y
(t) = M
aX+b
(t) = e
b t
M
X
(at).
Probabilidad y Estadstica
Segundo Semestre 2005
65 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
2.6. Ejercicios
2.1 De un lote que contiene 25 artculos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el n umero de defectuosos encontrados. Obtener la distribucion de probabili-
dades de X si,
(a) los artculos se escogen con sustitucion
(b) los artculos se escogen sin sustitucion.
2.2 Supongase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P(X = j) = 1/2
j
, j =
1, 2, . . .
(a) Calcular P(Xsea par ).
(b) Calcular P(X 5).
(c) Calcular P(Xes divisible por 3)
2.3 Considerese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P(X =
j) = (1 a) a
j
, j = 0, 1, . . .
(a) Para que valores a es signicativo el modelo anterior?
(b) Vericar que la anterior representa una legtima f.m.p.
(c) Demostrar que para dos enteros positivos cualesquiera s y t,
P(X < s +t | X > s) = P(X t).
2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. f
X
(x) = be
bx
I (x 0). Sea
p
j
= P(j X < j + 1). Demostrar que p
j
es de la forma (1 a) a
j
y determine a.
2.5 La v.a. continua X tiene f.d.p. f
X
(x) = 3x
2
I(1 x 0). Si b es un n umero que
satisface 1 < b < 0, calcular P(X > b | X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: f
X
(x) = 20x
3
(1 x)I(0 < x < 1).
Probabilidad y Estadstica
Segundo Semestre 2005
66 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
(a) Obtener una expresion para fda, F
X
y dibujar su graco.
(b) Calcular la P(X
2
3
).
(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.
Especcamente, si
1
3
< X <
2
3
, el compuesto se vende por C
1
dolares/galon.
Encontrar la distribucion de probabilidades de la utilidad neta por galon.
2.7 Supongase que X esta distribuida uniformemente en [, ], en donde > 0. Cada
vez que sea posible determinar de modo que se satisfaga lo siguiente:
(a) P(X > 1) =
1
3
(b) P(X > 1) =
1
2
(c) P(X >
1
2
) = 0,7
(d) P(X >
1
2
) = 0,3 (e) P(| X |< 1) = P(| X |> 1).
2.8 En cada uno de los siguientes casos encuentre f
Y
. Muestre que la fdp integra 1.
(a) f
X
(x) = 42x
5
(1 x), 0 < x < 1; Y = X
3
.
(b) f
X
(x) = 7e
7x
, 0 < x < ; Y = 4X + 3.
2.9 Si X tiene fdp
f
X
(x) =
1

2
xe
(x/
2
)/2
I(0, ),
2
es una constante positiva
Determine la fdp de Y = e
X
.
2.10 Suponga que X tiene una distribucion geometrica con fmp dada por f
X
(x) =
1
3
(
2
3
)
x
, x =
0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especicar la distribucion de probabilidad
de Y , especique su fmp.
2.11 En cada uno de los siguientes casos encuentre f
Y
. Muestre que la fdp integra 1.
(a) f
X
(x) =
1
2
e
|x|
, < x < ; Y =| X |
3
.
(b) f
X
(x) =
3
8
(x + 1)
2
, 1 < x < 1; Y = 1 X
2
.
(c) f
X
(x) =
3
8
(x + 1)
2
, 1 < x < 1; Y = 1 X
2
si X 0 e Y = 1 X si X > 0.
Probabilidad y Estadstica
Segundo Semestre 2005
67 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
2.12 Suponga que X es una va. con la siguiente funcion de densidad
f
X
(x) =
1
2
(1 +x) I(1, 1).
(a) Encuentre la fdp. de Y = X
2
(b) Encuentre la E X y la V arX
2.12 Una mediana de una distribucion es un valor m tal que P(X m) = P(X m) =
1
2
.
(Si X es continua, m satisface
_
m

f
X
(x)dx =
_

m
f
X
(x)dx =
1
2
.). Encuentre la
mediana de las siguientes distribuciones
(a) f
X
(x) = 3x
2
I(0, 1) (b) f
X
(x) =
1
(1+x
2
)
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
(a) f
X
(x) = ax
a1
0 < x < 1, a > 0
(b) f
X
(x) =
1
n
x = 1, 2, . . . , n; n > 0 entero
(c) f
X
(x) =
3
2
(x 1)
2
, 0 < x < 2
2.14 Sea
n
el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas
a la media y la varianza son,

3
=

3
(
2
)
3/2
y
4
=

4
(
2
)
2
.
El valor
3
es llamado coeciente de asimetra, y el
4
es llamado de curtosis. La
medida de asimetra se reere a cuanto se aparta la forma de la distribucion simetrica
la fdp. La curtosis, aunque mucho mas difcil de interpretar que la asimetra, mide
cuanta forma de punta o chata tiene la fdp.
(a) Muestre que si la fdp es simetrica alrededor de un punto a, entonces
3
= 0.
(b) Calcule
3
para f(x) = e
x
, x 0, una fdp que tiene asimetra a la derecha.
(c) Calcule
4
para cada una de las siguientes fdp.
(i) f(x) =
1

2
e
x
2
/2
, < x <
(ii) f(x) =
1
2
I(1, 1)
(iii) f(x) =
1
2
e
|x|
, < x <
Probabilidad y Estadstica
Segundo Semestre 2005
68 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
2.15 Sea M
X
(t) la fgm de una va. X, y se dene S(t) = log(M
X
(t)). Muestre que,
d
dt
S(t)|
t=0
= E X
d
2
dt
2
S(t)|
t=0
= V ar X.
2.16 En cada uno de los siguientes casos verique que la expresion dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
(a) P(X = x) =
e

x
x!
, M
X
(t) = e
(e
t
1)
, x = 0, 1, 2, . . . ; > 0
(b) P(X = x) = p(1 p)
x
, M
X
(t) =
p
1(1p)e
t
, x = 0, 1, 2, . . . ; 0 < p < 1
(c) f(x) =
e
(x)
2
/(2
2
)

2
, M
X
(t) = e
t+
2
t
2
/2
, < x < , < < , > 0
2.17 Determinar E X
4
para X N(0, 1) [use que

(x) = x(x)].
2.18 Teorema: [Convergencia de fgm]: Suponga que {X
i
, i = 1, 2, . . .} es una secuencia
de va., cada una con fgm M
X
i
(t). Ademas suponga que
lm
i
M
X
i
(t) = M
X
(t) para todo t en un entorno de 0,
y M
X
(t) es una fgm. Entonces existe una unica fda F
X
, cuyos momentos son deter-
minados por M
X
(t)y, para todo x donde F
X
(x) es continua, se tiene
lm
i
F
X
i
(x) = F
X
(x).
Esto signica, convergencia t, | t |< h, de fgms a fgm implica convergencia de fda
respectiva.
1
Una aproximacion muy util es la de la distribucion Binomial a la distribucion de
Poisson. La distribucion binomial esta caracterizada por dos cantidades, n y p. La
aproximacion de Poisson es valida cuando n es grande y np peque no.
La fmp de una va. con distribucion de Poisson esta dada por
P(X = x) =
e

x
x!
, x = 0, 1, . . . , > 0.
La aproximacion arma que si X Bin(n, p) e Y Po(), con = np, entonces
P(X = x) P(Y = x)
para n grande y np peque no.
1
La demostracion de este teorema tambien recae sobre la teora de transformadas de Laplace
Probabilidad y Estadstica
Segundo Semestre 2005
69 Prof.Mg. Osmar Vera
Probabilidad y Estadstica
Se te pide demostrar esta armacion siguiendo los siguientes pasos:
(a) Encontrar M
X
(t), M
Y
(t)
(b) Reemplazar p =

n
en M
X
(t)
(c) Calcular el lm
n
M
X
(t), observando que su resultado es justamente M
Y
(t)
la fgm de la Poisson.
(d) Ocupando Excel graque en un mismo sistema de ejes coordenados la fmp de
una Bin(15, 0,3) y de una Po(4,5); observe el resultado del teorema.
Probabilidad y Estadstica
Segundo Semestre 2005
70 Prof.Mg. Osmar Vera