Dist Extra

Capı́tulo 4
Funciones de Distribución
4.1. Variables Aleatorias

Supongamos que tiramos tres volados (con una moneda honesta) y queremos calcular la probabilidad de que el
número de soles sea k. Entonces, el experimento consiste en aventar tres volados, en donde en cada volado hay
sólo dos posibles resultados, águila(a) o sol(s), ası́ nuestro espacio muestral serı́a:
S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a),
(s, s, a), (s, a, s), (a, s, s), (s, s, s)}
Para hacer las cosas más fáciles, definimos una variable X que contará el número de soles en los tres volados.
De esta manera X ∈ {0, 1, 2, 3}. Y las probabilidades deseadas las calcuları́amos de la siguiente forma:
P (X = 0) = P ({(a, a, a)}) = 1/8
P (X = 1) = P ({(a, a, s)}) + P ({(a, s, a)}) + P ({(s, a, a)}) = 3/8
P (X = 2) = P ({(s, s, a)}) + P ({(s, a, s)}) + P ({(a, s, s)}) = 3/8
P (X = 3) = P ({(s, s, s)}) = 1/8
Si vemos a X como función, su regla de asignación serı́a la siguiente:
0 = X({(a, a, a)})
1 = X({(a, a, s)}) = X({(a, s, a)}) = X({(s, a, a)})
2 = X({(s, s, a)}) = X({(s, a, s)}) = X({(a, s, s)})
3 = X({(s, s, s)})
Como los valores que X toma dependen de un experimento aleatorio, y las probabilidades P (X = k) para k =
0, 1, 2, 3 se inducen a partir del experimento original. A X se le llama función a variable aleatoria. Concretamente
una variable aleatoria se define como:
Definición
Una variable aleatoria (v.a.) X es una función que toma valores en S (el
espacio muestral de algún experimento de interés) y los manda a R (o un
subconjunto de R).
¿Pero por qué son importantes las variables aleatorias? Primero, porque es más fácil trabajar en R que en
cualquier espacio muestral S y segundo, generalmente cuando se realiza un experimento, no nos interesan todos
los detalles del mismo sino sólo los valores de algunas cantidades numéricas determinadas por estos resultados.
Ası́, las variables aleatorias medirán o modelarán estas cantidades de interés.
1
4.2. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA Carlos Erwin Rodrı́guez
4.2. Función de Distribución de una Variable Aleatoria

4.3. Tipos de Variables Aleatorias
4.3.1. Variables Aleatorias Discretas
Una v.a. que toma un número finito o infinito numerable de valores, es conocida como v.a. discreta.
Definición
La función de masa de probabilidad (fmp) de una v.a. discreta X es:
PX (X = x) para un número a lo más numerable de x’s
Entonces para v.a. discretas la función de distribución se puede expresar de la siguiente forma:
Definición
Sea X una v.a. discreta, la función de distribución (o distribución acumulada)

de X, se define como FX (x)
X
FX (x) = PX (X ≤ x) = PX (X = z) ∀ x ∈ R
z≤x
Es importante notar que esta función esta definida para toda x ∈ R, además, caracteriza por completo las
probabilidades de una v.a., por lo cual existen tablas y paquetes estadı́sticos para calcularla.
Un comentario muy importante es que en general para v.a. discretas PX (X < x) 6= PX (X ≤ x), entonces para
calcular PX (X < x) lo haremos mediante PX (X < x) = PX (X ≤ x) − PX (X = x), otro cálculo importante es
PX (a < X ≤ b) = FX (b) − FX (a) y para hacer PX (a ≤ X ≤ b) = FX (b) − FX (a) + PX (X = a) etc.
4.3.2. Variables Aleatorias Continuas

Las v.a. continuas son aquellas que pueden tomar un número infinito no numerable da valores.
Definición
La función de densidad de probabilidad (fdp) de una v.a. continua X, es una

función que satisface:
Z x
FX (x) = fX (t)dt ∀ x ∈ R
∞
∂ FX (x)
Entonces por el Teorema Fundamental del Cálculo = fX (x)
∂x
De forma general se tiene que: Z
PX (X ∈ B) = fX (t)dt (4.1)
B
2
4.4. VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS Carlos Erwin Rodrı́guez
Z x
Entonces de 4.1 se sigue que PX (X = x) = fX (t)dt = 0. Como consecuencia inmediata si X es una v.a.
x
continua y a ≤ b tenemos que:
Z b
fX (t)dt = PX (a < X < b)
a
= PX (a < X ≤ b) = PX (a ≤ X < b)
= PX (a ≤ X ≤ b) = FX (b) − FX (a)
4.4. Variables Aleatorias Discretas y Continuas

Para caracterizar de manera formal a las v.a discretas y continuas, tenemos la siguiente
Definición
Una v.a. X es continua si FX (x) es continua como función de x y es discreta

si FX (x) es una función escalonada de x.
Existen dos requerimientos para que una función pueda considerarse fdp o fmp, los cuales son consecuencia
inmediata de los axiomas de Kolmogorov:
Teorema 1 Una función fX (x) es fdp (o fmp) de una v.a. X, si y sólo si:
fX (x) ≥ 0 ∀ x ∈ R.
X Z ∞
fX (x) = 1 (fmp) ó fX (x)dx = 1 (fdp)
x −∞
En lo subsecuente para indicar que la v.a. X sigue cierta distribución FX (x), lo haremos de las siguientes formas
X ∼ fX (x), X ∼ FX (x) ó X ∼ nombre de la v.a. y parámetros.
Al inicio de este capı́tulo mediante un ejemplo muy sencillo describimos cómo a partir de un experimento
sencillo, lanzar tres monedas, se genera una v.a. y cómo las probabilidades de que la v.a. tome ciertos valores
son inducidas por aquellas del experimento original. Este ejemplo sirvió de motivación, sin embargo se hizo
informalmente. A continuación, con el mismo ejemplo mostraremos cómo se hace de manera formal. Nuestro
espacio muestral era
S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a),

(s, s, a), (s, a, s), (a, s, s), (s, s, s)}
Y definimos X como la v.a. que cuenta el número de soles, supongamos que queremos calcular PX (X = 1)
PX (X = 1) = P ({ω ∈ S : X(ω) = 1})

= P ({a, a, s}) + P ({a, s, a}) + P ({s, a, a})
Los ω’s son los elementos de S y X es la v.a. que cuenta el número de soles en cada elemento de S. Aquı́ se
puede apreciar claramente que la v.a. X es una función que va de S a R y además que PX es una probabilidad
inducida por P . Ahora calculemos PX (X ≤ 2)
PX (X ≤ 2) = P ({ω ∈ S : X(ω) ≤ 2})

= P ({ω ∈ S : X(ω) = 0}) + P ({ω ∈ S : X(ω) = 1}) + P ({ω ∈ S : X(ω) = 2})
3
4.5. VARIABLES ALEATORIAS DISTRIBUIDAS CONJUNTAMENTE Carlos Erwin Rodrı́guez
Muchas veces es importante saber qué significa cada cosa, lo que el ejemplo anterior nos enseña es que el cuando
calculamos PX (X = x), el conjunto {X = x} en realidad es {ω ∈ S : X(ω) = x} ∈ S, sin embargo por economı́a
sólo se escribe {X = x}. Lo mismo sucede con PX (X ≤ x), pero ya debe tenerse la idea de cómo leer al conjunto
{X ≤ x}.
4.5. Variables Aleatorias Distribuidas Conjuntamente

En esta sección sólo se pretende fijar la idea de que para manejar más de una v.a. siempre se tiene que trabajar
con una distribución o densidad conjunta y como ese es el objetivo, daremos sólo un breve vistazo a este tipo
de probabilidades. Para hacerlo más sencillo nos enfocaremos sólo en el caso continuo.
Para especificar la relación entre dos v.a. con continuas necesitamos una función fX,Y (x, y) definida para todo
(x, y) ∈ R2 con la propiedad de que para cualquer conjunto C ∈ R2
Z Z
PX,Y ((X, Y ) ∈ C) = fX,Y (x, y)dxdy
{(x,y)∈C}
A fX,Y (x, y) se le llama fdp conjunta de X y Y . Entonces para calcular

Z Z
PX,Y (X ∈ A, Y ∈ B) = fX,Y (x, y)dxdy
B A
Por lo tanto la función de distribución conjunta de X y Y es

Z x Z y
FX,Y (x, y) = PX,Y (X ≤ x, Y ≤ y) = fX,Y (t1 , t2 )dt1 dt2
−∞ −∞
Un conocimiento de la función de distribución conjunta permite, por lo menos en teorı́a, calcular la probabilidad
de cualquier afirmación relacionada con los valores de X y Y . Y de hecho a partir de la densidad conjunta de
X y Y podemos obtener las densidades marginales.
Z x Z ∞
FX (x) = PX (X ≤ x) = PX,Y (X ≤ x, Y ∈ (−∞, ∞)) = fX,Y (t1 , y)dt1 dy
−∞ −∞
La segunda igualdad se debe a que
{X ≤ x} = {ω ∈ S : X(ω ≤ x)}
= {ω ∈ S : X(ω ≤ x)} ∩ S
= {ω ∈ S : X(ω ≤ x)} ∩ {ω ∈ S : Y (ω) ∈ (−∞, ∞)}
= {X ≤ x} ∩ {Y ∈ (−∞, ∞)}
∂FX (x)
Anteriormente vimos que fX (x) = , de donde se sigue que
∂x
Z ∞
fX (x) = fX,Y (x, y)dy
−∞
Entonces si conocemos la fdp conjunta de X y Y , también conocemos sus densidades marginales fX (x) y fY (y),
sin embargo si conocemos las marginales no necesariamente conocemos la conjunta, excepto cuando las v.a. son
independientes, este será un supuesto muy importante en inferencia estadı́stica y lo definiremos a continuación,
pero antes tenemos que decir que cualquier fdp conjunta debe cumplir dos cosas
1. fX,Y (x, y) ≥ 0 ∀(x, y) ∈ R2
Z ∞Z ∞
2. fX,Y (x, y)dxdy = 1
−∞ −∞
4
4.6. VARIABLES ALEATORIAS INDEPENDIENTES Carlos Erwin Rodrı́guez
4.6. Variables Aleatorias Independientes

Se dice que las v.a. X y Y son independientes si para cualesquiera dos conjuntos A y B de números reales
PX,Y (X ∈ A, Y ∈ B) = PX (X ∈ A)PY (Y ∈ B)
Esto lleva a que X y Y son independientes si FX,Y (x, y) = PX,Y (X ≤ x, Y ≤ y) = PX (X ≤ x)PY (Y ≤ y) =
FX (x)FY (y) y esto a su vez conduce a que fX,Y (x, y) = fX (x)fY (y). En este curso vamos a trabajar casi todo
el tiempo con una n v.a. independientes, entonces de forma general tendremos que
n
Y
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn ) = fXi (xi )
i=1
4.7. Esperanza y Varianza

La esperanza o valor esperado de una v.a. X es simplemente su valor promedio, sin embargo hay que tomar en
cuenta que es un promedio ponderado de acuerdo a la distribución de las probabilidades. A continuación vamos
a definir el valor esperado de una v.a. X y lo haremos de forma general, para esto tenemos que tomar en cuenta
que si X es una v.a. entonces g(X) también es una v.a.
Definición
El valor esperado o esperanza de una v.a. g(X), denotado por E[g(X)], es

P P
x g(x)fX (x) = x g(x)PX (X = x) si X es discreta
E(g(X)) = R ∞
−∞
g(x)fX (x) si X es continua
Por ejemplo si quisiéramos calcular E(X), sólo tenemos que tomar g(X) = X. Directamente de la definición de
esperanza se desprende el siguiente
Corolario 1 Si a y b son constantes, entonces
E(aX + b) = aE(X) + b
El corolario 1 facilita el cálculo de la esperanza de muchas variables aleatorias. Sin embargo, además de la
esperanza de una v.a. X, también necesitamos una medida de su dispersión.
Definición
Si X es una v.a. discreta con µ = E(X), la varianza de X se define como
V ar(X) = E((X − µ)2 )
La varianza nos da una medida del grado de dispersión de una distribución alrededor de su media. En la mayorı́a
de los casos calcular la esperanza vı́a la definición suele ser complicado, sin embargo se puede probar que
Corolario 2
V ar(X) = E(X 2 ) − E(X)2
5
4.7. ESPERANZA Y VARIANZA Carlos Erwin Rodrı́guez
Corolario 3 Si a y b son constantes, entonces
V ar(aX + b) = a2 V ar(X)
En esta parte vamos a dar algunos resultados acerca de las esperanzas y varianzas de sumas de v.a.
Si tenemos dos v.a. X y Y y queremos calcular E[g(X, Y )], en donde g(X, Y ) es cualquier función de X y Y ,
necesitaremos la siguiente
Definición
 XX


 g(x, y)PX,Y (X = x, Y = y) si X y Y son discretas
x yZ
E[g(X, Y )] = Z ∞ ∞
g(x, y)fX,Y (x, y)dxdy si X y Y son continuas



−∞ −∞
Una consecuencia inmediata de la definición es que E[X + Y ] = E[X] + E[Y ]. Esto se puede generalizar para
n v.a. de la siguiente forma " n n
#
X X
E Xi = E[Xi ]
i=1 i=1
El siguiente paso es ver cómo se comporta la varianza de sumas de v.a. Para introducir este punto vamos a
calcular V ar[2X].
V ar[2X] = 4V ar[X] 6= 2V ar[X] = V ar[X] + V ar[X]

Entonces la varianza no se comporta de igual forma que la esperanza. Sin embargo, se puede probar que
V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov[X, Y ]. En donde
Cov[X, Y ] = E[XY ] − E[X]E[Y ]
La covarianza es una medida de asociación entre v.a. de hecho es posible demostrar que si Cov[X, Y ] > 0 si X
crece, entonces Y crece y si Cov[X, Y ] < 0 si X crece, entonces Y decrece.
Como hemos mencionado, un supuesto fundamental en el curso de inferencia estadı́stica es la independencia

entre v.a. entonces, ¿qué pasa con la varianza de la suma X + Y si X y Y son independientes? pues primero
hay que ver ¿qué pasa con la covarianza? Un hecho fácil de probar es que si X y Y son independientes entonces
E[XY ] = E[X]E[Y ], de donde tenemos que Cov[X, Y ] = 0 y por lo tanto V ar[X + Y ] = V ar[X] + V ar[Y ].
El resultado de que si X y Y son independientes se tiene que E[XY ] = E[X]E[Y ] es tan importante que lo
enunciaremos de forma general en el siguiente
Teorema 2 Sean X1 , X2 , . . . , Xn v.a. independientes y sean g1 , g2 , . . . , gn funciones en R tales que g(xi ) es

función sólo de xi para i = 1, 2, . . . , n. Entonces
E[g1 (X1 )g2 (X2 ) · · · gn (Xn )] = E[g1 (X1 )]E[g2 (X2 )] · · · E[gn (Xn )] (4.2)
Una consecuencia inmediata de 4.2 es que para n v.a. independientes

" n # n
X X
V ar Xi = V ar[Xi ]
i=1 i=1
6
4.8. MOMENTOS Y FUNCIÓN GENERADORA DE MOMENTOS Carlos Erwin Rodrı́guez
4.8. Momentos y Función Generadora de Momentos

Los momentos de una v.a. son una importante clase de esperanzas.
Definición
Para cada entero n, el n-ésimo momento de X será E[X n ].
De la definición podemos ver que el primer momento de X es E[X] y que con el segundo momento E[X 2 ]
y el primer momento de X podemos calcular V ar[X]. Los momentos de una v.a. son tan importantes que
estableceremos la siguiente
Definición
Sea X una v.a. con función de distribución FX (x). La función generadora de

momentos (fgm) de X, denotada por mX (t), es
mX (t) = E[etX ]
siempre y cuando la esperanza exista para −h < t < h con h > 0.
Para saber por qué a esta función se le llama fgm, enunciamos el siguiente
Teorema 3 Si X tiene fgm mX (t), entonces
∂n
E[X n ] = m (t)

X
∂tn

t=0
Esto quiere decir que el n-ésimo momento de la v.a. X es igual a la n-ésima derivada de mX (t) evaluada en
cero.
La importancia de la fgm no se encuentra en el resultado anterior, pues puede ser más fácil calcular el n-ésimo
momento directamente que vı́a la fgm. La importancia de mX (t) se encuentra en el siguiente
Teorema 4 Sean X y Y dos v.a. con funciones de distribución de probabilidad FX (x) y FY (y) cuyos momentos
existen. Si mX (t) = mY (t) para −h < t < h con h > 0, entonces FX (u) = FY (u) para toda u.
Entonces si necesitamos demostrar que dos v.a. X y Y tienen la misma distribución, una forma de proceder serı́a
la de encontrar directamente FX (u), FY (u) y compararlas. Otra forma de proceder, serı́a utilizar el Teorema
4, encontrando mX (t), mY (t) y compararlas. En este punto hay que hacer una observación importante; el
procedimiento descrito anteriormente sirve para saber si dos variables aleatorias tienen la misma distribución
de probabilidades, más no nos dice nada acerca de si las variables aleatorias son iguales o no. Para evitar
confusiones, pensemos en el ejemplo de la v.a. X que cuenta el número de soles en el lanzamiento de tres
monedas justas y en la v.a. Y que cuenta el número de águilas en el lanzamiento de tres monedas justas. Debe
ser claro que X 6= Y , sin embargo FX (u) = FY (u) para toda u.
4.9. Distribuciones más Comunes

En estadı́stica usaremos distribuciones de probabilidad para modelar poblaciones. Cualquier distribución de-
pende de uno o más parámetros, y al variar estos parámetros, obtenemos distintos comportamientos de la misma
distribución. Un supuesto fundamental en inferencia estadı́stica es que de antemano se conoce o se supone cono-
cida la distribución de cierta población, sin embargo, lo que nunca supondremos conocidos son sus parámetros.
Por lo tanto, es una buena idea lograr una familiarización con las distribuciones más usadas en estadı́stica
ası́ como con su comportamiento al variar sus parámetros.
7
4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez
4.9.1. Distribuciones Discretas

Distribución Bernoulli
Esta v.a. modela un experimento en donde sólo hay dos posibles resultados, éxito(1) ó fracaso(0). Al realizar el
experimento, la probabilidad de que el resultado sea éxito es p y la probabilidad de que el resultado sea fracaso
es 1 − p. A este tipo de experimento se les llama Bernoulli con parámetro p, y es la base para construir muchas
v.a.
Distribución Bernoulli(Bernoulli(p))
PX (X = x) = px (1 − p)1−x con x = 0, 1
E[x] = p
V ar[x] = p(1 − p)
mX (t) = pet + 1 − p
Distribución Binomial
Esta variable aleatoria cuenta el número de éxitos al realizar n experimentos Bernoulli independientes.
Distribución Binomial(Bin(n, p))

n x
PX (X = x) = p (1 − p)n−x con x = 0, 1, . . . , n
x
E[x] = p
V ar[x] = np(1 − p)
mX (t) = (pet + 1 − p)n
Es importante notar que una v.a Bernoulli(p) ≡ Bin(1, p). La distribución binomial se usa frecuentemente
para estimar o determinar la proporción de individuos de una población que tienen cierta caracterı́stica de
interés. Una observación importante es que para resolver este problema si la muestra se extrae sin reemplazo y
de una población muy pequeña, la distribución binomial no será apropiada; en este caso la distribución hiper-
geométrica es la que deberá usarse. Más adelante en el curso se dará la razón del porqué de esta observación.
La respuesta tiene que ver con la noción de muestra aleatoria y a que se puede definir a la binomial como la
suma de una muestra aleatoria de tamaño n en donde la distribución de cada v.a. de la muestra es Bernoulli(p).
Existen tablas para calcular las probabilidades de la Bin(n, p), sin embargo utilizando R, lo podemos hacer de
forma más precisa y rápida. Por ejemplo, supongamos que X ∼ Bin(100, 0.6) y queremos

100
PX (X = 20) = (0.6)20 (0.4)80 = dbinom(20, 100, 0.6) = 2.864017e − 16
20
X
FX (60) = PX (X = x) = pbinom(60, 100, 0.6) = 0.5379247
x≤60
8
En las figuras 4.1 y 4.2 se presenta la gráfica de masa de probabilidad y distribución para algunos valores
particulares de p y n. Debe notarse que para cualquier gráfica de masa de probabilidad, las probabilidades se
le asignan a cada punto que toma la v.a., el hecho de que se dibujaran lı́neas anchas en lugar de rectas es
puramente para efectos de presentación. Para la Bin(0.5, 20) se observa que la fmp es simétrica, mientras que
para la Bin(20, 0.3) las probabilidades son más grandes antes de x = 6 que de hecho es el valor esperado para
esta v.a (E[X] = np = (20)(0.3) = 6).
0.200
1.0
0.9
0.175
0.8
0.150
0.7
0.125
0.6
P(X=x)
FX(x)
0.100
0.5
0.4
0.075
0.3
0.050
0.2
0.025
0.1
0.000
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
x x
Figura 4.1: Funciones de masa de probabilidad y distribución de una Bin(20,.5)

0.200
1.0
0.9
0.175
0.8
0.150
0.7
0.125
0.6
P(X=x)
FX(x)
0.100
0.5
0.4
0.075
0.3
0.050
0.2
0.025
0.1
0.000
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
x x
Figura 4.2: Funciones de masa de probabilidad y distribución de una Bin(20,.3)
9
Distribución Hipergeométrica
Si se tienen claros algunos conceptos de la teorı́a de conteo, deducir la fmp de la v.a. hipergeométrica es muy
sencillo. Pensemos en el siguiente ejemplo; tenemos un lote en donde en total hay N elementos, de estos N
elementos M están defectuosos y por supuesto N − M no lo están. Si se extraen aleatoriamente n elementos sin
reemplazo y definimos la v.a. X como el número de objetos defectuosos en la muestra, entonces se tiene que
Distribución Hipergeométrica Hip(n, M, N )
M N −M

x n−x
PX (X = x) = N
con x = 0, 1, . . . , n
n
nM
E[x] =
N
nM (N − M )(N − n)
V ar[x] =
N N (N − 1)
Adicionalmente tenemos que tener M − (N − n) ≤ x ≤ M . Es muy difı́cil trabajar analı́ticamente con la hiper-
geométrica, es por eso que se no se escribió su f gm.
Cuando describimos algunas caracterı́sticas de la binomial se dijo que esta v.a. se usa para estimar p, sin
embargo, si el experimento se realiza sin reemplazo y la población es muy chica entonces se utiliza la v.a. hiper-
geométrica. En general la hipergeométrica se utiliza para trabajar con poblaciones finitas y podremos utilizar
una aproximación mediante la Binomial cuando la población sea finita pero muy grande. Ahora, ¿cómo estimar
una proporción con la v.a. Hipergeométrica? Primero tendrı́amos que estimar M con alguna cantidad, digamos
M̂ y luego simplemente la proporción deseada serı́a M̂
N . Más adelante desarrollaremos métodos para encontrar M̂ .
La Figura 4.3 se hizo para comparar la Bin(20, 0.5) con la v.a Hip(20,50,100) con la idea de entender que
realmente la Bin(n, p) puede aproximar a una Hip(n,M,N). Los parámetros de la hipergeométrica son: N el
tamaño de la población, M el número total de objetos con cierta caracterı́stica y n el tamaño de muestra.
Los parámetros para la binomial son: n el tamaño de muestra o el número de experimentos realizados y p
la probabilidad de obtener un éxito. Para hacer el vı́nculo entre binomial e hipergeométrica hay que fijar los
parámetros de ambas fmp de forma que p = M N y tengan la misma n. En la Figura 4.3 se hace la gráfica para una
50
población muy chica con N = 100 y M = 50 (P = 100 = 0.5), esta gráfica debe parecerse un poco a la Figura
4.1 y si lo que dijimos antes es cierto, al aumentar el tamaño de la población (o N para la hipergeométrica), pero
manteniendo p = M N la gráfica resultante debe ajustarse más a la de la binomial. En la Figura 4.4 el tamaño de
N se aumentó considerablemente, y como se observa el ajuste con la Figura 4.1 es casi perfecto.
10
0.200
1.0
0.9
0.175
0.8
0.150
0.7
0.125
0.6
P(X=x)
FX(x)
0.100
0.5
0.4
0.075
0.3
0.050
0.2
0.025
0.1
0.000
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
x x
Figura 4.3: Funciones de densidad y distribución de una Hip(20,50,100)

0.200
1.0
0.9
0.175
0.8
0.150
0.7
0.125
0.6
P(X=x)
FX(x)
0.100
0.5
0.4
0.075
0.3
0.050
0.2
0.025
0.1
0.000
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
x x
Figura 4.4: Funciones de densidad y distribución de una Hip(20,2500,5000)
En R para calcular la fmp ó la función de distribución de una Hip(n, M, N ), se utilizan las funciones “dhyper”
y “phyper”.
11
Distribución Poisson
Si X es la v.a. poisson entonces X cuenta el número de éxitos en un tiempo fijo si estos eventos ocurren con una
tasa media conocida, y son independientes del tiempo desde el último evento. La v.a. poisson se utiliza mucho
para aproximar las probabilidades de la binomial cuando el número de experimentos es grande y la probabilidad
de éxito es pequeña.
Distribución Poisson P oisson(λ)
λx
PX (X = x) = eλ con x = 0, 1, . . .
x!
E[x] = λ
V ar[x] = λ
t
mX (t) = eλ(e −1)
Ejemplos de eventos que pueden ser modelados por la distribución Poisson incluyen:
El número de autos que pasan a través de un cierto punto en una ruta (suficientemente distantes de los
semáforos) durante un periodo definido de tiempo.
El número de errores de ortografı́a que uno comete al escribir una única página.
El número de llamadas telefónicas en una central telefónica por minuto.

El número de servidores web accedidos por minuto.
El número de animales muertos encontrados por unidad de longitud de ruta.
El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación.
El número de núcleos atómicos inestables que decayeron en un determinado periodo de tiempo en una
porción de sustancia radiactiva. La radiactividad de la sustancia se debilitará con el tiempo, por lo tanto
el tiempo total del intervalo usado en el modelo debe ser significativamente menor que la vida media de
la sustancia.
Vamos a mostrar cómo se realiza el cálculo de las funciones de masa de probabilidad y distribución de la
P oisson(λ) en R. Supongamos que X ∼ P oisson(5), entonces
52
PX (X = 2) = e5 = dpois(2, 5) = 0.08422434
2!
X 5x
FX (10) = e5 = ppois(10, 5) = 0.9863047
x!
x≤10
12
Gráficas de la fmp y la función de distribución para algunos valores particulares de λ.

0.80
1.1
1.0
0.72
0.9
0.64
0.8
0.56
0.7
0.48
0.6
P(X=x)
FX(x)
0.40
0.5
0.32
0.4
0.24
0.3
0.16
0.2
0.08
0.1
0.00
0.0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
x x
Figura 4.5: Funciones de densidad y distribución de una Poisson(.3)

0.20
1.1
1.0
0.18
0.9
0.16
0.8
0.14
0.7
0.12
0.6
P(X=x)
FX(x)
0.10
0.5
0.08
0.4
0.06
0.3
0.04
0.2
0.02
0.1
0.00
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x x
Figura 4.6: Funciones de densidad y distribución de una Poisson(5)
13
Para aproximar los valores de una Bin(n, p) por los de una P oisson(λ) hay que hacer np = λ para n “suficiente-
mente” grande y p “suficientemente” chica. En los libros a veces se dan condiciones para que esta aproximación
sea buena, sin embargo, es mejor hacer el experimento uno mismo y verificar. A continuación mostramos una
forma de hacer lo anterior.
0.20
0.12
0.18
0.10
0.16
0.14
0.08
0.12
P(X=x)
P(X=x)
0.10
0.06
0.08
0.04
0.06
0.04
0.02
0.02
0.00
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 10 20 30 40 50 60 70 80 90 100
x x
Figura 4.7: Aproximaciones
En lugar de hacer el gráfico de barras de la fmp como antes, en esta ocasión sólo se graficaron los puntos
(x, PX (X = x)) para que se pudiera visualizar mejor la situación. En la primer gráfica de la Figura 4.7 se
muestra cómo se aproximarı́an los valores de una Bin(20, 0.3), en rojo, por los de una P oisson(6), en azul (pues
λ = (20)(0.3) = 6). Al parecer la aproximación no es muy buena pues hay sólo 20 valores y para x ≤ 12 se
observan desviaciones considerables. En la segunda gráfica de la Figura 4.7 se muestra cómo se aproximarı́an los
valores de una Bin(100, 0.2), en rojo, por los de una P oisson(20), en azul. Para estos parámetros, en general,
la aproximación es mucho mejor.
Distribución Geométrica
Consideremos una sucesión de experimentos Bernoulli independientes en donde la probabilidad de éxito es p.
Sea X la v.a. que cuenta el número de fracasos antes del primer éxito. Entonces la fmp de X viene dada por
Distribución Geométrica Geo(p)
PX (X = x) = p(1 − p)x con x = 0, 1, 2, . . .

1−p
E[x] =
p
1−p
V ar[x] =
p2
p
mX (t) =
1 − (1 − p)et
14
Para calcular la fmp y la función de distribución de esta v.a. en R, lo podemos hacer utilizando las funciones
“dgeom” y “pgeom”.
Se muestran dos gráficas de la fmp y de la función de distribución para algunos valores particulares de p.
0.350
1.0
0.315
0.9
0.280
0.8
0.245
0.7
0.210
0.6
P(X=x)
FX(x)
0.175
0.5
0.140
0.4
0.105
0.3
0.070
0.2
0.035
0.1
0.000
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x x
Figura 4.8: Funciones de densidad y distribución de una Geo(0.3)

0.60
1.0
0.54
0.9
0.48
0.8
0.42
0.7
0.36
0.6
P(X=x)
FX(x)
0.30
0.5
0.24
0.4
0.18
0.3
0.12
0.2
0.06
0.1
0.00
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x x
Figura 4.9: Funciones de densidad y distribución de una Geo(0.6)
15
4.9.2. Distribuciones Continuas

Antes de describir las v.a. continuas, definiremos una función que usaremos en esta parte, la función indicadora.
La función indicadora es
1A (x) = 10 sisi xx ∈∈/ A
A
Esta función se emplea para hacer más económica la notación. Por ejemplo la fdp uniforme que veremos a
1
continuación la escribirı́amos fX (x) = si x ∈ (a, b) y 0 en otro caso. Sin embargo, con la función indicadora
b−a
1
sólo escribiremos fX (x) =
b−a
1(a,b) (x). Lo mismo se hubiera podido hacer para v.a. discretas, pero debe ser
claro que en cualquier punto en el que no se haya definido a PX , la probabilidad de que la v.a. tome ese valor
es cero.
Distribución Uniforme
La distribución uniforme asigna la misma probabilidad a intervalos de la misma longitud.
Distribución Uniforme U(a,b)
1
fX (x) =
b−a
1(a,b) (x)
a+b (b − a)2
E[x] = , V ar[x] =
2 12
tb ta
e −e
mX (t) =
(b − a)t
La distribución uniforme mayormente se usa para generar muestras aleatorias de otras distribuciones. A con-
tinuación se muestra la gráfica de densidad y de distribución de una U (3, 5).
0.60
1.0
0.9
0.48
0.8
0.7
0.36
0.6
FX(x)
fX(x)
0.5
0.24
0.4
0.3
0.12
0.2
0.1
0.00
0.0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x x
Figura 4.10: Función de densidad y distribución de una U (3, 5)
16
Distribución Exponencial
La distribución exponencial se utiliza comunmente para modelar tiempos de vida, o la cantidad de tiempo hasta
que ocurre un evento especı́fico. Por ejemplo, la cantidad de tiempo hasta que suceda un temblor, o hasta que
estalle una nueva guerra, o hasta que alguien reciba una llamada telefónica que sea un número equivocado.
Distribución Exponencial Exp(β)
1 −x/β
fX (x) =
β
e 1[0,∞) (x) , β > 0
E[x] = β
V ar[x] = β2
1
mX (t) = , t < 1/β
1 − βt
En este caso no presentaremos gráficas pues la Distribución Exponencial es un caso particular de la Distribución
Gamma que veremos a continuación.
Distribución Gamma
Distribución Gamma Gamma(α, β)
1
fX (x) = e−x/β xα−1 1[0,∞) (x) α, β > 0
Γ(α)β α
E[x] = αβ
V ar[x] = αβ 2
α
1
mX (t) = , t < 1/β
1 − βt
Para operar con la fdp Gamma(α, β), conviene tomar en cuenta que Γ(α + 1) = αΓ(α), para α > 0. Si
n ∈ N, Γ(n) = (n − 1)!, además, aunque puede parecer reiterativo, se tiene que Γ(1) = 1.
Dos distribuciones son casos particulares de la Gamma(α, β). En primer lugar, si α = 1 tenemos una Exp(β).
En segundo lugar, si α = n2 y β = 2, se obtiene una distribución Ji-cuadrada con n grados de libertad. La
distribución Ji-cuadrada es una de las más usadas en inferencia estadı́stica.
17
A continuación se presentan algunas gráfica de fX (x), para valores particulares de α y β.

0.5
1.0
0.9
0.4
0.8
Gamma(1,0.5)
0.7
Gamma(2,0.5)
Gamma(3,0.5)
0.3
0.6
Gamma(5,1)
Gamma(9,2)
FX(x)
fX(x)
0.5
0.2
0.4
Gamma(1,0.5)
0.3
Gamma(2,0.5)
Gamma(3,0.5)
0.1
0.2
Gamma(5,1)
Gamma(9,2)
0.1
0.0
0.0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
x x
Figura 4.11: Funciones de densidad y distribución de varias Gamma(α, β)
Distribución Normal o Gaussiana

La distribución normal (a veces llamada distribución gaussiana) juega un rol central en inferencia estadı́stica.
Existen principalmente tres razones para esto.
1. La distribución normal y las distribuciones asociadas a ella son fáciles de manejar analı́ticamente.
2. La fdp normal tiene forma de campana simétrica lo que la hace un buen candidato para modelar muchas
poblaciones.
3. El Teorema Central de Lı́mite muestra que bajo ciertas condiciones, utilizando la normal, se pueden
aproximar muchas distribuciones siempre y cuando se tengan muestras grandes.
Distribución Normal N (µ, σ 2 )
1 (x−µ)2
fX (x) = √ e− 2σ2 1(−∞,∞) (x)
2πσ
E[x] = µ , V ar[x] = σ 2
2 2
mX (t) = eµt+σ t /2

X−µ
Si X es una v.a. N (µ, σ 2 ), entonces Z = σ ∼ N (0, 1), a Z suele llamársele normal estándar. También
se tiene que si Z ∼ N (0, 1), entonces X = σZ + µ ∼ N (µ, σ 2 ). Esta relación entre la normal estándar y
cualquier N (µ, σ 2 ) facilita mucho el cálculo de probabilidades, para esta distribución. Si denotamos a la función
de distribución de N (0, 1) como Φ(z), entonces
Z z
1 2
Φ(z) = FZ (z) = PZ (Z ≤ z) = √ e−t /2 dt
−∞ 2π
18
Y si Z ∼ N (0, 1) con X ∼ N (µ, σ 2 ), se tiene que

(x−µ)/σ
x−µ 1 x−µ
Z
2
FX (x) = PX (X ≤ x) = PZ Z≤ = √ e−t /2 dt = Φ (4.3)
σ −∞ 2π σ
Existen tablas para calcular Φ(z), entonces por 4.3, debemos ser capaces de calcular cualquier probabilidad de
una N (µ, σ 2 ). Además también contamos con la función “pnorm” de R. Por ejemplo si X ∼ N (3, 25)
4.3
1
Z
(t−3)2
PX (X ≤ 4.3) = √ e− 50 dt = pnorm(4.3, 3, 5) = 0.6025681
−∞ 5 2π
Se muestra la gráfica de una normal estándar y otra de algunas N (µ, σ 2 ), para varios valores particulares de µ
y σ2 .
0.450
1.0
0.9
0.360
0.8
0.7
0.270
0.6
FX(x)
fX(x)
0.5
0.180
0.4
0.3
0.090
0.2
0.1
0.000
0.0
−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5
x x
Figura 4.12: Función de densidad y distribución de la normal estándar (N (0, 1))

1.0
1.0
0.9
0.9
N(0,.2) N(0,.2)
0.8
0.8
N(0,1) N(0,1)
N(0,5) N(0,5)
0.7
0.7
N(−2,.2) N(−2,.2)
0.6
0.6
FX(x)
fX(x)
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5
x x
Figura 4.13: Funciones de densidad y distribución de varias N (µ, σ 2 )
19

Dist Extra

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Dist Extra

Uploaded by

Copyright:

Available Formats

Capı́tulo 4

4.1. Variables Aleatorias

4.2. Función de Distribución de una Variable Aleatoria

La función de masa de probabilidad (fmp) de una v.a. discreta X es:

PX (X = x) para un número a lo más numerable de x’s

Sea X una v.a. discreta, la función de distribución (o distribución acumulada)

4.3.2. Variables Aleatorias Continuas

La función de densidad de probabilidad (fdp) de una v.a. continua X, es una

4.4. Variables Aleatorias Discretas y Continuas

Una v.a. X es continua si FX (x) es continua como función de x y es discreta

S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a),

PX (X = 1) = P ({ω ∈ S : X(ω) = 1})

PX (X ≤ 2) = P ({ω ∈ S : X(ω) ≤ 2})

4.5. Variables Aleatorias Distribuidas Conjuntamente

A fX,Y (x, y) se le llama fdp conjunta de X y Y . Entonces para calcular

Por lo tanto la función de distribución conjunta de X y Y es

4.6. Variables Aleatorias Independientes

4.7. Esperanza y Varianza

El valor esperado o esperanza de una v.a. g(X), denotado por E[g(X)], es

Corolario 1 Si a y b son constantes, entonces

Si X es una v.a. discreta con µ = E(X), la varianza de X se define como

V ar(X) = E((X − µ)2 )

Corolario 3 Si a y b son constantes, entonces

V ar[2X] = 4V ar[X] 6= 2V ar[X] = V ar[X] + V ar[X]

Cov[X, Y ] = E[XY ] − E[X]E[Y ]

Como hemos mencionado, un supuesto fundamental en el curso de inferencia estadı́stica es la independencia

Teorema 2 Sean X1 , X2 , . . . , Xn v.a. independientes y sean g1 , g2 , . . . , gn funciones en R tales que g(xi ) es

Una consecuencia inmediata de 4.2 es que para n v.a. independientes

4.8. Momentos y Función Generadora de Momentos

Para cada entero n, el n-ésimo momento de X será E[X n ].

Sea X una v.a. con función de distribución FX (x). La función generadora de

siempre y cuando la esperanza exista para −h < t < h con h > 0.

4.9. Distribuciones más Comunes

4.9.1. Distribuciones Discretas

Distribución Binomial(Bin(n, p))

Figura 4.1: Funciones de masa de probabilidad y distribución de una Bin(20,.5)

Figura 4.2: Funciones de masa de probabilidad y distribución de una Bin(20,.3)

Distribución Hipergeométrica Hip(n, M, N )

Figura 4.3: Funciones de densidad y distribución de una Hip(20,50,100)

Figura 4.4: Funciones de densidad y distribución de una Hip(20,2500,5000)

Distribución Poisson P oisson(λ)

El número de llamadas telefónicas en una central telefónica por minuto.

El número de animales muertos encontrados por unidad de longitud de ruta.

El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación.

Gráficas de la fmp y la función de distribución para algunos valores particulares de λ.

Figura 4.5: Funciones de densidad y distribución de una Poisson(.3)

Figura 4.6: Funciones de densidad y distribución de una Poisson(5)

Figura 4.7: Aproximaciones

Distribución Geométrica Geo(p)

PX (X = x) = p(1 − p)x con x = 0, 1, 2, . . .

Figura 4.8: Funciones de densidad y distribución de una Geo(0.3)

Figura 4.9: Funciones de densidad y distribución de una Geo(0.6)

4.9.2. Distribuciones Continuas

Distribución Uniforme U(a,b)

Figura 4.10: Función de densidad y distribución de una U (3, 5)

Distribución Exponencial Exp(β)

Distribución Gamma Gamma(α, β)

A continuación se presentan algunas gráfica de fX (x), para valores particulares de α y β.

Figura 4.11: Funciones de densidad y distribución de varias Gamma(α, β)

Distribución Normal o Gaussiana

Distribución Normal N (µ, σ 2 )

Y si Z ∼ N (0, 1) con X ∼ N (µ, σ 2 ), se tiene que

Figura 4.12: Función de densidad y distribución de la normal estándar (N (0, 1))