You are on page 1of 179

Notas PyE 2019 Parte 1

Matías Carrasco

19 de febrero de 2019
Índice general
1. Casos favorables sobre casos posibles 1-1

2. Probabilidades geométricas 2-1

3. Los axiomas de Kolmogorov 3-1

4. Probabilidad condicional 4-1

5. El teorema de Bayes 5-1

6. El teorema de Bernoulli 6-1

7. Variables aleatorias discretas I 7-1

8. Variables aleatorias discretas II 8-1

9. Variables aleatorias discretas III 9-1

10. Variables aleatorias continuas I 10-1

11. Variables aleatorias continuas II 11-1

12. Ley de los Grandes Números 12-1

13. Teorema central del límite 13-1


Clase 1
Casos favorables sobre casos posibles

1-1. ¿Se puede medir la probabilidad?


1-2. Las reglas de conteo

1-1. ¿Se puede medir la probabilidad?

Seguramente si te pidieran definir lo que es una probabilidad dirías


número de casos favorables
probabilidad = . (1.1)
número de casos posibles

Por ejemplo, si lanzamos una moneda la probabilidad de que salga cara es 1/2, pues
se trata de un caso favorable en dos posibles, o si lanzamos un dado la probabilidad
de que salga un seis es 1/6, pues solo nos sirve una de seis posibilidades.
La pregunta es un poco tramposa, y de hecho la respuesta es más bien una forma
de medir la probabilidad que una definición. Esta es la primer idea importante a
retener, el simple hecho de que una probabilidad puede medirse. ¿Cómo se mide
algo? Pensemos en la longitud. Buscamos un estándar (como el metro), lo aplicamos
repetidamente y luego contamos. Lo mismo ocurre con la suerte, para medir una
probabilidad primero buscamos casos de igual probabilidad y luego contamos.1
Ejemplo 1
Una moneda es justa si sale cara o cruz con igual probabilidad. Se tira una moneda
tres veces. ¿Cuál es la probabilidad de que exactamente uno de los lanzamientos
resulte cara?
Con tres lanzamientos, podemos enumerar fácilmente los 8 casos posibles

XXX, XXC, XCX, XCC,CXX,CXC,CCX,CCC.

1 Pueden indagar más sobre la analogía entre medir y calcular una probabilidad en el libro de
Diaconis y Skyrms “Ten Great Ideas about Chance” Princeton University Press, 2017.

1-1
Tres de estos casos tienen exactamente una cara

XXC, XCX,CXX.

Como todas las posibilidades son igualmente probables, tenemos


número de casos favorables 3
P (1 cara en 3 lanzamientos) = = .
número de casos posibles 8
Para pensar: ¿Sería práctico enumerar los casos posibles con 10 lanzamientos? 

Vamos a mantener un estilo bastante informal, al menos en esta clase, pero es im-
portante subrayar que cuando decimos probabilidad, nos referimos a la probabilidad
de un cierto evento. En general, denotaremos los eventos con letras mayusculas, co-
mo A, B, etc., y la probabilidad de un evento por P (A), P (B), etc. En el ejemplo de
la moneda, el evento A = “el resultado es cara” tiene probabilidad P (A) = 1/2. El
conjunto de todos los resultados posibles lo denotaremos Ω (la letra griega omega
mayúscula) y le daremos el pomposo nombre de espacio muestral. Si lo pensamos
como un evento, es simplemente el evento “algo ocurre”, y claramente P (Ω) = 1.
La definición (1.1) está basada en el principio de indiferencia: si no hay razones por
las cuales sospechar que un resultado particular tiene más chances de ocurrir que
los demás, entonces todos los resultados deben tener la misma probabilidad. Cuando
asignamos la probabilidad 1/2 de que salga cara en el lanzamiento de una moneda,
esto significa que nuestras razones para pensar que saldrá cara son idénticas a las
que nos hacen pensar que saldrá cruz. Lo mismo para un dado, siempre y cuando
éste sea perfectamente simétrico.2
Ejemplo 2
Un mazo de poker consiste de 52 cartas, divididas en 4 palos, corazones (♥), dia-
mantes (♦), piques (♠), y tréboles (♣). Cada palo contiene 13 cartas con valores 2,
3, ..., 10, J, Q, K, A. Una mano de poker consiste de 5 cartas. Un par consiste de
dos cartas con el mismo valor, y las tres restantes de valores diferentes (al valor del
par y entre ellas, por ejemplo 2♥, 2♠, 5♥, 8♣, K♦).

Probá tu intuición: la probabilidad de obtener un par en una mano es

A menor a 5 % D entre 20 % y 40 %
B entre 5 % y 10 % E entre 40 % y 50 %
C entre 10 % y 20 % F mayor a 50 %

Por el momento solo podemos intuir la respuesta. Uno de nuestros objetivos es


aprender a calcularla exactamente. Para empezar, como cada mano de 5 cartas es

2 Pueden consultar A. Rayo, ¿Qué es la probabilidad?, Investigación y Ciencia, Junio 2011, No


417, por una discusión amena sobre este principio.

1-2
igualmente probable, podemos calcular la probabilidad de un par usando
número de manos con un par
P (un par) = .
número total de manos
Es decir, para calcular la probabilidad exacta, debemos contar cuántas posibilidades
hay en cada uno de estos eventos. Y debemos ser astutos, pues hay demasiados
elementos en éllos como para enumerarlos en una lista. Así que volveremos a este
problema cuando hayamos aprendido algunas técnicas de conteo. 

Para resumir, por el momento usaremos el siguiente principio para calcular proba-
bilidades: si en un procedimiento hay n resultados posibles, éstos son igualmente
probables (equiprobables), y un evento puede ocurrir de k formas posibles, la pro-
babilidad del evento es entonces k/n.

Para pensar: Se debe tener cierto cuidado, pues este principio no se aplica en todas
las situaciones. ¿Se te ocurre algún ejemplo de casos no equiprobables?
Un escenario posible es el siguiente: si lanzamos dos dados y miramos la suma de
los resultados, podríamos decir que los casos posibles son los números del 2 al 12,
pero parece menos probable que salga un 2 a que salga un 7. En este caso sería
mejor aplicar el principio a los pares de números que representan los resultados de
cada dado. Este tipo de ejemplos es típico, los resultados posibles que nos interesan
no son equiprobables, pero se pueden formular a partir de otros que sí lo son.

El credo probabilístico

De la definición (1.1) se deducen inmediatamente dos reglas sagradas que deben


cumplir las probabilidades. La primera ya la dijimos, y es que la probabilidad de Ω
es 1. La segunda, es que si dos eventos no tienen casos favorables en común, en-
tonces la probabilidad de que ocurra uno u otro es la suma de las probabilidades de
cada uno. Esto es así pues ningún caso favorable será contado dos veces al sumar los
casos por separado. Eventos sin casos favorables en común se llaman incompatibles
o disjuntos.

Reglas básicas
Regla 1: P (Ω) = 1.
Regla 2: P (A o B) = P (A) + P (B) si A y B son eventos incompatibles.

Estas son las reglas de juego. También se deducen otras reglas, por ejemplo: 1) la
probabilidad de cualquier evento es siempre un número entre 0 y 1; y 2) la proba-
bilidad de que un evento no ocurra es 1 menos la probabilidad de que sí ocurra. En
símbolos:
0 ≤ P (A) ≤ 1 para cualquier evento A.
P (no A) = 1 − P (A).

1-3
Sin embargo, estas reglas no son básicas en el sentido de que se pueden deducir
de la reglas 1 y 2. ¡Probarlo! Se pueden deducir muchas reglas más, pero las que
tenemos serán más que suficientes por ahora.
Existe una definición general de probabilidad que contiene a la definición (1.1)
como caso particular. Sin embargo, la ecuación (1.1) aparece con mucha frecuencia
y es muy útil en una gran variedad de situaciones. Aunque no es toda la historia, vale
la pena pasar un poco de tiempo con ella, ganar intuición sobre algunas propiedades
básicas del azar, y de paso prepararnos para entender mejor la definición general.

El glosario probabilístico

Precaución: esta sección puede ser perjudicial para la salud, intente


pasar lo más rápido que pueda por ella.
Vamos definir una terminología un poco más estándar para trabajar con eventos. Las
operaciones usuales de no, y y o, que ya conocemos y manejamos perfectamente,
las llamaremos con nombres raros y las denotaremos de forma complicada, simple-
mente para hacer pinta de ser más inteligentes. Así es que diremos “complemento”
en lugar de no, “intersección” en lugar de y, y “unión” en lugar de o.
Experimento: cualquier acto en el cual el resultado exacto no se puede pre-
decir con certeza. Todos los ejemplos que vimos, la moneda, las cartas, los
dados, etc., son experimentos en este sentido.
Espacio muestral: es el conjunto Ω de todos los resultados posibles de un ex-
perimento. Los elementos del espacio muestral se denotan usualmente por la
letra griega ω (omega minúscula) y se llaman eventos simples o elementales.
Evento: es una subcolección de resultados posibles de un experimento (un
evento A es un subconjunto del espacio muestral Ω).
Hay dos eventos particularmente sencillos: el evento imposible A = 0/ que
significa que nada ocurre y el evento seguro A = Ω que significa que algo
ocurre. La letra 0/ representa al conjunto vacío, esto es, un conjunto que no
tiene elementos3 .
Si el resultado observado es un cierto evento simple ω, decimos que el evento
A ha ocurrido si ω pertenece a A. Esto último lo escribimos ω ∈ A.
Cardinal: es el número de elementos de un evento, lo escribimos |A|. Según
el principio (1.1) la probabilidad de un evento A estará dada por

|A|
P (A) = . (1.2)
|Ω|

Complemento: consiste en todos los eventos simples que no pertenecen a A.


3 Pensar en una bolsa vacía.

1-4
Este evento lo denotaremos por
Ac = {ω ∈ Ω : ω ∈
/ A}.
Es lo mismo decir que A no ha ocurrido a decir que Ac ha ocurrido.
Intersección: exprese la condición de que ambos A y B ocurran simultánea-
mente. Este evento se escribe
A ∩ B = {ω ∈ Ω : ω ∈ A y ω ∈ B} .
Cuando dos eventos no tienen elementos en común, decimos que son incom-
patibles o disjuntos y escribimos A ∩ B = 0.
/ En palabras, ésto quiere decir que
si A ocurre, B no puede ocurrir, y viceversa.
Unión: expresa la condición de que A o B ocurran. Se entiende la conjunción
o en el sentido amplio, una cosa o la otra o ambas. Este evento se escribe
A ∪ B = {ω ∈ Ω : ω ∈ A o ω ∈ B}.

Inclusión: expresa la condición de que A implica B. Esto lo escribimos A ⊂ B.


Diferencia: expresa la condición A pero no B. Esto lo escribimos A \ B.
Ejemplo 3
Considerar las formas posibles de ordenar los dígitos 1234. Sea Ai el evento “el
dígito i aparece en su lugar natural”. Probar que A1 ∩ A2 ∩ A3 ⊂ A4 y que A1 ∩ A2 ∩
Ac3 ⊂ Ac4 . Describir estas inclusiones con palabras.

1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4
2 2 3 3 4 4 1 1 3 3 4 4 1 1 2 2 4 4 1 1 2 2 3 3
3 4 2 4 2 3 3 4 1 4 1 3 2 4 1 4 1 2 2 3 1 3 1 2
4 3 4 2 3 2 4 3 4 1 3 1 4 2 4 1 2 1 3 2 3 1 2 1
A1 ◦ ◦ ◦ ◦ ◦ ◦
A2 ◦ ◦ ◦ ◦ ◦ ◦
A3 ◦ ◦ ◦ ◦ ◦ ◦
A4 ◦ ◦ ◦ ◦ ◦ ◦

De la definición, el evento A1 ∩ A2 = {1234, 1243}. Si lo intersectamos con A3 , solo


queda el elemento 1234, que pertenece a A4 . Si lo intersectamos con Ac3 , solo queda
1243, que no está en A4 .

Dicho en palabras: si el 1, 2, y 3 están en su lugar natural, entonces el 4 también. Si


el 1 y 2 están en su lugar natural pero el 3 no, tampoco lo está el 4. 

Diagramas de Venn

Los diagramas de Venn ofrecen una manera sencilla de visualizar las operaciones
con conjuntos. En todas las figuras, las regiones rayadas representan al conjunto en
cuestión.

1-5
B

A A

Complemento Unión

B B

A A

Interseción Diferencia

Las leyes de De Morgan son dos reglas útiles que permiten pasar de uniones a
intersecciones tomando complementos.
Complemento de la unión. El complemento de la unión de A y B es la inter-
sección de sus complementos. En símbolos (A ∪ B)c = Ac ∩ Bc .

B B
A = A ∩

Complemento de la intersección. El complemento de la intersección de A y


B es la unión de sus complementos. En símbolos (A ∩ B)c = Ac ∪ Bc .

B B
A = A ∪

En realidad es una consecuencia de la regla anterior aplicada a Ac y Bc . De


hecho
(Ac ∪ Bc )c = (Ac )c ∩ (Bc )c = A ∩ B,
ya que tomar complementos dos veces es como no hacer nada. Luego, basta
tomar complementos en la igualdad anterior.

1-6
1-2. Las reglas de conteo

Contar posibilidades puede ser en la práctica bastante difícil. En general no es po-


sible enumerarlas todas, y aunque lo fuera, no es deseable. ¿Cómo podemos contar
posibilidades de forma sistemática?

Principio de inclusión-exclusión

La primera y más simple de estas reglas es el principio de inclusión-exclusión. Este


afirma que
|A ∪ B| = |A| + |B| − |A ∩ B|.
Es inmediato ver que si sumamos el cardinal de A y el de B, estaremos contando dos
veces aquellos elementos que pertenezcan a ambos. Por eso restamos el cardinal de
la intersección.
Ejemplo 4
En una banda de cantantes y guitarristas, 7 cantan, 4 tocan la guitarra, y 2 hacen
ambas cosas. ¿Cuántos hay en la banda?

Sean C los cantantes y G los guitarristas. Entonces |C| = 7, |G| = 4, y |C ∩ G| = 2.


Luego, por el principio de inclusión-exclusión tenemos

|banda| = |C ∪ G| = |C| + |G| − |C ∩ G| = 7 + 4 − 2 = 9.

El árbol de posibilidades y la regla del producto

¿Cuántos casos posibles hay al tirar una moneda tres veces? Para enumerar las dis-
tintas secuencias podemos dibujar un árbol de posibilidades. Ver en la Figura 1.1.
Si seguimos todas la posibles ramas desde el origen o hasta el borde derecho del
árbol, obtenemos las 8 secuencias posibles.

Para pensar: el árbol de posibilidades, ¿cuenta secuencias ordenadas, o el orden no


es importante?

Usando el árbol podemos contar las posibilidades de la siguiente manera. Cada


posibilidad queda determinada por una secuencia de C’s o X’s, por lo que debemos
llenar los tres espacios que representan lo que sale en cada lanzamiento:

En el primer lugar, podemos poner C o X. Por lo tanto, el primer espacio puede


llenarse de 2 maneras:

1-7
Árbol de posibilidades 3 monedas

C X

C X C X

C X C X C X C X

Figura 1.1: Árbol de posibilidades para el lanzamiento de tres monedas.

2
Esto está indicado en el árbol por las 2 ramas que salen del origen o y que termi-
nan en la primera fila. Para cada una de las 2 maneras de llenar el primer espacio,
tenemos 2 maneras de llenar el segundo:
2 2
Esto está indicado en el árbol por las 2 ramas que salen de cada una de los nodos
de la primera fila. Luego podemos llenar los primeros dos espacios de 2 × 2 = 4
formas distintas. ¿Ya ven el final no? Por último, para cada una de estas 4 formas
de llenar el primer y segundo espacio, tenemos 2 maneras de llenar el tercero:
2 2 2
Entonces, el total de posibilidades para llenar los tres espacios con C’s o X’s es
2 × 2 × 2 = 23 = 8.

Para pensar: Si en lugar de lanzar tres veces la moneda, lo hacemos n veces, ¿cuán-
tas posibilidades hay?

No es necesario que las maneras de llenar los espacios sean siempre iguales. El
razonamiento sigue siendo válido incluso si las opciones para realizar la segunda
acción dependen de lo que se haya hecho en la primera. Lo único que realmente
importa es que la cantidad de opciones para realizar la segunda acción no dependa
de la opción elegida para realizar la primera.
Ejemplo 5
Si lanzamos dos dados distinguibles, el número total de posibilidades es 6 × 6 = 36.
Pero el evento A = “los resultados son distintos” tiene 6 × 5 = 30 casos favorables:
6 5
Para cada una de las 6 formas de llenar el primer espacio, tenemos 5 formas de

1-8
llenar el segundo. Entonces
6×5 5
P (A) = = .
6×6 6
Otra forma de ver esto es que sin importar lo que salga en el primer dado, la proba-
bilidad de que el segundo sea diferente es 5/6.

Para pensar: No es importante el orden en el que llenamos los espacios. Podríamos


haber dicho:
5 6
hay 6 maneras de llenar el segundo, y para cada una de ellas, hay 5 formas de
llenar el primero. El resultado es el mismo. Esta trivialidad tiene consecuencias que
parecen menos obvias cuando se las ve por primera vez. Más adelante volveremos
sobre este punto. 

Cuando el número de objetos en un conjunto es moderadamente grande, el número


de posibilidades para un evento no puede dibujarse en un árbol de posibilidades.
Afortunadamente, el razonamiento que hicimos con los espacios vacíos se puede
extender y usar como método general para contar posibilidades, siempre teniendo en
cuenta que para los árboles de posibilidades el orden es esencial. La generalización
de este método es la famosa regla del producto.

Regla del producto


Si se puede realizar una operación de n1 maneras y, después de realizarla de
cualquiera de estas maneras, se puede realizar una segunda operación de n2
maneras y, después de realizarla de cualquiera de estas formas, se puede realizar
una tercera operación de n3 maneras, y así sucesivamente para k operaciones,
entonces las k operaciones se pueden realizar juntas en

n1 × n2 × n3 × · · · × nk

maneras distintas.

Tener en cuenta el orden, ¿sí o no?

En todos los ejemplos y ejercicios que veamos en este curso, contar posibilidades
se corresponderá con contar secuencias de símbolos con determinadas propiedades.
¿Qué queremos decir con esto? Por ejemplo, si lanzamos dos monedas, los resulta-
dos posibles podemos escribirlos como CC, CX, XC, XX, o incluso CC, CX, XX si
el orden no es relevante.
He aquí entonces la primera cuestión fundamental a la hora de contar posibilida-
des: el orden ¿es relevante o no? Aunque parezca paradójico, es más fácil contar
posibilidades cuando sí lo es. ¿Por qué? Porque podemos usar la regla del producto.

1-9
Ejemplo 6
Que el orden sea relevante o no depende del problema concreto en cuestión. Por
ejemplo, si queremos que nuestros cálculos reflejen lo que ocurre en el lanzamiento
real de dos monedas idénticas, ¿debemos tener en cuenta el orden a la hora de
contar?
Al ser las monedas idénticas, es difícil distinguir cuál es cuál, y parecería más ra-
zonable contar las posibilidades sin tener en cuenta el orden, como en CC, CX, y
XX. Si usamos el principio de indiferencia, cada una tendría probabilidad 1/3. Sin
embargo, también es cierto que cada moneda tiene su identidad propia, a pesar de
que no las podamos distinguir, y también resultaría razonable suponer que el caso
CX deba contar el doble que los otros dos. Si contamos las posibilidades con orden,
CC, CX, XC, CC, cada una tendría probabilidad 1/4. 

¿Cuál es la opción correcta? En realidad, la teoría que vamos a estudiar no da una


respuesta. Esta solo se encarga de decirnos lo que pasa después de haber definido
los casos posibles, pero ésto debemos hacerlo nosotros de forma independiente y
un tanto arbitraria.
En el caso de las monedas podemos razonar de la siguiente manera: si bien es cierto
que las monedas son idénticas, ¿qué pasa si marcamos una de ellas? ¿cambia esto
en algo lo que ocurrirá al lanzarlas? Parece obvio que no. E incluso, podríamos
lanzar una y luego la otra, y esto tampoco cambiaría las cosas. En este caso es fácil
decantarse por la segunda opción en la cuál el orden es importante, pero a veces
puede ser menos obvio.

Resultado
CC CX XC XX
26,2 26,4 23,4 24,0
Tabla 1.1: Resultados de tirar 500 veces dos monedas. Los números representan
porcentajes.

La única forma de saldar el asunto es con una simulación. La Tabla 1.1 muestra
los resultados de 500 lanzamientos de dos monedas reales.4 Los valores son muy
cercanos al valor ideal de 25 %.

Permutaciones

La regla del producto será más que suficiente para contar posibilidades en todos
los ejemplos y problemas que veamos en el curso. Sin embargo, los productos de
enteros consecutivos, que aparecieron en los ejemplos anteriores, son tan frecuentes
que vale la pena usar palabras especiales para ellos.
4 Los datos son reales. 500 lanzamientos dos monedas de $2, una de ellas marcada. Como dato
curioso, una de las monedas salió cara 14 veces seguidas. ¿Sorprendente?

1-10
¿De cuántas formas podemos elegir k elementos distintos de una lista de n elementos
distintos? Denotemos los n elementos por ∗1 , . . . , ∗n . Estos pueden ser de cualquier
tipo, eso no es relevante ahora. Notar que la lista original no tiene ningún orden
pre-establecido, lo único que importa es que los elementos son todos distintos y los
hemos numerado arbitrariamente de 1 a n para poder distinguirlos. Es como ponerle
un nombre a cada uno.
Queremos formar una lista ordenada
···
1 2 ··· k−1 k
en donde hay un primer elemento, un segundo elemento, y así sucesivamente hasta
el k-ésimo elemento. La elección de los k elementos se puede hacer por etapas,
contando cuántas posibilidades hay en cada una:
n n−1 ··· n − (k − 2) n − (k − 1)
1 2 ··· k−1 k
Esto es, hay n posibilidades para elegir el primer elemento, n − 1 para elegir el
segundo, y así sucesivamente hasta el último para el cual tenemos n − k + 1 posibi-
lidades. Entonces, el número total de listas ordenadas que podemos formar es
n × (n − 1) × (n − 2) × · · · × (n − k + 1).
Este número se llama permutaciones de n en k o arreglos de n en k, y lo denotamos
por (n)k . También se suele denotar por Ank , pero no usaremos esa notación.

Permutaciones de n en k
El número total de listas ordenadas de tamaño k formadas a partir de un con-
junto de n elementos es

(n)k = n × (n − 1) × (n − 2) × · · · × (n − k + 1)
| {z }
k factores

para 1 ≤ k ≤ n.

Podemos escribir este número de forma más compacta usando factoriales


n!
(n)k = ,
(n − k)!
e incluso extender la definición al caso k = 0 poniendo (n)0 = 1. En el caso especial
en el cual k = n, obtenemos todas las formas posibles en que podemos ordenar un
conjunto de n elementos. En este caso escribimos simplemente n! en lugar de (n)n .

Combinaciones

Consideremos el caso ahora en el que el orden no es relevante. ¿Cuántas listas no


ordenadas hay? Comencemos con un ejemplo concreto, luego de entenderlo el caso

1-11
general será obvio. Supongamos que n = 4 y que queremos elegir k = 2 elementos.
Llamemos A, B, C, y D a los elementos. Por lo anterior, hay (4)2 = 12 listas orde-
nadas de dos elementos, como se muestra a la izquierda en el siguiente diagrama:

Ordenadas Desordenadas
(A, B) (B, A) −→ {A, B}
(C, D) (D,C) −→ {C, D}
(A, D) (D, A) −→ {A, D}
(A,C) (C, A) −→ {A,C}
(B,C) (C, B) −→ {B,C}
(B, D) (D, B) −→ {B, D}
Hemos puesto listas entre paréntesis curvos para indicar que son ordenadas, y entre
llaves para indicar que no lo son. Siempre que precisemos hacer esta distinción
usaremos esta notación.
Lo que el diagrama muestra es que por cada posibilidad no ordenada, hay dos posi-
bilidades ordenadas, y por lo tanto
total de listas ordenadas
total de listas desordenadas = .
2
En general es igual. Imaginemos que hemos elegido una lista no ordenada de k
elementos. Podemos ordenarlos de k! formas distintas. Además, si las listas no or-
denadas son diferentes, también lo serán las listas ordenadas que así formemos. Esto
quiere decir que por cada lista no ordenada hay k! listas ordenadas distintas:
k! a 1
listas ordenadas −−−→ listas desordenadas
El número total de listas no ordenadas que podemos formar es entonces (n)k /k!.
n
Este número se llama combinaciones de n en k y lo escribiremos k . También es
común encontrarlo escrito como Ckn , pero nosotros no usaremos esta notación.

Combinaciones de n en k
El número total de listas no ordenadas de tamaño k formadas a partir de un
conjunto de n elementos distintos es

n n!
 
(n)k
= =
k k! k!(n − k)!

para 0 ≤ k ≤ n.

Respuesta al Ejemplo 2

Nos queda pendiente responder a la probabilidad de obtener un par en una mano


de poker. Con las herramientas que tenemos ahora no será difícil. El total de manos

1-12
posibles es 52

5 = 2598960, pues una mano consta de 5 cartas elegidas al azar de
un mazo de 52 cartas.
Para contar los casos favorables a un par, podemos dividir la tarea de la siguiente
forma: primero elegimos el valor del par (recordar que los valores son 2, 3, ..., J, Q,
K, A). Una vez hecho esto, elegimos los dos palos de las cartas que formaran el par.
Luego debemos elegir tres cartas de valores distintos, tanto al del par como entre
ellas. Usando la regla del producto, la cuenta queda
 
4
13 · · ?
|{z} 2 |{z}
Valor |{z} 3 cartas restantes
del par Palos
del par

Nos falta calcular de cuántas formas podemos elegir tres cartas de diferentes valores
entre ellas, y además de valor diferente al par. Para esto aplicamos nuevamente la
regla del producto: tenemos 12 formas de elegir el valor de la 3era carta, y 4 palos
posibles, 11 valores para la 4ta, y 4 palos posibles, 10 valores para la 5ta, y 4 palos
posibles. Esto daría 12 · 11 · 10 · 43 . Pero hay que recordar que la regla del producto
tiene en cuenta el orden, por lo que debemos dividir entre las formas posibles de
desordenar 3 cartas, esto es 3!. Así la respuesta final es

4 12 · 11 · 10 · 43
 
13 ·
|{z} 2 · 3!
= 1098240.
Valor |{z} | {z }
del par Palos 3 cartas restantes
del par

Luego, la probabilidad que buscamos es


1098240
≈ 0,4226.
2598960
¿Qué tan cerca estuvo tu intuición de este valor?

1-13
Clase 2
Probabilidades geométricas

2-1. Un continuo de posibilidades


2-2. Experimentos en 2D
2-3. Una regla en apariencia inofesiva
2-4. El lanzamiento de una moneda

2-1. Un continuo de posibilidades

En esta clase nos centraremos en algunos problemas del cálculo de probabilidades,


que involucran experimentos cuyos posibles resultados pueden ser representados
por los puntos de un segmento, o de alguna figura plana o cuerpo sólido. En tales
casos, no se puede hablar del número de posibilidades en los que ocurre un evento
determinado; sin embargo, a menudo se puede definir la probabilidad del evento de
una manera natural y calcularlo por consideraciones geométricas.1
Ejemplo 1
Una barra de longitud L se rompe en un punto elegido al azar. ¿Cuál es la probabi-
lidad de que la menor de las dos piezas tenga una longitud mayor que L/4?
Los posibles resultados del experimento corresponden a los diferentes puntos en los
que se puede romper la barra, es decir, el espacio muestral Ω se puede representar
como un segmento AB de longitud L.
Ahora, ¿qué significa exactamente decir que la barra se rompe en un punto “elegido
al azar”? Si estipulamos que todos los puntos de AB tienen la misma probabilidad
p de ser elegidos, entonces debemos tener p = 0, ya que hay infinitos puntos en el

1 Lamentablemente no hay casi material en español sobre probabilidades geométricas. Sin em-
bargo, los estudiantes que quieran ver más ejemplos de problemas de este tipo, puede consultar la
página web
http://lya.fciencias.unam.mx/lars/0625/
Contiene varios videos de un curso elemental de probabilidad de la Universidad Nacional Autónoma
de México. Allí pueden encontrar un video específico de probabilidades geométricas.

2-1
segmento.
L/2

A M O N B
L/4

Esto no proporciona mucha información para calcular la probabilidad requerida


por el problema. Lo que debemos hacer es asociar a cada intervalo CD de AB un
número P (CD), la probabilidad de que el punto de ruptura se encuentre entre C y
D. Dado que P (CD) debe interpretarse como una probabilidad, debe satisfacer las
desigualdades
0 ≤ P (CD) ≤ 1.
Como es seguro que el punto de quiebre está entre A y B, debemos tener

P (AB) = 1

Si C, D y E son tres puntos en el segmento como en la figura, requeriremos que

A C D E B

P (CE) = P (CD) + P (DE) .


Ahora podemos definir la frase “al azar” con precisión; usaremos este término para
indicar que la probabilidad P (CD) depende solo de la longitud de CD y no de su
ubicación en la barra.
En este caso, podemos escribir p(x) en lugar de P (CD), donde x denota la longitud
del segmento CD. La función p(x) está definida para todo 0 < x < L. Las propieda-
des anteriores ahora se pueden escribir en la forma

(1) 0 ≤ p(x) ≤ 1
(2) p(L) = 1
(3) p(x + y) = p(x) + p(y) si x + y ≤ L.

Ahora mostraremos que solo hay una función p(x) que tiene estas tres propiedades,
a saber, p(x) = x/L. Primero notamos que la propiedad (3) puede generalizarse a

(4) p (x1 + x2 + · · · + xn ) = p (x1 ) + p (x2 ) + · · · + p (xn ) si x1 + x2 + · · · + xn ≤ L.

Si en (4) ponemos x1 = x2 = · · · = xn = L/n, entonces x1 + x2 + · · · + xn = L, y


así por (2), p(x1 + · · · + xn ) = 1. Por lo tanto (4) se convierte en 1 = np(L/n), o
p(L/n) = 1/n.

2-2
Sean m, n enteros positivos con m < n. Por (4) de nuevo, tenemos
m términos
z }| {
m  L L L
p L =p + +···+
n n  n   n
L L L
 
=p +p +···+ p
n n n
L m
 
= mp =
n n

Esto significa que p(x) = x/L siempre que x/L sea un número racional. Para tratar
el caso en el que x/L es irracional, primero observar que si 0 ≤ x ≤ y ≤ L, entonces

p(y) = p(x) + p(y − x) ≥ p(x),

ya que p(y − x) > 0 por la propiedad (1). Así, la función p(x) es monótona no de-
creciente. Ahora, si x/L es irracional, y n es un entero positivo, podemos elegir los
números racionales a/L y b/L de modo que a < x < b y tal que b/L−a/L < 1/n (es-
to se debe a que los números racionales son densos, de modo que cualquier número
irracional se puede aproximar mediante números racionales). Luego obtenemos
a b
= p(a) ≤ p(x) ≤ p(b) = ,
L L
de lo cual se deduce que |p(x) − x/L| < 1/n. Como esto vale para todo n, vemos
que p(x) = x/L.
Por lo tanto, cuando la barra AB se rompe al azar, la probabilidad de que el punto de
ruptura se encuentre en un intervalo CD es igual a la longitud de CD dividida por la
longitud de AB:
long(CD)
P (CD) = ,
long(AB)
es decir, la fracción de la longitud total que representa CD.

Para pensar: comparar esta fórmula con la de casos favorables sobre casos posibles,

Para volver al problema original, observamos que la longitud de la pieza más peque-
ña en la que se rompe la varilla será mayor que L/4 si, y solo si, el punto de ruptura
se encuentra dentro del segmento MN (ver la primer figura) cuyo la longitud es L/2,
y cuyos puntos finales se encuentran a una distancia de L/4 de los extremos de la
varilla. Por lo tanto, la probabilidad requerida es (L/2)/L = 1/2. 

El experimento anterior es el primer ejemplo en el cual el espacio de resultados es


continuo. Representa de forma más general el experimento de elegir al azar un pun-
to en un intervalo. Aunque el modelo de probabilidades geométricas tiene sentido
en curvas muy generales, nosotros nos limitaremos a el intervalo (un segmento de
recta) y el círculo.

2-3
Cuando decimos que elegimos un punto al azar en un intervalo [a, b] de los reales
(resp. en un círculo), lo que queremos decir es que el espacio muestral Ω es el
intervalo (resp. el círculo), y la probabilidad de cualquier sub-intervalo A de Ω es

long(A)
P (A) = . (2.1)
long(Ω)

Lo más importante desde el punto de vista teórico es que la definición (2.1) respeta
las dos reglas básicas del credo probabilístico:
P (Ω) = 1
P (A ∪ B) = P (A) + P (B) si A y B son incompatible.
En el caso del círculo, se puede pensar que el modelo representa el experimento de
rodar una rueda de la fortuna infinita, que tiene un premio por cada punto del borde
de la rueda.
Ejemplo 2
Se escoge un número a al azar dentro del intervalo (−1, 1). ¿Cuál es la probabilidad
de que la ecuación cuadrática ax2 + x + 1 = 0 tenga dos raíces reales?

El espacio muestral es en este caso Ω = (−1, 1) que tiene longitud long(Ω) = 2.


Estamos interesados en la probabilidad del evento

A = {a ∈ Ω : ax2 + x + 1 = 0 tiene 2 soluciones reales}.

Observar que A ocurre si, y solo si, el discriminante de la ecuación 1 − 4a > 0, es


decir, si a < 1/4. Por lo tanto, A = (−1, 1/4) tiene longitud 5/4, y

long(A) 5/4 5
P (A) = = = .
long(Ω) 2 8

2-2. Experimentos en 2D

Existen experimentos en donde el espacio muestral es una región del plano.


Ejemplo 3
Un tablero inusual de tiro al blanco se muestra en la figura. Es un cuadrado de lado
L. Al ver lanzar los dardos a un jugador inexperiente, parece que el dardo diera en
un punto al azar del tablero. ¿Cuál es la probabilidad de que el dardo caiga dentro
de la región azul dibujada en la figura?
Llamemos A a dicha región. Si dividimos los lados del tablero en n = 2k segmentos
iguales, el tablero queda dividido en n2 cuadrados de lado L/n. Si el dardo cae al

2-4
azar en el tablero, por simetría la probabilidad de que caiga en cada uno de los cua-
drados pequeños es la misma. Para que la probabilidad total sea 1, la probabilidad
de cada cuadrado debe ser 1/n2 .
Podemos así aproximar la probabilidad de la región A considerando los cuadrados
que están incluídos en ella. Llamemos Ak a la unión de todos aquellos cuadrados
que están incluídos en A. Entonces la probabilidad de Ak es

P (Ak ) = (no de cuadrados que forman Ak ) · (probabilidad de c/ cuadrado)


1
= Ck · 2 .
n

Tratemos de relacionar está probabilidad con el área de Ak . Cada cuadrado tiene


área L2 /n2 , y el área de Ak es la suma de las áreas de los cuadrados que lo forman.
Como todos ellos tienen la misma área, vemos que Area(Ak ) = Ck · L2 /n2 . Entonces

Area(Ak ) Area(Ak )
P (Ak ) = = .
L2 Area(Ω)

Cuando hacemos tender k a infinito, el área de Ak tiende al área de A, y resulta


natural que
Area(A)
P (A) = . (2.2)
Area(Ω)
Esta es la fórmula análoga a (2.1) pero en dimensión 2. 

La fórmula anterior para la probabilidad de A esconde una sutileza. La sucesión de


eventos {Ak } es creciente, en el sentido de que Ak ⊂ Ak+1 , y aproxima a A en el
sentido de que k Ak = A. Para que el pasaje al límite en la probabilidad de Ak tenga
S

como resultado (2.2), se debe cumplir también

P (A) = lı́m P (Ak ) .


k→+∞

El problema es que por el momento no hemos enunciado ninguna regla que garan-
tice este pasaje al límite. Pero agregar reglas es gratis, así que:2

2 Eso parece, pero más adelante veremos cuál es el precio a pagar por esta nueva regla.

2-5
Regla 3: Continuidad de la probabilidad
Si {Ak } es una sucesión creciente de eventos y A = k Ak ,
S
entonces

P (A) = lı́m P (Ak ) .


k→+∞

Ejemplo 4
Los duelos en la ciudad de Los Apurados rara vez son fatales. Allí, cada conten-
diente llega en un momento aleatorio entre las 5 a.m. y 6 a.m. en el día pactado
y sale exactamente 5 minutos más tarde, honor servido, a menos que su oponente
llegue dentro de ese intervalo de tiempo y peleen. ¿Qué fracción de duelos terminan
en violencia?
Llamemos T1 y T2 los tiempos de llegada de los contendientes. Entonces, T1 y T2
son números al azar en el intervalo [5, 6]. Más aún, si miramos el punto de coorde-
nadas (T1 , T2 ) en el cuadrado [5, 6] × [5, 6], es un punto al azar que corresponde al
modelo uniforme en dimensión dos que vimos arriba. Es decir, las probabilidades
se resuelven calculando áreas.
Llamemos V al evento “el duelo termina en violencia”. Notar que los dos conten-
dientes se encontrarán si, y solo si la diferencia de tiempos |T1 − T2 | ≤ 1/12 (1/12
corresponde a 5 minutos en la escala horas). Entonces

V = (T1 , T2 ) ∈ [5, 6]2 : |T1 − T2 | ≤ 1/12 .




Este evento se muestra en la figura.


1
11
12 No se encuentran

T2 V

1
12 No se encuentran
0
0 1 T1 11 1
12 12

2-6
La probabilidad de V es por definición

Area(V )
P (V ) = = Area(V ),
Area(Ω)

ya que el área de Ω es 1. De la figura vemos que el área de V c es (11/12)2 , por lo


que P (V ) = 1 − (11/12)2 ≈ 1/6. 

Ejemplo 5
Imaginar un triángulo cualquiera: ¿es agudo u obtuso? Recordar que un triángulo es
agudo si sus tres ángulos son todos menores que un ángulo recto. Es muy probable
que el triángulo que imaginaron sea agudo. Pero ¿qué hay más: triángulos agudos u
obtusos?
Una forma de responder a esta pregunta es eligiendo un triángulo al azar y ver cuál
es la probabilidad de que sea agudo. Ahora, ¿cómo hacemos para elegir un triángulo
al azar?
Usando homotécias podemos siempre suponer que los vértices del triángulo están
sobre la circunferencia de un círculo de radio 1. Así que basta con elegir tres puntos
al azar sobre un círculo. ¿Cuál es la probabilidad de que el triángulo que forman sea
agudo?
Sean A, B y C los tres puntos. Podemos fijar uno de ellos, digamos C, ya que po-
demos girar el círculo para que C caiga siempre en el mismo lugar sin alterar las
probabilidades. Los otros dos son aleatorios.
Comenzando desde C, y en sentido antihorario, puede pasar que aparezca primero
A y luego B, o al revés. Pero haciendo una simetría podemos suponer que A es el
primero.
Sea F el evento “el triángulo es agudo”. Vamos a calcular P (F). Las posiciones de
A y B quedan determinadas por arcos de círculo de longitud α y β respectivamente,
siendo α un arco en el semi-círculo superior como se muestra en la figura.
A

α
C
β

2-7
Notar que la suma de las longitudes de los dos arcos debe ser menor que la longitud
de la circunferencia. Es decir α + β ≤ 2π. ¿Qué otras restricciones hay para α y β ?
Miremos primero el ángulo en C. Llamemos A0 el punto diametralmente opuesto de
A. Si B es exactamente igual a A0 , el ángulo en C es π/2. Si B está más cerca de
C que A0 , el ángulo en C es mayor que π/2. Y si B está más lejos de C que A0 , el
ángulo en C es menor que π/2.
A

B1
A0
B2

Por lo tanto, para que el ángulo en C sea agudo debemos tener α + β > π. De la
misma forma se puede ver que β < π para que el ángulo en A sea agudo, y α < π
para que el ángulo en B sea agudo.
De hecho estas son todas las restricciones. En un plano de coordenadas α y β ,
el espacio muestral consiste del triángulo recto que pasa por los puntos (2π, 0) y
(0, 2π).

π
F

0 α
0 π 2π

En la figura también se muestra el evento F, y vemos que la probabilidad de F es


entonces P (F) = 1/4. En conclusión, hay tres veces más triángulos obtusos que
agudos, aunque siempre nos imaginemos lo segundo.

2-8
Para pensar: ¿Se te ocurre cómo usar éste problema para probar que la probabilidad
de que tres puntos elegidos al azar en un círculo caigan todos en un semi-círculo es
igual a 3/4? 

2-3. Una regla en apariencia inofesiva

Hasta ahora los eventos que hemos considerado son todos bastante “lindos”, en el
sentido de que están representados por figuras geométricas para las cuales no hay
duda de como calcular su longitud, área o volumen. De hecho, en la práctica esto
siempre es así, y nunca tenemos que lidiar con eventos “feos” para los cuales no
esté muy claro lo que quiere decir su longitud o área.
Sin embargo, estos eventos “feos” existen. La Regla 3 que agregamos en esta clase
a nuestro credo probabilístico tiene un precio, y es que debemos excluir estos con-
juntos feos de la teoría. Es por esta razón que en los modelos continuos debemos
restringir la definición de probabilidad a eventos “lindos”. Es decir, no cualquier
subconjunto de Ω tiene una probabilidad bien definida.
En esta sección veremos un ejemplo de un tal conjunto “feo”. Nuestro objetivo es
solamente mostrar que estos eventos existen, pero no trataremos de hacer una teoría
rigurosa al respecto3 .
La siguiente construcción la hizo un matemático italiano del siglo XX que se lla-
maba Vitali. Por eso el evento “feo” que vamos a construir se llama conjunto de
Vitali.
Consideremos el experimento que consiste en elegir un punto al azar en un círcu-
lo de radio 1. Imaginemos que cada punto del círculo representa una persona de
una determinada población infinita. Así que queremos elegir una persona de esta
población al azar.
Como el círculo tiene radio 1, la longitud total de la circunferencia es L = 2π.
Vamos a dividir a la población en familias de parientes. Decimos que dos puntos
p y q del círculo son parientes si podemos ir de un punto al otro dando pasos de
longitud 1 a lo largo de la circunferencia del círculo. Con esto queremos decir que
cada paso nos mueve un ángulo de 1 radian en la circunferencia, y está permitido ir
dando vueltas alrededor del círculo en ambas direcciones. Ver la Figura 2.1.
Supongamos que cada familia elige uno de sus miembros para que sea el jefe de
familia. He aquí la pregunta: llamemos J al conjunto “la persona elegida es un
jefe de familia”, ¿cuál es la probabilidad de J? Resulta que esta pregunta no tiene
respuesta.
La primer cosa a notar es que cada familia tiene un número infinito de miembros4 .
3 Los estudiantes curiosos por estos temas pueden consultar el libro Probability and Measure de
P. Billingsley. También existe un curso de maestría en Fing que se llama Topología y Medida en el
cual estos asuntos se estudian rigurosamente.
4 ¡Lo que será esa navidad!

2-9
p

Figura 2.1: Dos puntos p y q que son parientes.

Como la longitud de la circunferencia es L = 2π, uno no puede volver al punto de


partida dando vueltas alrededor del círculo con pasos de longitud 1. Si esto fuera
posible empezar en un punto p y volver a el dando n pasos en sentido antihorario y
completando m vueltas al círculo, tendríamos que mL = n. Pero esto es equivalente
a que π = n/2m lo cual es imposible pues π es irracional.
Podría parecer que la probabilidad de J es o bien 0 o bien 1. Pero veremos que
ninguna respuesta es correcta. Ni siquiera depende en como son elegidos los jefes
de familia.
Para cada i ≥ 1 entero, consideremos el conjunto Ai de que “la persona elegida está
a i pasos en sentido antihorario del jefe de su familia”. Sea también Hi el conjunto
de que “la persona elegida está a i pasos en sentido horario del jefe de su familia”.
El conjunto Ai se obtiene del conjunto J rotándolo un ángulo i en sentido antiho-
rario. Como las probabilidades solo dependen de las longitudes, y las rotaciones
preservan las longitudes de los conjuntos, vemos que P (Ai ) = P (A) para todo i ≥ 1.
Del mismo modo deducimos que P (Hi ) = P (A).
Cada persona está en alguno de los A0i s o B0i s, pues toda familia tiene un jefe de
familia. Además estos conjuntos son disjuntos, pues una persona no puede estar a i
pasos (horario o antihorario) y a j pasos a la vez.
Entonces, necesariamente se debe cumplir

1 = P (J) + ∑ P (Ai ) + P (Bi ) .
i=1

Pero si x = P (J), obtenemos que



1 = x + ∑ 2x,
i=1

que no tiene solución para 0 ≤ x ≤ 1.

2-10
v(t)
rt

C
N

v0
C r
N

Figura 2.2: Modelo mecánico del experimento que consiste en tirar una moneda. El
centro de masa de la moneda sale con velocidad inicial vertical v0 y dando r vueltas
por segundo. Un lado de la moneda dice C y el otro dice N.

Esto significa que es imposible calcular P (J), y la respuesta no es ni 0 ni 1, ni


cualquier otro número entre 0 y 1. El conjunto J se conoce como un conjunto no-
medible, pues no podemos medir su probabilidad de forma consistente.

2-4. El lanzamiento de una moneda

En el lanzamiento de una moneda equilibrada, ¿de dónde viene el azar?


Empecemos por hacer un modelo mecánico. Supondremos que la moneda es un
segmento y que se mueve en un plano vertical. Vamos a denotar por v0 la velocidad
vertical inicial del centro de masa de la moneda y r el número de vueltas por segundo
(respecto al centro de masa) que da la moneda a lo largo de su trayectoria. Ver la
Figura 2.2.
El instante inicial es t = 0 y denotemos por g la aceleración de la gravedad. La
velocidad vertical del centro de masa de la moneda luego de un tiempo t es

v(t) = v0 − gt,

y el número de vueltas que la moneda ha dado es N(t) = rt.


Como la moneda demora en subir y bajar un tiempo igual a t = 2v0 /g, el número
total de vueltas que da es
2v0 r
NTot = .
g

La moneda tiene grabado de un lado la letra C y del otro la letra N. Cuando la


moneda vuelve a la altura inicial desde donde se la lanzó llega en una posición tal
que si la miramos desde arriba vemos solo una de sus dos caras. La única excepción
es cuando la moneda llega en la posición vertical (de canto).
Por ejemplo,

2-11
Si NTot es un entero, el resultado es C.
Si NTot es 1
2 + un entero, el resultado es N.
Si NTot es 1
4 + un entero
2 , la moneda cae de canto.
En general, la moneda mostrará C o N según si
(
k − 41 , k + 14 ⇒ el resultado es C;

NTot ∈
k + 14 , k + 34 ⇒ el resultado es N.


Y caerá de canto si
1 k
NTot = + ⇒ la moneda cae de canto.
4 2
Aquí, k es cualquier entero mayor o igual a cero.

Figura 2.3: Las zonas indican, en función de las condiciones iniciales v0 y r, si la


moneda muestra C (gris), N (blanco), o si cae de canto (rojo).

En este modelo, si conocemos v0 y r exactamente podremos predecir con igual


exactitud el resultado del lanzamiento de la moneda. Ver la Figura 2.3. Sin embar-
go, cuando lanzamos una moneda no somos capaces de elegir v0 y r con absoluta
precisión, sino que lo mejor que podemos hacer es elegirlos en un cierto rango de
valores.
Imaginemos que nuestra precisión es

v0 ∈ [4,21, 4,65] y r ∈ [7, 13] .

2-12
Figura 2.4: Se muestra lo mismo que en la Figura 2.3 pero para valores de v0 en
[4,21, 4,65] y de r en [7, 13].

La precisión en v0 corresponde a una precisión en la altura a la cual tiramos la


moneda de 1 m ± 0,1 m. La Figura 2.4 muestra los resultados para estos valores de
v0 y r. Notar que prácticamente la mitad del rectángulo es gris y la otra es blanca.
La condición inicial (v0 , r) podría ser cualquier punto del gráfico. Como el área de
la zona gris es casi igual al área de la zona blanca, y el área de las zonas rojas es
cero, vemos que
1
P (C) ≈ P (N) ≈ .
2
De hecho, podríamos imaginarnos modelos más complicados aún, que tengan en
cuenta las tres dimensiones, las condiciones atmosféricas, y una cantidad enorme
de otras variables físicas. Sin embargo, todos estos modelos son en un sentido equi-
valentes a este modelo simple.

2-13
Clase 3
Los axiomas de Kolmogorov

3-1. La definición axiomática de probabilidad


3-2. Modelo general de probabilidades discretas

3-1. La definición axiomática de probabilidad

Todas las religiones tienen su mesías, y el de los probabilístas es el ruso Andréi


Kolmogorov (1903-1987). Fue él quien introdujo en 1933 la definición axiomática
de probabilidad, el equivalente de los diez mandamientos de Moisés. Solo que en
este caso son tres:

Axiomas de Kolmogorov
Sea Ω un espacio muestral cualquiera. Una probabilidad es una función

P : Eventos → [0, 1]

que a cada evento A asigna un número real 0 ≤ P (A) ≤ 1, y que para ser digna
de ese nombre debe cumplir:
Regla 1: P (Ω) = 1
Regla 2: P (A ∪ B) = P (A) + P (B) si A y B son incompatibles
Regla 3: Si {Ak } es una sucesión creciente de eventos y A = k Ak , en-
S

tonces
P (A) = lı́m P (Ak ) .
k→+∞

Antes de ver algunos ejemplos, vamos a probar varias propiedades básicas que cum-
plen las probabilidades. Estas propiedades son consecuencia de las reglas básicas 1
y 2, de modo que son ciertas para cualquier función P que cumpla con dichas reglas.
Complemento: si A es un evento, la probabilidad de su complemento es

P (Ac ) = 1 − P (A) .

3-1
Esto se sigue de que A ∪ Ac = Ω y de que esta unión es disjunta. Si aplicamos
las reglas 1 y 2, en ese orden, obtenemos
1 = P (Ω) = P (A) + P (Ac ) ,
y de aquí despejamos la probabilidad de Ac .
División en casos: Si podemos dividir el espacio muestral Ω en subconjuntos
C1 , . . . ,Cn que son disjuntos dos a dos, entonces la probabilidad de cualquier
evento A se descompone como
n
P (A) = ∑ P (A ∩Ci ) .
i=1

La demostración consiste en aplicar la regla 2 a los conjuntos A ∩ Ci cuya


unión es A.
Regla de la resta: si A es un subconjunto de B (esto lo escribimos A ⊂ B),
entonces
P (B \ A) = P (B) − P (A) .
Recordar que el evento B \ A consiste de aquellos elementos ω que están en
B pero no en A. Para demostrarla notar que podemos escribir B = A ∪ (B \ A),
y que esta unión es disjunta. Luego, por la regla 2, P (B) = P (A) + P (B \ A).
Monotonía: si A es un subconjunto de B, entonces
P (A) ≤ P (B) .
Esto se sigue inmediatamente de la regla de la resta ya que P (B \ A) ≥ 0.
Principio de inclusión-exclusión: si A y B son dos eventos cualesquiera,
entonces
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .
Esto se deduce de las reglas 2 y de la resta aplicadas a la unión disjunta
A ∪ B = [A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B] .

La cota de la unión: si A y B son dos eventos cualesquiera, entonces


P (A ∪ B) ≤ P (A) + P (B)
Esto se sigue del principio de inclusión y exclusión ya que P (A ∩ B) ≥ 0.
La Regla 2(∞): Si Ω es finito la Regla 3, la continuidad de la probabilidad, se
cumple de forma automática. Es una regla importante solamente para espacios
muestrales infinitos. Ésta junto a la Regla 2, implican que la segunda sea
valida para cualquier cantidad numerable de eventos.
Si {Ak } es una sucesión de eventos incompatibles dos a dos (dos
cualesquiera de ellos Ai y Ak son incompatibles), entonces
!
∞ ∞
Ak
[
P = ∑ P (Ak ) . (3.1)
k=1 k=1

3-2
La prueba es muy simple. Primero observar que la Regla 2 vale, razonando
por inducción, para cualquier cantidad finita de eventos incompatibles. Defi-
nimos
n
Bn = Ak ,
[

k=1
que es una sucesión creciente de eventos cuya unión es n Bn = k Ak . Por la
S S

Regla 2 tenemos P (Bn ) = ∑nk=1 P (Ak ). Y por la Regla 3, deducimos


n
! !

Ak Bn
[ [
P =P = lı́m P (Bn ) = lı́m ∑ P (Ak ) = ∑ P (Ak ) .
n→∞ n→∞
k n k=1 k=1
Recíprocamente, (3.1) implica la Regla 3. Para ver esto, sea {Ak } una suce-
sión creciente de eventos. Definimos
(
A1 si n = 1;
Bn :=
An \ An−1 si n > 1.
Más aún, la unión sigue siendo la misma: n Bn = k Ak ; pero la ventaja
S S

ahora es que los eventos {Bn } son dos a dos disjuntos. Así que aplicando
(3.1) deducimos
! !

Ak Bn
[ [
P =P = ∑ P (Bn)
k n n=1

= P (A1 ) + ∑ P (An ) − P (An−1 ) = lı́m P (An ) .
n→∞
n=1
Es decir que (3.1) es equivalente a Regla 2 + Regla 3. La llamaremos Regla
2(∞) pues es como la Regla 2 pero para infinitos eventos.

Forma equivalente de los axiomas de Kolmogorov


Sea Ω un espacio muestral cualquiera. Una probabilidad es una función

P : Eventos → [0, 1]

que a cada evento A asigna un número real 0 ≤ P (A) ≤ 1, y que para ser digna
de ese nombre debe cumplir:
Regla 1: P (Ω) = 1
Regla 2(∞): Si {Ak } es una sucesión de eventos incompatibles dos a dos,
k=1 Ak ) = ∑k=1 P (Ak ).
entonces P ( ∞
S ∞

3-2. Modelo general de probabilidades discretas

Claramente, los ejemplos de experimentos equiprobables y de probabilidades geo-


métricas que vimos en las dos clases pasadas son casos particulares de esta defini-
ción. Pero los axiomas de Kolmogorov no restringen los resultados de un experi-
mento a ser equiprobables.

3-3
Ejemplo 1
Un caso particular muy importante es el modelo general de probabilidades discretas.
Esto quiere decir que Ω puede ser finito o infinito, pero en caso de ser infinito debe
ser numerable. Así, podemos enumerar los elementos de Ω en una lista

Ω = {ω1 , ω2 , . . . , ωi , . . .}.

Para definir las probabilidades de los eventos de Ω, primero definimos las probabi-
lidades pi ∈ [0, 1] de los eventos simples ωi .
No cualquier elección de números pi hará que la probabilidad del espacio muestral
sea 1. Para que esto suceda, debemos imponer la condición de normalización

∑ pi = 1.
i=1

En caso de que Ω sea finito, digamos con n elementos, los pi serán nulos para i > n.
¿Cómo definimos la probabilidad de un evento? Sea A un evento en Ω, definimos
la probabilidad de A como el agregado de las probabilidades de sus elementos, de
modo que
P (A) := ∑ pi .
ωi ∈A

La condición de normalización de los pi garantiza que



P (Ω) = ∑ pi = ∑ pi = 1.
ωi ∈Ω i=1

Además, se cumple la Regla 2(∞): si podemos descomponer un evento A como una


unión disjunta (posiblemente infinita) de eventos Ak , k = 1, 2, . . ., entonces

P (A) = ∑ P (Ak ) .
k=1

De hecho, por definición


∞ ∞
P (A) = ∑ pi = ∑ ∑ pi = ∑ P (Ak ) .
ωi ∈A k=1 ωi ∈Ak k=1

en donde la segunda igualdad es consecuencia de que los Ai son disjuntos.


Notar que si Ω tiene n elementos, y elegimos pi = 1/n para todo i, entonces
n n
1 |A| |A|
P (A) = ∑ pi = ∑ = = ,
i=1 i=1 n n |Ω|

3-4
que no es otra cosa que la fórmula de casos favorable sobre casos posibles. Lo
interesante del modelo general es que los {pi } pueden ser arbitrarios, con la sola
condición de sumar 1. 

Ejemplo 2
Consideremos el siguiente experimento: tiramos una moneda justa hasta que se re-
pita una cara o una cruz. ¿Cómo son el espacio muestral y las probabilidades? El
espacio muestral es sencillo, consiste en

Ω = {CC, XX,CXC, XCX,CXX, XCC}

Pero, ¿son los resultados equiprobables?


Si tiráramos tres veces la moneda, olvidandonos por el momento de si repite o no,
el espacio muestral sería el conjunto de todas las secuencias de tres caras y cruces,
y consistiría entonces de 23 = 8 elementos. Claramente, la probabilidad de cada
secuencia sería 1/8.

C
C CC
X
C
C } CXC
X
X } CXX
C } XCC
C
X }XCX
X
C
X XX
X
Pero en nuestro caso debemos parar si encontramos una repetición, como en las
secuencias marcadas en rojo en la tabla anterior.
Notar que la secuencia que comienza con CC corresponde a dos secuencias po-
sibles de largo tres, a saber CCC y CCX. De aquí resulta natural suponer que la
probabilidad de obtener CC es 2 × 1/8 = 1/4. Lo mismo para XX.
Es tentador entonces definir

P (CC) = P (XX) = 1/4

P (CXC) = P (CXX) = P (XCC) = P (XCX) = 1/8


Aunque las probabilidades no sean todas iguales, la suma de todas es igual a 1. Es
como si hubiéramos repartido de forma desigual una torta, las secuencias CC y XX
se llevan pedazos más grandes que el resto.
¿Qué ocurre con las probabilidades de los eventos? Por ejemplo, ¿cuál es la proba-
bilidad de que el primer lanzamiento resulte cara? Si sumamos las probabilidades

3-5
de todos las secuencias de Ω que empiezan con C, obtenemos
1 1 1 1
P (1er lanzamiento cara) = + + = ,
4 8 8 2
que concuerda con nuestra intuición. 

Ejemplo 3
El ejemplo anterior se puede extender a situaciones más generales, como por ejem-
plo, ¿qué pasa cuando lanzamos un dado hasta que se repita un resultado?
Disponemos de n celdas distintas y comenzamos a distribuir bolas en
ellas. Las bolas se distribuyen una a la vez, eligiendo una celda al azar
para cada bola. El proceso termina cuando una bola cae en una cel-
da que ya está ocupada por otra. ¿Cuántas bolas hemos distribuido al
terminar el proceso?
En el caso de la moneda del ejemplo anterior, tenemos n = 2 celdas una que repre-
senta cara y otra que representa cruz. En el caso del dado, tenemos n = 6 celdas,
una por cada dígito posible que tiene el dado. En ambos casos, los lanzamientos
corresponden a las bolas.
Claramente, podemos distribuir a lo sumo n bolas sin ocupar dos veces la misma
celda, pero el número de bolas distribuidas al terminar puede ser cualquier número
entre 2 y n + 1.
Como hicimos en el ejemplo anterior, olvidémonos por un momento de que el pro-
ceso termina cuando una bola cae en una celda ya ocupada. Fijemos así una cierta
cantidad k de bolas distinguibles a distribuir en las n celdas distintas. Para este nuevo
experimento el espacio muestral es

Ωk = {(c1 , . . . , ck ) : ci ∈ {1, . . . , n}},

en donde la secuencia (c1 , . . . , ck ) representa el resultado en el cual la primer bola se


coloca en la celda c1 , la segunda en la celda c2 , y así sucesivamente con la k-ésima
bola en la celda ck . Como hay n posibilidades para cada bola, vemos que |Ωk | = nk .
Esto sugiere que la probabilidad de obtener una distribución dada de bolas igual a
(c1 , . . . , ck ) es igual a 1/nk .
Volvamos ahora a nuestro experimento original. Las secuencias (c1 , . . . , ck ) repre-
sentan ahora que se coloca la primera, la segunda, ..., y la k-ésima bola en las celdas
c1 , c2 , . . . , ck , y que el proceso termina en k pasos. Esto significa que las celdas
c1 , . . . , ck−1 son todas diferentes, pero ck es igual a una de ellas. Cualquier secuen-
cia de este tipo representa un resultado posible. Solamente los valores 2, . . . , n + 1
son posibles para k.
El espacio muestral es entonces

Ω = {(c1 , . . . , ck ) : ci 6= c j ∀i, j < k y ∃i t.q. ck = ci }.

3-6
De acuerdo a lo dicho más arriba, es natural suponer que la probabilidad de cada
secuencia de largo k es 1/nk , es decir

1
P (c1 , . . . , ck ) = .
nk
Debemos asegurarnos, sin embargo, que la probabilidad de Ω sea igual a uno. Esto
es, que la suma de las probabilidades de todas las secuencias posibles es 1.
Para hacer esto, consideremos para cada k entre 2 y n + 1, el evento Ak de que el
proceso termine en el k-ésimo paso. Obviamente estos eventos son disjuntos dos
a dos, ya que el proceso no puede terminar en dos cantidades diferentes de pasos.
¿Cuántos elementos tiene cada Ak ?
Por la regla del producto, podemos elegir las celdas c1 , . . . , ck−1 de (n)k−1 formas
distintas. Para ck tenemos que elegir entre las k − 1 celdas c1 , . . . , ck−1 . Por lo tanto
|Ak | = (k − 1)(n)k , de donde se sigue que

1 (k − 1)(n)k−1
∑ P (c1 , . . . , ck ) = |Ak | k
= .
(c1 ,...,ck )∈Ak
n nk

Llamemos a estos números αk . Debemos probar que


n+1
∑ αk = 1.
k=2

Es fácil ver que α2 = 1/n. También, un cálculo sencillo muestra que


  
1 2(n − 1) 1 2
1 − (α2 + α3 ) = 1 − − = 1− 1− .
n n2 n n

En general, se puede mostrar por inducción que

r−1
   
1 (n)r
1 − (α2 + · · · + αr ) = 1 − ··· 1− = r . (3.2)
n n n
Esto muestra que
α2 + · · · + αn+1 = 1
porque en la fórmula anterior con r = n + 1 el último factor es cero. Observar que
(3.2) representa la probabilidad de que el proceso termine en más de r pasos. El
lado derecho de (3.2) no es otra cosa que la probabilidad de que r bolas caigan en
celdas distintas. 

3-7
Ejemplo 4
Supongamos que en una clase, suficientemente grande, el profesor empieza a pre-
guntarle a sus estudiantes el día del cumpleaños. Lo hace uno a la vez, hasta encon-
trar una coincidencia. ¿A cuántos estudiantes le preguntará?
Podemos pensar entonces que disponemos de n = 365 celdas, que representan los
diferentes días del año, y que empezamos a distribuir bolas hasta que una de ellas
caiga en una celda ya ocupada.
Por lo que vimos en la parte anterior, la probabilidad de preguntarle a k estudiantes
(es el evento que llamamos Ak ) es

(k − 1)(365)k−1
P (preguntar a k estudiantes) = .
365k
Lamentablemente estas probabilidades son difíciles de calcular a mano. Se puede
hacer una aproximación muy buena con herramientas elementales de cálculo, pero
nos contentaremos con ver una gráfica.
0.030
0.025
0.020
0.015
0.010
0.005
0.000

2 5 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80

Notar que el valor más probable para k es k = 20, con una probabilidad de 0,032.
Este valor no es difícil de calcular. Si llamamos pk a la probabilidad de preguntarle
a k estudiantes, vemos que

pk 365(k − 1)
= .
pk+1 k(365 − k + 1)

De aquí resulta que pk < pk+1 si, y solo si k2 − k < 365. Resolviendo

la ecuación
1+ 1+4·365
cuadrática, esta última desigualdad es equivalente a k < 2 = 19,61. Esto
quiere decir que pk crece hasta k = 20, y luego comienza a decrecer. El caso general
de n celdas es completamente
√ análogo, y se obtiene que la probabilidad máxima se
alcanza en k ≈ n. 

3-8
Ejemplo 5
Tiramos una moneda justa hasta que salga cara. ¿Cuál es la probabilidad de que
tengamos que tirar un número par de veces?
Un espacio muestral razonable es

Ω = {C, XC, XXC, XXXC, XXXXC, . . .}.

Usaremos el mismo truco que en los ejemplos anteriores para definir la probabi-
lidad de cada secuencia. Olvidémonos por un momento de las reglas del juego y
que aunque hayamos obtenido una cara en un determinado lanzamiento, seguimos
tirando la moneda.
Al tirar una sola vez la moneda, cada uno de los resultados C o X tiene la misma
probabilidad de ocurrir. Sin importar lo que hagamos después, es razonable definir
la probabilidad de C como igual a 1/2.
Esto además es coherente con lo que ocurre al tirar dos veces la moneda. Los resul-
tados posibles son
CC,CX, XC, XX.
Estos son todos igualmente probables, con probabilidad 1/4. Si sale C en la primer
tirada habríamos ganado, pero tiramos la moneda una vez más. Puede salir C de
nuevo o X. Estos son dos casos ficticios en los cuales hubiéramos parado el juego
en la primer tirada. La suma de sus probabilidades es 1/4 + 1/4 = 1/2 lo cual
concuerda con nuestra definición anterior.
De hecho, este argumento funciona para cualquier cantidad de lanzamientos. Si lan-
zamos n veces una moneda, todas las secuencias que comienzan por C son ficticias.
Como son exactamente la mitad de todas las secuencias posibles, la probabilidad de
empezar con C siempre es 1/2 sin importar cuántas veces tiremos la moneda.
En la siguiente tabla mostramos cuáles son las probabilidades asignadas a las se-
cuencias de nuestro experimento si seguimos un razonamiento similar al anterior
para cada una de ellas.
Tiradas Resultados posibles Probabilidad
1 C, X 1/2
2 CC,CX, XC, XX 1/4
CCC,CCX,CXC,CXX
3 1/8
XCC, XCX, XXC, XXX
CCCC,CCCN,CCXC,CCXX,CXCC,CXCX
4 CXXC,CXXX, XCCC, XCCX, XCXC, XCXX 1/16
XXCC, XXCX, XXXC, XXXX
.. .. ..
. . .

3-9
En resumen, hemos definido
 
1
P X · · X} C =
| ·{z , k = 1, 2, . . .
2k
k−1 veces

Podemos verificar que la suma de las probabilidades de todas las secuencias posi-
bles es igual a 1. Para esto debemos recordar que la suma de una serie geométrica
es ∞
1
∑ xj = 1−x
j=0

si |x| < 1. Si la aplicamos con x = 1/2, obtenemos


+∞ +∞
1 1 1
P (Ω) = ∑ P (X · · · XC) = ∑ 2k = 2 (1 − 1/2) = 1.
k=1 k=1

Como estas probabilidades forman una una sucesión geométrica, en este caso de
razón 1/2, se las conoce bajo el nombre de distribución geométrica.

1/2
Probabilidad

1/4

1/8

1 2 3 4 5 6 7 8 9 10
k

Queremos calcular la probabilidad de lanzar la moneda un número par de veces.


Este evento, al que llamamos E, se puede descomponer según sean 2 lanzamientos,
4 lanzamientos, 6 lanzamientos, etc. Llamemos Ei al evento de lanzar la moneda 2i
veces. Es decir, podemos escribir E = +∞i=1 Ei siendo esta una unión disjunta. Luego
S

+∞ +∞
1
P (E) = ∑ P (Ei ) = ∑ 2i
i=1 i=1 2
+∞
1 1 1 1
=∑ i
= = .
i=1 4 4 (1 − 1/4) 3

Es dos veces más probable tirar la moneda un número impar que un número par de
veces. 

3-10
Clase 4
Probabilidad condicional

4-1. Dado que...


4-2. Eventos independientes
4-3. El juego de Monty Hall

4-1. Dado que...

En general la probabilidad de que un evento ocurra cambia si sabemos que otro ha


ocurrido. Un caso extremo es cuando los eventos son incompatibles, pues la ocu-
rrencia de uno de ellos hace imposible la ocurrencia del otro. La probabilidad de un
evento bajo la condición de que otro ha ocurrido se llama probabilidad condicional.
Ejemplo 1
Disponemos de tres cartas pintadas de la siguiente manera: una es roja en ambos
lados, otra es roja en uno y blanca en el otro, y la tercera es blanca en ambos la-
dos. Se elige una carta al azar y se la apoya sobre una mesa con algún objeto que
cubra el lado que queda visible hacia arriba para que no podamos verlo. ¿Cuál es la
probabilidad de que el lado que toca la mesa sea rojo?
Cada carta puede ser representada por un par (c1 , c2 ) en donde c1 es el color del
lado 1 de la carta y c2 es el color del lado 2 de la carta. Los colores pueden ser rojo
(r) o blanco (b). Además, la carta puede ser apoyada sobre la mesa con su lado 1
hacia abajo o con su lado 2 hacia abajo. Así, el espacio muestral es

Ω = {(r, r, 1), (r, b, 1), (b, b, 1), (r, r, 2), (r, b, 2), (b, b, 2)},

en donde las dos primeras coordenadas indican los colores del lado 1 y 2 de la carta
y la tercera sobre qué lado la carta es apoyada sobre la mesa.
Claramente las seis ternas son igualmente probables, por lo que la probabilidad de
elegir una de ellas es 1/6.

4-1
El evento que nos interesa es

A = {(r, r, 1), (r, b, 1), (r, r, 2)}

pues consiste de aquellas realizaciones para las cuáles el lado sobre la mesa es rojo.
De modo que la probabilidad de que el lado sobre la mesa sea rojo es
1 1
P (A) = 3 · = .
6 2
Consideremos el mismo problema pero con información adicional. Supongamos
ahora que quitamos la cobertura del lado visible de la carta elegida. De esta forma
podemos ver el color del lado hacia arriba. Si vemos que el lado hacia arriba es rojo,
¿cuál es la probabilidad de que el lado sobre la mesa sea rojo?
El espacio muestral y las probabilidades siguen siendo los mismos

Ω = {(r, r, 1), (r, b, 1), (b, b, 1), (r, r, 2), (r, b, 2), (b, b, 2)}.

Sin embargo, ahora sabemos que una de las ternas indicadas en rojo ha ocurrido.
Dicho de otro modo, el nuevo espacio muestral es

Ω0 = {(r, r, 1), (r, r, 2), (r, b, 2)}

ha ocurrido y queremos saber cómo esta información afecta la probabilidad de A.


Entre estas tres posibles ternas, no hay ninguna que tenga una preferencia de ser
elegida sobre las demás. Por tanto, la probabilidad de cada una, suponiendo que
una de ellas ha ocurrido, es igual a 1/3. Como de las tres solamente (r, r, 1) y (r, r, 2)
tienen un lado rojo hacia la mesa, i.e. son también ternas de A, tenemos que la nueva
probabilidad de A es 2/3. 

Ejemplo 2
Se lanza una moneda justa tres veces. ¿Cuál es la probabilidad de que salgan tres
caras?
El espacio muestral muestral es

Ω = {CCC,CCX,CXC,CXX, XCC, XCX, XXC, XXX}.

Todas las posibilidades son igualmente probables así que P (3 caras) = 1/8.
Supongamos ahora que sabemos el primer lanzamiento salió cara. Dada esta infor-
mación, ¿cuál es la probabilidad de que salgan tres caras? El nuevo espacio muestral
es
Ω0 = {CCC,CCX,CXC,CXX}

4-2
ha ocurrido, y las posibilidades siguen siendo equiprobables. Así que

P (3 caras dado que la primera es cara) = 1/4.

Reformulemos en términos de eventos el razonamiento que seguimos en los dos


ejemplos anteriores. El objetivo es calcular la probabilidad de un evento A, pero
sabiendo que otro evento B ha ocurrido. Esta información adicional reduce el espa-
cio muestral a B (antes lo llamamos Ω0 ), y aunque las probabilidades siguen siendo
las mismas, deben ser normalizadas para que el total sea nuevamente 1. Los puntos
que están en A y en B simultáneamente son exactamente aquellos de la intersección
A ∩ B. Así que la probabilidad que buscamos es P (A ∩ B) /P (B).

Definición de probabilidad condicional


Sean A y B dos eventos de un espacio muestral Ω, y supongamos que P (B) > 0.
Definimos la probabilidad condicional de A dado B como

P (A ∩ B)
P (A|B) = .
P (B)

Representa la probabilidad de A cuando se sabe que B ha ocurrido.

Notar que la probabilidad condicional no es simétrica en A y B. Esto es, en general


P (A|B) 6= P (B|A). Por ejemplo, si A es el evento que coincide con todo el espacio
muestral Ω, entonces P (Ω|B) = 1, y sin embargo, P (B|Ω) = P (B) que no siempre
es igual a 1.
La probabilidad condicional es una función de dos variables (A, B) 7→ P (A|B).
Cuando fijamos la segunda variable, es decir el evento B por el cual estamos condi-
cionando, la función de probabilidad condicional

P (·|B) : Eventos → [0, 1]

que a cada evento A le asocia P (A|B), es una probabilidad en Ω. Es decir, verifica


la definición axiomática de Kolmogorov:
P(Ω∩B) P(B)
P (Ω|B) = P(B) = P(B) = 1.
Y si A1 , A2 , . . . una sucesión de eventos dos a dos incompatibles, entonces
!
n=1 An ) ∩ B) n=1 (An ∩ B))

P (( ∞ P( ∞
S S
An B =
[
P =

n=1
P (B) P (B)

P (An ∩ B) ∞
= ∑ P (B) = ∑ P (An|B) .
n=1 n=1

Esto tiene como consecuencia importante que P (·|B) cumple con las propiedades
básicas que probamos en el capítulo anterior, pues éstas son válidas para cualquier

4-3
probabilidad. Por ejemplo, vale que

P (Ac |B) = 1 − P (A|B) .

Esto no es cierto para la función que obtenemos cuando fijamos la primer variable

B 7→ P (A|B) .

Esta función se llama función de verosimilitud y será muy importante para nosotros
más adelante, pero no es una probabilidad.
Ejemplo 3
En el lanzamiento de un dado consideremos los eventos

A = {sale 6} y B = {sale un nro. par}.

Entonces
P (A|Bc ) = 0, y 1 − P (A|B) = 1 − 1/3 = 2/3,
por lo que P (A|Bc ) 6= 1 − P (A|B). 

La definición de probabilidad condicional se puede reformular de siguiente manera.

La regla del producto


Sean A y B dos eventos de un espacio muestral Ω, y supongamos que P (B) > 0.
La ecuación
P (A ∩ B) = P (B) P (A|B)
se llama regla del producto de probabilidades.

Ejemplo 4
Dos cartas se extraen de un mazo de poker. Sean los eventos

S1 = “la primera carta es de ♠” y S2 = “la segunda carta es de ♠”.

¿Cuánto vale P (S2 ∩ S1 )?


Por la regla del producto P (S2 ∩ S1 ) = P (S2 |S1 ) P (S1 ). Por un lado, como hay 13
cartas por palo, P (S1 ) = 13/52. Por otro, si la primera carta es de piques, de las 51
restantes en el mazo 12 son de piques. Por lo tanto P (S2 |S1 ) = 12/51. Luego

13 12 3
P (S2 ∩ S1 ) = · = .
52 51 51
Observar que el mismo resultado se obtendría contando directamente los pares de
cartas posibles. 

4-4
4-2. Eventos independientes

La probabilidad condicional mide la dependencia entre los eventos A y B, o mejor


dicho, cuánto influye B en la ocurrencia de A. Por ejemplo:
Si A y B son incompatibles, entonces P (A|B) = 0.
Si B está incluido en A, entonces P (A|B) = 1.
Estas son situaciones en las cuales la ocurrencia de B determina completamente la
ocurrencia (o no) de A. En este sentido los eventos son altamente dependientes.
Ejemplo 5
Elegimos un punto al azar en un cuadrado Ω. Fijemos el evento B como siendo la
mitad derecha del cuadrado. Consideremos el evento A que consiste en un rectán-
gulo dentro de Ω de lados paralelos a los ejes, y veamos cómo varía P (A|B) según
la posición de A.
P (A|B) < P (A) P (A|B) = P (A) P (A|B) > P (A)

A A A
B B B

Como B es fijo, en cualquiera de los tres casos Area(B) = 1/2 · Area(Ω).


En el primer caso, tenemos que Area(A ∩ B) = 1/4 · Area(A), por lo que

Area(A ∩ B) (1/4)Area(A) 1
P (A|B) = = = · P (A) .
Area(B) (1/2)Area(Ω) 2

En el segundo caso, como Area(A ∩ B) = 1/2 · Area(A), tenemos que

Area(A ∩ B) (1/2)Area(A)
P (A|B) = = = P (A) .
Area(B) (1/2)Area(Ω)

Y en el tercer caso, como Area(A ∩ B) = 3/4 · Area(A)

Area(A ∩ B) (3/4)Area(A) 3
P (A|B) = = = · P (A) .
Area(B) (1/2)Area(Ω) 2

En resumen, vemos que según la posición relativa de A con B, el evento B puede o

4-5
no favorecer la ocurrencia de A:

< P (A) por lo que B desfavorece la ocurrencia de A

P (A|B) = P (A) por lo que B no influye en la ocurrencia de A
> P (A) por lo que B favorece la ocurrencia de A

Notar que el segundo caso equivale a P (A ∩ B) = P (A) P (B). 

Definición de eventos independientes


Dos eventos A y B son independientes si P (A ∩ B) = P (A) P (B).

Ejemplo 6
Dos profesores de una lejana universidad toman un examen oral. Para calificar al
estudiante luego de su examen cada profesor debe elegir una nota, estas pueden ser
+1 o −1. La nota final del estudiante es la suma de las dos notas. Denotamos por
N1 la nota del primer profesor y N2 la del segundo.
Lamentablemente, los profesores de dicha universidad eligen la nota del estudiante
al azar, de acuerdo a las siguientes probabilidades:

eβ nm
P (N1 = n, N2 = m) = para n, m ∈ {−1, +1},
C
en donde β ≥ 0 es un parámetro que llamaremos interacción entre los profesores, y
C es una constante de normalización que hace la suma de las probabilidades igual
a uno. La coma que separa {N1 = n} de {N2 = m} indica la probabilidad de que
ambos eventos ocurran simultáneamente (i.e. la intersección).

n\m −1 +1
−1 eβ /C e−β /C
+1 e−β /C eβ /C
La tabla de arriba nos permite visualizar mejor estas probabilidades. Podemos cal-
cular C en función de β , ya que las probabilidades deben sumar uno:

eβ + e−β
2 = 1,
C
 
de donde C = 2 eβ + e−β .

4-6
Probabilidad
1/2

−1 +1
N1 = n

¿Cuáles son las probabilidades para N1 ? La nota N1 puede tomar solamente dos
valores, +1 o −1, y de la tabla vemos que

P (N1 = 1) = P (N1 = 1, N2 = 1) + P (N1 = 1, N2 = −1)


eβ + e−β 1
= = .
C 2
Del mismo modo se muestra que P (N1 = −1) = 1/2. Es como si el primer profesor
estuviera tirando una moneda honesta para elegir su nota.
Los mismos cálculos se pueden hacer para N2 , y vemos que
1
P (N2 = +1) = P (N2 = −1) = .
2
Es decir, las probabilidades para N1 y N2 son las mismas, cada profesor tira una mo-
neda para elegir la nota. Sin embargo, esta no es toda la historia, ¿son las monedas
independientes?
La tabla anterior nos sugiere que existe una dependencia entre N1 y N2 . De hecho si
calculamos las probabilidades condicionales vemos que

P (N1 = n, N2 = m) 2eβ nm
P (N1 = n|N2 = m) = = .
P (N2 = m) C

Si fueran independientes, esta probabilidad debería ser igual a P (N1 = n) = 1/2. Es


decir, se debería cumplir la ecuación

2eβ nm 1
= .
C 2
Sustituyendo C por el valor que calculamos antes, esta ecuación se transforma en

eβ nm 1
= .
e +e
β −β 2

4-7
Es fácil ver que esta ecuación se cumple solo para β = 0. Este caso es muy distinto
a los demás (cuando β > 0). De la ecuación anterior vemos que, cuando β = 0, para
todo par n, m ∈ {−1, +1} se cumple que

P (N1 = n, N2 = m) = P (N1 = n) P (N2 = m) .

En los otros casos las notas de los profesores son cada vez más dependientes entre sí
a medida que β crece. Esto lo podemos ver calculando por ejemplo la probabilidad
de que ambas sean iguales:


P (N1 = N2 ) = P (N1 = +1, N2 = +1) + P (N1 = −1, N2 = −1) = .
eβ + e−β

1
P (N1 = N2 )

1/2

De la figura podemos ver que P (N1 = N2 ) crece con β y de hecho tiende a 1 a


medida que β tiende a +∞. Para valores muy grandes de β la probabilidad de que N1
sea igual a N2 es muy cercana a uno. Claramente esto sugiere una fuerte dependencia
entre ambas notas.
En la figura que sigue se muestra una simulación con diez realizaciones del par
(N1 , N2 ) para los valores de β = 0 abajo y de β = 0,5 arriba. Un cuadrado en gris
significa que la nota ha sido +1 mientras que uno en blanco que ha sido −1.
β = 0,5
N2
N1
β =0
N2
N1

Para β = 0,5 la cantidad de veces en que N1 y N2 coinciden es muy superior que


para β = 0. 

4-8
4-3. El juego de Monty Hall

Es probable que muchos de ustedes ya lo conozcan. De todos modos es un juego


altamente pedagógico, así que lo estudiaremos en detalle.
Este juego está basado en el concurso televisivo estadounidense Let’s Make a Deal.
El concursante debe elegir una puerta entre tres, estando todas ellas cerradas. El pre-
mio consiste en llevarse lo que se encuentra atrás de la puerta elegida. Se sabe con
certeza que atrás de una de ellas hay un auto, y atrás de las otras dos hay chanchos1 .
Una vez que el concursante ha elegido una puerta y comunicado su elección al pre-
sentador, éste que sabe lo que hay atrás de cada puerta, abre una de las otras dos
en la que haya un chancho. A continuación, le da la opción al concursante de cam-
biar, si lo desea, de puerta entre las dos opciones restantes. ¿Debe el concursante
mantener su elección original o elegir la otra puerta?

1 2

Para dar una respuesta, es importante ser claros en el protocolo que sigue el presen-
tador. Hay tres suposiciones básicas:
el presentador siempre abre una puerta,
la elige entre las restantes después de que el concursante elige la suya,
atrás de esta siempre hay un chancho.
Aunque se puede razonar de forma más simple, haremos algo bastante complicado
para que no queden dudas sobre la mejor estrategia para el problema.
Representaremos las puertas por los números 1, 2 y 3. Consideremos como espacio
muestral las 4-úplas de números

Ω = {ω = (x, y, z,t) : x, y, z ∈ {1, 2, 3} con z 6= y, z 6= x y t ∈ {0, 1}} ,

en donde x representa la puerta en la que está el auto, y la puerta que elige el con-
cursante inicialmente, z la puerta que abre el presentador, y t es 1 si el concursante
decide cambiar de puerta y 0 si no cambia. Las condiciones z 6= x y z 6= y represen-
tan que el presentador abre una puerta diferente a la que eligió el concursante y que
ésta tiene un chancho.
1 Esta es la versión de El Show del Mediodía, en la versión original hay cabras en lugar de chan-
chos.

4-9
Todo es bastante claro hasta el momento en el que el presentador nos pregunta si
queremos cambiar de puerta. Si nos olvidamos por un instante de esto, las ternas
posibles para el juego son
1, 1, 2 2, 2, 1 3, 3, 1
1, 1, 3 2, 2, 3 3, 3, 2
1, 2, 3 2, 1, 3 3, 1, 2
1, 3, 2 2, 3, 1 3, 2, 1
En esta tabla, las primeras dos filas muestran los casos en los que el presentador
tiene dos opciones para abrir una puerta. Una vez que elegimos cambiar o no de
puerta, el espacio muestral se completa y queda
No cambiamos Cambiamos
1, 1, 2, 0 2, 2, 1, 0 3, 3, 1, 0 1, 1, 2, 1 2, 2, 1, 1 3, 3, 1, 1
1, 1, 3, 0 2, 2, 3, 0 3, 3, 2, 0 1, 1, 3, 1 2, 2, 3, 1 3, 3, 2, 1
1, 2, 3, 0 2, 1, 3, 0 3, 1, 2, 0 1, 2, 3, 1 2, 1, 3, 1 3, 1, 2, 1
1, 3, 2, 0 2, 3, 1, 0 3, 2, 1, 0 1, 3, 2, 1 2, 3, 1, 1 3, 2, 1, 1
De cierta forma, la pregunta consiste en elegir si poner un 0 o un 1 al final de las
ternas. Podemos elegir hacer siempre lo mismo, por ejemplo si ponemos siempre
un 0 estamos diciendo que no cambiaríamos nunca de puerta, y recíprocamente si
ponemos siempre un 1 estamos diciendo que cambiaríamos siempre. Pero también
puede ser interesante considerar estrategias en las cuales a veces ponemos un 0 y a
veces un 1.
Naturalmente lo ideal sería poner un 0 cuando hemos elegido la puerta con el auto y
1 cuando no. Sin embargo esa información no la disponemos cuando jugamos. Así
que supondremos que una vez que el presentador abre la puerta y nos pregunta si
queremos cambiar, elegimos cambiar con probabilidad p ∈ [0, 1]. Si p = 0 nuestra
estrategia es no cambiar nunca, y si p = 1 nuestra estrategia es cambiar siempre.
Para los p intermedios, a veces cambiaremos y a veces no.
Para asignar probabilidades a las 4-úplas de la tabla procedemos de la siguiente
manera. Es claro que el auto puede estar en cualquiera de las tres puertas, y las
tres son equiprobables. Luego, la primer coordenada de la 4-úpla toma los valores
1, 2 y 3 con probabilidad 1/3. Lo mismo podemos decir de la puerta que elige el
concursante.
El punto delicado está cuando asignamos probabilidades para la puerta que abre el
presentador. En la tercera y cuarta fila no hay ambigüedad ya que el presentador solo
tiene una opción posible, y por lo tanto la elige con probabilidad 1. Sin embargo, en
las primeras dos filas el presentador tiene dos opciones. Supondremos que elige la
puerta que va a abrir al azar con probabilidad 1/22 .
En resumen, si asumimos que todas las desiciones hechas por el presentador y el
participante son independientes, las 4-úplas tienen las probabilidades
2 Se podría cambiar el protocolo del presentador para que esto no sea más así.

4-10
3 × 3 × 2 × (1 − p) 3×3×2×p
1 1 1 1 1 1

3 × 3 × 1 × (1 − p) 3 × 3 ×1× p
1 1 1 1

en donde la división horizontal corresponde a las primeras dos filas y la división


vertical a si cambiamos o no.
Podemos verificar que las probabilidades suman 1. Como tenemos seis 4-úplas en
cada bloque, resulta
6 6 6 6
(1 − p) + (1 − p) + p + p = 1.
18 9 18 9
¿Cuál es la probabilidad de ganar el auto? Basta notar que las 4-úplas ganadoras
son las que están en los bloques de la diagonal:

3 × 3 × 2 × (1 − p) 3×3×2×p
1 1 1 1 1 1

3 × 3 × 1 × (1 − p) 3 × 3 ×1× p
1 1 1 1

Por tanto, la probabilidad de ganar es


1 2 1 1
G(p) = × (1 − p) + × p = + × p.
3 3 3 3
En particular, G(0) = 1/3 y G(1) = 2/3. Es decir, si no cambiamos nunca tenemos
1/3 de chances de ganar, y si cambiamos siempre tenemos 2/3 de chances de ganar.
Más aún, si cuando el presentador nos pregunta si queremos cambiar de puerta,
tiramos una moneda para ver si cambiamos o no (p = 1/2), entonces tenemos 1/2
de chances de ganar.
G(p)
2/3

1/3

p
0 1

La función G(p) es una función lineal cuyo gráfico se muestra en la figura arriba.
Notar que la probabilidad de ganar se maximiza si nuestra estrategia es cambiar
siempre (p = 1).

4-11
Clase 5
El teorema de Bayes

5-1. Fórmula de la probabilidad total


5-2. Experimentos secuenciales y árboles
5-3. Invirtiendo probabilidades condicionales
5-4. Un casino Bayesiano

5-1. Fórmula de la probabilidad total

La fórmula de la probabilidad total junta la Regla 2 de los axiomas de Kolmogo-


rov con la regla del producto para calcular probabilidades. Comencemos con una
situación simple, en la que el espacio muestral está dividido en dos casos mutua-
mente excluyentes C1 y C2 . Nuestro interés es calcular la probabilidad de un evento
A cualquiera.

C1 ∩ A C2 ∩ A

C1 C2

Como Ω = C1 ∪C2 , y esta unión es disjunta, podemos particionar el evento A como


A = (C1 ∩ A) ∪ (C2 ∩ A). Luego, por la Regla 2, la probabilidad de A se descompone
como P (A) = P (C1 ∩ A)+P (C2 ∩ A). Por la regla del producto para probabilidades,
podemos reescribirla como

P (A) = P (A|C1 ) P (C1 ) + P (A|C2 ) P (C2 ) . (5.1)

Esta ecuación representa un caso particular de la fórmula de la probabilidad total.

5-1
Ejemplo 1
Una urna contiene 5 bolas rojas y 2 bolas verdes. Dos bolas se extraen de la urna,
una a la vez. ¿Cuál es la probabilidad de que la segunda bola sea roja?
Vamos a resolver el problema de dos formas distintas. Si bien las bolas son idénticas
entre sí, excepto por el color, podemos numerarlas para distinguirlas sin afectar las
probabilidades de extracción. La urna consiste entonces de las bolas
Urna = r1 r2 r3 r4 r5 v1 v2
El espacio muestral es entonces

Ω = {(x, y) : x 6= y ∈ U}.

Sean los eventos


R1 = “la primera bola es roja”
V1 = “la primera bola es verde”
R2 = “la segunda bola es roja”
V2 = “la segunda bola es verde”.
Se nos pide calcular P (R2 ).
La forma rápida de calcular esto es con el siguiente razonamiento: cada bola tiene
igual chance de ser la segunda bola. Como 5 de las 7 bolas son rojas, P (R2 ) =
5/7. La probabilidad P (R2 ) = 5/7 puede parecer sorprendente ya que el color de
la primera bola afecta ciertamente las probabilidades para la segunda bola. Para
convencernos hagamos el conteo directo: la cantidad de pares de Ω en los cuales y
es roja es 6 · 5, pues hay 5 posibilidades rojas para la segunda bola, y por cada una
de ellas hay 6 posibilidades para la primera (recordar que no importa el orden en el
que llenamos los casilleros en la regla del producto). El cardinal de Ω es 6 · 7, por
lo que obtenemos la misma probabilidad de (6 · 5)/(6 · 7) = 5/7. Otra forma de ver
esto es: si no se nos da el color de la primera bola, entonces debemos considerar
todas las posibilidades para la segunda bola.
Calculemos este mismo valor usando la fórmula de la probabilidad total (5.1). Pri-
mero, encontraremos las probabilidades condicionales. Este es un ejercicio de con-
teo simple:
P (R2 |R1 ) = 4/6, P (R2 |V1 ) = 5/6.
Como R1 y V1 particionan el espacio muestral (juegan el papel de C1 y C2 en 5.1),
tenemos que
4 5 5 2 30 5
P (R2 ) = P (R2 |R1 ) P (R1 ) + P (R2 |V1 ) P (V1 ) = · + · = = . (5.2)
6 7 6 7 42 7


El ejemplo anterior de urnas es un clásico y su uso se remonta a los orígenes de

5-2
la probabilidad como disciplina. Es un modelo de juguete con muchísimas aplica-
ciones a situaciones reales. Citamos de Wikipedia: http://en.wikipedia.
org/wiki/Urn_problem
En probabilidad y estadística, un problema de urna es un ejercicio men-
tal idealizado en el que algunos objetos de interés real (como átomos,
personas, automóviles, etc.) se representan como bolas de colores en
una urna u otro recipiente. Uno extrae una o más bolas de la urna y
el objetivo es determinar la probabilidad de extraer un color u otro, o
algunas otras propiedades.
No se necesita mucho para hacer un ejemplo donde (5.1) sea realmente la mejor
manera de calcular la probabilidad. He aquí un juego con reglas un poco más com-
plicadas.
Ejemplo 2
Una urna contiene 5 bolas rojas y 2 bolas verdes. Se extrae una bola. Si es verde,
se agrega una bola roja a la urna y si es roja se agrega una bola verde a la urna. (La
bola original no se vuelve a poner en la urna). Luego, se extrae una segunda bola.
¿Cuál es la probabilidad de que la segunda bola sea roja?
La fórmula de probabilidad total dice que P (R2 ) se puede calcular utilizando la ex-
presión en la ecuación (5.2). Solo los valores para las probabilidades condicionales
cambiarán. Tenemos

P (R2 |R1 ) = 4/7, P (R2 |V1 ) = 6/7.

Por lo tanto
4 5 6 2 32
P (R2 ) = P (R2 |R1 ) P (R1 ) + P (R2 |V1 ) P (V1 ) = · + · = .
7 7 7 7 49
Es en este tipo de ejemplo en donde se ve claramente el potencial de (5.1). 

5-2. Experimentos secuenciales y árboles

Los experimentos secuenciales son aquellos que constan de varias etapas, en donde
el resultado de la i-ésima etapa depende de las etapas anteriores. En los experimen-
tos secuenciales resulta útil dibujar árboles para llevar un registro de las probabi-
lidades en cada etapa. Veamos algunos ejemplos sencillos para ver cómo funciona
esta idea.
Ejemplo 3
Dos cajas tienen productos de una cierta industria. Una caja contienen un producto
bueno y uno defectuoso. La otra caja contiene 4 productos buenos y 2 defectuosos.
Se elige al azar una caja, de la cual también al azar se extrae un producto. Calcular

5-3
la probabilidad de que el producto extraído resulte bueno.
Para empezar, construimos un árbol en el cual los nodos del primer nivel representan
las cajas y los del segundo la calidad del producto.
1
Caja 2
2 D probabilidad 12 · 26
1
2 4B, 2D B probabilidad 12 · 46
4
∗ 6 1
1 Caja 1
2 D probabilidad 12 · 12
2
1B, 1D B probabilidad 12 · 12
1
2

Las aristas contienen etiquetas que representan la probabilidad del evento determi-
nado por el nodo del árbol. Cuando seguimos un camino desde la raíz del árbol
(∗) hasta un nodo terminal, obtenemos una realización particular de un determina-
do evento. Si multiplicamos las probabilidades que aparecen como etiquetas de las
aristas del camino obtenemos la probabilidad de dicho evento.
Así, es fácil calcular la probabilidad del evento A = {el producto es bueno}. Basta
sumar las probabilidades de todos los caminos que terminan en nodos con una B:
 
1 1 4 7
+ = .
2 2 6 12

¿Cómo podemos justificar este cálculo? Podemos considerar los eventos

C1 = {se elige la caja 1} y C2 = {se elige la caja 2}.

Éstos forman una partición del espacio muestral. Notar que no hemos tenido nece-
sidad de definir el espacio muestral, esta es la gran ventaja de (5.1). Las probabili-
dades condicionales son
1 4 1
P (A|C1 ) = , P (A|C2 ) = , y P (Ci ) = ,
2 6 2
y por la fórmula de la probabilidad total resulta
 
1 1 4 7
P (A) = P (A|C1 ) P (C1 ) + P (A|C2 ) P (C2 ) = + = .
2 2 6 12

Ejemplo 4
Una moneda sesgada (con probabilidad de obtener cara igual a p > 0) se lanza
repetidamente hasta que salga cara. Calcular la probabilidad de que la primer cara
aparezca en un número par de intentos.

5-4
Este ejemplo ya lo hemos visto, pero ahora lo resolveremos usando árboles. Sean
A = “se lanza la moneda un número par de veces”
B = “sale cara en el primer lanzamiento”.
Construyamos un árbol como en los ejemplos anteriores:
c c
P (A |B ) Ac (1 − p) · P (Ac |Bc )
Bc
1− p P (A|B c) A (1 − p) · P (A|Bc )

p 1 Ac p · 1
B
0 A p·0

El dato que nos falta es P (A|Bc ). Sin embargo, notar que el experimento continua
si el primer lanzamiento resulta en cruz. Como lo que ocurre después del primer
lanzamiento es independiente del mismo, es como si el experimento comenzara
nuevamente. Lo que cambia es que para que A ocurra debe salir cara en una cantidad
impar de lanzamientos (contando a partir del segundo). Luego P (A|Bc ) = P (Ac ) =
1 − P (A). Entonces

P (A) = P (A|B) P (B) + P (A|Bc ) P (Bc ) = P (A|Bc ) P (Bc )


= (1 − P (A))P (Bc ) = (1 − P (A))(1 − p)

De aquí podemos despejar P (A) para obtener

1− p
P (A) = .
2− p

Notar que si p = 1/2 entonces P (A) = 1/3 como habíamos calculado antes. 

Aunque el experimento no sea secuencial, podemos usar árboles para organizar los
cálculos y que éstos resulten más sencillos.
Ejemplo 5
En cierta población hay un 30 % de fumadores. Se sabe que la probabilidad de
enfermarse de cáncer de pulmón es igual a 0,1 para los fumadores y 0,01 para los
no fumadores. Calcular la probabilidad de que una persona elegida al azar en la
población se enferme de cáncer de pulmón.
Denotemos por F el evento ser fumador, por NF el de no ser fumador, y por C el de
enfermarse de cáncer. Lo mejor es hacer un árbol:

5-5
0,99 NC proba = 0,7 · 0,99
NF
0,7 C proba = 0,7 · 0,01
0,01

0,9 NC proba = 0,3 · 0,9
0,3
F
0,1 C proba = 0,3 · 0,1

Entonces

P (C) = P (C|F) P (F) + P (C|NF) P (NF) = 0,1 · 0,3 + 0,01 · 0,7 = 0,037.

Para resumir, enunciemos la fórmula de la probabilidad total en su versión general.


Fórmula general de la probabilidad total
Sean C1 ,C2 , . . . , una partición numerable de Ω cuyos eventos tienen probabili-
dades positivas. Sea A un evento cualquiera. Entonces

P (A) = ∑ P (A|Ci ) P (Ci ) . (5.3)
i=1

Demostración. La prueba sigue el mismo razonamiento que usamos para (5.1). No-
i=1 Ci . Luego, podemos descomponer el evento A como
tar primero que Ω = ∞
S


A = A∩Ω =
[
(A ∩Ci ).
i=1
Al aplicar probabilidades, como los eventos Ci ’s son disjuntos dos a dos, obtenemos
!

[ ∞ ∞
P (A) = P (A ∩Ci ) = ∑ P (A ∩Ci ) = ∑ P (A|Ci ) P (Ci ) .
i=1 i=1 i=1

En la última igualdad hemos usado la regla del producto P (A ∩Ci ) = P (A|Ci ) P (Ci ).

5-3. Invirtiendo probabilidades condicionales

Ya sabemos que las probabilidades condicionales no son simétricas, esto es P (A|B) 6=


P (B|A). Sin embargo, existe una relación entre ambas que aunque es simple, es muy
importante y se conoce como Teorema de Bayes.
Supongamos que A y B son dos eventos con probabilidades positivas. Reescribiendo
la definición de probabilidad condicional tenemos que
P (A ∩ B) = P (A|B) P (B) y P (A ∩ B) = P (B|A) P (A) .

5-6
Como los miembros de la izquierda son iguales en ambos casos, obtenemos la igual-
dad siguiente:
P (A|B) P (B) = P (B|A) P (A) . (5.4)
Esta relación permite escribir una probabilidad condicional en función de la otra.
Podemos visualizarla de la siguiente manera:

× = = ×

P (A|B) P (B) P (A ∩ B) P (B|A) P (A)

Esta relación junto con la fórmula de la probabilidad total (5.3) dan como resultado
lo que se conoce como la fórmula de Bayes.

Fórmula de Bayes
Sean C1 ,C2 , . . . , una partición numerable de Ω cuyos eventos tienen probabili-
dades positivas. Sea A un evento con probabilidad positiva. Entonces

P (Ck ) P (A|Ck )
P (Ck |A) = ∞ . (5.5)
∑i=1 P (Ci ) P (A|Ci )

Demostración. Usando la fórmula de inversión de probabilidades condicionales


(5.4) tenemos que
P (A|Ck ) P (Ck )
P (Ck |A) = .
P (A)
De la fórmula de la probabilidad total sabemos que P (A) = ∑∞ i=1 P (A|Ci ) P (Ci ).
Reemplazando esta última en la ecuación anterior obtenemos (5.5).

Ejemplo 6
En una primera urna se tienen 2 bolas blancas y 1 negra, y en una segunda, 2 negras
y 1 blanca. Se elige al azar una urna, y de ella también al azar se extrae una bola.
¿Cuál es la probabilidad de que la urna elegida haya sido la segunda, dado que la
bola extraída es blanca?
Denotemos por Ui el evento “se elige la urna i” para i = 1 y 2. Entonces

P (blanca|U2 ) P (U2 )
P (U2 |blanca) =
P (blanca|U1 ) P (U1 ) + P (blanca|U2 ) P (U2 )
1/3 · 1/2
= = 1/3.
2/3 · 1/2 + 1/3 · 1/2

En este caso, en dónde las urnas y las bolas son equiprobales, podemos entender
mejor el cálculo usando un árbol de posibilidades.

5-7
N proba 1/6
1/3
1/3
U2 N proba 1/6
1/3
1/2
B proba 1/6

N proba 1/6
1/2 1/3
1/3
U1 B proba 1/6
1/3

B proba 1/6

Notar que de las 3 blancas, solo hay una que proviene de la urna 2, por eso la
probabilidad condicional es 1/3. En general, el método del árbol de posibilidades
funciona igual, pero debemos ponderar con las respectivas probabilidades condicio-
nales. 

Una falacia conocida en probabilidad, la falacia de la frecuencia base, muestra que


es fácil confundir el significado de P (B|A) y P (A|B) cuando una situación se des-
cribe con palabras. Este es uno de los ejemplos clave de probabilidad condicional,
al punto que será básico para la correcta interpretación de conceptos estadísticos
que veremos más adelante. Es importante entenderlo a fondo.
Ejemplo 7
Un test de drogas produce 99 % verdaderos resultados positivos para los consumi-
dores de una determinada droga y 99 % verdaderos resultados negativos para los no
consumidores. Supongamos que el 0,5 % de la población son consumidores de la
droga. Si una persona elegida al azar resulta positivo, ¿cuál es la probabilidad de
que sea un consumidor?
Denotemos por + y − los eventos “resultado positivo” y “resultado negativo” res-
pectivamente, y por C y NC los eventos “es consumidor” y “no es consumidor”.
Entonces
P (+|C) P (C)
P (C|+) =
P (+|C) P (C) + P (+|NC) P (NC)
0,99 · 0,005
= = 0,332 ≈ 33 %.
0,99 · 0,005 + 0,01 · 0,995
Notar que aunque los tests son muy efectivos, pues producen falsos resultados con
muy baja probabilidad, la probabilidad de ser consumidor dado que el test es posi-
tivo es más bien baja. Este resultado es un poco paradójico, y se explica porque hay

5-8
poca población que es consumidora de la droga.
Una buena forma de visualizar esto es usando árboles como habíamos hecho antes.
Imaginemos una población de 100 000 personas. En ésta, 0,5 % serán consumidores
de la droga:

99 % − total 98505
9,5 % NC
9 99 500 + total 995
1%
100 000
1% − total 5
0,5 %
C 500
99 % + total 495

Completando el árbol vemos que el total de personas que esperamos sean positivas
en el test es 495 + 995 = 1490. De estos, solamente
495
≈ 0,33
1490
son consumidores de la droga.

1
P (C|+)

1/2

p
0 1/4

¿Qué pasa si variamos la proporción de gente que consume la droga? Supongamos


que en lugar de 0,5 % el porcentaje de consumidores de la droga es p × 100 %. En
este caso la probabilidad resulta
0,99 · p
P (C|+) = .
0,99 · p + 0,01 · (1 − p)

En el gráfico de la derecha vemos P (C|+) en función de p. Notar cómo decae


rápidamente a medida que p se hace cada vez menor.

Para pensar: ¿Cuanto debe ser la proporción de consumidores de la droga para que
la probabilidad P (C|+) = 0,99? 

Esto se conoce como la falacia de la frecuencia base porque la frecuencia base de


consumidores en la población es tan baja que la gran mayoría de las personas que
toman la prueba no lo son, e incluso con una prueba tan precisa, la mayoría de los
positivos serán personas que no consumen.

5-9
Para resumir la falacia de la frecuencia base con números específicos:
el 99 % de todas las pruebas son correctas, no implica que el 99 % de
las pruebas positivas sean correctas.
Nos referiremos a este ejemplo bastante seguido. Este y otros ejemplos similares
están en el corazón de muchos malentendidos estadísticos.
Ejemplo 8
Otro truco que es útil para calcular probabilidades es hacer una tabla. Vamos a
rehacer el ejemplo anterior utilizando una tabla construida con 100000 personas
totales dividida de acuerdo con las probabilidades del ejemplo.
Construimos la tabla de la siguiente manera. Las 10000 personas forman el total
general en la esquina inferior derecha. Utilizando P (C) = 0,05, calculamos que
500 de las 100000 personas son consumidoras. Asimismo, 99950 personas no lo
son. En este punto la tabla se ve como:

C NC total
+
-
total 500 99500 100000

Usando P (+|C) = 0,99 podemos calcular que el número de consumidores con re-
sultado positivo es el 99 % de 500 o 495. Las otras entradas son similares. En este
punto, la tabla se ve como

C NC total
+ 495 995
- 5 98505
total 500 99500 100000

Finalmente, sumamos las filas + y − para obtener la tabla completa

C NC total
+ 495 995 1490
- 5 98505 98510
total 500 99500 100000

Usando la tabla completa calculamos

|C ∩ +| 495
P (C|+) = = = 33 %
|+| 1490

La siguiente figura ilustra la falacia de la frecuencia base. La gran zona azul re-
presenta a todas las personas no consumidoras. El área roja mucho más pequeña
representa a los consumidores. El rectángulo sombreado representa a las personas

5-10
que dan positivo. El área sombreada cubre la mayor parte del área roja y solo una
pequeña parte del área azul. Aun así, la mayor parte del área sombreada es sobre el
azul. Es decir, la mayoría de las pruebas positivas son de personas no consumidoras.
Positivo/Negativo

Consumen/No consumen

5-4. Un casino Bayesiano

Carla y Walter están jugando a un juego en el que la primera persona que consigue
6 puntos gana. La forma en que cada punto se decide es un poco extraña.
El Casino tiene 17 urnas que Carla y Walter no pueden ver pues se encuentran es-
condidas en un depósito. Las urnas contienen bolas blancas y negras, en diferentes
proporciones. Si imaginamos que las urnas están numeradas del 0 al 16, la i-ésima
urna tiene i bolas blancas y 16 − i bolas negras. Así, la urna 0 tiene todas las bo-
las negras, mientras que la urna 16 tiene todas las bolas blancas, y el resto de las
urnas tiene cantidades intermedias de bolas blancas y negras. A excepción de la
proporción de bolas blancas y negras, las urnas son idénticas entre sí.
Antes de que empiece el juego el Casino elige una de las urnas al azar. Luego, cada
punto es decidido al azar de la siguiente manera: se extrae una bola de la urna, si la
bola es blanca, Carla gana el punto; si es negra, Walter gana el punto. Luego la bola
se vuelve a poner en la urna y se extrae otra bola, y así sucesivamente.
Claramente, la probabilidad de que Carla gane un punto es igual a la proporción de
bolas blancas en la urna. Llamemos a esta probabilidad p, por lo que la probabilidad
de que Walter gane un punto es 1 − p. Debido a que el Casino eligió al azar la urna

5-11
con la cual jugar, cada valor de p es igualmente probable. La urna solo se elige al
principio del juego, por lo que p es el mismo para cada punto.
Supongamos que Carla ya está ganando 5 puntos a 3. ¿Cuál es la probabilidad de
que Carla gane?
punto para Walter

Ui

punto para Carla

La proporción p de bolas blancas en la urna es una variable aleatoria, y puede tomar


cualquiera de los valores
i
pi = para i = 0, 1, . . . , 16.
16
La respuesta es fácil si conocemos el valor de p. De hecho, para un valor de p
determinado, la probabilidad de que Walter gane el juego es (1 − p)3 ya que si los
siguientes tres puntos no son para él, entonces Carla gana el juego. Por tanto la
probabilidad de que Carla gane es

1 − (1 − p)3 .

Sin embargo, el verdadero valor de p no lo sabremos nunca con certeza. Uno está
tentado a usar la información dada para adivinar un valor de p. Sin embargo, esto
sería erróneo, y podemos calcular la probabilidad de que Carla (o Walter que es más
fácil) gane el juego, sin adivinar directamente el valor de p.
Sabemos que se han jugado 8 turnos, y que Carla tiene 5 puntos y Walter 3. En otras
palabras, sabemos que el evento

D = {se juegan al menos 8 turnos, Carla tiene 5 puntos y Walter 3}

ha ocurrido.
Comencemos por calcular la probabilidad de D. Usando la fórmula de la probabili-
dad total, tenemos que
16
P (D) = ∑ P D p = pi P (p = pi ) .

i=0

Si p = pi la probabilidad de que Carla gane 5 puntos y Walter 3 es


 
8 5
P D p = pi = p (1 − pi )3 .

5 i

5-12
Esta fórmula la podemos obtener razonando de la siguiente manera: el juego puede
transcurrir de varias formas, pero en total sabemos que debe darse una serie de
resultados del tipo (W,C,C,W,C,W,C,C), en donde la letra C significa que el punto
fue para Carla y la letra W que fue para Walter. Como la probabilidad de que el
punto sea para Carla es pi y la probabilidad de que el punto sea para Walter es
1 − pi (estamos asumiendo que p = pi ), vemos que cada una de estas secuencias
tiene probabilidad p5i (1 − pi )3 . Resta entonces contar cuántas secuencias distintas
hay. Sabemos que tiene largo 8, 5 letras C y 3 letras W . Sin embargo, eligiendo
los lugares de las letras C quedan determinados los lugares de las letras W . Esto se
puede hacer de 85 formas distintas.
Además sabemos que el Casino elige la urna al azar, por lo que P (p = pi ) = 1/17.
Juntando ambas cosas obtenemos

1 8 16 5 1 1 8 16 5
   
P (D) =
17 5 i=0∑ pi (1 − pi) = 17 168 5 ∑ i (16 − i)3.
3
i=0

Esta fórmula es un poco asustadora pero una computadora la puede calcular sin
problemas.
Ahora podemos usar el teorema de Bayes para calcular la probabilidad de que p
sea igual a p j , dados los puntos de Carla y Walter (esto es dado D). Aplicando la
fórmula obtenemos:
 P D p = p j P p = p j
 
P p = p j D =
P (D)

Sustituyendo los valores que hemos calculado más arriba, la probabilidad de que p
sea igual a p j queda

j5 (16 − j)3
P p = p j D =

.
i=0 i (16 − i)
∑16 5 3

Podemos graficar el lado derecho en función de j para ver cuál es el valor más
probable de p.
P (p = p j |D)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
j

Notar que el máximo de P p = p j |D se da en j = 10, lo cual corresponde a p =




p10 = 5/8. Este sería el valor más probable para p dado los datos D del juego que
tenemos hasta el momento, y si la pregunta hubiera sido “adivinar con qué urna

5-13
están jugando” la mejor respuesta sería “con la urna 10”. Podríamos estimar así la
probabilidad de que Carla gane el juego como

1 − (1 − 5/8)3 ≈ 0,947.

Pero esta estimación está un poco por arriba del verdadero valor. Para calcularla
correctamente usaremos de nuevo la fórmula de la probabilidad total:
16
gane C|p = p j , D P p = p j |D
 
P (gane C|D) = ∑P
j=0
16
1 − (1 − p j )3 P p = p j |D .
 
= ∑
j=0

De nuevo, aunque las cuentas son asustadoras, una computadora las hace en menos
de un segundo. El resultado es P (gane C|D) = 0,909.
Para aquellos que no confían mucho en las cuentas que hicimos, este es un buen
ejemplo en el cual la simulación por computadora nos puede ayudar. Para forzar
la ocurrencia del evento D simplemente debemos olvidarnos de aquellas veces en
las cuales D no ocurre. Para cada simulación en la cual D sí ocurre, vemos si Carla
efectivamente gana el juego. Así, contamos el total de veces que Carla gana el juego
entre aquellas veces en que D ha ocurrido, y la frecuencia relativa aproximará, si
repetimos muchas veces el juego, la probabilidad de que Carla gane (dado D).
0.95
0.90
Frec. Rel. gana Carla

0.85
0.80
0.75

0 5000 10000 15000 20000

Ensayo

En la figura de arriba hicimos la simulación del juego 200 000 veces. Entre estas,
23 792 veces el evento D ocurrió. La frecuencia relativa de veces, entre estas 23 792,

5-14
en las cuales Carla ganó el juego fue de 0,908. El gráfico muestra cómo fue cam-
biando la frecuencia relativa a medida que la computadora iba jugando. La linea
horizontal roja es el valor más probable de p que calculamos anteriormente (0,947).
La linea punteada a la cual convergen las frecuencias relativas es 0,909.

5-15
Clase 6
El teorema de Bernoulli

6-1. Ensayos de Bernoulli: una historia de monedas, éxitos y fracasos


6-2. La moneda justa (p = 1/2)
6-3. El caso general
6-4. ¿Qué tan chicas son las colas?
6-5. El teorema de Bernoulli

6-1. Ensayos de Bernoulli: una historia de monedas,


éxitos y fracasos

Hasta ahora hemos estado calculando probabilidades sin preocuparnos demasiado


por la relación que éstas puedan tener con la realidad. Sin meternos demasiado
en asuntos filosóficos, en esta sección vamos a probar un teorema, originalmente
demostrado por Jakob Bernoulli en 1713, que nos dice que las probabilidades se
pueden calcular a partir de frecuencias relativas cuando uno repite un experimento
un número suficientemente grande de veces. Desde su nacimiento el teorema ha
llevado el pomposo nombre de Ley de los grandes números (LGN).
La idea detrás del enunciado es muy intuitiva, y es probable que no sorprenda mu-
cho. Consideremos un cierto evento A de un experimento aleatorio dado, y llame-
mos p a su probabilidad. El teorema de Bernoulli dice que
si repetimos el experimento un número n grande de veces, y si calcu-
lamos el cociente Fn entre el número de veces que A ocurre sobre n,
entonces con probabilidad muy alta Fn estará cerca de p.
En esta clase vamos a introducir varios conceptos que volveremos a estudiar más
adelante en detalle. Lo haremos en el contexto muy simple pero que nos servirá de
vista previa para lo que se viene.
Si repetimos n veces el experimento, siempre bajo las mismas condiciones y de
forma tal que los ensayos sean independientes, podemos llevar un registro de las
ocurrencias de A utilizando secuencias de 00 s y 10 s. Cada vez que A ocurre ponemos

6-1
un 1, y cada vez que A no ocurre ponemos un 0. Así obtenemos un nuevo espacio
muestral
Ωn = {(X1 , . . . , Xn ) : Xi ∈ {0, 1}} ,
en donde la coordenada Xi indica si el evento A ha ocurrido en el i-ésimo ensayo.
Para dramatizar un poco la historia, llamaremos “éxito” a la ocurrencia de A y “fra-
caso” a lo contrario. Resulta así que podemos olvidarnos del evento A, e imaginar
que lanzamos una moneda sesgada, que en lugar de cara y cruz tiene escrito es sus
lados las palabras “éxito” y “fracaso”. La probabilidad del lado “éxito” es p.
¿Qué probabilidad debemos asignar a cada secuencia? La probabilidad de que la
coordenada Xi sea igual a 1 es p, y la probabilidad de que Xi sea 0 es 1 − p. Como
los ensayos son independientes, las probabilidades se multiplican, de modo que la
probabilidad de una secuencia de Ωn es igual a pk (1 − p)n−k , en donde k es la
cantidad de coordenadas Xi que son iguales a 1, y por lo tanto n − k es igual a la
cantidad de coordenadas Xi que son iguales a 0.
La cantidad de éxitos es igual a la suma de las coordenadas Xi , que llamaremos

Sn = X1 + · · · + Xn . (6.1)

Con esta definición la frecuencia relativa se escribe Fn = Sn /n.


Para cada k ∈ {0, . . . , n}, consideremos el evento
n o
secuencias de Ωn tales que la cantidad
Ek = {Sn = k} = de coordenadas iguales a 1 es k .

¿Cuál es la probabilidad pk = P (Sn = k)? Como cada secuencia en Ek tiene proba-


bilidad pk (1 − p)n−k , basta multiplicar este número por la cantidad de secuencias
en Ek . Hay k unos en n lugares, y basta elegir los lugares en donde ponerlos. Así el
n
cardinal de Ek es k . Luego

n k
 
P (Sn = k) = pk = p (1 − p)n−k . (6.2)
k
Este modelo se llama distribución binomial. El número pk es la probabilidad de que
ocurran k éxitos en n ensayos independientes.

6-2. La moneda justa (p = 1/2)

Cuando p = 1/2 se trata de la moneda justa que hemos estado usando en algunos
de los ejemplos. La LGN predice en este caso que el número de éxitos será parecido
al de fracasos, al menos cuando n es grande. Pero ¿cuál es la probabilidad de que
ambos sean iguales? Primero que nada, esta probabilidad es cero a no ser que n sea
par. Pongamos entonces n = 2m y llamemos a esta probabilidad qm .

Responder intuitivamente: ¿qué ocurre con qm a medida que m crece? ¿Es cada vez
más grande?

6-2
Comencemos con m = 1. Si lanzamos dos veces la moneda, misma cantidad de
éxitos que fracasos quiere decir uno de cada: EF o FE. Como cada una tiene pro-
babilidad 1/4 tenemos q1 = 1/2. Para m = 2 sirven 6 secuencias de 16, por lo que
q2 = 3/8. En general, deben haber m éxitos en 2m ensayos, por lo que de la ecuación
(6.2) resulta  
2m 1
qm = P (S2m = m) = . (6.3)
m 22m
Este número parece un poco intratable. La siguiente tabla muestra los primeros 5
valores. Para facilitar las comparaciones, en la última fila se especifican las proba-
bilidades en forma de fracciones con el mismo denominador. Se puede observar que
las probabilidades disminuyen a medida que aumenta el número de lanzamientos,
por lo menos en la parte de la serie que aparece en la tabla.

2m 2 4 6 8 10
qm 1/2 3/8 5/16 35/128 63/256
Denominador 128/256 96/256 80/256 70/256 63/256
común

Siempre es útil detectar la existencia de patrones. Al pasar de dos lanzamientos a


cuatro, la segunda respuesta (3/8) es 3/4 por la primera (1/2). De cuatro lanzamien-
tos a seis, la segunda respuesta (5/16) es 5/6 por la primera (3/8); análogamente,
de seis a ocho, el factor es 7/8. Los factores sucesivos son:

3/4, 5/6, 7/8.

¡Qué maravilla! 3,4,5,6,7,8: es algo más que una simple coincidencia. Con un poco
de fe, podemos predecir, que al pasar de ocho a diez lanzamientos, la probabilidad
de obtener números iguales de éxitos y fracasos queda reducida en un factor 9/10.
Y así es, como puede verse en la tabla.
El patrón se mantiene para números más elevados, la probabilidad disminuye pro-
gresivamente. El siguiente valor se obtiene siempre multiplicando por una fracción
menor que uno:
1 3 5 2m − 1
qm = P (S2m = m) = · · · · · . (6.4)
2 4 6 2m
Los matemáticos de fines del renacimiento se fascinaban con este tipo de productos.
En 1655 el matemático John Wallis publicó la siguiente fórmula para π:
2 2 4 4 6 6 8 8 π
· · · · · · · ··· = . (6.5)
1 3 3 5 5 7 7 9 2

6-3
Para ser más precisos, consideremos los números de Wallis
2 2
W1 = ·
1 3  
 
2 2 4 4
W2 = · · ·
1 3 3 5
..
.
   
2 2 2m 2m
Wm = · ··· ·
1 3 2m − 1 2m + 1

El producto de Wallis dice que lı́mm→∞ Wm = π/2. En cada número de Wallis los
enteros aparecen dos veces, excepto el último denominador. Si tomamos la raíz
cuadrada resulta entonces
√ 2 4 2m 1 1 1
Wm = · · · · ·√ = ·√ .
1 3 2m − 1 2m + 1 qm 2m + 1
De aquí, usando (6.5), concluimos otra maravilla escondida en el lanzamiento de
una moneda:
la probabilidad qm de que en m éxitos y m fracasos ocurran en √
2m lan-
zamientos de una moneda justa es aproximadamente igual a 1/ πm.
En particular qm → 0 cuando m tiende a infinito.
¿Contradice esto la LGN? Que en un millón de lanzamientos se produzcan 500.000
éxitos y 500.000 fracasos parece poco esperable. Todo cambia cuando hablamos de
un porcentaje alrededor del valor central. Por ejemplo, si queremos que el número
de éxitos esté entre el 49 % y el 51 % del total. En un experimento de 100 lanza-
mientos, se trata por tanto de que salgan 49, 50 o 51 éxitos. Si se repite este un
gran número de veces, alrededor del 24 % de ellas se obtendrá que la proporción de
éxitos cae en ese pequeño intervalo.
Con 1.000, se trata de que salgan entre 490 y 510 éxitos, lo cual sucede en un 50 %
de los casos. Con 10.000 lanzamientos, el intervalo se sitúa entre 4.900 y 5.100, y el
éxito nos acompaña en más del 95 % de los casos. Con un millón de lanzamientos,
el intervalo es entre 490.000 y 510.000, lo cual ocurre casi siempre.
Nro. de lanzamientos 100 1.000 10.000 1 millón
Precisión 49-51 490-510 4.900-5.100 490 mil - 510 mil
Confianza 24 % 50 % 95 % ≈ 100 %
El mismo razonamiento es válido cuando se endurecen las condiciones. Tal vez sea
excesivo pedir que la proporción de éxitos se sitúe entre 49,9 % y 50,1 % cuando se
hacen 1.000 lanzamientos (los únicos resultados posibles son 499, 500, y 501), pero
no lo es para 10 millones.
La proporción de éxitos puede llegar a ser tan próxima a 1/2 como se quiera. Esto
es la precisión. Pero también está la confianza que tenemos en esa precisión, el
porcentaje de veces que de hecho esa precisión ocurre.

6-4
Lo que no cabe esperar es que el número de éxitos sea igual al de fracasos, o que el
número de éxitos se encuentre siempre dentro de un tango definido por un número
fijo, por ejemplo 20, alrededor del centro, cuando se lanza una moneda al aire un
millón de veces. De hecho se cumple lo contrario: si se lanza al aire una moneda un
gran número de veces, la diferencia absoluta entre los números de éxitos y fracasos
será tan grande como se quiera. Lo que se estabiliza es la proporción de éxitos.

¿Qué hace π ahí?

Al ver por primera vez una expresión como la del producto de Wallis, uno se pre-
gunta ¿qué tiene que ver π en todo esto? El número π aparece siempre que haya un
círculo en la vuelta, y aunque parezca increíble, detrás del producto de Wallis hay
un círculo escondido.
No vamos a hacer una prueba de la igualdad (6.5), pero les sugerimos a aquellos
interesados entrar a
https://www.youtube.com/watch?v=8GPy_UMV-08
en donde pueden ver un el excelente video explicativo. El video está en inglés, pero
se pueden activar los subtítulos en español. Para entenderlo solo se requiere andar
fresco con conceptos básicos de números complejos.

6-3. El caso general

Volvamos al caso general en el que p es cualquier valor en (0, 1). Primero, observar
que la suma de las probabilidades pk = P (Sn = k) es igual a 1, ya que por el binomio
de Newton tenemos
n n  
n
∑ pk = ∑ k pk (1 − p)n−k = (p + 1 − p)n = 1.
k=0 k=0
Sin embargo, en general las probabilidades pk son difíciles de calcular. Sobre todo
cuando n es grande ya que las combinaciones son de por sí complicadas.
Pero hay un truco que consiste en ver cómo se relacionan dos términos consecutivos.
Para simplificar la notación, llamemos q = 1 − p:
n  k+1 n−k−1 n 
pk+1 k+1 p q k+1 p (n − k)p
= n k n−k = n = .
pk k p q k q (k + 1)q
Con esta fórmula y la condición de que la suma sea uno, podemos calcular todos
los pk . Por ejemplo, supongamos que p = 1/4 y que n = 10. Entonces
p1 /p0 = 10/3 p2 /p1 = 9/6
p3 /p2 = 8/9 p4 /p3 = 7/12
p5 /p4 = 6/15 p6 /p5 = 5/18
p7 /p6 = 4/21 p8 /p7 = 3/24
p9 /p8 = 2/27 p10 /p9 = 1/30

6-5
pk

0 1 2 3 4 5 6 7 8 9 10
k

Figura 6.1: Gráfico de las probabilidades pk para n = 10 y p = 1/4.

Poniendo todo en función de p0 :


p1 = 10/3 × p0 p2 = 5 × p0
p3 = 40/9 × p0 p4 = 40/27 × p0
p5 = 16/27 × p0 p6 = 40/243 × p0
p7 = 160/5103 × p0 p8 = 20/5103 × p0
p9 = 40/3720087 × p0 p10 = 4/11160261 × p0
La suma de todos los coeficientes que multiplican a p0 es 15,0517453848, por lo
que p0 debe ser igual al inverso de este número. Es decir
1
p0 = = 0,0664374778.
15,0517453848
Juntando todo obtenemos
p0 = 0,0664 p1 = 0,2215
p2 = 0,3322 p3 = 0,2953
p4 = 0,0984 p5 = 0,0394
p6 = 0,0109 p7 = 0,0021
p8 = 0,0003 p9 = 7 × 10−7
p10 = 2 × 10−8
Hemos redondeado a 4 cifras significativas por comodidad. La Figura 6.1 muestra
la gráfica de estas probabilidades. Notar que pk crece hasta alcanzar un máximo en
k = 2 y luego decrece. El valor de k para el cual se da el máximo de pk se conoce
como término central o moda de la distribución.
Este fenómeno ocurre para cualquier valor de n y p. El cociente pk+1 /pk es mayor
que 1 si, y solo si (n − k)p > (k + 1)q. Como p + q = 1, esto último es equivalente
a k < np − q. Notar que np − q = (n + 1)p − 1. En resumen
pk+1
> 1 ⇔ k < (n + 1)p − 1.
pk

6-6
pk

0 1 2 3 4 5 6 7 8 9 10
k

Figura 6.2: Gráfico de las probabilidades pk para n = 10 y p = 1/2.

Llamemos M = (n + 1)p − 1. Entonces:


Si M es entero, pk crece hasta k = M, en donde alcanza el máximo para los
valores M y M + 1, y luego decrece. En este caso hay dos modas, tanto en M
como en M + 1.
Si M no es entero, pk crece hasta alcanzar un máximo en el valor de k que
está entre M y M + 1. En este caso la moda es la parte entera de M + 1.
Por ejemplo, en las Figuras 6.2 y 6.3 pueden verificar estas afirmaciones para n =
10, y los valores de p = 1/2 y p = 3/4. Las tres figuras tiene la misma escala.

6-4. ¿Qué tan chicas son las colas?

Las probabilidades pk se concentran entorno al valor central M. Los valores de k


que están alejados de M forman las colas de la distribución, una hacia la derecha
y otra hacia la izquierda. Aunque los valores de pk en las colas son generalmente
pequeños, esto es menos obvio para la suma de dichas probabilidades.
La suma derecha Dr = ∑k≥r pk representa la probabilidad de obtener al menos r
éxitos en n ensayos. Ver la Figura 6.4. ¿Qué tan chico es Dr ? ¿Qué ocurre con
Dr cuando r es grande? En general es muy difícil calcular Dr exactamente, pero
podemos dar una cota superior de forma bastante sencilla.
Recordar que pk+1 /pk = (n − k)p/(k + 1)q. Lo único que depende de k en el lado
derecho de la igualdad es el cociente (n − k)/(k + 1). Claramente, cuando k crece,
el numerador decrece y el denominador crece, por lo que el cociente decrece. En-
tonces, si consideramos los valores de k que son mayores o iguales a r, todos estos
cocientes serán menores o iguales al correspondiente para k = r. Llamemos a este

6-7
pk

0 1 2 3 4 5 6 7 8 9 10
k

Figura 6.3: Gráfico de las probabilidades pk para n = 10 y p = 3/4.


pk

Ir Dr

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k

Figura 6.4: En rojo se muestran las probabilidades de cola. Aquí n = 20 y p = 0,5.


Se muestran D12 y I8 .

6-8
último α, de modo que
pk+1
≤ α para todo k ≥ r.
pk
Como vimos antes, si r > M, el cociente α < 1. En tal caso, poniendo k = r + j se
deduce que
pr+ j
≤ α j para todo j ≥ 0.
pr
Podemos acotar entonces Dr por una serie geométrica

pr
Dr = ∑ pk = ∑ pr+ j ≤ pr ∑ α j = 1−α .
k≥r j≥0 j=0

Desarmando α en función de r, resulta


(r + 1)q
Dr ≤ pr · .
r−M
Nos falta acotar superiormente pr . Para esto usaremos que la suma de los pk es
igual a uno. Hay al menos r − M enteros entre M y r. Como pr ≤ pk para todos
estos valores de k, tenemos que

1≥ ∑ pk ≥ pr (r − M),
M≤k≤r

de donde
1
pr ≤ .
r−M
Juntando todo, obtenemos la siguiente cota superior para Dr :
(r + 1)q
Dr ≤ .
(r − M)2

Podemos argumentar de la misma manera para la cola izquierda, pero no es nece-


sario hacer los cálculos nuevamente. De hecho, decir que no hay más de r éxitos
equivale a decir que hay por lo menos n − r fracasos. Al aplicar la cota que obtuvi-
mos cambiando r por n − r − 1, y p por q, vemos que
(n − r)p
Ir ≤
(M − r)2
si r < M. Aquí hemos denotado la cola izquierda por Ir := ∑k≤r pk .

6-5. El teorema de Bernoulli

Recordar que Fn = Sn /n es la frecuencia relativa de éxitos en n ensayos. Más aún,


Fn = k/n si, y solo si, el evento Sn = k, por lo que

P (Fn = k/n) = P (Sn = k) = pk .

6-9
El teorema de Bernoulli afirma que cuando n es suficientemente grande, con alta
probabilidad (confianza) Fn está cerca (precisión) de la probabilidad de éxito p.
Para cuantificar cuán cerca está, podemos usar la diferencia |Fn − p|.
Dado un número pequeño ε > 0 (la precisión), ¿cuál es la probabilidad (la confian-
za) de que |Fn − p| < ε? Aunque es muy difícil calcular esta probabilidad exacta-
mente, probaremos que tiende a cero cuando n tiende a infinito.
Teorema de Bernoulli
Para todo ε > 0, se cumple que

P (|Fn − p| < ε) → 1

cuando n tiende a infinito.

Podemos leer el enunciado de la siguiente manera:


dada una precisión cualquiera ε (generalmente pequeña), a medida que
n crece nuestra confianza de que Fn sea casi igual a p (con precisión ε)
también crece y se acerca al 100 %.

Demostración. Tomando complementos basta probar que P (|Fn − p| ≥ ε) → 0 cuan-


do n tiende a infinito. Que Fn esté a más de ε de p es equivalente a que Sn esté a
más de nε de np. Por lo tanto
P (|Fn − p| ≥ ε) = P (|Sn − np| ≥ nε) = Dn(p+ε) + In(p−ε) .
Las colas las conocemos, y sabemos que para n grande
(n(p + ε) + 1)q (p + ε)q
Dn(p+ε) ≤ ∼
(n(p + ε) − M)2 nε 2
(n − n(p − ε))p (q + ε)p
In(p−ε) ≤ ∼
(M − n(p − ε))2 nε 2
Estas tienden a cero cuando n tiende a infinito.

De la demostración se deduce una observación muy importante. Hemos probado


que
P (|Fn − p| ≥ ε) ≤ αn
en donde αn tiende a cero cuando n tiende a infinito. Pero además, sabemos cuán
rápido tiende αn a cero:
(p + ε)q + (q + ε)p
αn ∼
nε 2
cuando n es grande.
Como nos interesan valores de ε que son chicos, podemos decir que αn es del orden
de
2pq
αn ≈ 2

6-10
Esto nos sirve para saber cuál es el orden de n para que Fn esté a menos de ε de
p. Para que la probabilidad de que Fn esté a menos de ε de p sea al menos 1 − α,
debemos realizar n ensayos, con

2pq
n≈
αε 2

Como veremos más adelante, si bien este valor de n garantiza lo que buscamos,
es una cota un poco grosear. Existen mejoras para las cotas de las probabilidades
de cola que permiten mejorar el cálculo de n. Pero como primera aproximación es
suficiente.

6-11
Clase 7
Variables aleatorias discretas I

7-1. ¿Qué es una variable aleatoria?


7-2. Variables aleatorias discretas
7-3. Distribución de una variable discreta
7-4. Distribución conjunta
7-5. Variables independientes
7-6. Aritmética con variables aleatorias

7-1. ¿Qué es una variable aleatoria?

El cuadro de abajo muestra los datos recolectados en un experimento biológico en


el cual se midió la altura (en cm) de n = 60 especímenes de Onobrychis viciifolia,
una planta herbácea (i.e. un yuyo), luego de cultivarlos durante seis meses1 :

21 21 23 22 23 29 24 21 18 23 19 18
20 24 20 20 19 19 22 21 18 20 23 17
20 25 23 21 14 18 29 28 28 14 28 26
22 22 22 29 19 26 16 17 23 18 25 22
20 22 18 32 26 21 20 27 20 19 19 18

Estos números parecen elegidos al azar, pero ¿de dónde viene ese azar? ¿Qué de-
termina finalmente la altura de cada planta? Seguramente, aspectos genéticos, con-
diciones del suelo, el clima, la biodiversidad del lugar en donde se realizó la plan-
tación, y un sin número de otros factores. Es prácticamente imposible determinar
un espacio muestral cuyos elementos correspondan a las diferentes “historias” que
cada planta pueda tener. Peor aún, si por un milagro de astucia logramos descri-
bir el espacio muestral, ¿cómo determinamos las probabilidades? Seguramente los
diferentes factores influyen de forma particular en la altura final de la planta.
¿Es imposible hacer un modelo para este tipo de experimentos? Increíblemente no,
y la gran invención que lo permite es el concepto de variable aleatoria.
1 Los datos son reales, ver V. Rousson Statistique appliqué aux sciences de la vie, Capítulo 1.

7-1
Tabla 7.1: Frecuencias relativas de las alturas de las plantas. La segunda columna
es la frecuencia absoluta.
Valor Frec. Frec. relativa
14 2 0,0333
16 1 0,0167
17 2 0,0333
18 7 0,1167
19 6 0,1000
20 8 0,1333
21 6 0,1000
22 7 0,1167
23 6 0,1000
24 2 0,0333
25 2 0,0333
26 3 0,0500
27 1 0,0167
28 3 0,0500
29 3 0,0500
32 1 0,0167

La idea es la siguiente: no importa demasiado determinar el espacio muestral Ω, lo


que realmente nos interesa en estos casos es conocer la variable altura, una función
X : Ω → R que a cada elemento ω ∈ Ω le asigna una altura X(ω) ∈ R. La variable
X se dice aleatoria porque su valor depende del resultado aleatorio del experimento.
Veamos más detenidamente lo que esta idea quiere decir. Cada elemento ω del es-
pacio muestral representa una “historia” posible para una planta; contiene la infor-
mación sobre la genética, el suelo, el clima, etc, que “sufrirá” la planta. La función
X es una “oráculo”, que dada esa información, nos dice la altura que finalmente
tendrá la planta.
La clave está en que no precisamos conocer la probabilidad de todos los eventos de
Ω, simplemente la probabilidad de los valores posibles de X. Esto se conoce como
la distribución de X.
Los datos del cuadro nos proveen algo de información sobre la distribución de X.
Por ejemplo, sabemos que X puede tomar los valores 14, 16, 17, 18, 19, 20, 21, 22,
23, 24, 25, 26, 27, 28, 29, 32. Pero no solo eso, tenemos una idea aproximada de
con qué probabilidad toma estos valores. Esto es así pues podemos contar cuántas
veces toma cada valor sobre el total de datos. Recordar que esto es la frecuencia
relativa de cada valor. Ver la Tabla 7.1.
En este ejemplo estamos considerando a la altura de las plantas como una variable
discreta, ya que hemos redondeado a valores enteros de cm. Esto no tiene por qué
ser así, podríamos haber utilizado medidas más precisas que tomen cualquier valor
real (con varias cifras decimales). En este segundo caso diríamos que la variable es
continua. Más adelante veremos definiciones precisas.

7-2
Frec. relativa

14 16 17 18 19 20 21 22 23 24 25 26 27 28 29 32

X = altura en cm

Figura 7.1: Distribución de plantas según su altura en cm.

Sin un modelo mejor, toda la información queda resumida en la tabla anterior. Po-
demos visualizar mejor la distribución de X si graficamos las frecuencias relativas,
como hicimos en la Figura 7.1.
Estos son los datos observados. Un modelo teórico del experimento sería una fór-
mula o algoritmo que nos permita calcular la distribución de X (la probabilidad de
cada valor posible) a partir de ciertos principios. Esas fórmulas teóricas pueden de-
pender de varios parámetros, y contrastando los datos con el modelo, podemos ver
cuáles son los parámetros que mejor lo ajustan a la realidad.
De este modo, un estadístico al ver los datos de la tabla y la gráfica de frecuencias
relativas, propondría una (a veces complicada) fórmula para la distribución de X:

P (X = k) = p(k; θ ) (7.1)

en donde θ es un parámetro a determinar que aparece en la fórmula2 .


Notar que la fórmula (7.1) pretende ser un modelo que explique las “regularidades”
o “patrones” que presentan los datos a través de sus frecuencia relativas. Muchas
veces los parámetros tienen interpretaciones como cantidades físicas importantes
sobre la población, como puede ser la altura promedio. Una vez que se ha definido
el modelo, se ha elegido el parámetro, el investigador puede sacar conclusiones,
comparar varias poblaciones de plantas, etc. Todo esto sin saber cuál es el espacio
muestral.
2 Podrían ser varios parámetros θ , . . . , θ . De hecho, el estadístico podría proponer una “formula”
1 r
con un número infinito de parámetros, o modelos aún más complicados que no queremos detallar
ahora.

7-3
Definición de variable aleatoria
Una variable aleatoria es una función

X :Ω→R

que a cada elemento del espacio muestral ω asigna un número real X(ω).
La distribución de X queda determinada por los valores posibles que puede
tomar y las probabilidades con que efectivamente lo hace.
Los modelos de variables aleatorias no requieren conocer el espacio muestral,
ni todas las probabilidades en él definidas. Solamente necesitan especificar la
distribución de X. En esto radica su utilidad.

7-2. Variables aleatorias discretas

Como dijimos antes, hay dos grandes tipos de variables aleatorias: las discretas y las
continuas. Esencialmente, cuando estamos interesados en contar casos tratamos con
variables discretas, y cuando medimos cantidades tratamos con variables continuas.
También obtenemos variables discretas si redondeamos una continua, o si tenemos
en cuenta la precisión de los aparatos de medición.
Vamos a comenzar estudiando variables discretas pues son más sencillas desde el
punto de vista matemático. Más adelante volveremos sobre las variables continuas.
Si X es una variable aleatoria, su recorrido (o imagen) es el conjunto de valores que
puede tomar. Lo notaremos por RX .
Definición de variable aleatoria discreta
Una variable aleatoria X es discreta si su recorrido es numerable. Es decir, si
podemos ordenar en una sucesión

RX = {x1 , x2 , . . .}

los valores posibles que puede tomar. El recorrido de X puede ser tanto finito
como infinito.

Ejemplo 1
Al lanzar un dado dos veces, podemos registrar los resultados mediante el par (i, j),
en donde i es el resultado del primer lanzamiento, y j el del segundo. Podemos
tomar como espacio muestral

Ω = (i, j) : i, j ∈ {1, 2, 3, 4, 5, 6} .


La probabilidad de cada resultado es P (i, j) = 1/36.

7-4
En un juego de apuestas con estos dos dados, se gana $500 si la suma es 7 y se
pierde $100 en caso contrario. Llamando a las ganancias X, podemos describirla
formalmente como (
500 si i + j = 7;
X(i, j) =
−100 si i + j 6= 7.
X es un ejemplo de variable aleatoria discreta.
Podemos cambiar la apuesta. Por ejemplo

Y (i, j) = i j − 10.

En este caso, si sacas (6, 2) entonces ganas $2. Si sacas (2, 3) perdes $4.
Responder intuitivamente: ¿Qué apuesta preferís jugar? Volveremos más tarde sobre
este asunto. 

7-3. Distribución de una variable discreta

Las variables aleatorias determinan eventos. Para cada x ∈ R, escribimos {X = x}


para indicar el evento que consiste de aquellos resultados ω tales que X(ω) = x.
Del mismo interpretamos eventos como {X ≤ x}, {X < x}, {X ≥ x}, etc.
Ejemplo 2
Tomemos X como en el ejemplo anterior. El evento {X = 500} consiste de los
resultados
(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1),
es decir, de todos los pares (i, j) que suman 7 (cuadros azules en el dibujo).

(1, 6) (2, 6) (3, 6) (4, 6) (5, 6) (6, 6)

(1, 5) (2, 5) (3, 5) (4, 5) (5, 5) (6, 5)

(1, 4) (2, 4) (3, 4) (4, 4) (5, 4) (6, 4)

(1, 3) (2, 3) (3, 3) (4, 3) (5, 3) (6, 3)

(1, 2) (2, 2) (3, 2) (4, 2) (5, 2) (6, 2)

(1, 1) (2, 1) (3, 1) (4, 1) (5, 1) (6, 1)

En particular P (X = 500) = 1/6. Cuando un valor de x no está en el recorrido de X,


la probabilidad de {X = x} es cero. Por ejemplo, P (X = 1000) = 0 en este caso. 

La distribución de una variable discreta queda determinada entonces por las proba-

7-5
bilidades con las que toma cada uno de los valores de su recorrido. Esto se puede
resumir mediante una función que a cada valor x en R asigna su probabilidad de
ocurrir, o lo que es lo mismo P (X = x). Obviamente cuando x ∈ / RX esta función
valdrá cero. Como esta función es muy útil, tiene nombre propio y se llama función
de probabilidad puntual de X.
Función de probabilidad puntual
La función de probabilidad puntual (f.p.p.) de una variable aleatoria discreta X
es la función p : R → [0, 1] definida por

p(x) = P (X = x) .

La distribución de X queda entonces determinada por f.p.p..


Si hay riesgo de confusión, escribiremos pX (x) en lugar de p(x) para indicar
que se trata de la f.p.p. de X.

La función p(x) está definida para todo x ∈ R, pero si x no es un valor que X pueda
tomar, entonces p(x) = 0. Es claro que 0 ≤ p(x) ≤ 1, y que

∑ p(x) = 1,
x∈RX

pues en RX están todos los valores posibles de X.


Ejemplo 3
Consideremos nuevamente el espacio muestral Ω asociado al lanzamiento de dos
dados. Pero sea ahora M la variable aleatoria igual al máximo de los dos resultados:

M(i, j) = máx{i, j}.

Por ejemplo, si sacas (3, 5) el máximo es 5, i.e. M(3, 5) = 5.


Podemos describir entonces la f.p.p. de M con una tabla que enumere los posibles
valores y las probabilidades de los mismos. Como en este caso RM = {1, 2, 3, 4, 5, 6},
tenemos
Valor x 1 2 3 4 5 6
f.p.p. p(x) 1/36 3/36 5/36 7/36 9/36 11/36
A veces es mejor visualizar la f.p.p. con un gráfico:
f.p.p. p(x)

1 2 3 4 5 6
Valor x

7-6
Rigurosamente deberíamos dibujar puntos en lugar de barras, pero colocamos una
barra entera para visualizar mejor. Notar que en aquellos x fuera del recorrido de M
no hemos graficado nada. 

Otra forma útil de representar la distribución de una variable es con la función de


distribución acumulada (f.d.a.).
Función de distribución acumulada
La función de distribución acumulada de una variable aleatoria X es la función
F : R → [0, 1] definida por F(x) = P (X ≤ x).
Con frecuencia diremos simplemente función de distribución. Igual que antes,
si hay riesgo de confusión, escribiremos FX para indicar que se trata de la f.d.a.
de X.
Observar que F(x) usa el signo de menor o igual. Esto será importante para no
equivocarse en los cálculos.

Ejemplo 4
Siguiendo con el ejemplo anterior, tenemos
Valor x 1 2 3 4 5 6
f.p.p. p(x) 1/36 3/36 5/36 7/36 9/36 11/36
f.d.a. F(x) 1/36 4/36 9/36 16/36 25/36 36/36
Se llama función de distribución acumulada porque F(x) da la probabilidad acumu-
lada al sumar las probabilidades p(y) con y ≤ x. Por ejemplo, en la tabla de arriba,
la entrada 16/36 para la f.d.a. de la columna 4 es la suma de los valores de la f.p.p.
desde la columna 1 hasta la 4. Formalmente:
1 3 5 7 16
F(4) = P (M ≤ 4) = + + + = .
36 36 36 36 36
Igual que la f.p.p. la f.d.a. está definida para todo x. Pero a diferencia de aquella,
F(x) no es cero fuera de RM , sino que es constante. Por ejemplo, F(4,5) = 16/36.
f.d.a. F(x)

1 2 3 4 5 6
Valor x

El gráfico de F(x) para una variable discreta siempre se parece a una escalera como
es el caso en este ejemplo. 

7-7
Ejemplo 5
Sea X el número de caras en 3 lanzamientos de una moneda justa. Entonces
Valor x 0 1 2 3
f.p.p. p(x) 1/8 3/8 3/8 1/8
f.d.a. F(x) 1/8 4/8 7/8 8/8
y los gráficos son
F(x) p(x)
1
1/8
7/8

3/8

4/8
3/8
3/8

1/8 1/8
1/8
x x
0 1 2 3 0 1 2 3

Los colores muestran la relación entre ambas, y como la f.d.a. se obtiene acumulan-
do las probabilidades a medida que x crece. 

Ciertas propiedades de la f.d.a. se hacen visibles en los ejemplos anteriores:


Monotonia: F es no-decreciente, esto es, el gráfico de F nunca va hacia aba-
jo. Formalmente, si x ≤ y entonces F(x) ≤ F(y), ya que el evento {X ≤ x}
implica {X ≤ y}, por lo que P (X ≤ x) ≤ P (X ≤ y).
Esto explica porque F(x) crece o se mantiene constante a medida que x crece,
pero nunca decrece.
Límites en infinito:
lı́m F(x) = 0, lı́m F(x) = 1.
x→−∞ x→+∞

Esto es, a medida que x crece sin límite, se hace más y más cierto que {X ≤ x},
y del mismo modo, se hace menos probable a media que x decrece sin límite.
La prueba se basa en la propiedad de continuidad de la probabilidad. Los
eventos {X ≤ n} son crecientes, y su unión es todo Ω, por lo que
lı́m P (X ≤ n) = P (Ω) = 1.
n→+∞

El límite en −∞ es análogo.
Continuidad por derecha:
lı́m F(y) = F(x).
y→x+

7-8
{abc, −, −} {a, bc, −} {−, a, bc}
{−, abc, −} {b, ac, −} {−, b, ac}
{−, −, abc} {c, ab, −} {−, c, ab}
{ab, c, −} {a, −, bc} {a, b, c}
{ac, b, −} {b, −, ac} {a, c, b}
{bc, a, −} {c, −, ab} {b, a, c}
{ab, −, c} {−, ab, c} {b, c, a}
{ac, −, b} {−, ac, b} {c, a, b}
{bc, −, a} {−, bc, a} {c, b, a}
Tabla 7.2: Distribución aleatoria de tres bolas distinguibles en tres celdas distingui-
bles. Las bolas están representadas por las letras a, b, c y las celdas por los lugares
entre las comas.

Los eventos {X ≤ x + 1/n} son decrecientes y su intersección es {X ≤ n}.


Nuevamente, por la propiedad de continuidad
 
1
lı́m P X ≤ x + = P (X ≤ x) .
n→+∞ n
Esto explica porque ponemos un círculo en el gráfico de F, del lado derecho
de cada punto en donde F pega un salto.
Saltos: El salto de F en x es igual a P (X = x). Ya sabemos que el límite por
derecha es igual a F(x). El límite por izquierda es igual a
 
1
lı́m F(y) = lı́m P X ≤ x − = P (X < x) ,
y→x− n→∞ n

ya que la unión de los eventos {X ≤ x − 1/n} es {X < x}. Luego, el salto es

F(x) − F(x− ) = P (X ≤ x) − P (X < x) = P (X = x) .

En particular, F es continua en x si, y solo si P (X = x) = 0.

7-4. Distribución conjunta

Cuando tenemos dos variables X e Y , las distribuciones respectivas no nos propor-


cionas toda la información que precisamos para calcular probabilidades. Conside-
remos un ejemplo simple: la distribución aleatoria de tres bolas distinguibles en tres
celdas también distinguibles.
El espacio muestral consiste de 33 = 27 elementos, todos representados en la Tabla
7.2. Cada resultado tiene entonces probabilidad 1/27.
Consideremos las siguientes variables: N el número de celdas ocupadas, X el nú-
mero de bolas en la primer celda, e Y el número de bolas en la segunda celda.
Las distribuciones respectivas de N, X e Y son:

7-9
N\X 0 1 2 3 Distribución de N
1 2/27 0 0 1/27 1/9
2 6/27 6/27 6/27 0 2/3
3 0 6/27 0 0 2/9
Distri-
bución 8/27 12/27 6/27 1/27 1
de X

Y \X 0 1 2 3 Distribución de Y
0 1/27 3/27 3/27 1/27 8/27
1 3/27 6/27 3/27 0 12/27
2 3/27 3/27 0 0 6/27
3 1/27 0 0 0 1/27
Distri-
bución 8/27 12/27 6/27 1/27 1
de X

Tabla 7.3: Arriba: distribución conjunta de N y X. Abajo: distribución conjunta de


X e Y.

Valor 0 1 2 3
pN 0 1/9 2/3 2/9
pX 8/27 12/27 6/27 1/27
pY 8/27 12/27 6/27 1/27
Notar que X e Y tienen la misma distribución, hecho que es claro por simetría. Sin
embargo, este cuadro no nos proporciona la información suficiente para calcular,
por ejemplo, la probabilidad de que {X = 1} e {Y = 2}. Para esto debemos hacer
una tabla más completa, que representa la distribución conjunta de las variables. Es
decir, debemos especificar la probabilidad de eventos del tipo {X = i} e {Y = j},
lo cual hacemos mediante una tabla de contingencia. Esta información se muestra
en la Tabla 7.3.
Por ejemplo, la tabla contiene la información adicional de que X e Y no pueden ser
igual a 3 simultáneamente.
Notar que la distribución de X (en cualquiera de las dos tablas) se obtiene sumando
las filas de la tabla de contingencia. Lo mismo vale pata N e Y , pero sumando las
columnas. Las entradas de la tabla son las probabilidades conjuntas

P (N = i, X = j) (arriba) y P (Y = i, X = j) (abajo).

Más generalmente, la distribución conjunta de dos variables cualesquiera X e Y


queda determinada por la función de probabilidad conjunta.

7-10
Función de probabilidad conjunta
La función de probabilidad conjunta de X e Y es la función p : R2 → [0, 1]
definida por
p(x, y) = P (X = x,Y = y) .
Para indicar las variables X e Y a veces escribiremos pX,Y .
Notar que ∑x∈RX ,y∈RY p(x, y) = 1.

Las distribuciones de X e Y se pueden recuperar a partir de la conjunta sumando


columnas y filas. Es decir

pX (x) = P (X = x) = ∑ P (X = x,Y = y) = ∑ pX,Y (x, y)


y∈RY y∈RY
pY (y) = P (Y = y) = ∑ P (X = x,Y = y) = ∑ pX,Y (x, y)
x∈RX x∈RX

Cuando obtenemos las distribuciones de X e Y a partir de la distribución conjunta,


éstas se llaman distribuciones marginales de X e Y respectivamente.

7-5. Variables independientes

¿Se puede reconstruir la distribución conjunta pX,Y a partir de las distribuciones


marginales pX y pY ? La respuesta es no, pero comencemos por ver un par de ejem-
plos sencillos.
Supongamos que Ana y Beto disponen de tres pares de monedas. Dos de éstos
pares son “mágicos” en el sentido de que el resultado del lanzamiento de una de las
monedas influye sobre el resultado de la otra. El tercer par consiste de dos monedas
normales.
Ana y Beto quieren saber cuál de los tres pares es el normal, y para ello se deciden
a lanzar varias veces cada moneda. Primero eligen uno de los pares, Ana toma una
moneda y Beto la otra, y las lanzan muchas veces para registrar las frecuencias
relativas de caras y cruces.
Lo hacen con el primer par, y definen variables X1 que vale uno si la moneda que
lanza Ana sale cara y 0 si no, e igualmente definen Y1 que valen 1 si la moneda
que lanza Beto sale cara. Del mismo modo definen las variables X2 ,Y2 y X3 ,Y3
correspondientes a los otros pares de monedas.
En la Tabla 7.4 se muestran las probabilidades calculadas por Ana y Beto.
Notar que en los tres casos, las marginales (que se muestran en rojo) son todas
iguales. Más aún, son todas iguales a la distribución de una moneda justa, por lo
que si miramos solamente los registros de caras y cruces que obtiene Ana (o Be-
to) individualmente, lo que percibimos son los resultados de una moneda normal
perfectamente equilibrada.

7-11
X1
0 1 pY1
0 1/3 1/6 1/2
Y1
1 1/6 1/3 1/2
pX1 1/2 1/2 1

X2
0 1 pY2
0 1/4 1/4 1/2
Y2
1 1/4 1/4 1/2
pX2 1/2 1/2 1

X3
0 1 pY3
0 1/6 1/3 1/2
Y3
1 1/3 1/6 1/2
pX3 1/2 1/2 1
Tabla 7.4: Las monedas mágicas. Arriba: distribución conjunta de X1 e Y1 . Centro:
distribución conjunta de X2 e Y2 . Abajo: distribución conjunta de X3 e Y3

Sin embargo, cuando miramos los resultados en conjunto vemos la magia entre las
monedas. En el primer caso, si Ana obtiene una cara, la probabilidad de que Beto
obtenga una cara es 2/3 y no 1/2. Lo opuesto ocurre en el tercer caso, en el cual la
probabilidad es de 1/3.
Es decir, en el primer caso las variables están positivamente relacionadas, y en el
tercero lo están negativamente. El par de monedas normales es el segundo, para el
cuál el resultado del lanzamiento de Ana no influye sobre el resultado de Beto. En
este caso decimos que X2 e Y2 son variables independientes.
Notar que en el segundo caso, la distribución conjunta de X2 e Y2 se obtiene mul-
tiplicando las marginales. Este es esencialmente el único caso en el cuál podemos
recuperar la distribución conjunta a partir de las marginales.
Variables discretas independientes
Decimos que dos variables aleatorias discretas X e Y son independientes, si la
distribución conjunta es igual al producto de las marginales:

pX,Y (x, y) = pX (x) · pY (y),

para todo xi ∈ RX e y j ∈ RY .

7-12
7-6. Aritmética con variables aleatorias

Podemos hacer aritmética con las variables aleatorias. Por ejemplo, podemos su-
mar, restar, multiplicar, o elevar al cuadrado. Una operación muy importante para
nosotros será la suma de variables independientes.
Ejemplo 6
Sean X e Y variables aleatorias independientes con las siguientes f.p.p.
Valores de X 1 2 3 4
f.p.p. p(x) 1/10 2/10 3/10 4/10

Valores de Y 1 2 3 4 5
f.p.p. p(y) 1/15 2/15 3/15 4/15 5/15
Calculemos la f.p.p. de la suma X + Y . La primera cosa a hacer es una tabla de
contingencia con la distribución conjunta de X e Y . Como X e Y son independientes,
la f.p.p. conjunta es simplemente el producto de las marginales p(x, y) = p(x)p(y).
Valores de Y
1 2 3 4 5

1 1/150 2/150 3/150 4/150 5/150 1/10


Valores de X

2 2/150 4/150 6/150 8/150 10/150 2/10

3 3/150 6/150 9/150 12/150 15/150 3/10

4 4/150 8/150 12/150 16/150 20/150 4/10

1/15 2/15 3/15 4/15 5/15

Las entradas en las diagonales corresponden a los casos con igual X + Y . Todo lo
tenemos que hacer para calcular la f.p.p. de X + Y es sumar las probabilidades de
cada diagonal.

Valores de X +Y 2 3 4 5 6 7 8 9
f.p.p. 1/150 4/150 10/150 20/150 30/150 34/150 31/150 20/150
Cuando las tablas sean demasiado grandes para poder escribirlas, vamos a tener
que usar métodos puramente “algebraicos” para calcular las probabilidades de una
suma. Aprenderemos cómo hacer esto en su debido tiempo. 

7-13
Clase 8
Variables aleatorias discretas II

8-1. Valor esperado


8-2. Arquímides y el valor esperado
8-3. Una fórmula para variables positivas
8-4. Algunas distribuciones con nombre propio
8-5. El problema de las pruebas sanguíneas

8-1. Valor esperado

Comencemos por un ejemplo simple. Supongamos que estamos al frente de un pe-


queño emprendimiento en el cual cada semana debemos decidir entre dos opciones:
1. cerramos un negocio seguro que nos provee una ganancia neta de $15.000;
2. o realizamos una inversión que de salir bien nos aportaría una ganancia ne-
ta de $30.000, pero de salir mal conllevaría una perdida neta de $15.000.
Además, estimamos que la probabilidad de que la inversión sea exitosa es de
75 %.
Imaginemos que tomamos la decisión de invertir en n semanas consecutivas. De-
notemos por n+ el número de veces que la inversión ha resultado exitosa, y n− =
n − n+ el número de veces que dio pérdidas. Entonces, las ganancias totales G(n)
en esas n semanas son

G(n) = 30000n+ − 15000n− .

Las ganancias por semana son

G(n) n+ n−
g(n) = = 30000 − 15000 .
n n n
¿Qué ocurre a la larga con las ganancias por semana? Por el Teorema de Bernoulli
sabemos que las frecuencias relativas n+ /n y n− /n convergen, cuando n tiende a

8-1
infinito, a las respectivas probabilidades de que la inversión sea exitosa o fracase.
Entonces
n+ n−
lı́m g(n) = 30000 lı́m − 15000 lı́m
n→∞ n→∞ n n→∞ n
= 30000 · (probabilidad de éxito) − 15000 · (probabilidad de fracaso)
= 30000 · 0,75 − 15000 · 0,25 = 18750.

Es decir, a medida que n crece, las ganancias por semana se aproximan más y más
al valor $18.750.
Si hubiéramos optado por la opción segura, las ganancias por semana serían iguales
a g(n) = 15000. Como las ganancias por semana son mayores para la opción 2 que
para la opción 1, es mejor arriesgar invirtiendo el dinero, siempre y cuando seamos
capaces de invertir durante una cantidad grande de semanas.
Si pensamos a las ganancias semanales como una variable aleatoria G, que toma los
valores 30000 y −15000, con probabilidades 0,75 y 0,25 respectivamente, entonces
la cantidad 18750 se llama el valor esperado de G. Esto lo escribimos E (G).

La definición general

La misma idea nos sirve como motivación para definir el valor esperado de una
variable discreta en general. Supongamos que X es una variable discreta cuyo re-
corrido es RX = {x1 , x2 , . . .}. Imaginemos que realizamos el experimento n veces
y para cada una de estas registramos el valor de X. Llamemos a estos valores por
y1 , y2 , . . . , yn . Cada uno de los yi puede ser igual a cualquiera de los valores posibles
de X (los valores del recorrido de X).
El promedio de las n realizaciones de X es
y1 + · · · + yn
Promedio(y1 , . . . , yn ) = .
n
Podemos reordenar los valores y1 , . . . , yn y agruparlos de acuerdo a su valor, de
modo que la suma
y1 + · · · + yn = n1 x1 + n2 x2 + · · · ,

 donde n j es el número de veces que ha ocurrido el valor x j . En símbolos n j =


en
i : yi = x j . Con esta forma de escribir la suma, tenemos que

n1 n2
Promedio(y1 , . . . , yn ) = x1 + x2 + · · · .
n n
Al realizar más veces el experimento, y hacer n tender a infinito, las frecuencias
relativas convergen a
nj
→ P X = xj .

n
El valor “por ensayo” de X, para n tendiendo a infinito, es E (X) = ∑∞j=1 x j P X = x j .


8-2
Definición de valor esperado (discretas)
Sea X una variable aleatoria discreta cuyo recorrido es RX . Definimos el valor
esperado de X (o la esperanza de X) como

E (X) = ∑ x · P (X = x) .
x∈RX

Ejemplo 1
Los primeros en pensar en valor esperado fueron los matemáticos franceses Pascal
y Fermat en una vasta correspondencia que iniciaron en 1654. Un noble llamado
Chevalier de Méré le propuso a Pascal el siguiente problema:
Un jugador ha apostado en sacar un 6 en 8 lanzamientos de un dado.
El monto ha sido establecido, y se han realizado 3 lanzamientos sin la
aparición de un 6. ¿Qué proporción del monto apostado sería justo darle
al jugador para que renuncie al cuarto lanzamiento (solo el cuarto)?
Digamos que la apuesta es a. Llamemos X a la ganancia del jugador en la apuesta
original, e Y la ganancia si renuncia al cuarto lanzamiento.
Como quedan 5 lanzamientos, la f.p.p. de X es
Valor x a 0
5 5 5 5
f.p.p. p(x)
 
1− 6 6
 
5 5
Entonces, el valor esperado de X es E (X) = 1 − a.

6

Si el jugador renuncia a su cuarto lanzamiento, obtendrá con seguridad una fracción


f de la apuesta a. El resto del monto, (1 − f )a, lo obtendrá con probabilidad 1 −
5 4
6 . Entonces, el valor esperado de Y es


 4 !
5
E (Y ) = f a + 1 − (1 − f )a.
6

Para Pascal y Fermat, la proporción justa f es aquella que mantiene las expectativas
de ganancia del jugador. Esto se traduce en E (Y ) = E (X).
Esta igualdad se traduce en
 4  5
5 5
(1 − f ) = ,
6 6

de donde f = 1/6. Lo justo es proponerle 1/6 de la apuesta para que renuncie al


cuarto lanzamiento.
Para pensar: ¿qué proporción le ofrecerías para renunciar al quinto lanzamiento, si
en lugar de 3 han transcurrido 4 lanzamientos sin aparecer un 6? 

8-3
1 kg

0,5 kg 0,5 kg

Figura 8.1: Dos bloques de 0,5 kg se mantienen en equilibrio colocando el pie en


el punto medio entre ellos.

8-2. Arquímides y el valor esperado

Todos saben que el estudio del centro de masa de un objeto fue la devoción de
Arquímedes, el matemático de la Grecia antigua. Seguramente conozcan su famosa
frase “Dadme un punto de apoyo, y moveré al mudo”. En su descubrimiento de la
“ley de la palanca”, Arquímedes demuestra cómo encontrar el punto de equilibrio
para configuraciones de objetos similares a los subibaja que tanto disfrutamos en
nuestra niñez.
Comencemos por el caso más simple de todos: dos bloques de 0,5 kg cada uno
apoyados sobre un tablón, que se balancea sobre un pie de apoyo como un subiba-
ja. ¿En dónde deberíamos colocar el pie para que el tablón quede en equilibrio?
Obviamente, por la simetría del problema, en el punto medio entre los dos bloques.
Otra forma de llegar a esta conclusión es la siguiente: si tenemos un solo bloque de
1 kg, es obvio que el punto de apoyo debe situarse justo debajo del bloque. Si ahora
partimos el bloque en dos mitades iguales, y las desplazamos igual distancia hacia
derecha y izquierda, podemos dejar el pie siempre en el mismo lugar y el conjunto
quedará en equilibrio todo el tiempo. Ver la Figura 8.1. Esto es porque no hemos
cambiado el centro de masa del conjunto de bloques.
Usaremos este principio, de que dos configuraciones de bloques con el mismo cen-
tro de masa producen el mismo efecto sobre el tablón, para calcular el centro de
masa de una configuración cualquiera.
¿Qué pasa si en lugar de dividir el bloque original de 1 kg en dos mitades iguales,
lo dividimos en un bloque de p kg y otro de q kg, con p + q = 1?
Por ejemplo, p = 1/3 y q = 2/3. Intuitivamente, el pie lo debemos colocar dos
veces más cerca del bloque más pesado que del bloque más liviano. Demostremos
que ésto es así.
Supongamos que los bloques están a distancia 1. Dividimos la distancia entre los
dos bloques en tres partes iguales, de forma que el pie está situado a distancia 1/3
del bloque pesado, como se muestra en la Figura 8.2.
Marquemos dos segmentos de longitud 1/3 hacia la izquierda del bloque pesado

8-4
2/3 kg 1/3 kg

1/6 kg 1/6 kg 1/6 kg 1/6 kg 1/6 kg 1/6 kg

Figura 8.2: Dos bloques, uno de 1/3 kg y el otro de 2/3 kg, se mantienen en
equilibrio colocando el pie a una distancia 1/3 del bloque más pesado.

q kg p kg

p
0 1

Figura 8.3: Dos bloques, uno de p kg y el otro de q kg, se mantienen en equilibrio


colocando el pie a una distancia p del origen.

y uno hacia la derecha del bloque liviano. Si cambiamos los dos bloques por seis
bloques que pesan 1/6 kg, colocados sobre los puntos medios de los segmentos
marcados, obtenemos una configuración equivalente, pues no hemos cambiado los
centros de masa.
Como la nueva configuración de bloques es simétrica, es claro que el pie de apoyo
debe ir en el centro, lo cual implica que la configuración original estaba en equili-
brio.
El mismo argumento se puede hacer para cualquier par de bloques cuyos pesos seas
racionales. Luego, usando un pasaje al límite se puede extender el resultado al caso
de pesos irracionales.
La conclusión es que si colocamos dos bloques que pesan p y q kilogramos, con el
bloque que pesa p en la posición 1 y el bloque que pesa q en la posición 0, entonces
el pie de apoyo debe colocarse en la posición p. Ver la Figura 8.3.
Podemos representar la distribución de cualquier variable discreta X usando blo-
ques y un tablón. Primero, marcamos un origen cualquiera en el tablón desde el
cual medir distancias. Si X toma los valores x1 , x2 , . . . con probabilidades p1 , p2 , . . .,
colocamos un bloque que pesa pi kg en la posición xi . Notar que el peso total de los
bloques es 1 kg pues las probabilidades suman 1. Entonces:
El valor esperado E (X) indica en dónde debe colocarse el pie de apoyo
para que el conjunto de bloques se mantenga en equilibrio.
Dicho de otro modo, el valor esperado es el centro de masa de la distribución.

8-5
8-3. Una fórmula para variables positivas

Existe un truco para variables enteras positivas que simplifica a veces las cuentas.
Esperanza de variables enteras positivas
Sea X una variable discreta que toma valores enteros mayores o iguales a cero.
Entonces ∞
E (X) = ∑ P (X > k) . (8.1)
k=0

Demostración. Por definición tenemos que


∞ ∞
E (X) = ∑ kP (X = k) = ∑ kP (X = k) ,
k=0 k=1

pues el primer término (k = 0) es cero.


Podemos poner estos términos en un arreglo triangular

E (X) = P (X = 1)
+ P (X = 2) + P (X = 2)
+ P (X = 3) + P (X = 3) + P (X = 3) + · · ·

Si sumamos las columnas, obtenemos

P (X > 0) + P (X > 1) + P (X > 2) + · · · ,

que es exactamente lo que queríamos probar.

Ejemplo 2
Sea X el número de lanzamientos necesarios para que una moneda salga cara. Su-
pondremos que la probabilidad de cara es p.
La probabilidad de {X > k} es (1 − p)k , pues una forma equivalente de describir
este evento es que los primeros k lanzamientos sean cruz.
Usando la fórmula (8.1) obtenemos

1 1
E (X) = ∑ (1 − p)k = 1 − (1 − p) = p .
k=0

Por ejemplo, si la moneda es justa, se espera lanzar en promedio 2 veces la moneda


para que salga cara. 

Esta fórmula se puede generalizar a variables discretas positivas que no son nece-
sariamente enteras. La clave está en observar que P (X > k) = 1 − F(k) en donde F
es la f.d.a. de X.

8-6
F(x)
1

x5 · p(x5 )

x4 · p(x4 )

x3 · p(x3 )

x2 · p(x2 )

x1 · p(x1 )

0 x
x1 x2 x3 x4 x5

En la figura están representados los términos xi · P (X = xi ) como áreas de rectángu-


los. Al sumar todos estos valores, el resultado es el área total por encima del gráfico
de F. Esta área es igual a la integral de 1 − F(x) en el intervalo [0, ∞).
Esperanza de una variable positiva
Sea X una variable discreta y mayor o igual a cero. Entonces
Z ∞
E (X) = (1 − F(x))dx. (8.2)
0

Esta fórmula nos será muy útil más adelante.

8-4. Algunas distribuciones con nombre propio

Hay algunas variables aleatorias discretas que por su importancia tienen nombre
propio. En este curso destacaremos especialmente las siguientes tres.

Variables de Bernoulli

Son los bloques fundamentales a partir de cuales podemos construir una gran varie-
dad de variables discretas. Las variables Bernoulli modelan el éxito o fracaso en un
ensayo de Bernoulli.
Una variable X tiene distribución de Bernoulli si
(
1 si éxito;
X=
0 si fracaso.
Para conocer la distribución de la variable X, basta determinar el parámetro p, que
representa la probabilidad de éxito, esto es P (X = 1) = p. Cuando queremos escri-

8-7
bir de forma compacta que X tiene distribución Bernoulli de parámetro p ponemos
X ∼ Ber(p).
La esperanza de una variable Bernoulli es

E (X) = 1 · P (X = 1) + 0 · P (X = 0) = p.

Esta simple fórmula es de mucha ayuda, ya que en una gran variedad de situaciones
podemos descomponer una variable como suma de Bernoulli. El siguiente es un
típico ejemplo de este uso.
Ejemplo 3
En un grupo de n personas distintas. ¿Cuántas coincidencias de cumpleaños espe-
ramos ver?
Imaginemos a las personas numeradas del 1 al n. Para cada par de personas {i, j},
consideremos la variable Xi j que vale 1 si i y j cumplen el mismo día, y 0 si no.
Claramente Xi j es una variable de Bernoulli, pues toma solamente los valores 0 y 1.
Aquí éxito corresponde a que i y j cumplan el mismo día.
El parámetro de Xi j corresponde a la probabilidad de que valga 1:

p = P Xi j = 1


1
= P (i y j cumplen en el mismo día) =
365
Es decir, Xi j ∼ Ber(1/365).
Llamemos X a la suma de las Xi j sobre todos los pares posibles. Esto es

X= ∑ Xi j .
{i, j}

¿Qué representa X? La variable X cuenta cuántas coincidencias de cumpleaños hay


en el grupo de n personas. Así que la probabilidad de que al menos dos personas
cumplan el mismo día se puede escribir P (X ≥ 1).
Lo bueno de este enfoque es que es fácil pasar de dos personas a tres, cuatro, etc.
Simplemente, en lugar de considerar las variables Xi j sobre los pares, hay que con-
siderar Xi jk sobre las tripletas, etc.
Aceptemos por el momento que la esperanza de una suma es la suma de las espe-
ranzas (es una propiedad sumamente importante que demostraremos la clase que
viene). El valor esperado de X es entonces

n 1 n(n − 1)
 
1
E (X) = ∑ E Xi j = ∑

= = .
{i, j} {i, j}
365 2 365 730

Notar que E (X) ≥ 1 si n = 28. Esto sugiere que con 28 personas es altamente
probable que haya al menos una coincidencia. 

8-8
La distribución geométrica

La distribución geométrica1 modela el número de ensayos (de Bernoulli) necesarios


para obtener un éxito. Un clásico ejemplo es lanzar una moneda hasta que salga
cara.
Sea p la probabilidad de éxito. Llamemos X al número de ensayos que realizamos
hasta el primer éxitos. Claramente X puede tomar los valores 1, 2, 3,....
¿Cuál es la función de probabilidad puntual de X? X vale k cuando los primeros k −
1 ensayos resultan en fracaso, lo cual ocurre con probabilidad (1 − p)k−1 , y además
el k-ésimo ensayo resulta en éxito, lo cual ocurre con probabilidad p. Entonces

p(k) = p(1 − p)k−1 .

Observar que la suma es


∞ ∞
1
∑ p(k) = ∑ p(1 − p)k−1 = p ∑ (1 − p) j = p = 1.
k≥1 k=1 j=0 1 − (1 − p)

Escribimos X ∼ Geo(p) para abreviar que X tiene distribución geométrica de pará-


metro p. Como vimos en el Ejemplo 2, la esperanza de X es E (X) = 1/p.
En la Figura 8.4 se muestran los gráficos de la función de probabilidad puntual de
X para tres valores de p.
Función de probabilidad puntual

0 1 2 3 4 5 6 7

X =k

Figura 8.4: Distribución geométrica para tres valores de p: en azul p = 0,8, en rojo
p = 0,5, y en negro p = 0,2.

Ejemplo 4
Los habitantes de una isla remota planean sus familias teniendo hijos hasta que
nazca la primera niña. Vamos a asumir que la probabilidad de tener una niña es 0.5,

1 El nombre se debe a que la función de probabilidad puntual está representada por una serie
geométrica. No tiene nada que ver con las probabilidades geométricas que vimos hace un par de
capítulos.

8-9
que los nacimientos son independientes, y que no hay nacimientos múltiples.
¿Cuál es el ratio de niños y niñas en la isla?
Para una familia dada, el número de hijos X tiene distribución geométrica de pará-
metro 0.5. Esta familia tiene entonces X − 1 niños y 1 niña. Así que el ratio de niños
sobre niñas, para esta familia, es X − 1.
El ratio en la isla corresponde a E (X − 1) = 1. Así que por más raro que parezca, la
cantidad de niñas es aproximadamente igual a la de niños. 

Antes de seguir con los ejemplos, respondamos a la siguiente pregunta de carácter


más general. Sea X ∼ Geo(p), ¿cuál es el valor de m para el cual P (X ≤ m) ≈ 1/2?
Como ya hemos visto en el Ejemplo 2,

P (X ≤ m) = 1 − P (X > m) = 1 − (1 − p)m

El número (1 − p)m no tiene porque ser exactamente igual a 1/2, pero podemos
buscar el menor valor de m que cumple P (X ≤ m) ≥ 1/2.
Por un lado

1 − (1 − p)m ≥ 1/2 ⇔ (1 − p)m ≤ 1/2 ⇔ m ln(1 − p) ≤ − ln(2)


ln(2)
⇔m≥ .
ln(1/(1 − p))

Por otro, como P (X ≤ m − 1) < 1/2 tenemos que

ln(2)
1 − (1 − p)m−1 < 1/2 ⇔ m < + 1.
ln(1/(1 − p)

Es decir, que  
ln(2)
m= .
ln(1/(1 − p)
Notar que cuando p es chico m ≈ ln(2)/p, valor similar a la esperanza que calcula-
mos antes.
El número m se llama mediana de la distribución de X, o simplemente mediana de
X. Es el valor que aproximadamente divide en dos partes iguales la distribución:
la probabilidad de que X sea menor o igual que m es casi 1/2, y lo mismo para
la probabilidad de que sea mayor. Es una forma conveniente de definir un “valor
representativo” para X, diferente al valor esperado.
Definición de mediana
Sea X una variable aleatoria cualquiera. La mediana de X es el menor valor de
m que cumple P (X ≤ m) ≥ 1/2.

8-10
Ejemplo 5
Consideremos un juego similar al 5 de Oro, en el cual hay que embocar 5 números
del 1 al 44. La probabilidad de ganar es
1
p= 44
≈ 9,23 × 10−7 .
5

Supongamos que jugamos hasta ganar. Sea X el número de veces que jugamos.
Entonces X tiene distribución geométrica de parámetro p.
De la discusión anterior, la mediana y la esperanza de X son

m ≈ 752,763, E (X) = 1,086,008.

Si jugáramos una vez por semana, m equivale a jugar aproximadamente ¡14.500


años! Uno se pregunta porqué tanta gente juega a este tipo de loterías. Lo atractivo
del juego es que por un boleto relativamente barato uno podría ganar un premio
capaz de cambiarle la vida.
Esto debemos interpretarlo de la siguiente manera: si toda la población de Uruguay
jugara una vez por semana, eventualmente hasta ganar, la mitad de la población
debería jugar 14.500 años.
Supongamos que una persona vive 75 años, y que juega una vez por semana. ¿Cuál
es la probabilidad de que gane al menos una vez? Si traducimos esta pregunta en
término de X, queremos calcular P (X ≤ 3900), pues hay 3900 semanas en 75 años.
Esto da
P (X ≤ 3900) = 1 − (1 − p)3900 ≈ 0,0036.
En porcentajes es aproximadamente 0.36 %. Por lo menos es un número más razo-
nable, pero el 99.64 % de la población nunca ganaría. Para disfrutar de la fortuna
del premio, uno debería ganarlo a una edad tipo 40 años, y las chances son en este
caso 0.02 %. 

La distribución binomial

Esta distribución la hemos visto cuando probamos el Teorema de Bernoulli. Recor-


dar que modela la cantidad de éxitos en n ensayos de Bernoulli. A diferencia de las
anteriores, la binomial tiene dos parámetros: el número de ensayos n y la probabi-
lidad de éxito p. Para abreviar que una variable X tiene distribución binomial de
parámetros n y p, escribimos X ∼ Bin(n, p).
Recordar que la función de probabilidad puntual está dada por
n k
 
p(k) = p (1 − p)n−k .
k
Si denotamos por Xi la variable Bernoulli que indica si hay éxito en el i-ésimo
ensayo, entonces X = X1 +· · ·+Xn . Esto permite usar el mismo truco que nos ayudo

8-11
a calcular la esperanza del Ejemplo 3. Como E (Xi ) = p y la esperanza de la suma
es la suma de las esperanzas, vemos que E (X) = np.

8-5. El problema de las pruebas sanguíneas

Un gran número N de personas se ve sometido a una prueba sanguínea, que se puede


administrar en dos formas:
(i) Se prueba a cada persona por separado. En este caso se requieren N análisis.
(ii) Se mezclan las muestras de sangre de k personas para examinarlas juntas. Si
la prueba resulta negativa, esta prueba será suficiente para las k personas. Si la
prueba es positiva, cada una de las k personas debe analizarse separadamente,
y en total, se requieren k + 1 pruebas para las k personas.
Supongamos que la probabilidad p de que el análisis resulte positivo es la misma
para todas las personas, y que los resultados de las pruebas son independientes.
¿Cuál es la probabilidad de que el análisis de una muestra mezclada de k personas
resulte positivo? Como las personas resultan positivas con la misma probabilidad p
y son independientes, la probabilidad de que ninguna de las personas del grupo sea
positiva es (1 − p)k . Así que la probabilidad de que el grupo resulte positivo, o sea
de que alguna de ellas sea positiva, es q = 1 − (1 − p)k .
¿Cuál es el valor esperado del número X de pruebas necesarias en el programa (ii)?
Aunque a primera vista parezca difícil calcular el valor esperado de X, usaremos un
truco muy común que consiste en escribir la variable como suma de variables más
simples. La variable X se puede escribir como
N/k
X= ∑ Xi
i=1

en donde Xi es el número de pruebas necesarias para el i-ésimo grupo. Esta puede


tomar dos valores
(
1 si el grupo da negativo
Xi =
k + 1 si el grupo da positivo.

Las probabilidades son respectivamente 1 − q y q.


Ahora podemos usar la propiedad de linealidad del valor esperado. La esperanza de
cada Xi es igual a

E (Xi ) = 1 · (1 − q) + (k + 1) · q = 1 + kq.

Entonces, el valor esperado de X es

N
 
1
E (X) = (1 + kq) = N +q .
k k

8-12
Supongamos ahora que se trata de una prueba para una enfermedad rara, para la
cual p es muy chico. Entonces, podemos aproximar (1 − p)k por 1 − kp ya que los
otros términos contienen potencias mayores de p. Con esta aproximación el valor
esperado nos queda  
1
E (X) ≈ N + kp .
k
¿Cuál es el valor de k que minimiza el valor esperado? Si obviamos el hecho de que
k debe ser entero y consideramos la función
1
f (x) = + xp,
x

usando las herramientas de cálculo vemos que el mínimo se da en x = 1/ p.
Es decir, si p es chico, el método de mezclar las muestras de grupos de tamaño
√ √
k ≈ 1/ p hace que el valor esperado de pruebas se reduzca a E (X) ≈ 2 pN.

8-13
Clase 9
Variables aleatorias discretas III

9-1. Esperanza de una función de variables


9-2. La varianza
9-3. Propiedades de la varianza
9-4. Varianza de las distribuciones con nombre

9-1. Esperanza de una función de variables

En general, el procedimiento para calcular el valor esperado de una variable consis-


te en, primero hallar su f.p.p., y luego aplicar la definición. Sin embargo, cuando la
variable de interés se escribe como función de otras, esto puede ser un poco engo-
rroso.
Ejemplo 1
Se apuesta en el lanzamiento de dos dados de la siguiente manera: Z = XY − 10,
en donde X e Y son el resultado de cada uno de los dados. ¿Cuál es la ganancia
esperada?

6 −4 2 8 14 20 26

5 −5 0 5 10 15 20
Valores de Y

4 −6 −2 2 6 10 14

3 −7 −4 −1 2 5 8

2 −8 −6 −4 −2 0 2

1 −9 −8 −7 −6 −5 −4

1 2 3 4 5 6
Valores de X

9-1
Como cada resultado tiene probabilidad 1/36, la f.p.p. de Z es
−9 −8 −7 −6 −5 −4 −2 −1 0 2 5 6 8 10 14 15 20 26
1/36 2/36 2/36 3/36 2/36 4/36 2/36 1/36 2/36 4/36 2/36 1/36 2/36 2/36 2/36 1/36 2/36 1/36

Debemos calcular primero la f.p.p de Z. Para esto, lo mejor es hacer una tabla de
contingencia como la de arriba. De aquí resulta entonces E (Z) = 81/36 = 2,25. 

Lo que hicimos en el ejemplo anterior se puede generalizar ampliamente. Si deno-


tamos g : R2 → R la función g(x, y) = xy − 10, entonces Z = g(X,Y ).
Esperanza de una función de variables
Sean X e Y dos variables aleatorias discretas, y g : R2 → R una función. Enton-
ces
E (g(X,Y )) = ∑ g(x, y)p(x, y), (9.1)
x∈RX ,y∈RY

en donde p(x, y) es la función de probabilidad conjunta de X e Y .

Demostración. El recorrido de Z = g(X,Y ) es

RZ = {g(x, y) : x ∈ RX , y ∈ RY },

que es numerable, por lo que g(X,Y ) también es discreta.


Notar que estos valores de g(x, y) pueden repetirse, ya que g(x, y) puede ser igual
a g(x0 , y0 ) aunque x 6= x0 e y 6= y0 . De hecho esto pasó en casi todos los casos del
Ejemplo 1. Sin embargo, para cada valor posible z de g(x, y), el evento {g(X,Y ) = z}
se descompone como unión disjunta

{g(X,Y ) = z} = {X = x,Y = y}.


[

g(x,y)=z

La unión es en todas las formas distintas de escribir z como g(x, y) para algún x y
algún y.
Al tomar probabilidades, obtenemos

P (g(X,Y ) = z) = ∑ P (X = x,Y = y) .
g(x,y)=z

Nos resta ahora sumar en z:

E (g(X,Y )) = ∑ zP (g(X,Y ) = z)
z∈RZ
= ∑z ∑ P (X = x,Y = y)
z∈RZ g(x,y)=z

= ∑ ∑ zP (X = x,Y = y)
z∈RZ g(x,y)=z

= ∑ ∑ g(x, y)P (X = x,Y = y)


z∈RZ g(x,y)=z

9-2
Aquí viene un punto ligeramente sutil de la demostración. Este consiste en notar
que sumar en aquellos x e y con g(x, y) = z, y luego sumar en todos los valores
posibles de z, es lo mismo que sumar en todos los valores posibles de x e y.
Esto se puede ver mejor con un dibujo, como el que se muestra en la figura siguiente
para el caso especial en que g(x, y) = x + y. En el mismo vemos la diagonal roja que
corresponde a todos los valores de x e y que suman un cierto valor de z. Claramente,
al variar z, las diagonales cubren todo el cuadrante. El cuadrante corresponde a
todos los pares posibles de x e y.

RY

x+y = z
RX

De aquí resulta que la última suma anterior es igual a

∑ g(x, y)P (X = x,Y = y) = ∑ g(x, y)p(x, y),


x∈RX ,y∈RY x∈RX ,y∈RY

que es lo que queríamos demostrar.

Varios casos particulares, pero muy importantes, se deducen de esta fórmula:


Esperanza de la suma: E (X +Y ) = E (X) + E (Y ).
Tomemos g(x, y) = x + y en la fórmula (9.1). Entonces

E (X +Y ) = ∑(x + y)P (X = x,Y = y)


x,y
= ∑ xP (X = x,Y = y) + ∑ yP (X = x,Y = y) .
x,y x,y

Notar que para cada x fijo, ∑y∈RY P (X = x,Y = y) = P (X = x). De aquí resulta que
el primer término en la suma anterior es igual a

∑ ∑ xP (X = x,Y = y) = ∑ xP (X = x) = E (X) .
x∈RX y∈RY x∈RX

9-3
Un razonamiento análogo muestra que el segundo término es igual a E (Y ). Esto
termina la demostración.
Esperanza del producto: Si X e Y son independientes =⇒ E (XY ) = E (X) E (Y ).
Tomemos g(x, y) = xy en la fórmula (9.1). Entonces

E (XY ) = ∑ xyP (X = x,Y = y) = ∑ xyP (X = x) P (Y = y)


x,y x,y
= ∑ [xP (X = x)] · [yP (Y = y)] .
x,y

Pero esta última suma es igual a


  " #
∑ xP (X = x) · ∑ yP (Y = y) = E (X) E (Y )
x y

como queríamos demostrar.


Esperanza de una función de una variable: E (h(X)) = ∑x h(x)p(x).
Basta tomar g(x, y) = h(x) en (9.1), con Y = c una constante. Entonces

E (h(X)) = E (g(X, c)) = ∑ g(x, c)P (X = x,Y = c) = ∑ h(x)p(x),


x x

como queríamos. Ver la Figura 9.1 para una ilustración de ésta fórmula con bloques
en un tablón.
Las constantes salen para afuera: E (cX) = cE (X).
Poniendo h(x) = cx en la fórmula anterior,

E (cX) = ∑ cxP (X = x) = c ∑ xP (X = x) = cE (X) ,


x∈RX x∈RX

obtenemos lo que queríamos demostrar.


Ejemplo 2
Volvamos al ejemplo de los cumpleaños para hacer notar una diferencia que tiene
el valor esperado respecto de una suma a respecto de un producto.
Consideremos la variable Xi jk que vale 1 si la terna {i, j, k} cumple el mismo día, y
0 si no. Entonces Xi jk es Bernoulli de esperanza 1/3652 .
El producto X123 X124 también es Bernoulli, y vale 1 cuando los cuatro 1, 2, 3, y 4
cumplen el mismo día. Entonces
1
E (X123 X124 ) = P (1,2,3,4 cumplen el mismo día) = 6= E (X123 ) E (X124 ) .
3653
Esto es porque X123 y X124 no son independientes. 

9-4
Distribución de X
p2
p5
p1 p3 p4 p7
p6

x1 x2 x3 x4 x5 x6 x7

p3 + p4 + p6
p2
p5
p1 p7

h(x1 ) h(x2 ) h(x3 ) = h(x4 ) = h(x6 ) h(x7 ) h(x5 )

Distribución de h(X)

Figura 9.1: La distribución de h(X) corresponde a cambiar de lugar los bloques, a


veces poniendo varios bloques en el mismo lugar. La función h nos indica en dónde
colocarlos.

Ejemplo 3

Sea X el resultado de lanzar un dado, y sea Y = X 2 . Calcular E (Y ).


Como los valores son pocos, podemos hacer una tabla

X 1 2 3 4 5 6
Y 1 4 9 16 25 36
prob 1/6 1/6 1/6 1/6 1/6 1/6

Notar que en este caso la probabilidad para cada valor de Y es la misma que la del
correspondiente valor de X. Esto es porque h(x) = x2 es inyectiva en {1, 2, 3, 4, 5, 6}.
La esperanza es entonces
1 1 1
E (Y ) = E X 2 = 12 · + 22 · + . . . + 62 · = 15,167

6 6 6
Es el mismo valor que obtendríamos aplicando la fórmula (9.1). 

Ejemplo 4

Sea g la función g(x) = x2 .Consideremos una variable X con distribución uniforme


en los enteros {−n, . . . , n}. ¿Cuál es la distribución de g(X)?

9-5
Los valores posibles que puede tomar g(X) son los cuadrados

RX 2 = {0, 1, 4, . . . , n2 }.

¿Y con qué probabilidad los toma? La variable toma el valor k2 cuando X toma
uno de los valores −k y k. Como X toma cada uno de sus valores con probabilidad
1/(2n + 1), vemos que

pX 2 (k2 ) = P X 2 = k2 = P (X = −k) + P (X = k)


2
= pX (−k) + pX (k) = .
2n + 1

La esperanza de X es igual a 0. Sin embargo, la esperanza de X 2 es


n n
2
E X2 = ∑ k2 pX 2 (k2) = ∑ k2

k=0 2n + 1 k=0
2 n(n + 1)(2n + 1) n(n + 1)
= · = .
2n + 1 6 3

Notar que, en particular, E X 2 6= E (X)2 .




Si miramos con detalle la cuenta anterior, vemos que hemos probado que
n
E X2 = k2 pX (k),


k=−n

que no es otra cosa que la fórmula (9.1). 

Ejemplo 5
Se lanzan dos dados y X representa la suma de los resultados. Supongamos que
las ganancias de una determinada apuesta están representadas por la variable Y =
X 2 − 6X + 1. ¿Es una buena apuesta?
Debemos calcular la ganancia esperada E (Y ). Usando la fórmula
12
j2 − 6 j + 1 p( j)

E (Y ) = ∑
j=2

en donde p( j) = P (X = j) es la f.p.p. de X, que se muestra en la tabla siguiente:


X 2 3 4 5 6 7 8 9 10 11 12
Y −7 −8 −7 −4 1 8 17 28 41 56 73
prob 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
De aquí resulta que E (Y ) = 83/6 = 13,833.
Dejamos para que verifiquen que se obtiene el mismo resultado aplicando la defini-
ción de valor esperado a la variable Y . 

9-6
Fácil de girar

Difícil de girar

Figura 9.2: Cuanto más dispersión, más difícil es girar en torno al eje que pasa por
el centro de masa el conjunto de bloques.

9-2. La varianza

Nuestro objetivo ahora es definir una media de la dispersión de una variable aleato-
ria. Para esto usaremos una analogía con mecánica.
Imaginemos una distribución de bloques cualquiera, en la cual hemos ubicado el
centro de masa, y supongamos que deseamos girar el tablón respecto del eje vertical
que pasa por el centro masa. ¿Cuándo es más difícil girarlo?
Intuitivamente es claro que si los bloques están muy concentrados sobre su centro
de masa, entonces el girarlos resulta sencillo, y éste se hace cada vez más difícil a
medida que dispersamos los bloques, ver la Figura 9.2. Podemos medir la disper-
sión de un conjunto de bloques alrededor de su centro de masa por la dificultad de
girarlos.
En física existe una cantidad que mide justamente la dificultad que un objeto tiene
a ser girado en torno a un eje. Se llama el momento de inercia, y es como la masa
para movimientos rotatorios. Sin entrar en detalles sobre la definición, recordar que
el momento de una partícula de masa m y velocidad v es p = mv. El momento
angular es la fórmula análoga para movimientos alrededor de un eje: si la partícula
gira entorno a un eje a distancia r, entonces

L = p · r = (mv) · r = (mr2 ) · ω = Iω,

en donde ω es la velocidad angular e I es el momento de inercia.


Si hay muchas partículas de diferentes masas, el momento de inercia es

I = ∑ mi ri2 .
i

9-7
Apliquemos esta fórmula a los nuestros bloques en el tablón. Supongamos que X es
una variable discreta, con recorrido {x1 , x2 , . . .} y función de probabilidad puntual
pi = pX (xi ). Disponemos como antes, para cada i ≥ 1 un bloque de peso pi en la
posición xi .
El centro de masa está en la posición E (X), por lo que la distancia de cada bloque
al centro de masa es
ri = xi − E (X) .
Como la masa es mi = pi , el momento de inercia de X es

I = ∑ (xi − E (X))2 pi .
i≥1

En probabilidad I se llama la varianza de X y se escribe var (X).


Definición de varianza
Sea X una variable discreta con función de probabilidad puntual p(x). La va-
rianza de X es por definición

var (X) = ∑ (x − E (X))2 p(x).


x∈RX

Esta mide la dispersión de X alrededor de su valor esperado.

Más allá del significado físico de la varianza, es importante recordar que la varianza
mide cuán dispersos son los valores de X respecto de su valor esperado. Dicho de
forma sencilla, la varianza mide el “ancho” de la gráfica de la función de probabili-
dad puntual.

p de una variable X se denota por σ o σX . La raíz cuadrada


Muchas veces la varianza 2 2

de la varianza σ = var (X) se llama desvío estándar de X. El desvío σ tiene las


mismas unidades que X, mientras que la varianza tiene las unidades del cuadrado
de X. Por ejemplo, si X se mide en metros, entonces σ 2 tiene unidades de metros
cuadrados. Como σ y X tienen las mismas unidades, se suele usar el desvío como
medida de dispersión.
Ejemplo 6
Para cada una de las variables X, Y , Z y W cuyas f.p.p. se muestran abajo, calcular
la varianza.
valor x 1 2 3 4 5
1.
f.p.p. p(x) 1/5 1/5 1/5 1/5 1/5
valor y 1 2 3 4 5
2.
f.p.p. p(y) 1/10 2/10 4/10 2/10 1/10
valor z 1 2 3 4 5
3.
f.p.p. p(z) 1/2 0 0 0 1/2

9-8
valor w 1 2 3 4 5
4.
f.p.p. p(w) 0 0 1 0 0

p(z) p(x)
1

0 z x
1 2 3 4 5 1 2 3 4 5
p(y) p(w)
1

0 y w
1 2 3 4 5 1 2 3 4 5

Cada una de las variables tiene el mismo valor esperado, igual a 3, pero la probabi-
lidad está distribuida de modo diferente. En los gráficos arriba, hemos ordenado las
f.p.p. de mayor a menor varianza: Z, X, Y , W .
Ahora vamos a verificar nuestra intuición visual calculando la varianza de cada una
de las variables. Lo haremos usando tablas.
valor x 1 2 3 4 5
1. f.p.p. p(x) 1/5 1/5 1/5 1/5 1/5
(X − 3)2 4 1 0 1 4
Var(X) = 45 + 15 + 50 + 15 + 45 = 2
valor y 1 2 3 4 5
2. f.p.p. p(y) 1/10 2/10 4/10 2/10 1/10
(Y − 3)2 4 1 0 1 4
4 2 0 2 4
Var(Y ) = 10 + 10 + 10 + 10 + 10 = 1,2

9-9
valor z 1 2 3 4 5
3. f.p.p. p(z) 1/2 0 0 0 1/2
(Z − 3)2 4 1 0 1 4
20
Var(Z) = 10 + 20
10 = 4

valor w 1 2 3 4 5
4. f.p.p. p(w) 0 0 1 0 0
(W − 3)2 4 1 0 1 4
Var(W ) = 0. Observar que W no varía, es constante igual a 3, por lo que su
varianza es cero.


9-3. Propiedades de la varianza

Usando la fórmula del valor esperado de una función de una variable aleatoria po-
demos escribir de forma más compacta la definición de varianza. De hecho, notar
que si tomamos la función g(x) = (x − E (X))2 , entonces
E (g(X)) = ∑ (x − E (X))2P (X = x) = var (X) .
x∈RX

Es decir, var (X) = E (X − E (X))2 . Por ejemplo, si X es una


 variable centrada,


lo cual quiere decir que E (X) = 0, entonces var (X) = E X .


2

Veamos entonces, algunas propiedades de la varianza que nos permitan simplificar


su cálculo.
La varianza no cambia si sumamos una constante: sean X una variable discreta
y c una constante cualquiera. Entonces var (X + c) = var (X).
La prueba es muy simple: notar que E (X + c) = E (X) + c por la linealidad de la
esperanza. Entonces
var (X + c) = E (X + c − E (X + c))2 = E (X + c − E (X) − c)2
 

= E (X − E (X))2 = var (X) .




La varianza es cuadrática: sean X una variable discreta y c una constante cual-


quiera. Entonces var (cX) = c2 var (X).
La prueba también es muy fácil: notar primero que E (cX) = cE (X), de donde
var (cX) = E (cX − E (cX))2 = E (cX − cE (X))2
 

= E c2 (X − E (X))2 = c2 E (X − E (X))2 = c2 var (X) .


 

Una fórmula útil para la varianza: La varianza de una variable X se puede calcular
mediante la siguiente igualdad
var (X) = E X 2 − E (X)2 .


9-10
Para probarla, basta desarrollar el cuadrado (X − E (X))2 = X 2 + E (X)2 − 2E (X) X,
de donde al tomar esperanza

var (X) = E X 2 + E (X)2 − 2E (X)2 = E X 2 − E (X)2 ,


 

que es lo que queríamos probar.


La varianza de la suma de independientes:
si X e Y son independientes ⇒ var (X +Y ) = var (X) + var (Y ).
Para probar esta propiedad, recordar primero que si X e Y son independientes, en-
tonces E (XY ) = E (X) E (Y ). Entonces, usando que E (X +Y ) = E (X) + E (Y ) vale
siempre, tenemos

var (X +Y ) = E (X +Y − E (X +Y ))2 = E (X − E (X) +Y − E (Y ))2 .


 

Desarrollando el cuadrado, tenemos que el lado derecho de la última ecuación es


igual a

E (X − E (X))2 + E (Y − E (Y ))2 + 2E ((X − E (X))(Y − E (Y ))) .


 

Pero este es a su vez igual a var (X) + var (Y ) + 2E ((X − E (X))(Y − E (Y ))). Lue-
go, basta probar que

E ((X − E (X))(Y − E (Y ))) = 0.

Esto se deduce de

E ((X − E (X))(Y − E (Y ))) = E (XY ) − E (X) E (Y ) = 0,

pues X e Y son independientes.

9-4. Varianza de las distribuciones con nombre

Bernoulli

Sea X una variable con distribución Bernoulli de parámetro p. El valor esperado es


E (X) = p. Entonces, de la definición tenemos

var (X) = (0 − p)2 · (1 − p) + (1 − p)2 · p


= (1 − p) p2 + (1 − p)p = p(1 − p).
 

En la Figura 9.3 se muestra la varianza de X en función de p. Notar que el máximo


se da cuando p = 1/2 y vale var (X) = 1/4.

9-11
1/4

var (X)
p
0 1/2 1

Figura 9.3: Varianza de una variable Bernoulli en función del parámetro p.

Binomial

Si X tiene distribución binomial de parámetros n y p, sabemos que es igual a X1 +


· · · + Xn , en donde cada Xi es una variable Bernoulli de parámetro p, y además las
Xi0 s son mutuamente independientes.
Entonces
var (X) = var (X1 + · · · + Xn ) = var (X1 ) + · · · + var (Xn )
= p(1 − p) + · · · + p(1 − p) = np(1 − p)
Notar que este cálculo es mucho más simple que usar la definición.

Geométrica

Sea X con distribución geométrica de parámetro p. Calculemos la varianza de X.


Recordar que la esperanza de X es igual a 1/p. Entonces, de la definición tenemos
 1
var (X) = E X 2 − E (X)2 = E X 2 − 2 .

p
Falta evaluar el primer término. Notar que éste se puede descomponer en
1
E X 2 = E (X(X − 1)) + E (X) = E (X(X − 1)) + .

p
La esperanza de X(X − 1) es por definición igual a
d2 1
∞ ∞  
k−1 k−2
∑ k(k − 1)p(1 − p) = p(1 − p) ∑ k(k − 1)(1 − p) = p(1 − p) 2
dp p
.
k=1 k=2
Es decir, tenemos que
 2(1 − p) 1
E X2 = + .
p2 p
Juntando todo, nos queda
2(1 − p) 1 1 1 1 1− p
var (X) = + − 2= 2− = 2 .
p 2 p p p p p
Hemos probado entonces que la varianza de una variable geométrica es (1 − p)/p2 .

9-12
Resumen

Distribución Recorrido f.p.p. p(x) E (X) var (X)

Bernoulli(p) 0,1 p(0) = 1 − p, p(1) = p p p(1 − p)

n k n−k
Binomial(n, p) 0, 1, . . . , n p(k) = k p (1 − p) np np(1 − p)

n+1 n2 −1
Uniforme(n) 1, 2, . . . , n p(k) = 1
n 2 12

Geometrica(p) 1, 2, 3, . . . p(k) = p(1 − p)k−1 1


p
1−p
p2

9-13
Clase 10
Variables aleatorias continuas I

10-1. Densidades de probabilidad


10-2. La distribución de Cauchy
10-3. Variables continuas
10-4. Valor esperado y varianza

10-1. Densidades de probabilidad

De las variables que no son discretas, las más importantes para nosotros serán aque-
llas cuya distribución se puede describir mediante densidades de probabilidad. Es-
tas variables se llaman absolutamente continuas, aunque nosotros las llamaremos
simplemente continuas.1 Entre ellas destaca la distribución normal, o campana de
Gauss, que estudiaremos más adelante.
El concepto de densidad de probabilidad es similar al concepto de densidad de masa,
o de densidad de carga (en caso de cargas positivas), que conocemos de los cursos
de física y química. Por ejemplo, la densidad de masa es la cantidad de masa por
unidad de volumen de una sustancia. Ver la Figura 10.1.
La densidad media de un volumen V es por definión
m Masa del cuerpo
pmasa = = .
V Volumen que ocupa
En general, un cuerpo está formado por una enormidad de partículas (del orden de
1024 ), y cada una de ellas tiene una masa muy pequeña. Si no deseamos estudiar
las propiedades moleculares de la materia, muchas veces usamos modelos en los
cuales suponemos que las partículas “se aglomeran” para formar un continuo. De
este modo, cada punto x del sólido tiene masa cero, pero la masa de un volumen
finito, por más chico que sea, es positiva.
1 Existen variables que no son ni discretas, ni absolutamente continuas.

10-1
masa
densidad = volumen

baja densidad alta densidad

igual masa

baja densidad alta densidad

igual volumen

Figura 10.1: La densidad mide el amontonamiento de partículas.

En general nos interesan cuerpos en los cuales la densidad de masa no es uniforme.


Esto es, en el cual la densidad alrededor de un punto puede diferir de la densidad
media; en algunos lugares la densidad es mayor que en otros. Ver Figuara 10.2.
Si ∆kV son pequeños volúmenes decrecientes centrados alrededor de un punto x, la
densidad en el punto es
∆k m dm
pmasa (x) = lı́m = (x).
k→∞ ∆kV dV

La masa total del cuerpo viene entonces dada por la integral


Z
Masa(Cuerpo) = p(x)dV (x),
V

en donde V es la región de R3 que ocupa el cuerpo.


Una densidad de probabilidad juega el mismo papel que la densidad de masa, cam-
biado masa por probabilidad. Como nos centraremos primero en variables aleato-
rias a valores reales, las densidades de probabilidad por el momento serán den-
sidades en un espacio de dimensión uno. Esto equivale a densidades lineales en
física, para las cuales la masa de un pequeño intervalo ∆x centrado en el punto x
es ∆m(x) ≈ p(x)∆x, ver la Figura 10.3. La única diferencia entre las densidades de
masa y las densidades de probabilidad, es que estas últimas deben integrar siempre
1 pues la probabilidad total del espacio es siempre 1.
Antes de comenzar con los ejemplos probabilísticos, es importante notar que las
unidades de la densidad de masa no son las unidades de masa. De hecho, la densidad
lineal tiene unidades de masa por unidad de longitud (Kg/m). Del mismo modo, las
densidades de probabilidad no tendrán unidades de probabilidad (las unidades de
probabilidad se pueden pensar como porcentajes), sino que tendrán unidades de,
por ejemplo, probabilidad por unidad de longitud ( %/m). Por tanto, las densidades

10-2
Uniforme
%( x)

No uniforme
%( x)

Figura 10.2: Una densidad no uniforme.

∆m(x) ≈ %(x)∆x
%( x)

Figura 10.3: La masa de un pequeño intervalo ∆x centrado en un punto x de un


objeto con dimensión lineal está dada por ∆m(x) ≈ p(x)∆x.

10-3
Gas

pantalla

x=0
∆x

Figura 10.4: Gas en un contenedor que tiene un pequeño agujero.

de probabilidad no son probabilidades, pero están relacionadas a estas de la misma


forma que la densidad de masa está relacionada a la masa.

10-2. La distribución de Cauchy

Imaginemos un gas en un contenedor que tiene un pequeño agujero como se muestra


en la Figura 10.4. Las moléculas del gas chocan contra las paredes del contenedor,
pero algunas logran escapar por el agujero. La zona inmediata a las paredes del
contenedor se mantiene al vacío, de modo que las moléculas que salen por el agu-
jero viajan en linea recta hasta que chocan contra una pantalla que funciona como
detector. La pantalla está a distancia L de las paredes del contenedor.
Nos gustaría conocer la probabilidad de que una molécula, que sale del contenedor
por el agujero, choque a la pantalla a una distancia x del centro de la figura. Por
supuesto, la probabilidad de que la molécula alcance a la pantalla a una distancia
exactamente igual a x es cero, así que debemos discretizar el modelo y dividir el
rango de valores posibles en intervalos.
Llamemos X a la variable aleatoria que indica la distancia al centro (con signo
negativo del lado izquierdo) a la cual choca una molécula del gas con la pantalla.
No existen límites, ni superior ni inferior, para los valores de X, de modo que el
recorrido de la variable coincide con la recta real R.
Dividimos la recta en intervalos, todos de longitud ∆x, con extremos en los puntos
0, ±∆x, ±2∆x, . . .. Llamemos a estos intervalos

Ik = [k∆x, (k + 1)∆x] ,

con k entero. Denotamos además por Pk (∆x) = P (X ∈ Ik ) la probabilidad de que


una molécula choque a la pantalla en el intervalo Ik .
Para calcular Pk (∆x), vamos a suponer que las direcciones con las cuales salen las
moléculas por el agujero son todas igualmente probables. Las moléculas entonces

10-4
θk

Ik

Figura 10.5: Ángulo que sustenta Ik .

no salen con una dirección preferida, sino que la distribución de los ángulos de
salida de las moléculas es uniforme en un intervalo de longitud π.
Debemos calcular entonces el ángulo que sustenta el intervalo Ik visto desde el
centro del agujero. Llamemos a este ángulo θk (ver la Figura 10.5).
Un poco de trigonometría permite concluir que
L∆x
θk ≈ ,
L2 + (k∆x)2
siendo la aproximación cada vez mejor a medida que ∆x se hace más pequeño.
Entonces
θk L∆x
Pk (∆x) = ≈ .
π π (L + (k∆x)2 )
2

Notar que al achicar ∆x, la probabilidad de que X caiga en Ik se achica también. De


hecho, tenemos que
∆x
Pk (∆x) ≤ → 0,
πL
cuando ∆x tiende a cero. Esto no es sorprendente pues sabemos que la probabilidad
de que X valga un determinado valor puntual es cero.
Que estas probabilidades sean pequñas dificulta su visualización gráfica. Sin em-
bargo, el siguiente truco nos permite evadir la dificultad. En lugar de graficar direc-
tamente los valores de Pk (∆x), podemos hacer un gráfico de barras en el cual estas
probabilidades vengan dadas por las áreas de las barras. Esto equivale a graficar
barras rectangulares, cuyas bases sean los intervalos Ik , que son todos de longitud
∆x, y sus alturas sean
Pk (∆x) L
pk = ≈ .
∆x π (L + (k∆x)2 )
2

Por tanto, las probabilidades se leerán del gráfico midiendo áreas en lugar de alturas.
En la Figura 10.6 se muestra la aproximación de Pk (∆x) con ∆x = 0,1 para el valor
de L = 1. Más adelante veremos como el parámetro L influye sobre la forma de la
distribución.
En este gráfico las áreas de las barras representan las probabilidades Pk (∆x). Notar
que el máximo se da en k = 0 y vale 1/π. Las alturas de las barras representan pk la
densidad de probabilidad media de cada intervalo Ik .

10-5
%k

x
−3 −2 −1 0 1 2 3

Figura 10.6: Aproximación de Pk (∆x) con ∆x = 0,1 para el valor de L = 1.


%

x
−3 −2 −1 0 1 2 3

Figura 10.7: Gráfico de la densidad límite.

Veamos a qué converge este gráfico cuando ∆x tiende a cero. Fijemos x un real
cualquiera y tomemos k un entero tal que x pertenezca al intervalo Ik . No es difícil
ver que para este valor de k, se tiene que k∆x ≈ x. Esta aproximación es cada vez
mejor a medida que decrece ∆x. Entonces
Pk (∆x) L
pk = → ,
∆x π (L + x2 )
2

cuando ∆x tiende a cero. Llamando a este límite p(x), concluimos que el gráfico de
barras converge a medida que ∆x tiende a cero al gráfico de la función p(x). Ver la
Figura 10.7.
Para resumir, si en lugar de graficar directamente las probabilidades Pk (∆x), gra-
ficamos las densidades medias de probabilidad pk , entonces el gráfico converge al
gráfico de la densidad de probabilidad p que está definida por
Pk (∆x) L
p(x) = lı́m = .
∆x→0 ∆x π (L + x2 )
2

Esta densidad se conoce con el nombre de densidad de Cauchy.


Una manera informal de interpretar la densidad p(x) es la siguiente: al tomar límite
cuando ∆x tiende a cero, podemos reemplazar ∆x por el infinitésimo dx, de modo
que p(x)dx representa la probabilidad de que la variable X caiga en un intervalo
infinitesimal centrado en el punto x de longitud dx.

10-6
%k

P k2
k=k 1
Pk (∆x)

x
k1 k2

Figura 10.8: Aproximación discreta de la probabilidad de que X caiga en el intervalo


[a, b].
%

R b
a
%(x)dx

x
a b

Figura 10.9: La probabilidad de que X caiga en el intervalo [a, b] está dada por el
área bajo el gráfico de la densidad p(x).

Consideremos un intervalo I = [a, b] en R, y calculemos la probabilidad de que X


caiga en I. Para un cierto valor fijo de ∆x, tomemos k1 ∆x el extremo más cercano a
a y k2 ∆x el más cercano a b. Entonces (ver la Figura 10.8)
k2 k2 k2
L
P (X ∈ I) ≈ ∑ P (X ∈ Ik ) = ∑ Pk (∆x) = ∑ ∆x.
k=k1 k=k1 k=k1 π (L2 + (k∆x)2 )
Estas son sumas de Riemann de la función p(x), por lo que al hacer ∆x tender a cero
obtenemos (ver Figura 10.9)
Z b
P (X ∈ I) = p(x)dx.
a
Dicho en palabras, la probabilidad de que X caiga en un intervalo I es igual al área
de la región comprendida entre I y el gráfico de la función p.
En particular, tomando el intervalo I igual a toda la recta, vemos que
Z +∞
p(x)dx = P (X ∈ R) = 1.
−∞
Esto simplemente refleja el hecho de que las moléculas tocarán la pantalla en algún
lugar de la recta. Esta propiedad es general: el área debajo la curva de una densidad
de probabilidad es siempre igual a 1.

10-7
%

L = 1/4

L=2

x
−3 −2 −1 0 1 2 3

Figura 10.10: El parámetro L indica el “ancho” de la distribución.

Podemos verificar directamente que la integral es uno en este caso. Notar primero
que la primitiva de p es
Z b
L

1  x b
dx = arctan .
a π (L2 + x2 ) π L a

Luego, al tomar límites cuando a → −∞ y b → +∞ obtenemos


L
Z +∞
dx = 1.
−∞ π (L2 + x2 )

Podemos intuir la influencia de L en la forma de la distribución de X, pensando físi-


camente en casos extremos para los cuales L es pequeño o respectivamente grande.
Si la pantalla está muy cerca del agujero, la mayoría de las moléculas chocaran
cerca del centro, por lo que la distribución de X se concentra más sobre x = 0. Recí-
procamente, cuando la pantalla está muy lejos del agujero, una pequeña diferencia
de ángulos hace que las moléculas toquen la pantalla en lugares muy distantes. Esto
da como resultado una distribución de X mucho más esparcida, en donde el ancho
de la campana es mayor. Esto lo podemos ver fácilmente en la Figura 10.10.
De hecho, L es un indicador de cuán lejos caen las moléculas sobre la pantalla. Por
ejemplo
Z kL
L arctan(k) − arctan(−k)
P (|X| ≤ kL) = dx = .
−kL π (L2 + x2 ) π

Para k = 1 el resultado es P (|X| ≤ L) = 1/2, por lo que esperamos ver que la mitad
de las moléculas caen a una distancia menor que L del origen. Para k = 2 vemos que
P (|X| ≤ 2L) ≈ 0,70 y para k = 3 es aproximadamente 0,80.

10-8
%

1
Long(I )

x
I

Figura 10.11: Densidad de la distribución uniforme.

10-3. Variables continuas

Una densidad de probabilidad es una función p : R → R integrable que cumple las


dos condiciones siguientes:
1. Es positiva: p(x) ≥ 0 para todo x ∈ R;
2. Integra uno: Z +∞
p(x)dx = 1.
−∞

Es importante hacer notar dos cosas:


La primera es que una densidad de probabilidad no tiene porqué ser menor o
igual a uno. Por ejemplo, la densidad de Cauchy alcanza el máximo en x = 0
y este vale 1/πL, que es mayor que 1 si L < 1/π.
La segunda es que una densidad de probabilidad no tiene porque ser continua.
Consideremos el siguiente ejemplo: supongamos que el experimento consiste
en elegir un punto X con distribución uniforme en un intervalo I. Sabemos
que para todo intervalo J, contenido o no en I, la probabilidad de que X caiga
en J viene dada por
Long(J ∩ I)
P (X ∈ J) = .
Long(I)
Esto lo podemos escribir de la siguiente manera
(
1
si x ∈ I;
Z
P (X ∈ J) = p(x)dx, en donde p(x) = Long(I)
J 0 si x ∈
/ I.

Claramente p no es continua en los extremos de los intervalos, pues tiene un


salto de cero a una constante positiva en dichos puntos. Ver la Figura 10.11.
En general, si el recorrido de una variable continua está contenido en un in-
tervalo, la densidad es igual a cero fuera del intervalo.

10-9
Ahora que disponemos de la noción de densidad de probabilidad, podemos definir
las variables aleatorias absolutamente continuas.
Variable aleatoria absolutamente continua
Una variable aleatoria X es absolutamente continua si existe una densidad de
probabilidad p tal que Z
P (X ∈ I) = p(x)dx,
I
para todo intervalo I de R. Para indicar que p es la densidad de X a veces
escribiremos pX .

Ejemplo 1

Sea X una variable aleatoria con densidad p(x) = Cx2 en [0, 1]. Hallar el valor de la
constante C.
Como la probabilidad total debe ser igual a 1, tenemos
Z 1 Z 1
p(x)dx = 1 ⇔ Cx2 dx = 1.
0 0

Evaluando la integral, la ecuación derecha se convierte en C/3 = 1, es decir C = 3.


Calcular P (X ≤ 1/2). Por definición, debemos integrar
Z 1/2 Z 1/2
P (X ≤ 1/2) = p(x)dx = 3x2 dx = 1/8.
0 0

Ejemplo 2
Sean X e Y las coordenadas de un punto elegido al azar en el interior del siguiente
polígono
(0,1)

(-1,0) (1,0)

(0,-1)

Hallar la densidad Z = |X| + |Y |.


Observar primero que Z toma valores en [0, 1]. Para z ∈ [0, 1], el evento {z ≤ Z ≤

10-10
z + dz} consiste de aquellos puntos que están dentro de la banda

z + dz
z


lado exterior de la banda es igual a 2(z + dz), y análogamente el lado interior
El √
es 2z. Como el área del polígono es 2,

2(z + dz)2 − z2
P (z ≤ Z ≤ z + dz) = = 2z dz + dz2 .
2
Dividiendo por dz y tomando límite cuando dz tiende a cero, obtenemos

2z dz + dz2
p(z) = lı́m = lı́m 2z + dz = 2z.
dz→0 dz dz→0

La densidad de Z es entonces 2z en [0, 1]. 

Función de distribución acumulada

Al igual que para variables discretas, definimos la función de distribución (acumu-


lada) de una variable continua X como
Z x
F(x) = P (X ≤ x) = p(u)du.
−∞

Igual que antes, escribimos FX cuando queremos resaltar la variable X. Notar que la
única diferencia es que remplazamos la suma por una integral. Visualmente la f.d.a.
es el área debajo del gráfico de la densidad de X a la izquierda de x.
La f.d.a. cumple las misma propiedades, que si recuerdan bien fueron probadas en
total generalidad usando los axiomas de Kolmogorov. Recordemos las principales:
0 ≤ F(x) ≤ 1
F(x) es no-decreciente, i.e. si x ≤ y entonces F(x) ≤ F(y).
lı́mx→−∞ F(x) = 0 y lı́mx→+∞ F(x) = 1
P (a < X ≤ b) = F(b) − F(a)

10-11
Además, la f.d.a. de una variable continua verifica
F(x) es continua, pues P (X = x) = 0 para todo x ∈ R;
F 0 (x) = p(x) en todo punto x en donde F es derivable.
Esta segundo propiedad es muy útil para calcular la densidad de una variable.
Ejemplo 3
Sea X la variable definida en el Ejemplo 1. Hallar su f.d.a..
La densidad de X es p(x) = 3x2 en [0, 1]. Luego, para x ∈ [0, 1], tenemos
Z x Z x
F(x) = p(u)du = 3u2 du = x3 .
0 0

Además, si x < 0 entonces F(x) = 0, y si x > 1 entonces F(x) = 1. Así que



0 si x < 0;

F(x) = x3 si 0 ≤ x ≤ 1;
1 si x > 1.

Observar que P (X ≤ 1/2) = F(1/2) = 1/8 como habíamos calculado antes. 

Ejemplo 4
Hagamos de nuevo el Ejemplo 2, pero usando ahora la última propiedad menciona-
da anteriormente. Para z ∈ [0, 1], el evento {Z ≤ z} consiste de aquellos puntos en
el interior del polígono de vértice z:

Como el área del polígono es 2z2 , vemos que F(z) = P (Z ≤ z) = 2z2 /2 = z2 .

10-12
Si z > 1 entonces F(z) = 1, y si z < 0 entonces F(z) = 0. Resulta entonces

0 si z < 0;

F(z) = z2 si 0 ≤ z ≤ 1;
1 si z > 1.

Está función es derivable, excepto en 0 y 1. En todos los demás puntos


(
2z si z ∈ (0, 1);
p(z) = F 0 (z) =
0 si z ∈ / [0, 1].

Obtenemos así el mismo resultado que aplicando la definición de densidad. 

10-4. Valor esperado y varianza

¿Cómo podemos definir la esperanza de una variable continua X? La idea es muy


simple. Imaginemos que dividimos la recta real en intervalos de longitud ∆xk cen-
trados en puntos xk . Llamemos X0 a la variable discreta que vale xk cuando X cae
en el intervalo centrado en xk . Notar que la probabilidad de que X0 valga xk es apro-
ximadamente igual a p(xk )∆xk .
La esperanza de X0 es por definición

E (X0 ) = ∑ xk P (X0 = xk ) = ∑ xk p(xk )∆xk .


k k

Si los intervalos ∆xk son todos pequeños, esta suma es aproximadamente igual a la
integral de xp(x).
Esperanza de una variable continua
La esperanza de una variable continua X con densidad p(x) se define como
Z +∞
E (X) = xp(x)dx.
−∞

La esperanza de variables continuas verifica las mismas propiedades que la espe-


ranza de variables discretas. Repasemos aquí las más importantes:
Esperanza de la suma: E (X +Y ) = E (X) + E (Y )
R +∞
Esperanza de una función de una variable: E (g(X)) = −∞ g(x)pX (x)dx
Las constantes salen para afuera: E (cX) = cE (X).
R +∞
Fórmula para variables positivas: si X ≥ 0 ⇒ E (X) = 0 (1 − F(x))dx
A modo de ejemplo, demostremos esta última propiedad. Recordar que 1 − F(x) =

10-13
P (X > x), por lo que
Z ∞ Z ∞ Z ∞Z ∞
(1 − F(x))dx = P(X > x)dx = p(u)dudx
0 0 0 x
Z ∞Z u Z ∞ Z u
= p(u)dxdu = p(u) dxdu
Z0 ∞
0 0 0

= up(u)du = E (X) .
0

Ejemplo 5
Sea X la variable del Ejemplo 4. Calcular E (X).
La densidad de Z es p(z) = 2z en [0, 1]. Por definición
Z 1 Z 1
E (Z) = z · (2z)dz = 2z2 dz = 2/3.
0 0

Como Z ≥ 0, podemos usar también la fórmula que acabamos de probar. En este


caso 1 − F(z) = 1 − z2 si z ∈ [0, 1], y 0 si z > 1, por lo que
Z ∞ Z 1
(1 − F(z))dz = (1 − z2 )dz = 1 − 1/3 = 2/3.
0 0

Ambas formas de proceder son válidas. 

Usando el mismo tipo de analogía que con el caso discreto:


Varianza de variables continuas
Sea X una variable continua con densidad p(x). Denotamos por µ = E (X), la
varianza de X se define como
Z +∞
2
(x − µ)2 p(x)dx.

var (X) = E (X − µ) =
−∞

También usaremos la notación σ 2 = var (X) y llamaremos desvío estándar a σ .

La varianza de variables continuas tiene las mismas propiedades que la varianza de


variables discretas:
La varianza no cambia si sumamos una constante: var (X + c) = var (X).
La varianza es cuadrática: var (cX) = c2 var (X).
Fórmula alternativa: var (X) = E X 2 − E (X)2 .


Si bien algunas de las propiedades de la varianza y la esperanza son fáciles de


probar a partir de la definción que hemos dado, algunas de ellas son más difíciles.
Por ejemplo, no es cierto que la suma de dos variables X + Y sea absolutamente
continua, por más que tanto X como Y lo sean. Para poder demostrar la linealidad en

10-14
general de la esperanza, que sí es cierta, debemos dar una definción diferente de la
esperanza. Esto lo haremos más adelante. Por ahora asumiremos sin demostración
que todas las propiedades de la esperanza y la varianza que valen para variables
discretas, también valen para variables continuas.
Ejemplo 6
Sea X con distribución uniforme en (a, b). Calcular E (X) y var (X).
Un simple cambio de escala transforma el intervalo (a, b) en (0, 1). La distribución
uniforme en (a, b) se transforma en la distribución uniforme en (0, 1), cuya densidad
es simplemente 1 en (0, 1) y 0 en cualquier otro lugar.
En términos de variables aleatorias, cualquier problema que involucre una varia-
ble aleatoria X, uniforme en (a, b), se reduce fácilmente a uno que involucre una
variable aleatoria U uniforme en (0, 1), definida por
X −a
U= , o X = a + (b − a)U.
b−a
Este tipo de cambio de escala, o cambio lineal de variable, es una técnica básica
para reducir los problemas al caso más simple y evitar cálculos innecesarios.
Para ilustrarlo, el valor esperado de X es

E (X) = E (a + (b − a)U) = a + (b − a)E (U)


1 a+b
Z 1
= a + (b − a) udu = a + (b − a) =
0 2 2
Esto es obvio de todas maneras debido a la simetría de la distribución respecto al
punto medio del intervalo (a, b). La varianza de X es

var (X) = var (a + (b − a)U) = (b − a)2 var (U)


h i
2
= (b − a) E U − E (U)
2 2

h i
= (b − a)2 E U 2 − 1/4


La esperanza de U 2 es la integral
Z 2 h i1
u2 du = u3/3 = 1/3,
0 0

de donde
h i (b − a)2
var (X) = (b − a)2 1/3 − 1/4 = .
12


10-15
Clase 11
Variables aleatorias continuas II

11-1. Distribución Exponencial


11-2. Cambio de variable
11-3. Densidad conjunta e independencia

11-1. Distribución Exponencial

La distribución exponencial es la versión continua de la distribución geométrica.


En general se puede pensar a X como el tiempo que hay que esperar hasta que un
éxito ocurra, siendo el tiempo en este caso continuo. En general se puede pensar a
X como el tiempo de vida útil de un objeto.
Variable exponencial
Decimos que una variable aleatoria X tiene distribución exponencial de tasa (o
parámetro) λ > 0, y lo notamos X ∼ Exp(λ ), si X es absolutamente continua y
tiene densidad (
λ e−λ x si x ≥ 0,
p(x) =
0 si x < 0.
En la Figura 11.1 se muestra esta densidad para distintos valores de λ .

De forma equivalente, para 0 ≤ a ≤ b tenemos


Z b h ib
P (a < X ≤ b) = −λt
λe dt = e−λt
= e−λ a − e−λ b .
a a

Para ver que la densidad exponencial está bien definida, basta tomar a = 0 y b = +∞
en la ecuación anterior y observar que la integral es 1. Si tomamos a = t > 0 y
hacemos b = +∞, deducimos una expresión para la función de supervivencia

P (X > t) = e−λt .

Esta función decae exponencialmente a medida que t tiende a +∞.

11-1
Figura 11.1: Densidad de una variable aleatoria con distribución Exponencial de
parámetro λ .

Una consecuencia importante de la expresión anterior es que la densidad exponen-


cial presenta la propiedad de pérdida de memoria:

e−λ (t+s)
P (X > t + s|X > t) = = e−λ s = P (X > s) .
e−λt
Si X representa el tiempo de vida útil de un objeto, la propiedad de pérdida de me-
moria dice que dado que ha sobrevivido hasta tiempo t, las chances de que sobreviva
un tiempo adicional s son las mismas que las de sobrevivir un tiempo s contando
desde el comienzo.
Algunos “objetos”, como los átomos o los componentes eléctricos, tienen esta pro-
piedad, y por lo tanto, su tiempo de vida se ajusta bien a una distribución exponen-
cial. Pero la mayoría de las formas de vida biológicas no se ajustan a una distribu-
ción exponencial del tiempo de vida, porque experimentan un proceso de envejeci-
miento.
Para algo con una vida útil distribuida exponencialmente, λ es el valor constante
de la tasa de mortalidad instantánea o de riesgo instantáneo. Es decir, λ mide la
probabilidad de muerte por unidad de tiempo justo después del tiempo t, dada la
supervivencia hasta el tiempo t. Para ver por qué, si consideramos un tiempo t y
otro período de tiempo ∆, calculamos

P (X ≤ t + ∆|X > t) = 1 − P (X > t + ∆|X > t)


= 1 − P (X > ∆) (pérdida de memoria)
= 1 − e−λ ∆ ≈ λ ∆

para valores pequeños de ∆.


Menos formalmente, para un incremento de tiempo infinitesimal dt, el resultado de
este cálculo es que
P (t < X ≤ t + dt)
P (X ≤ t + dt|X > t) = λ dt, o que p(t) = = λ P (X > t) .
dt

11-2
Como el lado izquierdo es la densidad de X en el tiempo t, esto explica por qué la
densidad exponencial en t es la tasa de riesgo λ multiplicada por la probabilidad
e−λt de supervivencia hasta el tiempo t: p(t) = λ P (X > t). La característica de los
tiempos de vida distribuidos exponencialmente es que la tasa de riesgo es constante,
no dependiente de t. Otras distribuciones continuas en [0, +∞) corresponden a tasas
de riesgo dependientes del tiempo λ (t).
Ejemplo 1
Calculemos la esperanza y la varianza de una variable exponencial de parámetro λ .
La esperanza es
1
Z ∞ Z ∞ Z ∞
E (X) = (1 − F(t))dt = P (X > t) dt = e−λt dt = .
0 0 0 λ
Notar la analogía con la distribución exponencial de parámetro p, para la cual la
esperanza es 1/p.
Para la varianza usaremos la fórmula var (X) = E X 2 − E (X)2 . El primer término


lo obtenemos integrando por partes dos veces:


1 1  −u 2 2
Z ∞ Z ∞ ∞
−λt
E X 2
t λe
2
dt = 2 u2 e−u du =

= 2
−e (u + 2u + 2) 0
= 2.
0 λ 0 λ λ

Por tanto var (X) = 1/λ 2 . 

Ejemplo 2
Bajo condiciones de uso constantes, algunos tipos de componentes eléctricos, por
ejemplo, fusibles y transistores, tienen una distribución de tiempo de vida que se
ajusta bien por una distribución exponencial.
Tal componente no se desgasta gradualmente. Por el contrario, deja de funcionar
de forma repentina e impredecible. No importa cuánto tiempo haya estado en uso
el componente, la probabilidad de que sobreviva un intervalo de tiempo adicional
de longitud ∆ es siempre la misma. Esta probabilidad debe ser e−λ ∆ para alguna
tasa λ , llamada tasa de falla en este contexto. La distribución de vida es entonces
exponencial con la tasa λ . En general, mientras siga funcionando, tal componente
es tan bueno como uno nuevo.
Supongamos que la tasa es λ = 0,01 por hora. Estimemos la probabilidad de que el
transistor funcione por 50 horas. Basta calcular

P (X > 50) = e−λ 50 = e−0,5 ≈ 0,606.

Dado que el transistor ha estado funcionando por 50 horas, ¿cuál es la probabilidad


de que falle en el próximo minuto de uso?
De la interpretación de λ = 0,01 como la tasa de falla instantánea por hora, dado

11-3
que se ha sobrevivido 50 horas, la probabilidad es aproximadamente 0,01 × 1/60 ≈
0,00017. 

Ejemplo 3
Los átomos de isótopos radiactivos como carbono 14, uranio 235 o estroncio 90
permanecen intactos hasta un instante aleatorio cuando se descomponen repentina-
mente, lo que significa que se dividen o se convierten en otro tipo de átomo y emiten
un pulso de radiación o partículas de algún tipo.
Este decaimiento radioactivo puede detectarse mediante un contador Geiger. Sea X
el tiempo de vida, o el tiempo hasta la descomposición, de tal átomo, comenzando
en algún momento arbitrario cuando el átomo está intacto. Es razonable suponer
que la distribución de X debe tener la propiedad de pérdida de memoria. En con-
secuencia, hay una tasa λ , la tasa de desintegración para el isótopo en cuestión, tal
que X tiene una distribución exponencial de parámetro λ .
Las probabilidades aquí tienen una interpretación clara debido a la gran cantidad de
átomos típicamente involucrados (por ejemplo, unos pocos gramos de una sustancia
contien del orden de 1024 átomos). Supongamos que un gran número N de tales
átomos se descomponen independientemente el uno del otro. Entonces, según el
teorema de Bernoulli, la proporción de estos N átomos que sobrevive hasta el tiempo
t está cerca de e−λt , la probabilidad de supervivencia para cada átomo individual.
Este decaimiento exponencial de la masa de la sustancia radiactiva se ha verifica-
do experimentalmente, lo que confirma la hipótesis de que las vidas de los átomos
individuales se distribuyen exponencialmente. Las tasas de decaimiento λ para isó-
topos individuales se pueden medir con gran precisión, utilizando este decaimiento
exponencial de la masa. Estas tasas no muestran una dependencia aparente de las
condiciones físicas, como la temperatura y la presión.
Una forma común de indicar la tasa de decaimiento de un isótopo radiactivo es la
vida media τ. Este es el tiempo que demora la desintegración de la mitad de la
cantidad inicial del isótopo. Por lo que

e−λ τ = 1/2 o τ = ln(2)/λ .

En otras palabras, la vida media τ es la mediana de la distribución del tiempo de


vida del átomo
1
P (X ≤ τ) = P (X > τ) = .
2
El estroncio es un componente particularmente peligroso de los residuos de las ex-
plosiones nucleares. La sustancia es tóxica, se absorbe fácilmente en los huesos
cuando se come, y tiene una larga vida media de aproximadamente 28 años. Supo-
niendo este valor para la vida media, calculemos:

11-4
1. La tasa de decaimiento λ : por lo anterior, esta es

ln(2)
λ= = 0,0248 por año.
τ

2. La probabilidad de que un átomo de estroncio 90 sobreviva al menos 50 años


es
P (X > 50) = e−λ 50 = e−0,0248×50 = 0,29.

3. La proporción de un gramo de estroncio 90 que queda después de 50 años es


0.29, pues esta es la probabilidad que calculamos antes.
4. El número de años que deben transcurrir luego de una explosión nuclear para
que el 99 % del estroncio producido haya decaído es

e−0,0248t = 1/100 de dondet = ln(100)/0,0248 ≈ 186 años.

Ejemplo 4
Vamos a hacer un modelo de la atmósfera basado en la distribución exponencial.
Supondremos que la atmósfera es un gas ideal y que se encuentra en equilibrio
térmico a temperatura constante T .
Denotemos por n(h) la densidad de moléculas de gas a la altura h:

# de moléculas a la altura h
n(h) = .
unidad de volumen
De la ecuación de estado de los gases idealesa sabemos que

P(h) = n(h)kT.

Además, para que el aire esté en equilibrio, debemos tener

P(h + dh) + mgn(h)dh = P(h),

en donde m es la masa de una molécula de aire y g la aceleración de la gravedad (que


suponemos constante). Escribiendo dP = P(h + dh) − P(h), podemos reescribir la
relación anterior como
dP
P0 (h) = = −mgn(h).
dh
Derivando la ecuación de los gases P0 (h) = kT n0 (h), de donde obtenemos la ecua-
ción
mg
n0 (h) = − n(h),
kT
cuya solución es n(h) = n(0)e−mgh/kT .

11-5
Observar que mgh es la energía potencial Eh de una molécula de aire a la altura h.
El cálculo que hemos hecho nos dice que la probabilidad de encontrar una molécula
de aire con energía (cercana a) Eh es proporcional a e−Eh /kT .
Es decir, la distribución de energías de las moléculas de aire es exponencial de
parámetro 1/kT . En física esta distribución se llama distribución de Boltzmann. 
a Usualmente se la escribe PV = nRT en donde n es el número de moles. Como estamos usando
número de partículas hemos escrito la constante como k.

11-2. Cambio de variable

Muchos problemas requieren encontrar la distribución de alguna función de X, di-


gamos Y = g(X), a partir de la distribución de X. Supongamos que X tiene densidad
pX (x). Entonces mientras la función y = g(x) tenga derivada dy/dx que no se anula
en ningún intervalo del rango de X, la variable aleatoria Y = g(X) tiene una densi-
dad pY (y) que puede calcularse en términos de pX y la derivada dy/dx. Cómo hacer
este cálculo es el tema de esta sección.

Cambio de variable lineal

Para ver por qué entra la derivada, observemos primero qué sucede si realizamos
un cambio lineal de variable. Para una función lineal y = ax + b, la derivada es la
constante dy/dx = a. La función expande o contrae la longitud de cada intervalo
por el mismo factor de |a|.
Ejemplo 5
Supongamos que X tiene distribución uniforme en (0, 1), con densidad
(
1 si 0 < x < 1;
pX (x) =
0 si no.

Entonces, para a > 0 vemos que Y = aX +b tiene distribución uniforme en (b, b+a)
con densidad (
1/a si b < x < b + a;
pY (x) =
0 si no.
De forma similar, si a < 0, entonces Y = aX + b tiene distribución uniforme en
(b + a, b) con densidad
(
1/|a| si b + a < x < b;
pY (x) =
0 si no.

11-6
Densidad de X Densidad de 2X
2 2

1 1

0 0
-1 0 1 2 -1 0 1 2

Densidad de 2X − 1 Densidad de 0,5X

2 2

1 1

0 0
-1 0 1 2 -1 0 1 2

Densidad de 0,5X + 1 Densidad de −0,5X

2 2

1 1

0 0
-1 0 1 2 -1 0 1 2

Figura 11.2: Cambio lineal de variable para densidades uniformes. Los gráficos
muestran las densidades de Y = aX + b para varios a y b, donde X tiene distribución
uniforme en (0, 1). Observese cómo si a > 1 el rango se expande y la densidad
disminuye. Y si 0 < a < 1, el rango se contrae y la densidad aumenta. Al sumar
b > 0 se traslada hacia la derecha, y al sumar b < 0 se traslada hacia la izquierda.

Se puede pensar que la densidad de Y = aX + b en y es la densidad de X en el punto


correspondiente x = (y − a)/(b − a). Pero esto debe dividirse por |a|, porque la densidad
de probabilidad da la probabilidad por unidad de longitud, y la transformación de x
a ax + b multiplica la longitud por el factor |a|. Ver la Figura 11.2.
La densidad de Y = aX + b es entonces
y−b
 
1
pY (y) = pX
|a| a

Esta fórmula es completamente general. 

Cambio de variable diferenciable inyectivo

Sea X una variable aleatoria con densidad pX (x) en el intervalo (a, b). Sea Y =
g(X), donde g es estrictamente creciente o estrictamente decreciente en (a, b). √
Por
ejemplo, X podría tener distribución exponencial en (0, +∞) e Y podría ser X , X
2

o 1/X. El rango de Y es entonces un intervalo de extremos g(a) y g(b).


El objetivo ahora es calcular la función de densidad pY (y) para y en el rango de
Y . Para un intervalo infinitesimal dy alrededor de y, el evento {Y ∈ dy} es idéntico
al evento {X ∈ dx}, donde dx es un intervalo infinitesimal alrededor del único x
tal que y = g(x). Ver la Figura 11.3, donde cada una de las dos áreas sombreadas

11-7
representa la probabilidad del mismo evento

P (Y ∈ dy) = P (X ∈ dx) con y = g(x).

Esta igualdad se traduce en términos de densidades en

pY (y)dy = pX (x)dx,

y por lo tanto
dx 1
pY (y) = pX (x) = pX (x) con y = g(x).
dy dy/dx
El caso de una función decreciente g es similar, excepto que la derivada dy/dx ahora
tiene signo negativo. Este signo debe ser ignorado porque es solo la magnitud de la
relación de longitudes de intervalos pequeños lo que es relevante.
Cambio de variable inyectivo
Sea X una variable aleatoria con densidad pX (x) en el intervalo (a, b), e Y =
g(X) con g es creciente o decreciente. Entonces Y toma valores entre g(a) y
g(b), con densidad

1
pY (y) = pX (x) con y = g(x).
|dy/dx|

La ecuación y = g(x) se debe resolver para x en términos de y, y este valor de x


sustituirse en pX (x) y dy/dx. Esto dará una expresión para pY (y) enteramente en
términos de y.
Ejemplo 6
Sea X con distribución −x
√ exponencial de densidad pX (x) = e con x ≥ 0. Calculemos
la densidad de Y = X.
Para empezar,
√ el recorrido de Y es también el intervalo [0, +∞). La función y =
g(x) = x es biyectiva en [0, +∞),√y podemos resolver x en función de y pues
x = y2 . La derivada es dy/dx = 1/2 x.
Luego, si sustituimos
1 1
pX (x) = √ e−x
|dy/dx| 1/2 x
2
de donde deducimos que pY (y) = 2ye−y para y ≥ 0. 

Cambio de variable en el caso general

Supongamos que la función y = g(x) tiene una derivada que es cero solo en un
número finito de puntos. Ahora algunos valores de y pueden provenir de más de un
valor de x. Consideremos Y = g(X) para una variable aleatoria X. Como se muestra

11-8
2

y + dy = g(x + dx)

pY (y) y = g(x)

x x + dx
0 0 pX (x) 4

Figura 11.3: Cambio de variable para densidades.


√ El diagrama muestra el gráfico de
y = g(x) para la función creciente g(x) = x, x > 0. La densidad pX (x) se grafica
invertida abajo del eje de las x. La densidad pY (y) se grafica al costado del eje de
las y.

y = g(x)

y + dy

x1 x2

Figura 11.4: Varios valores de x pueden dar el mismo valor de y = g(x).

11-9
en la Figura 11.4, Y estará en un intervalo infinitesimal dy cerca de y cuando X está
en uno de los posibles intervalos infinitesimales dx cerca de x tal que g(x) = y.
Entonces
P (Y ∈ dy) = ∑ P (X ∈ dx) ,
x:g(x)=y

de donde deducimos:
Fórmula general
1
pY (y) = ∑ pX (x).
x:g(x)=y
|dy/dx|

Ejemplo 7

Supongamos que X tiene densidad pX (x), y sea Y = X 2 . Aquí, para y > 0 hay dos
√ √
valores de x tales que y = x2 , a saber x = y y x = − y. Si y < 0 no hay tales
valores de x. Además, la derivada es dy/dx = 2x. Entonces
√ √
pX ( y) + pX (− y)
pY (y) = √ con y > 0.
2 y

11-3. Densidad conjunta e independencia

La noción de densidad de probabilidad p(x, y) en dos variables es una extensión


natural de la idea de densidad de probabilidad en dimension uno. La función p(x, y)
da la densidad de probabilidad por unidad de área para valores de (X,Y ) cercanos a
(x, y). Ver la Figura 11.5.
Ya hemos consideramos un caso particular de densidad de probabilidad en el plano
cuando vimos probabilidades geométricas. En ese caso, si Ω es una región acotada
del plano, y (X,Y ) es un punto elegido al azar en esa región, entonces la densidad
de probabilidad conjunta del par (X,Y ) es
(
1/Area(Ω) si (x, y) ∈ Ω;
p(x, y) =
0 si no.

En general, cualquier evento determinado por dos variables aleatorias X e Y , como


el evento X > 0,25 e Y > 0,5, corresponde a una región del plano. Ahora, en lugar de
una distribución uniforme definida por áreas relativas, la probabilidad de la región
B se describe por el volumen bajo la superficie de densidad sobre B. Este volumen
es una integral Z Z
P ((X,Y ) ∈ B) = p(x, y)dxdy.
B

11-10
Figura 11.5: Aquí se muestra una función de densidad conjunta particular cuya
fórmula es p(x, y) = 5!x(y − x)(1 − y) para 0 < x < y < 1, y cero en otro caso.

Este es el análogo de la familiar interpretación del área bajo la curva para probabi-
lidades obtenidas a partir de densidades en la recta real.
Los ejemplos que vienen muestran cómo tales integrales se pueden calcular me-
diante integración repetida, cambio de variable o argumentos de simetría.
La distribución uniforme en una región es ahora solo el caso especial en el cual
p(x, y) es constante en la región y cero en otro lugar. Como regla general, las fór-
mulas que involucran densidades conjuntas son análogas a las fórmulas correspon-
dientes para distribuciones conjuntas discretas que vimos anteriormente.
Informalmente, si (X,Y ) tienen densidad conjunta p(x, y), entonces la probabilidad
infinitesimal es
P (X ∈ dx,Y ∈ dy) = p(x, y)dxdy.
Esto significa que la probabilidad de que el par (X,Y ) caiga en un rectángulo infini-
tesimal de ancho dx y altura dy cerca del punto (x, y) es la densidad de probabilidad
en (x, y) multiplicada por el área dxdy del rectángulo.
Una densidad de probabilidad bi-variada debe cumplir las siguientes dos condicio-
nes Z +∞ Z +∞
p(x, y) ≥ 0, y p(x, y)dxdy = 1.
−∞ −∞
Si (X,Y ) tiene densidad conjunta p(x, y) en el plano, cada una de las variables alea-
torias X e Y tiene densidad en la recta. Estas se llaman densidades marginales.
Las densidades marginales se pueden calcular a partir de la densidad conjunta me-
diante integrales análogas a las fórmulas discretas para probabilidades marginales

11-11
p(x, y)

P (X ∈ dx,Y ∈ dy)
= p(x, y)dxdy
= volumen de la caja

y
Y ∈ dy
x
X ∈ dx

como sumas de filas y columnas en una tabla de contingencia. La probabilidad de


puntos discretos se reemplaza por densidades y sumas por integrales:
Z +∞
pX (x) = p(x, y)dy;
−∞
Z +∞
pY (y) = p(x, y)dx.
−∞

En general, dos variables aleatorias X e Y se dicen independientes si


P (X ∈ A,Y ∈ B) = P (X ∈ A) P (X ∈ B) ,
para cualquier elección de conjuntos A y B en la recta real.
Variables independientes
Cuando el par (X,Y ) tiene densidad conjunta p(x, y), las variables X e Y son
independientes si, y solo si, la densidad conjunta es igual al producto de las
densidades marginales

p(x, y) = pX (x)pY (y) para todo x, y ∈ R.

Intuitivamente, esta ecuación se deduce de la definición tomando A como el interva-


lo infinitesimal (x, x + dx) y B como el intervalo infinitesimal (y, y + dy), obteniendo
así
P (X ∈ dx,Y ∈ dy) = P (X ∈ dx) P (Y ∈ dy)
por lo que
p(x, y)dxdy = pX (x)dxpY (y)dy.
Cancelando los infinitésimos se obtiene la formula para las densidades. Recíproca-
mente, se va de las densidades a las probabilidades integrando.
El valor esperado de una función g(X,Y ) se puede calcular de forma análoga al caso
discreto como Z +∞ Z +∞
E (g(X,Y )) = g(x, y)p(x, y)dxdy.
−∞ −∞

11-12
De aquí se deducen dos propiedades importantes:
Esperanza del producto: si X e Y son independientes ⇒ E (XY ) = E (X) E (Y )
Suma de independientes:
si X e Y son independientes ⇒ var (X +Y ) = var (X) + var (Y ).
Las pruebas son análogas al caso discreto, cambiando sumas por integrales.
Ejemplo 8
Supongamos que (X,Y ) se distribuye uniformemente en el triángulo T = {(x, y) :
0 < x < y < 1}. La densidad conjunta de (X,Y ) es simplemente
(
2 si (x, y) ∈ T ;
p(x, y) =
0 si no.

y=x

x
0 1

Las densidades marginales son


Z +∞
pX (x) = p(x, y)dxdy
−∞
Z y=1
= 2dy (pues p(x, y) = 2 si 0 < x < y < 1 y 0 si no)
y=x
= 2(1 − x) (si 0 < x < 1 y cero si no)

Z +∞
pY (y) = p(x, y)dxdy
Z−∞
x=y
= 2dx (pues p(x, y) = 2 si 0 < x < y < 1 y 0 si no)
x=0
= 2y (si 0 < y < 1 y cero si no)

Con esto podemos ver que X e Y no son independientes ya que p(x, y) 6= p(x)p(y).

11-13
Podemos calcular además las esperanza de X eY :
Z +∞ Z 1
1
E (X) = xpX (x) =
2x(1 − x)dx = ;
−∞ 0 3
Z +∞ Z 1
2
E (Y ) = ypY (y) = 2ydy = .
−∞ 0 3
Por otro lado, la esperanza del producto E (XY ) está dada por
Z y=1 Z x=y Z y=1 3
y
Z +∞ Z +∞
1
E (XY ) = xyp(x, y)dxdy = 2 dy xydx = 2 dy =
−∞ −∞ y=0 x=0 y=0 2 4

Esto confirma lo dicho anteriormente sobre la independencia de X e Y . 

Ejemplo 9
Sean X e Y independientes con distribución exponencial de parámetros λ y µ res-
pectivamente. Calculemos P (X < Y ).
La densidad conjunta de (X,Y ) es
 
p(x, y) = λ e−λ x µe−µy = λ µe−λ x−λ y


para x e y positivos. Esto se deduce de la independencia de X e Y . Luego, la proba-


bilidad P (X < Y ) se calcula integrando p(x, y) sobre la región {(x, y) : x < y}:
Z Z Z ∞ Z ∞
P (X < Y ) = λ µe−λ x−λ y dxdy = dx λ µe−λ x−λ y
x<y x=0 y=x
Z ∞
λ
= λ e−(λ +µ)x dx =
x=0 λ +µ
Notar que se obtiene el mismo resultado si se integra en el otro orden, esto siempre
es así. 

11-14
Clase 12
Ley de los Grandes Números

12-1. Distribución de una suma


12-2. Desigualdades de Markov y Chebyshev
12-3. Ley de los grandes números

12-1. Distribución de una suma

En esta sección vamos a estudiar la distribución de la suma Z = X +Y de dos varia-


bles independientes X e Y .
Caso discreto
En el caso discreto la distribución de la suma queda determinada por la fórmula

P (X +Y = z) = ∑ P (X = x,Y = z − x) .
x

Como además X e Y son independientes, la probabilidad P (X = x,Y = z − x) se


factoriza como producto P (X = x) P (Y = z − x). Reescribiendo está ecuación en
términos de las f.p.p. de cada variable, obtenemos la fórmula de convolución dis-
creta
pZ (z) = ∑ pX (x)pZ (z − x). (12.1)
x
Esta fórmula describe como obtener la f.p.p. de Z en función de las de X e Y . La
suma debe efectuarse en todos los valores de x en el recorrido de X.
Ejemplo 1
Sean X1 y X2 los resultados de lanzar dos veces un dado. Vamos a determinar la
f.p.p. de la suma S2 = X1 + X2 . En lugar de hacerlo de forma analítica con la fórmula
de convolución (12.1), haremos un razonamiento visual para ilustrar lo que ésta
fórmula esconde.
El dibujo muestra la distribución conjunta de los dos resultados X1 y X2 . Cada punto
verde representa un caso equiprobable, en la horizontal ponemos los de X1 y en la

12-1
vertical los de X2 . Los puntos rojos en el interior de las celdas representan casos
equiprobables del par (X1 , X2 ). Como las variables son independientes, la cantidad
de puntos rojos en la celda (i, j) se obtiene multiplicando la cantidad de verdes en
i por la de verde en j. En este caso esto es siempre 1 × 1 = 1, por eso ponemos un
solo punto rojo en cada celda.

1 2 3 4 5 6

12
11
10
9
8
7
6
5
4
3
2

Para obtener la distribución de la suma S2 , debemos agrupar las celdas que suman un
mismo valor. Estas son las diagonales que cruzan el cuadro desde la punta superior
izquierda a la inferior derecha. Si deslizamos los puntos rojos a lo largo de estas
diagonales, para que la fila de puntos comience en una base paralela a la diagonal
opuesta, obtenemos una hermosa imagen de la distribución. Cada punto rojo es un
caso equiprobable de S2 . Observar la forma triangular que se obtiene. 

Ejemplo 2
Supongamos ahora que lanzamos una vez más el dado del ejemplo anterior. Llame-
mos X3 al resultado y S3 = X1 + X2 + X3 la suma de los tres resultados. ¿Cuál es la
distribución de S3 ?

12-2
12

11

10

1 2 3 4 5 6

18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3

En el dibujo se muestra el mismo mecanismo que nos ayudo a encontrar la distri-


bución de S2 . En este caso, como S3 = X2 + S2 , los puntos verdes en la horizontal
representan casos equiprobables de X3 , y los de la vertical casos equiprobables de
S2 . Observar ahora que las celdas interiores no tienen la misma cantidad de puntos
rojos, pues los puntos verdes de S2 no están uniformemente repartidos. De todos
modos, el mecanismo es el mismo: dejamos deslizar los puntos sobre las diagona-
les, y el resultado es la distribución de S3 . 

Dos cosas interesantes se observan de los ejemplos con los dados. La primera es que
la forma de la distribuciones de S1 = X1 , S2 , y S3 son cada vez más acampanadas.
Lo segundo es que las distribuciones se van concentrando al rededor de un valor
central. En este segundo punto nos centraremos hoy.
Llamemos X 1 = S1 , X 2 = S2 /2 y X 3 = S3 /3 los promedios de los lanzamientos del
dado de los ejemplos anteriores. El valor esperado de cada uno de ellos es igual 3.5,
el valor esperado de un solo lanzamiento:
E X 1 = E (S1 ) = E (X1 ) = 3,5


E X 2 = E (S2 ) /2 = (E (X1 ) + E (X2 )) /2 = 3,5




E X 3 = E (S3 ) /3 = (E (X1 ) + E (X2 ) + E (X3 )) /3 = 3,5




Calculemos la probabilidad de que el promedio esté entre 3 y 4 en cada caso. Basta

12-3
contar los puntos rojos correspondientes. Obtenemos así la siguiente tabla:
i Rango X i Rango Si Probabilidad
1 3-4 3-4 2/6 ≈ 33 %
2 3-4 6-8 16/36 ≈ 44 %
3 3-4 9-12 104/216 ≈ 48 %
La probabilidad va aumentando. ¿Será que al promediar más y más dados, la pro-
babilidad aumente más y más?
He aquí las probabilidades para el promedio de 4 y 5 dados:
i Rango X i Rango Si Probabilidad
4 3-4 12-16 676/1296 ≈ 52 %
5 3-4 15-20 4332/7776 ≈ 56 %
De hecho, Abraham De Moivre (1667-1754), un matemático francés que vivió exi-
liado casi toda su vida en Inglaterra por cuestiones religiosas, calculó la formula
exacta para la distribución de la suma de n dados. Su fórmula calcula la probabili-
dad de obtener una suma igual a s en n lanzamientos, y es

1 M n s − 6k − 1 s−n
    
pn (s) = n ∑ (−1)k , M :=
6 k=0 k n−1 6

Esta maravillosa fórmula no sirve de mucho sin una computadora. Pero teniendo
una, podemos graficar y calcular probabilidades en segundos. Las página siguien-
tes contienen las gráficas para algunos valores de n. En cada gráfico, arriba a la
izquierda se muestra la probabilidad de que el promedio caiga entre 3 y 4.
Podemos completar la tabla con los cálculos hechos en computadora:
i Rango X i Rango Si Probabilidad
6 3-4 18-24 ≈ 59 %
7 3-4 21-28 ≈ 62 %
8 3-4 24-32 ≈ 64 %
9 3-4 27-36 ≈ 67 %
10 3-4 30-40 ≈ 69 %
12 3-4 36-48 ≈ 73 %
15 3-4 45-60 ≈ 77 %
20 3-4 60-80 ≈ 83 %
25 3-4 75-100 ≈ 87 %
Estas probabilidades parecen crecer a 100 % a medida que lanzamos más y más
dados. También la forma de la distribución de X n se hace más y más acampanada.
Lo mismo ocurre si cambiamos el rango, por ejemplo si queremos que el promedio
caiga entre 3.25 y 3.75. A medida que lanzamos más dados es más probable que el
promedio caiga en ese rango. Cuando el rango es más chico, debemos lanzar más
dados para alcanzar un mismo nivel de probabilidad. Este fenómeno es exactamente
lo que establece la Ley de los grandes números.

12-4
F.P.P. del promedio con n=1 F.P.P. del promedio con n=2

0.16
33.3% 44.4%
0.22

0.12
Probabilidad

Probabilidad
0.18

0.08
0.14

0.04
0.10

1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

F.P.P. del promedio con n=3 F.P.P. del promedio con n=4
0.12

48.1% 52.2%
0.08
Probabilidad

Probabilidad
0.08

0.04
0.04

0.00
0.00

1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

F.P.P. del promedio con n=5 F.P.P. del promedio con n=6

55.7% 58.8%
0.08
0.08
Probabilidad

Probabilidad

0.04
0.04

0.00
0.00

1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

12-5
F.P.P. del promedio con n=7 F.P.P. del promedio con n=8

0.08
61.7% 64.2%
0.00 0.02 0.04 0.06 0.08

0.06
Probabilidad

Probabilidad

0.04
0.02
0.00
1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

F.P.P. del promedio con n=9 F.P.P. del promedio con n=10

66.6% 68.7%
0.06
0.06
Probabilidad

Probabilidad

0.04
0.04

0.02
0.02
0.00

0.00

1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

F.P.P. del promedio con n=12 F.P.P. del promedio con n=15
0.06

72.5% 77.1%
0.06

0.04
Probabilidad

Probabilidad
0.04

0.02
0.02
0.00

0.00

1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

12-6
F.P.P. del promedio con n=20 F.P.P. del promedio con n=25

83% 87.2%

0.04
0.04
Probabilidad

Probabilidad

0.02
0.02
0.00

0.00
1 2 3 4 5 6 1 2 3 4 5 6

Valor del promedio Valor del promedio

Caso continuo

El mismo fenómeno ocurre también cuando promediamos variables continuas. La


distribución de la suma Z = X +Y de dos variables continuas independientes tam-
bién tiene una fórmula de convolución para la densidad, análoga a la fórmula (12.1).
Llamemos p(x, y) a la densidad conjunta de X e Y . El evento {Z ∈ dz} es el conjunto
rayado en el diagrama siguiente

z + dz
{X ∈ dx}
z

{X ∈ dx,Y ∈ dy}
y = z−x

{Z ∈ dz}

x x + dx z z + dz

Este evento puede descomponerse en fetas verticales correspondientes a los valores


de X, como está sugerido en el diagrama. El paralelogramo sombreado en gris con-
tenido en el evento {Z ∈ dz} y cercano al punto (x, z − x), representa la intersección
de los eventos {X ∈ dx} y {Z ∈ dz} y tiene área dxdz. La densidad de probabilidad
cerca de este pequeño paralelogramo es p(x, z − x), por lo que

P (X ∈ dx, Z ∈ dz) = p(x, z − x)dxdz.

12-7
Para obtener la densidad marginal de Z basta integrar en todos los valores de x, y
luego dividir por dz, es decir

P (Z ∈ dz)
Z +∞
p(z) = = p(x, z − x)dx.
dz −∞

Como X e Y son independientes, la densidad conjunta se factoriza

p(x, y) = pX (x)pY (y).

De aquí resulta la fórmula de convolución de densidades para la densidad de Z:


Z +∞
pZ (z) = pX (x)pY (z − x)dx. (12.2)
−∞

Notar la similitud con la ecuación (12.1).


Ejemplo 3
Supongamos que X e Y son independientes, cada una con distribución uniforme
en (0, 1). Queremos hallar la densidad de Z = X + Y , y como en el caso discreto,
haremos argumentos visuales para mostrar lo que la fórmula de convolución (12.1)
esconde.
1

z 2-z
dz
2-z
0
0 z z+dz 1 z 2

Aquí (X,Y ) tiene distribución uniforme en el cuadrado de lado 1. Para 0 < z < 1, el
evento {X +Y ∈ dz} está representado en el diagrama por un conjunto de área zdz +
1 2
2 (dz) . Para calcular esta área hemos dividido al conjunto en un paralelogramo de
altura z perpendicular a los lados de ancho dz, y la mitad de un cuadrado de lado dz.
Ignorando el término (dz)2 por despreciable en comparación con dz, resulta

P (Z ∈ dz) = zdz,

ya que el área total del cuadrado es 1.

p(z)

0 1 2 z

Para 1 ≤ z < 2 se puede ver de forma similar que

P (Z ∈ dz) = (2 − z)dz.

12-8
Entonces, la densidad de Z viene dada por

z
 si 0 < z < 1;
2 − z si 1 ≤ z < 2;

0 en otro caso.

Observar que es de forma triangular como en el caso discreto. 

Ejemplo 4
Consideremos ahora T = X + Y + W en donde X, Y , y W son independientes con
distribución uniforme en [0, 1]. Para calcular la densidad de T , escribimos T = Z +
W en donde Z = X +Y tiene la distribución triangular que calculamos en el ejemplo
anterior.
Aplicando la fórmula de convolución (12.2) vemos que
Z +∞ Z t
pT (t) = pz (z)pW (t − z)dz = pZ (z)dz = P (t − 1 ≤ Z ≤ t) ,
−∞ t−1

ya que pW (w) = 1 si w ∈ [0, 1] y 0 si no.


Basta entonces calcular esta probabilidad. Hay tres casos para discutir:
Caso 1: 0 < t < 1. Entonces t − 1 < 0, por lo que
1
pT (t) = P (t − 1 ≤ Z ≤ t) = t 2
2
pues es el área del triángulo.

p(z)

t-1 0 t 1 2

Caso 2: 1 ≤ t < 2. Entonces 0 ≤ t − 1 < 1. El área relevante es 1 menos dos trián-


gulos, por lo que

(2 − t)2 (t − 1)2
pT (t) = P (t − 1 ≤ Z ≤ t) = 1 − − = −t 2 + 3t − 3/2.
2 2

p(z)

0 t-1 1 t 2

12-9
Caso 3: 2 < t < 3. Entonces 1 < t − 1 < 2. El área relevante es ahora un triángulo

(3 − t)2
pT (t) = P (t − 1 ≤ Z ≤ t) = .
2

p(z)

0 1 t-1 2 t

En resumen, la densidad de T es una función partida, definida en los intervalos


(0, 1), (1, 2) y (2, 3) por las funciones cuadráticas que hemos calculado en cada
caso.

p(t)

t
0 1 3/2 2 3

Observar la forma simétrica y acampanada de la densidad de T . 

Al igual que en el caso discreto, la convolución de dos densidades se puede calcular


numéricamente con una computadora. En las figuras que siguen se muestran las
densidades de promediar n variables uniformes independientes, de n = 1 a n = 6.
Notar que el valor de la densidad en el promedio µ = 0,5 es cada vez mayor. Notar
a su vez la forma simétrica y acampanada de las distribuciones.
Densidad inicial Densidad del promedio para n=2
1.0

2.0

● ● ● ● ● ● ● ● ● ● ● 0.2
0.8

1.5
0.6

Densidad

1.0
f(x)

0.4

0.5
0.2

0.5
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x

Densidad del promedio para n=3 Densidad del promedio para n=4

0.17 0.14
2.5
2.0

2.0
1.5

1.5
Densidad

Densidad
1.0

1.0
0.5

0.5

0.5 0.5
0.0

0.0

● ●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x

12-10
Densidad del promedio para n=5 Densidad del promedio para n=6
3.0
0.13 0.12

3.0
2.5

2.5
2.0

2.0
Densidad

Densidad
1.5

1.5
1.0

1.0
0.5

0.5
0.5 0.5
0.0

0.0
● ●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x

12-2. Desigualdades de Markov y Chebyshev

Las desigualdades de Markov y Chebyshev establecen cotas superiores para las


colas de una distribución de una variable en función de sus momentos. Aunque son
muy simples, la demostración de la LGN se basa en ellas.
La más fundamental es la desigualdad de Markov, de la cual deriva la de Chebyshev.
Desigualdad de Markov
Sea X una variable aleatoria positiva. Entonces, para todo t > 0 vale que

E (X)
P (X ≥ t) ≤ .
t

Demostración. Fijemos t > 0, y consideremos la variable aleatoria Bernoulli Y que


vale 1 si X ≥ t y 0 si no. La probabilidad de éxito de Y es

p = P (Y = 1) = P (X ≥ t) .

Notar que tY ≤ X, pues cuando Y = 0 la desigualdad es trivial, y cuando Y = 1 es


porque X ≥ t. Entonces E (tY ) ≤ E (X). Por otro lado, la esperanza de Y es p, de
donde tP (X ≥ t) ≤ E (X). Dividiendo por t se deduce la desigualdad de Markov.

Para aquellos más afines a las demostraciones visuales he aquí una alternativa. Re-
cordar que la esperanza de X se puede calcular con la función de distribución me-
diante la fórmula Z ∞
E (X) = (1 − F(x))dx,
0
que no es otra cosa que el área gris por encima del gráfico de F(x) en el diagrama.
En el gráfico hemos indicado un rectángulo A cuyos lados son t y P = P (X ≥ t). La
clave es que P (X ≥ t) es el límite por izquierda de F(x) cuando x tiende a t, y por
lo tanto está contenido en la zona gris. Esto sin importante la eventualidad de una
discontinuidad de F en t.

12-11
F(x)

P rectángulo A

t x

Claramente
E (X) = Area gris ≥ Area de A = tP (X ≥ t) ,
de donde deducimos igual que antes la desigualdad de Markov.
Desigualdad de Chebyshev
Sea X una variable de esperanza µ = E (X) y varianza σ 2 = var (X). Entonces,
para todo ε > 0 vale que

σ2
P (|X − µ| ≥ ε) ≤ .
ε2

Demostración. Consideremos la variable Y = (X − µ)2 . Claramente Y ≥ 0 y su


esperanza es
E (Y ) = E (X − µ)2 = var (X) = σ 2 .


Si aplicamos la desigualdad de Markov a Y con ε 2 , obtenemos

 E (Y ) σ 2
P Y ≥ ε2 ≤ 2 = 2 .
ε ε

El evento {Y ≥ ε 2 } es el mismo que {|X − µ| ≥ ε}, pues por definición Y =
|X − µ|. Entonces la probabilidad a la izquierda en la desigualdad anterior es igual
a P (|X − µ| ≥ ε).

12-3. Ley de los grandes números

El Teorema de Bernoulli es un caso particular la LGN que en palabras se puede


enunciar así:
El promedio de muchas realizaciones independientes está (con alta pro-
babilidad) cerca de la esperanza de la distribución subyacente.
En el contexto de los ensayos de Bernoulli, las realizaciones corresponden a los
ensayos. La frecuencia relativa de éxitos en n ensayos se puede escribir como un
pormedio
X1 + · · · + Xn 1 n
Xn = = ∑ Xi ,
n n i=1

12-12
en donde Xi es la variable Bernoulli que indica la ocurrencia de éxito en el i-ésimo
ensayo. Es usual también escribir la suma Sn = X1 + · · · + Xn .
Cada Xi es Bernoulli de parámetro p, en donde p es la probabilidad de éxito. En
particular, todas tienen la misma distribución. Más aún, las Xi son independientes.
En la jerga probabilística se dice que X1 , . . . , Xn son independientes e idénticamente
distribuidas, y esto se abrevia con la sigla i.i.d.. Denotemos por µ la esperanza de
cada Xi (que no es otra cosa que p).
Usando esta notación el Teorema de Bernoulli se enuncia de la siguiente manera:
Para todo ε > 0 : P X n − µ < ε → 1 cuando n → ∞.


En general, si X1 , . . . , Xn son variables i.i.d. con esperanza µ y varianza σ , entonces


las esperanzas y varianzas del promedio y la suma son

Variable Esperanza Varianza Desvío



Sn nµ nσ 2 nσ

Xn µ σ 2 /n σ/ n
El cálculo es el siguiente:
n n
!
E (Sn ) = E ∑ Xi = ∑ E (Xi ) = nµ
i=1 i=1
n n
!
var (Sn ) = var ∑ Xi = ∑ var (Xi ) = nσ 2
i=1 i=1
Para el cálculo de la varianza hemos usado que las variables son independientes.
Como X n = Sn /n, se tiene
E X n = E (Sn /n) = E (Sn ) /n = µ


var X n = var (Sn /n) = var (Sn ) /n2 = σ 2 /n




Recordar que las constantes salen al cuadrado de la varianza.


Dos cosas son sorprendentes de los cálculos anteriores:
que el desvío de la suma no crece linealmente con n, si no que
La primera es √
lo hace como n.
El desvío del promedio tiende a cero a medida que n tiende a ∞.
El segundo punto establece que al promediar muchas veces una variable, su varia-
bilidad decrece. Intuitivamente los excesos por encima de la media compensan el
déficit por debajo de ésta, lo que hace que el promedio sea más estable.
Sin embargo, el segundo punto, formalmente igual de difícil que el primero, le llevo
muchísimo tiempo a los matemáticos reconocerlo. En cierto sentido nos dice que
las mediciones no aportan todas la misma información, si no que a medida que obte-
nemos más datos la información aportada por cada medición es menor. Es bastante
contra-intuitivo a primera vista, aunque luego de una reflexión pausada no parece
tan descabellado.

12-13
Ejemplo 5
En Inglaterra, en el siglo XII no existía una autoridad central fuerte, lo que repre-
sentaba un problema para la política monetaria. Había un rey, pero su autoridad era
contrarrestada por la de varios poderosos barones.
Al mismo tiempo, existía la necesidad comercial de una moneda confiable. La prin-
cipal fuente de acuñación británica era la Casa de la Moneda de Londres, que fun-
cionaba de forma independiente de la corona. El rey y los barones llevaban oro y
plata a la Casa y recibían monedas a cambio.
El rey estipulaba el peso y la finura de las monedas, y monitoreaba regularmente el
cumplimiento de los estándares estipulados a través de pomposos juicios.
Los juicios de la Casa de Moneda datan de finales del 1200 y se siguen haciendo
hoy en día. Cada día de producción, una selección (razonablemente aleatoria) de
monedas era separada y puesta en una caja llamada Pyx para pruebas posteriores.
Cada tres meses, la Pyx se abría en presencia de jueces que representaban a partes
interesadas en la precisión de las monedas. Las mismas eran analizadas para deter-
minar la finura y el peso. Nos concentraremos en lo que sucedía con el peso que es
más interesante desde el punto de vista estadístico.
Todos sabían que inevitablemente habría alguna variación en el peso de monedas
diferentes. Por ende, el contrato con el rey y los barones especificaba tanto un peso
objetivo (llamémoslo M0 ) y una tolerancia permitida que se llamaba el “remedio”
(denotada por R). Si el peso estaba por debajo de M0 − R, la Casa debía devolver el
dinero faltante al rey. Incluso, al maestro de la Casa se le podía cortar la mano, o
algo peor. No estaba bien visto robarle al rey.
Las monedas demasiado pesadas también eran un problema, ya que podían ser eli-
minadas de circulación y convertidas en lingotes por los empresarios alertas. Pero
en estos casos no había ganancia para la Casa de la Moneda, y el enfoque principal
de la prueba era entonces en las monedas livianas.
Las monedas se pesaban en lotes, pues la precisión de aquellos tiempos no permitía
pesar una sola moneda con exactitud.
Si, por ejemplo, se pesan 100 monedas de oro en un lote, claramente el
objetivo debe ser 100M0 . Pero, ¿cuál sería el remedio? Es decir, ¿cuánto
se debe tolerar?
Es una pregunta muy simple, y por su respuesta casi que se puede reconocer a una
persona bien instruida en estadística.
La elección que hicieron (hasta empezado el siglo XIX) fue que el remedio en ese
caso es simplemente 100R; solo si el lote pesaba menos de 100M0 − 100R, la Casa
no pasaría la prueba.
Durante mucho tiempo se pensó que los errores crecen linealmente con el núme-
ro de mediciones. Pero el cálculo que hicimos más arriba nos dice que esto está

12-14
equivocado; esto es demasiado generoso para la casa de la moneda.
Es un estándar tan bajo que un maestro alerta podría apuntar casi tan bajo, como por
ejemplo acuñando a un objetivo de M0 − 0,5R, o incluso M0 − 0,8R, y prácticamente
no correr riesgo de fallar en la prueba.
A modo de ejemplo concreto, pensemos en una moneda como la de $10 que pesa
cerca de M0 = 10g. Supongamos que nuestra tolerancia para el peso de una moneda
es del 5 % del peso de la moneda. En este caso R = 0,5g.
Si hiciéramos como hacían en el siglo XII, la tolerancia para los lotes sería de
100R = 50g. Notar que el peso promedio es de 100M0 = 1000g, pero si los pesos de
las monedas varían de forma independiente, (es decir que las monedas individuales
no están estadísticamente relacionadas entre sí) un remedio apropiado para un lo-
te de 100 sería 10R (5g), no 100R. Con pesos estadísticamente independientes, la
variación aumenta como la raíz cuadrada del número de monedas.
Por supuesto, en los primeros años del juicio del Pyx, incluso los mejores
√ matemá-
ticos no estaban al tanto de lo que ahora se conoce como la regla de la n.
Sin embargo, hubo un maestro de la Casa de la Moneda que fue un matemático
mejor que el promedio: Isaac Newton. De 1696 a 1727 fue maestro de la Casa de
la Moneda. Y a su muerte en 1727, Newton tenía una considerable fortuna. ¿Ha-
brá visto Newton el error en los procedimientos en el juicio del Pyx, y lo habrá
explotado de forma astuta para su beneficio? 

La regla de la n es la clave detrás de la demostración de la LGN.
Ley de los grande números
Sean X1 , X2 , . . . variables i.i.d. con esperanza µ = E (Xi ) y varianza σ 2 =
var (Xi ). Entonces, para todo ε > 0

P X n − µ < ε → 1


cuando n tiende a infinito.


P
Notación: Escribiremos X n → µ para indicar que X n está, con probabilidad muy
alta, tan cerca de µ como queramos.

Demostración. Tomando complementos es equivalente probar que P X n − µ ≥ ε




tiende a cero cuando n → ∞.


Como la varianza de X n es σ 2 /n, por la desigualdad de Chebyshev tenemos

 σ2
P X n − µ ≥ ε ≤ 2 .


El lado de la derecha de esta ecuación claramente tiende a cero cuando n tiende a
infinito.

12-15
Clase 13
Teorema central del límite

13-1. Teorema de De Moivre


13-2. La distribución normal o gaussiana
13-3. Teorema central del límite
13-4. Apéndice: La campana de Gauss

13-1. Teorema de De Moivre

A De Moivre ya lo cruzamos cuando estudiamos la distribución de la suma de n


dados. Pero eso no fue todo lo que hizo en probabilidad. Entusiasmado con el Teo-
rema de Bernoulli se puso a experimentar con monedas, y probó un teorema muy
importante que hoy lleva su nombre.
Vamos a considerar n lanzamientos de una moneda justa (p = 1/2). Llamemos Xi a
la variable Bernoulli que indica si sale cara en el i-ésimo lanzamiento. Como antes,
llamemos

Sn = X1 + · · · + Xn (la suma)
X1 + · · · + Xn
Xn = (el promedio)
n
Entonces Sn tiene distribución binomial de parámetros n y 1/2, por lo que

1 n
 
P (Sn = k) = n .
2 k
P
Además, X n → 1/2 cuando n tiende a infinito por la LGN (o el Teorema de Bernoulli
en este caso).
Recordar que cuando comenzamos la discusión del Teorema de Bernoulli vimos
que el término central de la distribución binomial (el máximo de la f.p.p.) se da en
m = b(n + 1)pc. ¿Se acuerdan cuánto vale?

13-1
Tomemos n = 2m par. Entonces el máximo es
 
2m 1
P (Sn = m) = .
m 22m

La fórmula mágica del producto de Wallis nos ayudó a calcular esta probabilidad.
Por ejemplo, si tiramos n = 1000, ¿la probabilidad
√ de que salgan 500 caras es alta
o baja? Según Wallis P (Sn = m) ≈ 1/ πm. Entonces, si n = 1000 y m = 500 la
probabilidad es aproximadamente 2.5 %, que es bastante baja.1
De Moivre se preguntó: ¿qué pasa con los otros términos? Aunque él respondió a
esta pregunta para cualquier n y cualquier p, por simplicidad sigamos suponiendo
que n = 2m es par y que p = 1/2.
Para cada k ∈ {−m, . . . , 0, . . . , m} queremos aproximar

P (Sn = m + k)
P (Sn = m))

i.e. queremos ver cuán chicos son los otros términos con respecto al término central.
Calculamos:
P (Sn = m + k) m(m − 1) · · · (m − (k − 1))
=
P (Sn = m) (m + 1)(m + 1) · · · (m + k)
k−1 1 −1 k −1
      
1
= 1− ··· 1− 1+ ··· 1+
m m m m

Tomando logaritmos a ambos lados podemos reescribir la igualdad anterior como

P (Sn = m + k) k−1 j k
j
   
ln = ∑ ln 1 − − ∑ ln 1 +
P (Sn = m) j=1 m j=1 m

Ahora usamos un truco de cálculo: x − x2 ≤ log(1 + x) ≤ x si x > −1/2.


¿Para qué nos sirve este? Porque si m + k no está muy lejos del término central m (o
lo que es lo mismo, si k no es muy grande), podemos aproximar el logaritmo. Así
que supongamos que k/m < 1/2 para poder usar el truco de arriba.
Entonces
j j2 j j j j j j2
   
− − 2 ≤ ln 1 − ≤ − y − ≤ − ln 1 + ≤− + 2
m m m m m m m m

¿Y con eso qué? Es ahora en que nos acordamos de aquellas igualdades tediosas
que probamos en cálculo por inducción completa:
r r
r(r + 1) r(r + 1)(2r + 1)
∑ j= ∑ j2 = ≤ r3
j=1 2 j=1 6
1 ¿Recuerdan la discusión que tuvimos sobre si esto contradice la LGN?

13-2
0
-2
-4
-6
-8
Cocientes y log de cocientes

30 40 50 60 70

Figura 13.1: En la figura n = 100. Hemos graficado simultáneamente los cocientes


P (Sn = m + k) /P (Sn = m) y sus logaritmos. Notar la forma parabólica del gráfico
en la escala logarítmica. Esto muestra porqué la aproximación es de la forma −k2 /m
(cuadrática).

La suma de j/m hasta k − 1 aparece dos veces, y su contribución es entonces


k−1
j (k − 1)k k2 k
2∑ = = − .
j=1 m m m m

No hay que olvidarse que una de las sumas va hasta k, por lo que el k/m se cancela
con este. En definitiva el aporte de las dos sumas de j/m es finalmente k2 /m. La
suma de j2 /m2 es menor que k3 /m2 .
Por lo tanto, sumando y tomando exponencial resulta

k2 P (Sn = m + k) k2
e− m −δ ≤ ≤ e− m +δ
P (Sn = m)

con δ = k3 /m2 . Ver la Figura 13.1.


Si además usamos lo que ya sabíamos de la aproximación de Wallis para P (Sn = m),
obtenemos que si δ ≈ 0 entonces
1 k2
P (Sn = m + k) ≈ √ e− m
πm

13-3
ϕ

x
−3 −2 −1 0 1 2 3

Figura 13.2: Gráfico de la densidad normal estándar.

Vamos a escribir está aproximación usando la esperanza y la varianza para que


resulte más reconocible. La esperanza de Sn es µ = n/2 = m, y la varianza es σ 2 =
n/4 = m/2. Sea s un valor posible para Sn , hemos probado que

1 (s−µ)2

P (Sn = s) = P (Sn − µ = s − µ) ≈ √ e 2σ 2
2πσ 2

con un error multiplicativo del orden de eδ donde δ = 4(s − n/2)3 /n2 .


El lado derecho de la ecuación es la densidad de la distribución normal de paráme-
tros µ y σ 2 .
Teorema de De Moivre
En n lanzamientos de una moneda, con n grande, la distribución de la cantidad
de caras Sn puede aproximarse por la distribución normal de parámetros µ =
E (Sn ) y σ 2 = var (Sn ).

13-2. La distribución normal o gaussiana

La distribución normal es una de las distribuciones más importantes en probabilidad


y estadística.
Densidad normal estándar
La densidad normal estándar es la función
1 −x2
ϕ(x) = √ e 2

definida para todo x real. Una variable aleatoria X tiene distribución normal
estándar si es absolutamente continua y su densidad es ϕ.

El gráfico de la función ϕ es conocido como la campana de Gauss. Es similar al


gráfico de la densidad de Cauchy, salvo que tiende a cero exponencialmente cuando
|x| tiende a infinito.

13-4
r dθ
dr

(0, 0)

Figura 13.3: Elemento de área en polares es dxdy = rdrdθ .

Para verificar que ϕ es una densidad de probabilidad, debemos probar que integra
uno. La forma natural de integrar una función es calcular una primitiva, pero un
teorema de Risch afirma que ϕ no tiene una primitiva elemental. Esto quiere decir
que la primitiva de ϕ no tiene una fórmula que se pueda escribir, mediante el uso de
composiciones, sumas, restas, multiplicaciones y divisiones, a partir de un número
finito de exponenciales, logaritmos, funciones trigonométricas y raíces n-ésimas.
Sin embargo, un truco astuto nos permite calcular la integral de ϕ. El método se
debe a los matemáticos Euler y Poisson, por lo que esta integral lleva sus nombres.
La integral de Euler-Poisson
La integral de ϕ en toda la recta real vale 1:
Z +∞
1 x2
√ e− 2 dx = 1
2π −∞

Demostración. El truco consiste en calcular una integral similar en dos dimensiones


y pasar a coordenadas polares. En coordenadas polares de R2 , para integrar una
función f : R2 → R hay que usar la fórmula (ver la Figura 13.3)
Z Z
f (x, y) dx dy = f (r, θ )r dr dθ .
A A

2 +y2 )
Consideremos la función f (x, y) = e−(x . Entonces
Z 2π Z ∞
(x2 +y2 ) 2
Z ∞
r2
ZZ
− − r2
e 2 dx dy = e r dr dθ = 2π re− 2 dr = 2π
R2 0 0 0

Por otro lado 2


+∞
2 +y2
Z 2
−x
ZZ
− u2
e 2 dx dy = e du .
R2 −∞
De acá resulta Z +∞
2 √
e−u du = 2π,
−∞
que es lo que queríamos demostrar.

13-5
Figura 13.4: Tabla de la distribución normal estándar.

La esperanza y la varianza de una variable X con distribución normal estándar son:


E (X) = 0 ya que ϕ es simétrica.
var (X) = 1, más adelante veremos una forma sencilla de probarlo.
Si X tiene distribución normal estándar, para calcular la probabilidad de que X per-
tenezca a un cierto intervalo I debemos calcular la integral
Z
P (X ∈ I) = ϕ(x)dx.
I

Como no conocemos la primitiva de ϕ, no podemos calcular esta integral. Para re-


solver este problema, se han hecho tablas que contienen aproximaciones para la
integral de ϕ. En la actualidad también podemos usar las computadoras para calcu-
lar estas aproximaciones.
Notar que si I = [a, b], la integral anterior se puede escribir como la diferencia
Z Z b Z a
ϕ(x)dx = ϕ(x)dx − ϕ(x)dx = Φ(b) − Φ(a),
I −∞ −∞

en donde hemos puesto Z y


Φ(y) = ϕ(x)dx.
−∞

La función Φ es la función de distribución acumulada de la densidad normal es-


tándar. Es decir, Φ(x) representa el área debajo el gráfico de ϕ desde −∞ hasta x.
En términos probabilísticos Φ(x) representa la probabilidad de que X sea menor o
igual a x: Φ(x) = P (X ≤ x).

13-6
ϕ

Φ(x)

−3 −2 −1 0 x 1 2 3

Figura 13.5: Interpretación gráfica de Φ(x).


ϕ

Φ(−x) 1 − Φ(x)

−3 −2 −x −1 0 1 x 2 3

Figura 13.6: Simetría de la densidad normal estándar

La lectura directa de la tabla consiste en, dado x, hallar Φ(x). Así, por ejemplo
Φ(2,31) = 0,9896. Notar que la tabla no provee los valores Φ(x) para valores nega-
tivos de x. Sin embargo, podemos usar la simetría de la densidad normal (igualdad
de áreas rojas en la figura) para deducir que

Φ(−x) = 1 − Φ(x).

Así, por ejemplo Φ(−0,67) = 1 − Φ(0,67) = 1 − 0,7486 = 0,2514.

La densidad normal de parámetros µ y σ 2

La densidad normal puede estar centrada en otro lugar y tener un “ancho” de campa-
na distinto al de la normal estándar. La definición general de la distribución normal
es la siguiente.
Densidad normal general
X tiene distribución normal de parámetros µ y σ 2 si su densidad es igual a

1 (x−µ)2

ϕµ,σ 2 (x) = √ e 2σ 2
σ 2π

Esto lo escribimos X ∼ N(µ, σ 2 ).

La esperanza y la varianza de una variable X con distribución normal N(µ, σ 2 ) son:


E (X) = µ

13-7
ϕ µ,1

µ = −1/2 µ = 1/2

x
−3 −2 −1 0 1 2 3

Figura 13.7: Variando µ


ϕ0,σ

σ = 1/4


σ= 2

x
−3 −2 −1 0 1 2 3

Figura 13.8: Variando σ

var (X) = σ 2
Ambas se pueden probar de forma sencilla observando que, de la fórmula de cambio
de variable lineal. vemos que X = µ + σ Z con Z ∼ N(0, 1).
Recordamos que la definición anterior quiere decir que para todo a < b vale
Z b
P (a ≤ X ≤ b) = ϕµ,σ 2 (x)dx.
a

En las figuras que siguen vemos como cambia el gráfico de ϕµ,σ 2 al variar los pará-
metros µ y σ .
El parámetro µ es el valor “más probable”, es el centro de simetría de la gráfica
de ϕµ,σ 2 , y los valores de X se concentran entorno a µ. El parámetro σ representa
el ancho de la campana, y por lo tanto, cuán lejos de µ están los valores X. Por
ejemplo, la probabilidad
P (|X − µ| ≤ kσ )
está representada en la gráfica de abajo, para k = 1, 2, 3.

13-8
Figura 13.9: Regla del desvío

Estandarización

¿Cómo se calcula una probabilidad para una normal? El método consiste en dos
pasos:
Estandarización: reducción al caso N(0, 1).
Uso de una tabla de la normal estándar.
Si X tiene distribución normal de parámetros µ y σ y a < b, entonces
a−µ X −µ b−µ
 
P (a ≤ X ≤ b) = P < ≤ .
σ σ σ
X−µ
Como σ tiene distribución normal estándar, vemos que
b−µ a−µ
   
P (a ≤ X ≤ b) = Φ −Φ
σ σ
Veamos un ejemplo de cálculo. Supongamos que X ∼ N(1,5, 4), notar que σ = 2.
Queremos calcular P (0,16 < X < 6,12). Como vimos
   
6,12 − 1,5 0,16 − 1,5
P (0,16 < X < 6,12) = Φ −Φ
2 2
= Φ(2,31) − Φ(−0,67) = 0,9896 − 0,2514 = 0,7382.
Por lo tanto P (0,16 < X < 6,12) = 0,7382.

Leyendo la tabla al revés

Por último, observamos que la tabla de la normal estándar se puede leer al revés. La
lectura inversa de la tabla consiste en, dado un valor p ∈ (0, 1) para una probabili-
dad, queremos hallar el valor x p tal que Φ(x p ) = p. Para valores que no aparecen en
la tabla se usa interpolación lineal.
Por ejemplo, si p = 0,95, como Φ(1,64) = 0,945, Φ(1,65) = 0,955, y
0,95 = (0,945 + 0,955)/2
entonces x0,95 ≈ (1,64 + 1,65)/2 = 1,645.

13-9
0.3
0.2
0.1
0.0
19 20 21 22 23 24 25 26
Longitud de la mano (cm)

Figura 13.10: Histograma de la longitud de la mano (en cm) de los estudiantes


hombres del curso de PyE 2017.

Aproximando un histograma con la normal

La Figura 13.10 el histograma de la longitud de la mano de varios estudiantes hom-


bres del curso de PyE 2017. Sobre el histograma se muestra también la densidad de
la distribución normal de parámteros µ = 22,6 y σ = 1,27, que son el promedio y
el desvío estándar respectivamente de la muestra de datos. Notar que la densidad
normal aproxima muy bien el histograma.
La tabla de abajo muestra la comparación numérica. Si bien el total de mediciones
no es extremadamente grande, son 120 en total, la aproximación es muy buena.
Intervalo 19-20 20-21 21-22 22-23 23-24 24-25 25-26
Frec. Abs. 2 13 32 37 24 9 3
Frec. Rel. .017 .108 .267 .308 .200 .075 .025
Normal .018 .084 0.214 .304 .241 .106 .026
Muchas mediciones de tipo biológico se ajustan bien a la distribución normal, como
son la altura, el peso, la presión sanguínea, la temperatura corporal, y muchas otras.

13-3. Teorema central del límite

El truco de estandarizar la normal puede imitarse con cualquier otra variable. Si X


es una variable aleatoria con esperanza µ y varianza σ 2 , la estandarización de X es
la variable
X −µ
Z= .
σ
Observar que Z tiene esperanza 0 (se dice que está centrada) y varianza 1 (se dice
que está normalizada). No hay que engañarse, la estandarización de X no tiene por-
qué tener distribución normal estándar, esto solo pasa si originalmente X es normal.
Sean X1 , . . . , Xn variables i.i.d. con esperanza µ = E (Xi ) y varianza σ 2 = var (Xi ).

13-10
Como antes, escribimos

Sn = X1 + · · · + Xn
X1 + · · · + Xn
Xn =
n
pero ahora vamos a introducir un miembro más a la lista. Como Sn y X n son múlti-
plos una de la otra, ambas tienen la misma estandarización

Sn − nµ X −µ
Zn = √ = n√ .
σ n σ/ n
El teorema central del límite nos permite aproximar una suma o promedio de varia-
bles aleatorias i.i.d. por una variable aleatoria normal. Esto es extremadamente útil
porque generalmente es fácil hacer cálculos con la distribución normal.
Enunciado informal del TCL
Para n grande,
d d d
X n ≈ N(µ, σ 2 /n), Sn ≈ N(nµ, nσ 2 ), Zn ≈ N(0, 1)

d
La notación X ≈ Y quiere decir que la distribución de X es aproximadamente igual a
la de Y . Pero a no engañarse, esto no quiere decir que X se parezca a Y , simplemente
que la función de distribución FX se parece a FY .
Enunciado preciso del TCL
Sea X1 , X2 , . . . una sucesión i.i.d. de variables aleatorias con esperanza µ y va-
rianza σ 2 . Sea
Sn − nµ X −µ
Zn = √ = n√
σ n σ/ n
la estandarización de la suma o promedio. Entonces para todo z ∈ R,

lı́m FZn (z) = Φ(z).


n→∞

La prueba del TCL no es muy difícil, y las herramientas utilizadas están al alcance
de este curso, pero sí un poco larga y técnica. Por eso la dejamos como lectura
opcional en unas notas que pueden encontrar en la página del curso.

Aplicaciones del TCL


Ejemplo 1
Se lanza una moneda justa 100 veces. Estimar la probabilidad de que salga cara en
más de 55 de los lanzamientos.
Sea Xi el resultado del i-ésimo lanzamiento, por lo que Xi = 1 si sale cara y Xi = 0

13-11
si sale cruz. La cantidad total de caras es

S100 = X1 + · · · + X100 .

Sabemos que E (Xi ) = 1/2 y var (Xi ) = 1/4, por lo que para n = 100, tenemos

E (S100 ) = 50, var (S100 ) = 25, σ = 5.

El TCL dice que la distribución de la estandarización de S100 es aproximadamente


igual a la distribución N(0, 1) =. Esto es

S100 − 50 55 − 50
 
P (S100 > 55) = P > = P (Z100 > 1) ≈ 1 − Φ(1).
5 5

Como Φ(1) = 0,8413, resulta P (S100 > 55) ≈ 0,1587. 

Ejemplo 2
Estimar la probabilidad de más de 220 caras en 400 lanzamientos de una moneda
justa.
Este ejemplo es casi el calco del anterior. Usando ahora µ = 200 y σ = 10, obtene-
mos
 
220 − 200
P (S400 > 220) = P Z400 > = P (Z400 > 2) ≈ 1 − Φ(2).
10

Como Φ(2) = 0,9772, resulta P (S400 > 220) ≈ 0,0228.


Notar que aunque 55/100=220/400, la probabilidad de más de 55 caras en 100 lan-
zamientos es mayor que la probabilidad de más de 220 caras en 400 lanzamientos.
Esto se debe al valor mayor de n en el segundo caso. 

Ejemplo 3
Estimar la probabilidad de obtener entre 40 y 60 caras en 100 lanzamientos de una
moneda justa.
Como en el primer ejemplo, µ = 50 y σ = 5, por lo que

P (40 ≤ S100 ≤ 60) = P (−2 ≤ Z100 ≤ 2) ≈ Φ(2) − Φ(−2).

Como Φ(2) − Φ(−2) = 2Φ(2) − 1 = 0,9544, resulta P (40 ≤ S ≤ 60) ≈ 0,9544.


Si usamos la binomial para calcular esta probabilidad el resultado es 0,9648, por lo
que la aproximación normal está por debajo del valor exacto en cerca del 1 %. 

13-12
Ejemplo 4
Al realizar una encuesta política, los resultados a menudo se informan como un
número con un margen de error. Por ejemplo, 52 % ± 3 % favorecen al candidato
A. La√ regla de oro es que si sondea a n personas, entonces el margen de error es
±1/ n. Ahora veremos exactamente qué significa esto aplicando el teorema central
del límite.
Supongamos que hay 2 candidatos A y B. Supongamos además que la fracción de
la población que prefiere A es p0 . Es decir, si le pregunta a una persona al azar a
quién prefiere, entonces la probabilidad de que contesten A es p0 .
Para ejecutar la encuesta, un encuestador selecciona n personas al azar y pregunta
“¿Apoya usted al candidato A o al candidato B?”. Por lo tanto, podemos ver la
encuesta como una secuencia de n ensayos de Bernoulli X1 , X2 , . . . , Xn, donde Xi es
1 si la persona i prefiere A y 0 si prefiere B. La fracción de personas encuestadas
que prefiere A es el promedio X n .
Sabemos que cada Xi ∼ Ber(p0 ) entonces,

E (Xi ) = p0 y var (Xi) = p0 (1 − p0 ).

Por lo tanto, el teorema central del límite nos dice que


d
X ≈ N(p0 , σ 2 /n),

donde σ 2 = p0 (1 − p0 ).
En una distribución normal, el 95 % de la probabilidad está dentro de 2 desviaciones
√ % de las encuestas de n personas, la
estándar de la media. Esto significa que en el 95
media de la muestra X n estará dentro de 2σ / n de la verdadera media p0 . El paso
final es notar que para cualquier valor de p0 tenemos σ ≤ 1/2. (Es un ejercicio sen-
cillo de cálculo ver que 1/4 es el valor máximo de σ 2 = p0 (1 − p0 ).) Esto significa
que podemos decir de manera conservadora que en el 95 √ % de las encuestas de n
personas, la media de la muestra X n está a menos de 1/√ n de la media verdadera.
El estadístico frecuentista llama el intervalo X n ± 1/ n intervalo de confianza al
nivel 95 % para p0 . 

¿Por qué usar el TCL?

Dado que las probabilidades en los ejemplos anteriores se pueden calcular exacta-
mente usando la distribución binomial, es posible que se pregunten cuál es el punto
de encontrar una respuesta aproximada utilizando la TCL.
De hecho, solo pudimos calcular estas probabilidades exactamente porque los Xi
eran Bernoulli y, por lo tanto, la suma Sn era binomial. En general, la distribución
de Sn no será conocida, por lo que no podrá calcularse las probabilidades exac-
tamente. También puede suceder que el cálculo exacto sea posible en teoría pero

13-13
demasiado costoso computacionalmente, incluso para una computadora. El poder
de la TCL es que se aplica cuando Xi tiene casi cualquier distribución, aunque algu-
nas distribuciones pueden requerir un n más grande para que la aproximación sea
buena. Veamos algunos ejemplos.
Ejemplo 5
Un dado desparejo tiene dos caras opuestas que son menos probables que las otras
cuatro. Así el 1 y el 6 tienen probabilidad 1/10 y los otros cuatro resultados tienen
probabilidad 1/5.
Estimar la probabilidad de que en 100 lanzamientos la suma esté entre 335 y 365.
Llamemos Xi al resultado del i-ésimo lanzamiento. La f.p.p de cada Xi es
Valor de Xi 1 2 3 4 5 6
f.p.p. 1/10 2/10 2/10 2/10 2/10 1/10
por lo que
1 2 2 2 2 1 35
E (Xi ) = 1 · +2· +3· +4· +5· +6· = = 3,5
10 10 10 10 10 10 10
La varianza la podemos calcular a partir de la siguiente tabla
Valor de Xi 1 2 3 4 5 6
f.p.p. 1/10 2/10 2/10 2/10 2/10 1/10
(Xi − 3,5)2 6.25 2.25 0.25 0.25 2.25 6.25
de donde resulta var (Xi ) = 2,25.
Entonces, para S100 = X1 + · · · + X100 tenemos

E (S100 ) = 350, var (S100 ) = 225 = (15)2 .

Aplicando el TCL, podemos aproximar la probabilidad por

335 − 350 S100 − 350 365 − 350


 
P (335 ≤ S100 ≤ 365) = P ≤ ≤
15 15 15
= P (−1 ≤ Z100 ≤ 1) ≈ Φ(1) − Φ(−1)

Como Φ(1) − Φ(−1) = 2Φ(1) − 1 = 0,6826, resulta

P (335 ≤ S100 ≤ 365) ≈ 0,6826.

Notar que para este dado no uniforme, es casi imposible calcular la distribución de
S100 . Solamente con una computadora ese cálculo es razonable.
¿Cuál sería la probabilidad si el dado fuera justo?

13-14
En este caso cambia la varianza de S100 , ya que el promedio sigue siendo el mismo,
y vale var (S100 ) = 100 · 35/12 = 291,666 · · · . Así que el cálculo da

335 − 350 S100 − 350 365 − 350


 
P (335 ≤ S100 ≤ 365) = P ≤ ≤
17,08 17,08 17,08
= P (−0,88 ≤ Z100 ≤ 0,88) ≈ Φ(0,88) − Φ(−0,88)

Como Φ(0,88) − Φ(−0,88) = 2Φ(0,88) − 1 = 0,6212, resulta

P (335 ≤ S100 ≤ 365) ≈ 0,6212.

Notar que es una probabilidad menor la anterior, lo cual es coherente pues la va-
rianza ahora es mayor. 

Una lotería binomial

En un país muy corrupto y mafioso la lotería se juega de manera muy extraña. Los
tickets son tiras de 0’s y 1’s de longitud n = 1000, y se sortea una de las tiras. Los
posibles tickets de lotería son:
0 0 0 0 0 ··· 0 0 0 0 0
1 0 0 0 0 ··· 0 0 0 0 0
0 1 0 0 0 ··· 0 0 0 0 0
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
0 0 0 0 0 ··· 0 0 0 1 0
0 0 0 0 0 ··· 0 0 0 0 1
1 1 0 0 0 ··· 0 0 0 0 0
1 0 1 0 0 ··· 0 0 0 0 0
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
0 0 0 0 0 ··· 0 0 1 0 1
0 0 0 0 0 ··· 0 0 0 1 1
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
0 1 1 1 1 ··· 1 1 1 1 1
1 1 1 1 1 ··· 1 1 1 1 1
Para jugar los habitantes deben comprar tickets, todos los que quieran, y todos los
tickets salen lo mismo.
Los tickets no son equiprobables, si no que se sortea cada dígito de la tira de forma
tal que la probabilidad de que un dígito sea 1 es p = 0,1 y de que sea un 0 es
q = 1 − p = 0,9.
Si fueras a comprar un solo ticket, ¿cuál comprarías? La probabilidad de cada tickets
depende solamente de la cantidad de 0’s y 1’s que contenga. Así, si el ticket tiene k
1’s y 1000 − k 0’s, su probabilidad es

pk qn−k .

13-15
0.04
0.03
0.02
0.01
0.00

Figura 13.11: Aproximación normal a la binomial con n = 1000 y p = 0,1.

Como p < q, es claro que conviene cambiar cada p por un q si queremos que la
probabilidad sea máxima. Entonces, el ticket más probable es

00000 · · · 00000

que contiene solamente 0’s y su probabilidad es qn .


Sin embargo, nosotros sabemos de la LGN que con probabilidad muy alta, la canti-
dad de 1’s en el ticket ganador es cercana al 10 %. Nuestro jefe, el capo de la mafia,
nos obliga a comprar una cantidad suficiente de tickets de modo que la probabilidad
de ganar la lotería sea de al menos 99 %.
Pero nosotros sabemos que si gastamos mucho dinero eso no le va a gustar al jefe.
¿Cuál es la cantidad mínima de plata que podemos gastar?
Consideremos la variable aleatoria S que cuenta el número de 1’s en el ticket ga-
nador. Como ya sabemos, S tiene distribución binomial de parámetros n y p. Para
asegurarnos de tener el ticket ganador, podemos comprar todos los tickets que ten-
gan cero 1’s, un 1’s, dos 1’s, hasta que la probabilidad sea al menos 0,99.
Es decir, buscamos el valor de rmax tal que

P (S ≤ rmax ) ≥ 0,99.

Obviamente queremos que rmax sea lo más chico posible para que el jefe no tenga
que gastar demasiado dinero.
Por el TCL, la estandarización Z de S es aproximadamente normal estándar, por lo
que
r−µ r−µ
   
P (X ≤ r) = P Z ≤ ≈Φ ,
σ σ

13-16
en donde µ = E (S) y σ 2 = var (S). Así que buscamos el menor valor de r tal que

r−µ
 
Φ ≥ 0,99,
σ

con µ = 100 y σ 2 = 90. Nuevamente, de las tablas deducimos que


r−µ
≥ 2,33,
σ
o lo que es equivalente: r ≥ 2,33σ + µ = 122,1. Es decir, para asegurarnos una
probabilidad de 0,99 de ganar la lotería, debemos comprar los tickets con a lo sumo
rmax = 123 cantidad de 1’s.

13-4. Apéndice: La campana de Gauss

Si bien la historia de su descubrimiento es enormemente rica en anécdotas, nos cen-


traremos en la forma original con la cual Gauss derivó una fórmula para la densidad
de probabilidad de esta distribución.
Gauss estaba interesado en el problema de estimar el valor real de una cierta canti-
dad medible a partir de observaciones empíricas. Específicamente, imaginemos que
el valor real, y desconocido, de una cierta cantidad medible es µ, y que disponemos
de las observaciones
M1 , M2 , . . . , Mn .
El objetivo es estimar µ a partir de estas observaciones. La idea es la siguiente:
supongamos que nuestras mediciones empíricas son de la forma

Mi = µ + Ei ,

en donde Ei es el error, que supondremos aleatorio, que cometemos en la i-ésima


medición. Gauss se propuso derivar una fórmula para la densidad de la dsitribución
de los errores, un problema conocido en la época como el problema de la curva de
error. Sus criterios para realizar esto se basaron en supuestos sobre las propiedades
generales de los errores:
1. Los errores pequeños son más comunes que los errores grandes.
2. Es igual de probable cometer un error positivo que uno negativo de igual
magnitud.
3. Los errores cometidos en mediciones distintas son independientes.
Si llamamos de ϕ(ε) a la densidad de probabilidad del error, estos supuestos se
traducen en:
1. Si 0 < ε1 < ε2 , entonces ϕ(ε1 ) ≥ ϕ(ε2 ).
2. Para todo ε, se tiene ϕ(ε) = ϕ(−ε).

13-17
ϕ()

Figura 13.12: Curva de error triangular de Simpson. En este caso ϕ(ε) = −k2 ε + k,
con k una constante positiva.

ϕ()

Figura 13.13: Curva de error exponencial de Laplace. En este caso ϕ(ε) = 2k e−k|ε| ,
con k una constante positiva.

ϕ()

Figura 13.14: Curva de error logarítmica de Laplace. En este caso ϕ(ε) =


2k ln ( /|ε|), con k una constante positiva.
1 k

13-18
3. Las variables E1 , . . . , En son independientes.
Existen muchas curvas de error ϕ posibles que cumplan estos supuestos. Algunas de
ellas se muestran en las Figuras 13.12, 13.13, y 13.14. Sin embargo, Gauss supuso
un cuarto ingrediente fundamental:
En presencia de varias mediciones de la misma magnitud, el valor más
probable de la cantidad que se mide es su promedio.
Con este último ingrediente Gauss fue capaz de derivar una fórmula para ϕ.
Gauss asumió que la densidad φ era derivable, cosa que por supuesto también hare-
mos nosotros. Consideremos la cantidad
ϕ 0 (ε)
f (ε) = ,
ϕ(ε)

en donde ϕ 0 es la derivada de ϕ. Si derivamos la igualdad ϕ(ε) = ϕ(−ε) dada en


el supuesto 2, obtenemos ϕ 0 (ε) = −ϕ 0 (−ε), de donde

ϕ 0 (ε) −ϕ 0 (−ε)
f (ε) = = = − f (−ε).
ϕ(ε) ϕ(−ε)

En otras palabras, f (−ε) = − f (ε).


El supuesto 3 sobre la independencia de los errores en las distintas mediciones,
implica que la probabilidad de observar
el error E1 en un intervalo pequeño I1 de tamaño ∆ε1 centrado en ε1 ,
el error E2 en un intervalo pequeño I2 de tamaño ∆ε2 centrado en ε2 ,
..
.
el error En en un intervalo pequeño In de tamaño ∆εn centrado en εn ,
esta dada por (ver la Figura 13.15)
n n
P (E1 ∈ I1 , . . . , En ∈ In ) = ∏ P (Ei ∈ Ii ) ≈ ∏ ϕ(εi )∆εi .
i=1 i=1

Fijemos de ahora en más la longitud de los intervalos I1 , . . . , In como siendo todas


iguales a ∆ε, suficientemente pequeña para que la aproximación en la expresión
anterior sea válida. Lo importante aquí es simplemente fijar este valor para que no
intervenga en los argumento que haremos a continuación. De este modo, la proba-
bilidad será máxima cuando el producto ∏ni=1 ϕ(εi ) sea máximo.
Observar que podemos escribir los errores en función de las mediciones y del valor
desconocido µ, como Ei = Mi − µ. El cuarto y último supuesto de Gauss, se traduce
entonces en que el valor más probable para µ, esto es el que maximiza el producto
n
F(µ) = ∏ ϕ(Mi − µ),
i=1

13-19
1

ϕ( 1 )ϕ( 2 )∆ 1 ∆ 2

∆ 2

2
∆ 1

Figura 13.15: La probabilidad de que los errores E1 y E2 caigan en intervalos cen-


trados en ε1 y ε2 y de longitud ∆ε1 y ∆ε2 .

Figura 13.16: Extracto del artículo original de Gauss en donde aparece la fórmula
de la campana.

es el promedio
M1 + · · · + Mn
M=
n
de las n mediciones. Esta condición implica que si derivamos F y la evaluamos en
µ = M el resultado debe ser cero.
Calcular la derivada de F no es difícil pero sí un poco largo, así que lo dejamos
como ejercicio. Al derivar, obtenemos
dF  
(µ) = f (M1 − µ) + · · · + f (Mn − µ) F(µ).

Entonces, si sustituimos µ = M e igualamos a cero, obtenemos la ecuación

f M1 − M + · · · + f Mn − M = 0.
 

13-20
Esta ecuación debe ser satisfecha cualesquiera sean las mediciones, y estas pueden
ser cualquier valor real. En particular, si

M1 = α, y M2 = · · · = Mn = β ,

entonces la condición anterior implica


      
α −β −α + β α −β
f (n − 1) = (n − 1) f = −(n − 1) f .
n n n

Si llamamos x = (α − β )/n, que puede ser cualquier real eligiendo adecuadamente


α y β ; y llamamos m = n − 1 que puede ser cualquier entero, llegamos a la conclu-
sión de que la función f debe cumplir la ecuación

f (mx) = m f (x),

para todo real x y todo entero positivo m. Se puede ver que las únicas funciones que
cumplen con esta condición son las lineales: es decir f (x) = −kx.
Observemos a lo que hemos llegado: hemos probado que existe una constante k > 0
tal que
ϕ 0 (ε)
= −kε.
ϕ(ε)
Si integramos en ambos lados de esta igualdad, luego de algunos cálculos, concluí-
mos que
2
ϕ(ε) = Ce−kε ,
en donde C es una constante de integración. Esta es la fórmula mágica a la cual
Gauss llegó y que conocemos hoy como densidad de la distribución normal. Ver la
Figura 13.16.

13-21

You might also like