Probabilidad y aplicaciones estad´ısticas.

Enrique M. Caba˜ na
1
PARTE I: Introducci
´
on a la probabilidad.
1
Universidad de la Rep´ ublica, Departamento de M´etodos Cuantitativos de
la Facultad de Ciencias Econ´ omicas y de Administraci´ on, y Centro de Matem´ atica
de la Facultad de Ciencias.
Contenido
1 La probabilidad, un modelo matem´atico para la incertidum-
bre. 1
1.1 Sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 La ley del azar. . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Un juego de azar. . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Definici´ on de probabilidad. . . . . . . . . . . . . . . . . . 8
1.3 La definici´ on cl´ asica de la probabilidad. . . . . . . . . . . . . . . 10
2 Probabilidades condicionales. 15
2.1 Interpretaci´ on intuitiva. . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Definici´ on de la probabilidad condicional. . . . . . . . . . . . . . 17
2.3 Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Una interpretaci´ on objetiva para la probabilidad condicional. . . 20
2.5 El Teorema de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6 Dos ejemplos de aplicaci´ on estad´ıstica del Teorema de Bayes. . . 22
3 Variables aleatorias. 25
3.1 Introducci´ on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Dos teoremas de existencia. . . . . . . . . . . . . . . . . . . . . 28
3.3 Variables discretas y absolutamente continuas. . . . . . . . . . . 30
3.4 Algunos ejemplos de variables aleatorias. . . . . . . . . . . . . . 33
3.4.1 Variables asociadas a ensayos repetidos. . . . . . . . . . 33
3.4.2 Dos distribuciones absolutamente continuas. . . . . . . . 38
3.5 Construcci´ on expl´ıcita de variables aleatorias en R, con funci´ on
de distribuci´ on F dada, a partir de U ∼Uni(0, 1). . . . . . . . . 40
3.6 Soluci´ on de la ecuaci´ on funcional g(s+t) = g(s) +g(t), s, t > 0.
Probabilidad e informaci´ on. . . . . . . . . . . . . . . . . . . . . 41
3.6.1 Las soluciones de la ecuaci´ on. . . . . . . . . . . . . . . . 41
iii
iv CONTENIDO
3.6.2 La informaci´ on. . . . . . . . . . . . . . . . . . . . . . . . 42
4

Tres aplicaciones vinculadas con la distribuci´ on binomial. 47
4.1 Un modelo probabil´ıstico: El paseo al azar simple. . . . . . . . . 47
4.1.1 Paseo al azar sim´etrico simple. Principio de Reflexi´ on. . 49
4.1.2 El paseo con dos barreras. Principio de Reflexi´ on M´ ultiple. 51
4.2 La f´ ormula de Stirling y el l´ımite de las probabilidades binomiales. 53
4.3 Una aplicaci´ on estad´ıstica: inferencia sobre el par´ ametro en un
modelo de Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 Introducci´ on. . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.2 Un primer esquema de soluci´ on. . . . . . . . . . . . . . . 58
4.3.3 Algunas generalidades sobre la prueba de hip´ otesis. . . . 59
4.3.4 Estimaci´ on de p. . . . . . . . . . . . . . . . . . . . . . . 62
5

Cadenas de Markov 65
5.1 Algunos ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Cadenas finitas homog´eneas en el tiempo . . . . . . . . . . . . . 66
5.3 Cadenas finitas con estados absorbentes. . . . . . . . . . . . . . 68
5.3.1 Partici´ on en bloques de la matriz de probabilidades de
transici´ on . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.4 Teorema de convergencia de probabilidades en una cadena de
Markov finita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6 Valor esperado de una variable aleatoria. 77
6.1 Introducci´ on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.2 Una definici´ on descriptiva de la esperanza. . . . . . . . . . . . . 78
6.3 Definici´ on constructiva de la esperanza. . . . . . . . . . . . . . . 81
6.4 C´ alculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . . 83
6.5 Algunas propiedades de las esperanzas. . . . . . . . . . . . . . . 88
6.5.1 Variables constantes con probabilidad 1. . . . . . . . . . 88
6.5.2 Desigualdad de Jensen. . . . . . . . . . . . . . . . . . . . 89
6.5.3 C´ alculo de l´ımites . . . . . . . . . . . . . . . . . . . . . . 90
6.5.4 Teorema de Convergencia Dominada de Lebesgue. . . . . 90
6.6 Momentos, variancia. . . . . . . . . . . . . . . . . . . . . . . . . 91
6.7 Medidas de posici´ on y medidas de dispersi´ on de una distribuci´ on
de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.8 Esperanza del producto de variables independientes. . . . . . . . 93
6.8.1 Independencia de variables aleatorias. . . . . . . . . . . . 93
6.9 Funciones generatrices. . . . . . . . . . . . . . . . . . . . . . . . 95
CONTENIDO v
6.10 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.11 * Una aplicaci´ on: C´ alculo de probabilidades en el paseo al azar
con barreras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.11.1 Paseo al azar con dos barreras absorbentes. . . . . . . . . 97
6.11.2 Paseo al azar con una barrera . . . . . . . . . . . . . . . 100
7 Medidas, integrales, densidades. 103
7.1 Espacios de medida. . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2 Probabilidades y medidas completas. . . . . . . . . . . . . . . . 104
7.3 Integral respecto de una medida. . . . . . . . . . . . . . . . . . 105
7.4 Dos ejemplos: Integral de Lebesgue e integral respecto de una
medida discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.4.1 Integral respecto de la medida de Lebesgue . . . . . . . . 107
7.4.2 Integral respecto de la medida ν
S
del Ejemplo 7.1.1. . . . 108
7.5 La esperanza como caso particular de la integral. . . . . . . . . 108
7.6 Densidad de una medida respecto de otra medida. . . . . . . . . 109
8 Distribuciones conjuntas, independencia. 111
8.1 Distribuci´ on conjunta de una pareja de variables aleatorias. . . . 111
8.2 La integral de Lebesgue en R
2
. . . . . . . . . . . . . . . . . . . 114
8.3 C´ alculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . . 115
8.3.1 Momentos asociados a una pareja de variables. . . . . . . 115
8.4 Distribuci´ on de variables aleatorias independientes. Producto
de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.4.1 Independencia de variables aleatorias. . . . . . . . . . . . 116
8.4.2 Producto de probabilidades. . . . . . . . . . . . . . . . . 117
8.4.3 La medida de Lebesgue en R
2
, como medida producto. . 117
8.5 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.6 Una aplicaci´ on de la esperanza. Otra soluci´ on al problema de la
aguja de Buffon. . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.7 Distribuci´ on de la suma de variables independientes. . . . . . . . 121
8.8 Un ejemplo: Suma de variables geom´etricas, distribuci´ on bino-
mial negativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.9 Otro ejemplo: Suma de variables exponenciales. Distribuci´ on
Gamma y distribuci´ on de Poisson. . . . . . . . . . . . . . . . . . 123
8.10 Ensayos repetidos, cuando hay m´ as de dos resultados posibles:
la distribuci´ on multinomial . . . . . . . . . . . . . . . . . . . . . 125
8.11 Los estad´ısticos de orden de una muestra. . . . . . . . . . . . . 127
8.11.1 Definici´ on de los estad´ısticos de orden. . . . . . . . . . . 127
vi CONTENIDO
8.11.2 Distribuci´ on de los estad´ısticos de orden. . . . . . . . . . 128
8.11.3 Otra derivaci´ on de la densidad del h-´esimo estad´ıstico
de orden. . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9 Distribuciones y esperanzas condicionales. 131
9.1 Introducci´ on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.2 Una interpretaci´ on intuitiva para la esperanza condicional. . . . 132
9.3 Definici´ on de la esperanza condicional. . . . . . . . . . . . . . . 133
9.4 La distribuci´ on condicional. . . . . . . . . . . . . . . . . . . . . 137
9.5 Esperanzas condicionales iteradas. . . . . . . . . . . . . . . . . . 139
9.6 La esperanza de una funci´ on de una pareja de variables inde-
pendientes, y el Teorema de Fubini. . . . . . . . . . . . . . . . . 142
10

Convergencia de probabilidades en una cadena de Markov. 145
10.1 Cadenas con una cantidad numerable de estados. . . . . . . . . 145
10.2 Teorema de convergencia de probabilidades en una cadena de
Markov numerable. . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.2.1 Significado de las hip´ otesis del enunciado. . . . . . . . . 147
10.2.2

Demostraci´ on del Teorema 10.2.1. . . . . . . . . . . . . 148
10.3 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
10.4 Un ejemplo: Obtenci´ on de las probabilidades de absorci´ on, y de
las esperanzas de los tiempos de absorci´ on a partir del Teorema
de convergencia de probabilidades. . . . . . . . . . . . . . . . . 154
10.5 Uso de los m´etodos matriciales de §5.3 para el c´ alculo de los
tiempos esperados de absorci´ on. . . . . . . . . . . . . . . . . . . 155
11 Convergencia de variables aleatorias. Leyes de Grandes N´ u-
meros. 157
11.1 Desigualdades de Markov y de Chebyshev. . . . . . . . . . . . . 157
11.2 Distancias entre variables aleatorias basadas en momentos. . . . 158
11.2.1 Distancia cuadr´ atica. . . . . . . . . . . . . . . . . . . . . 158
11.3 Convergencias cuadr´ atica y en probabilidad. . . . . . . . . . . . 160
11.3.1 Convergencia cuadr´ atica. . . . . . . . . . . . . . . . . . . 160
11.3.2 Convergencia en probabilidad. . . . . . . . . . . . . . . . 160
11.3.3 Criterio de convergencia en probabilidad basado en la
convergencia cuadr´ atica. . . . . . . . . . . . . . . . . . . 162
11.4 Convergencia casi segura. . . . . . . . . . . . . . . . . . . . . . . 162
11.5 Completitud de L
2
(Ω, P). . . . . . . . . . . . . . . . . . . . . . 164
11.6 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
CONTENIDO vii
11.7 Una aplicaci´ on a la estad´ıstica. Coherencia de una sucesi´ on de
estimadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.7.1 Estimaci´ on coherente de las cuantilas de F a partir de
una muestra aleatoria simple. . . . . . . . . . . . . . . . 167
11.8 Una aplicaci´ on al an´ alisis: Teorema de Weierstrass de aproxi-
maci´ on de funciones continuas por polinomios. . . . . . . . . . . 168
11.9 Leyes de Grandes N´ umeros. . . . . . . . . . . . . . . . . . . . . 169
11.9.1 Ley D´ebil de los Grandes N´ umeros. . . . . . . . . . . . . 169
11.9.2 Ley Fuerte de los Grandes N´ umeros. . . . . . . . . . . . 170
11.10 Distribuci´ on emp´ırica de una muestra. Ley de Glivenko-Can-
telli. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
11.11Reinterpretaci´ on de la Ley de Glivenko - Cantelli como una Ley
de los Grandes N´ umeros funcional. . . . . . . . . . . . . . . . . 174
11.12Algunas aplicaciones estad´ısticas de la convergencia de F
n
a F. . 175
12 Convergencia en Ley. Distribuci´ on normal. Teorema del L´ı-
mite Central. 177
12.1 Convergencia en ley o en distribuci´ on, para variables con valores
en R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
12.1.1 Un rec´ıproco del Teorema 12.1.1. . . . . . . . . . . . . . 179
12.1.2 Una caracterizaci´ on de la convergencia en distribuci´ on. . 180
12.2 Distribuci´ on normal en R. . . . . . . . . . . . . . . . . . . . . . 183
12.3 Teorema del L´ımite Central para variables equidistribuidas. . . . 186
12.4 Teorema del L´ımite Central para arreglos triangulares de varia-
bles independientes. . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.5 Aplicaci´ on: Un ejemplo de convergencia en distribuci´ on asocia-
do a los estad´ısticos de orden. . . . . . . . . . . . . . . . . . . . 190
13 Complementos y demostraciones omitidas en cap´ıtulos ante-
riores. 195
13.1 Teorema de Extensi´ on de Probabilidades de A. N. Kolmogorov. 195
13.1.1 Demostraci´ on de la existencia. . . . . . . . . . . . . . . . 195
13.1.2 Demostraci´ on de la unicidad. . . . . . . . . . . . . . . . 198
13.2 Definici´ on de una probabilidad en R a partir de su funci´ on de
distribuci´ on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
13.3 Algunas propiedades de las esperanzas y de las integrales. . . . . 201
13.3.1 Monoton´ıa, linealidad y σ-aditividad de esperanzas e in-
tegrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
13.3.2 C´ alculo de l´ımites. . . . . . . . . . . . . . . . . . . . . . 203
viii CONTENIDO
13.4 Cambio de variables en una integral. . . . . . . . . . . . . . . . 203
13.5 Producto de probabilidades, Teorema de Fubini. . . . . . . . . . 204
13.6 Integral de Lebesgue y densidades en R
d
. . . . . . . . . . . . . . 206
13.7 Una distancia entre probabilidades. . . . . . . . . . . . . . . . . 206
13.8 Normas L
p
en espacios de clases de equivalencia de funciones
medibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.9 Densidad de una medida absolutamente continua. . . . . . . . . 210
13.9.1 Demostraci´ on del Teorema de Radon-Nikodym. . . . . . 211
13.10Inversi´ on de la funci´ on caracter´ıstica de una distribuci´ on de pro-
babilidades en R. . . . . . . . . . . . . . . . . . . . . . . . . . . 212
13.11Inversi´ on de la funci´ on caracter´ıstica de una distribuci´ on de pro-
babilidades en R
d
. . . . . . . . . . . . . . . . . . . . . . . . . . 215
13.12Demostraci´ on de la Ley Fuerte de los Grandes N´ umeros de Kol-
mogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
13.13Demostraci´ on del T.L.C. de Lindeberg, para arreglos triangulares.219
Indice de Figuras
2.1 Ilustraci´ on para el Ejemplo 2.6.1 . . . . . . . . . . . . . . . . . . 23
3.1 Funci´ on de distribuci´ on de una variable discreta . . . . . . . . . 31
3.2 Funci´ on de distribuci´ on de una variable absolutamente continua 32
3.3 Soluci´ on de la ecuaci´ on funcional g(s + t) = g(s) + g(t) . . . . . 43
4.1 Representaciones gr´ aficas de la trayectoria de un paseo al azar. . 48
4.2 Reflexi´ on de una trayectoria . . . . . . . . . . . . . . . . . . . . 50
4.3 Reflexiones sucesivas de j respecto del par de niveles −a y b. . . 52
4.4 Ilustraci´ on para el Ejemplo 4.3.1 . . . . . . . . . . . . . . . . . . 59
4.5 Errores de tipos I y II en una prueba de hip´ otesis. . . . . . . . . 61
5.1 Diagrama de estados y transiciones de la cadena del Ejemplo 1. 66
6.1 Interpretaci´ on gr´ afica de un sumando en la esperanza de una
variable discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2 Interpretaci´ on gr´ afica de la esperanza de una variable discreta. . 85
6.3 Interpretaci´ on de la esperanza como diferencia de ´ areas. . . . . . 85
6.4 Aproximaci´ on de la esperanza por esperanzas de aproximaciones
discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8.1 Dominios de integraci´ on. . . . . . . . . . . . . . . . . . . . . . . 113
12.1 Gr´ aficos de u

z,ε
y de u
+
z,ε
. . . . . . . . . . . . . . . . . . . . . . . 181
12.2 Funci´ on de distribuci´ on de probabilidades Φ y densidad ϕ (lla-
mada campana de Gauss) de una variable normal t´ıpica. . . . . 184
13.1 Gr´ aficos de sin(x)/x y de

x
0
sin(y)dy/y. . . . . . . . . . . . . . . 213
13.2 Camino de integraci´ on para el c´ alculo de

e
ız
dz/z. . . . . . . . 214
ix
x FIGURAS
Indice de Tablas
6.1 Esperanzas, variancias y funciones generatrices de momentos de
algunas distribuciones. . . . . . . . . . . . . . . . . . . . . . . . 98
12.1 Distribuci´ on normal t´ıpica. . . . . . . . . . . . . . . . . . . . . . 185
xi
Tanto el desarrollo de la probabi-
lidad como el de la estad´ıstica, lo
mismo que sus aportes al progreso
cient´ıfico y tecnol´ ogico, son un pro-
ducto del Siglo XX.
El registro de datos estad´ısticos es
tan viejo como la escritura, pero el
an´ alisis matem´atico de esos datos,
con el prop´ osito de tomar decisiones,
tiene aproximadamente un siglo de
antig¨ uedad, ya que suele estable-
cerse como hito que marca el origen
de la estad´ıstica al comienzo de la
edici´ on de la revista estad´ıstica m´as
antigua, Biometrika, cuyo primer
n´ umero apareci´ o en 1899.
Aunque hay antecedentes de c´ alculos de probabilidades asociados a juegos de
azar, que se remontan al menos al Siglo XVI, los matem´aticos de principios del siglo
pasado a´ un ve´ıan a la probabilidad como un invento de los siglos 17 y 18 no integrado
a la disciplina rigurosa que cultivaban, carente de una estructura s´ olida, que apenas
ten´ıa el m´erito de dar ingeniosas soluciones ad hoc a variados problemas.
La formalizaci´ on del c´ alculo de probabilidades, como una rama de la matem´ atica
s´olidamente fundada, est´ a asociada a trabajos realizados por Andrei N. Kolmogorov
(1903-1987). Bas´andose en los estudios de quienes en esa ´epoca formalizaban el
c´alculo de integrales, Kolmogorov construy´ o una teor´ıa axiom´ atica de la probabilidad
inmersa dentro de la teor´ıa de la medida y contribuy´ o al desarrollo de ambas con
aportes originales.
Hoy sigue public´ andose Biometrika, junto con un gran n´ umero
de revistas de probabilidad y de estad´ıstica matem´atica que, en
conjunto, recogen un doceavo de los trabajos de matem´ atica que
aparecen en la bibliograf´ıa especializada. El aporte de la probabi-
lidad y de la estad´ıstica al desarrollo de las ciencias sociales y de la
naturaleza, e incluso de otras ramas de la matem´atica es induda-
ble, y los m´etodos estad´ısticos contribuyen de manera sustantiva
a mejorar la producci´ on de bienes y la prestaci´ on de servicios.
1. La probabilidad, un modelo
matem´atico para la incertidum-
bre.
La teor´ıa de las probabilidades proporciona modelos matem´ aticos para des-
cribir situaciones en las que existe incertidumbre. Se indica por medio de la
probabilidad el grado de factibilidad de un determinado acontecimiento o de
confianza que se tiene en que ocurra ese acontecimiento. M´ as precisamente,
la probabilidad es una funci´ on que tiene por dominio una familia de acon-
tecimientos cuya ocurrencia es posiblemente incierta. A cada uno de estos
acontecimientos la probabilidad atribuye un n´ umero, tanto m´ as grande cuanto
mayor sea su factibilidad, o la confianza en que ese acontecimiento ocurra. A
la m´ axima factibilidad o confianza (certeza), le atribuye el 1, y a la m´ınima,
el 0.
1
1.1 Sucesos.
Comencemos por analizar el dominio de la probabilidad, es decir, la familia que lla-
maremos A, de los acontecimientos que vamos a incluir en el modelo. Convendremos
que toda vez que nos interese considerar la eventual ocurrencia de un acontecimiento
ˆ
A, incluiremos tambi´en en nuestro modelo el acontecimiento
1
Estos comentarios iniciales s´olo aspiran a establecer un v´ınculo entre el modelo
matem´atico que vamos a introducir, y algunas de las posibles aplicaciones de ese modelo,
fuera de la matem´atica. Buena parte de la riqueza y del atractivo de la probabilidad consis-
ten en que constituye un instrumento para construir modelos capaces de reflejar fen´ omenos
inciertos de la naturaleza, respecto de los cuales puede interesarnos adoptar decisiones. Es-
tas incertidumbres pueden en particular pensarse de manera objetiva o subjetiva, y eso
explica el uso de los t´erminos “factibilidad” y “confianza”, respectivamente. Es por ello que
motivaremos en §1.2 la definici´ on de la probabilidad mediante dos modelos, uno de ellos
objetivo, y el otro subjetivo.
1
2
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
“no ocurre
ˆ
A” , abreviado “no
ˆ
A”,
y toda vez que nos interese considerar la ocurrencia de los acontecimientos
ˆ
A y
ˆ
B,
tambi´en incluiremos en nuestro modelo los acontecimientos compuestos a partir de
ˆ
A
y de
ˆ
B que son:
“ocurren ambos acontecimientos, el
ˆ
A y el
ˆ
B”, abreviado “
ˆ
A y
ˆ
B”,
“alguno de los acontecimientos
ˆ
A,
ˆ
B ocurre”, abreviado “
ˆ
A ´ o
ˆ
B”,
y tambi´en otras combinaciones cuya inclusi´ on es consecuencia de las anteriores, tales
como “ocurre
ˆ
A pero no
ˆ
B”, que equivale a “
ˆ
A y (no
ˆ
B)”, o bien “ocurre
ˆ
A o
ˆ
B pero
no ambos”, que es lo mismo que “(
ˆ
A y (no
ˆ
B)) ´ o (
ˆ
B y (no
ˆ
A))”. Por una inducci´ on
obvia, estas convenciones se generalizan a acontecimientos compuestos por m´as de
dos, tales como la ocurrencia de por lo menos uno de varios acontecimientos dados,
o la no ocurrencia de ninguno de ellos.
Resulta un sencillo ejercicio verificar que las operaciones (no, ´ o, y) entre acontecimien-
tos tienen las mismas propiedades formales que ciertas operaciones (complemento,
uni´ on, intersecci´on, respectivamente) entre conjuntos. M´ as a´ un, es posible mostrar
que cada acontecimiento se puede asociar a un subconjunto de un conjunto dado que
llamaremos Ω, de modo que se correspondan:
acontecimiento subconjunto
ˆ
A A
ˆ
B B
no
ˆ
A A
c
ˆ
A ´ o
ˆ
B A∪ B
ˆ
A y
ˆ
B A∩ B
ˆ
A y (no
ˆ
B) A\ B
. . . . . . . . .
Introducci´ on a la probabilidad.
1.1. Sucesos 3
Para ello podemos pensar que Ω es el conjunto de todos los acontecimientos ele-
mentales o “estados posibles de la naturaleza”, es decir, el conjunto formado por
las descripciones exhaustivas y mutuamente excluyentes de cada uno de los estados
posibles del sistema que nos interesa describir. Entonces, un subconjunto A de Ω se
corresponder´ a con el acontecimiento consistente en que ocurre alguno de los estados
descritos por los puntos de Ω contenidos en A.
Las consideraciones anteriores nos conducen a introducir la siguiente definici´ on.
Dado un conjunto no vac´ıo Ω, consideremos una familia A de partes de Ω
con las propiedades:
(a
0
) A es no vac´ıa.
(a
1
) Si A pertenece a A, entonces su complemento A
c
tambi´en pertenece a
A.
(a
2
) Si los conjuntos A
1
, . . . , A
n
(n ∈ N) pertenecen a A, entonces

n
m=1
A
m
tambi´en pertenece a A.
Definici´ on 1.1.1 A una familia A que cumple (a
0
), (a
1
) y (a
2
), o, en otras
palabras, a una familia de subconjuntos de Ω cerrada bajo complementos y
uniones finitas, se la llama un ´ algebra de subconjuntos de Ω.
Toda ´ algebra de subconjuntos de Ω es tambi´en cerrada bajo intersecciones
finitas, y bajo diferencias sim´etricas. Conviene recordar, para verificarlo, que
una intersecci´ on finita puede escribirse en la forma

n
m=1
A
m
= (

n
m=1
A
c
m
)
c
, y
que la diferencia sim´etrica de A y B es A △B = (A ∩ B
c
) ∪ (B ∩ A
c
).
Definici´ on 1.1.2 Una familia A de subconjuntos de Ω que cumple las propie-
dades
(s
0
) = (a
0
),
(s
1
) = (a
1
), y
(s
2
) Si los conjuntos de una sucesi´ on (A
n
)
n=1,2,...
pertenecen a A, entonces


n=1
A
m
tambi´en pertenece a A.
se llama σ-´algebra de subconjuntos de Ω.
Puede verificarse que toda σ-´algebra de subconjuntos de Ω es un ´ algebra.
Conviene verificar previamente que una consecuencia de las definiciones (1.1.1)
y (1.1.2) es que toda ´ algebra y toda σ-´algebra contienen necesariamente a Ω
y al conjunto vac´ıo ∅.
Observemos que la familia {∅, Ω} es una σ-´algebra, y, de acuerdo a la
observaci´ on precedente, se trata de la σ-´algebra m´ as peque˜ na posible, a la que
suele llam´ arsele σ-´algebra trivial.
4
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
Nota: Aunque la introducci´ on informal que precede a la Definici´ on 1.1.1
sugiere adoptar un ´ algebra como dominio de la probabilidad, tiene ventajas
t´ecnicas adoptar en cambio una σ-´algebra. El Teorema 3.2.1 nos dar´ a una
primera clave para apreciar la conveniencia de esta formalizaci´ on.
Definici´ on 1.1.3 La pareja (Ω, A) en la que Ω es un conjunto no vac´ıo y A
es una σ-´ algebra de subconjuntos de Ω, se llama espacio probabilizable, y los
elementos de A se llaman sucesos.
Ejercicios.
Ejercicio 1.1.1 Verificar que toda σ-´algebra A contiene a Ω y al suceso vac´ıo ∅,
y que se cumplen las propiedades
(a
2
) A
1
, . . . , A
n
(n ∈ N) ∈ A ⇒

n
m=1
A
m
∈ A.
(a
3
) A
1
, A
2
, . . . ∈ A ⇒


m=1
A
m
∈ A
Ejercicio 1.1.2 Verificar que toda σ-´algebra de subconjuntos de Ω es un ´ algebra.
Ejercicio 1.1.3 Verificar que la familia 2

de todos los subconjuntos de Ω es una
σ-´algebra.
Ejercicio 1.1.4 Verificar que si A
1
, . . . , A
n
es una partici´ on de Ω, es decir, los
sucesos A
1
, . . . , A
n
son disjuntos y

n
m=1
A
m
= Ω, entonces la familia de todas las
uniones {

m∈J
: J subconjunto de {1, 2, . . . , n}} es un ´ algebra.
Ejercicio 1.1.5 Verificar que la intersecci´on de σ-´algebras de subconjuntos de Ω
es tambi´en una σ-´algebra. Deducir que dada una familia cualquiera de subconjuntos
de Ω, existe una m´ınima σ-´algebra que los contiene.
Ejercicio 1.1.6 Enumerar la m´ınima σ-´algebra de subconjuntos de Rque contiene
a los conjuntos { 0 }, { 1 } y { 2 }.
Ejercicio 1.1.7 Verificar que si A es una σ-´algebra de partes de R que contiene
los intervalos abiertos {(a, b) : a, b ∈ R, a ≤ b}, entonces A contiene tambi´en todos
los intervalos cerrados y semiabiertos.
Ejercicio 1.1.8 Verificar que coinciden las m´ınimas σ-´algebras de partes de R
que contienen (i) los intervalos abiertos; (ii) los intervalos cerrados; (iii) todos los
intervalos; (iv) los conjuntos abiertos; (v) los conjuntos cerrados.
Esta σ-´algebra se llama de Borel.
Introducci´ on a la probabilidad.
1.2. Probabilidad 5
1.2 Probabilidad.
A cada acontecimiento (o suceso), sobre cuya ocurrencia existe incertidumbre,
queremos atribuir ahora una medida, su probabilidad, que nos diga hasta qu´e
punto podemos confiar en que ese acontecimiento ocurra. Antes de dar una
definici´on formal, vamos a considerar dos situaciones que nos proporcionar´ an
una interpretaci´ on intuitiva para la probabilidad.
1.2.1 La ley del azar.
Consideremos la siguiente ley sobre cuya eventual validez no nos pronunciamos.
Repitamos indefinidamente un cierto experimento E con independencia entre las suce-
sivas replicaciones. Supongamos que el resultado del experimento es incierto, y lla-
memos A a uno de los resultados posibles. Designamos por r
n
(A) (que llamamos
frecuencia de A) al n´ umero de veces que ha ocurrido A al cabo de n repeticiones.
Entonces, el cociente r
n
(A)/n (que llamamos frecuencia relativa de A) tiene l´ımite
cuando n tiende a infinito, y a ese l´ımite lo llamamos p(A).
Consideremos un ejemplo de tal situaci´ on. Supongamos que el experimento consiste
en arrojar un dado cuyas caras est´ an numeradas de 1 a 6. El resultado (el n´ umero
de la cara que queda hacia arriba) puede ser cualquiera de esos seis n´ umeros, pero en
cada repetici´on del experimento no hay certeza sobre cu´ al de estos ser´a como suele
ocurrir cuando se arroja un dado. Interpretamos la independencia entre las sucesivas
repeticiones en el sentido de que la ejecuci´on de cualesquiera de ellas, y, en particular
sus resultados, no tiene ninguna influencia sobre las otras y sobre sus resultados.
La ley que hemos enunciado conduce a l´ımites p(1), . . . , p(6) para las frecuencias
relativas con que se obtienen los resultados 1, . . . , 6. Aunque la ley no dice nada sobre
cu´ales son estos l´ımites, es claro que todos ellos son n´ umeros comprendidos entre 0
y 1, ya que las frecuencias relativas cumplen esa propiedad por su propia definici´ on.
Adem´as, como en cada repetici´on del experimento ocurre alguno de los resultados
indicados y s´ olo uno, las frecuencias r
n
(1), . . . , r
n
(6) cumplen r
n
(1) +. . . +r
n
(6) = n,
de donde resulta p(1) + . . . + p(6) = 1. Si tuvi´eramos buenas razones para suponer
que ninguna de las caras est´ a privilegiada respecto de las otras (por la construcci´ on
del dado y por la manera de arrojarlo), concluir´ıamos p(1) = p(2) = . . . = p(6), y
entonces debe cumplirse p(i) = 1/6, i = 1, . . . , 6.
En general, si A, B son dos resultados posibles del experimento que no pueden ocurrir
simult´ aneamente, entonces r
n
(A ´ o B) = r
n
(A) +r
n
(B), de donde p(A ´ o B) = p(A) +
p(B). Por otra parte, si Ω es el resultado consistente en que ocurra alguno cualquiera
de los resultados posibles, resultado trivial que siempre ocurre, tenemos r
n
(Ω) = n ,
de modo que p(Ω) = 1.
6
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
1.2.2 Un juego de azar.
Veamos a continuaci´ on otro ejemplo, que retomaremos en varias oportunidades para
motivar algunas de las definiciones, basado en un juego de azar hipot´etico. Considere-
mos un experimento cuyo resultado es incierto, y llamemos A a uno de sus resultados
posibles. Un jugador se dispone a participar en el siguiente juego de azar: se realiza
el experimento; si ocurre A, recibe como premio una unidad monetaria, y si no ocurre
A, no recibe ning´ un premio. Vamos a llamar π(A) a la cantidad que el jugador estima
equitativo pagar para intervenir, sin pretender obtener una ganancia de su juego, pero
sin sufrir tampoco una p´erdida. De otra manera, llamemos π(A) a una cantidad tal
que el jugador considera que le conviene jugar si el pago que debe hacer por intervenir
en el juego es menor que π(A), pero estar´ıa dispuesto a intercambiar su papel con la
banca por un pago superior a π(A). La cantidad π(A) no tiene por qu´e ser la misma
para distintos jugadores, pues puede depender de su informaci´ on previa, o de otras
consideraciones subjetivas.
π(A)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
A?
s´ı
no
1
c
0
Podemos expresar la condici´ on de equitatividad del juego de otra manera: el jugador
estima que la cantidad cierta π(A) y la cantidad incierta que es el premio del juego,
que vale 1 si ocurre A y 0 si no ocurre A, tienen el mismo valor, es decir, son
intercambiables.
Obviamente se cumple 0 ≤ π(A) ≤ 1, pues en caso contrario el jugador tendr´ıa
seguramente una ganancia (si fuese π(A) < 0) o una p´erdida (si 1 < π(A)).
Aceptemos adem´as que si el premio del juego fuese c si ocurre A y 0 si no ocurre, el
jugador lo cambiar´ıa por cπ(A). Esta condici´ on de linealidad s´ olo es razonable si las
sumas a intercambiar son peque˜ nas; en efecto, un jugador podr´ıa estimar apropiado
invertir una peque˜ na cantidad en un juego para duplicarla en caso de ganar, pero no
invertir´ıa toda su fortuna en el mismo juego, a´ un cuando la duplicara en caso de ganar,
para no arriesgarse a perder, por la consecuencia desastrosa que esto le significar´ıa.
Por lo tanto, convendr´ a pensar en lo sucesivo que las sumas que se intercambian son
peque˜ nas.
Observemos tambi´en que, si Ay B son dos resultados posibles, que no pueden ocurrir a
la vez, nuestro jugador podr´ıa intervenir simult´ aneamente dos veces en el mismo juego,
apostando una vez en favor de A, por lo cual estima que debe pagar π(A), y la otra vez
por B, por lo cual estima que debe pagar π(B). Como esto es equivalente a intervenir
una vez apostando por (A ´ o B) (obs´ervese que para que esto sea correcto se requiere
que A y B no puedan ocurrir simult´ aneamente), se deduce π(A ´ o B) = π(A) +π(B).
Introducci´ on a la probabilidad.
1.2. Probabilidad 7
π(A)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
A?
s´ı
no
1
c
0
+
π(B)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
B?
s´ı
no
1
c
0





































=
π(A∪ B)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
A∪ B?
s´ı
no
1
c
0
Una observaci´ on trivial es que si el jugador apuesta por el resultado Ω consistente en
que ocurra cualquiera de los resultados posibles, con lo que se asegura una ganancia
de 1, la condici´ on de equitatividad presente en la descripci´ on de π implica π(Ω) = 1.
El mismo experimento de 1.2.1 sirve de ejemplo para esta situaci´ on. Pero ahora no
es necesario suponer que haya una sucesi´on de repeticiones independientes (t´ermino
dif´ıcil de definir formalmente, al menos por el momento!). El experimento de arrojar
el dado podr´ıa realizarse por una ´ unica vez. El jugador puede saber poco o nada sobre
la construcci´on del dado, o sobre la habilidad del que lo arroja. Har´ a su composici´on
de lugar, usando la informaci´ on que tenga, y atribuir´ a valores a π. Notemos que
cualquiera sea esta composici´on de lugar, las consideraciones anteriores indican que
los seis valores π(1), . . . , π(6) no pueden ser completamente arbitrarios: deben ser
no negativos y sumar 1. Observemos de paso que si nuestro jugador no encuentra
razones para preferir un resultado a otro, desde el punto de vista de la confianza que
tenga en que cada uno de ellos ocurra, elegir´ a π(1) = . . . = π(6) = 1/6.
Entre los modelos de 1.2.1 y 1.2.2 puede establecerse la siguiente relaci´ on. Supon-
gamos que el juego puede repetirse, y que nuestro jugador est´ a dispuesto a apostar
cada vez π(A) para ganar 1 en caso de ocurrir A. Para las n primeras repeticiones,
considerar´ a intercambiable una apuesta nπ(A) con la ganancia r
n
(A) (con la notaci´ on
introducida en 1.2.1); la apuesta promedio, constante, es π(A), y la ganancia promedio
r
n
(A)/n . De aqu´ı resulta que el jugador deber´ a considerar intercambiables π(A) con
r
n
(A)/n, y, si considera que la ley del azar es v´ alida, como la equivalencia de π(A)
con r
n
(A)/n vale para todo n, deber´ a estimar π(A) = p(A).
No debe extra˜ narnos entonces que π y p compartan algunas propiedades.
Nota: La definici´ on que sigue intenta recoger los elementos comunes pre-
sentes en los dos ejemplos precedentes. Sin ir m´ as all´ a de lo que ellos sugieren,
la propiedad del item (p
2
) se formular´ıa para sucesiones finitas exclusivamente.
Sin embargo, razones de conveniencia t´ecnica vinculadas a resultados tales
como los de los Teoremas 3.2.1, y 1.2.1, aconsejan extender la aditividad a
sucesiones infinitas.
8
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
1.2.3 Definici´ on de probabilidad.
Definici´ on 1.2.1 . Dado un espacio probabilizable (Ω, A), llamamos probabi-
lidad en (Ω, A) a una funci´ on P : A → R
+
que satisfaga
(p
1
) P(Ω) = 1
(p
2
) Si (A
n
)
n=1,2,...
es una sucesi´ on de sucesos disjuntos, entonces se
cumple
P(


n=1
A
n
) =


n=1
P(A
n
).
Definici´ on 1.2.2 La terna (Ω, A, P), donde P es una probabilidad en (Ω, A),
se llama espacio de probabilidad.
Ejemplo. Si Ω = {ω
1
, ω
2
, . . . , ω
n
, . . .} es un conjunto numerable, A = 2

es la familia de todos los subconjuntos de Ω, y (p
n
)
n=1,2,...
es una sucesi´on de
n´ umeros no negativos tal que


n=1
p
n
= 1, entonces P(A) =

ωn∈A
p
n
es una
probabilidad en (Ω, A).
Ejercicios
Ejercicio 1.2.1 Probar que toda probabilidad satisface las siguientes propiedades:
(p’
1
) P(∅) = 0.
(p’
2
) Si (A
m
)
m=1,2,...,n
es una familia finita de sucesos disjuntos, entonces se
cumple P(

n
m=1
A
m
) =

n
m=1
P(A
m
).
(p
3
) P(A
c
) = 1 −P(A)
(p
4
) A ⊂ B ⇒P(A) ≤ P(B).
(p
5
) P(A∪ B) = P(A) +P(B) −P(A∩ B).
Ejercicio 1.2.2 Probar por inducci´ on completa la siguiente generalizaci´ on de la
propiedad (p
5
) del ejercicio precedente:
Para cualesquiera sucesos A
1
, A
2
, . . . , A
n
, la probabilidad de la uni´ on puede cal-
cularse mediante la f´ ormula:
P(

n
i=1
A
i
) =

n
k=1
(−1)
k+1

1≤i
1
<...<i
k
≤n
P(A
i
1
∩ A
i
2
∩ . . . ∩ A
i
k
)
Ejercicio 1.2.3 Si P y Q son dos probabilidades definidas en un mismo espacio,
mostrar que aP + bQ tambi´en es una probabilidad para cualquier par de n´ umeros
no negativos a y b que satisfagan a +b = 1.
Ejercicio 1.2.4 Si A, B, C, son sucesos arbitrarios, mostrar que
Introducci´ on a la probabilidad.
1.2. Probabilidad 9
(a) P(A∩ B ∩ C) ≤ P(A) ∧ P(B) ∧ P(C);
(b) P(A∪ B ∪ C) ≥ P(A) ∨ P(B) ∨ P(C).
Ejercicio 1.2.5 Un dado est´ a cargado de modo que la probabilidad de cada cara
es proporcional al n´ umero indicado en la cara. Cu´ al es la probabilidad de que al
arrojarlo, se obtenga un resultado par?
Ejercicio 1.2.6 Dada una sucesi´on creciente de sucesos: ∅ = E
0
⊂ E
1
⊂ E
2
⊂ . . .,
verificar que


i=1
E
i
se puede escribir como una uni´ on disjunta en la forma

i=1
E
i
=

i=1
(E
i
\ E
i−1
).
Teorema 1.2.1 (Continuidad de la probabilidad).
(i) Si (A
n
)
n=1,2,...
es una sucesi´ on creciente de sucesos, se cumple
P

n=1
A
n

= lim
n→∞
P(A
n
).
(ii) Si (B
n
)
n=1,2,...
es una sucesi´ on decreciente de sucesos,entonces
P

n=1
B
n

= lim
n→∞
P(B
n
).
Demostraci´ on. Observemos en primer lugar que (i) y (ii) son equivalentes.
En efecto, si vale (i) y (B
n
)
n=1,2,...
es decreciente, entonces (B
c
n
)
n=1,2,...
es cre-
ciente, y P


n=1
B
n
=1−P(


n=1
B
n
)
c
=1−P(


n=1
B
c
n
)=1−lim
n→∞
P(B
c
n
), por
(i). De aqu´ı resulta P(


n=1
B
n
)=1−lim
n→∞
(1 −P(B
n
)) =lim
n→∞
P(B
n
). De
manera an´ aloga se muestra que (ii) implica (i).
Para probar (i) definimos C
n
= A
n
\ A
n−1
, n = 2, 3, . . ., y C
1
= A
1
de
manera que los sucesos (C
n
)
n=1,2,...
son disjuntos. Adem´ as se verifica que
A
n
=

n
m=1
C
m
y que


n=1
A
n
=


n=1
C
n
. Como los C
n
son disjuntos, P(A
n
)
=

n
m=1
P(C
m
), y P


n=1
A
n
=


m=1
P(C
m
). Por lo tanto, P


n=1
A
n
=
lim
n→∞

n
m=1
P(C
m
) = lim
n→∞
P(A
n
). 2
El enunciado del Teorema 1.2.1 podr´ıa haberse escrito en la forma: Para toda sucesi´ on
mon´otona de sucesos (A
n
), se cumple limP(A
n
) = P(limA
n
), porque cuando (A
n
)
10
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
es creciente, se define limA
n
=


n=1
A
n
, y cuando es decreciente, limA
n
=


n=1
A
n
.
Esta observaci´ on justifica mejor el nombre de teorema de continuidad para el Teorema
1.2.1. Las dos definiciones precedentes de l´ımite de sucesiones mon´otonas de conjuntos
son coherentes con las siguientes:
Para cualquier sucesi´on de conjuntos (A
n
), llamamos l´ımite superior de la sucesi´on al
conjunto limsupA
n
=


n=1


m=n
A
m
, y l´ımite inferior a liminf A
n
=


n=1


m=n
A
m
.
Decimos que (A
n
) tiene l´ımite cuando limsupA
n
y liminf A
n
coinciden, y en ese caso,
definimos limA
n
= limsup A
n
= liminf A
n
.
Resulta inmediato verificar que cuando (A
n
) es mon´ otona, esta ´ ultima definici´ on de
l´ımite coincide con la del p´ arrafo anterior.
Finalmente, dejamos a cargo del lector verificar que las definiciones de limsup y de
liminf de conjuntos podr´ıan haberse hecho de la siguiente manera equivalente: Si
designamos por 1
A
a la funci´ on indicatriz de A, es decir, 1
A
(ω) =

1 si ω ∈ A
0 si ω ∈ A,
entonces se cumplen las igualdades,
1
limsup An
= limsup 1
An
, 1
liminf An
= liminf 1
An
,
que pueden adoptarse como definici´ on de l´ımites de sucesiones de conjuntos a partir
de los l´ımites de las sucesiones de sus funciones indicatrices. M´as precisamente:
limsup A
n
= {ω : limsup 1
An
= 1}, liminf A
n
= {ω : liminf 1
An
= 1}.
1.3 La definici´ on cl´asica de la probabilidad.
Teorema 1.3.1 Si {A
1
, A
2
, . . . , A
n
} es una partici´ on de Ω (es decir, A
1
, A
2
,
. . ., A
n
, son sucesos disjuntos cuya uni´ on es Ω) y se cumple P(A
1
) = P(A
2
)
= . . . =P(A
n
), entonces P(A
1
∪ A
2
∪ . . . ∪ A
k
) = k/n.
El mismo resultado suele expresarse diciendo que, cuando hay n sucesos
igualmente probables y mutuamente excluyentes, alguno de los cuales ocurre
necesariamente, entonces, si exactamente k de ellos son favorables a cierto
resultado, la probabilidad de este resultado es k/n, es decir, es igual al n´ umero
de casos favorables dividido por el n´ umero de casos posibles.
La demostraci´ on del Teorema 1.3.1 no ofrece dificultades especiales. Su
principal inter´es se debe a sus aplicaciones. Estas corresponden al contexto
relativamente limitado en que podemos identificar una partici´ on de Ω en suce-
sos equiprobables, y queremos determinar la probabilidad del suceso obtenido
por la uni´ on de algunos de ellos. A pesar de esta limitaci´ on, hay una amplia
variedad de situaciones que pueden modelarse mediante un esquema en el que
el Teorema 1.3.1 es aplicable, como lo sugieren los ejercicios siguientes.
Introducci´ on a la probabilidad.
1.3. La definici´ on cl´ asica de la probabilidad. 11
Ejercicios
En cada uno de los enunciados que siguen se plantean situaciones para cuya
soluci´ on es posible plantear un modelo para la aplicaci´ on del Teorema 1.3.1.
La validez de los resultados estar´ a condicionada, por supuesto, a la validez del
modelo.
Ejercicio 1.3.1 Se distribuyen al azar N bolas numeradas de 1 a N, en N cajas,
de modo que se coloca una bola en cada caja.
¿ Cu´ al es la probabilidad de que en las cajas n´ umeros 1 y 2 se coloquen las bolas
con n´ umeros 1 y 2 respectivamente, y que, en cambio, en la caja n´ umero 4 no est´e
la bola n´ umero 4? (N ≥ 4).
Ejercicio 1.3.2 Se arrojan repetidamente dos dados perfectos y se observan las
sumas sucesivas S
1
, S
2
, . . .
(a) Calcular la probabilidad de obtener el mismo resultado las tres primeras
veces (es decir, S
1
= S
2
= S
3
).
(b) Calcular la probabilidad del suceso S
1
< S
2
< S
3
.
(c) Generalizar (a) y (b) al caso en que se consideran los N primeros resul-
tados en vez de los tres primeros.
Ejercicio 1.3.3 Se eligen n d´ıgitos al azar. ¿ Cu´ al es la probabilidad de que no
haya dos iguales?
Ejercicio 1.3.4 Si m bolas se colocan al azar en n cajas, ¿ cu´al es la probabilidad
de que exactamente una caja quede vac´ıa?
Ejercicio 1.3.5 ¿ Cu´ al es la probabilidad de que en un grupo de r personas elegi-
das al azar, haya por lo menos dos que cumplan a˜ nos el mismo d´ıa?
Ejercicio 1.3.6 Se busca una determinada ficha de un mazo de n, que ha sido
mezclado. Para encontrarla, se examinan las fichas una a una hasta que la ficha
buscada aparece. ¿ Cu´ al es la probabilidad de tener que examinar j fichas?
Ejercicio 1.3.7 Se corren seis carreras, en cada una de las cuales participan diez
caballos. Cada caballo tiene la misma probabilidad de ganar una carrera, que cual-
quier otro de los que corren en ella. Se eligen al azar un caballo de cada carrera. ¿
Cu´ al es la probabilidad de elegir a los ganadores?
12
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
Ejercicio 1.3.8 En la ciudad circulan a billetes de una serie que llamaremos A,
b de una serie B y c de una serie C. ¿ Cu´ al es la probabilidad de que una persona
que tiene cinco billetes, tenga alg´ un billete de cada serie?
¿ Es posible responder la misma pregunta si en vez de conocer el n´ umero de
billetes de cada serie que circulan se conocen las proporciones α =
a
a+b+c
, β =
b
a+b+c
, γ =
c
a+b+c
?
Ejercicio 1.3.9 En un examen se le entregan a un estudiante n preguntas y se le
entregan de manera desordenada las n respuestas. Se le pide que ponga en corres-
pondencia cada pregunta con su respuesta. ¿ Cu´ al es la probabilidad de que acierte
alguna, si contesta al azar? Se sugiere utilizar la f´ ormula establecida en el Ejercicio
1.2.2.
N1.- Los comienzos del c´alculo de probabilida-
des.
Se suele establecer como comienzo del c´ alculo de probabilidades, el intercam-
bio de correspondencia entre Fermat y Pascal referente a juegos de azar. No
fueron ellos, sin embargo, los primeros en ocuparse en formalizar aspectos re-
lativos a este tema, y entre sus predecesores se encuentran Fra Luca Pacioli
(aproximadamente 1445 - 1517), Tartaglia (ap.1500 - 1557), Cardano (1501 -
1576) (a quien se remonta el c´ alculo de probabilidades mediante la ”definici´ on
cl´ asica”, §1.3) y Galileo Galilei (1564 - 1642).
Fermat, Pierre de (1601-1665).
Naci´o en Beaumont de Lomages, Francia, el 17 de agosto de 1601. Aunque
era abogado y funcionario del gobierno, se le recuerda por sus contribuciones
a la matem´atica, especialmente a la teor´ıa de n´ umeros. El llamado ”´ ultimo
Teorema de Fermat” que expresa que la ecuaci´on diof´antica x
n
+ y
n
= z
n
no tiene ra´ıces para n > 2, que manifest´o haber demostrado en una nota
escrita al margen de un texto, pero cuya demostraci´on nunca se conoci´o, fue
un desaf´ıo para quienes intentaron demostrarlo durante m´as de trescientos
a˜ nos desde entonces. La demostraci´on reci´en se obtuvo en 1993 - 1995 como
resultado de la aplicaci´on de teor´ıas muy elaboradas, algunas de las cuales,
sin duda, deben su surgimiento al prop´osito de demostrar el ”Teorema de
Fermat”.
´
El y Blaise Pascal, en correspondencia intercambiada entre ambos, es-
tablecieron las bases del c´alculo de probabilidades, al resolver problemas
planteados por juegos de azar.
Introducci´ on a la probabilidad.
1. N1.- Fermat, Pascal. 13
Pascal, Blaise (1623-1662).
Naci´o en Clermont, Auvergne, Francia, el 19 de junio de 1623. Su padre, Etienne Pascal, le dio una
educaci´on poco ortodoxa, y, aunque pretendi´o mantenerlo alejado de la matem´atica durante sus primeros
a˜ nos de estudio, ´el redescubri´o por s´ı mismo algunos resultados de la geometr´ıa.
Sus principales contribuciones las hizo en al campo de la hidrost´atica, la hidrodin´amica, y la geometr´ıa
proyectiva. Invent´o la pascalina, primera calculadora decimal mec´anica.
Junto con Fermat, estableci´o las bases del c´alculo de probabilidades, resolviendo problemas planteados
por la pr´actica de los juegos de azar.
14
Enrique M. Caba˜ na.
Cap´ıtulo 1: Probabilidad.
2. Probabilidades condicionales.
2.1 Interpretaci´ on intuitiva.
Vamos a retomar el modelo de 1.2.2. Consideremos un experimento con resultados
posibles A y B y supongamos que un jugador estima, con la informaci´ on que posee
a priori, que resulta equitativo pagar π(B) por obtener premio 1 cuando B ocurre.
D´emosle ahora al jugador la informaci´ on adicional de que A ocurre. A la nueva
cantidad que considera equitativo pagar para obtener premio 1 cuando ocurre B,
luego de saber que A ocurre, la llamaremos π(B|A). Resulta razonable plantearse si
esta informaci´ on nueva lo induce a cambiar su apuesta, y en caso afirmativo, de qu´e
manera. De otra modo: nos preguntamos si π(B|A) difiere de π(B).
Consideremos un ejemplo. Supongamos que en una caja se han guardado dos mo-
nedas. Una de ellas tiene dos caras, y la otra dos cruces. Se retira una de ellas de
la caja, sin que resulte m´ as veros´ımil que la moneda retirada sea una o la otra, y se
arroja sobre la mesa. Llamemos A al suceso que consiste en que sale cara. Luego se
vuelve a arrojar, y se ofrece apostar a que en esta segunda oportunidad salga cruz,
suceso que llamaremos B. A un jugador que ignore el resultado de la primera vez que
se ha arrojado la moneda, le resulta equitativo pagar 0.5 por intervenir en el juego en
que recibe premio 1 cuando ocurre B, ya que es igualmente plausible que la moneda
extra´ıda sea la que tiene dos caras, o la que tiene dos cruces. Sin embargo, es claro
que si sabe que A ha ocurrido, es porque la moneda que se extrajo es la que tiene dos
caras, y entonces es seguro que no ocurrir´ a B, lo que le lleva a pagar 0 por intervenir
en el juego.
Modifiquemos ahora nuestro ejemplo de la manera siguiente. Supongamos que una
de las monedas ha sido trucada de modo que la probabilidad de que al arrojarla salga
cara es p, o, lo que es lo mismo - y lo que precede es una manera abreviada de decirlo
- dentro de nuestro modelo subjetivo, la composici´ on de lugar del jugador sobre esa
moneda lo llevar´ıa a pagar p por intervenir en el juego en que recibe 1 si al arrojar
la moneda sale cara. Consecuentemente, la probabilidad de que salga cruz es 1 − p.
Supongamos asimismo que la otra moneda tiene una propiedad an´ aloga, pero ahora
es 1 −p la probabilidad de que salga cara y p la de que salga cruz.
Si p es 1, se repite la situaci´on descrita arriba. Si en cambio p es 0.5, las dos monedas
son equivalentes. Cualquiera que sea la elegida, la probabilidad de que en la segunda
instancia en que se arroja salga cara es 0.5, de modo que conocer si A ocurre o no, no
15
16
Enrique M. Caba˜ na.
Cap´ıtulo 2: Probabilidades condicionales
servir´ a para modificar la composici´ on de lugar respecto del resultado de la segunda
instancia, como antes.
Parece razonable que el efecto del par´ ametro p sea continuo. En todos los casos,
π(B) = 0.5, cualquiera sea p. Pero cuando p = 1, π(B|A) = 0, cuando p = 0.5,
π(B|A) = 0.5, y cuando p = 0, π(B|A) = 0, por analog´ıa con el primer caso, ya que
la situaci´ on es similar. Es de esperar entonces que π(B|A) var´ıe continuamente con
p recorriendo valores que van de 0 a 0.5 y nuevamente a 0, cuando p va de 1 a 0.5, y
a 0. M´ as adelante, una vez introducidos algunos elementos que facilitar´ an el c´alculo,
propondremos como ejercicio encontrar π(B|A) en funci´ on de p.
Consideremos ahora una forma particular de apuesta, que llamaremos apuesta com-
binada: Se apuesta por un cierto resultado A, y, si ´este se produce, se invierte la
ganancia en apostar a otro resultado B. Cuando esto es as´ı, a´ un antes de jugar y
sin saber si A ocurre o no, el jugador debe considerar, en el momento de preguntarse
hasta cu´ anto est´a dispuesto a pagar al apostar por B, que A ha ocurrido, dado que
s´olo en este caso tiene efecto su segunda apuesta.
λπ(A)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
A?
s´ı
no
λ
c
0
= π(B|A)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
B?
s´ı
no
1
c
0
=
π(A)π(B|A)

¨
¨
r
r
r
r
r
r
¨
¨
¨
E
A∩ B?
s´ı
no
1
c
0
Vamos a analizar c´omo puede decidir un jugador cu´ anto est´a dispuesto a pagar para
intervenir en un juego en que apuesta por A e invierte su ganancia en apostar por B.
Supongamos por a˜ nadidura que el premio en esta segunda instancia es 1.
Por una parte, dado que s´ olo obtiene la ganancia 1 cuando ocurre A (para poder
continuar apostando) y tambi´en B (para ganar en la segunda apuesta), se deduce
que estar´a dispuesto a pagar π(A∩ B).
Por otra parte, al apostar por B con la informaci´ on de que A ha ocurrido (tiene
que haber ocurrido, pues de no ser as´ı no estar´ıa apostando), est´ a dispuesto a pagar
π(B|A). Esto es lo que debe obtener como ganancia de su primera apuesta. Dado
que pagar´ıa π(A) por obtener premio 1 si ocurre A, para multiplicar el premio por
π(B|A) multiplicar´ a tambi´en su apuesta por el mismo coeficiente, de modo que la
apuesta combinada ser´ a π(A)π(B|A).
De los dos p´ arrafos anteriores resulta que debe cumplirse
π(A∩ B) = π(A)π(B|A).
Introducci´ on a la probabilidad.
2.2. Definici´ on de la probabilidad condicional. 17
Observemos finalmente que las consideraciones anteriores conducen a una formaliza-
ci´on del concepto de independencia, hasta ahora manejado de manera informal. En
efecto, si la informaci´ on sobre la ocurrencia de A no cambia la confianza en la ocur-
rencia de B, diremos que B es independiente de A. Con las notaciones que estamos
utilizando, B es independiente de A cuando π(B|A) = π(B). La probabilidad condi-
cional y la independencia de sucesos se introducen formalmente en las definiciones
que siguen.
2.2 Definici´ on de la probabilidad condicional.
Definici´ on 2.2.1 Dado un espacio de probabilidad (Ω, A, P), y un suceso A
tal que P(A) > 0, se define la funci´ on P(·|A) : A → R
+
de la siguiente
manera:
P(B|A) = P(A ∩ B)/P(A).
Dicha funci´on se llama probabilidad condicional dado A.
Ejercicios.
Ejercicio 2.2.1 (i) Verificar que (Ω, A, P(·|A)) es un nuevo espacio de probabili-
dad. (Se supondr´ a P(A) > 0).
(ii) Verificar que A
A
= {A ∩ B : B ∈ A} es una σ-´algebra de subconjuntos de
A, y que la restricci´on de P(·|A) a A
A
es tambi´en una probabilidad.
Ejercicio 2.2.2 Probar la siguiente regla de multiplicaci´on de probabilida-
des. (Se supondr´ a en lo que sigue que las probabilidades condicionales est´ an defini-
das, es decir, los sucesos condicionantes tienen probabilidad positiva.)
(p
6
) P(A
1
∩ A
2
) = P(A
1
) P(A
2
|A
1
)
(p

6
) P(A
1
∩ A
2
∩ . . . ∩ A
n
) =
P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
∩ A
2
) . . . P(A
n
|A
1
∩ A
2
∩ . . . ∩ A
n−1
)
Ejercicio 2.2.3 Verificar
(i) P(A|B ∩ C)P(B|C) = P(B|A∩ C)P(A|C)
(ii) Si A ⊂ B ⊂ C ⊂ D, entonces P(A|D) ≤ P(B|C).
18
Enrique M. Caba˜ na.
Cap´ıtulo 2: Probabilidades condicionales
Ejercicio 2.2.4 Se elige una de dos monedas, con iguales probabilidades 0.5, 0.5
para cada una de ellas. Una de las monedas, al ser arrojada, resulta en cara con
probabilidad p y en cruz con probabilidad 1 − p. El resultado de arrojar la otra es
cruz con probabilidad p y cara con probabilidad 1−p. Se arroja dos veces la moneda
elegida, con independencia entre los resultados de una y otra instancia. A y B son,
respectivamente, los sucesos que consisten en que la primera vez el resultado es cara,
y en que la segunda vez es cruz. Calcular la probabilidad de B dado A en funci´ on
de p.
2.3 Independencia.
Definici´ on 2.3.1 Se dice que los sucesos A, B son independientes, cuando
P(A ∩ B) = P(A)P(B).
De acuerdo a los comentarios previos a la Definici´ on 2.3.1, corresponder´ıa definir de
manera asim´etrica
A independiente de B cuando P(A|B) = P(A),
y, an´ alogamente
B independiente de A cuando P(B|A) = P(B),
Sin embargo, estas dos definiciones son casi equivalentes a la Definici´ on 2.3.1 (Para
verificarlo basta recurrir a la definici´ on de probabilidad condicional). La Definici´ on
2.3.1 es m´as general, porque tiene sentido a´ un cuando A y/o B tienen probabilidad
cero.
Definici´ on 2.3.2 Se dice que el conjunto {A
1
, A
2
, . . . , A
n
} es un conjunto
independiente de sucesos, cuando P(

j∈J
A
j
) =

j∈J
P(A
j
) para cualquier
subconjunto de ´ındices J ∈ {1, 2, . . . , n}.
Para referirse a un conjunto independiente de sucesos, es habitual decir
que los sucesos son independientes. Esta forma de expresi´ on puede prestarse a
confusi´ on, pero no la evitaremos en lo que sigue, en la medida que el contexto
indique qu´e es lo que se quiere expresar.
Ejercicios.
Ejercicio 2.3.1 Mostrar por medio de un ejemplo que {A, B}, {B, C}, {A, C}
pueden ser conjuntos independientes, sin que {A, B, C} lo sea necesariamente.
Introducci´ on a la probabilidad.
2.3. Independencia. 19
Ejercicio 2.3.2 Se lanzan tres dados simult´ aneamente. Calcular:
(a) la probabilidad de obtener un 6, dado que no hay dos resultados iguales.
Se lanza ahora un dado n veces, sucesiva e independientemente. Calcular las
probabilidades de los siguientes sucesos:
(b) obtener al menos dos 5, dado que ocurri´ o al menos un 5 en los n lanza-
mientos.
(c) idem, dado que ocurri´ o al menos un 5 en los primeros m lanzamientos.
Ejercicio 2.3.3 Se lanza una moneda sucesiva e independientemente. La proba-
bilidad de que ocurra cara en un lanzamiento es p, y la de que ocurra cruz es 1 −p.
¿Cu´ al es la probabilidad de que ocurran cuatro caras antes que cinco cruces?
Ejercicio 2.3.4 Probar que si P(A|B) > P(A), entonces P(B|A) > P(B).
Ejercicio 2.3.5 Se distribuyen al azar k bolas (numeradas de 1 a k ) en 2k cajas
(numeradas de 1 a 2k ), de modo que cada caja contiene a lo sumo una bola. Calcular
las siguientes probabilidades:
(a) la caja #1 resulte ocupada;
(b) la bola #2 resulte colocada en la caja #2 dado que la caja #1 result´ o
desocupada;
(c) la bola #2 resulte colocada en la caja #2 dado que la caja #1 result´ o
ocupada por la bola #1.
Ejercicio 2.3.6 Mostrar que los dos experimentos siguientes son equivalentes:
(1) De un mazo de n cartas se extrae una carta de modo que la probabili-
dad de cualquiera de las cartas del mazo es la misma. Luego se extrae
una segunda carta de modo que la probabilidad de cualquiera de las
restantes cartas es la misma. Luego una tercera en las mismas condi-
ciones, y as´ı sucesivamente hasta haber extra´ıdo m cartas. El resultado
del experimento es el conjunto desordenado de las m cartas extraidas.
(2) Se extraen al azar m cartas del mazo, de modo que cualquiera de las

n
m

combinaciones posibles tenga la misma probabilidad.
Ejercicio 2.3.7 Se eligen dos enteros no negativos T
1
, T
2
, independientemente, de
modo que P(T
1
= n) = P(T
2
= n) = p(1 − p)
n
(n = 0, 1, 2, . . .). Probar que para
cualquier n
0
y n = 0, 1, .. . . . , n
0
, se cumple P{T
1
= n|T
1
+T
2
= n
0
} = 1/(n
0
+ 1).
20
Enrique M. Caba˜ na.
Cap´ıtulo 2: Probabilidades condicionales
Ejercicio 2.3.8 Se arroja sucesivamente una moneda y se describen los resultados
por medio de los n´ umeros U
1
, U
2
, U
3
, . . .. Cuando en la n−´esima replicaci´on el
resultado es cara, ponemos U
n
= 1, y en caso contrario, U
n
= 0. Suponemos que
en cada oportunidad, la probabilidad de obtener cara es 1/2, y que las sucesivas
replicaciones son independientes.
Llamemos X al n´ umero cuya expresi´ on en el sistema de numeraci´on binaria
es 0.U
1
U
2
U
3
. . . U
n
. . . o bien, de manera equivalente, X =


n=1
2
−n
U
n
. Calcular
P(X ≥ 1/2), P(X = 0), P(X = 1), P(j2
−n
≤ X ≤ k2
−n
), (j ≤ k ≤ 2
n
).
Nota: Cada uno de los resultados que especifican exclusivamente los valores
de U
1
, . . . , U
n
para un valor fijo de n, corresponden a sucesos en la σ-´algebra
generada por {U
i
= 1}
i=1,...,n
, que no es otra que el ´ algebra formada por
las uniones de sucesos elegidos entre los 2
n
sucesos elementales de la forma
{U
i
= u
i
: i = 1, 2, . . . , n} con u
i
= 0 ´ o 1.
Esto no basta para incluir resultados del tipo de {X = 1} = {U
i
= 1 :
i = 1, 2, . . .}, por ejemplo, que involucran a todos los U
i
. Para incluirlos
puede considerarse, para cada n, el ´algebra A
n
de todas las uniones finitas
de {U
i
= u
i
: i = 1, 2, . . . , n} con u
i
= 0 ´ o 1, en la que la probabilidad de
cada resultado elemental es P{U
i
= u
i
: i = 1, 2, . . . , n} =

n
i=1
P{U
i
= u
i
}, y
extender la probabilidad a la m´ınima σ-´algebra que contiene todas las A
n
(n
= 1, 2, . . .). El Teorema 3.2.1 indica que la extensi´ on es posible y ´ unica.
2.4 Una interpretaci´ on objetiva para la pro-
babilidad condicional.
Podemos ahora reinterpretar la probabilidad condicional, a partir de la con-
sideraci´ on de una sucesi´ on de repeticiones independientes de un experimento.
Supongamos un experimento en el que pueden obtenerse resultados A, B, que
puede repetirse indefinidamente, de manera independiente. Repitamos el ex-
perimento hasta que ocurra A por primera vez. En esa oportunidad nos fijamos
si ocurri´ o B y en tal caso decimos que ocurri´ o el suceso “B|A ”. Tenemos as´ı
una descripci´ on expl´ıcita de la ocurrencia de B condicionada a que se sabe que
ocurre A.
Si llamamos abreviadamente A

n
=“A ocurre por primera vez en la n-´esima
repetici´ on”, y B
n
=“B ocurre en la n-´esima repetici´ on”, entonces “B|A” =


n=1
A

n
∩ B
n
, y la uni´ on es disjunta pues lo son los A

n
.
Por la independencia de las repeticiones, el suceso C
n
que consiste en que
A no ocurre en ninguna de las primeras n −1 repeticiones tiene probabilidad
Introducci´ on a la probabilidad.
2.5. El Teorema de Bayes. 21
(1 − P(A))
n−1
. El suceso D
n
que consiste en que A y B ocurren en la n-
´esima repetici´ on tiene probabilidad P(A ∩ B). El suceso A

n
∩ B
n
coincide
con C
n
∩ D
n
pero estos ´ ultimos son independientes, de modo que se cumple
P(A

n
∩ B
n
) = P(A ∩ B)(1 −P(A))
n−1
.
De aqu´ı resulta
P(“B|A”) =

n=1
P(A

n
∩B
n
) = P(A∩B)

n=1
(1−P(A))
n−1
= P(A∩B)/P(A),
como era de esperar.
2.5 El Teorema de Bayes.
Teorema 2.5.1 (de Bayes) Supongamos dada una partici´ on de Ω en sucesos
B
1
, B
2
, . . ., B
n
, de probabilidades conocidas, y supongamos que tambi´en se
conocen las probabilidades condicionales de un suceso A dados cada uno de los
sucesos de la partici´ on. Entonces, la probabilidad condicional de cada uno de
los B
j
dado A se calcula mediante la f´ ormula
P(B
j
|A) =
P(B
j
)P(A|B
j
)

n
h=1
P(B
h
)P(A|B
h
)
.
Demostraci´ on. Por la definici´ on de probabilidad condicional, podemos es-
cribir P(B
j
|A) = P(B
j
∩ A)/P(A), y P(B
j
∩ A) = P(B
j
)P(A|B
j
). Basta en-
tonces verificar que P(A) =

n
h=1
P(B
h
)P(A|B
h
), y esto es debido a que A se
puede descomponer como uni´ on disjunta de los sucesos B
j
∩A(j = 1, 2, . . . , n),
de modo que P(A) =

n
h=1
P(B
j
∩ A). 2
Ejercicios.
Ejercicio 2.5.1 De un estudio cl´ınico se han concluido los siguientes resultados:
La probabilidad de que una persona extra´ıda al azar de la poblaci´ on tenga cierta
afecci´on card´ıaca es 0.002; dado que padece esa afecci´on, la probabilidad de que
fume es 0.40, y dado que no la padece, la probabilidad de que fume es 0.10. ¿Cu´ al
es la probabilidad de que un fumador padezca la mencionada afecci´ on card´ıaca?
Ejercicio 2.5.2 Repetir el ejercicio anterior con los datos ligeramente modificados:
La probabilidad de que una persona extra´ıda al azar de la poblaci´ on tenga cierta
afecci´on card´ıaca es 0.002; la probabilidad de que fume es 0.10; la probabilidad de
que fume dado que padece la enfermedad es 0.40.
22
Enrique M. Caba˜ na.
Cap´ıtulo 2: Probabilidades condicionales
Ejercicio 2.5.3 Los aspirantes a ocupar cierto empleo se clasifican en dos cate-
gor´ıas, A y B, de acuerdo a la capacidad demostrada durante un primer mes de
trabajo a prueba. La experiencia muestra que puede suponerse que la probabilidad
de que un aspirante que termina por ser clasificado A provenga de cierto instituto
de formaci´ on es 0.35, que la probabilidad de que un aspirante -no importa su califi-
caci´on- provenga de ese instituto es 0.05, y que la probabilidad de que un aspirante
-no importa de donde venga- sea calificado A, es 0.25 (esto a veces se formula expre-
sando que el 35% de los clasificados A y el 5% del total de los aspirantes provienen
del mencionado instituto, y que el 25% de los aspirantes son clasificados A). A
partir de estos datos, ¿Cu´ al es la probabilidad de que un aspirante proveniente del
instituto en cuesti´ on sea clasificado A?
2.6 Dos ejemplos de aplicaci´ on estad´ıstica del
Teorema de Bayes.
Vamos a considerar situaciones en la que el Teorema de Bayes nos ayudar´ a
a adoptar una decisi´ on, basada en la informaci´ on proporcionada por un ex-
perimento. Esto justifica de por s´ı el t´ıtulo aplicaci´on estad´ıstica ya que la
estad´ıstica matem´ atica tiene por objeto, precisamente, la aplicaci´ on de mode-
los probabil´ısticos a la toma de decisiones en base a informaci´ on emp´ırica.
Ejemplo 2.6.1 Supondremos que cierto mecanismo posee una pieza que es
sometida a un intenso esfuerzo cada vez que se acciona, de modo que debe ser
reemplazada con frecuencia. Cada repuesto es utilizable H veces, con P{H = h}
= q
h−1
(1 − q), h = 1, 2, . . .. En un dep´ osito hay 100 cajas de 150 repuestos cada
una. Las duraciones de estas piezas son independientes con la distribuci´ on indicada.
De las 100 cajas, 30 fueron elaboradas con un procedimiento “A” que produce un
valor de q = 0.95, mientras que las restantes 70 se prepararon mediante un procedi-
miento “B” y tienen q = 0.8. Sin embargo, ni las cajas ni las piezas que contienen
poseen indicios que permitan saber cu´ al fue el procedimiento de elaboraci´ on, y por
consiguiente cu´ anto vale q.
Si extraemos una caja al azar, la probabilidad de que q valga 0.95 es 30/100 = 0.3. Si
estuvi´eramos obligados a responder cu´ anto vale q, deber´ıamos decir que vale 0.8, para
minimizar la probabilidad de equivocarnos, que ser´ıa 0.3, ya que si respondi´eramos
0.95 errar´ıamos con probabilidad 0.7.
¿Qu´e deber´ıamos responder a la misma pregunta, una vez abierta la caja, y utilizados
10 de los repuestos, cuyas duraciones resultan ser H
1
= h
1
, H
2
= h
2
, . . ., H
10
= h
10
?
Nuevamente, para minimizar la probabilidad de error, elegiremos la respuesta m´ as
probable, pero ahora es la probabilidad condicional dadas H
1
= h
1
, . . ., H
10
= h
10
,
la que resulta relevante. Con s = h
1
+. . . +h
10
,
P{q = 0.95|H
i
= h
i
, i = 1, . . . , 10} =
0.3(0.95)
s−10
(0.05)
10
0.3(0.95)
s−10
(0.05)
10
+ 0.7(0.8)
s−10
(0.2)
10
Introducci´ on a la probabilidad.
2.6. El Teorema de Bayes. 23
y esta expresi´on var´ıa con s como lo indica la Figura 2.1. Esa misma figura muestra
que para s ≥ 113 se puede responder q = 0.95 con confianza de que se errar´ a la res-
puesta con probabilidad inferior a 5%, y si s ≤ 78, en cambio, al responder q = 0.8 la
probabilidad de errar es tambi´en inferior a 5%. En ambos casos se trata de probabi-
lidades a posteriori, como suele denominarse a las probabilidades condicionales dada
la informaci´ on relativa a los diez primeros repuestos utilizados. Se observar´ a que s´olo
resulta relevante en los resultados, la suma de las duraciones de los repuestos, y no
cada una de las duraciones individuales.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
70 75 80 85 90 95 100 105 110 115 120
Figura 2.1: Probabilidad a posteriori del suceso q = .95 del Ejemplo 2.6.1, en
funci´on de la suma s de las duraciones de los primeros diez repuestos utilizados.
Ejemplo 2.6.2 Un m´edico es consultado por un paciente y encuentra que ´este
presenta ciertos s´ıntomas. El conocimiento general de medicina que posee el m´edico
le permite saber
(a) que esos s´ıntomas s´olo aparecen eventualmente en pacientes que hayan contraido
alguna de las enfermedades E
1
, E
2
y E
3
,
(b) que la incidencia de esas enfermedades en la poblaci´ on formada por los pacientes
que concurren a la cl´ınica es de, respectivamente, 1%, 0.5% y 0.1%, y que la
eventualidad de que un paciente padezca a la vez dos de esas enfermedades es
descartable, y
(c) que la probabilidad de que un enfermo de E
i
presente los mencionados s´ıntomas
es p
i
, donde p
1
= .7, p
2
= .4, p
3
= 1.
24
Enrique M. Caba˜ na.
Cap´ıtulo 2: Probabilidades condicionales
Con esa informaci´ on, ¿en cu´ anto estima el m´edico la probabilidad de que el paciente
en observaci´on est´e enfermo de E
1
?
El m´edico ya sabe que la probabilidad de que el paciente est´e aquejado de E
1
es
2%, desde el momento que llega a ser atendido. Lo que debemos respondernos es
c´omo cambia su composici´on de lugar la informaci´ on resultante de su examen, que
le dice que el paciente posee los s´ıntomas en cuesti´on. En otras palabras, cu´ al es la
probabilidad condicional de que el paciente est´e enfermo de E
1
dado que posee los
s´ıntomas.
La respuesta es el cociente entre la probabilidad de que posea los s´ıntomas y est´e
enfermo de E
1
, y la probabilidad de que posea los s´ıntomas, es decir,
0.01 ×0.7
0.01 ×0.7 + 0.005 ×0.4 + 0.001
= 0.7.
De la misma manera, el m´edico puede calcular las probabilidades a posteriori de que
el paciente padezca E
2
(0.2) o E
3
(0.1), y estos resultados facilitar´ an su decisi´on
respecto de qu´e aconsejarle, o qu´e informaci´ on adicional procurar, mediante nuevos
ex´amenes, por ejemplo, o mediante la observaci´ on de las reacciones del paciente a
cierta medicaci´on.
3. Variables aleatorias.
3.1 Introducci´ on.
Vamos a considerar funciones que a cada uno de los estados posibles de la naturaleza
hacen corresponder un punto de un conjunto dado E, es decir, funciones de Ω en
E. Se utilizan habitualmente para describir alguna caracter´ıstica de inter´es, repre-
sentable por un un punto de E. Por ejemplo, si al arrojar un dado nos interesa
describir qu´e cara qued´ o hacia arriba, podemos hacerlo con una funci´ on con valores
en {1, 2, 3, 4, 5, 6} o en R, que vale 1, 2, . . . , 6 seg´ un el caso. Una descripci´ on completa
de la naturaleza se obtiene, por ejemplo, con E = Ω, y la funci´ on identidad.
Recordemos que hemos dado a Ω una estructura de espacio probabilizable dot´ an-
dolo de una σ-´algebra de subconjuntos A . Convendremos en dar tambi´en a E una
estructura de espacio probabilizable, con una σ-´algebra S, y las descripciones de la
naturaleza que haremos por medio de la funci´ on X : Ω → E, ser´an las que especifican
que X toma valores en S, para alg´ un S en S. Vamos a exigir que, cualquiera sea S
en S, los acontecimientos {ω : X(ω) ∈ S} sean sucesos, es decir, sean elementos de
A. A las funciones de Ω en E que cumplen esta propiedad las llamaremos variables
aleatorias.
Definici´ on 3.1.1 Dado un espacio probabilizable (Ω, A) se llama variable
aleatoria en (E, S) a una funci´ on X : Ω → E tal que la preimagen de todo
conjunto S de S es un suceso.
Para indicar que X es una variable aleatoria de (Ω, A) en (E, S), puede
escribirse X : (Ω, A) → (E, S).
En particular, cuando E sea R y no se indique lo contrario, se convendr´ a
en tomar como σ-´algebra S, la de Borel, descrita en el Ejercicio 1.1.8, cuya
definici´on se indica a continuaci´ on.
Definici´ on 3.1.2 Llamamos σ-´algebra de Borel de R a la m´ınima σ-´ algebra
que contiene los intervalos.
25
26
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
Nota 1. Cuando se haga referencia a una variable aleatoria real, se so-
breentender´ a que es una variable aleatoria en (R, B) donde B es la σ-´algebra
de Borel de R.
Nota 2. A las variables aleatorias del espacio probabilizable (Ω, A) en
el espacio probabilizable (E, S), se las llama tambi´en funciones medibles de
(Ω, A) en (E, S), particularmente cuando el contexto en el que se las utiliza
no es el de la teor´ıa de las probabilidades.
Ejercicio 3.1.1 Observar que la definici´ on de variable aleatoria X : (Ω, A) →
(E, S) es tanto m´as exigente cuanto m´as rica es S, mientras que, cuando S es muy
reducida, la definici´ on es poco exigente. En el caso extremo S = {∅, Ω}, cualquier
funci´ on de Ω en E es una variable aleatoria, no impoorta cu´ al sea la σ-´algebra A.
Observar tambi´en que ocurre un fen´ omeno inverso con A: ¿Puede elegirse A
de manera que cualquier funci´ on de Ω en E sea una variable aleatoria? ¿Puede
elegirse A de manera que ninguna funci´ on de Ω en E sea una variable aleatoria? Si
la respuesta es afirmativa, indicar c´ omo se elige A, y si es negativa, describir cu´ al es
el caso extremo.
Ejercicio 3.1.2 (i) Dada una funci´ on X : Ω → E, mostrar que la familia S
X
=
{S ⊂ E : X
−1
(S) ∈ A} (subconjuntos de E cuya preimagen es un suceso), es
una σ-´algebra.
(ii) Verificar que X es una variable aleatoria en (E, S
X
).
(iii) Mostrar que es equivalente que X : (Ω, A) → (E, S) sea una variable aleatoria,
a que S est´e incluido en S
X
.
(iv) Mostrar que la familia A
X
= {X
−1
(S) : S ∈ S} es una σ-´algebra, y que X es
una variable aleatoria de (Ω, A
X
) en (E, S).
(v) Mostrar que es equivalente que X : (Ω, A) → (E, S) sea una variable aleatoria
a que A
X
est´e incluida en A.
A la familia A
X
se la llama σ-´ algebra generada por X. De acuerdo a su
construcci´ on, es la m´ınima σ-´algebra respecto de la cual X es medible.
Ejercicio 3.1.3 Mostrar que si X : (Ω, A) → (E, S) es una variable aleatoria,
entonces, cualquiera sea la funci´ on medible g : (E, S) → (E, S), g ◦ X : (Ω, A) →
(E, S) es una variable aleatoria.
Lema 3.1.1 Una funci´ on X : Ω → R es una variable aleatoria (en (R, B)) si
y s´ olo si para todo par de n´ umeros reales a, b, el conjunto {ω : a ≤ X(ω) ≤ b}
es un suceso.
Introducci´ on a la probabilidad.
3.1. Introducci´ on. 27
Demostraci´ on. Cuando X : (Ω, A) → (R, B) es una variable aleatoria, {ω :
a ≤ X(ω) ≤ b} ∈ A, porque [a, b] es un conjunto de Borel. Rec´ıprocamente,
{ω : a ≤ X(ω) ≤ b} ∈ A implica [a, b] ∈ S
X
, de modo que la m´ınima σ-´algebra
B que contiene a {[a, b] : a, b ∈ R}, est´ a en S
X
y se aplica la proposici´ on (iii)
del Ejercicio 3.1.2. 2
Definici´ on 3.1.3 Dada una variable aleatoria X: (Ω, A)→ (E, S), la funci´ on
P
X
: S → R definida por medio de P
X
(S) = P(X
−1
(S)) = P({ω : X(ω) ∈ S})
se llama distribuci´ on de probabilidad de la variable aleatoria X.
Teorema 3.1.1 La terna (E, S, P
X
) es un nuevo espacio de probabilidad.
Demostraci´ on. Para demostrar el Teorema hay que verificar que P
X
cumple
las propiedades (p
1
) y (p
2
) de la Definici´ on 1.2.1.
La primera es consecuencia de X
−1
(R) = Ω, y la segunda, de que para
cada sucesi´on de conjuntos disjuntos (S
n
)
n=1,2,...
en S, se cumple
P
X


¸
n=1
S
n

= P

X
−1


¸
n=1
S
n

= P


¸
n=1
X
−1
(S
n
)

=

¸
n=1
P(X
−1
(S
n
)).
2
Definici´ on 3.1.4 Se llama funci´ on de distribuci´ on de probabilidad de una
variable aleatoria real X a la funci´ on F
X
: R → R
+
definida por F
X
(x)
= P
X
((−∞, x]) = P(X
−1
((−∞, x]) = P({ω : X(ω) ≤ x}).
Notaci´ on. En lo sucesivo, denotaremos un suceso de la forma
{ω : X(ω) cumple la propiedad “P”},
en la forma abreviada
{X cumple la propiedad “P”}.
Para recordar el origen de la abreviatura, mantendremos las llaves { },
pero eliminaremos en cambio la menci´ on expl´ıcita del punto gen´erico ω de Ω.
En particular, escribiremos {X ≤ x} en lugar de {ω : X(ω) ≤ x}, y
aligeraremos algo m´ as las notaciones, escribiendo P{X cumple “P”} en vez de
P({X cumple “P”}).
Teorema 3.1.2 La funci´on de distribuci´ on de probabilidad F
X
de una variable
aleatoria real X, satisface las propiedades:
28
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
(d
1
) F
X
es no decreciente,
(d
2
) F
X
es continua por la derecha,
(d
3
) F
X
(−∞)(= lim
x→−∞
F(x)) = 0, F
X
(+∞)(= lim
x→+∞
F(x)) = 1.
Demostraci´ on. Si x < y, entonces F
X
(x) = P{X ≤ x} ≤ P{X ≤ x} +
P{x < X ≤ y} = P{X ≤ y} = F
X
(y), y esto prueba (d
1
). Para demostrar
(d
2
), nos damos una sucesi´ on decreciente x
n
→ x, y aplicamos el Teorema 1.2.1
a la sucesi´on decreciente de conjuntos de Borel (−∞, x
n
] y a la probabilidad P
X
. Obtenemos lim
n→∞
F
X
(x
n
) = lim
n→∞
P
X
((−∞, x
n
]) = P
X
(
¸

n=1
(−∞, x
n
])
= P
X
((−∞, x]) = F
X
(x). La demostraci´ on de (d
3
) es similar. 2
Observaci´ on. A partir de la funci´ on de distribuci´ on de X se calcula la
probabilidad de que X pertenezca a un intervalo semiabierto (a, b] en la forma
P{a < X ≤ b} = F
X
(b) −F
X
(a),
como resulta del c´ alculo realizado para la demostraci´ on de (d
1
).
Ejercicios.
Ejercicio 3.1.4 Verificar que, si F
X
es la funci´ on de distribuci´ on de X, se cumplen
(i) P{a < X ≤ b} = F
X
(b) −F
X
(a),
(ii) P{X = x} = F
X
(x) −F
X
(x

),
(iii) P{a ≤ X ≤ b} = F
X
(b) − F
X
(a

), P{a < X < b} = F
X
(b

) − F
X
(a),
P{a ≤ X < b} = F
X
(b

) −F
X
(a

).
Ejercicio 3.1.5 Mostrar que, si X ≤ Y , entonces F
X
≥ F
Y
.
3.2 Dos teoremas de existencia.
Enunciamos a continuaci´ on dos teoremas cuyas demostraciones, que pueden
ser salteadas en una primera lectura, incluimos en §13.1.
Teorema 3.2.1 Teorema de extensi´ on de probabilidades de Kolmogorov.
Dada una funci´on p en un ´ algebra A
0
de subconjuntos de Ω con las propiedades
Introducci´ on a la probabilidad.
3. N2.- Kolmogorov. 29
• p(Ω) = 1,
• para cualquier sucesi´ on A
1
, A
2
, . . . , A
n
, . . . de conjuntos disjuntos en A
0
cuya uni´ on tambi´en est´ a en A
0
, se cumple p(
¸

n=1
A
n
) =
¸

n=1
p(A
n
),
existe una ´ unica probabilidad P en la m´ınima σ-´ algebra que contiene al ´ algebra
dada, cuya restricci´ on al ´ algebra es p, definida por
P(A) = inf


¸
j=1
p(A
j
) : (A
j
)
j∈N
cubrimiento disjunto de A en A
0

. (3.1)
Un cubrimiento disjunto de A en A
0
es cualquier sucesi´ on disjunta (A
j
)
j∈N
de conjuntos contenidos en A
0
, cuya uni´on contiene a A.
El teorema precedente permite concluir un rec´ıproco del Teorema 3.1.2,
que expresa lo siguiente:
Teorema 3.2.2 Si F : R → R satisface las propiedades (d
1
), (d
2
) y (d
3
) del
enunciado 3.1.2, entonces existe una probabilidad P
(F)
en (R, B) tal que
F(x) = P
(F)
((−∞, x]).
Corolario 3.2.2.1 En las condiciones del Teorema 3.2.2, existe una variable
aleatoria X
F
cuya funci´ on de distribuci´ on es F.
Demostraci´ on del corolario: La construcci´ on de una X
F
es inmediata a
partir del Teorema 3.2.1 pues basta tomar como espacio de probabilidad (R,
B, P
(F)
) y como variable aleatoria X
F
: R → R a la identidad. De esta manera
su funci´on de distribuci´ on en x es P
(F)
{X
F
≤ x} = P
(F)
((−∞, x]) = F(x). 2
N2.- Kolmogorov, A. N. (1903-1987).
Andrei Nicolaievich Kolmogorov fue uno de los matem´aticos m´as creativos
del siglo pasado, con aportes en muy diversas ramas de la matem´atica.
Naci´o en Tambov (Rusia) en 1903 y muri´o en Mosc´ u en 1987.
En un art´ıculo publicado en 1933 realiz´o una construcci´on rigurosa de la teor´ıa de la probabilidad. Antes
ya hab´ıa obtenido condiciones necesarias y suficientes para la Ley de los Grandes N´ umeros, y publicado las
30
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
bases de la teor´ıa moderna de los procesos de Markov. En trabajos posteriores enfatiz´o el papel de la
probabilidad en el an´alisis de muchos fen´omenos f´ısicos, realiz´o aportes al estudio de la turbulencia, y a los
sistemas din´amicos en vinculaci´on con el movimiento de los planetas. Otra de sus contribuciones mayores
fue la introducci´on de la medida de complejidad de algoritmos que lleva su nombre. Una lista detallada de
los temas de la matem´atica a los que realiz´o aportes originales, dejar´ıa muy pocos sin mencionar.
En muchos casos, sus trabajos se˜ nalaron profundas vinculaciones entre temas que sol´ıan estudiarse
separadamente. Otros de sus aportes fundamentales a la probabilidad y a la estad´ıstica matem´atica, adem´as
de su trabajo pionero de fundamentaci´on de la probabilidad, fueron sus estudios de la dependencia y sus
contribuciones a la teor´ıa de los procesos estoc´asticos. Su celebrada prueba de ajuste basada en la utilizaci´on
de una distancia entre la distribuci´on emp´ırica y la distribuci´on hipot´etica, data de 1937.
Adem´as de su actividad como investigador, por la que fue designado integrante de la Academia de
Ciencias de Mosc´ u, y por la que recibi´o el Premio Lenin, dedic´o muchos esfuerzos al mejoramiento de la
ense˜ nanza de la matem´atica en los colegios secundarios, y a la formaci´on en matem´atica de los estudiantes
m´as destacados.
3.3 Variables discretas y absolutamente con-
tinuas.
Definici´ on 3.3.1 (i) Una variable aleatoria se dice discreta cuando su
recorrido es un conjunto discreto S, es decir, un conjunto de puntos
de R cuya intersecci´ on con cualquier intervalo contiene una cantidad
finita de elementos. A la funci´ on que a cada punto x de S le asocia la
probabilidad P{X = x}, se la suele llamar funci´ on de cuant´ıa de la
distribuci´ on de probabilidad.
(ii) Una variable se dice absolutamente continua cuando su funci´ on de
distribuci´ on tiene derivada seccionalmente continua, y, por lo tanto, la
funci´ on de distribuci´ on puede escribirse como integral de su derivada. A
la derivada de la funci´ on de distribuci´ on se la llama funci´ on de densi-
dad de la distribuci´ on de probabilidad.
Observemos que cuando el recorrido de una variable aleatoria discreta X es
el conjunto S = {x
i
: i = 1, 2, . . .}, entonces las probabilidades p
i
= P{X = x
i
}
bastan para determinar la distribuci´ on de probabilidades de X, y, en particular,
la funci´ on de distribuci´ on F
X
(x) =
¸
x
i
≤x
p
i
. La funci´on de distribuci´ on resulta
ser una funci´ on de saltos o en escalera.
Para el caso de una variable absolutamente continua, si la densidad de
distribuci´ on de probabilidad es f
X
, entonces
F
X
(x) =

x
−∞
f
X
(t)dt, P{a < X ≤ b} =

b
a
f
X
(t)dt.
Como F
X
resulta continua, para cualquier x se cumple P{X = x} = 0, de
modo que los intervalos (a, b], [a, b], [a, b), [a, b] tienen la misma probabilidad.
Introducci´ on a la probabilidad.
3.3. Variables discretas y absolutamente continuas. 31
-
6
1
0
x
n
x
n−1
x
i
x
3
x
2
x
1
p
1
p
2
p
3
p
i
p
n−1
p
n
Figura 3.1: La funci´ on de distribuci´ on de probabilidades de una variable X
discreta es una funci´ on en escalera con salto en cada punto x
i
del recorrido
igual a la cuant´ıa p
i
= P{X = x
i
}. El esquema de la figura corresponde a una
variable con recorrido finito.
Obviamente, toda densidad de distribuci´ on de probabilidades debe ser no
negativa y satisfacer


−∞
f
X
(t)dt = 1.
Rec´ıprocamente, si f satisface esas condiciones, es claro que
F(x) =

x
−∞
f
X
(t)dt
satisface (d
1
), (d
2
) y (d
3
), y por consiguiente f es una funci´ on de densidad de
probabilidad.
An´ alogamente, toda funci´ on de cuant´ıa p : S → R debe ser no negativa y
satisfacer
¸
x∈S
p(x) = 1,
y, rec´ıprocamente, toda funci´ on con esas propiedades define una distribuci´ on
de probabilidades que a cada A asocia
¸
x∈S∩A
p(x), de la cual es funci´ on de
cuant´ıa.
32
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
a b
f
X
Figura 3.2: Para una distribuci´ on absolutamente continua, el ´ area bajo el
gr´ afico de la funci´ on de densidad de distribuci´ on en un intervalo representa la
probabilidad de que la variable est´e en ese intervalo.
Ejercicios.
Ejercicio 3.3.1 Se arroja una moneda hasta que salga cara por primera vez. Lla-
mamos X al n´ umero necesario de lanzamientos. Calcular: (a) P{X = par}, (b)
P{X ≥ 5}, (c) P{X = m´ ultiplo de 3}
Ejercicio 3.3.2 Encontrar la distribuci´ on de la variable aleatoria X del enunciado
precedente.
Ejercicio 3.3.3 Se dice que X tiene distribuci´ on geom´etrica (y se abrevia X ∼
Geo(p)) cuando P{X = h} = (1 −p)
h
p (h = 0, 1, 2, . . .).
(a) Calcular P{X ≥ h},
(b) Si Y es el m´ınimo entre X y M, calcular P{Y = h}.
(c) Calcular P{X −Y = par}.
Ejercicio 3.3.4 Se eligen al azar e independientemente cuatro puntos X
1
, X
2
, X
3
,
X
4
en una circunferencia. Calcular la probabilidad de que la cuerda que une X
1
con
X
2
y la que une X
3
con X
4
se corten.
Ejercicio 3.3.5 Se realizan n repeticiones independientes de un experimento. En
cada una de ellas, la probabilidad de que ocurra un cierto resultado A es p. Calcular
la probabilidad de que al cabo de las n repeticiones, el n´ umero de veces que ocurre
A sea h, para cada h = 0, 1, 2, . . . , n.
Introducci´ on a la probabilidad.
3.4. Algunos ejemplos de variables aleatorias. 33
Ejercicio 3.3.6 Llamemos X a la duraci´ on de un componente electr´ onico, y su-
pongamos que X se puede representar como una variable aleatoria continua con
densidad exponencial: f(x) = λe
−λx
, x ≥ 0. Mostrar que p
j
= P{j ≤ X < j +1} es
de la forma (1 −a)a
j
. Determinar a.
Ejercicio 3.3.7 X tiene densidad constante en [0, 1] y cero, fuera de ese intervalo.
(i) Hallar la distribuci´ on de probabilidad de la n-´esima cifra decimal de X.
(ii) Hallar la distribuci´ on de la n-´esima cifra del desarrollo binario de X.
Comparar con los resultados del Ejercicio 2.3.8.
Ejercicio 3.3.8 X tiene distribuci´ on absolutamente continua F
X
y se define una
nueva variable aleatoria Y por medio de Y = g(X), donde g es una funci´ on deri-
vable, estrictamente creciente. Calcular las funciones de distribuci´ on y de densidad
de probabilidad de Y . Repetir el c´alculo para el caso en que g es estrictamente
decreciente.
Ejercicio 3.3.9 Si X tiene funci´ on de distribuci´ on F en (R, B), encontrar la fun-
ci´on de distribuci´ on de F(X).
3.4 Algunos ejemplos de variables aleatorias.
Vamos a describir expresamente las distribuciones de algunas variables alea-
torias de frecuente aplicaci´ on, que ya han intervenido en ejercicios propuestos
m´ as arriba.
3.4.1 Variables asociadas a ensayos repetidos.
Distribuci´ on de Bernoulli
Convengamos en describir la ocurrencia de un suceso A mediante su funci´ on
indicatriz
1
A
(ω) =

1 si ω ∈ A,
0 si ω ∈ A.
1
A
es una variable aleatoria, con valores posibles 0 y 1, y su distribuci´ on de
probabilidades es discreta, con probabilidades 1 −P(A) y P(A) concentradas
en 0 y 1 respectivamente. A esta distribuci´ on se la denomina de Bernoulli, de
par´ ametro P(A), y abreviaremos 1
A
∼ Ber(P(A)).
34
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
Distribuci´ on binomial
Consideremos un experimento aleatorio que se repite sucesivamente con inde-
pendencia de las repeticiones anteriores. Llamemos A a uno de sus resultados
posibles, y p a la probabilidad de que ocurra A. Llamamos X
n
a la variable ale-
atoria (de Bernoulli) indicatriz del suceso “A ocurre en la n-´esima repetici´ on”,
es decir, X
n
vale 1 si A ocurre en la n-´esima repetici´ on, y vale 0 si no ocurre.
Llamamos binomial con par´ ametros n, p (abreviado Bin(n, p)) a la variable
B =
¸
n
j=1
X
j
, o a cualquiera que tenga su misma distribuci´ on de probabilida-
des. Se trata obviamente de una variable discreta, pues sus valores posibles
son 0, 1, 2, . . . n. Su distribuci´ on queda determinada por los valores P{B = h}
= P{Bin(n, p) = h}.
Para n > 1, el suceso {Bin(n, p) = h} = {
¸
n
j=1
X
j
= h} se descompone
como uni´ on (disjunta) de {
¸
n−1
j=1
X
j
= h} ∩ {X
n
= 0} y {
¸
n−1
j=1
X
j
= h −1} ∩
{X
n
= 1}. En ambos casos los sucesos que se interceptan son independientes, y
sus probabilidades son P{Bin(n−1, p) = h}, 1−p, P{Bin(n−1, p) = h−1}, p,
respectivamente. Resulta entonces la relaci´ on de recurrencia P{Bin(n, p) = h}
= P{Bin(n −1, p) = h}(1 −p) + P{Bin(n −1, p) = h −1}p.
Se observar´ a que en el caso h = n, el suceso {
¸
n−1
j=1
X
j
= h} es vac´ıo, pero la
ecuaci´ on sigue siendo v´ alida, ya que P{Bin(n−1, p) = h} = 0. An´ alogamente,
si h = 0, {
¸
n−1
j=1
X
j
= h − 1} es vac´ıo, pero la ecuaci´ on tambi´en sigue siendo
v´ alida.
Con las nuevas variables g
n,h
= P{Bin(n, p) = h}/[p
h
(1 − p)
(n−h)
], la
ecuaci´ on precedente se reduce a g
n,h
p
h
(1−p)
(n−h)
= g
n−1,h
p
h
(1−p)
(n−1−h)
(1−p)
+ g
n−1,h−1
p
h−1
(1 −p)
(n−h)
p, es decir,
g
n,h
= g
n−1,h
+g
n−1,h−1
.
Esto muestra que para obtener los n´ umeros g
n,h
se puede proceder de
la misma manera que para obtener los n´ umeros binomiales por medio del
tri´ angulo de Tartaglia.
En efecto, en el tri´ angulo:
g
1,0
g
1,1
g
2,0
g
2,1
g
2,2
g
3,0
g
3,1
g
3,2
g
3,3
. . . . . . . . . . . . . . . . . . . . . . . . . . .
g
n,0
g
n,1
g
n,2
. . . g
n,h
. . . g
n,n
Introducci´ on a la probabilidad.
3.4. Algunos ejemplos de variables aleatorias. 35
cada elemento se obtiene sumando los dos inmediatos que est´ an arriba a la
izquierda y arriba a la derecha. Cuando se trata de los extremos de la fila,
se procede como si la fila anterior estuviera continuada con ceros hacia ambos
lados.
Para terminar el c´ alculo, basta observar que P{Bin(1, p) = 0} = P{X
1
=
0} = 1−p, y que P{Bin(1, p) = 1} = P{X
1
= 1} = p, de donde deducimos que
los elementos g
1,0
, g
1,1
de la primera fila del tri´ angulo son precisamente iguales
a los n´ umeros combinatorios

1
0

,

1
1

, lo que implica que todo el tri´ angulo
coincide con el Tri´ angulo de Tartaglia. Naturalmente, puede agregarse una
primera fila con un ´ unico elemento igual a 1, que corresponde a la variable
Bin(0, p) trivialmente igual a cero.
Dado que g
n,h
=

n
h

, resulta P{Bin(n, p) = h} =

n
h

p
h
(1 − p)
(n−h)
. Esta
´ ultima f´ ormula puede obtenerse tambi´en a partir de la relaci´ on de recurrencia
original, por inducci´ on completa, sin necesidad de introducir las variables g
n,h
y utilizar el Tri´ angulo de Tartaglia.
Distribuci´ on geom´etrica
Repetimos un experimento con las mismas caracter´ısticas que en el caso ante-
rior, es decir, las sucesivas repeticiones son independientes, y en cada una de
ellas ocurre A, con probabilidad p.
Llamamos variable geom´etrica con par´ ametro p, abreviado Geo(p), al n´ u-
mero de ensayos que deben realizarse antes de obtener por primera vez el
resultado A, o a cualquier variable con la misma distribuci´ on.
El suceso {Geo(p) = h} se cumple cuando en las primeras h−1 repeticiones
no ocurre A y en la siguiente (la h-´esima) ocurre.
La probabilidad de que esto suceda es P{Geo(p) = h} = (1 − p)
h−1
p, por
la independencia de las sucesivas repeticiones.
Advertencia. Supongamos que Y tiene distribuci´ on geom´etrica con par´ ame-
tro p de acuerdo a la definici´ on precedente, es decir, que puede interpretarse
como el n´ umero de intentos hasta el primer ´exito en la sucesi´ on de ensayos
descrita arriba. Tambi´en suele decirse que tiene distribuci´ on geom´etrica con
par´ ametro p la variable Z = Y − 1, que corresponde al n´ umero de fracasos
antes del primer ´exito, y no cuenta el ´ ultimo intento exitoso. Se trata de dos
distribuciones diferentes, la de Z con valores posibles 0, 1, 2, 3, . . ., y la de Y
con valores posibles 1, 2, 3, . . ., y con probabilidades P{Z = h} = (1 − p)
h
p,
P{Y = h} = (1 −p)
(h−1)
p.
Cuando se encuentren referencias a distribuciones geom´etricas, ser´ a nece-
sario en cada caso referirse al contexto, para saber cu´ al de las situaciones
36
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
mencionadas es la aludida.
N3.- Bernoulli, Jacob (1654-1705).
Jacob Bernoulli, nacido el 27 de diciembre de 1654 in Basilea,
Suiza, fue uno de los integrantes de una familia de cient´ıficos,
varios de los cuales realizaron importantes aportes a la proba-
bilidad.
La familia Bernoulli, de origen belga, debi´o emigrar a Suiza
huyendo, como muchos protestantes, de la persecuci´on de los
cat´olicos espa˜ noles que reinaban en los Pa´ıses Bajos.
Aunque debi´o graduarse en filosof´ıa (1671) y teolog´ıa (1676)
por imposici´on paterna, fue tambi´en el primero en la familia
en dedicarse al estudio de la matem´atica y de la astronom´ıa,
siguiendo su vocaci´on. Estudi´o con Malebranche en Francia,
y con Boyle y con Hooke en Inglaterra.
A partir de 1683 ense˜ n´o mec´anica en la Universidad de Basilea,
y a partir de 1687, tambi´en matem´atica. El y su hermano
menor y disc´ıpulo Johann, fueron los primeros en estudiar y
aplicar las teor´ıas de Leibniz sobre el c´alculo diferencial. La co-
laboraci´on entre los hermanos se transform´o pronto en una ri-
validad, alimentada por la competencia por el reconocimiento
a sus propios m´eritos, y por las posiciones a ocupar, que los
llev´o a romper relaciones en 1697.
Un resumen de las contribuciones de Jacob Bernoulli incluye trabajos sobre v´ınculos entre el ´algebra y
la l´ogica, probabilidad, geometr´ıa, series y el c´alculo de variaciones y las ecuaciones diferenciales.
Entre otros resultados, public´o la Ley de los Grandes N´ umeros para las frecuencias de ocurrencia de un
resultado en observaciones repetidas, en 1689.
La publicaci´on m´as importante de Bernoulli fue su opus p´ostumo Ars Conjectandi (Basilea, 1713), un
c´elebre tratado de teor´ıa de la probabilidad, que incluye contribuciones de van Schooten y Leibniz, adem´as
de las propias, en particular, su an´alisis de los resultados probabil´ısticos asociados a ensayos repetidos.
Ense˜ n´o matem´atica en la Universidad de Basilea hasta su muerte en 1705. Su c´atedra fue luego de-
sempe˜ nada por su hermano Johann.
La familia Bernoulli.
La importancia para la matem´atica y la f´ısica del trabajo cient´ıfico de parientes cercanos de Jacob Bernoulli
justifica un breve esquema (indicado con apenas alguna palabra clave) de la naturaleza de esos aportes, y
de los v´ınculos de parentesco entre los cient´ıficos que los produjeron:
Introducci´ on a la probabilidad.
3 N3.- Bernoulli. 37
Nicolaus
(1623-1708)

© c
r
r
r
r j
Jacob Nicolaus Johann
(1654-1705) (1662-1716) (1667-1748)
Ensayos repetidos, C´alculo diferencial,
Ley de los series, c´alculo
Grandes N´ umeros de variaciones.
c

© c
d
d ‚
Nicolaus Nicolaus Daniel Johann
(1687-1759) (1695-1726) (1700-1782) (1710-1790)
Series, c´alculo, Curvas, ecuacio- Vibraciones, pro- Calor,
ecuaciones nes diferenciales, babilidad, seguros, ´optica.
diferenciales. probabilidad. hidrodin´ amica.

© c
d
d ‚
Johann Daniel Jacob
(1744-1807) (1751-1834) (1759-1789)
Probabilidad, Elasticidad,
astronom´ıa. hidrost´atica.
La siguiente cronolog´ıa muestra las coincidencias en el tiempo de los miembros de la familia con otros
notables matem´aticos.
38
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
3.4.2 Dos distribuciones absolutamente continuas.
Distribuci´ on uniforme.
Decimos que X tiene distribuci´ on uniforme en el intervalo (a, b) (abreviado,
X ∼ Uni(a, b)) cuando su densidad de distribuci´ on de probabilidades es con-
stante en (a, b) y cero fuera de ese intervalo. Se deduce que el valor de esa
constante debe ser 1/(b − a), para que la integral de la densidad en toda la
recta sea 1. Obs´ervese, por ejemplo, que la variable X del Ejercicio 2.3.8
tiene distribuci´ on uniforme en (0, 1). Se observar´ a que la probabilidad que
la distribuci´ on uniforme asocia a cada conjunto de (a, b) es invariante bajo
traslaciones.
La funci´ on F(x) =

0, si x < a,
x−a
b−a
, si a ≤ x ≤ b,
1, si b < x,
cumple las propiedades de una
funci´on de distribuci´ on, de modo que, por el corolario del Teorema 3.2.2, exis-
te una variable aleatoria en (R, B) con esa funci´ on de distribuci´ on, es decir,
uniforme en (a, b).
Observaci´ on: Es interesante notar, sin embargo, que es necesario dotar a R de una
σ-´algebra m´ as peque˜ na que 2
R
(como lo es la de Borel, de acuerdo a lo que resulta
de los argumentos que siguen), para poder asegurar la existencia de variables con la
distribuci´ on uniforme. En efecto, vamos a verificar que no existe una variable aleatoria
U en (R, 2
R
), con valores en un intervalo (a, b), cuya distribuci´ on de probabilidad sea
invariante bajo traslaciones, es decir, tal que si A, B son dos subconjuntos de (a, b)
y B se obtiene como resultado de aplicar a A una traslaci´ on, entonces P{Z ∈ A} =
P{Z ∈ B}.
Por comodidad, tomamos a = 0, b = 2π, e identificamos los puntos x del intervalo
[0, 2π) con los puntos (cos x, sin x) de la circunferencia C de radio 1. A cada punto
(cos x, sin x) asociamos el conjunto A
x
= {(cos(n + x), sin(n + x)) : n entero }. Es
inmediato verificar que el giro que lleva el punto (cos x, sin x) en el punto (cos y, sin y)
aplica A
x
en A
y
. Como cada A
x
es un conjunto numerable, no llena C, y es claro
que si (cos y, sin y) no pertenece a A
x
, entonces A
x
∩ A
y
= ∅. Vamos a partir C
en conjuntos de la forma A
x
, y vamos a llamar Γ a un subconjunto de C formado
con un punto de cada uno de los A
x
, es decir, tal que (cos x, sin x), (cos y, sin y) ∈ Γ,
(cos x, sin x) = (cos y, sin y) implica A
x
= A
y
, y
¸
(cos x,sin x)∈Γ
A
x
= C.
Este conjunto Γ es infinito, porque lo contrario implicar´ıa que C ser´ıa numerable. Por
la construcci´on, la circunferencia C se obtiene como uni´ on (disjunta) de los conjuntos
Γ
n
= {(cos(n + x), sin(n + x)) : (cos x, sin x) ∈ Γ}, que se obtienen girando Γ en un
´angulo n, para cada n entero. Como estos conjuntos se obtienen uno de otro por
medio de un giro en C, que equivale a una traslaci´ on m´odulo 2π en el intervalo, la
distribuci´ on uniforme debe atribuir a cada uno de ellos la misma probabilidad.
Introducci´ on a la probabilidad.
3 N3.- Bernoulli. 39
De all´ı resultar´ıa 1 = P([0, 2π)) = P(C) = P
¸

n=−∞
Γ
n

=
¸

n=−∞
P(Γ
n
), y esta
serie cuyos sumandos son todos iguales no puede converger a 1.
Esta contradicci´ on muestra que no puede pretenderse definir una distribuci´ on uni-
forme sobre todos los subconjuntos del intervalo. No hay contradicci´ on con la exis-
tencia de la distribuci´ on uniforme sobre la σ-´algebra de Borel. Lo que necesariamente
ocurre, es que los conjuntos Γ
n
no son de Borel. En particular, de este argumento se
deduce que la σ-´algebra de Borel es estrictamente m´as peque˜ na que la de todos los
subconjuntos de R.
Distribuci´ on exponencial.
Llamemos T a una variable aleatoria que representa la duraci´ on de una pieza
que no envejece, pero que puede ser destruida accidentalmente. Vamos a des-
cribir un modelo para la distribuci´ on de probabilidades de T que corresponde
al caso en que la propensi´ on a la ocurrencia de accidentes que pueden destruir
la pieza es constante en el tiempo, y no depende de la historia anterior del
proceso que estamos considerando. En tal caso, como la pieza no envejece,
cuando sabemos que en el instante t a´ un no se ha destruido, desde entonces
en adelante tenemos para ella la misma expectativa de duraci´ on que en el mo-
mento en que la colocamos en el sistema. (Se trata, por ejemplo, de un modelo
bastante natural para describir la vida de una componente electr´ onica del tipo
de un transistor, o un diodo, cuya duraci´ on depende de las sobreintensidades
accidentales que circulan por ella por causa del funcionamiento del circuito
en el que est´ an incluidas, pero no de efectos de envejecimiento propios de la
pieza.)
Esto nos lleva a exigir P{T > t +s|T > t} = P{T > s}, para cualesquiera
s, t ≥ 0, es decir,
P({T > t +s} ∩ {T > t})
P{T > t}
= P{T > s}.
De aqu´ı resulta, teniendo en cuenta que {T > t+s}∩{T > t} = {T > t+s},
que para s, t ≥ 0 se cumple P{T > t + s} = P{T > s}.P{T > t}, o, con
g(t) = log P{T > t},
g(s + t) = g(s) +g(t). (3.2)
Como P{T > t} decrece con T, lo mismo ocurre con g y las ´ unicas solu-
ciones mon´ otonas de la ecuaci´ on funcional (3.2) (ver Lema 3.6.1) son de la
forma g(t) = −λt, donde λ es una constante (positiva, para que g sea mon´ otona
decreciente). Deducimos que P{T > t} = e
−λt
.
40
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
Cuando una variable aleatoria T tiene funci´on de distribuci´ on de probabi-
lidad P{T ≤ t} = 1 −e
−λt
(t ≥ 0), decimos que su distribuci´ on es exponencial
con par´ ametro λ. Lo abreviaremos Exp(λ).
3.5 Construcci´ on expl´ıcita de variables alea-
torias en R, con funci´ on de distribuci´ on F
dada, a partir de U ∼Uni(0, 1).
Al resolver el Ejercicio 3.3.9 se habr´ a observado que cuando X tiene funci´on
de distribuci´ on F continua, U = F(X) es uniforme en (0, 1). Esto sugiere
que para construir una variable aleatoria real X con funci´ on de distribuci´ on
F, a partir de una variable aleatoria U uniforme en (0, 1) basta invertir la
correspondencia U = F(X) al menos cuando F es continua, y adem´ as existe
la funci´ on inversa. El siguiente enunciado introduce una inversa generalizada
de F, e indica un resultado algo m´ as general.
Teorema 3.5.1 Si U ∼ Uni(0, 1) y F es una funci´ on de distribuci´ on en R,
entonces X = F
−1
(U) ∼ F, con
F
−1
(u) = inf{x : F(x) ≥ u}.
Demostraci´ on. P{F
−1
(U) ≤ x} = P{inf{y : F(y) ≥ U} ≤ x} = P{U ≤
F(x)} = F(x). 2
Nota: El resultado anterior interesa cuando se quiere simular variables aleatorias por
medio de una computadora o una calculadora manual, porque unas y otras suelen te-
ner procedimientos que simulan sucesiones de variables aleatorias uniformes en (0, 1),
independientes. Se trata de procedimientos determin´ısticos, que producen sucesiones
de n´ umeros del intervalo (0, 1) totalmente previsibles, pero cuyo comportamiento se
asemeja al de variables uniformes independientes obtenidas por alg´ un procedimiento
de sorteo. Uno de los m´etodos m´as simples y m´as utilizados para dicha generaci´ on de
n´ umeros seudo aleatorios, como se les suele llamar, es el siguiente: Se elige un entero
positivo p muy grande, dos enteros positivos A, B, y un valor inicial X
0
, tambi´en
entero, comprendido entre 0 y p − 1. A partir de estos valores iniciales, se calculan
sucesivamente X
n
= A + BX
n−1
[mod p], y se toma la sucesi´on U
n
= X
n
/p como
salida del proceso.
Cuando los n´ umeros p, A, B est´an bien elegidos, la sucesi´on U
1
, U
2
, . . . que se obtiene
se comporta de manera similar a una sucesi´on de variables uniformes en (0, 1) inde-
pendientes. Un comentario sobre el significado de expresiones tales como “se comporta
de manera similar”, puede encontrarse en la nota biogr´ afica sobre Karl Pearson, al
fin de este cap´ıtulo, donde se menciona la aparici´ on de la primera prueba de ajuste.
Introducci´ on a la probabilidad.
3.6. Soluci´ on de una ecuaci´ on funcional. 41
Ejercicios.
Ejercicio 3.5.1 Si U
1
, U
2
, . . . son variables aleatorias independientes e id´entica-
mente distribuidas con distribuci´ on uniforme en (0, 1) (lo abreviamos U
1
, U
2
, . . .
i.i.d. ∼ Uni(0, 1)), y X
i
= −log U
i
, (i = 1, 2, . . .) entonces (X
i
)
i=1,2,...
son i.i.d. ∼
Exp(1), y (τX
i
)
i=1,2,...
son i.i.d. ∼ Exp(1/τ).
Ejercicio 3.5.2 Si U
1
, U
2
, . . . son i.i.d. ∼ Uni(0, 1), entonces
(a)

¸
ni
¸
j=n(i−1)+1
1
{U
j
≤p}
¸

i=1,2,...
y
(b)

¸
n
¸
j=0
j1
{
¸
j−1
h=0
p
n,h
<U
i

¸
j
h=0
p
n,h
}
¸

i=1,2,...
, con p
n,h
= P{Bin(n, p) = h}
son i.i.d. ∼ Bin(n, p).
Ejercicio 3.5.3 Si U
1
, U
2
, . . . son i.i.d. ∼ Uni(0, 1), entonces la sucesi´on definida
recursivamente H
0
= 0, H
i
= min

j :
H
i−1
+j
¸
k=H
i−1
+1
1
{U
k
≤p}
≥ 1

es i.i.d. ∼ Geo(p).
Ejercicio 3.5.4 Si X
1
, X
2
, . . . son i.i.d. ∼ Exp(λ), entonces ([X
i
])
i=1,2,...
([X]
designa la parte entera de X) son i.i.d. con distribuci´ on geom´etrica. ¿Cu´ al es el
par´ ametro?
3.6 Soluci´ on de la ecuaci´ on funcional g(s + t)
= g(s) +g(t), s, t > 0. Probabilidad e infor-
maci´ on.
Completamos este cap´ıtulo con la demostraci´ on del Lema utilizado para re-
solver la ecuaci´ on funcional (3.2) y con otra aplicaci´ on de la misma ecuaci´ on.
3.6.1 Las soluciones de la ecuaci´ on.
Lema 3.6.1 Cuando g : R
+
→ R es soluci´on de la ecuaci´ on funcional
g(s +t) = g(s) +g(t), s, t > 0
o bien es de la forma g(t) = tg(1) o bien su gr´ afico es denso en un ´ angulo con
v´ertice en el origen.
42
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
Demostraci´ on. Observemos que, aplicando (3.2) con s = 1/m, 2/m, 3/m, . . ., t =
1/m, se obtiene respectivamente
g(2/m) = g(1/m) +g(1/m) = 2g(1/m),
g(3/m) = g(2/m) +g(1/m) = 3g(1/m),
g(4/m) = g(3/m) +g(1/m) = 4g(1/m),
. . . . . . . . . . . . . . . . . . . . . . . .
g(n/m) = ng(1/m). (3.3)
En particular, con n = m en esta ´ ultima igualdad, obtenemos g(1) = mg(1/m), de
modo que g(1/m) = (1/m)g(1). Reemplazamos ahora esta expresi´on de g(1/m) en
(3.3), y obtenemos g(r) = rg(1), que vale para todo racional positivo r puesto que m
y n son enteros positivos arbitrarios.
Finalmente, o bien esta f´ ormula vale para todo t en R
+
, o bien existe un irracional
u tal que g(u) = cu con c = g(1). Como la funci´ on h(t) = g(tu) satisface la misma
ecuaci´on (3.2), se cumple h(r) = rh(1) para todo r racional positivo, es decir, g(ru) =
rg(u) = cru. Tomemos un punto cualquiera del ´ angulo formado por las combinaciones
lineales con coeficientes no negativos de los vectores (1, g(1)) y (u, g(u)). Si las coor-
denadas de este punto son (λ +µu, λg(1) +µg(u)), con λ, µ ≥ 0, podemos encontrar
un par de sucesiones (r
n
), (s
n
) de racionales no negativos tales que lim
n→∞
r
n
= λ;
lim
n→∞
s
n
= µ. Se cumple entonces g(r
n
+s
n
u) = g(r
n
) +g(s
n
u) = r
n
g(1) +s
n
g(u).
Esto indica que la sucesi´on de puntos (r
n
+s
n
u, r
n
g(1) +s
n
g(u)) est´a en el gr´ afico de
g y por la construcci´ on de las sucesiones (r
n
), (s
n
), converge a (λ+µu, λg(1)+µg(u)).
2
3.6.2 La informaci´ on.
La probabilidad de un suceso est´ a vinculada a la cantidad de informaci´ on
que proporciona saber que ha ocurrido. Es por eso que saber que hemos sido
favorecidos en un sorteo realizado entre un n´ umero muy grande de postulantes
que participan en condiciones de equitatividad - una loter´ıa, por ejemplo - nos
resulta mucho m´ as informativo que saber que no fuimos favorecidos, ya que,
sin duda, esto ´ ultimo era lo que, razonablemente, esper´ abamos que ocurriera.
Lo que vuelve sorprendente el hecho de haber ganado no es el tama˜ no
del premio, sino su escasa probabilidad. Y si en vez de un premio, lo que
se sorteara con iguales probabilidades fuera un castigo, tambi´en resultar´ıa
igualmente sorprendente.
Convengamos entonces en medir la informaci´ on que nos aporta saber que
ha ocurrido un suceso A por medio de una funci´ on g(P(A)) que decrece cuando
crece P(A).
Introducci´ on a la probabilidad.
3.6. Soluci´ on de una ecuaci´ on funcional. 43
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
(1, g(1))
a
1 rn λ snu
(u, g(u))
a
µu
λ(1, g(1)) +µ(u, g(u))
a
-
6
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
¨
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
22
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
¨
¨
¨
¨
¨
¨
¨
¨
¨
Figura 3.3: El gr´ afico de la soluci´ on de g(s +t) = g(s) +g(t) es una semirrecta
o es denso en un ´ angulo.
Resulta razonable adem´ as establecer que si A y B son sucesos indepen-
dientes, la informaci´ on proporcionada por saber que ocurren ambos sucesos
es la suma de las informaciones correspondientes a saber que ocurre cada uno
de ellos. Esta propiedad, que podemos expresar en la forma g(P(A)P(B))
= g(P(A))+g(P(B)) una vez que hemos convenido en expresar la informaci´ on
como una funci´ on de la probabilidad, se justifica porque cuando A y B son
independientes, la informaci´ on “ocurre A” no cambia nuestra composici´ on de
lugar respecto de la ocurrencia de B, y por lo tanto agregar a ella la informaci´ on
“ocurre B” nos aporta tanto despu´es de saber que ocurre A como nos hubiera
aportado antes de saberlo. En cambio, si A y B no fueran independientes y
ya sabemos que ocurre A, nuestra sorpresa al enterarnos que tambi´en ocurre
B ser´ a funci´on de P(B|A) (= P(B)) y no de P(B), que, despu´es de saber que
ocurri´ o A, ya no es relevante.
Estas dos propiedades, (i) que la informaci´ on que aporta “ocurre A” es
g(P(A)), con g mon´ otona, y (ii) que
g(pq) = g(p) +g(q) (3.4)
para cualesquiera p, q ∈ (0, 1) determinan la forma de la informaci´ on g. En
efecto, el cambio de variables p = e
−s
, q = e
−t
, s, t ≥ 0 transforma (3.4) en
44
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
g(e
−s−t
) = g(e
−s
) +g(e
−t
) de modo que concluimos g(e
−t
) = λt, para alg´ un
valor de λ (positivo para que la informaci´ on misma sea no negativa).
La medida de la informaci´ on de “ocurre A” es entonces −λlog P(A).
Se suele convenir que la unidad de informaci´ on es la que aporta saber cu´ al
de dos sucesos complementarios de probabilidad 1/2 es el que ocurre, es decir,
1 = −λlog 1/2, de modo que, si hacemos esa convenci´ on binaria, estaremos
eligiendo λ = 1/ log 2 y g(P(A)) = −log P(A)/ log 2 = −log
2
P(A).
N4.- Pearson, Karl (1857-1936).
Karl Pearson naci´o en Coldharbour, Surrey, Inglaterra. Fue un estudiante destacado, tercero en la lista
de honores de matem´atica en Cambridge (1879), y luego estudi´o en Alemania, donde se volvi´o un experto
en literatura en idioma alem´an (y cambi´o la ortograf´ıa del nombre Carl con el que hab´ıa sido bautizado para
transformarse en hom´onimo de Karl Marx).
En 1884 fue designado Goldsmid Professor de matem´atica aplicada y mec´anica en el University College
de Londres. Sus clases con conceptos modernos sobre la ciencia, constituyeron la base de The Grammar of
Science que public´o en 1892, y sus clases sobre probabilidades y la filosof´ıa del azar fueron una s´olida base
para sus posteriores trabajos en biometr´ıa y estad´ıstica. Motivado por el estudio de la evoluci´on y de la
herencia, fue uno de los fundadores de la estad´ıstica moderna, y su trabajo llev´o a la estad´ıstica a ser una
rama de estudio independiente.
Pearson fue atra´ıdo al estudio de la biometr´ıa por su trabajo como profesor de matem´atica aplicada.
Fue Walter Weldon, que hab´ıa sido designado Profesor de Zoolog´ıa en el University College quien lo interes´o
en el tema, al pedir su ayuda para resolver problemas estad´ısticos. Francis Galton, que hab´ıa arbitrado
art´ıculos de Weldon, conoci´o a Pearson y le provey´o el apoyo intelectual y econ´omico para la creaci´on del
Laboratorio de Biometr´ıa. En ´el, entre 1893 y 1901, Pearson produjo m´as de treinta art´ıculos sobre m´etodos
estad´ısticos. En ese per´ıodo complet´o la derivaci´on del coeficiente de correlaci´on iniciada por Francis Galton,
para ayudarlo a mostrar cuantitativamente la relaci´on entre las variables que interven´ıan en sus experimentos,
e introdujo el t´ermino “desviaci´on t´ıpica” (“standard deviation”). En 1899 public´o la prueba “chi-cuadrado”.
Aplic´o los m´etodos estad´ısticos que ´el mismo contribuy´o a desarrollar al estudio de muchos problemas
de la sociedad de su ´epoca, tales como la tuberculosis, el alcoholismo, y el retardo mental. Los resultados
que obtuvo, a menudo contradec´ıan el pensamiento corriente de sus contempor´aneos, lo que le atrajo la
cr´ıtica de autoridades de la medicina y de la administraci´on p´ ublica.
A pesar de la importancia de sus aportes a la teor´ıa, probablemente su mayor contribuci´on a la es-
tad´ıstica fue poner de manifiesto la importancia de la aplicaci´on de los m´etodos estad´ısticos, y lo hizo con
singular capacidad y habilidad, en particular, como fundador y editor de la revista Biometrika (1901-1936).
Se retir´o del University College en 1933 tres a˜ nos antes de su muerte.
Introducci´ on a la probabilidad.
3. N4.- Karl Pearson. 45
Los modelos aleatorios y las pruebas de ajuste.
Hasta fines del siglo XIX era habitual pensar todos los fen´omenos naturales de manera determin´ıstica.
Los modelos aleatorios para los fen´omenos naturales se desarrollaron desde entonces, y posibilitaron una
verdadera revoluci´on en la manera de pensar los problemas de la f´ısica, la biolog´ıa, la econom´ıa, por ejemplo.
Todo el pensamiento cient´ıfico del Siglo XX est´a permeado por la utilizaci´on de modelos aleatorios, e incluso
los intentos de volver al viejo determinismo, asociados al estudio de los sistemas “ca´oticos”, si bien tienen
importancia filos´ofica y han motivado interesantes avances matem´aticos, no han aportado alternativas que
reemplacen a los modelos aleatorios.
Pearson, por su aporte cient´ıfico y por su influencia como editor, fue uno de los grandes precursores de
esta nueva forma de pensar la naturaleza, gracias a la cual las observaciones emp´ıricas aparecen como un
reflejo de una distribuci´on de probabilidad subyacente, que es el verdadero objeto de estudio.
Como consecuencia, el objeto de inter´es que es la distribuci´on de probabilidades nunca puede observarse.
Lo que puede observarse son resultados de fen´omenos naturales, que proporcionan variables aleatorias con
la distribuci´on que, en definitiva, es lo que nos interesa conocer.
Dentro de este contexto, Pearson introdujo la primera prueba de ajuste que se conoce en la bibliograf´ıa,
aparecida en un art´ıculo suyo de 1999. Se trata de un procedimiento estad´ıstico por el cual, dadas las obser-
vaciones X
1
, X
2
, . . . , Xn de un fen´omeno natural, que, como tales pueden considerarse variables aleatorias
con cierta distribuci´on F, se decide si es plausible que esa distribuci´on F sea cierta distribuci´on dada F
0
.
A tales procedimientos, se los llama pruebas de ajuste a la distribuci´on F
0
. El resultado de una prueba
de ajuste puede ser, o bien rechazar por inveros´ımil que F sea F
0
, o bien no rechazarlo, por considerar que
la informaci´on proporcionada por las observaciones X
1
, . . . , Xn no refuta esa suposici´on.
46
Enrique M. Caba˜ na.
Cap´ıtulo 3: Variables aleatorias.
4.

Tres aplicaciones vinculadas
con la distribuci´ on binomial.
4.1 Un modelo probabil´ıstico: El paseo al azar
simple.
Se llama en general paseo al azar a la sucesi´on de sumas parciales S
n
=
¸
n
i=1
X
i
de una sucesi´on dada X
n
, n = 1, 2, . . . de variables aleatorias. Cada incremento
X
n
= S
n
−S
n−1
se interpreta como un paso realizado por el sistema (S
n
)
n=0,1,...
en el instante n.
Llamamos realizaci´ on o trayectoria de un paseo, a cada una de las sucesiones
(S
n
(ω))
n=0,1,...
que se obtienen eligiendo ω ∈ Ω.
Esto sugiere que un paseo puede pensarse como una variable aleatoria con valores
en el espacio de las sucesiones. Para que los elementos de la sucesi´on sean variables
aleatorias, dotamos al espacio de las sucesiones de la m´ınima σ-´algebra que contiene
a los conjuntos de la forma {ω : S
j
∈ B
j
, j = 1, 2, . . . , n}, para cualquier n ∈ N y
cualesquiera conjuntos de Borel B
j
.
Vamos a estudiar a continuaci´ on algunas propiedades del paseo al azar
simple, que corresponde a tomar los pasos independientes e id´enticamente dis-
tribuidos, con valores 1 ´ o −1.
Definici´ on 4.1.1 Se llama paseo al azar simple con probabilidades p, q,
p + q = 1, a la sucesi´on S
n
=
¸
n
i=1
X
i
, n = 0, 1, 2, . . . obtenida a partir de
las variables independientes X
n
con la misma distribuci´ on P{X
n
= 1} = p,
P{X
n
= −1} = q.
Dado que el cambio X
n
= 2B
n
−1 permite representar las variables X
n
en
t´erminos de variables B
n
∼ Ber(p), las sumas parciales S
n
= 2H
n
−n, con H
n
=
¸
n
i=1
B
i
∼ Bin(n, p) tienen una distribuci´ on de probabilidades que se describe
de manera inmediata a partir de la distribuci´ on binomial con par´ ametros (n, p).
47
48
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
Figura 4.1: Representaciones gr´ aficas de la trayectoria de un paseo al azar.
Resulta igualmente inmediato que incrementos S
n
j
− S
m
j
, j = 1, 2, . . . , k
correspondientes a intervalos disjuntos del ´ındice (m
1
< n
1
≤ m
2
< n
2
≤ . . . ≤
m
k
< n
k
) son independientes, con distribuci´ on Bin(n
j
−m
j
, p).
Cada realizaci´ on o trayectoria de un paseo suele representarse por medio
del gr´ afico de los puntos de la sucesi´ on, o tambi´en alguno de los dos gr´ aficos
de funciones de dominio R
+
que muestra la Figura 4.1. Uno de ellos es la
poligonal que une los puntos (n − 1, S
n−1
) y (n, S
n
), y el otro es el gr´ afico de
S
[t]
, 0 ≤ t, donde [·] designa a la parte entera. (La trayectoria representada es la
que corresponde a n = 6 pasos con X
1
= X
2
= X
3
= X
5
= 1, X
4
= X
6
= −1.)
Cada una de las trayectorias que une (0, 0) con (n
1
+ n
2
, n
1
− n
2
) tiene
la misma probabilidad p
n
1
q
n
2
. Hay

n
1
+n
2
n
1

trayectorias que unen esos
puntos, de modo que P{S
n
1
+n
2
= n
1
− n
2
} =

n
1
+n
2
n
1

p
n
1
q
n
2
como surge
tambi´en de aplicar directamente los resultados conocidos para la distribuci´ on
binomial.
Ejercicios.
Ejercicio 4.1.1 Llamemos p
m,n
(h, k) = P{S
n
= k | S
m
= h}, con m ≤ n, |h| ≤
m, de la misma paridad que m. Mostrar que p
m,n
(h, k) = p
0,n−m
(0, k −h).
Ejercicio 4.1.2 Verificar que las probabilidades p
m,n
(h, k) definidas en el ejercicio
precedente satisfacen las ecuaciones:
p
m,n+1
(h, k) = pp
m,n
(h, k −1) +qp
m,n
(h, k + 1),
que, junto a las condiciones iniciales p
0,0
(0, k) = 1
{k=0}
, permiten calcular las pro-
babilidades {p
0,n
(0, k) : |k| ≤ n} recursivamente en n.
Introducci´ on a la probabilidad.
4.1. Paseo al azar simple. 49
Ejercicio 4.1.3 Verificar que, con la convenci´ on p
m,n
(h, k) = 0 si |h| > m o si
|k − h| > n − m, entonces p
m,n
(h, k) =
¸
l
p
m,ν
(h, l)p
ν,n
(l, k), para cualquier ν
(m ≤ ν ≤ n). Deducir en particular el resultado del ejercicio anterior.
Ejercicio 4.1.4 Verificar que para todo n, E(q/p)
Sn
= 1. (Se sugiere proceder
por inducci´ on, calculando E[E((q/p)
Sn
| S
n−1
)].
4.1.1 Paseo al azar sim´etrico simple. Principio de Re-
flexi´ on.
El caso particular p = q tiene especial inter´es:
Definici´ on 4.1.2 Al paseo al azar simple con iguales probabilidades p = q =
1/2, se le llama paseo al azar sim´etrico simple.
Para el paseo sim´etrico, el c´ alculo de probabilidades y el recuento de trayec-
torias son equivalentes, porque cada trayectoria particular de lon gitud n tiene
la misma probabilidad que cualquier otra de la misma longitud, a saber, 2
−n
.
Una propiedad interesante del paseo al azar, que vamos a describir a con-
tinuaci´ on, es el llamado Principio de Reflexi´on de Desir´e Andr´e:
Teorema 4.1.1 (Principio de Reflexi´on.) La probabilidad de que el paseo al
azar sim´etrico simple S
1
, S
2
, . . . , S
n
satisfaga S
n
= m, max
j≤n
S
j
≥ k, donde
n, m, k son enteros positivos, m < k, es igual a P{S
n
= 2k −m}.
Demostraci´ on: Por cada trayectoria que une (0, 0) con (n, m) cuyo m´ aximo
es mayor o igual que k, hay otra que une (0, 0) con (n, 2k −m) que se obtiene
simetrizando la anterior respecto de L
k
= {(t, k) : t ∈ R} a partir del primer
punto (h, k) en que la trayectoria alcanza el valor k: h = min{j : S
j
= k}
(Ver Figura 4.2). Rec´ıprocamente, por cada trayectoria que une (0, 0) con
(n, 2k − m) (y necesariamente alcanza k por primera vez en alg´ un h < n,
puesto que 2k −m > k), su sim´etrica respecto de la misma horizontal L
k
une
(0, 0) con (n, m).
La simetr´ıa respecto del primer punto en que una trayectoria alcanza a
L
k
, establece entonces una correspondencia biun´ıvoca entre las trayectorias
que unen (0, 0) con (n, m) y alcanzan el nivel k, y las que unen (0, 0) con
(n, 2k − m). Esta correspondencia conserva trivialmente la probabilidad, ya
que cada una de esas trayectorias tiene probabilidad 2
−n
. Se deduce entonces
el resultado indicado en el enunciado. 2
50
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
k k
m
n
2k −m
0
Figura 4.2: Reflexi´ on respecto del nivel k.
Corolario 4.1.1.1 (i) La probabilidad de que el paseo (S
i
)
0≤i≤n
alcance el
nivel k (k > 0) es P{S
n
= k} + 2P{S
n
> k}.
(ii) La probabilidad de que (S
i
)
0≤i≤n
permanezca por debajo del nivel k es
1 −P{S
n
= k} −2P{S
n
> k} = P{−k ≤ S
n
< k}.
(iii) En particular, la probabilidad de que el paseo (S
n
)
n=0,1,2,...
no alcance
el nivel k es 0 para cualquier k.
Demostraci´ on. Por el Principio de Reflexi´ on, la probabilidad de que el
paseo alcance el nivel k y termine en k + h es igual a la probabilidad de que
alcance k y termine en k −h. Por lo tanto, con M
n
= max{S
j
: j ≤ n},
P{M
n
≥ k, S
n
< k} = P{M
n
≥ k, S
n
> k} = P{S
n
> k},
y de aqu´ı resulta (i):
P{M
n
≥ k} = P{M
n
≥ k, S
n
< k} +P{M
n
≥ k, S
n
> k}
+P{M
n
≥ k, S
n
= k} = 2P{S
n
> k} +P{S
n
= k}.
La probabilidad (ii) de que el paseo permanezca por debajo del nivel se
obtiene como complemento de la anterior. Por la simetr´ıa de la distribuci´ on
de S
n
se puede escribir por medio de la suma finita P{−k ≤ S
n
< k} =
¸
−k≤j<k,n−j par

n
(n −j)/2

2
−n
. Cada una de las probabilidades binomiales
P{Bin(n, p) = j} tiende a cero para p ∈ (0, 1), j fijos, cuando n → ∞, y esto
implica (iii). 2
Introducci´ on a la probabilidad.
4.1. Paseo al azar simple. 51
4.1.2 El paseo con dos barreras. Principio de Reflexi´ on
M´ ultiple.
El Principio de Reflexi´ on nos da una manera de contar cu´ antas de las 2
n
trayectorias de un paseo de longitud n alcanzan el nivel k. Vamos a contar
ahora cu´ antas de esas trayectorias alcanzan alguno de los niveles −a o b, donde
a, b son dos enteros positivos.
Las notaciones siguientes se refieren a cantidades de trayectorias de longitud
n que cumplen las condiciones que se indican: Vamos a llamar
• N(j) a la cantidad de trayectorias que terminan en S
n
= j,
• N
+
m
(j) a la cantidad de trayectorias para las cuales existen ´ındices n
1
,
n
2
, . . ., n
m
tales que S
n
1
= b, S
n
2
= −a, S
n
3
= b, S
n
4
= −a, S
n
5
= b, . . .,
S
nm
= b, si n
m
es impar, o −a, si es par, y terminan en S
n
= j,
• N

m
(j) a la cantidad de trayectorias para las cuales existen ´ındices n
1
,
n
2
, . . ., n
m
tales que S
n
1
= −a, S
n
2
= b, S
n
3
= −a, S
n
4
= b, S
n
5
= −a,
. . ., S
nm
= −a, si n
m
es impar, o b, si es par, y terminan en S
n
= j,
• N
++
m
(j) a la cantidad de trayectorias que cumplen las condiciones de la
definici´on de N
+
m
(j), y alcanzan el nivel b antes que el nivel −a,
• N
−−
m
(j) a la cantidad de trayectorias que cumplen las condiciones de la
definici´on de N

m
(j), y alcanzan el nivel −a antes que el nivel b.
Entre las funciones de j as´ı definidas existen las siguientes relaciones:
N
+
m
= N
++
m
+N
−−
m+1
, N

m
= N
−−
m
+N
++
m+1
,
y de ellas podemos obtener recursivamente
N
++
1
+N
−−
1
= (N
+
1
+N

1
) −(N
++
2
+N
−−
2
)
= (N
+
1
+N

1
) −(N
+
2
+N

2
) + (N
++
3
+N
−−
3
) = . . .
=

¸
m=1
(−1)
m−1
(N
+
m
+N

m
)
donde la serie es en realidad una suma finita, ya que al menos para m > n, los
sumandos se anulan.
Para calcular N
+
m
establecemos una correspondencia biun´ıvoca entre las
trayectorias con S
n
= j que alcanzan sucesivamente los niveles b, −a, b, −a,
. . . al menos en m oportunidades, y las trayectorias que llegan a S
n
= j

m
, donde
52
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
b
j

0
= j
j

1
= 2b −j
j

2
= j + 2(a +b)
j

3
= 2b −j + 2(a +b)
j

−1
= −2a −j
j

−2
= j −2(a +b)
j

−3
= 2a −j −2(a +b)
−a
−a −(a +b)
−a −2(a +b)
−a −3(a +b)
b + (a +b)
b + 2(a +b)
b + 3(a +b)
(+)
(−)
(+)
(−)
(−)
(+)
(−)
Figura 4.3: Reflexiones sucesivas de j respecto del par de niveles −a y b.
j

m
es el punto que se obtiene reflejando j m veces, sucesivamente respecto de b,
la primera vez que alcanza ese nivel, luego respecto del reflejado a
1
= b+(a+b)
de −a respecto de b, la primera vez que lo alcanza despu´es de haber alcanzado
b, luego del reflejado b
1
= b + 2(a + b) de b respecto de a
1
, del reflejado
a
2
= b+3(a+b) de a
1
respecto de b
1
, etc. hasta haber alcanzado m reflexiones.
M´as precisamente, j

2h
= j + 2h(a + b), j

2h+1
= 2b − j + 2h(a + b), para
h = 0, 1, . . ., si convenimos en que j

0
= j.
Como consecuencia, N
+
m
(j) = N(j

m
).
De la misma manera, con notaciones an´ alogas, se procede para calcular
N

m
(j) = N(j

−m
), con j

−2h
= j −2h(a +b), j

−2h−1
= −2a −j −2h(a +b).
La cantidad de trayectorias que alcanzan alguno de los dos niveles y ter-
Introducci´ on a la probabilidad.
4.2. F´ ormula de Stirling. 53
minan en j es por lo tanto
N
++
1
+N
−−
1
=

¸
m=1
(−1)
m−1
(N
+
m
+N

m
) =

¸
m=1
(−1)
m−1
(N(j

m
) +N(j

−m
)),
y la cantidad de trayectorias que terminan en S
n
= j sin haber alcanzado
ninguno de los dos niveles −a y b es, por complemento,

¸
m=−∞
(−1)
m
N(j

m
) =

¸
m=−∞
(−1)
m

n
(n −j

m
)/2

, (4.1)
con la convenci´ on de que

n
h

= 0 cuando h < 0, h > n, y cuando h no es entero. (4.2)
Resumimos lo que precede en el siguiente enunciado:
Teorema 4.1.2 (Principio de Reflexi´ on M´ ultiple).
El n´ umero de trayectorias de un paseo al azar de longitud n que no alcanza
ninguno de los dos niveles −a y b (a, b, > 0) y termina en S
n
= j es el que
indica (4.1), con la convenci´ on (4.2) y los valores de j

m
indicados en la Figura
4.3.
4.2 La f´ ormula de Stirling y el l´ımite de las
probabilidades binomiales.
La f´ ormula de Stirling describe el comportamiento asint´ otico de n! cuando n
tiende a infinito:
Teorema 4.2.1 Para cada n, se cumple
n!
n
n+
1
2
e
−n
=

2πe
λn/12n
, 0 ≤ λ
n
≤ 1,
y, como consecuencia,
lim
n→∞
n!
n
n+
1
2
e
−n
=

2π.
Demostraci´ on. Est´ a contenida en los ejercicios del final de esta secci´ on.2
Como ejemplo de una aplicaci´ on de esta f´ ormula, vamos a calcular el l´ımite
cuando n tiende a infinito de las probabilidades asociadas a la distribuci´ on
binomial:
54
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
Ejemplo 4.2.1 Verificar el siguiente Teorema de De Moivre:
Teorema 4.2.2 Para a < b cualesquiera, y B
n
∼ Bin(n, p),
lim
n→∞
P

a <
B
n
−np

np(1 −p)
≤ b

=

b
a
1


e
−t
2
/2
dt.
Demostraci´ on. Se cumple
P

a <
B
n
−np

np(1 −p)
≤ b
¸
=
¸
a<(h−np)/

np(1−p)≤b
p
n,h
, (4.3)
donde p
n,h
=

n
h

p
n
(1 −p)
n−h
es la probabilidad binomial.
Para obtener el resultado del enunciado, vincularemos la suma del segundo miembro
de (4.3) con la suma de Riemann
¸
a<(h−np)/

np(1−p)≤b
1

2πnp(1 −p)
e
−γ
2
/2
, γ = (h −np)/

np(1 −p),
que tiene por l´ımite la integral del enunciado del Teorema.
M´ as precisamente, mostraremos que la diferencia entre las dos sumas tiene l´ımite
cero. Dado que el n´ umero de sumandos es la parte entera de (b − a)

np(1 −p),
basta mostrar que

n max
a<(h−np)/

np(1−p)≤b
(p
n,h
−e
−γ
2
/2
/

2πnp(1 −p))
tiende a cero o, lo que es equivalente, que

2πnp(1 −p)p
n,h
−e
−γ
2
/2
tiene una cota
(uniforme en h o γ) que tiende a cero cuando n → ∞. Para que esto suceda, basta
que la diferencia de los logaritmos cumpla una propiedad an´ aloga.
Vamos a calcular entonces log

2πnp(1 −p)p
n,h
+ γ
2
/2 utilizando la F´ ormula de
Stirling escrita en la forma
log n! = (n + 1/2) log n −n + log

2π +λ
n
/12n,
y trataremos de acotar esta diferencia por una expresi´ on que tienda a cero,
Obtenemos
log

2πnp(1 −p)p
n,h

γ
2
2
= log

2π +
1
2
log np(1 −p)
+log n! −log h! −log(n −h)! +hlog p + (n −h) log(1 −p) +
γ
2
2
=
1
2
log np(1 −p) + (n + 1/2) log n −(h + 1/2) log h −(n −h + 1/2) log(n −h)
Introducci´ on a la probabilidad.
4.2. F´ ormula de Stirling. 55
+
λ
n
12n

λ
h
12h

λ
n−h
12(n −h)
+hlog p + (n −h) log(1 −p) +
γ
2
2
=
1
2
log
p(1 −p)
(h/n)(1 −h/n)
−n
¸
h
n
log
h/n
p
−(1 −
h
n
) log
1 −h/n
1 −p

+A
n,h
+
γ
2
2
(4.4)
con
A
n,h
= λ
n
/12n −λ
h
/12h −λ
n−h
/12(n −h). (4.5)
La expresi´on precedente incluye las variables h y γ, que est´an vinculadas por γ =
(h−np)/

np(1 −p). Vamos a eliminar h introduciendo una variable intermedia γ
n
=
h
n
−p = γ

p(1 −p)/

n. Dado que los sumandos que intervienen en nuestros c´ alculos
son aquellos para los que a < γ ≤ b resulta como consecuencia que lim
n→∞
γ
n
= 0.
Reemplacemos primeramente h/n por p + γ
n
en (4.5). Para esta ´ ultima expresi´ on,
obtenemos
nA
n,h
= λ
n

λ
h
12(p +γ
n
)

λ
n−h
12((1 −p) −γ
n
)
que nos permite concluir que, para n suficientemente grande, |A
n,h
| ≤ C/n, donde
C es una constante adecuada que depende de p (0 < p < 1), pero no de n, ni de h,
cuando se cumple a < γ ≤ b.
Recordemos que nuestra meta es mostrar que (4.4) tiende a cero uniformemente en γ,
es decir, est´a acotado por una expresi´ on independiente de γ que tiende a cero cuando
n tiende a infinito. Acabamos de mostrar que esto ocurre con el t´ermino A
n,h
. Vamos
a verificarlo ahora separadamente para los dos otros sumandos que componen (4.4):
1
2
log
p(1 −p)
h
n
(1 −
h
n
)
(4.6)
y
γ
2
2
−n
¸
h
n
log
h/n
p
−(1 −
h
n
) log
1 −h/n
1 −p

. (4.7)
Al reemplazar h/n = p +γ
n
en (4.6), resulta

1
2
log(1 +γ
n
/p) −
1
2
log(1 −γ
n
/(1 −p)),
que tiende a cero uniformemente en γ.
Al reemplazar h/n = p + γ
n
en (4.7), y aplicar el desarrollo (1 + x) log(1 + x) =
(1 +x)(x−
x
2
2
+
x
3
3

x
4
4
+. . .) = x +
x
2
2
+B(x)x
3
, B(x) uniformemente acotada para
|x| < const. < 1, se obtiene:
γ
2
2
−np(1 +γ
n
/p) log(1 +γ
n
/p) −n(1 −p)(1 −γ
n
/(1 −p)) log(1 −γ
n
/(1 −p))
=
γ
2
2
−np

γ
n
p
+
γ
2
n
2p
2
+B(
γ
n
p
)
γ
3
n
p
3

−n(1 −p)

−γ
n
1 −p
+
γ
2
n
2(1 −p)
2
+B(
−γ
n
p
)
−γ
3
n
p
3

=
γ
2
2

1
2

2
n

1
p
+
1
1 −p

−nγ
3
n

B(γ
n
/p)
p
2

B(−γ
n
/p)
(1 −p)
2

56
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
−γ
2
p(1 −p)γ
n

B(γ
n
/p)
p
2

B(−γ
n
/p)
(1 −p)
2

,
y esta expresi´on tambi´en tiende uniformemente a cero. 2
N5.- de Moivre, Abraham (1667-1754).
Abraham de Moivre, naci´o el 26 de mayo de 1667 en Vitry, Francia.
Perteneci´o a una familia protestante. Luego de realizar estudios de
l´ogica, tom´o lecciones privadas de matem´atica con un tutor, al tiempo
que realizaba estudios en el Coll`ege de Harcourt en Par´ıs.
A los 18 a˜ nos de edad, tuvo que emigrar a Inglaterra, por razones
pol´ıticas y religiosas, luego de la expulsi´on de los Hugonotes de Fran-
cia. Como extranjero, tuvo dificultades en ser reconocido, y trabaj´o
como tutor privado.
En 1697 fue elegido miembro de la Royal Society, y en 1710 integr´o
una comisi´on de la Sociedad que deb´ıa dirimir una controversia entre
Newton y Leibniz, acerca de qui´en era el creador del c´alculo.
Su tratado The Doctrine of Chance publicado en 1718 estudia diversos problemas relativos a juegos
de azar, y define la independencia. En 1730 descubri´o la llamada F´ormula de Stirling (que lleva el nombre
de Stirling porque ´este obtuvo una versi´on mejorada), y la us´o en 1733 para encontrar el l´ımite de las
probabilidades binomiales. Tambi´en obtuvo la famosa f´ormula (cos x + ı sin x)
n
= cos nx + ı sin nx.
Ejercicio 4.2.1 (i) Utilizando el desarrollo
1
2
log
1 +x
1 −x
= x +
x
3
3
+
x
5
5
+
x
7
7
+. . . ,
calcular d
n
− d
n+1
, donde d
n
= log n! − (n +
1
2
) log n + n y deducir que la sucesi´on
d
n
es decreciente.
(ii) Deducir tambi´en que d
n
−d
n+1

1
3(2n+1)
2
=
1
12n

1
12(n+1)
y a partir de esta
desigualdad, concluir que la sucesi´ on d
n

1
12n
es creciente.
(iii) De (i) y (ii), deducir que d
n
tiene un l´ımite, que llamaremos ℓ, y acotar la
velocidad de convergencia.
(iv) Obtener la F´ ormula de Stirling lim
n→∞
n!
n
n+
1
2 e
−n
= e

Ejercicio 4.2.2 Dado un paseo al azar sim´etrico, simple S
j
, j = 0, 1, 2, . . .,
(i) Mostrar que la probabilidad u
2n
= P{S
2n
= 0} coincide con la probabilidad
de que S
j
no se anule para j = 1, 2, . . . , 2n.
(ii) Calcular la probabilidad α
2k,2n
= P{S
2k
= 0, S
i
= 0, 2k < i ≤ 2n}.
(iii) Para cada n, llamamos K
n
a la variable aleatoria definida por las condiciones:
S
2Kn
= 0, S
i
= 0, 2K
n
< i ≤ 2n. Encontrar la distribuci´ on de probabilidades de
K
n
. Expresar la probabilidad de {0 ≤ K
n
≤ n}, que vale 1, como suma de las
probabilidades individuales, y, pasando al l´ımite en cada sumando, deducir que la
constante ℓ que interviene en la F´ ormula de Stirling (ver el ejercicio anterior) vale
log

2π.
(iv) Dadas las constantes a, b, 0 ≤ a < b ≤ 1, calcular lim
n→∞
P{a < K
n
/n ≤ b}.
(Al resultado que se obtendr´ a se le suele llamar Ley del Arcoseno ).
Introducci´ on a la probabilidad.
4.3. Una aplicaci´ on estad´ıstica. 57
4.3 Una aplicaci´ on estad´ıstica: inferencia so-
bre el par´ametro en un modelo de Ber-
noulli.
La estad´ıstica constituye una importante motivaci´ on para el estudio de la
probabilidad, y es adem´ as una fuente de interesantes problemas probabil´ısticos.
Nos adelantamos desde ya a plantear algunas aplicaciones de los elementos de
probabilidad que estamos estudiando, a situaciones que podr´ an ser descritas y
estudiadas como problemas de inferencia estad´ıstica.
Lo haremos en relaci´ on a un ejemplo, sin pretender mayor generalidad.
4.3.1 Introducci´ on.
Supondremos dadas n observaciones independientes de una distribuci´ on de
Bernoulli con par´ ametro p (es decir, n variables i.i.d. ∼ Ber(p)) y buscaremos
argumentos probabil´ısticos que nos ayuden a tomar decisiones en relaci´ on con
p.
Ejemplo 4.3.1 Preferencias de consumidores ante una opci´ on binaria.Supongamos
que se admite que los integrantes de cierta poblaci´ on tan grande que podemos suponer
infinita, consumen cierto producto que viene presentado de dos maneras diferentes,
“A” y “B”, y que no tienen preferencia por ninguna de esas dos presentaciones, de
modo que si se elige al azar un integrante de la poblaci´ on, la probabilidad de que
prefiera “A” es 1/2 (y la de que prefiera “B” es tambi´en 1/2).
A partir de esa situaci´ on, se ha hecho una campa˜ na publicitaria en favor de la opci´ on
“A”. Se desea verificar el ´exito de la campa˜ na. y para ello se consulta a n integrantes
de la poblaci´ on elegidos al azar, independientemente, sobre su preferencia. Llamemos
H al n´ umero de respuestas favorables a “A”.
Una campa˜ na exitosa estar´a indicada por un alto valor de H. El problema que nos
planteamos es c´omo usar el resultado H de nuestra consulta para medir el ´exito de
la campa˜ na.
En cualquier caso, la variable H tiene distribuci´ on binomial con par´ ametros (n, p),
donde p es la proporci´ on de integrantes de la poblaci´ on que optan por “A”, y por
consiguiente, es tambi´en la probabilidad de respuesta “A” cuando se pregunta a un
individuo elegido al azar.
La campa˜ na es exitosa cuando p es mayor que 1/2, y tanto m´ as exitosa cuanto mayor
sea p. Por lo tanto, se nos plantea dar respuesta a la pregunta ¿Cu´ anto vale p? o al
menos a la pregunta ¿Es p mayor que 1/2?
58
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
La segunda pregunta es m´ as simple, porque admite s´olo dos respuestas: “S´ı” o “No”,
mientras que a la primera se puede responder al menos con cualquiera de los infinitos
n´ umeros reales del intervalo [1/2, 1], o del intervalo [0, 1] si se admitera que la campa˜ na
puede ser contraproducente.
4.3.2 Un primer esquema de soluci´ on.
Intentaremos dar una respuesta binaria, que depender´ a del valor de H, pero previa-
mente reformularemos la pregunta, para adaptarla mejor a la situaci´ on que, dada
la naturaleza del problema y de la informaci´ on que poseemos, seremos capaces de
resolver. Nos haremos, en vez de la pregunta ¿Es p mayor que 1/2?, la nueva pregunta
¿Nos alcanza la evidencia experimental dada por el valor de H para concluir que
p > 1/2? La respuesta adecuada a esta pregunta es tambi´en binaria. Para ciertos
valores de H responderemos “S´ı” y concluiremos p > 1/2, y para otros valores de H
responderemos “No” y no concluiremos p > 1/2.
Ya hemos observado intuitivamente que los valores grandes de H son los que corres-
ponden a una campa˜ na exitosa, de modo que resulta natural elegir una constante
c adecuada, y concluir p > 1/2 si y s´olo si H > c. Para saber si un c dado es
adecuado, evaluemos las consecuencias de nuestro procedimiento. Cuando p = 1/2,
el suceso H > c que nos lleva a concluir err´ oneamente p > 1/2 tiene probabilidad α
= P{Bin(n, 1/2) > c}, mientras que para cada p > 1/2, el mismo suceso que ahora
nos conduce a la respuesta correcta, tiene probabilidad π(p) = P{Bin(n, p) > c}.
Se concluye que el valor de c ser´a adecuado cuando α resulte peque˜ no, puesto que es
una probabilidad de error, y π(p) resulte grande, puesto que es una probabilidad de
acierto. Sin embargo, es inmediato verificar que π(p) es una funci´ on continua de p, y
que π(1/2) = α, de modo que es imposible conseguir simult´ aneamente ambas metas.
La Figura 4.4 muestra la forma de π(p) para α aproximadamente igual a .05, y varios
valores de n.
Conviene tener en cuenta que para obtener el valor aparentemente ´ optimo α = 0, es
preciso elegir c ≥ n, lo que tiene por consecuencia π(p) = 0 para todo p, y en ese
caso el procedimiento es inoperante. Por ese motivo se descarta utilizar α = 0, y
es preciso elegir para α alg´ un valor tolerablemente peque˜ no, que para nuestra figura
hemos fijado en aproximadamente 5%. El valor 5% no puede obtenerse de manera
exacta en general, ya que s´olo hay un conjunto finito de sucesos de la forma {H > c},
a saber, Ω (para c < 0), ∅ (para c ≥ n) y cada uno de los sucesos {H > c} para c
= 0, 1, . . . , n−1, y por lo tanto s´ olo n+2 valores posibles de α. Para la figura hemos
elegido para cada n, el valor de c que induce el valor de α m´as pr´ oximo a 5% (con
n = 10, obtenemos c = 7 y α =
¸
10
j=8

10
j

2
−10
= 56/1024 = 5.47%, con n = 20,
obtenemos c = 13 y α = 5.77%, y con n = 50, c = 30 y α = 5.95%).
Ejercicio 4.3.1 Para n = 10, verificar que el valor de c para el que α es lo
m´as pr´ oximo posible a 5% es 7. Para ese valor de c, y p = 0.5, 0.6, 0.7, 0.8,
0.9 y 1, calcular π(p). Aprovechar los resultados para constatar la correcci´ on
de la Figura 4.4.
Introducci´ on a la probabilidad.
4.3. Una aplicaci´ on estad´ıstica. 59
n = 10
n = 20
n = 50
Figura 4.4: Probabilidad de decidir que la propaganda es efectiva, para n =
10, 20, 50 en funci´ on de p.
Como resumen de resultados de nuestro an´ alisis, podemos concluir que un procedi-
miento razonable para decidir si la campa˜ na ha sido exitosa consiste en (a) fijar un
nivel de probabilidad α que se considere relativamente peque˜ no, correspondiente a
la probabilidad de decidir que la campa˜ na ha tenido ´exito cuando en la realidad las
probabilidades de respuesta siguen inalteradas, iguales a (1/2, 1/2), (b) elegir una
probabilidad p
0
> 1/2 tal que, cuando p > p
0
, se considere importante reconocer
que la campa˜ na ha tenido ´exito, al menos con probabilidad π
0
, y, por ´ ultimo, en un
´abaco como el de la Figura 4.4, correspondiente al valor de α elegido, y completado
con un mayor n´ umero de curvas correspondientes a otros valores de n, para que
resulte efectivo, elegir el n adecuado para que π(p
0
) ≥ π
0
(es decir, el m´ınimo n -
para abaratar el costo de la decisi´ on - para el que se cumpla esa desigualdad). Se
consultan entonces n individuos independientemente, y se toma la decisi´ on de acuerdo
al procedimiento descrito arriba.
Por ejemplo, con α = 5%, p
0
= 70%, π
0
= 60%, la Figura 4.4 nos lleva a concluir que
basta tomar n ≥ 20. 2
4.3.3 Algunas generalidades sobre la prueba de hip´ ote-
sis.
El procedimiento que hemos llevado a cabo en nuestro ejemplo suele llamarse prueba
de la hip´ otesis p = 1/2 contra la alternativa p > 1/2. El t´ermino contra debe inter-
60
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
pretarse como sin´onimo de en comparaci´ on con, y es simplemente una abreviatura
frecuente en el l´exico de los estad´ısticos.
En efecto, es claro que hemos comparado ambas posibilidades o hip´ otesis. Tambi´en
es claro que ambas hip´ otesis no juegan un papel intercambiable en el problema, y
vale la pena enfatizar que tampoco lo han jugado en el esbozo de soluci´ on que hemos
propuesto. La hip´ otesis p = 1/2 estaba aceptada como v´alida antes de aplicar el pro-
cedimiento sobre cuyo resultado hay incertidumbre, en nuestro ejemplo: la campa˜ na
publicitaria. Si la campa˜ na fuese inoperante, p continuar´ıa valiendo 1/2. Nuestro
inter´es es demostrar, si es posible, que se cumple otra hip´ otesis diferente, en nuestro
caso, p > 1/2, con lo que mostrar´ıamos que la campa˜ na ha surtido efecto. A la
primera hip´ otesis suele llam´arsele hip´ otesis nula, y a la que querr´ıamos demostrar (en
tanto sea verdadera), hip´ otesis alternativa.
La soluci´ on que hemos propuesto, conduce a una decisi´ on binaria y asim´etrica: (1)
rechazar la hip´ otesis nula y adoptar como verdadera la hip´ otesis alternativa, o bien
(2) entender que no hay evidencia experimental que justifique ese rechazo, y por lo
tanto, no rechazar la hip´ otesis nula.
La asimetr´ıa de la decisi´on est´a en general justificada por razones pr´ acticas: al expe-
rimentador interesado en demostrar que cierto procedimiento, sobre cuyos resultados
hay a priori incertidumbre, opera de la manera deseada, no le interesa en cambio
aportar argumentos para demostrar que ese procedimiento es inoperante. Le interesa
demostrar que es operativo, si lo es, porque en ese caso estar´a justificado para dar
los pasos necesarios para ponerlo en pr´ actica. Y mientras no est´e convencido que es
operativo, le podr´ a interesar mejorarlo o cambiarlo, pero le resultar´ıa in´ util gastar
esfuerzos en demostrar que el procedimiento no es operativo.
De acuerdo al esquema que hemos utilizado para plantear el problema y para aportar
una soluci´ on, tenemos que comparar dos situaciones. La realidad desconocida, y
nuestra decisi´on basada en la informaci´ on experimental. En la realidad, la hip´ otesis
nula puede ser falsa o verdadera. En nuestra decisi´ on, podemos darla por falsa o no
hacerlo. Cada una de las dos posibilidades reales puede aparecer combinada con cada
una de las dos decisiones posibles.
Dos de estas combinaciones son deseables, rechazar la hip´otesis nula cuando es falsa,
y no rechazarla cuando es verdadera.
En cambio, las otras dos combinaciones son indeseables: Dar por falsa la hip´ otesis
nula cuando es verdadera, y esto es claramente un error, que suele llamarse error de
tipo I, y no rechazarla cuando es falsa, y a esta situaci´ on se la llama error de tipo II.
Puede argumentarse que cuando se produce un error de tipo II, no se est´ a cometiendo
t´ecnicamente un error, sino que se est´a desaprovechando la oportunidad de tener un
acierto.
Al procedimiento utilizado para adoptar la decisi´ on, se lo llama una prueba de la
hip´ otesis nula. Tambi´en se utiliza el t´ermino contraste como sin´onimo de prueba.
Cuando se contrasta o se pone a prueba una hip´ otesis nula, se lo hace con cierta
hip´ otesis alternativa como referencia, que es la hip´ otesis que se adoptar´ a cuando se
rechaza la hip´ otesis nula. Si llamamos H
0
a la hip´ otesis nula y H
1
a la hip´ otesis
alternativa, al procedimiento de decisi´ on se lo llama abreviadamente una prueba de
H
0
contra H
1
.
Introducci´ on a la probabilidad.
4.3. Una aplicaci´ on estad´ıstica. 61
Naturaleza

H
0
es cierta
H
0
es falsa Error de tipo II
Error de tipo I
No rechazamos H
0
Rechazamos H
0
Decisi´ on
Figura 4.5: Errores de tipos I y II en una prueba de hip´ otesis.
Como hemos visto, el procedimiento consiste en dividir el conjunto de los resultados
posibles de la experimentaci´on, en dos regiones. Una de ellas es la regi´ on de rechazo o
regi´ on cr´ıtica, que denotaremos S, y la otra es su complemento. Si la muestra resulta
en S, se adopta la decisi´ on de rechazar H
0
, y si resulta en S
c
no se rechaza H
0
.
Supondremos que la informaci´ on experimental es un punto en cierto conjunto E de
resultados posibles de los experimentos realizados, en nuestro caso, E = {0, 1, . . . , n},
y la informaci´ on experimental es H con valores en E.
Supondremos que E est´a dotado de una σ-´algebra (en este caso 2
E
) de modo que H es
una variable aleatoria, y que S es un subconjunto de E perteneciente a la σ-´algebra.
A menudo, H
0
especifica una ´ unica distribuci´ on de probabilidad. Cuando una hip´ o-
tesis, sea H
0
o H
1
, contiene una sola distribuci´ on de probabilidades, se dice que es
una hip´ otesis simple. En caso contrario, se dice que es una hip´ otesis compuesta.
Cuando H
0
es simple, una vez dada S queda determinada la probabilidad
α = P{(X
1
, . . . , X
n
) ∈ S : (X
i
) i.i.d. ∼ F}, F especificada por H
0
de cometer un error de tipo I. A esa probabilidad se la llama nivel de la prueba.
Cuando H
0
es compuesta, se llama nivel de la prueba al supremo
sup
F∈H0
P{(X
1
, . . . , X
n
) ∈ S : (X
i
) i.i.d. ∼ F}.
Para cada F compatible con H
1
,
π(F) = P{(X
1
, . . . , X
n
) ∈ S : (X
i
) i.i.d. ∼ F}
se llama potencia de la prueba asociada a F.
La Figura 4.4 describe las potencia de las pruebas asociadas a tres valores diferentes
de n. Cada distribuci´ on F compatible con H
1
est´a identificada por un valor del
par´ ametro p, y en vez de la notaci´ on π(Bin(n, p)) se ha optado por la notaci´ on m´as
simple π(p).
62
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
4.3.4 Estimaci´ on de p.
Estimaci´ on puntual cl´asica.
Volvamos ahora sobre la pregunta ¿cu´ anto vale p? que formulamos al comienzo, cuya
consideraci´on pospusimos para considerar inicialmente una pregunta aparentemente
m´as simple, por admitir s´ olo dos respuestas, a diferencia de ´esta, que puede ser
respondida con cualquier n´ umero en el intervalo [0, 1]. La informaci´ on experimental
que disponemos es la variable aleatoria H, cuya distribuci´ on es Bin(n, p). Es razonable
que una respuesta a la pregunta formulada dependa de H, y s´olo de H, ya que esta
es la ´ unica informaci´ on que poseemos. Por lo tanto, la manera de elegir un valor de
p en respuesta a la pregunta, es definir una funci´ on T : {0, . . . , n} → [0, 1] que para
cada H especifique un valor T(H) para p. Diremos en ese caso que T es un estimador
de p y que T(H) es la estimaci´ on de p correspondiente al valor experimental obtenido
H.
Nos limitamos ahora a indicar un par de criterios para elegir un estimador, para los
que puede encontrarse una interpretaci´ on heur´ıstica:
• De todos los valores posibles de p, elijamos el que hace m´as probable el resultado
H obtenido. En nuestro ejemplo, dado que la probabilidad del resultado H es

n
H

p
H
(1 − p)
n−H
, elegiremos entonces como estimador de p el valor ˆ p que
maximiza

n
H

p
H
(1−p)
n−H
para 0 ≤ p ≤ 1, a saber: ˆ p = H/n, como se deduce
sin dificultad. Este criterio fue introducido por R. A. Fisher y a ´el se asocia el
nombre de m´ axima verosimilitud.
• Cuando hemos realizado m observaciones independientes de una variable ale-
atoria, llamamos distribuci´ on emp´ırica a la distribuci´ on de probabilidades que
asocia iguales probabilidades (con valor
1
m
) a cada una de las m observaciones.
De todos los valores posibles de p, elijamos aqu´el ˜ p para el que la esperanza
de la distribuci´ on y la de la distribuci´ on emp´ırica coinciden. Si esto no fuese
suficiente para determinar el (los) par´ ametro(s), se busca la igualdad de las
variancias, luego de los momentos de tercer orden, y as´ı hasta que resulte su-
ficiente para determinar el o los par´ ametros. En nuestro caso tenemos una
´ unica observaci´ on H de Ber(n, p), de modo que la distribuci´ on emp´ırica est´a
concentrada en H, y basta igualar n˜ p = H para obtener ˜ p = H/n.
En ambos casos hemos obtenido el mismo resultado. Interesa saber qu´e propiedades
tiene nuestro estimador. Por ejemplo, cu´ al es su distribuci´ on de probabilidades,
y cu´ an concentrada est´a esa distribuci´ on alrededor del par´ ametro que pretende-
mos estimar. En pr´ oximos cap´ıtulos estudiaremos medidas de la concentraci´ on de
esa distribuci´ on respecto a p que muestran que el estimador obtenido tiene buenas
propiedades.
Se podr´ıa aducir que una vez obtenido H, la estimaci´on resultante est´a determinada, y
su error
H
n
−p ya no est´a sujeto a ninguna distribuci´ on de probabilidad. Sin embargo,
puesto que no conocemos p, esa distribuci´ on es lo (´ unico!) que nos permite valorar
Introducci´ on a la probabilidad.
4.3. Una aplicaci´ on estad´ıstica. 63
las propiedades del estimador, de la misma manera que el valor de venta o reventa
de un billete de loter´ıa depende de la probabilidad de que ese billete gane el premio,
no s´olo antes de realizado el sorteo, sino a´ un despu´es, si la operaci´on ha de realizarse
con total desconocimiento del resultado del sorteo.
Estimaci´ on bayesiana.
Existe tambi´en una posibilidad alternativa: en vez de elegir un valor de p como res-
puesta, podemos asumir que existe incertidumbre sobre el valor de p y describirla
mediante un modelo probabil´ıstico: nuestra respuesta ser´ıa una distribuci´ on de pro-
babilidades para p.
Esta distribuci´ on deber´ a depender de los resultados experimentales, en nuestro caso,
de H. Esta forma de proceder tiene un antecedente en el Ejemplo 2.6.1. En aqu´el
caso conoc´ıamos las probabilidades (a priori) de que un paciente tomado al azar en-
tre los que acuden a una consulta padeciera la enfermedad E
i
(i = 1, 2, 3), y nos
pregunt´ abamos por la probabilidad condicional (a posteriori) de que padeciera la en-
fermedad E
1
, dado que posee ciertos s´ıntomas vinculados a las tres enfermedades de
cierta manera conocida. En el caso presente, podemos dar una respuesta an´ aloga:
si conocemos una distribuci´ on de probabilidades para p que describa nuestra incer-
tidumbre a priori sobre el valor de ese par´ ametro, una vez que conozcamos el valor
de H, nuestra composici´on de lugar a posteriori sobre p pasar´ a a estar descrita por
la distribuci´ on condicional de p dada H.
Por ejemplo, supongamos que nuestra distribuci´ on a priori para p tiene densidad
f
p
(u) proporcional a u
2
(1 − u)
2
, que est´a concentrada alrededor de 1/2. Llamemos
c = (

1
0
u
2
(1 −u)
2
du)
−1
, de modo que f
p
(u) = cu
2
(1 −u)
2
.
La integral que nos permite calcular c es un caso particular de
B(α, β) =

1
0
u
α−1
(1 −u)
β−1
du =
(α −1)!(β −1)!
(α +β −1)!
.
Esta f´ ormula es inmediata para β = 1. Una inducci´ on en β a partir de B(α, β)
= B(α, β −1) −B(α + 1, β −1) permite completar la verificaci´ on.
En particular, c = B(3, 3) =
2!2!
5!
=
1
30
.
La distribuci´ on condicional de H dado p es Bin(n, p), de manera que la distribuci´ on
conjunta de p, H atribuye al suceso {a < p < b, H = h} (0 ≤ a ≤ b ≤ 1) la
probabilidad

b
a
cu
2
(1 − u)
2

n
h

u
h
(1 − u)
n−h
du. Eligiendo a = 0 y b = 1, obtenemos
P{H = h} = c

n
h

B(h + 3, n = h + 3). Podemos observar ahora que la distribuci´ on
condicional de p dado H = h tiene densidad f
p|H=h
(u) que satisface
P{a < p < b, H = h} = P{H = h}

b
a
f
p|H=h
(u)du.
Al igualar las dos expresiones obtenidas para la probabilidad de {a < p < b, H = h},
v´ alidas para toda pareja a, b, resulta la igualdad de los integrandos:
cu
2
(1 −u)
2

n
h

u
h
(1 −u)
n−h
= P{H = h}f
p|H=h
(u).
64
Enrique M. Caba˜ na.
Cap´ıtulo 4

Tres aplicaciones.
Como consecuencia, f
p|H=h
(u) es proporcional a u
h+2
(1 −u)
n−h+2
. La constante de
proporcionalidad c

n
h

(P{H = h})
−1
queda determinada para que la integral en (0, 1)
valga 1, y debe valer (B(h+3, n−h+3))
−1
, de manera que los c´alculos ya realizados
de c y de la probabilidad de {H = h} son innecesarios.
Como resultado de nuestro proceso de estimaci´on, en vez de describir nuestra incer-
tidumbre sobre p por medio de la distribuci´ on a priori con densidad f
p
, lo haremos por
medio de la distribuci´ on a posteriori f
p|H
(u) = u
H+2
(1−u)
n−H+2
/B(H+3, n−H+3).
El valor m´ as probable a posteriori del par´ ametro es entonces (H + 2)/(N + 4).
5.

Cadenas de Markov
5.1 Algunos ejemplos.
Los paseos al azar estudiados en cap´ıtulo §4 pueden replantearse como ejemplos
de cadenas de Markov, como resulta de la definici´ on que veremos m´ as adelante.
El Ejemplo 3 de la siguiente lista corresponde precisamente a un paseo al
azar con un par de barreras absorbentes. Vamos a considerar tambi´en otros
ejemplos, para luego introducir una definici´ on formal.
Ejemplo 1. Un jugador arroja un dado. Si el resultado es 1, gana. Si el
resultado es a = 1 realiza un nuevo lanzamiento independiente. Cuando el
resultado de este nuevo lanzamiento es 1, pierde. Cuando es a, gana, y cuando
no es 1 ni a, vuelve a realizar un lanzamiento independiente, con el cual se
procede de la misma manera, hasta que por primera vez el resultado sea 1 ´ o a.
A lo largo de este juego se pueden producir cuatro situaciones, o estados
del juego:
I: El jugador se dispone a arrojar el dado por primera vez.
G: El jugador acaba de realizar un lanzamiento exitoso y por lo tanto gana
el juego.
N: El jugador ha obtenido un resultado desfavorable y por lo tanto pierde.
R: El ´ ultimo lanzamiento no define el resultado del juego, y por lo tanto el
jugador se dispone a realizar un nuevo lanzamiento. En este caso ganar´ a
si obtiene a, perder´ a si obtiene 1 y volver´ a a la misma situaci´ on si obtiene
cualquier otra cara del dado.
El diagrama de la Figura 5.1 indica los estados posibles, y las flechas que los
vinculan indican las transiciones entre estados que pueden ocurrir a medida que
transcurre el juego, as´ı como sus respectivas probabilidades, con la suposici´ on
de que el dado es sim´etrico.
65
66
Enrique M. Caba˜ na.
Cap´ıtulo 5

Cadenas de Markov.
G
N
R I
1/6
1/6
1/6
4/6
5/6

E
T
c
Figura 5.1: Diagrama de estados y transiciones de la cadena del Ejemplo 1.
Ejemplo 2. Un laboratorio de computaci´ on tiene una sala con una red de N
computadoras personales. Se observa la sala a intervalos regulares de tiempo,
y se registra el n´ umero de computadoras ocupados.
Este sistema tiene N + 1 estados posibles: 0, 1, . . ., N computadoras
ocupadas en cada instante.
Ejemplo 3. Un jugador llega a una casa de juego con un capital C, que
suponemos un n´ umero entero de unidades monetarias, y apuesta en sucesivas
instancias una unidad. Si gana recibe dos unidades, y si pierde, ninguna (Su
ganancia neta es 1 o −1, seg´ un gane o pierda). Contin´ ua este procedimiento
hasta obtener una ganancia G, es decir, hasta retirarse con un capital C + G
(correspondiente, por ejemplo, a la ganancia m´ axima que la casa de juego est´ a
dispuesta a cubrir), o bien hasta perder todo su capital, luego de lo cual no
puede seguir arriesgando. Los estados del sistema que describe las sucesivas
instancias de esta situaci´ on son los posibles montos en poder del jugador al
t´ermino de cada apuesta, a saber, 0, 1, 2, . . ., C +G.
5.2 Cadenas finitas homog´eneas en el tiempo
El modelo que describimos a continuaci´ on puede utilizarse para estudiar las
situaciones de los ejemplos precedentes. Se tiene un conjunto o espacio de
estados finito E = {E
1
, E
2
, . . . , E
k
}. En E hay un estado inicial, posiblemente
determin´ıstico, o bien sujeto a un modelo aleatorio que asigna a cada estado
E
j
de E la probabilidad π
j
de ser el estado inicial. A este estado lo llamaremos
X
0
.
En un instante dado que llamaremos 1, el sistema pasa de X
0
a un nuevo
Introducci´ on a la probabilidad.
5.2. Cadenas finitas. 67
estado X
1
, no necesariamente distinto del anterior, que tambi´en es un elemento
del espacio de estados E. A este pasaje lo llamamos una transici´ on del sistema.
Luego, en sucesivos instantes prefijados que llamaremos 2, 3, . . ., n, . . ., el
sistema pasa de X
1
a X
2
, de X
2
a X
3
, . . ., de X
n−1
a X
n
, . . . .
Las sucesivas transiciones son aleatorias. Lo que caracteriza al modelo que
estamos considerando es la forma sencilla en que se describen las probabilidades
asociadas a las transiciones:
La probabilidad condicional de que el sistema pase en los instantes 1, 2,
. . ., n a los estados E
i
1
, E
i
2
, . . . , E
in
dado que parte de E
i
0
es
P{X
h
= E
i
h
, h = 1, 2, . . . , n|X
0
= E
i
0
} =
n
¸
h=1
P
i
h−1
,i
h
(5.1)
donde P
i,j
es una funci´ on exclusiva de E
i
y E
j
, que llamamos probabilidad
de transici´ on de E
i
a E
j
.
Definici´ on 5.2.1 Llamamos cadena de Markov con espacio de estados E =
{E
i
: i = 1, 2, . . . , k} y matriz de probabilidades de transici´ on
P = ((P
i,j
))
i,j=1,2,...,k
a cualquier sucesi´ on de variables aleatorias X
0
, X
1
, . . . , X
n
, . . . que cumpla
(5.1) para cualquier n y cualquier sucesi´ on de estados (E
i
h
)
h=0,1,2,...
.
Nota. Como consecuencia de (5.1), para cualesquiera´ındices i, j y cualquier
sucesi´on finita de estados (E
i
h
)
h=0,1,2,...,n−2
,
P{X
n
= E
j
|X
n−1
= E
i
, X
h
= E
i
h
, h = 0, 1, . . . , n −2} = P
i,j
.
En palabras, la probabilidad condicional de que la transici´ on n-´esima sea de
E
i
a E
j
, dado que la trayectoria inicial llega a E
i
en la n −1-´esima transici´ on,
es siempre la misma, P
i,j
, no importa cu´ al haya sido la trayectoria que condujo
al estado E
i
al cabo de las primeras n −1 transiciones.
Esto significa que el conocimiento de la posici´ on del sistema luego de la
n −1-´esima transici´ on permite saber la distribuci´ on (condicional) de probabi-
lidades de la posici´ on luego de la siguiente transici´ on, con independecia de la
historia del proceso, antes de llegar a E
i
en el instante n −1.
Notemos que la matriz P = (p
i,j
)
i,j=1,...,k
de las probabilidades de transici´ on
tiene la propiedad de que los elementos de cada una de sus filas suman 1,
dado que si en un instante la cadena se encuentra en cualquier estado E
i
, la
probabilidad p
i,1
+ p
i,2
+ . . . + p
i,k
de que luego de la pr´ oxima transici´ on est´e
68
Enrique M. Caba˜ na.
Cap´ıtulo 5

Cadenas de Markov.
en alguno de los estados del sistema (E
1
, E
2
, . . ., E
k
) es necesariamente igual
a 1.
El vector π = (π
1
, π
2
, . . . , π
k
) de probabilidades iniciales y la matriz P de
las probabilidades de transici´ on definen el comportamiento probabil´ıstico del
sistema. Veremos c´ omo, a partir de ellos, pueden calcularse por ejemplo las
probabilidades π
(n)
j
= P{X
n
= E
j
}.
Para uniformizar la notaci´ on, al vector π de probabilidades iniciales lo
denotaremos π
(0)
= (π
(0)
1
, π
(0)
2
, . . . .π
(0)
k
)
Para encontrar π
(n)
conviene proceder de manera inductiva: Supongamos
que conocemos π
(n−1)
= (π
(n−1)
1
, π
(n−1)
2
, . . . , π
(n−1)
k
).
Se deduce para cada j que π
(n)
j
= P{X
n
= E
j
} = P
¸
k
i=1
{X
n−1
= E
i
, X
n
=
E
j
} =
¸
k
i=1
P{X
n−1
= E
i
, X
n
= E
j
} =
¸
k
i=1
P{X
n−1
= E
i
}P{X
n
= E
j
|
X
n−1
= E
i
} =
¸
k
i=1
π
(n−1)
i
p
i,j
.
De aqu´ı resulta la igualdad π
(n)
= π
(n−1)
P, que vale para n ≥ 1 y permite
deducir por inducci´ on completa
π
(n)
= π
(0)
P
n
. (5.2)
Esta f´ ormula muestra que si sabemos c´ omo se comportan las sucesivas po-
tencias de P, podemos deducir c´ omo evoluciona π
(n)
. Por ejemplo, si existiera
el l´ımite lim
n→∞
P
n
= P

, entonces existe el l´ımite de π
(n)
y vale π
(0)
P

.
En la secci´on que sigue vamos a ver que este es el caso del Ejemplo 1.
5.3 Cadenas finitas con estados absorbentes.
Comencemos analizando el Ejemplo 1: Los estados son I = E
1
, R = E
2
,
G = E
3
, N = E
4
, el vector de probabilidades iniciales es π
(0)
= (1, 0, 0, 0) y la
matriz de probabilidades de transici´ on es:
P =

0 5/6 1/6 0
0 4/6 1/6 1/6
0 0 1 0
0 0 0 1
¸
¸
¸
¸
¸
Se observar´ a que para inscribir el juego dentro del modelo general de una
Cadena de Markov homog´enea, se ha a˜ nadido artificialmente a la descripci´ on
original del problema que cuando el jugador llega al estado G que corresponde
a ganar el juego, contin´ uan realizandose las transiciones, pero son triviales,
con estado de llegada G despu´es de cada una de ellas. De la misma manera,
Introducci´ on a la probabilidad.
5.3. Cadenas con estados absorbentes. 69
una vez que el sistema llega a N, queda absorbido all´ı, pues las transiciones
siguientes son obligatoriamente de N a N.
Las probabilidades π
(1)
se obtienen de manera inmediata: dado que con
certeza X
0
= I = E
1
, se cumple π
(1)
= (p
1,1
, p
1,2
, p
1,3
, p
1,4
) = (0, 5/6, 1/6, 0).
Para calcular cada componente de π
(2)
podemos calcular probabilidades a
lo largo de cada uno de los caminos posibles que llevan de I a cada uno de los
otros estados, en exactamente dos transiciones.
El diagrama ayuda a enumerarlos. Hay un solo camino que lleva a R en
dos pasos: I − R − R, y su probabilidad es (5/6)(4/6). Tambi´en hay un solo
camino que lleva a N, con probabilidad (5/6)(1/6), y hay dos que llevan a G:
I −R−G, con igual probabilidad que el anterior, e I −G−G con probabilidad
(1/6). Finalmente, no hay ning´ un camino de longitud 2 (ni de ninguna otra
mayor que cero) que lleve a I. En resumen, π
(2)
= (0, (5/6)(4/6), (5/6)(1/6) +
(1/6), (5/6)(1/6)) = (0, 20/36, 11/36, 5/36).
El mismo resultado se encuentra aplicando 5.2, y tambi´en se obtienen por la
misma f´ ormula los vectores de probabilidades correspondientes a los instantes
que siguen.
5.3.1 Partici´ on en bloques de la matriz de probabilida-
des de transici´ on
Vamos a introducir una notaci´ on que nos simplificar´ a la verificaci´ on de que las
potencias de P tienen l´ımite. Observemos que la matriz P puede escribirse
en la forma P =
¸
Q R
0 I
¸
, donde Q =
¸
0 5/6
0 4/6
¸
, R =
¸
1/6 0
1/6 1/6
¸
, I =
¸
1 0
0 1
¸
, 0 =
¸
0 0
0 0
¸
.
De ello resulta que las sucesivas potencias son:
P
2
=
¸
Q
2
(I +Q)R
0 I
¸
, P
3
=
¸
Q
3
(I +Q+Q
2
)R
0 I
¸
, . . . ,
P
n
=
¸
Q
n
(I +Q+Q
2
+. . . +Q
n−1
)R
0 I
¸
,
y el l´ımite se calcula f´ acilmente cuando Q
n
→ 0, y existe (I −Q)
−1
, porque en
ese caso
(I −Q)(I +Q+Q
2
+. . . +Q
n−1
) = I −Q
n
→ I,
y entonces
(I +Q+Q
2
+. . . +Q
n−1
) → (I −Q)
−1
.
70
Enrique M. Caba˜ na.
Cap´ıtulo 5

Cadenas de Markov.
En nuestro caso, la verificaci´ on de que I − Q es no singular es inmediata.
En cuanto al l´ımite, basta verificar que cualquiera sea el vector z, Q
n
z → 0.
Si | z | denota el m´ aximo de los valores absolutos de las componentes de z,
entonces | Qz |≤ (5/6) | z |, lo que implica | Q
n
z |≤ (5/6)
n
| z |→ 0.
Se concluye que existe el l´ımite, y vale P

=
¸
0 (I −Q)
−1
R
0 I
¸
.
Para calcular esta matriz observemos que (I − Q)
−1
R es la matriz M
soluci´ on de la ecuaci´ on R = (I −Q)M, que en nuestro caso se reduce a
¸
1 −5/6
0 2/6
¸
M =
¸
1/6 0
1/6 1/6
¸
,
cuya soluci´ on es
¸
7/12 5/12
1/2 1/2
¸
.
El an´ alisis precedente nos muestra condiciones bajo las que existe el l´ımite
de las potencias de P, y nos dice cu´ anto vale. Estos resultados est´ an resumidos
en el enunciado siguiente.
Teorema 5.3.1 Cuando la matriz de probabilidades de transici´ on de una ca-
dena de Markov homog´enea finita es de la forma P =
¸
Q R
0 I
¸
, donde Q es
una matriz cuadrada con (I−Q) no singular y con la propiedad lim
n→∞
Q
n
= 0,
entonces
lim
n→∞
P
n
=
¸
0 (I −Q)
−1
R
0 I
¸
.
Ejercicios.
Ejercicio 5.3.1 Proponer modelos para describir las situaciones descritas en los
ejemplos 2 y 3 de 5. En el caso del Ejemplo 2, suponer que cada usuario utiliza
el sistema un n´ umero entero de unidades de tiempo. Al cabo de cada unidad de
tiempo, deja el equipo con probabilidad p y permanece por una unidad m´ as con
probabilidad 1 − p. Al principio de cada unidad de tiempo puede llegar un nuevo
usuario, con probabilidad q, o ninguno, con probabilidad 1 −q. Cuando est´an todas
las computadoras ocupadas, si llega un nuevo usuario, ´este se retira sin utilizar el
sistema. Cada individuo, procede con independencia del resto.
Ejercicio 5.3.2 ¿Cu´ al es la probabilidad de ganar en el siguiente juego de dados?
El jugador arroja dos dados simult´ aneamente. Si obtiene suma 7 u 11, gana, en caso
contrario, llamemos a a la suma. Si no gana luego de la primera jugada, vuelve a
arrojar los dos dados, y gana cuando vuelve a sacar a, pierde cuando saca 7 u 11, y
repite la operaci´ on cuando el resultado no es 7, 11, ni a.
Introducci´ on a la probabilidad.
5.4. Teorema de convergencia de probabilidades. 71
Ejercicio 5.3.3 En la situaci´ on del Ejemplo 2, con N = 3, p = .5 y q = .5,
identificar el l´ımite π

, si existe, pasando al l´ımite en la igualdad π
(n)
= π
(n−1)
P.
Ejercicio 5.3.4 Verificar que la existencia del l´ımite en el Ejemplo 2, est´a garan-
tizada por el Teorema 5.4.1, que se enuncia m´ as abajo.
Ejercicio 5.3.5 Un conjunto de M individuos (M > 0), que llamaremos 1, 2, . . .,
M, est´a distribuido en dos compartimientos, que llamaremos A, B. En el instante
0 hay X
0
individuos en A (y n −X
0
en B). Inmediatamente antes de cada instante
n (= 1, 2, . . .) se elige uno de los individuos al azar, con independencia de lo ocu-
rrido anteriormente, y este individuo cambia de compartimiento, de manera que el
n´ umero X
n
de individuos en A en el instante n es X
n−1
+ 1 si el individuo elegido
inmediatamente antes de n estaba en B, y X
n−1
−1 si estaba en A.
(a) Describir el fen´ omeno mediante una cadena de Markov.
(b) Si π
(n)
es el vector cuyas componentes son las probabilidades P{X
n
= k}
k = 0, 1, . . . , M, mostrar que no existe lim
n→∞
π
(n)
.
(c) Si P es la matriz de probabilidades de transici´ on de la cadena obtenida en
(a), observar que P
2
es la matriz de probabilidades de transici´ on de otra cadena
cuyos estados son s´olo una parte de los de la cadena anterior. Mostrar que a esta
nueva cadena se aplica el Teorema 5.4.1, y deducir cu´ anto vale el l´ımite del vector
de probabilidades.
Nota: Al modelo del ejercicio precedente se la llama Dog-Flea Model, porque suele
presentarse reemplazando los individuos por pulgas y los compartimientos por pe-
rros. Tambi´en puede pensarse que los compartimientos son dos recipientes cerrados
intercomunicados por un peque˜ no orificio circular, dentro de los cuales se mueven
esferas el´asticas que rebotan en las paredes, con di´ ametro ligeramente menor que el
del orificio. En los instantes 1, 2, 3 . . ., una de las esferas atraviesa el orificio.
Este modelo fue propuesto por Ehrenfest, dentro del contexto de la Teor´ıa Cin´etica
de los Gases.
5.4 Teorema de convergencia de probabilida-
des en una cadena de Markov finita.
Teorema 5.4.1 Cuando existe una potencia de la matriz P de probabilidades
de transici´ on de una cadena de Markov finita que tiene una columna de ele-
mentos estrictamente positivos, existe el l´ımite de P
n
y es de la forma 1π

,
donde 1 designa un vector cuyas componentes son todas iguales a 1.
El vector fila π

es soluci´ on de la ecuaci´ on π

P = π

.
72
Enrique M. Caba˜ na.
Cap´ıtulo 5

Cadenas de Markov.
M´as abajo enunciaremos un teorema de convergencia de probabilidades en
una Cadena de Markov, del que el Teorema 5.4.1 es un caso particular, que se
refiere a una cadena cuyo conjunto de estados puede ser infinito. Sin embargo,
deberemos posponer su demostraci´ on hasta el Cap´ıtulo 10.
Por el momento, vamos a adelantar una demostraci´ on que se basa fuerte-
mente en la finitud del n´ umero de estados.
Demostraci´ on del Teorema. El conjunto de los valores posibles del vector
π
(0)
es el simplejo S = {π : π ≥ 0, π1 = 1} (donde la desigualdad se interpreta
componente a componente), formado por las combinaciones convexas de los
vectores fila e
tr
1
, . . ., e
tr
k
de la base can´ onica.
Su imagen SP = {πP : π ∈ S} est´ a contenida en S. La inclusi´on es
inmediata porque P tiene componentes no negativas y P1 = 1. De SP ⊂
S deducimos aplicando nuevamente P que SP
2
⊂ SP, y por extensi´ on de
este razonamiento encontramos que la sucesi´ on SP
n
de subconjuntos de S es
decreciente por inclusi´ on, y tiene por lo tanto un l´ımite A ⊂ S que es no vac´ıo
porque las sucesivas im´ agenes por cada nueva aplicaci´ on de P son conjuntos
cerrados. Notemos por otra parte que estos conjuntos tambi´en son convexos,
de modo que tambi´en lo es A. El conjunto A es invariante bajo P, ya que A
= lim
n→∞
SP
n
= (lim
n→∞
SP
n−1
)P = AP.
La hip´ otesis del Teorema expresa que para alg´ un n
0
y alg´ un j
0
, todos los
elementos de la columna j
0
de P
n
0
son positivos. De all´ı resulta que SP
n
0
est´ a estrictamente contenido en S. M´as a´ un, s´ olo puede tener en com´ un con
el borde de S el punto e
j
0
. Si B es un conjunto de la variedad lineal (k − 1-
dimensional, se trata de un hiperplano) generada por S, el ´area (o volumen
k −1-dimensional) de BP es igual al ´ area de B multiplicada por | det P| (ver
Ejercicio 5.4.1) y la inclusi´ on estricta de SP
n
0
en S implica | det P| < 1, de
manera que el ´ area de A es necesariamente cero. Por tratarse de un convexo,
tiene interior no vac´ıo relativo al hiperplano generado por S, y necesariamente
genera una variedad de dimensi´ on menor que k −1.
Para terminar la demostraci´ on del Teorema basta verificar que A contiene
un ´ unico punto, que es el l´ımite de las probabilidades π
(n)
cuando n tiende a
∞, cualquiera sea π
(0)
.
Si A no fuera un punto, llamemos V a la variedad que genera, contenida
estrictamente en el hiperplano que genera S. La intersecci´on de V con S es
necesariamente llevada al cabo de n
0
aplicaciones de P en un subconjunto
estricto de V ∩ S, y una repetici´ on del argumento originalmente aplicado a
las sucesivas im´ agenes de S para concluir que A tiene ´ area 0, lleva ahora a
concluir que el l´ımite de las sucesivas im´ agenes de V ∩S tiene volumen dimV -
dimensional nulo, y esto es una contradicci´ on porque lim(V ∩ S)P
n
⊃ A, a
Introducci´ on a la probabilidad.
5.4. Teorema de convergencia de probabilidades. 73
menos que A se reduzca a un punto. 2
Ejercicio 5.4.1 (a) Mostrar que el volumen del paralelep´ıpedo de R
k
de lados
u
1
, u
2
, . . . , u
k
es | det U|, donde U es la matriz de columnas u
1
, u
2
, . . . , u
k
.
Se sugiere fraccionar la demostraci´ on en dos pasos:
Paso 1. u
1
, . . . , u
k
ortogonales. En ese caso, el volumen es u
1
.u
2
. . . . .u
k
.
Por la ortogonalidad, U
tr
U= diag(u
1

2
, u
2

2
, . . . , u
k

2
) y entonces (det U)
2
=
u
1

2
· u
2

2
· . . . · u
k

2
.
Paso 2. En el caso general, ni el determinante de U ni el volumen del para-
lelep´ıpedo cambian cuando el conjunto de vectores se ortogonaliza por el siguiente
procedimiento (de Gram-Schmidt): Se deja u
1
incambiado. Se reemplaza u
2
por ese
mismo vector m´as un m´ ultiplo de u
1
para que el resultado sea ortogonal a u
1
. Se
reemplaza u
3
por u
3
m´as una combinaci´ on lineal de u
1
y u
2
de modo que el resultado
sea ortogonal a u
1
y a u
2
,etc.
(b) Deducir que, si P es una matriz de k ×k, entonces el paralelep´ıpedo de lados
Pu
1
, Pu
2
, . . ., Pu
k
tiene volumen | det U|.| det P|, y extender el resultado a una
figura medible cualquiera: Si C tiene volumen V, entonces PC = {Pu : u ∈ C}
tiene volumen V| det P|.
(c) Si H es el hiperplano determinado por e
1
, e
2
, . . . , e
k
y PH = H entonces para
cada regi´ on medible A en H, el ´ area o volumen k −1-dimensional de PA es | det P|
por el ´ area de A.
Se sugiere observar que si, para cualquier B ∈ H, definimos C(B) = {λx : x ∈
B, 0 ≤ λ ≤ 1}, entonces C(PA) = PC(A) y vol(C(B)) = dist(O, H)´ area(C(B)),
donde dist(O, H) (= 1/

k) es la distancia del origen al hiperplano H.
Ejemplo 5.4.1 Consideremos el siguiente paseo al azar con barreras reflec-
toras:
Una part´ıcula parte del nivel (estado) X
0
= 0, y en cada instante 1, 2, . . . se
desplaza al nivel una unidad superior o una unidad inferior, con probabilidades
respectivas p y q (p + q = 1), a menos que haya alcanzado los niveles −a o b.
En ese caso, si est´a en −a pasa a −a + 1 con probabilidad 1, y si est´ a en b,
pasa a b−1 con probabilidad 1. Los n´ umeros a y b son enteros positivos dados.
Se propone calcular el vector de probabilidades l´ımite, si existe.
La primera observaci´ on que podemos hacer es que X
0
es par, X
1
es impar, y, en
general, X
n
tiene la paridad de n y como consecuencia las probabilidades no pueden
tener l´ımite, ya que, para cada n de distinta paridad que i, π
(n)
i
es cero. Si existiera
el l´ımite lim
n→∞
π
(n)
i
deber´ıa ser cero, pero esto no es posible, porque hay un n´ umero
finito de estados y sus probabilidades para cada n suman 1.
Esta observaci´ on responde por la negativa a la cuesti´ on planteada. Sin embargo,
parece natural plantearse peque˜ nas variantes, por ejemplo, si es posible modificar
ligeramente la cadena de manera que las probabilidades tengan l´ımite, o si es posible
74
Enrique M. Caba˜ na.
Cap´ıtulo 5

Cadenas de Markov.
pasar al l´ımite en la cadena que se obtiene observando exclusivamente los valores de
X
n
para n par, o para n impar, por separado.
En el primer caso, supongamos que la matriz de probabilidades de transici´ on, en vez
de
P =

¸
¸
¸
¸
¸
¸
¸
¸
¸
0 1 0 0 . . . 0 0 0
q 0 p 0 . . . 0 0 0
0 q 0 p . . . 0 0 0
0 0 q 0 . . . 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 . . . q 0 p
0 0 0 0 . . . 0 1 0
¸

es
P =

¸
¸
¸
¸
¸
¸
¸
q +r p 0 0 . . . 0 0 0
q r p 0 . . . 0 0 0
0 q r p . . . 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 . . . q r p
0 0 0 0 . . . 0 q r +p
¸

, (5.3)
con q +r +p = 1.
Al menos cuando r es peque˜ no, las dos matrices son muy parecidas, pero basta
que r sea positivo para que existan caminos de longitud max{a, b}, por ejemplo,
de probabilidad positiva, que unen cualquier estado con el 0.
El Teorema 5.4.1 es aplicable, como consecuencia, y las probabilidades l´ımite π

= (π

−a
, π

−a+1
, . . . , π

b−1
, π

b
) son soluciones del sistema de ecuaciones:
π
−a
(q +r) +π
−a+1
q = π
−a
,
π
i−1
p +π
i
r +π
i+1
q = π
i
(i = −a + 1, −a + 2, . . . , b −1),
π
b−1
p +π
b
(r +p) = π
b
.
La ecuaciones extremas nos dan π
−a+1
= (p/q)π
−a
, π
b−1
= (q/p)π
b
, mientras que
las ecuaciones centrales se pueden escribir en la forma pπ
i−1
−(p +q)π
i
+qπ
i+1
= 0,
con soluciones π
i
= C
1
m
i
1
+ C
2
m
i
2
(i = −a . . . , b), donde m
1
y m
2
son las ra´ıces de
p − (p + q)m + qm
2
= 0, es decir, m
1
= p/q, m
2
= 1 (ver Ejercicio 5.4.2). Estas son
todas las soluciones, cuando p = q.
Reemplazando estas expresiones en las dos primeras ecuaciones, obtenemos:
C
1
(p/q)
−a+1
+C
2
= C
1
(p/q)
−a+1
+ (p/q)C
2
,
C
1
(p/q)
b−1
+C
2
= C
1
(p/q)
b−1
+ (p/q)
−1
C
2
.
Cada una de estas dos expresiones implica C
2
= 0 y ambas dejan C
1
indeterminada.
Concluimos entonces que π

i
= C
1
(p/q)
i
, y el valor de C
1
se obtiene imponiendo que
la suma de las probabilidades C
1
¸
b
i=−a
(p/q)
i
valga 1.
Es interesante observar que las probabilidades l´ımite no dependen de r.
Introducci´ on a la probabilidad.
5 N6.- Markov. 75
Consideremos ahora las observaciones de la cadena para tiempos pares: X
0
, X
2
, X
4
,
. . .. Las probabilidades de transici´ on para esta cadena son
P
2
=

¸
¸
¸
¸
¸
¸
¸
¸
¸
q 0 p 0 0 . . . 0 0 0
0 q +pq 0 p
2
0 . . . 0 0 0
q
2
0 2pq 0 p
2
. . . 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 0 . . . 2pq 0 p
2
0 0 0 0 0 . . . 0 pq +p 0
0 0 0 0 0 . . . q 0 p
¸

.
Los estados de ´ındice par, por una parte, y los de ´ındice impar por otra, constituyen
dos clases de equivalencia que no se comunican entre si, de modo que pueden estudiar-
se separadamente la restricci´ on de la cadena a los estados pares, correspondiente a
vectores de probabilidades iniciales que atribuyen probabilidad cero a todos los esta-
dos impares, y la restricci´on complementaria, que corresponde a poner probabilidades
iniciales nulas a los estados pares.
Cada una de las matrices de las restricciones es muy similar a (5.3), y las probabili-
dades l´ımite se obtienen de la misma manera.
Dejamos como ejercicio completar los detalles de estos casos, y estudiar el caso p = q,
excluido en el tratamiento que precede. 2
Ejercicio 5.4.2 (a) Mostrar que el conjunto de las soluciones del sistema de ecua-
ciones
απ
i+1
+βπ
i
+γπ
i−1
= 0; (i = −a, −a + 1, . . . , b, α, γ = 0)
es un subespacio vectorial de R
b−a+1
, es decir que, si llamamos π

= (π

−a
, . . . , π

b
),π
′′
= (π
′′
−a
, . . . , π
′′
b
) a dos soluciones, entonces Aπ

+ Bπ
′′
es tambi´en soluci´ on para
cualesquiera A y B.
(b) Observar, despejando sucesivamente π
−a+2
, π
−a+3
, . . . que existe una ´ unica
soluci´ on ˆ π que cumple ˆ π
−a
= 1, ˆ π
−a+1
= 0, y que existe una ´ unica soluci´ on ¯ π que
cumple ¯ π
−a
= 0, ¯ π
−a+1
= 1.
(c) Deducir que el conjunto de todas las soluciones es {Aˆ π + B¯ π : A, B ∈ R},
de manera que el subespacio de las soluciones tiene dimensi´ on 2.
(d) Buscar soluciones de la forma π
i
= m
i
. Deducir que cuando la ecuaci´ on
αm
2
+ βm + γ = 0 tiene ra´ıces distintas m
1
, m
2
, las soluciones son de la forma
Am
i
1
+Bm
i
2
.
(e) Verificar que cuando la ecuaci´ on αm
2
+βm +γ = 0 tiene una ra´ız doble m,
π

i
= m
i
, π
′′
i
= im
i
y sus combinaciones lineales son las soluciones del sistema.
76
Enrique M. Caba˜ na.
Cap´ıtulo 5

Cadenas de Markov.
N6.- Markov, Andrei A. (1856-1922).
Andrei Markov naci´o en Ryazan (Rusia), fue alumno de
Chebyshev, se gradu´o en la Universidad de San Petersburgo,
y fue profesor de esa misma Universidad.
Sus primeros trabajos matem´aticos se refieren a la teor´ıa de
n´ umeros y al an´alisis. Entre otros temas, contribuy´o al estu-
dio de las fracciones continuas, las series y las integrales. Su
aporte m´as importante a la probabilidad se refiere al estudio
de procesos estoc´asticos, particularmente el tipo de dependen-
cia de sucesiones de variables aleatorias que lleva su nombre
(Cadenas de Markov).
6. Valor esperado de una
variable aleatoria.
6.1 Introducci´ on.
El juego de azar que utilizamos como ejemplo para motivar la definici´ on de probabi-
lidad, nos servir´ a tambi´en para introducir la definici´ on del valor esperado o esperanza
matem´ atica de una variable aleatoria. En ese ejemplo el jugador decide qu´e cantidad
cierta π(A) estima equivalente a la ganancia aleatoria 1
A
; supongamos ahora que la
ganancia aleatoria es una variable X, no necesariamente tan sencilla como la funci´ on
indicatriz del suceso A. En ese caso, la composici´on de lugar an´ aloga de nuestro
jugador, podr´ a llevarlo a estimar que una determinada cantidad cierta (es decir, no
aleatoria) e(X) es intercambiable con la ganancia aleatoria X.
Esta aplicaci´ on e del conjunto de las variables aleatorias en los reales, debe cumplir
algunas condiciones de coherencia con la interpretaci´ on que pretendemos darle.
En primer lugar, es lo mismo participar simult´ aneamente en el juego de ganancia X
y en el juego de ganancia Y , que participar en el juego de ganancia X + Y . Por
lo tanto, debe cumplirse e(X + Y ) = e(X) +e(Y ). Esta observaci´ on se extiende a
cualquier n´ umero de sumandos, por inducci´ on.
Veamos, antes de continuar, un ejemplo que se˜ nala una dificultad que deber´ a tenerse
en cuenta.
Ejemplo 6.1.1 Se arroja una moneda equilibrada, sucesiva e independientemente,
hasta que sale “cara” por primera vez. (La independencia significa que, con la no-
taci´on Y
i
= 1 si sale “cara” la i-´esima vez, Y
i
= 0 en caso contrario, entonces los
sucesos {Y
i
= u
i
} i = 1, 2, . . . son independientes, cualesquiera sean los valores (1 o
0) de u
1
, u
2
, . . ..)
Llamemos H al orden del primer intento en que sale “cara” (H ∈ {1, 2, . . .}, H = h
si la primera cara ocurre en el h-´esimo intento). Definimos la variable X = x
H
, y
nos preguntamos qu´e cantidad cierta es intercambiable por una “ganancia” incierta
X.
Comparemos este juego con el que tiene por ganancia X
n
= x
H
1
{H≤n}
. Intervenir
en este ´ ultimo equivale a hacerlo en n juegos con ganancias respectivas x
h
si H = h,
77
78
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
para h = 1, 2, . . . , n. Para cada uno de ellos la apuesta equitativa es x
h
P{H = h}
= (x/2)
h
, de modo que la apuesta equitativa para ganar X
n
ser´ a la suma: e(X
n
)
=
¸
n
h=1
(x/2)
h
.
Este antecedente hace que resulte natural asociar al juego de duraci´ on indefinida con
ganancia X la apuesta equitativa e(X) =
¸

h=1
(x/2)
h
. Esta serie suma
x/2
1−(x/2)
cuando |x| < 2, pero no converge cuando |x| ≥ 2. Si x > 2, podemos convenir en que
e(X) es +∞. Cuando x < −2, no hay ning´ un valor admisible para e(X).
El resultado del ejemplo anterior, nos lleva a tener en cuenta que puede no haber
soluci´ on al problema de encontrar una cantidad cierta, intercambiable con X. En
algunos casos es posible que esta dificultad se resuelva agregando la convenci´ on de
que e(X) puede ser +∞o −∞, y el ejemplo sugiere que esto ocurrir´ a al menos cuando
X ≥ 0 o X ≤ 0, respectivamente. Pero en general es posible que no exista ninguna
cantidad e(X) adecuada, ni siquiera en R∪ {−∞} ∪ {+∞}.
Convendremos entonces desde ya en limitarnos en lo sucesivo a variables aleatorias no
negativas, para evitar una parte de la dificultad, y a extender los resultados a variables
cualesquiera mediante e(X) = e(X
+
) − e(X

), con X
+
= X ∨ 0, X

= X
+
− X,
f´ ormula que resulta de e(X + Y ) = e(X) + e(Y ) con X

en el lugar de Y , siempre
que las cantidades que intervienen sean finitas.
Con X ≥ 0, debe cumplirse e(X) ≥ 0, para que el juego sea equitativo. Esto implica,
junto con la observaci´ on anterior, que cuando X ≤ Y , debe ocurrir e(X) ≤ e(Y ).
Argumentos parecidos a los que se utilizan para demostrar el Lema 3.6.1, que no vamos
a detallar en esta oportunidad, muestran que para todo racional r debe cumplirse
e(rX) = re(X), como consecuencia de que la aplicaci´on de e conmuta con las sumas.
Nuevamente, como en la mencionada demostraci´on, la monoton´ıa permite concluir
que la f´ ormula se extiende para todo r real. Esto, junto con la primera de las
propiedades establecidas, implica que e debe ser lineal. Podemos observar por a˜ na-
didura que cuando X se reduce a la funci´ on indicatriz de A, entonces e(X) se reduce
a π(A). En particular, si X es constante, e(X) debe coincidir con esa constante.
6.2 Una definici´ on descriptiva de la esperanza.
Los elementos considerados en §6.1 sugieren la siguiente definici´ on de la espe-
ranza.
Definici´ on 6.2.1 (i) Llamamos esperanza o valor esperado a la aplicaci´ on
E definida en el conjunto de las variables aleatorias no negativas, con valores
en
¯
R
+
= R
+
∪ {+∞} que satisface:
(e
1
): E(1
A
) = P(A), y
Introducci´ on a la probabilidad.
6.2. Definici´ on de la esperanza. 79
(e
2
): Si λ, X ≥ 0, entonces EλX = λEX. Si X
n
≥ 0, n = 1, 2, . . ., entonces
E
¸

n=1
X
n
=
¸

n=1
EX
n
. En particular, si λ, µ, X, Y ≥ 0, entonces
E(λX + µY ) = λEX + µEY .
(ii) La aplicaci´on anteriormente definida se extiende a la familia de las
variables aleatorias que satisfacen E(|X|) < ∞, mediante
E(X) = E(X
+
) −E(X

).
Nota 1: Para el enunciado anterior y en lo que sigue, convenimos en
que, con a ∈ R, valen las f´ ormulas a + (+∞) = +∞, (+∞) + (+∞) =
(+∞), a.(+∞) = +∞, si a > 0 y −∞ si a < 0. En cambio no atribuimos
ning´ un significado a las expresiones (+∞) −(+∞), 0.(+∞).
Nota 2: De |X| = X
+
+X

, resulta que E(|X|) < ∞implica E(X
+
) < ∞,
E(X

) < ∞, de modo que la diferencia E(X
+
) −E(X

) que aparece al final
de la definici´ on precedente, est´ a bien definida.
Nota 3: El mismo tipo de razones t´ecnicas que conducen a definir las
probabilidades con la propiedad de aditividad, motivada por consideraciones
heur´ısticas, reforzada con la σ-aditividad, lleva en este caso a reforzar la lineal-
idad mediante la formulaci´ on de (e
2
), en la que la aditividad de la esperanza
tambi´en se exige para sumas de sucesiones de variables aleatorias no negativas,
y no solo para sumas finitas.
Nota 4: No es obvio que exista alguna aplicaci´ on que cumpla las condi-
ciones de la Definici´ on 6.2.1, pero si existe, tiene que estar dada de la manera
que indica la definici´ on constructiva (Definici´ on 6.3.2) que se indica m´ as abajo.
Para garantizar la coherencia de las dos definiciones, resultar´ a necesario de-
mostrar el teorema siguiente.
Teorema 6.2.1 Existe una ´ unica aplicaci´ on que cumple las condiciones de la
Definici´on 6.2.1.
La demostraci´ on est´ a contenida en lo que sigue: la unicidad es consecuen-
cia de la construcci´ on que se describe en la Definici´ on 6.3.2 y la existencia
resulta de establecer que la esperanza definida a partir de la Definici´ on 6.3.2
cumple con las propiedades que establece la Definici´ on 6.2.1. Esto ´ ultimo es
el contenido del Teorema 6.3.1.
De la Definici´ on 6.2.1 resultan estas dos importantes consecuencias:
Teorema 6.2.2 (Convergencia Mon´ otona) Si (X
n
) es una sucesi´ on de va-
riables aleatorias, que cumplen 0 ≤ X
1
≤ X
2
≤ X
3
≤ . . . ≤ X
n
≤ . . . y
lim
n→∞
X
n
= X, entonces lim
n→∞
E(X
n
) = E(X).
80
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Demostraci´ on: Es una consecuencia inmediata de la segunda parte de la
propiedad (e
2
) de la definici´ on, aplicada a las diferencias X
n
− X
n−1
(n = 1,
2, . . ., X
0
= 0). 2
Nota: Rec´ıprocamente, este Teorema de Convergencia Mon´ otona, aplicado
a la sucesi´on creciente de reducidas de la serie
¸

n=1
X
n
cuyos sumandos son
variables aleatorias no negativas, implica para este caso la interversi´ on de la
esperanza con la suma, es decir, E
¸

n=1
X
n
=
¸

n=1
EX
n
.
Teorema 6.2.3 (Linealidad) La linealidad E(λX+µY ) = λEX+µEY que la
Definici´on 6.2.1 establece en (i-e
2
) para λ, µ, X, Y no negativos, vale tambi´en
cualquiera sea el signo de λ, µ, X e Y , cuando E(|X|) < ∞, E(|Y |) < ∞.
Demostraci´ on: Basta verificar por separado (a): EλX = λEX y (b):
E(X + Y ) = EX +EY .
Para (a), podemos suponer λ no negativo, porque en caso contrario, reem-
plazamos λ por −λ y X por −X. Entonces, EλX = E(λX)
+
−E(λX)

= EλX
+
−EλX

= λEX
+
−λEX

= λEX.
Para establecer (b), notemos en primer lugar que cuando U, V y U − V
son no negativas, entonces E(U − V ) = EU −EV , ya que la descomposici´ on
de U en sumandos no negativos nos permite escribir EU = E((U − V ) + V )
= E(U −V ) +EV .
Con la abreviatura Z = 1
{X+Y ≥0}
, podemos escribir
E(X + Y ) = E(X + Y )
+
−E(X + Y )

= E((X
+
−X

) + (Y
+
−Y

)Z −E(−(X
+
−X

) −(Y
+
−Y

))(1 −Z).
Puesto que U

= (X
+
+Y
+
)Z y V

= (X

+Y

)Z satisfacen U

≥ 0, V

≥ 0,
U

−V

≥ 0, se cumple
E((X
+
−X

) + (Y
+
−Y

)Z = E(X
+
+ Y
+
)Z −E(X

+ Y

)Z
= EX
+
Z +EY
+
Z −EX

Z −EY

Z.
An´ alogamente, tambi´en U
′′
= (X

+ Y

)(1 − Z) y V
′′
= (X
+
+ Y
+
)(1 − Z)
satisfacen U
′′
≥ 0, V
′′
≥ 0, U
′′
−V
′′
≥ 0, de modo que
E(−(X
+
−X

)−(Y
+
−Y

))(1−Z) = E(X

+Y

)(1−Z)−E(X
+
+Y
+
)(1−Z)
= EX

(1 −Z) +EY

(1 −Z) −EX
+
(1 −Z) −EY
+
(1 −Z).
Restando las dos ecuaciones obtenidas, encontramos
E(X + Y ) = EX
+
Z +EY
+
Z −EX

Z −EY

Z
Introducci´ on a la probabilidad.
6.3. Definici´ on constructiva de la esperanza. 81
−EX

(1 −Z) −EY

(1 −Z) +EX
+
(1 −Z) +EY
+
(1 −Z).
Por ser Z y 1 − Z no negativas, EX
+
= E(X
+
Z + X
+
(1 − Z)) = EX
+
Z +
EX
+
(1 − Z). An´ aloga descomposici´ on se aplica a X

para obtener EX

= EX

Z + EX

(1 − Z), y de la misma manera se procede con Y
+
, Y

. Se
concluye entonces
E(X + Y ) = EX
+
+EY
+
−EX

−EY

= EX +EY.
2
6.3 Definici´ on constructiva de la esperanza.
Definici´ on 6.3.1 Se llama variable aleatoria simple, a cualquier combinaci´ on
lineal finita de funciones indicatrices de sucesos.
Definici´ on 6.3.2 (i) La esperanza de la funci´ on indicatriz de un suceso A es
E1
A
= P(A).
(ii) Las esperanzas de las variables aleatorias simples se calculan mediante la
f´ ormula
E
k
¸
i=1
x
i
1
A
i
=
k
¸
i=1
x
i
P(A
i
).
(iii) Cuando X es una variable aleatoria no negativa tomamos una sucesi´ on
mon´ otona creciente X
n
=
¸
j
x
j,n
1
A
j,n
, n = 1, 2, . . . de variables aleatorias
simples, cuyo l´ımite es X. Entonces
EX = lim
n→∞
EX
n
= lim
n→∞
¸
j
x
j,n
P(A
j,n
).
En particular, por ejemplo,
EX = lim
n→∞
n2
n
¸
j=0
j2
−n
P{j2
−n
< X ≤ (j + 1)2
−n
}. (6.1)
(iv) Cuando E|X| < ∞,
E(X) = E(X
+
) −E(X

).
82
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
La construcci´ on particular de la esperanza de X ≥ 0 que indica la definici´ on
precedente, resulta de aproximar X por la sucesi´on de variables aleatorias
simples X
n
=
¸
n2
n
j=0
j2
−n
1
{j2
−n
<X≤(j+1)2
−n
}
.
La parte (ii) de la Definici´ on 6.3.2 es coherente, porque cuando una misma
variable aleatoria simple se representa de dos maneras diferentes como combi-
naci´ on lineal de indicatrices de sucesos, las esperanzas resultantes coinciden,
como indica el lema siguiente.
Lema 6.3.1 Si
¸
I
i=1
a
i
1
A
i
=
¸
J
j=1
b
j
1
B
j
, son dos representaciones para la
misma variable aleatoria simple, entonces
¸
I
i=1
a
i
P(A
i
) =
¸
J
j=1
b
j
P(B
j
).
Demostraci´ on. Cada combinaci´ on lineal finita de indicatrices de sucesos se puede
escribir de manera ´ unica como una combinaci´ on lineal con coeficientes diferentes entre
s´ı, de las indicatrices de sucesos de una partici´ on de Ω.
Supongamos
¸
I
i=1
a
i
1
Ai
=
¸
K
k=1
c
k
1
C
k
, donde los c
k
son diferentes entre s´ı, y
(C
k
)
k=1,2,...,K
es una partici´ on de Ω. Se deduce que para cada k, c
k
=
¸
C
k
⊂Ai
a
i
,
de modo que
K
¸
k=1
c
k
P(C
k
) =
K
¸
k=1
¸
C
k
⊂Ai
a
i
P(C
k
) =
I
¸
i=1
a
i
¸
C
k
⊂Ai
P(C
k
),
y esto coincide con
¸
I
i=1
a
i
1
Ai
dado que
¸
C
k
⊂Ai
P(C
k
) = P(A
i
). De manera an´ aloga
se verifica que
¸
K
k=1
c
k
P(C
k
) coincide con
¸
J
j=1
b
j
P(B
j
). 2
La parte (iii) de la Definici´ on 6.3.2 es coherente, porque las sucesiones de las
esperanzas de sucesiones crecientes de variables aleatorias simples no negativas
que convergen a una variable aleatoria X, tienen todas el mismo l´ımite, que
es lo que se define como la esperanza de X. La unicidad del l´ımite de las
aproximaciones simples y mon´ otonas est´ a expresada en el siguiente lema.
Lema 6.3.2 Si X es no negativa, y las sucesiones crecientes de funciones
simples no negativas Y
n
=
¸
j
y
j,n
1
A
j,n
, Z
n
=
¸
j
z
j,n
1
B
j,n
tienen l´ımite X,
entonces lim
n→∞
¸
j
y
j,n
P(A
j,n
) = lim
n→∞
¸
j
z
j,n
P(B
j,n
).
Demostraci´ on: Basta mostrar que
Y
n
↑, limY
n
≥ Z =
¸
j
z
j
1
Bj
implica lim
n→∞
EY
n
≥ EZ, (6.2)
ya que esta propiedad, aplicable a cada Z
m
conduce a lim
n→∞
EY
n
≥ EZ
m
, para
cada m, y al pasar al l´ımite cuando m tiende a infinito en esta ´ ultima desigualdad, se
obtiene limEY
n
≥ limEZ
m
. Al intercambiar los papeles de (Y
n
) y (Z
m
) se obtiene
la desigualdad contraria, y ambas implican la conclusi´ on requerida.
Introducci´ on a la probabilidad.
6.4. C´ alculo de esperanzas. 83
Para establecer (6.2), observemos que es suficiente proceder por separado, para cada
j, con cada una de las sucesiones
1
zj
Y
n
1
Bj
=
¸
h
y
h,n
zj
1
A
h,n
∩Bj
, n = 1, 2, . . ., cuyo
l´ımite es mayor o igual que 1
Bj
, de modo que no perdemos generalidad al limitarnos
al caso Z = 1
B
.
Para cada δ ∈ (0, 1), y D
n
= {ω ∈ B : Y
n
(ω) > 1 −δ} ↑ B, P(D
n
) ↑ P(B) y entonces
EY
n
≥ (1 − δ)P(D
n
) → (1 − δ)P(B) = (1 − δ)EZ. Puesto que δ es arbitrario,
concluimos EY
n
≥ EZ. 2
Teorema 6.3.1 La esperanza a la que se refiere la Definici´ on 6.3.2, cumple
las propiedades del operador esperanza de la Definici´on 6.2.1.
Demostraci´ on. La propiedad (e
1
) de la Definici´ on 6.2.1 coincide con (i) de la
Definici´ on 6.3.2. La propiedad (e
2
) equivale a las siguientes tres propiedades:
(e
2,1
) EλX = λEX, para λ, X, no negativos,
(e
2,2
) E(X + Y ) = EX +EY , para X, Y no negativos, y
(e
2,3
) la propiedad del Teorema 6.2.2, que demostramos en §6.5.3.
La validez de (e
2,1
) y de (e
2,2
) para variables aleatorias no negativas cua-
lesquiera resulta de establecer que esas mismas f´ ormulas valen para variables
simples, y de aproximar variables arbitrarias por sucesiones mon´ otonas de va-
riables simples.
La linealidad en el caso de variables simples es trivial, en virtud de la propia
definici´on de la esperanza, y del resultado del Lema 6.3.1. 2
6.4 C´alculo de esperanzas.
Observemos que la parte (ii) de la Definici´ on 6.3.2 nos permite calcular la
esperanza de una variable aleatoria X con recorrido finito {x
1
, x
2
, . . . , x
k
}, por
medio de la f´ ormula
E(X) =
k
¸
j=1
x
j
P{X = x
j
}. (6.3)
En la Figura 6.1 se muestra una interpretaci´ on gr´ afica para el sumando
x
j
P{X = x
j
}, como ´ area de un rect´ angulo vinculado al gr´ afico de la funci´ on
de distribuci´ on F
X
de la variable X. Como consecuencia de esa interpretaci´ on,
encontramos que la esperanza puede expresarse como la diferencia entre el ´ area
limitada por el gr´ afico de F
X
y el de la constante 1, del lado derecho del eje
de ordenadas, menos el ´ area comprendida entre el eje de abscisas y el gr´ afico
de F
X
del lado izquierdo (ver la Figura 6.2).
84
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
x
j
P{X = x
j
}
Figura 6.1: Interpretaci´ on gr´ afica de un sumando en la esperanza de una
variable discreta.
Teorema 6.4.1 (i) Si X es no negativa, E(X) =

+∞
0
(1 −F
X
(t))dt.
(ii) Si las integrales que aparecen en la f´ ormula siguiente convergen, enton-
ces: E(X) =

+∞
0
(1 −F
X
(t))dt −

0
−∞
F
X
(t)dt.
Demostraci´ on. Estas f´ ormulas valen en caso que X sea una variable discreta
con recorrido finito, por la observaci´ on anterior.
Si X es no negativa, la aproximamos por la sucesi´ on mon´ otona creciente
de variables discretas X
n
= (2
−n
[2
n
X]) ∧n, donde [ ] designa a la parte entera.
La Figura 6.4 muestra un esquema de las funciones de distribuci´ on de X y de
X
n
.
Vamos a verificar que cuando n tiende a infinito, el ´ area sobre el gr´ afico de
F
Xn
, que es la esperanza de X
n
, tiende al ´ area sobre el gr´ afico de F
X
, que es
lo que se requiere probar, ya que por el Teorema 6.2.2 sabemos que tiende a
la esperanza de X.
Para ello, pasamos al l´ımite cuando n tiende a +∞ en las desigualdades

+∞
0
(1−F
Xn
(t))dt=

n
0
(1−F
Xn
(t))dt≤

n
0
(1−F
X
(t))dt≤

n
0
(1−F
Xn
(t))dt+2
−n
y esto termina la demostraci´ on de (i).
El caso general enunciado en (ii) se puede resolver separando X como
diferencia de sus partes positiva y negativa, como en otros casos ya tratados,
y no lo detallamos. 2
Introducci´ on a la probabilidad.
6.4. C´ alculo de esperanzas. 85
x
j
P{X = x
j
}
Figura 6.2: Interpretaci´ on gr´ afica de la esperanza de una variable discreta.
Figura 6.3: Interpretaci´ on de la esperanza como diferencia de ´ areas.
86
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Distribuci´on de Xn
2
−n
Distribuci´on de X
Figura 6.4: Aproximaci´ on de la esperanza por esperanzas de aproximaciones
discretas.
Teorema 6.4.2 Si X tiene distribuci´ on absolutamente continua con densidad
f
X
, y la integral que aparece en la f´ ormula siguiente es absolutamente conver-
gente, entonces
E(X) =

+∞
−∞
tf
X
(t)dt.
Demostraci´ on Separemos la integral en dos t´erminos, correspondientes a
cada una de las semirrectas determinadas por el cero, e integremos por partes
en cada una de ellos de la manera siguiente.

+∞
0
tf
X
(t)dt = lim
t→∞
t(F
X
(t) −1) −

+∞
0
(F
X
(t) −1)dt

0
−∞
tf
X
(t)dt = lim
t→−∞
(−tF
X
(t)) −

0
−∞
F
X
(t)dt.
Las acotaciones t(1−F
X
(t)) = t

+∞
t
f
X
(s)ds ≤

+∞
t
sf
X
(s)ds, v´ alida para
t > 0, y −tF
X
(t) = −t

t
−∞
f
X
(s)ds ≤

t
−∞
sf
X
(s)ds, para t < 0, y la hip´ otesis
sobre la convergencia absoluta de la integral impropia

+∞
−∞
tf
X
(t)dt, muestran
que lim
t→∞
t(F
X
(t) − 1) = lim
t→−∞
(−tF
X
(t)) = 0. Sumando las igualdades
obtenidas anteriormente y aplicando el Teorema 6.4.1, se obtiene el resultado
deseado. 2
Los v´ınculos entre el c´ alculo de esperanzas y el c´ alculo de integrales que
aparecen en los resultados previos son un s´ıntoma de una relaci´ on mucho m´ as
estrecha entre unas y otras, que se discute en el pr´ oximo cap´ıtulo. En par-
ticular, la f´ ormula (6.3) y la que aparece en el Teorema 6.4.2, se generalizan
Introducci´ on a la probabilidad.
6.4. C´ alculo de esperanzas. 87
como indica el enunciado siguiente, que resulta muy ´ util para el c´ alculo de
esperanzas.
Teorema 6.4.3 (i) Si X es una variable discreta, con valores x
1
, x
2
, . . .,
x
n
, . . . y g es una funci´ on tal que
¸

j=1
|g(x
j
)|P{X = x
j
} < ∞, entonces
E(g(X)) =
¸

j=1
g(x
j
)P{X = x
j
}
(ii) Si X es una variable con distribuci´ on absolutamente continua, y g es
una funci´ on seccionalmente continua tal que

+∞
−∞
|g(t)|f
X
(t)dt < ∞, en-
tonces E(g(X)) =

+∞
−∞
g(t)f
X
(t)dt.
Demostraci´ on de (i). La f´ ormula EX =
¸
m
i=1
p
i
x
i
vale cuando X toma los valores
todos diferentes x
i
(i = 1, . . . , m) con probabilidades respectivas p
i
, pero tambi´en
vale a´ un cuando los x
i
no sean necesariamente diferentes, cuando P{X = x
i
} =
¸
{xj=xi}
p
j
, como es inmediato verificar.
La variable g(X) toma los valores g(x
i
) con probabilidades p
i
= P{X = x
i
}, si son
todos diferentes, o bien P{g(X) = g(x
i
)} =
¸
{g(xj)=g(xi)}
p
j
en general, de modo
que la observaci´ on precedente establece el resultado a demostrar.
Demostraci´ on de (ii). Paso 1. Cuando g = 1
B
, el resultado a demostrar se reduce a
E1
{X∈B}
=

B
f(t)dt, que es cierto pues ambos miembros coinciden con P{X ∈ B}.
Paso 2. Dado que ambos miembros son lineales en g, la validez del resultado se
extiende a funciones g que son combinaciones finitas de funciones indicatrices. Paso
3. Cuando g es no negativa, y g
n
es una sucesi´on de combinaciones lineales de
indicatrices que converge mon´ otonamente a g, 0 ≤ g
n
↑ g, entonces g
n
(X) ↑ g(X),
y g
n
(t)f(t) ↑ g(t)f(t), de modo que, por pasaje al l´ımite de las igualdades entre
esperanzas e integrales de las sucesiones aproximantes, el resultado a establecer se
extiende a g ≥ 0. Para la validez de este argumento es preciso establecer un Teorema
de Convergencia Mon´ otona para las integrales. A tal efecto, nos referimos a 7.3.4.
Paso 4. Finalmente, la descomposici´on g = g
+
−g

permite reducir el caso general
al de g no negativa, ya demostrado en el Paso 3. 2
Revemos este teorema en §13.4, dentro del contexto de los cambios de variable
en una integraci´ on.
Ejercicios.
Ejercicio 6.4.1 Demostrar que, si X s´olo toma valores enteros positivos, E(X) =
¸

n=1
P{X ≥ n}. Calcular mediante esta f´ ormula E(Y ), si Y ∼ Geo(p).
Ejercicio 6.4.2 Una urna contiene N bolas numeradas de 1 a N. Se extrae una
muestra con reposici´on X
1
, X
2
, . . . , X
n
de n bolas. Suponemos que las extracciones
son independientes y que cada bola tienen la misma probabilidad de ser extra´ıda
que cualquier otra.
88
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Hallar las distribuciones de probabilidad de las variables aleatorias
M
n
= m´ax{X
1
, X
2
, . . . , X
n
} y m
n
= m´ın{X
1
, X
2
, . . . , X
n
}.
Calcular E(M
n
) y comprobar que si N es grande E(M
n
) vale aproximadamente
Nn/(n + 1).
Ejercicio 6.4.3 Dada X ∼ Uni(−π/2, π/2), calcular E(Y ) cuando:
(a) Y = sin X, (b) Y = cos X, (c) Y = 3X + 2, (d) Y = 1/(|X|
a
) (Para qu´e
valores de a es E(Y ) < ∞?)
Ejercicio 6.4.4 Si X tiene funci´ on de distribuci´ on F absolutamente continua,
hallar la funci´ on de distribuci´ on de: −log F(X).
Ejercicio 6.4.5 Si X ∼ Bin(n, p), calcular E(1/(1 +X))
Ejercicio 6.4.6 Se escriben n cartas y sus respectivos sobres, y se ensobran las
cartas al azar de modo que la probabilidad de cualquiera de las posibles permuta-
ciones de las cartas en sus sobres es la misma.
Calcular la esperanza del n´ umero H de cartas que se ensobran correctamente.
Sugerencia:
H =
¸
n
i=1
X
i
, con X
i
=

1, si la i-´esima carta va al i-´esimo sobre
0 en caso contrario.
Ejercicio 6.4.7 Si X ∼ Geo(p) y M > 0, entero, calcular la esperanza de Y =
m´ın{X, M}.
Ejercicio 6.4.8 Calcular la esperanza del estimador ˆ p del par´ ametro p obtenido
en §4.3.4. Verificar que, si llamamos sesgo de ˆ p a la diferencia b = Eˆ p−p, y decimos
que un estimador es insesgado cuando su sesgo es cero, entonces ˆ p es insesgado.
6.5 Algunas propiedades de las esperanzas.
6.5.1 Variables constantes con probabilidad 1.
De la definici´ on de esperanza, se deduce sin dificultad que cuando una varia-
ble aleatoria vale 0 con probabilidad 1, su esperanza es 0, lo mismo que la
esperanza de su valor absoluto, y la de su cuadrado. En el siguiente teorema
y en sus corolario, encontramos criterios basados en esperanzas que permiten
concluir que una variable aleatoria es cero con probabilidad uno.
Introducci´ on a la probabilidad.
6.5. C´ alculo de l´ımites. 89
Teorema 6.5.1 (Corolario de la Definici´ on 6.3.2.) Si X ≥ 0 y EX = 0,
entonces P{X = 0} = 1.
Demostraci´ on. La sucesi´on cuyo l´ımite se calcula en (6.1) es no negativa y no
decreciente. Si el l´ımite es cero, necesariamente cada t´ermino es cero, y como
se trata de una suma de sumandos no negativos, cada sumando es cero. Se
deduce que para cada n, (2
−n
, n + 2
−n
] tiene probabilidad nula, y, pasando al
l´ımite, que P{0 < X} = 0. 2
Corolario 6.5.1.1 (i) EX
2
= 0 si y s´ olo si P{X = 0} = 1.
(ii) E(X −EX)
2
= 0 si y s´olo si P{X = EX} = 1.
(iii) Si EH = 0 (= EH
+
−EH

), entonces Elog(1 + H) ≤ 0, y la igualdad
s´ olo se cumple si P{H = 0} = 1.
Demostraci´ on. Con X
2
, (X−EX)
2
en lugar de X, el Teorema permite concluir
inmediatamente (i) y (ii). Para obtener (iii), observamos que la nueva variable
aleatoria K = log(1 +H) tiene el mismo signo que H, y satisface K ≤ H. Por
la monoton´ıa, se cumple EK ≤ EH. La igualdad corresponde a E(H − K)
= 0, y por el Teorema precedente, esto implica P{H = K} = 1. Por otra
parte, esta igualdad se cumple si y s´ olo si H = 0. 2
6.5.2 Desigualdad de Jensen.
Definici´ on 6.5.1 (Funci´on convexa) Una funci´ on F : A ⊂ R → R se dice
convexa cuando por cada punto (a, f(a)) de su gr´ afico pasa una recta g(x)
= f(a) +c
a
(x −a) con la propiedad g(x) ≤ f(x) para todo x ∈ A.
Teorema 6.5.2 (Desigualdad de Jensen) Si X es una variable aleatoria con
valores en el dominio de una funci´ on f convexa, entonces Ef(X) ≥ f(EX).
Demostraci´ on. Tomemos la recta de ecuaci´ on g(x) = f(EX) +c(x −EX) que
satisface g(X) ≤ f(X) para todo X. Tomando esperanzas en esta desigualdad
obtenemos Eg(X) = f(EX) +cE(X−EX) = f(EX) ≤ Ef(X), que es lo que
se requiere verificar. 2
90
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
6.5.3 C´alculo de l´ımites
Teorema de Convergencia Mon´ otona de Beppo Levi (ver 6.2.2).
Dada una sucesi´on creciente de variables aleatorias no negativas X
n
con l´ımite X,
tenemos que demostrar que EX
n
↑ EX.
Aproximemos X
1
por una sucesi´on creciente de variables aleatorias simples: 0 ≤
X
1,n
↑ X
1
. Luego aproximamos X
2
de la misma manera: 0 ≤
˜
X
2,n
↑ X
2
y
reemplazamos la aproximaci´on
˜
X
2,n
por la nueva sucesi´on X
2,n
= max{X
1,n
,
˜
X
2,n
}
que es tambi´en creciente, y tambi´en converge a X
2
. Continuamos de la misma
manera: para cada m, elegimos
˜
X
m,n
↑ X
m
(n → ∞), y la reemplazamos por
X
m,n
= max{X
m−1,n
,
˜
X
m,n
}. De esta manera se construye una sucesi´on X
m,n
cre-
ciente en cada uno de sus ´ındices, con la propiedad X
m,n
↑ X
m
, (n → ∞).
Para m ≤ n, X
m,n
≤ X
n,n
. La sucesi´on de variables aleatorias simples X
n,n
es
creciente, de modo que tiene un l´ımite Z, y cada elemento est´a acotado por X, de
modo que Z ≤ X.
Pasando al l´ımite cuando n tiende a infinito en X
m,n
≤ X
n,n
↑ Z ≤ X resulta X
m
≤ Z ≤ X, y pasando al l´ımite cuando m tiende a infinito, se obtiene X ≤ Z ≤ X, de
modo que Z = X.
Tomando esperanzas en las desigualdades X
m,m
≤ X
m,n
≤ X, tambi´en v´ alidas para
m ≤ n, obtenemos EX
m,m
≤ EX
m,n
≤ EX, y pasando al l´ımite cuando n tiende a
infinito resulta EX
m,m
≤ EX
m
≤ EX, por la definici´ on constructiva de la esperanza,
ya que la sucesi´on X
m,n
(↑ X
m
) es simple. Tambi´en X
m,m
(↑ X) es simple, de modo
que pasamos al l´ımite con m → ∞ en la ´ ultima desigualdad, y obtenemos EX ≤
lim
m→∞
EX
m
≤ EX. 2
Lema de Fatou.
Teorema 6.5.3 (Lema de Fatou) Cuando (X
n
)
n∈N
es una sucesi´ on de va-
riables aleatorias no negativas, se cumple
Eliminf
n→∞
X
n
≤ liminf EX
n
.
Suponemos ahora 0 ≤ X
n
. Dado que liminf
n→∞
X
n
= lim
n→∞
inf
m≥n
X
m
, es el
l´ımite ordinario de la sucesi´ on Y
n
= inf
m≥n
X
m
no decreciente, por el Teorema de
Convergencia Mon´ otona se cumple limEY
n
= ElimY
n
= Eliminf
n→∞
X
n
.
Para obtener la conclusi´ on requerida, basta observar que Y
n
≤ X
n
, de modo que
EY
n
≤ EX
n
, y Eliminf
n→∞
X
n
= limEY
n
≤ liminf EX
n
. 2
6.5.4 Teorema de Convergencia Dominada de Lebesgue.
Teorema 6.5.4 (de Convergencia Dominada) Cuando Y, Z, (X
n
)
n=1,2,...
son
variables aleatorias que satisfacen E|Y | < ∞, E|Z| < ∞, Y ≤ X
n
≤ Z,(n =
Introducci´ on a la probabilidad.
6.6. Momentos, variancia. 91
1, 2, . . .) y lim
n→∞
= X, entonces
lim
n→∞
EX
n
= EX.
Suponemos ahora Y ≤ X
n
≤ Z, E|Y | < ∞, E|Z| < ∞. El Lema de Fatou aplicado
a las variables no negativas X
n
−Y conduce a E(liminf X
n
−Y ) ≤ liminf EX
n
−EY ,
de modo que se deduce:
Eliminf X
n
≤ liminf EX
n
. (6.4)
El mismo Lema aplicado a las variables no negativas Z − X
n
, nos lleva a concluir
Eliminf(Z − X
n
) ≤ liminf E(Z − X
n
), que es lo mismo que EZ − Elimsup X
n

EZ −limsup EX
n
, de modo que
Elimsup X
n
≥ limsup EX
n
. (6.5)
Reuniendo (6.4) y (6.5) con la existencia del l´ımite X
n
→ X establecida en la hip´ otesis
del Teorema, obtenemos
EX = Eliminf X
n
≤ liminf EX
n
≤ limsup EX
n
≤ Elimsup X
n
= EX.
2
6.6 Momentos, variancia.
Definici´ on 6.6.1 (Momentos de una distribuci´ on de probabilidades)
Cuando E(|X|
n
) < ∞, decimos que E(X
n
) es el momento de orden n
de la variable X o de la distribuci´ on de probabilidad de X . Los momentos de
|X| se llaman momentos absolutos de X. Los momentos de X − E(X) se
llaman momentos centrales de X.
En particular, el momento central de orden 2 de X, se llama variancia
Var(X) = E([X −E(X)]
2
).
Nota. Si definimos en la recta real una distribuci´ on de masas para la cual la masa de
la semirrecta (−∞, x] es P{X ≤ x} = F
X
(x), entonces el baricentro de la distribuci´ on
de masas tiene abscisa E(X). Los momentos de segundo orden corresponden a los
momentos de inercia. En particular, la variancia es el momento de inercia respecto
del baricentro.
As´ı como el baricentro y el momento de inercia tienen especial importancia para
describir propiedades mec´anicas de la distribuci´ on de masas, lo mismo ocurre con la
esperanza y la variancia, respecto de las distribuciones de probabilidades.
92
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Ejercicios.
Ejercicio 6.6.1 Mostrar que vale la siguiente f´ ormula para el c´ alculo de la vari-
ancia
Var(X) = E(X
2
) −(EX)
2
Ejercicio 6.6.2 Calcular las variancias de las distribuciones:
Geo(p), Uni(0, 1), Uni(a, b), Bin(n, p), Exp(λ).
Ejercicio 6.6.3 Si X ∼ Uni(0, 1), hallar las distribuciones de X
2
y de e
X
, y
calcular en cada caso la esperanza y la variancia.
Ejercicio 6.6.4 Calcular la variancia de la variable H del Ejercicio 6.4.6.
Ejercicio 6.6.5 Si X tiene distribuci´ on discreta con recorrido {0, 1, . . .} y pro-
babilidades P{X = h} = e
−λ
(λ)
h
/h!(h = 0, 1, 2, . . .), calcular su esperanza y su
variancia. Calcular E((1 +X)
−1
).
Nota: La distribuci´ on discreta del ejercicio 6.6.5, se denomina distribuci´ on de
Poisson con par´ ametro λ.
6.7 Medidas de posici´ on y medidas de disper-
si´ on de una distribuci´ on de probabilida-
des.
Ya hemos indicado en §6.1 que la esperanza de una variable aleatoria X da
una idea del valor de esta variable aleatoria, a saber, puede interpretarse como
el valor cierto intercambiable por el valor incierto de la variable.
Si en vez de aplicar la esperanza a X, la aplicamos a las variables aleatorias
|X − c|
p
, p > 0, obtenemos medidas de la magnitud del apartamiento entre
la variable X y el n´ umero c, o, en otras palabras, medidas de la dispersi´ on
de la distribuci´ on de probabilidades de la variable alrededor del punto c. En
particular, esta interpretaci´ on es aplicable a los momentos absolutos de primero
y segundo orden, para los cuales el c´ alculo es relativamente simple.
Consideremos las dispersiones E|X −c| y E(X −c)
2
como funciones de c.
El siguiente enunciado identifica para qu´e valor de c resultan m´ınimas.
Teorema 6.7.1 (i) El momento absoluto de primer orden de X respecto de
c es finito si y s´ olo si E|X| < ∞, y alcanza el m´ınimo cuando c satisface
P{X < c} ≤ 1/2, P{X > c} ≤ 1/2.
Introducci´ on a la probabilidad.
6.8. EXY , X, Y independientes. 93
(ii) El momento de segundo orden de X respecto de c es finito si y s´ olo si
EX
2
< ∞, y alcanza el m´ınimo cuando c es la esperanza EX.
Definici´ on 6.7.1 Cuando c satisface las condiciones de la parte (i) del teo-
rema precedente, se dice que es mediana de la distribuci´ on de X.
Demostraci´ on del Teorema 6.7.1. La parte relativa a la esperanza es la m´ as
simple: basta escribir
E(X −c)
2
= E[(X −EX) + (EX −c)]
2
= VarX + (EX −c)
2
,
puesto que la esperanza del doble producto es cero. El t´ermino de la derecha
es obviamente m´ınimo cuando c = EX.
Para demostrar la parte (i), llamemos m a una mediana y c a un n´ umero
cualquiera. Supongamos c < m (si c > m se procede an´ alogamente) y calcule-
mos
E|X −c| −E|X −m| = E((c −m)1
{
X ≤ c}
+(2X −c −m)1
{
c < X < m} + (m−c)1
{
m ≤ X})
≥ E((c −m)1
{
X ≤ c} + (c −m)1
{
c < X < m} + (m−c)1
{
m ≤ X})
= (m−c)(P{m ≤ X} −P{X < m}) ≥ 0.
La primera desigualdad se debe a que en {c < X < m} se cumple 2X −c −m
≥ c −m, y la segunda a la definici´ on de m. 2
Los valores de c que minimizan los momentos, es decir, la esperanza EX
y la mediana MedX, son indicadores de la posici´ on de la distribuci´ on de pro-
babilidades de X. Pueden interpretarse como centros alrededor de los cuales
est´ a distribuida la probabilidad asociada a X. Los valores m´ınimos de los
momentos, es decir, E|X − MedX| y VarX son utilizados como medidas de
la dispersi´ on de la distribuci´ on de X respecto de los valores centrales MedX,
EX.
6.8 Esperanza del producto de variables inde-
pendientes.
6.8.1 Independencia de variables aleatorias.
Definici´ on 6.8.1 La familia de variables aleatorias X = {X
i
: i ∈ I} (I
denota un conjunto de ´ındices arbitrario) es independiente cuando para cua-
lesquiera conjuntos medibles B
i
en el recorrido de X
i
, (i ∈ I), la familia de
sucesos {{X
i
∈ B
i
} : i ∈ I} es independiente.
94
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Nota: En ese caso, se suele decir que las variables X
i
, (i ∈ I) son indepen-
dientes, aunque la independencia sea una propiedad de la familia, y no de las
variables.
Ejemplo 6.8.1 Las variables 1
A
, 1
B
son independientes si y s´ olo si A, B son
independientes.
Ejemplo 6.8.2 Cuando las variables X, Y son independientes, entonces tam-
bi´en X
n
=
¸
2
2n
i=1
i−1
2
n
1
{i−1<2
n
X≤i}
, Y
n
=
¸
2
2n
i=1
i−1
2
n
1
{i−1<2
n
Y ≤i}
son independien-
tes.
Ejercicio 6.8.1 Verificar los enunciados de los dos ejemplos precedentes.
Teorema 6.8.1 Si X, Y son independientes, y tienen esperanzas finitas, en-
tonces
E(XY ) = E(X)E(Y ).
Demostraci´ on. Consideremos primero el caso en que X, Y son discretas, con
recorridos respectivos {x
i
: i = 1, 2, . . .}, {y
j
: j = 1, 2, . . .}. Se deduce que
el recorrido de la pareja est´ a contenido en {(x
i
, y
j
) : i, j = 1, 2, . . .}, y la
esperanza del producto es
E(XY ) =
¸
i,j
x
i
y
j
P{X = x
i
, Y = y
j
} =
¸
i,j
x
i
y
j
P{X = x
i
}P{Y = y
j
} =
¸
i
x
i
P{X = x
i
}
¸
j
y
j
P{Y = y
j
} = E(X)E(Y ).
Cuando X, Y son no negativas, las aproximamos por sucesiones crecientes
de variables discretas X
n
= (2
−n
[2
n
X]) ∧n, Y
n
= (2
−n
[2
n
Y ]) ∧n . Por el Teo-
rema 6.2.2, se cumple E(XY ) = lim
n→∞
E(X
n
Y
n
). Adem´ as, como el recorrido
de la variable X
n
es {j2
−n
: j = 0, 1, . . . , n2
n
}, si A es un conjunto de Borel,
el suceso {X
n
∈ A} se escribe como uni´ on de los sucesos {X
n
= j2
−n
} para
aquellos j para los cuales j2
−n
∈ A. Se deduce que, dados A, B de Borel
en R, los sucesos {X
n
∈ A}, {Y
n
∈ B} son independientes. Para verificarlo,
basta ver que cualquier suceso del conjunto {X
n
= j2
−n
}
(0≤j≤n2
n
)
es indepen-
diente de cualquier suceso del conjunto {Y
n
= k2
−n
}
(0≤k≤n2
n
)
. Esto es conse-
cuencia de la independencia de las variables X e Y , y de que {X
n
= j2
−n
}
= {j2
−n
≤ X < (j + 1)2
−n
}, para 0 ≤ j < n2
n
, y {X
n
= n} = {n ≤ X}, y de
las expresiones an´ alogas para los sucesos {Y
n
= k2
−n
}.
Podemos escribir entonces E(X
n
Y
n
) = E(X
n
)E(Y
n
) de modo que E(XY ) =
lim
n→∞
E(X
n
)E(Y
n
) = E(X)E(Y ).
Introducci´ on a la probabilidad.
6.9. Funciones generatrices. 95
La demostraci´ on para el caso general se hace descomponiendo cada variable
en diferencia de su parte positiva y su parte negativa, a los productos de las
cuales es aplicable el resultado ya demostrado. 2
Ejemplo 6.8.3 La covariancia de dos variables independientes es cero.
En efecto, si X, Y son independientes, tambi´en lo son X − EX, Y − EY , de
modo que E(X −EX)(Y −EY ) = E(X −EX)E(Y −EY ) = 0. 2
6.9 Funciones generatrices.
Definici´ on 6.9.1 Se llama funci´ on generatriz de probabilidades de una varia-
ble X o de su distribuci´ on, a la funci´ on g : R
+
→ R definida por la f´ ormula
g(t) = E(t
X
). Tambi´en se la llama funci´ on generatriz de momentos factoria-
les.
Se llama funci´ on generatriz de momentos de X o de su distribuci´ on, a la
funci´ on p : R → R definida por p(t) = E(e
tX
).
Se llama funci´ on caracter´ıstica de X o de su distribuci´ on, a la funci´ on
ψ : R → C definida por ψ(t) = E(e
ıtX
).
Ejemplo 6.9.1 La funci´ on generatriz de probabilidades de la distribuci´ on del
Ejercicio 6.6.5 es g(t) =
¸

j=0
t
j
λ
j
e
−λ
/j! = e
(t−1)λ
.
Ejemplo 6.9.2 La funci´ on generatriz de momentos de una variable Bin(n, p)
es p(t) =
¸
n
j=0
e
tj

n
j

p
j
(1 −p)
n−j
= (pe
t
+ 1 −p)
n
.
Ejemplo 6.9.3 La funci´ on caracter´ıstica de la distribuci´ on uniforme en (0, 1)
es ψ(t) =

1
0
e
ıtx
dx =
e
ıt
−1
ıt
.
Cuando las esperanzas que aparecen arriba no est´en definidas en todo el
dominio, llamaremos de la misma manera a las funciones dadas por la misma
correspondencia, en el dominio en que ´esta est´e definida.
Ejemplo 6.9.4 La funci´ on generatriz de momentos de la distribuci´ on Exp(λ)
es p(t) =


0
e
−λx
e
tx
dx = e
(t−λ)x
/(t −λ)|

0
=(λ −t)
−1
, para t < λ. La funci´on
no est´ a definida para t ≥ λ.
Teorema 6.9.1 Cuando X es una variable discreta con recorrido en N, la
funci´ on generatriz de probabilidades es un polinomio (recorrido acotado) o una
serie de potencias (recorrido no acotado). El coeficiente del t´ermino de grado
n es la probabilidad del suceso {X = n}.
96
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Demostraci´ on. Es inmediata a partir de la definici´ on de la funci´ on genera-
triz de probabilidades. 2
Nota 1: Se deduce en particular que la funci´ on generatriz caracteriza a la
distribuci´ on.
Ejemplo 6.9.5 Funci´ on generatriz de probabilidades de la distribuci´ on bino-
mial.
La funci´ on generatriz de probabilidades de X ∼ Bin(n, p) es g(t) = Et
X
=
Et
(X
1
+X
2
+...+Xn)
= Et
X
1
t
X
1
. . . t
Xn
, con X
1
, X
2
, . . ., X
n
∼ Ber(p) independien-
tes.
Se deduce que t
X
1
, t
X
1
, . . . t
Xn
son independientes, y entonces
g(t) = (Et
X
1
)(Et
X
1
) . . . (Et
Xn
)
= (Et
X
1
)
n
= [(1 −p) +pt]
n
=
n
¸
j=0

n
j

p
j
(1 −p)
n−j
t
j
.
Esta es una forma de obtener P{X = j}, que es el coeficiente de t
j
, inde-
pendiente de la utilizada en §3.4.1.
Nota 2: Cuando la derivaci´ on respecto de t conmuta con el c´ alculo de espe-
ranzas en las definiciones de funciones generatrices o de funci´ on caracter´ıstica
(y esto puede ser verificado en cada caso particular), se cumplen
g

(1) = E(X), g
′′
(1) = E(X(X −1)), . . . , g
(n)
(1) = E(
n−1
¸
j=0
(X −j)), . . .
p

(0) = E(X), p
′′
(0) = E(X
2
), . . . , p
(n)
(0) = E(X
n
), . . .
f

(0) = ıE(X), f”(0) = −E(X
2
), . . . , f
(n)
(0) = ı
n
E(X
n
), . . .
La dos primeras l´ıneas justifican las denominaciones generatriz de momentos
factoriales, y generatriz de momentos, respectivamente.
Nota 3: La funci´ on caracter´ıstica est´ a definida para todo t, pues el m´odulo
de la variable e
ıtX
es 1, y por lo tanto tiene esperanza finita. Esta funci´ on
caracteriza a la distribuci´ on, es decir, dos variables con la misma funci´ on car-
acter´ıstica, tienen necesariamente la misma distribuci´ on (Ver §13.10).
Teorema 6.9.2 Dadas las variables independientes X
1
, X
2
, . . . , X
n
, llamamos
S a su suma. Designemos respectivamente por g
X
, ψ
X
, φ
X
, a las funciones
generatriz de probabilidades, generatriz de momentos, y caracter´ıstica de cierta
Introducci´ on a la probabilidad.
6.11. Funciones generatrices. 97
variable X. Entonces, cuando las funciones que aparecen en las f´ ormulas sigu-
ientes est´ on definidas, valen las igualdades
g
S
=
n
¸
i=1
g
X
i
, ψ
S
=
n
¸
i=1
ψ
X
i
, φ
S
=
n
¸
i=1
φ
X
i
Demostraci´ on: Calculamos g
S
(t) = E(t
S
) = E(t
(
¸
n
i=1
X
i
)
) = E(
n
¸
i=1
t
X
i
) =
n
¸
i=1
E(t
X
i
), donde la ´ ultima igualdad es consecuencia del Teorema 6.8.1 El re-
sultado obtenido prueba la primera igualdad de la tesis. Las otras dos se
verifican de la misma manera. 2
6.10 Ejercicios.
Ejercicio 6.10.1 A partir de la sucesi´on de variables independientes equidistri-
buidas (X
i
)
i=1,2,...
se define
¯
X =
1
n
(
¸
n
i=1
X
i
). Demostrar que E(
¸
n
i=1
(X
i

¯
X)
2
) =
(n −1)σ
2
, donde σ
2
= Var(X
1
).
Ejercicio 6.10.2 Utilizando la funci´ on generatriz de probabilidades, demostrar
que si las variables X
i
son independientes, de Poisson con par´ ametro λ
i
(i = 1, 2, . . .),
entonces
¸
n
i=1
X
i
tiene distribuci´ on de Poisson con par´ ametro λ =
¸
n
i=1
λ
i
.
Ejercicio 6.10.3 ¿Cu´ al es la distribuci´ on de la suma de variables aleatorias inde-
pendientes binomiales de par´ ametros (n
i
, p) ? (i = 1, 2, . . . , n).
Ejercicio 6.10.4 Verificar la informaci´ on contenida en la Tabla 6.1.
6.11 * Una aplicaci´ on: C´alculo de probabili-
dades en el paseo al azar con barreras.
6.11.1 Paseo al azar con dos barreras absorbentes.
Hemos definido en §4.1 el paseo al azar simple como la sucesi´ on S
n
=
¸
n
i=1
X
i
de las sumas parciales de las variables independientes X
n
con la misma dis-
tribuci´ on P{X
n
= 1} = p, P{X
n
= −1} = q.
98
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
Tabla 6.1: Esperanzas, variancias y funciones generatrices de momentos de
algunas distribuciones.
f: facto-
Funci´ on de distribuci´on Esperanza Variancia Funci´ on riales
densidad o cuant´ıa. generatriz u o: ordi-
de momentos narios
Bernoulli: Ber(p)
P{X = 0} = 1 −p p p(1 −p) 1 −p +pt f
P{X = 1} = p
Binomial: Bin(n, p)
P{X = h} =

n
h

p
h
(1 −p)
n−h
, np np(1 −p) (1 −p +pt)
n
f
h = 0, 1, . . . , n
Geom´etrica: Geo(p)
P{X = h} = (1 −p)
h
p,
1−p
p
1−p
p
2
p
1−t(1−p)
f
h = 0, 1, . . .
Geom´etrica alternativa: Geo(p)
P{X = h} = (1 −p)
h−1
p,
1
p
1−p
p
2
pt
1−t(1−p)
f
h = 1, 2, . . .
Poisson: Pois(λ)
P{X = h} = λ
h
e
−λ
/h! λ λ e
−λ(1−t)
f
h = 0, 1, . . .
Uniforme: Uni(0, 1)
f
X
(x) =

1 si 0 ≤ x ≤ 1;
0 en caso contrario.
1/2 1/12
e
t
−1
t
o
Exponencial: Exp(λ)
F
X
(x) = 1 −e
−λx
, x > 0 1/λ 1/λ
2
λ/(λ −t) o
f
X
(x) = λe
−λx
, x > 0
Gamma: Γ(n, λ)
f
X
(x) =
λ
n
x
n−1
e
−λx
(n−1)!
, (x > 0) n/λ n/λ
2

λ
λ−t

n
o
Introducci´ on a la probabilidad.
6.11. Funciones generatrices. 99
Nos damos ahora dos enteros a, b que satisfacen −∞ ≤ −a < 0 < b ≤ +∞,
y llamamos T al tiempo de llegada a las barreras{−a, b} (o tiempo de absorci´ on
en el contexto de la definici´ on siguiente):
T = min{n : S
n
= −a ´o S
n
= b}, (6.6)
con la convenci´ on habitual min ∅ = +∞, es decir, cuando la trayectoria no
alcanza ninguna de las barreras, decimos que T es infinito. (Este ser´ıa segu-
ramente el caso cuando a = b = ∞. En cualquier otro caso, tal resultado es
improbable: P{T = ∞} = 0, como consecuencia del Corolario 4.1.1.1, parte
(iii).)
Definici´ on 6.11.1 Llamamos paseo al azar con barreras absorbentes
{−a, b}, a S
{−a,b}
n
= S
n∧T
, con n ∧ T = min{n, T}, con T dado por (6.6).
De otra manera: una vez que la trayectoria del paseo original alcanza alguna
de las barreras −a ´o b, el nuevo paseo es absorbido por la barrera alcanzada,
y permanece constante en el nivel de esa barrera.
Ejercicios y un ejemplo complementario.
Ejercicio 6.11.1 Observar que el resultado del Ejercicio 4.1.4 es trivial en el caso
del paseo sim´etrico. Mostrar que para este caso, valen para todo n, ES
n
= 0,
ES
2
n
−n = 0.
Ejercicio 6.11.2 Verificar que la esperanza del paseo al azar sim´etrico simple
S
{−a,b}
n
absorbido por las barreras {−a, b} es ES
{−a,b}
n
= 0 para todo n.
Ejercicio 6.11.3 Deducir de la parte (iii) del Corolario 4.1.1.1 que existe el l´ımite
lim
n→∞
S
{−a,b}
n
.
Ejercicio 6.11.4 El l´ımite del ejercicio precedente es una variable aleatoria S

.
¿Cu´ al es su recorrido? Obtener la distribuci´ on de S

pasando al l´ımite en ES
{−a,b}
n
= 0.
Ejemplo 6.11.1 Los ejercicios que siguen al 6.11.1, desarrollan consecuen-
cias de la primera igualdad de ese ejercicio, en el contexto del paseo detenido
por una doble barrera. Veamos ahora el equivalente respecto de la otra igualdad,
es decir, ES
2
n
−n = 0.
Dado el paseo al azar sim´etrico simple S
{−a,b}
n
absorbido por las barreras
{−a, b}, vamos a verificar en primer lugar que E(S
{−a,b}
n
)
2
− n ∧ T = 0 para
todo n.
100
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
El incremento [(S
{−a,b}
n+1
)
2
−(n+1) ∧T] −[(S
{−a,b}
n
)
2
−n∧T] vale 0 cuando
T ≤ N, y dado T > n vale (S
n
+ 1)
2
− S
2
n
− 1 con probabilidad condicional
1/2, y (S
n
− 1)
2
− S
2
n
− 1 con probabilidad condicional 1/2. La esperanza es
entonces P{T > n}[
1
2
((S
n
+ 1)
2
−S
2
n
−1) +
1
2
((S
n
−1)
2
−S
2
n
−1)] = 0.
De lo que precede podemos deducir el siguiente resultado:
Teorema 6.11.1 La esperanza del tiempo de absorci´ on T = min{n : S
n
=
−a ´o S
n
= b} del paseo al azar sim´etrico simple S
n
en las barreras {−a, b} es
ET = ab.
Como (S
{−a,b}
n
)
2
tiene l´ımite (S

)
2
y est´a acotada uniformemente por (a ∨
b)
2
, el Teorema de Convergencia Dominada nos permite calcular E(S

)
2
=
Elim(S
{−a,b}
n
)
2
= limE(S
{−a,b}
n
)
2
= limEn ∧ T. El Teorema de Convergencia
Mon´ otona nos permite completar el c´ alculo: limEn ∧ T = Elimn ∧ T = ET.
Por otra parte, como conocemos la distribuci´ on de S

, estamos en condi-
ciones de calcular Elim(S
{−a,b}
n
)
2
=
a
2
b+b
2
a
a+b
= ab.
Ejercicio 6.11.5 Deducir de los resultados del ejemplo anterior, que la esperanza
del tiempo de llegada del paseo al azar sim´etrico simple a una barrera ´ unica es ∞.
6.11.2 Paseo al azar con una barrera
Definici´ on 6.11.2 Dados a > 0 y T = min{n : S
n
= −a}, llamamos paseo
al azar con barrera absorbente {−a}, a S
{−a}
n
= S
n∧T
.
De acuerdo a la parte (iii) del Corolario 4.1.1.1, si p = q(= 1/2), entonces
P{T < ∞} = 1.
De ello resulta que para p < q, tambi´en se cumple P{T < ∞} = 1, ya que
cuando S
n
=
¸
n
i=1
X
i
es un paseo al azar con probabilidades p < q, podemos
definir un nuevo paseo al azar sim´etrico S

n
=
¸
n
i=1
X

i
con
X
i
=

1, si X
i
= 1 o X
i
= −1 y Z
i
= 1,
0, si X
i
= −1 y Z
i
= 0,
donde las nuevas variables (Z
i
)
i=1,2,...
son independientes entre s´ı e independi-
entes de (X
i
)
i=1,2,...
, con distribuci´ on de Bernoulli ((q −1/2)/q). Por ser (S

n
)
sim´etrico alcanza el nivel −a con probabilidad 1, y lo mismo ocurre con S
n
puesto que, en virtud de la construcci´ on, para cada ω se cumple S

n
≥ S
n
.
Cuando p > q, en cambio, hay probabilidades positivas y complementarias
de que S
n
sea absorbido en −a o tenga l´ımite +∞. La demostraci´ on se propone
como ejercicio.
Introducci´ on a la probabilidad.
6.11. Funciones generatrices. 101
Ejercicio.
Ejercicio 6.11.6 (i) Mostrar, de manera an´ aloga a la utilizada en el Ejercicio
4.1.4 que cuando T

es el tiempo de llegada al par de barreras {−a, b}, se cumple
E

q
p

S
n∧T

= 1. Deducir la distribuci´ on del l´ımite lim
n→∞
S
n∧T
∗.
(ii) Si T es el tiempo de llegada de S
n
a la ´ unica barrera {−a}, mostrar que
el suceso {lim
n→∞
S
n∧T
= ∞} coincide con
¸
b∈N
{S
n∧T
∗ = b}, y deducir que su
probabilidad es 1 −

q
p

a
.
102
Enrique M. Caba˜ na.
Cap´ıtulo 6: Valor esperado de una variable aleatoria.
7. Medidas, integrales,
densidades.
7.1 Espacios de medida.
Las funciones de conjunto σ-aditivas tienen un inter´es que trasciende la teor´ıa
de las probabilidades.
Definici´ on 7.1.1 Se llama medida en (Ω, A) a una funci´ on µ : A →
¯
R
+
=
R
+
∪ {+∞}, σ-aditiva.
Nota: Se observar´ a que las probabilidades son las medidas µ con la propie-
dad µ(Ω) = 1.
Definici´ on 7.1.2 Una medida µ en (Ω, A) es σ-finita cuando existe una par-
tici´ on (A
n
)
n∈N
de Ω con la propiedad µ(A
n
) < ∞ para todo n ∈ N.
Cuando µ es σ-finita, y (A
n
) es una partici´ on de Ω con c
n
= µ(A
n
) < ∞,
podemos introducir las probabilidades P
n
(A) = µ(A∩A
n
)/c
n
, que nos permiten
escribir µ =


n=1
c
n
P
n
.
Ejemplo 7.1.1 Dada una sucesi´on de puntos S = (x
n
)
n∈N
⊂ Ω, la funci´ on
ν
S
que a cada A ∈ A asocia la cantidad de puntos de S contenidos en A:
ν
S
(A) = #{x
n
: x
n
∈ A, n ∈ N}
es una medida. La llamaremos medida de recuento asociada a S.
En particular, ν
N
(A) = #{n : n ∈ A, n ∈ N} es una medida en (R, B),
y se trata de una medida σ-finita que puede escribirse en la forma ν
N
(A) =

n∈N
1
{n∈A}
.
103
104
Enrique M. Caba˜ na.
Cap´ıtulo 7: Medidas, integrales, densidades.
Ejemplo 7.1.2 Introducimos las probabilidades P
n
(A) = P{U −n ∈ A}, con
U uniforme en (0, 1) y n ∈ Z. Entonces λ =

n∈Z
P
n
es una medida σ-finita
en R con la σ-´ algebra de Borel.
Se observar´ a que, para cada n, la probabilidad P
n
definida en el ejemplo
precedente est´a concentrada en (n, n+1], y para cada intervalo (x, y] ⊂(n, n+1]
P
n
((x, y]) = y − x es su longitud. M´ as en general, para cualquier intervalo
(x, y], P
n
((x, y]) es la longitud de la intersecci´ on (x, y] ∩ (n, n + 1]. Dado que
los conjuntos ((n, n +1])
n∈N
son una partici´ on de R, λ((x, y]) =

n
P
n
((x, y])
es la suma de las longitudes de las intersecciones de (x, y] con cada intervalo
de la partici´ on, y por consiguiente vale y −x, la longitud total.
Definici´ on 7.1.3 A la medida λ que se introduce en el Ejemplo 7.1.2, cuya
restricci´ on a los intervalos es la longitud, se la llama medida de Lebesgue
en R.
7.2 Probabilidades y medidas completas.
Una vez definida una probabilidad P en (Ω, A), si
A
0
= {A ⊂ Ω : existe B ∈ A tal que A ⊂ B, P(B) = 0}
es la familia de todos los subconjuntos de Ω contenidos en alg´ un suceso de
probabilidad nula, entonces
¯
A = {A : existe B ∈ A tal que A∆B ∈ A
0
} es
una nueva σ-´algebra, y la extensi´ on
¯
P(A) = P(B) cuando B ∈ A y B ∈ A, es
una probabilidad en (Ω,
ˆ
A).
Se dice que
¯
P completa a P, y cuando una probabilidad P coincide con su
completada
¯
P, se dice que P es completa.
De manera an´ aloga, se define una medida completa.
Definici´ on 7.2.1 Llamaremos tambi´en Medida de Lebesgue a la que se ob-
tiene completando la medida introducida en la definici´ on 7.1.3. Habitualmente
es a esta ´ ultima a la que se hace referencia con este nombre, es decir, se so-
breentiende que la medida de Lebesgue es completa.
Ejercicio 7.2.1 Verificar que
¯
A definida en el contexto previo es una σ-´algebra, y
que la extensi´ on
¯
P de P es una probabilidad.
Introducci´ on a la probabilidad.
7.3. Integral respecto de una medida. 105
7.3 Integral respecto de una medida.
Dada la medida µ en (Ω, A) y la funci´ on medible (o variable aleatoria) X :Ω
→ R
+
, definimos, imitando la Definici´ on 6.3.2, integral de X respecto de µ, al
resultado de reemplazar en esa definici´ on la probabilidad P por la medida µ:
Definici´ on 7.3.1 (i) La integral de la indicatriz del conjunto medible A re-
specto de µ es

1
A
dµ = µ(A).
(ii) La integral de una combinaci´ on lineal finita de indicatrices de conjuntos
medibles es

k
j=1
a
j
1
A
j

k
j=1
a
j
µ(A
j
).
(iii) Dada la funci´on medible no negativa X, tomemos una sucesi´ on mo-
n´ otona creciente X
n
=

j
x
j,n
1
A
j,n
, n = 1, 2, . . . de funciones simples, cuyo
l´ımite es X. Entonces

Xdµ = lim
n→∞

j
x
j,n
µ(A
j,n
). En particular, por
ejemplo,

Xdµ = lim
n→∞
n2
n

j=0
j2
−n
µ({j2
−n
< X ≤ (j + 1)2
−n
}).
(iv) Cuando X es una funci´ on medible no necesariamente no negativa, y
X
+
y X

tienen integral finita respecto de µ, entonces

Xdµ =

X
+
dµ −

X

dµ.
(v) Llamamos integral de X en un conjunto A medible, a la integral de
X1
A
.
Observaci´ on. La coherencia de la partes (ii) y (iii) de la definici´ on, requiere
establecer resultados an´ alogos a los de los Lemas 6.3.1 y 6.3.2. Tales resultados
tambi´en son v´ alidos en el presente contexto, y omitimos sus demostraciones,
porque son id´enticas a las de los lemas mencionados.
Notaci´ on. Decimos que X es integrable respecto de µ, cuando

|X|dµ < ∞.
Teorema 7.3.1 Si

A
Xdµ = 0 para todo A medible, entonces µ{X = 0} =
µ{ω : X(ω) = 0} = 0.
Demostraci´ on: Basta mostrar que el resultado es cierto cuando X ≥ 0, pues si
no se trabaja por separado con X
+
y X

a las que se aplica la misma hip´ otesis
como surge de considerar las integrales extendidas a los conjuntos medibles
A ∩ {X > 0} ´o A ∩ {X < 0}.
Con X ≥ 0, la hip´ otesis implica en particular

X dµ = 0. Esto significa, de
acuerdo a la parte (i) de la Definici´ on 7.3.1 que cada t´ermino de la sucesi´ on no
106
Enrique M. Caba˜ na.
Cap´ıtulo 7: Medidas, integrales, densidades.
negativa y no decreciente

n2
n
j=0
j2
−n
µ({j2
−n
< X ≤ (j + 1)2
−n
}), cuyo l´ımite
es cero, es ´el mismo igual a cero, y por lo tanto lo es cada sumando. Se deduce
inmediatamente que para cada j positivo, µ({j2
−n
< X ≤ (j +1)2
−n
}) es cero,
y entonces µ({2
−n
< X ≤ n}) = 0, de donde, por continuidad, µ({X = 0}) =
µ(lim
n
{2
−n
< X ≤ n}) = 0. 2
Por medio de los enunciados siguientes, indicamos algunas propiedades
importantes de la integral. Omitimos las demostraciones porque son similares
a las de las correspondientes propiedades de las esperanzas.
Teorema 7.3.2 La integral es una funci´ on mon´ otona y lineal del integrando:
0 ≤ X ≤ Y ´ o
X ≤ Y, X, Y integrables,

implican

Xdµ ≤

Y dµ,
X, Y, α, β ≥ 0, o bien
X, Y integrables

implican

(αX + βY )dµ = α

Xdµ + β

Y dµ.
Teorema 7.3.3 Cuando X es no negativa o integrable, la integral

A
Xdµ es
una funci´ on σ-aditiva del dominio A:

j
A
j
Xdµ =

j

A
j
Xdµ, A
1
, A
2
, . . . , disjuntos.
Corolario 7.3.3.1 Cuando X es no negativa, la funci´ on
τ(A) =

A
Xdµ (7.1)
es una medida, con la propiedad τ(A) = 0 para todo A tal que µ(A) = 0.
Cuando X es integrable, τ es una diferencia de dos medidas, con la misma
propiedad.
Demostraci´ on del Corolario. La σ-aditividad es una consecuencia inmedi-
ata del Teorema. Si Y
n
=

j
y
j,n
1
A
j,n
es una sucesi´on mon´ otona creciente
de funciones simples no negativas con l´ımite X1
A
(y con los coeficientes y
j,n
estrictamente positivos), cada A
j,n
debe estar contenido en A porque en caso
contrario no se cumplir´ıa Y
n
≤ X1
A
. Entonces µ(A) = 0 implica µ(A
j,n
) = 0
y por lo tanto

Y
n
dµ = 0 para todo n. Se concluye τ(A) =

A
Xdµ =
lim
n→∞

Y
n
1
A
dµ = 0.
Cuando X cambia de signo, la funci´ on τ(A) =

A
Xdµ =

A
X
+
dµ −

A
X

dµ es una diferencia de dos medidas, y se la llama una medida con
signo. 2
Introducci´ on a la probabilidad.
7.4. Ejemplos: Integral de Lebesgue, e integral respecto de ν
S
. 107
Los teoremas que siguen se refieren al pasaje al l´ımite bajo el signo de inte-
graci´ on. Sus demostraciones coinciden con las de los correspondientes teoremas
de pasaje al l´ımite bajo el signo de esperanza (§6.5.3), y no las repetiremos.
Teorema 7.3.4 (Teorema de convergencia mon´ otona de Beppo Levi). Si X
n
es una sucesi´ on mon´ otona creciente de funciones medibles no negativas con
l´ımite X, entonces
lim
n→∞

X
n
dµ =

Xdµ.
Teorema 7.3.5 (Lema de Fatou). Si X
n
es una sucesi´on de funciones medi-
bles no negativas, entonces
liminf
n→∞

X
n
dµ ≥

Xdµ.
Teorema 7.3.6 (Teorema de convergencia dominada de Lebesgue). Si X
n
es
una sucesi´ on de funciones medibles con l´ımite X, y existen funciones inte-
grables Y , Z tales que Y ≤ X
n
≤ Z para todo n, entonces
lim
n→∞

X
n
dµ =

Xdµ.
7.4 Dos ejemplos: Integral de Lebesgue e in-
tegral respecto de una medida discreta.
7.4.1 Integral respecto de la medida de Lebesgue
Vamos a verificar que, en un sentido bastante amplio, la integral de Lebesgue,
como se llama a la integral respecto de la medida de Lebesgue, es una gener-
alizaci´ on de la integral de Riemann.
Teorema 7.4.1 Si f es una funci´ on acotada en [a, b] y existe la integral de
Riemann

b
a
f(t)dt, entonces esta integral coincide con la integral de Lebesgue
de f en [a, b], es decir, la integral de f1
[a,b]
respecto de la medida de Lebesgue
λ (ver Definici´on 7.1.3).
Demostraci´ on Por hip´ otesis, existe una sucesi´on de particiones de [a, b]
en subintervalos {J
j,n
: j = 1, 2, . . . , k
n
} tal que las sumas inferiores S

n
=

kn
j=1
inf{f(t) : t ∈ J
j,n
}λ(J
j,n
) y las sumas superiores S
+
n
=

kn
j=1
sup{f(t) :
t ∈ J
j,n
}λ(J
j,n
) convergen a la integral

b
a
f(t)dt, cuando n tiende a infinito.
108
Enrique M. Caba˜ na.
Cap´ıtulo 7: Medidas, integrales, densidades.
Para la escritura de las sumas se ha aprovechado que la medida de Lebesgue
de un intervalo es su longitud.
En particular, si abreviamos m
j,n
= inf{f(t) : t ∈ J
j,n
} y M
j,n
= sup{f(t) :
t ∈ J
j,n
}, e introducimos las funciones simples f

n
=

kn
j=1
m
j,n
1
J
j,n
, f
+
n
=

kn
j=1
M
j,n
1
J
j,n
, encontramos que, por una parte, f

n
≤ f ≤ f
+
n
, de modo
que

[a,b]
f

n
dλ ≤

[a,b]
fdλ ≤

[a,b]
f
+
n
dλ, y, por otra parte,

[a,b]
f

n
dλ = S

n
,

[a,b]
f
+
n
dλ = S
+
n
, lo que nos lleva a concluir que S

n


[a,b]
fdλ ≤ S
+
n
, y,
pasando al l´ımite cuando n tiende a infinito, resulta que

[a,b]
fdλ coincide con
el l´ımite de las sumas de Riemann que es la integral de Riemann. 2
Nota. En §13.6 se hace referencia a la extensi´ on a R
n
de la medida de
Lebesgue y de la correspondiente integral.
7.4.2 Integral respecto de la medida ν
S
del Ejemplo
7.1.1.
Es inmediato verificar que

A
fdν
S
=

x
j
∈A∩S
f(x
j
).
Resulta en particular, por ejemplo, que si X es una variable discreta con
recorrido S y probabilidades P{X = x
j
} = p
j
, entonces P{X ∈ A} =

A
pdν
S
,
donde p es cualquier funci´ on con la propiedad p(x
j
) = p
j
, para cada x
j
∈ S.
7.5 La esperanza como caso particular de la
integral.
De la definici´ on de integral resulta que la esperanza de X : (Ω, A, P) → (R, B)
es la integral en Ω:
E(X) =

XdP.
Del Teorema 13.4.1 resulta que la esperanza puede expresarse tambi´en por
medio de una integral en R:
E(X) =

xdP
X
(x) =

xdF
X
(x),
respecto de la distribuci´ on de probabilidad P
X
de la variable X. La expresi´ on
en t´erminos de la funci´ on de distribuci´ on de probabilidad F
X
, es una notaci´ on
para esa misma integral.
Introducci´ on a la probabilidad.
7.6. Densidad. 109
7.6 Densidad de una medida respecto de otra
medida.
El Corolario 7.3.3.1 indica una relaci´ on entre medidas que resulta de inter´es:
Definici´ on 7.6.1 Cuando τ y µ son dos medidas en un mismo espacio de
medida (Ω, A), y para todo A ∈ A con µ(A) = 0 se cumple τ(A) = 0, se dice
que τ es absolutamente continua respecto de µ . Cuando τ(A) =

A
Xdµ,
se dice tambi´en que X es la densidad de τ con respecto a µ.
Observaci´ on. Con esta nomenclatura, el Corolario 7.3.3.1 expresa que la
medida τ definida por (7.1) es absolutamente continua respecto de µ.
Ahora es posible rever, y generalizar en cierta medida, la Definici´ on 3.3.1.
Las definiciones introducidas en este cap´ıtulo nos permiten reemplazar (i) por
otra formulaci´ on equivalente. En cuanto a (ii), lo esencial es que la funci´ on de
distribuci´ on sea la integral de una densidad. En el Cap´ıtulo 3 se sobreentiende
que se utiliza la integral de Riemann, pero si ´esta se reemplaza por la integral
de Lebesgue, resulta una formulaci´ on algo m´ as general. La Definici´ on 3.3.1
puede en consecuencia reemplazarse por la siguiente:
Definici´ on 7.6.2 Cuando se dice que una variable aleatoria X o su distri-
buci´ on de probabilidades es absolutamente continua, se sobreentiende que
la distribuci´ on de probabilidades es absolutamente continua respecto de la
medida de Lebesgue. Una variable o su distribuci´ on de probabilidades se
dicen discretas cuando esta ´ ultima es absolutamente continua respecto de la
medida ν
S
de recuento de un conjunto discreto S.
Se llama densidad de la distribuci´ on de X a la densidad respecto de la
medida de Lebesgue, en el primer caso, y a la densidad respecto de ν
S
en el
segundo. A esta ´ ultima tambi´en se la llama funci´ on de cuant´ıa.
De lo que precede surge que la pr´ actica de tratar separadamente a las distribuciones
absolutamente continuas y a las distribuciones discretas, responde a la comodidad
de formular enunciados que aprovechan las propiedades particulares de la medida
o la integral de Lebesgue, en el primer caso, o bien de las medidas discretas y las
correspondientes integrales respecto de medidas de recuento de conjuntos discretos,
que se reducen a sumas, en el segundo.
Esta pr´ actica puede asimismo tener, como contrapartida, el inconveniente de dar
formas diferentes a resultados de naturaleza id´entica, cuando se refieren a una u otra
medida. Adem´ as, deja fuera a las distribuciones que no son absolutamente continuas
respecto de λ o de alguna ν
S
.
110
Enrique M. Caba˜ na.
Cap´ıtulo 7: Medidas, integrales, densidades.
El siguiente resultado, rec´ıproco del Corolario 7.3.3.1, cuya demostraci´ on
se incluye en §13.9.1, tiene una importante aplicaci´ on en el Cap´ıtulo 9.
Teorema 7.6.1 (de Radon-Nikodym). Cuando τ es una medida σ-finita abso-
lutamente continua respecto de la medida σ-finita µ, existe la densidad de τ con
respecto a µ, es decir, existe una funci´ on medible g (que se denota dτ/dµ), tal
que para todo A medible, τ(A) =

A
gdµ. La densidad es esencialmente ´ unica,
es decir, si h es tambi´en una densidad (porque es una funci´ on medible que
cumple τ(A) =

A
hdµ para todo A medible), entonces µ{g = h} = 0.
8. Distribuciones conjuntas,
independencia.
8.1 Distribuci´ on conjunta de una pareja de va-
riables aleatorias.
Dadas dos variables aleatorias X, Y , as´ı como cada una de ellas induce una
distribuci´ on de probabilidad en (R, B), descrita por la correspondiente funci´ on
de distribuci´ on, es posible verificar (mediante el Teorema 3.2.1) que la pareja
induce una probabilidad en la m´ınima σ-´algebra de subconjuntos B
(2)
de R×R
que contiene a los rect´ angulos (a, b] ×(c, d], que se llama distribuci´ on conjunta
de X, Y . Esta distribuci´ on conjunta, que denotaremos P
X,Y
, asocia a cada
rect´ angulo (a, b] ×(c, d] la probabilidad
P
X,Y
((a, b] ×(c, d]) = P({a < X ≤ b} ∩ {c < Y ≤ d}).
En lo sucesivo, intersecciones tales como {a < X ≤ b} ∩ {c < Y ≤ d} se
abreviar´ an por medio de la notaci´ on {a < X ≤ b, c < Y ≤ d}.
Definici´ on 8.1.1 Se llama funci´ on de distribuci´ on de probabilidad de
la pareja de variables aleatorias X, Y a la funci´on F
X,Y
: R× R → R
+
definida por F
X,Y
(x, y) = P{X ≤ x, Y ≤ y}.
Teorema 8.1.1 La funci´ on de distribuci´ on de probabilidades F
X,Y
de una
pareja de variables aleatorias reales X, Y satisface las propiedades:
(1) F
X,Y
es no decreciente, y continua por la derecha como funci´ on de cada
uno de sus argumentos,
(2) F
X,Y
(−∞, y) = F
X,Y
(x, −∞) = 0, para todo x, y,
(3) F
X,Y
(x, ∞) = F
X
(x), F
X,Y
(∞, y) = F
Y
(y),
111
112
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
(4) Para cualquier rect´ angulo semiabierto R = (a, b] × (c, d], se cumple
P{(X, Y ) ∈ R} = F
X,Y
(b, d) + F
X,Y
(a, c) − F
X,Y
(b, c) − F
X,Y
(a, d). A
esta expresi´ on la llamamos incremento doble de F
X,Y
en R.
Demostraci´ on. Se extiende el procedimiento utilizado para verificar el Teo-
rema 3.1.2. 2
Las definiciones de distribuci´ on discreta y distribuci´ on absolutamente con-
tinua se suelen extender al caso de la distribuci´ on de una pareja, de la siguiente
manera:
Definici´ on 8.1.2 (i) Diremos que una pareja X, Y de variables aleatorias
tiene distribuci´ on de probabilidades discreta cuando su recorrido es un
conjunto discreto, es decir, un conjunto de puntos de R
2
cuya inter-
secci´ on con cualquier rect´ angulo contiene una cantidad finita de elemen-
tos.
(ii) Diremos que X, Y es absolutamente continua cuando su funci´ on de
distribuci´ on F
X,Y
puede representarse por medio de la integral (de Rie-
mann)
F
X,Y
(x, y) =

x
−∞
dx

y
−∞
f
X,Y
(x

, y

)dy

.
A la funci´ on f
X,Y
se la llama funci´ on de densidad de la distribuci´ on
conjunta.
Observemos que cuando el recorrido de una variable aleatoria discreta
X es el conjunto {x
i
: i = 1, 2, . . .}, y el de una variable discreta Y es
{y
j
: j = 1, 2, . . .}, entonces las probabilidades p
i,j
= P{X = x
i
, Y = y
j
}
bastan para determinar la distribuci´ on de la pareja X, Y , y, en particular,
la funci´ on de distribuci´ on F
X,Y
(x, y) =
¸
x
i
≤x
¸
y
j
≤y
p
i,j
, y la probabilidad
¸
a<x
i
≤b
¸
c<y
j
≤d
p
i,j
de que (X, Y ) pertenezca al rect´ angulo (a, b] ×(c, d].
Para el caso de una distribuci´ on conjunta absolutamente continua, se ob-
servar´ a que la propiedad (3) del Teorema 8.1.1 implica que cada una de las
variables por separado tiene distribuci´ on absolutamente continua, con densi-
dades respectivas
f
X
(x) =


−∞
f
X,Y
(x, y)dy, f
Y
(y) =


−∞
f
X,Y
(x, y)dx. (8.1)
A las distribuciones de X y de Y se las llama distribuciones marginales
de la distribuci´ on conjunta de (X, Y ), y a las densidades (8.1) se las llama
densidades marginales.
Introducci´ on a la probabilidad.
8.2. Integral de Lebesgue en el plano. 113
x
a b
y = c(x)
y = d(x)
y
x
c
d
x = a(y)
x = b(y)
y
Figura 8.1: Dominios de integraci´ on.
La probabilidad de que (X, Y ) pertenezca a (a, b] ×(c, d] est´ a dada por

b
a
dx

d
c
f
X,Y
(x, y)dy.
Es f´acil verificar que en este caso el borde del rect´ angulo tiene probabili-
dad nula, de modo que la probabilidad de que la pareja (X, Y ) pertenezca al
rect´ angulo abierto (a, b) ×(c, d) y al rect´ angulo cerrado [a, b] ×[c, d] coinciden.
Se deduce de lo anterior que para un conjunto S que sea una uni´ on de
rect´ angulos, se cumple
P{(X, Y ) ∈ S} =

S
f
X,Y
(x, y). (8.2)
Cuando S es el l´ımite de una sucesi´on creciente de uniones de rect´ angulos
S
n
, P{(X, Y ) ∈ S} = lim
n→∞
P{(X, Y ) ∈ Sn} = lim
n→∞

Sn
f
X,Y
(x, y)dx dy.
Esta consecuencia de la monoton´ıa de la probabilidad puede aprovecharse para
extender (8.2) a regiones S para las que lim
n→∞

Sn
f
X,Y
(x, y)dx dy coincide
con

S
f
X,Y
(x, y)dxdy, como es el caso, por ejemplo, cuando S es la regi´ on
del plano limitada por x = a, x = b y los gr´ aficos de un par de funciones c(x),
d(x) continuas en [a, b], (Figura 8.1, parte superior), cuando es una regi´ on
an´ aloga con intercambio de los papeles que juegan la x y la y, (Figura 8.1,
parte inferior), o cuando es una uni´ on finita de regiones como estas. Al menos
para regiones de este tipo vale entonces (8.2).
114
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
8.2 La integral de Lebesgue en R
2
.
La medida de Lebesgue en (R
2
, B
(2)
) puede definirse de manera similar a la
que utilizamos en el Ejemplo 7.1.2.
Supongamos en primer lugar una variable aleatoria U = (U
1
, U
2
)
tr
en R
2
con distribuci´ on uniforme en [0, 1] ×[0, 1]. Esto significa que para 0 ≤ a < b ≤
1, 0 ≤ c < d ≤ 1, se cumple P{U ∈ (a, b] × (c, d]} = (b − a)(d − c). Vamos a
denotar P
m,n
a la distribuci´ on de probabilidad de U + (m, n)
tr
.
Definici´ on 8.2.1 La medida de Lebesgue en R
2
es la medida λ definida por
λ(A) =

¸
m=−∞

¸
n=−∞
P
m,n
(A),
donde, para cada m, n, P
m,n
es la probabilidad uniforme en el cuadrado C
m,n
=[m, m + 1] ×[n, n + 1] definida en el contexto previo.
En particular, la restricci´ on de λ a cada C
m,n
, es la probabilidad P
m,n
.
Definici´ on 8.2.2 La integral de Lebesgue en R
2
, es la integral respecto de la
Medida de Labesgue en R
2
.
Dentro de este contexto, si para cada rect´ angulo C = (a, b] × (c, d], la
probabilidad P
X,Y
(C) coincide con la medida definida mediante la integral
de Lebesgue

1
C
f
X,Y
dλ, entonces coinciden sobre todo conjunto de Borel,
como consecuencia del Teorema de Extensi´ on de Probabildades de Kolmogorov
(3.2.1).
Los comentarios que preceden muestran que la expresi´ on para el c´ alculo
de la distribuci´ on de probabilidad de una variable absolutamente continua a
partir de la integral de la densidad, vale para cualquier S en la σ-´algebra de
Borel B
(2)
.
Obviamente, toda densidad de distribuci´ on de probabilidades debe ser no
negativa y debe satisfacer


−∞
dx


−∞
f
X,Y
(x, y)dy = 1.
Rec´ıprocamente, si f satisface esas condiciones, la funci´ on
F
X,Y
=

x
−∞
dx

y
−∞
f
X,Y
(x

, y

)dy

es la funci´on de distribuci´ on conjunta de una pareja con distribuci´ on P
X,Y
(S)
=

S
f
X,Y
dλ.
Introducci´ on a la probabilidad.
8.3. Integral de Lebesgue en el plano. 115
8.3 C´alculo de esperanzas.
Teorema 8.3.1 (Regla para el c´ alculo de E(g(X, Y ))).
(i) Si g es una funci´ on de R
2
en R , y X, Y son variables aleatorias discretas,
entonces g(X, Y ) es una nueva variable aleatoria discreta y su esperanza
se calcula en la forma E(g(X, Y )) =
¸
i,j
p
i,j
g(x
i
, y
j
) cuando g ≥ 0 o
cuando
¸
i,j
p
i,j
|g(x
i
, y
j
)| < ∞.
(ii) Si g es una funci´ on continua de R
2
en R , y X, Y son variables aleato-
rias con distribuci´ on conjunta absolutamente continua, entonces g(X, Y )
es una nueva variable aleatoria y su esperanza se calcula en la forma
E(g(X, Y )) =


−∞
dx


−∞
g(x, y)f
X,Y
(x, y)dy cuando g ≥ 0 o cuando


−∞
dx


−∞
|g(x, y)|f
X,Y
(x, y)dy < ∞.
Este Teorema es consecuencia del Teorema 13.4.1. Una verificaci´ on directa
de la parte (i) no ofrece dificultades especiales.
8.3.1 Momentos asociados a una pareja de variables.
Definici´ on 8.3.1 Llamamos momentos mixtos de una pareja de variables
aleatorias X, Y a esperanzas de productos de potencias de ambas.
Momentos mixtos centrales de X, Y son los momentos mixtos de X −
E(X), Y −E(Y ). Un caso particular es la covariancia.
Se llama covariancia de las variables X, Y a
Cov(X, Y ) = E((X −E(X))(Y −E(Y ))),
y coeficiente de correlaci´ on a
ρ(X, Y ) =
Cov(X, Y )

Var(X)Var(Y )
.
Ejercicios
Ejercicio 8.3.1 Las variables X, Y tienen momentos absolutos de segundo orden
E(|X|
2
), E(|Y |
2
), E(|XY |) finitos. Probar las desigualdades
(E(X))
2
≤ E(|X|)
2
≤ E(X
2
),
(E(XY ))
2
≤ E(X
2
)E(Y
2
)(Cauchy-Schwarz).
116
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
Ejercicio 8.3.2 Verificar que, para cualesquiera X, Y con momentos de segundo
orden finitos, se cumple Cov(X, Y ) = E(XY ) −E(X)E(Y ).
Ejercicio 8.3.3 Dos variables se dicen no correlacionadas cuando su coeficiente
de correlaci´on es cero. Probar que si las variables X
1
, X
2
, . . . , X
n
, est´an dos a dos
no correlacionadas, entonces Var(
¸
n
i=1
X
i
) =
¸
n
i=1
VarX
i
.
8.4 Distribuci´ on de variables aleatorias inde-
pendientes. Producto de probabilidades.
8.4.1 Independencia de variables aleatorias.
La definici´ on de la independencia de variables aleatorias ha sido adelantada en
§6.8.1.
Teorema 8.4.1 (i) Si X, Y son independientes, entonces
F
X,Y
(x, y) = F
X
(x)F
Y
(y).
(ii) Si la distribuci´ on conjunta de (X, Y ) es absolutamente continua,
f
X,Y
(x, y) = f
X
(x)f
Y
(y).
(iii) Si X, Y son discretas, con recorridos respectivos {x
i
: i = 1, 2, . . .}, {y
j
:
j = 1, 2, . . .}, entonces las probabilidades p
i,j
= P{X = x
i
, Y = y
j
}
se obtienen por producto de las probabilidades P{X = x
i
}, P{Y = y
j
}
correspondientes a cada variable.
Demostraci´ on. Los sucesos {X ≤ x}, {Y ≤ y} son independientes, de
modo que P{X ≤ x, Y ≤ y} = P{X ≤ x}P{Y ≤ y}, y esto demuestra (i).
En el caso en que (X, Y ) es absolutamente continua, lo son X e Y por
separado, y podemos derivar (i) con respecto a x y con respecto a y. El
resultado es (ii).
La igualdad P{X = x
i
, Y = y
j
} = P{X = x
i
}P{Y = y
j
} de (iii) es
consecuencia de la independencia de {X = x
i
}, {Y = y
j
}. 2
Introducci´ on a la probabilidad.
8.4. Variables aleatorias independientes. 117
8.4.2 Producto de probabilidades.
Definici´ on 8.4.1 (Producto de espacios de probabilidad.)
Dados los espacios de probabilidad (Ω
1
, A
1
, P
1
) y (Ω
2
, A
2
, P
2
), llamamos
espacio de probabilidad producto de ambos a (Ω
1
× Ω
2
, A
1
× A
2
, P
1
× P
2
)
donde
• Ω
1
×Ω
2
es el producto cartesiano de Ω
1
y Ω
2
,
• A
1
× A
2
es la m´ınima σ-´ algebra que contiene los productos cartesianos
A
1
×A
2
con A
1
∈ A
1
, A
2
∈ A
2
,
• P = P
1
×P
2
es la probabilidad que vale P(A
1
×A
2
) = P
1
(A
1
)P
2
(A
2
) para
A
1
∈ A
1
, A
2
∈ A
2
.
Nota 1: Cuando decimos que P es el producto P
1
× P
2
, se sobreentiende
que su dominio es la σ-´algebra producto de los dominios de P
1
y P
2
.
Nota 2: La coherencia de la definici´ on de probabilidad producto requiere
establecer un teorema de existencia y unicidad. M´ as precisamente, requiere
mostrar que existe una y una sola probabilidad P en la σ-´algebra producto
(que es la m´ınima que contiene al ´ algebra de las uniones finitas de rect´ angulos
A
1
× A
2
con A
1
∈ A
1
, A
2
∈ A
2
, y sus complementos) que en A
1
× A
2
vale
P
1
(A
1
)P
2
(A
2
). Esto es consecuencia del Teorema de Extensi´ on de Probabili-
dades de Kolmogorov (3.2.1).
Ejemplo 8.4.1 Cuando X, Y son independientes, P
X,Y
es la probabilidad pro-
ducto de P
X
y P
Y
.
8.4.3 La medida de Lebesgue en R
2
, como medida pro-
ducto.
La definici´ on de producto de probabilidades se extiende sin dificultad a medi-
das σ-finitas. En particular, el producto de dos medidas de Lebesgue λ
(1)
en
R se puede obtener a partir de la serie λ
(1)
=
¸

n=−∞
P
n
, con P
n
igual a la pro-
babilidad uniforme en [n, n+1], mediante la serie λ
(2)
=
¸

m=−∞
¸

n=−∞
P
m,n
,
donde P
m,n
= P
m
×P
n
es la distribuci´ on uniforme en el cuadrado C
m,n
definido
m´ as arriba. Es inmediato verificar que esta definici´ on de λ
(2)
como medida pro-
ducto es equivalente a la Definici´ on 8.2.1.
Las definiciones de producto, y en particular de la medida de Lebesgue, se
extienden sin dificultad a R
d
para cualquier d ∈ N.
118
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
Notaci´ on: Cuando resulte claro del contexto cu´ al es el espacio donde la
medida de Lebesgue est´ a definida, la denotaremos simplemente por λ, sin
indicar por medio de un super´ındice cu´al es la dimensi´ on.
8.5 Ejercicios.
Ejercicio 8.5.1 (a) Si X e Y son variables aleatorias independientes con reco-
rrido contenido en N, y sus funciones generatrices de probabilidades son g
X
y g
Y
respectivamente, entonces la funci´ on generatriz de la suma, g
X+Y
es:
g
X+Y
(t) = g
X
(t)g
Y
(t).
(b) Considerar ahora X
1
, X
2
, . . . variables aleatorias i.i.d. (independientes e id´en-
ticamente distribuidas) con recorrido contenido en N, y N otra variable aleato-
ria con valores enteros no negativos, independiente de las anteriores. Definir
S
0
= 0, S
n
= X
1
+ . . . + X
n
. Verificar que la funci´ on generatriz de S
N
= X
1
+. . . +X
N
es g
S
N
(t) = g
N
(g
X
1
(t)).
Ejercicio 8.5.2 Hallar la densidad de la suma y del producto de dos variables
independientes con igual distribuci´ on uniforme en (a): (0, 1); (b): (−1/2, 1/2).
Ejercicio 8.5.3 Si X, Y tienen densidad conjunta
f
X,Y
(x, y) = ce
−(x
2
+y
2
)/2
,
(a) Verificar integrando f
X,Y
en R
2
mediante coordenadas polares, que c vale
1

y deducir que ϕ(t) =
1


e
−t
2
/2
es una densidad en R y que X e Y tienen
densidad ϕ.
Nota: A la distribuci´ on con densidad ϕ, se la llama normal t´ıpica o gaussiana
(Ver §12).
(b) Hallar la densidad de R =

X
2
+Y
2
.
(c) Hallar la densidad conjunta de R, A tales que X = Rcos A, Y = Rsin A.
Ejercicio 8.5.4 Calcular E(X
m
) si X tiene distribuci´ on normal t´ıpica (Ver Ejer-
cicio 8.5.3), y m es un n´ umero natural.
Ejercicio 8.5.5 Si X
1
, X
2
, . . . , X
n
son variables independientes, con distribuci´ on
normal t´ıpica (Ver Ejercicio 8.5.3), calcular E(X
2
1
+. . . +X
2
n
) y Var (X
2
1
+. . . +X
2
n
).
Nota: La distribuci´ on de Y = X
2
1
+. . . +X
2
n
se conoce como χ
2
n
(“Ji”-cuadrado con
n grados de libertad)
Introducci´ on a la probabilidad.
8. N7.- Buffon. 119
Ejercicio 8.5.6 Se supone que (X, Y ) tiene distribuci´ on uniforme en (0, 1)×(0, 1),
esto es, si A ⊂ (0, 1) ×(0, 1), entonces P{(X, Y ) ∈ A} =´ area(A).
(a) Hallar la distribuci´ on de X, la de Y , y probar que X, Y son independientes.
(b) Hallar la distribuciones de min(X, Y ), max(X, Y ) y max(X, Y ) −min(X, Y ).
(c) Calcular la probabilidad de que min(X, Y ), max(X, Y ) −min(X, Y ), y 1
−max(X, Y ) sean los lados de un tri´ angulo.
Ejercicio 8.5.7 (Problema de la aguja de Buffon). Se arroja al azar una aguja
de longitud 2b sobre un plano en el que se han trazado l´ıneas paralelas que distan
2a(a > b). Supondremos que la distancia X del centro de la aguja a la l´ınea m´as
pr´ oxima y el ´ angulo agudo Y que forma la direcci´ on de la aguja con la de las
l´ıneas son variables independientes, respectivamente uniforme en (0, a) y uniforme
en (0, π/2).
Calcular la probabilidad de que la aguja corte a alguna l´ınea, integrando la
densidad conjunta de (X, Y ) en b sin Y > X.
N7.- Buffon, Georges Louis Leclerc, Comte de (1707 -
1788).
Naci´o en Montbard, en la Costa de Oro francesa, el 7 de sep-
tiembre de 1707.
Aunque el campo de la ciencia por el que m´as merece ser recor-
dado es el de las ciencias de la naturaleza, su experimento con-
sistente en arrojar baguettes por encima del hombro y observar
si caen encima de alguna de un conjunto de l´ıneas paralelas
equidistantes marcadas en el pavimento, ha merecido abun-
dante discusi´on entre los probabilistas. Llama la atenci´on que
ese procedimiento ofrece una manera experimental de calcular
el n´ umero π.
8.6 Una aplicaci´ on de la esperanza. Otra so-
luci´ on al problema de la aguja de Buffon.
En el Ejercicio 8.5.7 se ha planteado el siguiente problema, conocido como
Problema de la aguja de Buffon: Se arroja al azar una aguja de longitud 2b
sobre un plano en el que se han trazado l´ıneas paralelas que distan 2a (a > b).
La interpretaci´ on que se da a la expresi´ on arrojar al azar es que la distancia
X del centro de la aguja a la l´ınea m´ as pr´ oxima y el ´ angulo agudo Y que
forma la direcci´ on de la aguja con la de las l´ıneas son variables independientes,
respectivamente uniforme en (0, a) y uniforme en (0, π/2). A partir de esa
120
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
interpretaci´ on, puede observarse que el el suceso “la aguja corta un l´ınea”
equivale a X < b sin Y . Dado que la pareja X, Y es uniforme en el rect´ angulo
(0, a)×(0, π/2), la probabilidad del suceso {X < b sin Y } es el cociente entre el
´area de la regi´ on {((x, y) : 0 < x < b sin y, 0 < y < π/2} (que vale

π/2
0
b sin ydy
= b) y el ´ area del rect´ angulo (que vale πa/2), es decir, 2b/(πa).
Una manera alternativa de resolver este ejercicio es la siguiente: observemos
que la condici´ on a > b implica que el n´ umero de cortes de la aguja con las l´ıneas
s´olo puede ser 0 o 1. Como consecuencia, la probabilidad de cortar coincide
con el n´ umero esperado de cortes.
Para calcular la esperanza del n´ umero de cortes, observamos que ´este es
aditivo respecto de una partici´ on de la aguja en segmentos: con esto queremos
decir que si partimos la aguja en segmentos (es decir, interpretamos a la aguja
como una uni´ on de segmentos o peque˜ nas agujas, que ni siquiera tienen por
qu´e tener todos la misma direcci´ on, o incluso estar unidos) entonces el n´ umero
de cortes de la aguja a las l´ıneas es la suma del n´ umero de cortes de cada
segmento. Por lo tanto, la esperanza del n´ umero de cortes de la aguja es la
suma de las esperanzas del n´ umero de cortes de cada segmento. Dado que
segmentos iguales tienen esperanzas iguales, por la geometr´ıa del problema, se
deduce (haciendo uso del Lema 3.6.1) que la esperanza del n´ umero de cortes de
una aguja es proporcional a su longitud, digamos, kℓ, donde k es la constante
de proporcionalidad, y ℓ es la longitud de la aguja.
Para encontrar k vamos a elegir una aguja especial: un aro de di´ ametro
2a. Para esa aguja, el n´ umero de cortes es (casi) seguramente 2, y por lo
tanto eso mismo vale la esperanza, de modo que, como la longitud es 2πa,
tenemos la ecuaci´ on k×2πa = 2, de la que deducimos k = 1/(πa). Finalmente,
para la aguja de longitud 2b, la esperanza (y la probabilidad de corte) vale(n)
2b ×1/(πa), como hab´ıamos encontrado antes.
Se observar´ a que esta soluci´ on no requiere calcular ninguna integral. Sin
embargo, en la medida que la aditividad es obvia para poligonales, pero no
para curvas, se requiere un argumento que permita aplicar la misma f´ ormula kℓ
para la esperanza del n´ umero de cortes, tambi´en a una circunferencia, cuando
se acepta como v´ alida para una poligonal. Basta considerar una sucesi´ on de
poligonales C
n
, de longitudes ℓ
n
, que tienda a la circunferencia C cuya longi-
tud es 2πa. En particular, lim
n→∞

n
= 2πa. El n´ umero N
n
de cortes de la
poligonal C
n
est´ a acotado por 2, y converge al n´ umero de cortes de la circun-
ferencia (que es 2), de modo que EN
n
→ 2, por el Teorema de Convergencia
Dominada de Lebesgue. Por otra parte, EN
n
= kℓ
n
→ 2kπa, y esto termina
nuestra argumentaci´ on. 2
(La idea de esta ingeniosa soluci´ on al Problema de la Aguja de Buffon es
Introducci´ on a la probabilidad.
8.7. Distribuci´ on de la suma de variables independientes. 121
del matem´ atico espa˜ nol - argentino Luis Santal´ o (1911-2001).)
8.7 Distribuci´ on de la suma de variables inde-
pendientes.
Cuando X e Y son variables aleatorias independientes, la funci´ on de dis-
tribuci´ on de la suma F
X+Y
(z) = F
X,Y
({(x, y) : x + y ≤ z}) est´ a determinada
por las distribuciones marginales F
X
, F
Y
. Vamos a verificar c´ omo puede cal-
cularse F
X+Y
a partir de F
X
, F
Y
en los casos en que F
X,Y
es absolutamente
continua, o discreta.
En el primer caso, f
X,Y
(x, y) = f
X
(x)f
Y
(y) y entonces
F
X,Y
({(x, y) : x + y ≤ z}) =

{(x,y):x+y≤z}
f
X
(x)f
Y
(y)dx dy =


−∞
f
X
(x)dx

z−x
−∞
f
Y
(y)dy =


−∞
f
X
(x)F
Y
(z −x)dx,
de modo que
F
X+Y
(z) =


−∞
F
Y
(z −x)dF
X
(x),
y, por simetr´ıa,
F
X+Y
(z) =


−∞
F
X
(z −y)dF
Y
(y).
La densidad se obtiene derivando respecto a z:
f
X+Y
(z) =


−∞
f
X
(x)f
Y
(z −x)dx =


−∞
f
X
(z −y)f
Y
(y)dy.
Cuando X e Y son discretas, con recorridos respectivos
{x
1
, . . . , x
k
, . . .}, {y
1
, . . . , y
l
, . . .},
sus distribuciones est´ an determinadas por las probabilidades P{X = x
i
}, i =
1, . . ., k, . . . y P{Y = y
j
}, j = 1, . . ., l, . . ..
La distribuci´ on de la suma est´ a dada por
P{X + Y ≤ z} =
¸
x
i
+y
j
≤z
P{X = x
i
}P{Y = y
j
}.
En el caso particular en que las variables tienen a los naturales por recorri-
do, la expresi´ on se reduce a P{X + Y = n} =
¸
n
i=0
P{X = i}P{Y = n −i}.
122
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
Ejercicio.
Ejercicio 8.7.1 Si X, Y son independientes, con distribuci´ on Exp(λ),
(a) ¿Cu´ al es la distribuci´ on de X +Y ?
(b) ¿Cu´ al es la distribuci´ on de min(X, Y )?
(c) B´ usquense generalizaciones de los resultados precedentes, al caso en que
X, Y son independientes, con distribuci´ on exponencial, pero no necesa-
riamente con el mismo par´ ametro.
(d) En este ´ ultimo caso, calcular P{X > Y }.
8.8 Un ejemplo: Suma de variables geom´etri-
cas, distribuci´ on binomial negativa.
Una l´ınea de fabricaci´ on produce sucesiva e independientemente piezas con
probabilidad p de no ser defectuosas. ¿Cu´ al es la distribuci´ on del n´ umero N
h
de piezas defectuosas que es necesario desechar antes de obtener h buenas?
Cuando h vale 1, dicho n´ umero N
1
tiene distribuci´ on Geo(p). Si X
1
, X
2
, . . .
designan las cantidades de piezas defectuosas que preceden a cada pieza buena,
desde la anterior pieza buena fabricada, entonces cada X
i
tiene distribuci´ on
Geo(p), son variables independientes, y N
h
=
¸
h
i=1
X
i
. La distribuci´ on de N
2
est´ a dada por
P{N
2
= n} =
n
¸
i=0
P{X
1
= i}P{X
2
= n −i}
=
n
¸
i=0
(1 −p)
i
p(1 −p)
n−i
p = (n + 1)p
2
(1 −p)
n
.
Para h = 3 utilizamos el resultado anterior:
P{N
3
= n} =
n
¸
i=0
P{N
2
= i}P{X
3
= n −i}
=
n
¸
i=0
(i + 1)p
2
(1 −p)
i
(1 −p)
n−i
p =
(n + 1)(n + 2)
2
p
3
(1 −p)
n
.
De la misma manera,
P{N
4
= n} =
n
¸
i=0
P{N
3
= i}P{X
4
= n −i} = C
3
(n)p
4
(1 −p)
n
,
Introducci´ on a la probabilidad.
8.9. Suma de exponenciales. Distribuciones Γ y de Poisson. 123
con C
3
(n) =
¸
n
i=0
(i+1)(i+2)
2
, y, en general, P{N
h
= n} = C
h−1
(n)p
h
(1 − p)
n
,
con C
h
(n) =
¸
n
i=0
C
h−1
(i), para h = 4, 5, . . . .
Por inducci´ on en h y en n verificaremos que C
h
(n) =
(n+1)(n+2)...(n+h)
h!
. Para
ello, basta observar que para cualesquiera h, n, C
h
(n) −C
h
(n −1) = C
h−1
(n),
que equivale a (n + 1)(n + 2) . . . (n + h) − n(n + 1)(n + 2) . . . (n + h − 1) =
h(n + 1)(n + 2) . . . (n +h −1), y esta ´ ultima igualdad se cumple trivialmente.
El mismo resultado podr´ıa haberse obtenido de manera directa, por medio
del siguiente razonamiento: Dado que N
h
representa el n´ umero de fracasos
hasta el h-´esimo ´exito, el suceso {N
h
= n} es la uni´ on de los sucesos disjuntos
que consisten en que en los n +h −1 primeros ensayos hay exactamente h −1
´exitos, y, adem´ as, el n + h -´esimo ensayo es un ´exito. La probabilidad de que
en los n + h −1 primeros ensayos haya exactamente h −1 ´exitos es
P{Bin(n + h −1, p) = h −1} =

n + h −1
h −1

p
h−1
(1 −p)
n
,
y esta probabilidad debe ser multiplicada por la probabilidad p de ´exito en el
´ ultimo ensayo. El resultado es C
h−1
(n).
A la distribuci´ on de la variable N
h
se la llama binomial negativa con
par´ ametros h, p.
8.9 Otro ejemplo: Suma de variables expo-
nenciales. Distribuci´ on Gamma y distri-
buci´ on de Poisson.
Si T
1
, T
2
, . . . , T
k
son variables independientes con distribuci´ on Exp(λ), la fun-
ci´ on de densidad de cada una de ellas es f(t) = λe
−λt
1
{t≥0}
, y la densidad de
la suma de T
1
y T
2
es
f
2
(t) =


−∞
λe
−λx
1
{x≥0}
λe
−λ(t−x)
1
{t−x≥0}
dx =

t
0
λ
2
e
−λt
dx = λ
2
te
−λt
,
para t ≥ 0.
Una vez obtenida la densidad f
2
, calculamos la densidad f
3
de T
1
+T
2
+T
3
mediante
f
3
(t) =


−∞
f
2
(x)f(t −x)dx =

t
0
λ
2
xe
−λx
λe
−λ(t−x)
dx =
λ
3
t
2
2!
e
−λt
.
Por inducci´ on completa, se obtiene la f´ ormula general para la densidad f
k
de
la suma S
k
=
¸
k
i=1
T
i
de k variables independientes Exp(λ): f
k
(t) =
λ
k
t
k−1
(k−1)!
e
−λt
.
124
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
Este resultado muestra que S
k
tiene la distribuci´ on Γ(k, λ) definida en el cuadro
de la p´ agina 98.
Por integraci´ on del resultado anterior, se encuentra la funci´ on de dis-
tribuci´ on de la sumaS
k
:
F
k
(t) =

t
0
f
k
(s)ds =

t
0
(λs)
k−1
(k −1)!
λe
−λs
ds
=
¸

(λs)
k−1
(k −1)!
e
−λs
¸
t
0
+

t
0
(λs)
k−2
(k −2)!
λe
−λs
ds
= −
(λt)
k−1
(k −1)!
e
−λt
+

t
0
f
k−1
(s)ds = F
k−1
(t) −
(λt)
k−1
(k −1)!
e
−λt
.
En esta relaci´ on de recurrencia puede reemplazarse F
k−1
(t) en funci´on de
F
k−2
(t), y as´ı sucesivamente hasta obtener una f´ ormula para F
k
(t) en funci´on
de t.
Si las variables T
i
representan los tiempos de duraci´ on de los sucesivos
repuestos de un componente de un sistema, S
k
es el tiempo total de fun-
cionamiento del sistema con utilizaci´ on de k repuestos, y el n´ umero necesario
H de reemplazos para que el sistema funcione durante un lapso t es aqu´el en-
tero h tal que S
h
< t pero S
h+1
≥ t. De all´ı se deduce que la distribuci´ on de
la variable aleatoria H est´ a dada por
P{H = h} = P{S
h
< t ≤ S
h+1
} = P{S
h
< t} −P{S
h+1
< t} =
(λt)
k
k!
e
−λt
,
por la relaci´ on de recurrencia obtenida m´ as arriba. Esto muestra que H tiene
la distribuci´ on de Poisson con par´ ametro λt, definida tambi´en en el cuadro de
la p´ agina 98.
Ejercicios.
Ejercicio 8.9.1 Supongamos que T
h
(h = 1, 2, . . .) son variables independientes,
con distribuci´ on Exp(λ), que representan los tiempos de duraci´ on de sucesivas piezas
que son reemplazadas en un sistema en funcionamiento permanente tan pronto como
la anterior falla. Si el sistema comienza a funcionar en el instante 0, la primera pieza
act´ ua en el intervalo (0, T
1
), y en T
1
es reemplazada por la segunda que dura hasta
T
1
+T
2
, y as´ı sucesivamente.
¿Cu´ al es la probabilidad de que en el intervalo (0, a) se agoten las primeras n
piezas?
¿Cu´ al es la probabilidad de que se agoten las primeras n piezas pero en el instante
a todav´ıa est´e funcionando la n + 1-´esima pieza?
Introducci´ on a la probabilidad.
8.10. Distribuci´ on multinomial. 125
Ejercicio 8.9.2 Calcular la distribuci´ on de la suma de dos variables independi-
entes con distribuci´ on de Poisson,
(a) de manera directa,
(b) por medio del v´ınculo con las sumas parciales de variables exponenciales
independientes (§8.9).
Ejercicio 8.9.3 Verificar el resultado del ejemplo en §8.8 aprovechando la forma
conocida de la funci´ on generatriz de momentos factoriales de la distribuci´ on Geo(p)
que se indica en la tabla de la p´ agina 98.
Ejercicio 8.9.4 Calcular la esperanza y la variancia de la distribuci´ on binomial
negativa con par´ ametros h, p.
Ejercicio 8.9.5 Una tarjeta de circuito impreso tiene un cierto n´ umero de huecos
que se hacen usando un taladro num´erico controlado autom´ aticamente. El control
tiene un n´ umero de fallas aleatorio l con distribuci´ on de Poisson (λ). Si el control
falla, la probabilidad de que el taladro no haga el hueco correspondiente es p. La
tarjeta se descarta cuando le falta al menos un hueco.
(a) Calcular la probabilidad de que una tarjeta resulte aceptable.
(b) Aprovechar el resultado del Ejercicio 8.5.1 para deducir la distribuci´ on
del n´ umero de tarjetas aceptables.
(c) Calcular la probabilidad directamente.
8.10 Ensayos repetidos, cuando hay m´as de
dos resultados posibles: la distribuci´ on
multinomial
Cuando se realiza n veces un experimento que puede dar lugar a cierto resul-
tado A, o bien a su complemento A
c
, las realizaciones son independientes, y en
cada una de ellas la probabilidad de que ocurra A es la misma, digamos p, la
cantidad B de veces que ocurre A tiene distribuci´ on binomial con par´ ametros
(n, p). Si A
i
es el suceso A ocurre en el i-´esimo intento, entonces B =
¸
n
i=1
1
A
i
.
Las variables 1
A
i
son Ber(p) independientes. Esta descripci´ on bien conocida
(§3.4.1) singulariza uno de los resultados posibles: A. Si se hubiera contado
en cambio el n´ umero de veces que no ocurre A se hubiera obtenido la variable
n−B con distribuci´ on Bin(n, 1−p). La informaci´ on completa de cu´ antas veces
126
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
ocurre A y cu´antas A
c
requerir´ıa utilizar la variable vectorial (B, n −B), pero
la redundancia obvia vuelve innecesario trabajar con variables en R
2
.
Cuando el resultado de cada realizaci´ on del experimento, en vez de descri-
birse de manera binaria (ocurre A o no ocurre A) se describe indicando cu´ al
de k resultados posibles A
1
, A
2
, . . . A
k
ocurre, la informaci´ on relevante es
ahora un vector de k componentes M = (M
1
, M
2
, . . . , M
k
)
tr
(que convenimos
en escribir como una columna, por eso la trasposici´ on), cada una de las cuales
cuenta cu´ antas veces ocurri´ o el correspondiente resultado.
Vamos a suponer que los resultados A
1
, . . ., A
k
son mutuamente excluyen-
tes, y que necesariamente uno de ellos ocurre en cada realizaci´ on del experi-
mento. Suponemos tambi´en que las realizaciones son independientes, y que en
cada una de ellas las probabilidad de que ocurra A
h
es p
h
. Las probabilidades
p
h
necesariamente cumplen
¸
k
h=1
= 1. El vector (aleatorio) M que cuenta
cu´antas veces ocurre cada resultado posible al cabo de las n repeticiones inde-
pendientes puede escribirse como suma de los vectores U
i
∈ R
k
(i = 1, . . . , n)
cada uno de los cuales tiene todas las componentes iguales a cero menos la que
corresponde al resultado que ocurre en el h-´esimo intento, que vale 1.
Si e
h
es el vector de componentes nulas excepto la h-´esima que vale 1,
entonces las variables aleatorias U
i
son independientes, con distribuci´ on de
probabilidades P{U
i
= e
h
} = p
h
, h = 1, . . . , k. El vector M resulta entonces
ser la suma de los n vectores independientes U
1
, . . ., U
n
.
A la distribuci´ on de probabilidades de M se la llama distribuci´ on multino-
mial de par´ ametros n, p ∈ R
k
, donde p = (p
1
, . . . , p
k
)
tr
.
Como en el caso binomial la informaci´ on es redundante, porque una cual-
quiera de las componentes de M se obtiene restando las otras componentes del
total n, pero la conveniencia de pasar de un vector en R
k
a un vector en R
k−1
a expensas de tener que singularizar una de las componentes, aquella que se
elimina, no justifica la reducci´ on en 1 de la dimensi´ on, y se suele trabajar con
el vector de k componentes a pesar de la redundancia.
El c´alculo directo de P{M = m} donde m es un vector de R
k
con com-
ponentes enteras no negativas que suman n se hace observando que el suceso
{M = m} es la uni´ on de los sucesos
¸
n
i=1
{U
i
= u
i
} para los cuales cada u
i
tiene alguno de los valores e
1
, . . ., e
k
, y
¸
n
i=1
u
i
= m.
Para que esta ´ ultima condici´ on se cumpla se requiere que m
1
de los u
i
val-
gan e
1
, que m
2
valgan e
2
, . . ., que m
k
valgan e
k
. Por lo tanto, la probabilidad
de cada una de las intersecciones
¸
n
i=1
{U
i
= u
i
} de sucesos independientes es el
producto de las probabilidades de cada {U
i
= u
i
}. Cada una de estas probabi-
lidades vale p
h
cuando u
i
es e
h
. Dado que cada e
h
aparece m
h
veces, se cumple
P
¸
n
i=1
{U
i
= u
i
} =
¸
k
h=1
p
m
h
h
, resultado que no depende de cu´ ales son los u
i
.
Introducci´ on a la probabilidad.
8.11. Estad´ısticos de orden. 127
Se deduce entonces que la probabilidad de la uni´ on {M = m} es igual a la
cantidad de elecciones posibles de los vectores u
i
compatibles con la condici´ on
de que m
h
de ellos valgan e
h
(h = 1, . . . , k). De otra manera, tenemos que
contar de cu´ antas maneras pueden elegirse los n resultados de manera que m
h
de ellos sean e
h
. Para ello, observemos, por ejemplo, que Los m
1
vectores e
1
pueden ubicarse en

n
m
1

configuraciones diferentes. Por cada una de ellas,
los m
2
vectores e
2
pueden ubicarse en

n−m
1
m
2

configuraciones diferentes cor-
respondientes a los n − m
1
lugares a´ un no ocupados. Luego hay

n−m
1
−m
2
m
3

configuraciones posibles para ubicar los m
3
vectores que tienen que vales e
3
,
etc., y de esta manera se encuentra que el n´ umero total de configuraciones es
n!
m
1
!(n −m
1
)!
(n −m
1
)!
m
2
!(n −m
1
−m
2
)!
(n −m
1
−m
2
)!
m
3
(n −m
1
−m
2
−m
3
)!
×
(n −m
1
−m
2
−m
3
)!
m
4
(n −m
1
−m
2
−m
3
−m
4
)!
. . .
(n −m
1
−. . . −m
k−1
)!
m
k
(0)!
=
n!
¸
k
h=1
m
h
!
.
En resumen,
P{M = m} =
n!
¸
k
h=1
m
h
!
k
¸
h=1
p
m
h
h
Los momentos de primero y segundo orden de U
i
son EU
i
=
¸
k
h=1
p
h
e
h
= p,
EU
i
U
tr
i
=
¸
k
h=1
p
h
e
h
e
tr
h
= diagp, donde la notaci´ on diag aplicada a un vector
indica la matriz cuadrada que tiene las componentes del vector en la diagonal
y ceros fuera de ella.
Llamemos Σ a la variancia de cada U
i
. De los c´ alculos precedentes resulta
Σ = EU
i
U
tr
i
−EU
i
EU
tr
i
= diagp −pp
tr
.
Como consecuencia, EM = np, VarM = nΣ.
8.11 Los estad´ısticos de orden de una muestra.
8.11.1 Definici´ on de los estad´ısticos de orden.
A un conjunto X
1
, X
2
, . . . , X
n
de n variables independientes id´enticamente
distribuidas con distribuci´ on de probabilidades F, se le llama muestra aleatoria
simple de la distribuci´ on F. Consideremos una permutaci´ on π de los n´ umeros
{1, 2, . . . , n} (es decir, una funci´ on biyectiva π : {1, 2, . . . , n} → {1, 2, . . . , n})
con la propiedad X
π(1)
≤ X
π(2)
≤ . . . ≤ X
π(n)
. En otras palabras, π es la
permutaci´ on de los sub´ındices que ordena la muestra de manera creciente.
128
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
Definici´ on 8.11.1 (Estad´ısticos de orden.)
Llamamos estad´ıstico de orden h de la muestra X
1
, X
2
, . . . , X
n
a la variable
X
π(h)
, donde π es una permutaci´ on que ordena la muestra.
Se utiliza habitualmente la notaci´ on X
(h)
= X
π(h)
) (h = 1, 2, . . . , n) para
los estad´ısticos de orden.
Cuando las n variables de la muestra son diferentes entre s´ı, como ocurre
con probabilidad 1, por ejemplo, cuando la funci´ on de distribuci´ on de F es
continua, hay una sola permutaci´ on que ordena la muestra, pero, en general,
puede haber m´ as de una. A´ un en ese caso, los estad´ısticos de orden est´ an bien
definidos, a´ un cuando π no lo est´e, pues su valor es el mismo, cualquiera sea
la permutaci´ on que se elija como π entre las que ordenan la muestra.
8.11.2 Distribuci´ on de los estad´ısticos de orden.
Vamos a obtener la distribuci´ on de probabilidades del estad´ıstico de orden h,
para cada h = 1, 2, . . . , n.
Calculemos en primer lugar la probabilidad del suceso X
(h)
≤ x < X
(h+1)
que consiste en que exactamente h de las n variables de la muestra pertenecen
a la semirrecta (−∞, x]. El n´ umero de variables en (−∞, x] es Bin(n, F(x))
(con F(x) = F((−∞, x]), como es habitual), de modo que
P{X
(h)
≤ x < X
(h+1)
} = P{Bin(n, F(x)) = h} =

n
h

(F(x))
h
(1 −F(x))
n−h
.
De aqu´ı resulta
P{X
(h)
≤ x} = P{Bin(n, F(x)) ≥ h} =
n
¸
i=h

n
i

(F(x))
i
(1 −F(x))
n−i
.
Por lo tanto, cuando F tiene densidad f, obtenemos, derivando la expresi´ on
precedente, que la densidad f
(h)
de X
(h)
es:
f
(h)
(x) =
n
¸
i=h

n
i

[i(F(x))
i−1
(1−F(x))
n−i
−(F(x))
i
(n−i)(1−F(x))
n−i−1
]f(x)
= n

n −1
h −1

(F(x))
h−1
(1 −F(x))
n−h
f(x) (h = 1, 2, . . . , n).
Introducci´ on a la probabilidad.
8.11. Estad´ısticos de orden. 129
Ejemplo 8.11.1 La distribuci´ on del h-´esimo estad´ıstico de orden U
(h)
de una
muestra de tama˜ no n de la distribuci´ on uniforme en (0, 1), tiene densidad
n

n−1
h−1

x
h−1
(1 −x)
n−h
. Consecuentemente, la esperanza de U
(h)
vale h/(n +1)
(Ver Ejercicio 8.11.1). Los espaciamientos U
(h+1)
−U
(h)
tienen todos la misma
esperanza 1/(n + 1), a´ un para h = 0 y h = n, con la convenci´ on U
(0)
= 0,
U
(n+1)
= 1.
Ejercicio 8.11.1 Obs´ervese que, por ser n

n−1
h−1

x
h−1
(1 − x)
n−h
la densidad del
estad´ıstico de orden h de una muestra uniforme en (0, 1) de tama˜ no n, la integral
de esa funci´ on en (0, 1) vale 1.
Reemplazar n, h por n + 1, h + 1, y deducir que la esperanza del estad´ıstico de
orden h de la muestra uniforme de tama˜ no n vale
EU
(h)
=

1
0
n

n −1
h −1

x
h
(1 −x)
n−h
dx = h/(n + 1).
8.11.3 Otra derivaci´ on de la densidad del h-´esimo es-
tad´ıstico de orden.
Cuando F tiene densidad f, calculamos la densidad f
(h)
del h-´esimo estad´ıstico
de orden en x mediante el l´ımite cuando δ tiende a cero del cociente incremental
F
(h)
(x+δ)−F
(h)
(x)
δ
, si este l´ımite existe.
Para ello, calculamos F
(h)
(x + δ) − F
(h)
(x) = P{x < X
(h)
≤ x + δ} obser-
vando que los sucesos A(x, δ) = {x < X
(h)
≤ x+δ} y B(x, δ) = {X
(h−1)
≤ x <
X
(h)
≤ x +δ < X
(h+1)
} tienen probabilidades muy pr´ oximas, para δ peque˜ no.
En efecto, el segundo est´ a contenido en el primero, y la diferencia est´ a con-
tenida en el suceso {hay al menos dos elementos de la muestra en (x, x + δ]}
cuya probabilidad est´ a acotada por n(n −1)(F(x + δ) −F(x))
2
.
Se deduce
lim
δ→0
δ
−1
PA(x, δ) − lim
δ→0
δ
−1
PB(x, δ) ≤ lim
δ→0
n(n −1)δ
−1
(F(x + δ) −F(x))
2
= 0,
de modo que
f
(h)
(x) = lim
δ→0
δ
−1
PA(x, δ) = lim
δ→0
δ
−1
PB(x, δ)
= lim
δ→0
δ
−1
n(F(x + δ) −F(x))

n −1
h −1

(F(x))
h−1
(1 −F(x + δ))
n−h
= n

n −1
h −1

f(x)(F(x))
h−1
(1 −F(x + δ))
n−h
.
130
Enrique M. Caba˜ na.
Cap´ıtulo 8: Distribuciones conjuntas, independencia.
El inter´es de este procedimiento alternativo, es que basa el c´ alculo en la
obtenci´ on de la probabilidad de B(x, δ) y en un pasaje al l´ımite muy senci-
llo. La probabilidad de B(x, δ) surge de la enumeraci´ on de los diversos casos
posibles y de un c´ alculo combinatorio trivial, de modo que, en definitiva, este
m´etodo de c´ alculo de f
(h)
resulta convenientemente mnemot´ecnico.
Ejercicios.
Ejercicio 8.11.2 Verificar, mediante un procedimiento an´ alogo al de esta secci´on,
que la densidad conjunta de (X
(h)
, X
(k)
) en (x, y) (h < k, x < y) es
n!
(h −1)!(k −h −1)!(n −k)!
f(x)f(y)(F(x))
h−1
(F(y) −F(x))
k−h−1
(1 −F(y))
n−k
.
Ejercicio 8.11.3 Calcular la covariancia de los estad´ısticos de orden h y k de
una muestra uniforme en (0, 1) de tama˜ no n, para cada h, k ≤ n. (Se sugiere
calcular E(U
(h)
(1 − U
(k)
) para h ≤ k, aprovechando la densidad obtenida en el
ejercicio anterior, y a partir del resultado de ese c´ alculo, obtener Cov(U
(h)
, U
(k)
)
=
h(n−k+1)
(n+1)
2
(n+2)
.)
Ejercicio 8.11.4 Designemos la parte entera de un n´ umero real x mediante [x]
= max{n ∈ N : n ≤ x}. Verificar en particular que, cuando n → ∞ y λ ∈ (0, 1),
EU
([λn])
tiende a λ y VarU
([λn])
tiende a 0.
9. Distribuciones y esperanzas
condicionales.
9.1 Introducci´ on.
Cuando B es un suceso de probabilidad no nula y X es una variable aleatoria,
resulta razonable definir distribuci´ on condicional de X dado B a la probabili-
dad P
X|B
que en cada suceso A vale P
X|B
(A) = P{X ∈ A|B}.
Cuando Y es una variable discreta con recorrido esencial {Y
1
, . . . , Y
n
, . . .}
(llamamos recorrido esencial de una variable discreta con recorrido (numera-
ble) R, al subconjunto del recorrido que contiene s´ olo los puntos de probabi-
lidad positiva) a partir de las distribuciones condicionales P
X|{Y =y
j
}
, resulta
igualmente razonable llamar distribuci´ on condicional de X dado Y a la dis-
tribuci´ on de probabilidades aleatoria
P
X|Y
(A) =
n
¸
j=1
1
{Y =y
j
}
P
X|{Y =y
j
}
(A), (9.1)
que, cuando se cumple {Y = y
j
}, vale P
X|{Y =y
j
}
. Esta definici´ on no da por
resultado una probabilidad cuando Y no pertenece a su recorrido esencial, pero
tal suceso tiene probabilidad nula. Sobre un suceso de probabilidad 1, y para
cada A, P
X|Y
(A) est´ a bien determinada.
Extender la definici´ on de P
X|Y
a un caso general en el que Y no est´e
necesariamente concentrada en un conjunto discreto, por ejemplo, cuando Y
tiene distribuci´ on absolutamente continua, requiere una mayor elaboraci´ on.
Un punto de vista a la vez m´ as intuitivo y menos restringido, corresponde
a introducir primero la idea de esperanza condicional, de la que podremos
obtener como consecuencia particular la probabilidad condicional, de la misma
manera que las probabilidades de sucesos P(A) pueden obtenerse de las espe-
ranzas E(1
A
).
131
132
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
9.2 Una interpretaci´ on intuitiva para la espe-
ranza condicional.
Volvamos a considerar el modelo de un juego de azar, como el ya analizado en §1.2.2
y en §2.1, pero ahora supondremos que el premio es la variable aleatoria X, cuando
ocurre el suceso {Y ∈ B} y 0 en caso contrario. Vamos a suponer que la apuesta
se hace en el instante “0”, sin ninguna informaci´ on sobre los resultados inciertos, se
conoce el valor de la variable Y en el instante“1”, y el de la variable X en el instante
“2”, a partir del cual el jugador conoce cu´ al ha sido su premio X1
{Y ∈B}
.
Consideraremos tambi´en una segunda variante de este juego, en la que la apuesta se
hace en el instante “1”, cuando el jugador ya conoce Y , pero a´ un no conoce X. Para
la primera variante, la cantidad determin´ıstica que el jugador considera intercam-
biable por el premio es E(X1
{Y ∈B}
), en ausencia de informaci´ on adicional sobre Y .
Agreguemos ahora la informaci´ on de cu´ al es el valor de la variable Y . Como en 2.1,
resulta razonable pensar que el jugador, con esta informaci´ on adicional, modifique
eventualmente su apuesta, es decir, interprete que el valor determin´ıstico equivalente
a X1
{Y ∈B}
es ahora una nueva cantidad, funci´ on del valor de Y . Evidentemente, si
Y ∈ B, la apuesta ser´a 0. Y cuando Y ∈ B, la eventual dependencia entre ambas
variables har´ a que la nueva apuesta sea ahora cierta funci´ on del valor y que haya
obtenido la variable Y , que denotaremos por g(y). Es tambi´en claro que, si cambia-
mos el suceso B sin que deje de contener al punto y, la cantidad g(y) no cambia. Por
lo tanto, para la segunda variante, en el instante “1”, el jugador considerar´ a inter-
cambiables las cantidades X1
{Y ∈B}
y g(y)1
{Y ∈B}
. Esto implica que en el instante
“0” considerar´ a intercambiables las variables aleatorias X1
{Y ∈B}
y g(Y )1
{Y ∈B}
, y
adem´as la constante E(X1
{Y ∈B}
), que, por consiguiente, es tambi´en E(g(Y )1
{Y ∈B}
).
A esta funci´ on compuesta de g con la variable Y , considerada intercambiable a X,
la vamos a llamar esperanza condicional de X dada Y . Al valor g(y) lo llamamos
esperanza condicional de Xdado {Y = y}.
Antes de escribir las definiciones en forma resumida, consideremos un ejemplo. Su-
pongamos que en una mesa de juego se arroja un dado (equilibrado) dos veces inde-
pendientemente, y se denota por S a la suma de los puntos resultantes. El premio es
X = 1
{S≥10}
. Sin m´ as informaci´ on adicional, tenemos 36 resultados posibles equi-
probables, de los cuales seis ((4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)) son favorables.
La apuesta equitativa o esperanza de X = 1
{S≤10}
es 1/6. Sin embargo, si el jugador
antes de apostar conoce la cara Y obtenida en el primer intento, su apuesta depender´ a
de cu´ al sea este resultado. Si es 1, 2 ´o 3, apostar´ a 0, pues estar´a seguro de perder. Si
es 4, apostar´a 1/6, pues s´olo gana si el segundo dado cae en 6. Si es 5, apostar´ a 1/3,
y si es 6, apostar´ a 1/2. Tenemos entonces g(1) = g(2) = g(3) = 0, g(4) = 1/6, g(5)
= 1/3, g(6) = 1/2.
Notemos por ´ ultimo que cuando X, Y son independientes, el conocimiento de Y no
debe alterar la apuesta en favor de X, es decir, g(y) no debe variar con el valor y de
Y , sino que debe valer E(X) para todo y.
Introducci´ on a la probabilidad.
9.3. Definici´ on de la esperanza condicional. 133
9.3 Definici´ on de la esperanza condicional.
Vamos a formalizar la definici´ on de esperanza condicional introducida en §9.2
de manera intuitiva. Observemos que de esa introducci´ on resulta que la espe-
ranza condicional de X dada Y es una variable aleatoria que puede escribirse
en la forma g ◦ Y.
Para asegurar que esta funci´ on compuesta sea efectivamente una varia-
ble aleatoria, admitiremos que g resulte ser una funci´ on de Borel, es decir,
una funci´ on para la cual la correspondencia C → g
−1
(C) entre subconjuntos
del recorrido y del dominio establecida por las preim´ agenes, lleva cualquier
conjunto de Borel C de R en un conjunto de Borel g
−1
(C). Esto implica
adem´ as que la preimagen de C por la variable aleatoria g ◦ Y es un conjunto
Y
−1
(g
−1
(C)) de la σ-´algebra A
Y
generada por la variable Y , es decir, la m´ınima
σ-´algebra que contiene a los sucesos de la forma {Y ∈ B}, para B ∈ B.
Como resumen de lo que precede, podemos establecer que E(X|Y ) es una
variable aleatoria g(Y ) de (Ω, A
Y
) en (R, B) que para todo suceso {Y ∈ B},
{B ∈ B}, satisface E(E(X|Y )1
{Y ∈B}
) = E(X1
{Y ∈B}
).
De lo que precede recogemos la siguiente definici´ on:
Definici´ on 9.3.1 (i) Dadas las variables aleatorias X, Y , con valores en R
llamamos esperanza condicional de X dada Y a una nueva variable aleatoria
g(Y ) que denotamos E(X|Y ), con la propiedades
g : (R, B) → (R, B) es medible,
E(g(Y )1
{Y ∈B}
) (= E(E(X|Y )1
{Y ∈B}
)) = E(X1
{Y ∈B}
), para todo con-
junto B de B.
La medibilidad de g asegura que g(Y ) sea una variable aleatoria.
(ii) Dadas la variable aleatoria X, en el espacio de probabilidad (Ω, A) y
la sub-σ-´ algebra C ⊂ A, llamamos esperanza condicional de X dada C a una
nueva variable aleatoria en (Ω, C) que denotamos E(X|C), con la propiedad
E(E(X|C)1
C
) = E(X1
C
), para todo conjunto C de C.
Nota 1: La parte (i) de la definici´ on precedente se extiende con los cam-
bios obvios al caso de variables X, Y con valores en espacios de probabilidad
cualesquiera, no necesariamente (R, B).
Nota 2: La definici´ on introduce de manera paralela la esperanza dada una
variable aleatoria Y y la esperanza dada una σ-´algebra C. La variable aleatoria
E(X|Y ) definida en (i) satisface las condiciones de E(X|C) en (ii), cuando C
es la σ-´algebra A
Y
generada por Y . Para ese caso particular, la parte (i) del
134
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
enunciado agrega al contenido de la parte (ii) que la variable aleatoria E(X|Y )
A
Y
-medible se escribe en la forma g(Y ).
Teorema 9.3.1 (Existencia de las esperanzas condicionales).
(i) Si E(|X|) < ∞, las esperanzas condicionales E(X|Y ) de X dada
Y y E(X|C) de X dada la σ-´ algebra C existen y son esencialmente
´ unicas. M´ as precisamente, en el primer caso, si g
1
y g
2
son dos fun-
ciones de Borel con la propiedad E(g
1
(Y )1
{Y ∈B}
) = E(g
2
(Y )1
{Y ∈B}
)
= E(X1
{Y ∈B}
), para todo B en B, entonces P{g
1
(Y ) = g
2
(Y )} = 0;
en el segundo caso, si Z
1
y Z
2
son dos variables aleatorias en (Ω, C)
con la propiedad E(Z
1
1
C
) = E(Z
2
1
C
) = E(X1
C
), para todo con-
junto C de C, entonces P{Z
1
= Z
2
} = 0.
(ii) En el primer caso, para cualquier variable aleatoria V de (Ω, A
Y
) en
(R, B), con esperanza finita, se cumple E(V X|Y ) = V E(X|Y ) (A
Y
designa a la σ-´ algebra generada por Y ). En el segundo caso, para
cualquier variable aleatoria V de (Ω, C) en (R, B), con esperanza
finita, se cumple E(V X|C) = V E(X|C).
Nota: A cualquiera de las funciones g en las condiciones de la definici´ on
de E(X|Y ), la denotaremos g(y) = E(X|Y = y). Si g satisface las condiciones
de la definici´ on, tambi´en las satisface cualquier funci´ on g
1
tal que P{g
1
(Y ) =
g(Y )} = 0, y por la parte (ii) del Teorema, las ´ unicas otras funciones que las
satisfacen son precisamente las de la clase de equivalencia
{g
1
: R → R, P{g
1
(Y ) = g(Y )} = 0}. (9.2)
Por ese motivo, extendemos la notaci´ on E(X|Y ) que representa cualquiera de
las variables aleatorias de la clase de equivalencia (9.2) a la clase misma, y del
mismo modo llamaremos E(X|Y = y) a cualquiera de las funciones g
1
(y) de
la clase (9.2) o bien a toda la clase conjuntamente, de acuerdo al contexto.
Demostraci´ on de la parte (i).
Existencia de la esperanza condicional de X dada C:
Dadas la variable X ≥ 0 en (Ω, A, P) y la σ-´algebra C ∈ A, buscamos una
nueva variable Z = E(X|C) en (Ω, C) tal que para todo C ∈ C,

C
Z dP =

C
X dP. La soluci´ on est´ a dada por la densidad de la medida C →

C
X dP
respecto de P que el Teorema 7.6.1 muestra que es esencialmente ´ unica. La
Introducci´ on a la probabilidad.
9.3. Definici´ on de la esperanza condicional. 135
medida cuya densidad calculamos es finita, por la acotaci´ on E(|X|) < ∞
indicada en la hip´ otesis.
En el caso general (X no necesariamente no negativa), se calculan por
separado las esperanzas condicionales de X
+
y de X

y se restan.
Existencia de la esperanza condicional de X dada Y :
Se aplica el caso anterior, con C = A
Y
, σ-´algebra generada por la variable
aleatoria Y . S´olo resta verificar que una variable aleatoria Z en A
Y
se puede
expresar en la forma Z = g(Y ). Para ello, definimos en (R, B) la medida
con signo B → EZ1
{Y ∈B}
, que es absolutamente continua respecto de la dis-
tribuci´ on P
Y
de Y . La densidad g respecto de la distribuci´ on de Y cumple
entonces
EZ1
{Y ∈B}
=

B
g(y)dP
Y
(y) = Eg(Y )1
{Y ∈B}
.
Dado que Z y g(Y ) son A
Y
-medibles, la igualdad anterior implica que P{Z =
g(Y )} = 1. 2
Demostraci´ on de la parte (ii).
Basta considerar el segundo caso, porque el primero se reduce a ´este:
Dada V : (Ω, C) → (R, B), con esperanza finita, tenemos que verificar que
la esperanza condicional E(V X|C) vale V E(X|C).
Puesto que V E(X|C) es obviamente C-medible, s´olo resta verificar que para
cada C ∈ C,
E(V E(X|C)1
C
) = E(V X1
C
).
Esto es cierto trivialmente cuando V es la indicatriz de un suceso A de C,
porque en ese caso la igualdad se reduce a E(E(X|C)1
A∩C
) = E(X1
A∩C
) y
se aplica la propiedad que caracteriza a la esperanza condicional E(X|C). En
virtud de la linealidad y del Teorema de Beppo Levi, la igualdad se extiende
primero al caso en que V es una variable aleatoria simple, y luego a V ≥ 0.
Finalmente, para V de signo cualquiera, se aplica la igualdad ya verificada a
V
+
y a V

, y se obtiene el resultado requerido por diferencia. En esta instancia
se aplica la hip´ otesis de finitud de la esperanza de V . 2
Teorema 9.3.2 Si X, Y son variables discretas, con recorridos respectivos
{x
1
, x
2
, . . . , x
h
}, {y
1
, y
2
, . . . , y
k
}, entonces se cumple
E(X|Y = y
j
) =
h
¸
i=1
x
i
P{X = x
i
|Y = y
j
}
para j = 1, 2, . . . , k, y, por lo tanto,
E(X|Y ) =
k
¸
j=1
h
¸
i=1
x
i
P{X = x
i
|Y = y
j
}1
{Y =y
j
}
.
136
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
Demostraci´ on. La esperanza condicional de X dada Y es una variable ale-
atoria que sobre cada uno de los sucesos {Y = y
j
}, j = 1, 2, . . . , k vale g(y
j
).
Llamamos g
j
a g(y
j
), lo que nos permite escribir E(X|Y ) =
¸
k
j=1
g
j
1
{Y =y
j
}
.
La propiedad que caracteriza a la esperanza condicional es que para cada m,
E(X1
{Y =ym}
) = E(1
{Y =ym}
¸
k
j=1
g
j
1
{Y =y
j
}
).
Reemplazando X =
¸
h
j=1
x
i
1
{X=x
i
}
y calculando las esperanzas, encon-
tramos g
m
=
¸
h
j=1
x
i
P{X = x
i
|Y = y
m
}. 2
Nota. Se observar´ a que la conclusi´ on del teorema anterior equivale a decir
que la esperanza condicional de X dado {Y = y} es la esperanza de X calcu-
lada con la distribuci´ on de probabilidad condicional dado el suceso {Y = y}.
Esta caracterizaci´ on de la esperanza condicional es apropiada en el caso de
variables discretas. No resulta ´ util en cambio para variables con distribuci´ on
absolutamente continua, porque en ese caso P{Y = y} es cero para cada y.
Teorema 9.3.3 Si X, Y tienen distribuci´ on absolutamente continua con den-
sidad conjunta f, entonces se cumple
E(X|Y = y) =


−∞
xf
(X|Y =y)
(x)dx
con
f
(X|Y =y)
(x) =
f(x, y)


−∞
f(x, y)dx
. (9.3)
Demostraci´ on. Dado un conjunto de Borel B, tenemos que verificar la
identidad E(E(X|Y )1
{Y ∈B}
) = E(X1
{Y ∈B}
). El primer miembro vale

B
f
Y
(y)E(X|Y = y)dy =

B
f
Y
(y)dy


−∞
f(x, y)dx


−∞
xf(x, y)dx
=

B
dy


−∞
xf(x, y)dx,
ya que
f
Y
(y) =


−∞
f(x, y)dx.
La ´ ultima expresi´ on obtenida es precisamente E(X1
{Y ∈B}
). 2
Nota mnemot´ecnica. La expresi´ on (9.3) se obtiene de
P{X ∈ (x, x + δ)|Y ∈ (y, y + ε)} =
P{X ∈ (x, x + δ), Y ∈ (y, y + ε)}
P{Y ∈ (y, y + ε)}
Introducci´ on a la probabilidad.
9.4. La distribuci´ on condicional. 137
aproximando, cuando δ y ε son peque˜ nos, P{X ∈ (x, x + δ)|Y ∈ (y, y + ε)}
por δf
X|Y =y
(x), P{X ∈ (x, x + δ), Y ∈ (y, y + ε)} por δεf
X,Y
(x, y) y P{Y ∈
(y, y + ε)} por εf
Y
(y). 2
Los enunciados de los Teoremas 9.3.2 y 9.3.3 son un caso particular del
siguiente:
Teorema 9.3.4 Si (X, Y ) tiene densidad f
X,Y
respecto de la medida µ en R
2
producto de las medidas σ-finitas µ
1
y µ
2
(es decir, para A, B cualesquiera
de Borel en R, µ(A × B) = µ
1
(A)µ
2
(B) (ver §§8.4.2, 8.4.3)), entonces la
distribuci´ on condicional de X dado Y = y tiene densidad f
X|Y =y
respecto de
µ
1
, que vale
f
X|Y =y
(x) =
f
X,Y
(x, y)
f
Y
(y)
(9.4)
donde f
Y
es la densidad de Y respecto de µ
2
.
Demostraci´ on. Tenemos que verificar que para cualesquiera A, B de Borel,
E

A
f
X|Y
(x)dµ
1
(x)1
{Y ∈B}
= E1
{X∈A}
1
{Y ∈B}
,
es decir

B

A
f
X|Y =y
(x)dµ
1
(X)

f
Y
(y)dµ
2
(y) =

A×B
f
X,Y
(x, y)dµ(x, y),
y esta ´ ultima igualdad se cumple como consecuencia del Teorema de Fubini
(ver Teorema 9.6.2), cuando f
X|Y
est´ a dada por (9.4). 2
Teorema 9.3.5 Si X, Y son independientes, E(X|Y ) = E(X).
Demostraci´ on. Para cada C en la σ-´algebra del codominio de Y , E(X1
{Y ∈C}
)
vale E(X)E(1
{Y ∈C}
) por la independencia, y este producto es E(E(X)1
{Y ∈C}
)
por ser EX una constante. 2
9.4 La distribuci´ on condicional.
Ya hemos notado que la distribuci´ on de probabilidad de una variable alea-
toria X puede describirse a partir de esperanzas, por medio de P{X ∈ A}
= E(1
{X∈A}
). Esto sugiere la definici´ on siguiente.
138
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
Definici´ on 9.4.1 Se llama distribuci´ on condicional de X dado {Y = y}
a la probabilidad P
X|{Y =y}
en (R, B) con funci´ on de distribuci´ on
F
X|{Y =y}
(x) = E(1
{X≤x}
|Y = y).
La expresi´ on que define F
X|{Y =y}
(x) es aplicable a todo x ∈ R, pero
para determinar la distribuci´ on de probabilidades P
X|{Y =y}
basta conocer
F
X|{Y =y}
(x) sobre el conjunto numerable de los racionales.
Para cada x, F
X|{Y =y}
(x) no est´ a totalmente determinada como funci´ on de
y, sino a menos de una clase de equivalencia, de acuerdo a lo indicado en la
Nota que sigue al Teorema 9.3.1. Por lo tanto, si nos damos dos represen-
tantes F(x, y) y F

(x, y) de E(1
{X≤x}
|Y = y), estos pueden diferir s´ olo para
y ∈ C
x
con P{Y ∈ C
x
} = 0. Por lo tanto, las funciones F(x, y) y F

(x, y)
son id´enticas sobre el dominio Q de los x racionales, para y en el comple-
mento de C =
¸
x∈Q
C
x
. Esta uni´ on numerable de sucesos de probabilidad
nula, tiene probabilidad cero, de modo que concluimos que las distribuciones
condicionales, que est´ an determinadas por sus funciones de distribuci´ on eval-
uadas en Q, son todas esencialmente la misma, es decir, dos de ellas difieren a
lo sumo para y en C y P{Y ∈ C} = 0.
Notaci´ on: Es habitual denotar la probabilidad condicional P
X|{Y =y}
(A)
por P{X ∈ A|Y = y}.
Teorema 9.4.1 La distribuci´ on condicional P{X ∈ A|Y = y} es una proba-
bilidad, como funci´ on de A, excepto posiblemente para y en un conjunto C de
probabilidad P{Y ∈ C} nula.
Cuando Y es la funci´ on indicatriz de un suceso B, la distribuci´ on de X
dado Y = 1 en A coincide con la probabilidad condicional dado B de {X ∈ A}.
La primera parte est´ a demostrada en el contexto previo al enunciado del
Teorema. El segundo resultado del enunciado es consecuencia del Teorema
9.3.2, y muestra la coherencia de la notaci´ on que se utiliza. 2
Ejercicios
Ejercicio 9.4.1 Supongamos que (X, Y ) tiene distribuci´ on conjunta absolutamen-
te continua con densidad f
X,Y
continua, y densidad marginal f
Y
continua. Mostrar
que P
X|{y−δ<Y <y+δ}
es absolutamente continua, y que su densidad tiene l´ımite
f
X|{Y =y}
cuando δ → 0.
Introducci´ on a la probabilidad.
9.5. Esperanzas condicionales iteradas. 139
Ejercicio 9.4.2 Mostrar que si X tiene distribuci´ on con recorrido {x
1
, . . . , x
m
. . .}
e Y tiene distribuci´ on condicional dado {X = x
i
} absolutamente continua para cada
i = 1, . . . , m, . . ., entonces P{X = x
i
|y − δ < Y < y + δ} tiene l´ımite que coincide
con P
X|{Y =y}
({x
i
}).
Ejercicio 9.4.3 Si X, Y son independientes, entonces P
X|{Y =y}
(A) = P
X
(A) (la
distribuci´ on condicional de X dado {Y = y} es la distribuci´ on de X, a la que,
dentro del contexto de distribuciones condicionales, suele llam´ arsele la distribuci´ on
incondicional de X).
Ejercicio 9.4.4 Dadas las variables i.i.d.Y
1
, Y
2
, . . . , Y
n+1
, con distribuci´ on expo-
nencial de par´ ametro 1, escribir la densidad conjunta f
Y
1
,...,Y
n+1
(t
1
, . . . , t
n+1
) y la
densidad condicional f
Y
1
,...,Yn|Y
n+1
=t
n+1
(t
1
, . . . , t
n
).
Dados 0 < a
1
< b
1
< a
2
< b
2
< . . . < a
n
< b
n
< 1, calcular la probabilidad
condicional dado Y
n+1
= t
n+1
del suceso
{a
1
t
n+1
< Y
1
< b
1
t
n+1
, a
2
t
n+1
< Y
2
< b
2
t
n+1
, . . . , a
n
t
n+1
< Y
n
< b
n
t
n+1
}.
Deducir que los cocientes Y
1
/Y
n+1
, . . . , Y
n
/Y
n+1
tienen la distribuci´ on conjunta
de los estad´ısticos de orden de la distribuci´ on uniforme en [0, 1].
9.5 Esperanzas condicionales iteradas.
Denotaremos A
Y,Z
a la σ-´algebra generada por los sucesos {Y ∈ B, Z ∈ C}
B, C, de Borel.
Definici´ on 9.5.1 Dadas tres variables aleatorias X, Y , Z, llamamos espe-
ranza condicional de X dadas Y, Z, a la esperanza condicional de X dada
la variable aleatoria Y, Z con valores en R
2
.
E(X|Y, Z) es una variable aleatoria en (Ω, A
Y,Z
), funci´ on de las variables
Y, Z, que denotaremos tambi´en E(X|Y, Z) = g ◦ (Y, Z), y para cualesquiera
B, C, de Borel, E(E(X|Y, Z)1
{Y ∈B,Z∈C}
) = E(X1
{Y ∈B,Z∈C}
).
Consideremos el juego con premio X1
{Y ∈B,Z∈C}
, y supongamos que Y , Z y X
se dan a conocer respectivamente en los instantes “1”, “2” y “3”. La apuesta eq-
uitativa en “0” es E(X1
{Y ∈B,Z∈C}
), en “1”, una vez que se conoce Y = y es
1
{Y ∈B}
E(X1
{Z∈C}
|Y = y), y en “2”, luego de conocer adem´ as el valor de la va-
riable Z = z, es 1
{Y ∈B,Z∈C}
E(X|Y = y, Z = z). Se deduce de esta interpretaci´ on
heur´ıstica que deben cumplirse las identidades
E(X1
{Y ∈B,Z∈C}
) = E(1
{Y ∈B}
E(X1
{Z∈C}
|Y )) = E(1
{Y ∈B,Z∈C}
E(X|Y, Z)),
140
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
para cualesquiera conjuntos de Borel B, C, pero tambi´en que para cada y, debe
cumplirse
E(X1
{Z∈C}
|Y = y) = E(1
{Z∈C}
E(X|Y, Z)|Y = y),
como resulta de aplicar la propiedad de la Definici´ on 9.3.1 con la distribuci´ on de
probabilidades condicional dado Y = y que es la aplicable luego de“1” y antes de
“2”.
Lo que precede sugiere el enunciado del siguiente teorema.
Teorema 9.5.1 (i) Dadas las variables X, Y , Z, cuando X ≥ 0 o E|X| <
∞, se cumple E(E(X|Y, Z)|Y ) = E(X|Y ).
(ii) Dadas X no negativa o con esperanza finita y las σ-´ algebras C, D (C ⊂
D ⊂ A), se cumple E(E(X|D)|C) = E(X|C).
El v´ınculo con la observaci´ on que precede, y entre ambas partes del enuncia-
do, se obtiene con C = A
Y
, σ-´algebra generada por Y , y D = A
Y,Z
, σ-´algebra
generada por Y , Z, que es m´as rica que A
Y
.
Demostraci´ on. Basta demostrar (ii), que contiene a (i) a partir de la
observaci´ on previa. Por la unicidad (Teorema 9.3.1), basta verificar que para
cada conjunto C de C se cumple E(E(E(X|D)|C)1
C
) = E(X1
C
). Esto es cierto
porque, de la definici´ on de esperanza condicional, resulta E(E(E(X|D)|C)1
C
)
= E(E(X|D)1
C
) y, debido a la inclusi´ on C ⊂ D, C es un conjunto de D, de
modo que E(E(X|D)1
C
) = E(X1
C
). 2
Ejercicios.
Ejercicio 9.5.1 Diez cajas numeradas del 0 al 9 contienen cada una, nueve fichas.
La caja No. i contiene i fichas rojas, y las restantes blancas.
Se elige al azar una caja, que resulta ser la No. X, y de ella se extrae una ficha
al azar. Si la ficha es roja, definimos Y = 1, y si es blanca, Y = 0.
(a) Hallar la distribuci´ on conjunta de X, Y .
(b) Hallar la distribuci´ on (marginal ) de Y .
(c) Calcular EX, EY , E(Y |X=x), E(X|Y =y), VarX, VarY , Var(X|Y =y),
Var(Y |X =x), E(E(X|Y )), E(E(Y |X)), Var(E(X|Y )), Var(E(Y |X)),
E(Var(X|Y )), E(Var(Y |X)).
(d) Si tuvi´eramos que adivinar X, ¿qu´e valor elegir´ıamos a priori (sin cono-
cer Y ) para maximizar la probabilidad de acierto? ¿qu´e valor elegir´ıamos
a posteriori (despu´es de conocer Y ), cuando Y = 1? ¿cu´al cuando Y = 0?
Introducci´ on a la probabilidad.
9.5. Esperanzas condicionales iteradas. 141
Ejercicio 9.5.2 La pareja de variables (X, Y ) tiene densidad de distribuci´ on con-
junta
f
X,Y
(x, y) =

x +y si 0 < x, y < 1
0 en caso contrario.
(a) Hallar la densidad f
X
de la distribuci´ on de X. Calcular P{X ≤ 1/2},
P{X +Y ≤ 1/2}.
(b) Hallar la densidad condicional f
X|Y =y
, E(X|Y = y), Var(X|Y = y).
Ejercicio 9.5.3 Un pasajero llega al terminal de autobuses en el instante T, con
distribuci´ on uniforme entre las 11 y las 12 horas. De acuerdo a lo anunciado, est´ a
previsto que del terminal partan un autob´ us a las 11 y otro a las 12, pero ´estos salen
con retardos X e Y , con igual funci´ on de distribuci´ on F que satisface F(1 hora) = 1.
Si ambos autobuses le sirven al pasajero, y T, X, Y son independientes, cu´ al es
la esperanza del tiempo que el pasajero permanecer´a en el terminal?
Ejercicio 9.5.4 A dos taquillas desocupadas llegan simult´ aneamente las personas
A y B, cuyos respectivos tiempos de atenci´on son variables aleatorias independientes
con distribuci´ on exponencial, y con esperanza igual a una hora. Inmediatamente
despu´es llega la persona C, que ser´a atendida en la primera taquilla que quede libre.
Se supone que el tiempo de atenci´ on de C tambi´en es una variable aleatoria con
distribuci´ on exponencial, independiente de las anteriores, pero con esperanza igual
a dos horas.
Calcular la probabilidad de que C no sea el ´ ultimo en retirarse.
Ejercicio 9.5.5 Se considera el siguiente juego de azar entre dos jugadores:
El primer jugador elige al azar un punto X en el intervalo (0, 2) con distribuci´ on
uniforme, y el segundo jugador un punto al azar Y en (1, 3), tambi´en con distribuci´ on
uniforme. Suponemos que X e Y son variables aleatorias independientes.
Si X < Y , el primer jugador paga a(Y − X) al segundo; si X ≥ Y , el segundo
jugador paga b(X −Y ) al primero. (a y b son constantes positivas).
(i) Hallar la relaci´ on b/a para que el juego sea equitativo, es decir para que
la ganancia esperada de cada jugador sea cero.
(ii) Con la relaci´ on b/a calculada en la parte anterior, calcular la variancia
de la ganancia del primer jugador.
Ejercicio 9.5.6 El tiempo T que demora en caer un sistema de procesamiento de
datos tiene distribuci´ on con densidad f
T
(t) = (t(hora
−1
) exp(−thora
−1
)(0 < t < ∞).
Si se procesan sucesivamente trabajos con tiempos de procesamiento X
1
, X
2
, . . .
independientes, con igual distribuci´ on exponencial con media 6 minutos, calcular la
esperanza del n´ umero de trabajos que se pueden procesar completamente antes que
caiga el sistema.
142
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
Ejercicio 9.5.7 Cu´ anto vale la esperanza condicional de X dadas las σ-´algebras
triviales {∅, Ω} y 2

.
Ejercicio 9.5.8 Rever el Ejercicio 8.5.1(b) a la luz del Teorema 9.5.1.
9.6 La esperanza de una funci´ on de una pareja
de variables independientes, y el Teorema
de Fubini.
Vamos a aplicar el Teorema 9.5.1 al c´ alculo de la esperanza de una funci´ on
g(X, Y ) de variables independientes X, Y .
Por una parte (ver§13.4) Eg(X, Y ) vale

g(x, y)dP
X,Y
(x, y). Por otra,
el Teorema 9.5.1 permite calcular Eg(X, Y ) = E(E(g(X, Y )|Y )) mediante la
integral

E(g(X, Y )|Y = y)dP
Y
(y). Adem´ as, la independencia implica que
la distribuci´ on condicional de X dada Y = y coincide con la distribuci´ on
incondicional P
X
, de modo que E(g(X, Y )|Y = y) =

g(x, y)dP
X
(x).
Estas observaciones permiten concluir el enunciado siguiente:
Teorema 9.6.1 Si X ∼ P
X
e Y ∼ P
Y
son independientes,
Eg(X, Y ) =

g(x, x)dP
X
(x)dP
Y
(y)
=

g(x, y)dP
X
(x)

dP
Y
(y) =

g(x, y)dP
X
(x)

dP
Y
(y),
donde dP
X
(x)dP
Y
(y) es una notaci´ on para dP
X,Y
(x, y) cuando P
X,Y
= P
X
×
P
Y
.
Demostraci´ on. La primera expresi´ on de la integral respecto de la medida
producto como integral iterada est´ a justificada en el contexto previo al enun-
ciado, y la segunda se obtiene intercambiando el papel de la X y la Y. 2
Corolario 9.6.1.1 (Teorema de Fubini para la Integral de Lebesgue).
(i) Si g : [0, 1] ×[0, 1] → R es no negativa o integrable respecto de la medida
de Lebesgue en R
2
, entonces

[0,1]×[0,1]
g(x, y)dλ(x, y) =

1
0
dx

1
0
g(x, y)dy =

1
0
dy

1
0
g(x, y)dx.
(ii) Un resultado an´ alogo vale cuando se reemplaza el dominio por el plano
R
2
= R×R:

R×R
g(x, y)dλ(x, y) =


−∞
dx


−∞
g(x, y)dy =


−∞
dy


−∞
g(x, y)dx.
Introducci´ on a la probabilidad.
9.6. Teorema de Fubini. 143
Demostraci´ on. La parte (i) resulta del Teorema 9.6.1 con X e Y uniformes
en [0, 1]. La parte (ii) resulta de desarrollar las integrales en la forma

R
2
g(x, y)dλ(x, y) =

¸
m=−∞

¸
n=−∞
Eg(X + m, Y + n)
con X, Y ∼ Unif(0, 1), y, an´ alogamente,

R
h(t)dt =

¸
m=−∞
Eh(X + m),
con X ∼ Unif(0, 1). 2
Teorema 9.6.2 (Teorema de Fubini). Cuando µ
1
, µ
2
son medidas σ-finitas
en R, µ = µ
1
×µ
2
es la medida producto en R
2
, y f : R
2
→ R es no negativa
o integrable respecto de µ, entonces

R

R
f(x, y)dµ
1
(x)


2
(y) =

R

R
f(x, y)dµ
2
(y)


1
(x),
y, si el soporte de f est´ a en el rect´ angulo [a, b] ×[c, d],

d
c

b
a
f(x, y)dµ
1
(x)


2
(y) =

b
a

d
c
f(x, y)dµ
2
(y)


1
(x).
Demostraci´ on. Cuando µ
1
, µ
2
son probabilidades, el presente Teorema coin-
cide con el Teorema 9.6.1. El caso general se obtiene por un argumento similar
al que demuestra la parte (ii) del Corolario precedente a partir de la parte (i)
del mismo Corolario:
Cuando µ
1
es una medida σ-finita, se puede escribir mediante una serie
de la forma µ
1
=
¸
m
c
1,m
P
1,m
, donde P
1,m
son probabilidades. De la misma
manera, µ
2
=
¸
n
c
2,n
P
2,n
, donde P
2,n
son tambi´en probabilidades.
Entonces µ =
¸
m,n
c
1,m
c
2,n
P
1,m
× P
2,n
, y a cada producto P
1,m
× P
2,n
se
aplica el Teorema 9.6.1. Esto permite llegar sin dificultad al resultado del
enunciado. 2
Nota: El Cap´ıtulo 13 incluye una demostraci´ on del Teorema de Fubini,
independiente de la precedente (ver 13.5.1).
144
Enrique M. Caba˜ na.
Cap´ıtulo 9: Distribuciones y esperanzas condicionales
10.

Convergencia de
probabilidades en una cadena de
Markov.
El presente cap´ıtulo es una continuaci´ on natural del Cap´ıtulo 5. Est´ a cen-
trado alrededor de un teorema de convergencia de las probabilidades de una
cadena de Markov con un conjunto numerable de estados (Teorema 10.2.1),
cuyo tratamiento ha sido necesario posponer hasta haber introducido la espe-
ranza, ya que las esperanzas de los tiempos de llegada a estados de la cadena
intervienen de manera crucial en el enunciado y en la demostraci´ on del men-
cionado teorema.
10.1 Cadenas con una cantidad numerable de
estados.
La definici´ on de una Cadena de Markov con un conjunto numerable de estados
E = {E
1
, E
2
, . . . , E
n
, . . .}, es una extensi´ on natural de la definici´ on de una
cadena finita. Tambi´en las notaciones matriciales se extienden a este caso,
utilizando matrices infinitas.
Una matriz infinita es una sucesi´ on doble P = P
·,·
= (P
i,j
: i, j ∈ N).
Un vector infinito x = x
·
= (x
k
: k ∈ N) es una sucesi´on. Si convenimos en
decir que x es un vector columna, multiplicamos Px =

j
P
·,j
x
j
y convenimos
en que la sucesi´on resultante es tambi´en un vector columna. En cambio, si
convenimos en que π = π
·
es un vector fila, entonces tambi´en convenimos en
que πP es un vector fila, a saber, πP =

i
π
i
P
i,·
.
Omitimos detallar otras operaciones entre matrices infinitas, por ejemplo,
suma o producto, que son tambi´en generalizaci´ on natural de las mismas ope-
raciones en el caso finito.
145
146
Enrique M. Caba˜ na.
Cap´ıtulo 10: Convergencia de probabilidades en una C. de M.
Aunque no sean formalmente correctas, utilizaremos a menudo las nota-
ciones ((P
i,j
)) en vez de P
·,·
y (x
j
) o (π
i
) para los vectores (x
·
), (π
·
). Una vez
reservados los nombres i y j para los ´ındices de fila y columna de la matriz, la
utilizaci´ on de la i en (π
i
) indica que se trata de un vector fila, y la de la j en
(x
j
) indica que es un vector columna.
Podemos dentro de este contexto reescribir la Definici´ on 5.2.1:
Definici´ on 5.2.1, versi´ on numerable.Llamamos cadena de Markov con es-
pacio de estados E = {E
i
: i = 1, 2, . . . , n, . . .} y matriz (infinita) de probabili-
dades de transici´ on
P = (P
i,j
: i, j ∈ N)
a cualquier sucesi´ on de variables aleatorias X
0
, X
1
, . . . , X
n
, . . . que cumpla
(5.1) para cualquier n y cualquier sucesi´ on de estados (E
i
h
)
h=0,1,2,...
.
Como en el caso finito, si 1 es el vector columna de componentes todas
iguales a 1, entonces P1 = 1. El vector π
(n)
= (P{X
n
= E
i
} : i ∈ N) se
calcula mediante la f´ ormula formalmente id´entica a la del caso finito
π
(n)
= πP
n
.
Notaci´ on: En lo sucesivo, para abreviar, supondremos a menudo que los
estados de una cadena son E
i
= i, es decir, identificaremos cada estado con su
´ındice.
10.2 Teorema de convergencia de probabilida-
des en una cadena de Markov numerable.
El siguiente enunciado contiene varios t´erminos cuyas definiciones se indican
luego del mismo:
Teorema 10.2.1 (Teorema de convergencia de probabilidades.) Si (X
n
)
n=1,2,...
es una cadena de Markov con probabilidades de transici´ on P = ((P
i,j
)) y espa-
cio de estados E (finito o numerable) que forman una ´ unica clase de equiva-
lencia, recurrente, aperi´ odica, entonces existe el l´ımite lim
n→∞
P
(n)
i,j
= π

j
, que
no depende de i.
Adem´ as, ocurre una de estas dos alternativas:
(a) la esperanza del tiempo de llegada o retorno T
j
= min{n ≥ 1 : X
n
= j}
es infinita para todo j, y en ese caso π

j
= 0 para todo j, o bien
Introducci´ on a la probabilidad.
10.2. Cadenas numerables. 147
(b) la esperanza del tiempo de llegada o retorno T
j
= min{n ≥ 1 : X
n
= j} es
finita para todo j, y en ese caso el vector π

= (π

h
)
h∈E
es un vector de
probabilidades estacionarias: π

P = π

. El valor de cada componente
de π

es π

j
= (ET
j
)
−1
.
Con la convenci´ on (ET
j
)
−1
= 0 cuando ET
j
= ∞, la expresi´ on π

j
=
(ET
j
)
−1
vale para ambas alternativas.
Notaci´ on: Si 1 es el vector columna de componentes todas iguales a 1,
entonces lim
n→∞
P
n
= 1π

.
10.2.1 Significado de las hip´ otesis del enunciado.
Definici´ on 10.2.1 Los estados i, j de una cadena con probabilidades de tran-
sici´ on ((P
i,j
)) son equivalentes, cuando existen n
i,j
≥ 0 tal que P
(n
i,j
)
i,j
> 0 (y
en este caso se dice que i precede a j), y n
j,i
tal que P
(n
j,i
)
j,i
> 0 (tambi´en j
precede a i).
Nota: La relaci´ on de la definici´ on precedente es en efecto una relaci´ on
de equivalencia, como es inmediato verificar (Ejercicio 10.3.1), de modo que
clasifica a los estados de una cadena en clases de equivalencia. Dos estados
est´ an en la misma clase cuando la probabilidad de que el sistema pase de
cualquiera de ellos al otro es positiva.
Notaci´ on: Cuando i precede a j, lo denotaremos i ;j.
Definici´ on 10.2.2 El estado i de la cadena con probabilidades de transici´ on
((P
i,j
)) es recurrente cuando

n
P
(n)
i,i
= ∞.
Para interpretar esta definici´ on, llamemos f
(n)
i,j
a la probabilidad de que la
cadena pase de i a j por primera vez en n pasos:
f
(n)
i,j
= P{X
n
= j, X
h
= j, h = 1, 2, . . . , n −1|X
0
= i}.
La probabilidad de que la cadena alcance el estado j cuando parte de i es
entonces
˜
F
i,j
=


n=1
f
(n)
i,j
. Por otra parte,
P
(n)
i,j
=
n

m=1
f
(m)
i,j
P
(n−m)
j,j
, (10.1)
ya que el suceso {X
0
= i, X
n
= j} es la uni´ on disjunta de los sucesos {X
0
=
i, X

= j para 0 < ℓ < m, X
m
= j, X
n
= j}, (m = 1, 2, . . . , n) y cada sumando
es la probabilidad de cada uno de esos sucesos.
148
Enrique M. Caba˜ na.
Cap´ıtulo 10: Convergencia de probabilidades en una C. de M.
Sumando (10.1) en n e introduciendo la notaci´ on
˜
P
i,j
=


n=1
P
(n)
i,j
, encon-
tramos
˜
P
i,j
=


n=1
P
(n)
i,j
=


n=1

n
m=1
f
(m)
i,j
P
(n−m)
j,j
=


m=1
f
(m)
i,j


n=m
P
(n−m)
j,j
=
˜
F
i,j
(1 +
˜
P
j,j
).
Poniendo j = i, se deduce en particular que la recurrencia de i implica
˜
F
i,i
= 1. Interesa notar que F
i,i
= P{X
n
= i para alg´ un n|X
0
= i}.
Rec´ıprocamente, podemos despejar
˜
P
i,i
=
˜
F
i,i
1 −
˜
F
i,i
y deducir que la condici´ on P{X
n
= i para alg´ un n|X
0
= i} = 1 equivale a la
recurrencia de i. En otras palabras, i no es recurrente (y en ese caso se llama
transitorio) cuando la probabilidad de retornar es menor que 1.
Los c´ alculos que preceden muestran que vale el enunciado siguiente:
Lema 10.2.1 El estado i es recurrente (
˜
P
i,i
= ∞) si y s´olo si la probabilidad
de retorno F
i,i
es 1.
El siguiente lema muestra que la recurrencia es una propiedad de las clases
de equivalencia:
Lema 10.2.2 Cuando una clase de equivalencia tiene un estado recurrente,
todos los estados de la clase son recurrentes.
Demostraci´ on. Si i es recurrente y j es equivalente a i, entonces existen m
1
y m
2
tales que P
(m
1
)
j,i
> 0, P
(m
2
)
i,j
> 0, y entonces P
(m
1
+n+m
2
)
j,j
≥ P
(m
1
)
j,i
P
(n)
i,i
P
(m
2
)
i,j
,
lo que implica


n=1
P
(n)
j,j


n=1
P
(m
1
+n+m
2
)
j,j
≥ P
(m
1
)
j,i


n=1
P
(n)
i,i
P
(m
2
)
i,j
= ∞. 2
Definici´ on 10.2.3 El estado i de la cadena con probabilidades de transici´ on
((P
i,j
)) es aperi´ odico cuando el m´ aximo com´ un divisor del conjunto {n : P
(n)
i,i
>
0} es 1, es decir, cuando no existe ning´ un entero k > 1 tal que el sistema (con
probabilidad uno) s´ olo pueda retornar a i al cabo de un n´ umero de pasos que
es m´ ultiplo de k.
10.2.2

Demostraci´ on del Teorema 10.2.1.
La siguiente demostraci´ on, que incluimos para no dejar incompleta la ex-
posici´ on del tema, es considerablemente elaborada, y puede ser omitida en
una primera lectura, ya que los argumentos en ella utilizados no ser´ an objeto
de referencias posteriores.
Introducci´ on a la probabilidad.
10.2. Cadenas numerables. 149
Llamemos ℓ
+
j
= limsup
n→∞
P
(n)
j
y ℓ

j
= liminf
n→∞
P
(n)
j
, y tomemos dos suce-
siones n
+
m
, n

m
estrictamente crecientes de ´ındices tales que lim
m→∞
P
(n
+
m
)
j
= ℓ
+
j
,
lim
m→∞
P
(n

m
)
j
= ℓ

j
.
Puesto que
¯
F
j
=


n=1
f
(n)
j,j
=1, dado ε>0, podemos encontrar n
ε
tal que


n=nε
f
(n)
j,j
< ε.
Como consecuencia, a partir de (10.1), obtenemos la acotaci´on
P
(n
+
m
)
j,j
≤ f
(k)
j,j
P
(n
+
m
−k)
j,j
+

ν≤nε,ν=k
f
(ν)
j,j
P
(n
+
m
−ν)
j,j
+ ε,
en la que k designa un ´ındice para el que f
(k)
j,j
> 0.
Para m suficientemente grande, se cumple

+
j
−ε ≤ P
(n
+
m
)
j,j
≤ f
(k)
j,j
P
(n
+
m
−k)
j,j
+ (1 −f
(k)
j,j
)(ℓ
+
j
+ ε) + ε
y de esas desigualdades se deduce

+
j
+ ε −

f
(k)
j,j
≤ P
(n
+
m
−k)
j,j
.
Por ser ℓ
+
j
el l´ımite superior de P
(n)
j,j
, concluimos que lim
m→∞
P
(n
+
m
−k)
j,j
= ℓ
+
j
. En
resumen, hemos mostrado que si (n
+
m
) es una sucesi´on tal que lim
m→∞
P
(n
+
m
−k)
j,j
= ℓ
+
j
,
y f
(k)
j,j
> 0, entonces lim
m→∞
P
(n
+
m
−k)
j,j
= ℓ
+
j
.
Repitiendo el razonamiento, obtenemos que, si k

se elige de modo que f
(k

)
j,j
> 0,
entonces lim
m→∞
P
(n
+
m
−k−k

)
j,j
= ℓ
+
j
, y, m´ as a´ un, que si f
(k
h
)
j,j
> 0 (h = 1, 2, . . . , H),
entonces lim
m→∞
P
(n
+
m

H
h=1
k
h
)
j,j
= ℓ
+
j
.
Interrumpimos ahora la demostraci´ on para establecer el siguiente lema:
Lema 10.2.3 Si K es un conjunto de n´ umeros naturales con m´ aximo com´ un divisor
igual a 1, entonces existe M tal que todo n ≥ M puede escribirse como suma de
elementos de K.
Demostraci´ on. El algoritmo de Euclides para obtener el m´ aximo com´ un divisor de
dos n´ umeros naturales m y n est´a basado en que, si m > n y r es el resto de la divisi´ on
entera de m entre n, entonces, (a) o bien r es cero, y n es el m´aximo com´ un divisor, o
(b) r > 0 y los divisores comunes de m y n son tambi´en los de n y r. Se concluye que
para obtener el m´ aximo com´ un divisor de m y n se puede proceder a buscar el de n
y r, y esta observaci´on permite trabajar con un conjunto de n´ umeros estrictamente
menores (n < m y r < n). Iterando el procedimiento, termina por darse el caso (a),
con lo que finaliza el c´ alculo.
150
Enrique M. Caba˜ na.
Cap´ıtulo 10: Convergencia de probabilidades en una C. de M.
La ecuaci´on que vincula m, n y r es m = qn+r, es decir, r = m−qn puede escribirse
como combinaci´ on lineal de m y n con coeficientes enteros. Lo mismo ocurre con
los sucesivos restos, de modo que, en particular, el m´aximo com´ un divisor d puede
escribirse en la forma d = am + bn con a, b enteros.
Consideremos ahora un conjunto K de n´ umeros naturales con m´aximo com´ un divisor
1. Entonces, o bien 1 ∈ K, y en ese caso cualquier n´ umero natural ν es suma de
elementos de K, basta sumar ν veces 1, o bien podemos elegir k
0
> k
1
, k
0
, k
1
∈ K de
modo que k
0
no sea m´ ultiplo de k
1
. Se obtiene el m´aximo com´ un divisor d
1
, que es
combinaci´ on lineal con coeficientes enteros de k
0
y k
1
. Si d
1
= 1 se da por terminada
esta etapa del procedimiento. Si no, se busca k
2
en K que no sea m´ ultiplo de d
1
(tiene
que existir, porque si no existiera, d
1
- y no 1 - ser´ıa el m´aximo com´ un divisor de
los elementos de K). Se obtiene ahora el m´ aximo com´ un divisor d
2
de d
1
y k
2
, que
es combinaci´ on lineal con coeficientes enteros de d
1
y k
2
, y por lo tanto de k
0
, k
1
, k
2
.
Nuevamente, si d
2
= 1 se da por terminada esta etapa, y si no se busca k
3
que no
sea m´ ultiplo de d
2
y se contin´ ua hasta obtener un m´ aximo com´ un divisor d
h
= 1,
combinaci´ on lineal con coeficientes enteros de k
0
, k
1
, . . . , k
h
.
Si m es el m´ınimo elemento en K, 1 =

h
i=0
a
i
k
i
es la combinaci´ on lineal con co-
eficientes enteros obtenida anteriormente, y s = max{|a
i
| : a
i
< 0, i = 0, 1, . . . , h},
entonces todo n ≥ M = (m− 1)s

h
i=0
k
i
puede escribirse como combinaci´ on lineal
de coeficientes naturales de m, k
0
, k
1
, . . ., k
h
. En efecto, dado n ≥ M, se escribe
n = M +qm +r con r ≤ m− 1 y se reemplaza r por

h
i=0
ra
i
k
i
, de manera que n
=

h
i=0
((m−1)s +ra
i
)k
i
+qm. Por la forma de elegir s, cada uno de los coeficientes
(m−1)s + ra
i
es no negativo. 2
Continuamos la demostraci´ on del Teorema 10.2.1 observando que, luego del lema
precedente, el resultado que hemos llegado a establecer se puede expresar de la sigu-
iente manera:
Toda vez que (n
+
m
) sea una sucesi´ on parcial para la que lim
m→∞
P
(n
+
m
−k)
j,j
= ℓ
+
j
, se
cumple tambi´en lim
m→∞
P
(n
+
m
−k)
j,j
= ℓ
+
j
para k ≥ M, donde M es el n´ umero al que
hace referencia el Lema 10.2.3 relativo al conjunto K = {k : f
(k)
j,j
> 0}.
En lo que sigue, utilizaremos la propiedad
lim
m→∞
P
n
+
m
−M−ν
j,j
= ℓ
+
j
, para todo ν ≥ 0.
Introducimos ahora la esperanza del tiempo de retorno a j, a saber,
τ
j
=

n=1
nf
(n)
j,j
=

n=1
n

m=1
f
(n)
j,j
=

m=1

n=m
f
(n)
j,j
=

m=1
S
(m)
j
,
con S
(m)
j
=


n=m
f
(n)
j,j
. La ecuaci´on (10.1) con i = j se escribe en la forma
P
(n)
j,j
=
n

ν=1
(S
(ν)
j
−S
(ν+1)
j
)P
(n−ν)
j,j
,
Introducci´ on a la probabilidad.
10.2. Cadenas numerables. 151
que equivale a
n

ν=0
S
(ν+1)
j
P
(n−ν)
j,j
=
n

ν=1
S
(ν)
j
P
(n−ν)
j,j
,
debido a que S
(1)
j
= 1. Cambiando ν en ν + 1 en la segunda suma, obtenemos
n

ν=0
S
(ν+1)
j
P
(n−ν)
j,j
=
n−1

ν=0
S
(ν+1)
j
P
(n−ν−1)
j,j
,
y como esta igualdad vale para cada n ≥ 1, se deduce, aplic´ andola iteradamente, que
n

ν=0
S
(ν+1)
j
P
(n−ν)
j,j
= S
(1)
j
P
(0)
j,j
= 1.
Con n
+
m
−M en lugar de n, tenemos
n
+
m
−M

ν=0
S
(ν+1)
j
P
(n
+
m
−M−ν)
j,j
= 1,
y con un n fijo menor o igual que n
+
m
−M,
n

ν=0
S
(ν+1)
j
P
(n
+
m
−M−ν)
j,j
≤ 1.
Pasando al l´ımite cuando m →∞ resulta
n

ν=0
S
(ν+1)
j

+
j
≤ 1,
y pasando ahora al l´ımite cuando n →∞, deducimos


ν=0
S
(ν+1)
j

+
j
= τ
j

+
j
≤ 1, de
manera que ℓ
+
j
≤ 1/τ
j
.
En el caso τ = ∞, se concluye ℓ
+
j
= 0, y esto termina la demostraci´on.
Cuando τ < ∞, un argumento similar al anterior servir´ a para mostrar que ℓ

j
≥ 1/τ
j
.
Nuevamente partimos de (10.1), esta vez para acotar


+ ε ≥ P
(n

m
)
j,j
≥ f
(k)
j,j
P
(n

m
−k)
j,j
+ (1 −f
(k)
j,j
)(ℓ

j
−ε),
y deducir


j
−ε +

f
(k)
j,j
≥ P
(n

m
−k)
j,j
,
para m suficientemente grande, y f
(k)
j,j
> 0.
Se concluye que lim
m→∞
P
(n

m
)
j,j
= ℓ

j
implica lim
m→∞
P
(n

m
−k)
j,j
= ℓ

j
para todo k en
K = {k : f
(k)
j,j
> 0}, y entonces existe M tal que
lim
m→∞
P
(n

m
−M−ν)
j,j
= ℓ

j
152
Enrique M. Caba˜ na.
Cap´ıtulo 10: Convergencia de probabilidades en una C. de M.
se cumple para todo ν ≥ 0.
Escribimos la igualdad
n

m
−M

ν=0
S
(ν+1)
j
P
(n

m
−M−ν)
j,j
= 1
en la forma
n

ν=0
S
(ν+1)
j
P
(n

m
−M−ν)
j,j
+
n

m
−M

ν=n+1
S
(ν+1)
j
P
(n

m
−M−ν)
j,j
= 1
para acotar
n

ν=0
S
(ν+1)
j
P
(n

m
−M−ν)
j,j
≥ 1 −

ν=n+1
S
(ν+1)
j
.
Pasamos al l´ımite cuando m tiende a infinito, y luego cuando n tiende a infinito.
Resulta τ
j


j
≥ 1, ya que la serie

ν
S
(ν+1)
j
converge por la hip´ otesis τ < ∞. El
resultado implica ℓ

j
≥ 1/τ
j
, y esto termina de demostrar que el l´ımite de las proba-
bilidades P
(n)
j,j
es 1/τ
j
.
Para cualesquiera i, j, volvemos a utilizar 10.1 para obtener
|P
(n)
i,j

m=1
f
(m)
i,j
P
(n−m)
j,j
| < ε
y pasamos al l´ımite cuando n tiende a infinito. Resulta

m=1
f
(m)
i,j
(1/τ
j
) −ε ≤ liminf
n→∞
P
(n)
i,j
≤ limsup
n→∞
P
(n)
i,j
leq

m=1
f
(m)
i,j
(1/τ
j
) + ε
y como a su vez 1 −ε ≤


m=1
f
(m)
i,j
≤ 1, se concluye
(1 −ε)(1/τ
j
) −ε ≤ liminf
n→∞
P
(n)
i,j
≤ limsup
n→∞
P
(n)
i,j
leq(1/τ
j
) + ε.
Haciendo tender ε a 0 se obtiene la conclusi´on requerida, a saber, que lim
n→∞
P
(n)
i,j
=
1/τ
j
.
S´ olo resta mostrar que el vector π
(∞)
= (1/τ
1
, 1/τ
2
, . . .) es un vector propio a la
izquierda de la matriz de probabilidades de transici´ on. Para hacerlo, si E es el conjunto
de estados y H es un subconjunto finito de E, acotamos P
(n)
i,j
=

h∈E
P
(n−1)
i,h
P
h,j

h∈H
P
(n−1)
i,h
P
h,j
y pasamos al l´ımite cuando n tiende a infinito:
(1/τ
j
) ≥

h∈H
(1/τ
h
)P
h,j
.
Dado que la desigualdad precedente vale para todo H finito, tambi´en se cumple
(1/τ
j
) ≥

h∈E
(1/τ
h
)P
h,j
.
Introducci´ on a la probabilidad.
10.4. Un ejemplo. 153
Por reducci´ on al absurdo, si para alg´ un j se cumpliera la desigualdad estricta (1/τ
j
) >

h∈E
(1/τ
h
)P
h,j
, sumando en j obtendr´ıamos

j∈E
(1/τ
j
) >

j∈E

h∈E
(1/τ
h
)P
h,j
=

h∈E
(1/τ
h
)

j∈E
P
h,j
=

h∈E
(1/τ
h
),
y esta contradicci´ on muestra que debe cumplirse
(1/τ
j
) =

h∈E
(1/τ
h
)P
h,j
para todo j. 2
10.3 Ejercicios.
Ejercicio 10.3.1 Verificar que la relaci´ on de la Definici´ on 10.2.1 es una equiva-
lencia. En otras palabras, si abreviamos i ≡ j cuando i ; j y j ; i, mostrar (a)
que i ≡ i, (b) que i ≡ j y j ≡ i expresan lo mismo, y (c) que i ≡ j, j ≡ k implican
i ≡ k.
Ejercicio 10.3.2 Verificar que, si C, C

son dos clases de equivalencia, i ∈ C,
i

∈ C” y adem´as i ;i

, entonces cualquier estado de C precede a cualquier estado
de C

. En ese caso, diremos que la clase C precede a C

y lo denotaremos C ;C

.
Observemos que C ;C

y C

;C implican C = C

.
Ejercicio 10.3.3 Indicar cu´ ales son las clases de equivalencia y cu´ales sus rela-
ciones de precedencia en los ejemplos del comienzo de §5.
Ejercicio 10.3.4 Otra demostraci´ on del Teorema 5.4.1, por reducci´ on del caso
finito al caso general: Mostrar que las hip´ otesis del Teorema 5.4.1 implican las del
Teorema 10.2.1.
Ejercicio 10.3.5 Mostrar que cuando una cadena tiene una ´ unica clase de estados
recurrentes, entonces T
i
= min{n : n ≥ 1, X
n
= i} es c.s. finito.
Sugerencia: Observar que basta verificar que F
j,i
= 1 para cada j.
154
Enrique M. Caba˜ na.
Cap´ıtulo 10: Convergencia de probabilidades en una C. de M.
10.4 Un ejemplo: Obtenci´ on de las probabili-
dades de absorci´ on, y de las esperanzas
de los tiempos de absorci´ on a partir del
Teorema de convergencia de probabilida-
des.
Vamos a describir una aplicaci´ on del Teorema 10.2.1 al estudio de una cadena
con estados transitorios y absorbentes. Lo haremos para el Ejemplo 1 de §5.1.
Modifiquemos la cadena reemplazando las absorciones en los estados G y
N por transiciones con probabilidad 1 hacia el estado I. Esto significa que
cada vez que el juego termina, inmediatamente recomienza. La nueva cadena
tiene una ´ unica clase de estados recurrentes aperi´ odicos, y la nueva matriz de
probabilidades de transici´ on es
P =





0 5/6 1/6 0
0 4/6 1/6 1/6
1 0 0 0
1 0 0 0





De acuerdo al Teorema 10.2.1, las probabilidades tienen l´ımite π
(∞)
que
son soluci´ on del sistema de ecuaciones
π
(∞)
= π
(∞)
P, π
(∞)
1 = 1.
Las primeras cuatro ecuaciones del sistema, escritas con notaci´ on escalar
son:
π
(∞)
I
= π
(∞)
G
+ π
(∞)
N
π
(∞)
R
=
5
6
π
(∞)
I
+
4
6
π
(∞)
R
π
(∞)
G
=
1
6
π
(∞)
I
+
1
6
π
(∞)
R
π
(∞)
N
=
1
6
π
(∞)
R
o bien
π
(∞)
N
=
1
6
π
(∞)
R
, π
(∞)
I
=
2
5
π
(∞)
R
, π
(∞)
G
= (
2
5

1
6

(∞)
R
=
7
30
π
(∞)
R
,
Introducci´ on a la probabilidad.
10.5. Tiempos esperados de absorci´ on. 155
y a ellas se agrega
(
2
5
+ 1 +
7
30
+
1
6

(∞)
R
= 1
de donde π
(∞)
= (12/54, 30/54, 7/54, 5/54).
Cuando el juego se repite indefinidamente, las probabilidades de ganar y de
perder son proporcionales a las probabilidades de estar en G y en N, es decir,
a 7 y a 5, de modo que valen respectivamente 7/12 y 5/12. El tiempo esperado
de retorno a I es 54/12, que es igual a una unidad m´ as el tiempo esperado de
absorci´ on, a saber
54
12
= 1 +
7
12
τ
G
+
5
12
τ
N
,
donde τ
G
es la esperanza del tiempo de absorci´ on cuando se gana el juego, y
τ
N
es la esperanza del tiempo de absorci´ on cuando se pierde.
Esta ecuaci´ on no basta para obtener las dos inc´ ognitas. Agreguemos la
observaci´ on de que la probabilidad de ganar por el tiempo esperado de ganar
es la suma de la probabilidad de ganar en un solo paso multiplicada por 1
m´ as la probabilidad de ganar pasando por R ((5/6) × (1/2)) por el tiempo
esperado de ganar pasando por R, que es igual al tiempo esperado de perder,
por la simetr´ıa una vez que se llega a R. Esto es:
7
12
τ
G
=
1
6
+
5
12
τ
N
.
Las dos ecuaciones nos dan τ
G
= 22/7, y τ
N
= 4.
10.5 Uso de los m´etodos matriciales de §5.3
para el c´alculo de los tiempos esperados
de absorci´ on.
Vamos a retomar el estudio de las probabilidades asociadas a una cadena con
matriz de probabilidades de transici´ on de la forma P =

Q R
0 I

, cuyas
potencias
P
n
=

Q
n
(I + Q + Q
2
+ . . . + Q
n−1
)R
0 I

,
hemos calculado en §5.3.1.
Para cada estado absorbente j, la probabilidad f
(n)
i,j
de llegar por primera
vez en n pasos partiendo de un estado no absorbente i es p
(n)
i,j
−p
(n−1)
i,j
, de
156
Enrique M. Caba˜ na.
Cap´ıtulo 10: Convergencia de probabilidades en una C. de M.
manera que la matriz que indica esas probabilidades es
(I + Q + Q
2
+ . . . + Q
n−1
)R −(I + Q + Q
2
+ . . . + Q
n−2
)R = Q
n−1
R.
Cada fila de esta matriz corresponde a un estado no absorbente de partida, y
cada columna a un estado absorbente de llegada.
Los tiempos esperados de llegada τ
i,j
= E(min{n : X
n
= j}|X
0
= i, X

=
j) =


n=1
nf
(n)
i,j

(∞)
j
multiplicados por la correspondiente probabilidad de
absorci´ on π
(∞)
j
son las componentes de la matriz


n=1
nQ
n−1
R.
Para obtener la suma de esta serie cuyos sumandos son matrices, vamos a
proceder por analog´ıa con el c´ alculo de la serie num´erica


n=1
nx
n−1
, que vale
(1 −x)
−2
, como es inmediato verificar, para |x| < 1.
Esto sugiere que


n=1
nQ
n−1
= (I −Q)
−2
. Para verificarlo, calculamos
(I −Q)
2

n=1
nQ
n−1
= (I −Q)

n=1
n(Q
n−1
−Q
n
)
= (I −Q)[

n=1
nQ
n−1

n=2
(n −1)Q
n−1
] = (I −Q)(I +

n=2
Q
n−1
),
y ya hemos verificado en §5.3.1 que este producto es la identidad, cuando
Q
n
→0 y existe (I −Q)
−1
.
En conclusi´ on, los tiempos esperados de absorci´ on son las componentes
de T = (I −Q)
−2
R divididas por las probabilidades de absorci´ on. En nuestro
ejemplo, Q =

0 5/6
0 2/3

, R =

1/6 0
1/6 1/6

, I−Q =

1 −5/6
0 1/3

, (I−Q)
−1
=

1 5/2
0 3

, de modo que T =

1 5/2
0 3

2

1/6 0
1/6 1/6

=

22/12 20/12
3/2 3/2

.
De π
(∞)
G
= 7/12 resulta τ
G
= 22/7, y de π
(∞)
N
= 5/12 resulta τ
N
= 4. Con-
firmamos as´ı los resultados de los c´ alculos realizados a partir de la aplicaci´ on
del Teorema de Convergencia de Probabilidades.
11. Convergencia de variables
aleatorias. Leyes de Grandes
N´ umeros.
11.1 Desigualdades de Markov y de Cheby-
shev.
Teorema 11.1.1 (Desigualdad de Markov). Si X es una variable aleatoria,
g es una funci´ on creciente, no negativa, y g(a) > 0, entonces
P¦X ≥ a¦ ≤
E(g(X))
g(a)
.
Demostraci´ on. Eg(X) ≥ Eg(X)1
{X≥a}
≥ Eg(a)1
{X≥a}
= g(a)P¦X ≥ a¦.
2
Corolario 11.1.1.1 (Desigualdad de Chebyshev). Si la variable Y tiene va-
riancia finita, para cualquier a > 0 se cumple
P¦[Y −E(Y )[ ≥ a¦ ≤
Var(Y )
a
2
.
Demostraci´ on. Basta elegir X = [Y − E(Y )[
2
, g(x) = x
+
= max¦x, 0¦ y
aplicar el Teorema 11.1.1. 2
Nota: Se observar´ a que cuando α es positivo, y se eligen X = [Y −E(Y )[
α
y
g(x) = x
+
, el Teorema 11.1.1 conduce a la desigualdad siguiente, que generaliza
el resultado del Corolario 11.1.1.1:
P¦[Y −E(Y )[ ≥ a¦ ≤
E([Y −E(Y )[
α
)
a
α
.
157
158
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
11.2 Distancias entre variables aleatorias ba-
sadas en momentos.
11.2.1 Distancia cuadr´atica.
Ya hemos se˜ nalado que la variancia de una variable aleatoria da una medida
de su apartamiento de la esperanza, o bien de su dispersi´ on. En particular,
cuando una variable aleatoria tiene variancia nula, eso significa que coincide
casi seguramente con la esperanza:
Lema 11.2.1 Si VarX = 0, entonces P¦X = EX¦ = 1.
Demostraci´ on. Por la Desigualdad de Chebyshev (Corolario 11.1.1.1), pode-
mos escribir P¦[X − EX[ ≥ ε¦ ≤ VarX/ε
2
= 0, y entonces P¦X = EX¦
= P
¸
n
¦[X −EX[ ≥ 1/n¦ = lim
n→∞
P¦[X −EX[ ≥ 1/n¦ = 0.
Corolario 11.2.1.1 Cuando EX
2
= 0, entonces P¦X = 0¦ = 1.
Demostraci´ on: Basta aplicar la relaci´ on EX
2
= VarX +(EX)
2
.
Notaci´ on Cuando un suceso tiene probabilidad uno, diremos que se cumple
casi seguramente.
El corolario precedente muestra que cuando E(X − Y )
2
= 0, entonces
P¦X = Y ¦ = 1, o, en otras palabras, X e Y coinciden casi seguramente.
Vamos a mostrar que el momento de segundo orden E(X − Y )
2
permite
definir una distancia, no exactamente entre variables aleatorias, pero entre
las clases de equivalencia que resultan de identificar variables aleatorias casi
seguramente iguales entre s´ı.
Lema 11.2.2 La relaci´ on X
·
= Y si y s´ olo si P¦X = Y ¦ = 1 es una relaci´ on
de equivalencia entre variables aleatorias.
Notaci´ on: Llamaremos L
2
(Ω, P) al conjunto formado por las clases de
equivalencia de variables aleatorias X, con la propiedad EX
2
< ∞. A la clase
de equivalencia de una variable aleatoria X la llamaremos tambi´en X, cuando
no haya riesgo de confusi´ on.
Teorema 11.2.1 (i) La funci´on | |
2
:L
2
(Ω, P) → R
+
definida por |X|
2
= EX
2
es una norma.
(ii) La funci´on d
2
(X, Y ) = |X −Y |
2
es una distancia en L
2
(Ω, P).
(iii) La funci´on 'X, Y `
2
= EXY es un producto interno en L
2
(Ω, P).
Introducci´ on a la probabilidad.
11.2. Distancias entre variables aleatorias. 159
El enunciado del Teorema 11.2.1 contiene casos particulares de dos propiedades
generales. Una de ellas establece que cuando (x, y) → 'x, y` es un producto interno,
entonces x →

'x, x` es una norma. La otra, que cuando ψ es una norma, d(x, y) =
ψ(y −x) es una distancia.
Las definiciones pertinentes son las siguientes:
Definici´on 11.2.1 (Producto interno). La aplicaci´ on (x, y) → 'x, y`, x, y ∈ E (E
espacio vectorial real) es un producto interno, cuando cumple:
• ', y` y 'x, ` son funciones lineales, para cada y y para cada x respectivamente,
• 'x, y` = 'y, x`,
• 'x, x` es no negativo para cada x, y es cero si y s´ olo si x = 0.
Definici´on 11.2.2 (Norma). La aplicaci´ on x → ψ(x), x ∈ E (E espacio vectorial)
es una norma cuando cumple:
• ψ(x) ≥ 0 para todo x, y ψ(x) = 0 si y s´ olo si x = 0.
• ψ(λx) = [λ[ψ(x) para cualesquiera x ∈ E y λ ∈ R.
• ψ(x + y) ≤ ψ(x) + ψ(y) para cualesquiera x, y ∈ E.
Definici´on 11.2.3 (Distancia) La funci´ on d(x, y), x, y ∈ E (E conjunto cualquiera)
es una distancia, cuando
• d(x, y) ≥ 0 para cualesquiera x, y, y d(x, y) = 0 si y s´ olo si x = y,
• d(x, y) = d(y, x) para cualesquiera x, y,
• d(x, y) ≤ d(x, z) + d(z, y) para cualesquiera x, y, z.
Ejercicio 11.2.1 Dado el producto interno ', `, mostrar que la funci´ on ψ(x) =

'x, x` es una norma. (Se dice que esta norma est´a inducida por el producto
interno.)
Sugerencia: Para demostrar la llamada desigualdad triangular de las normas
(ψ(x+y) ≤ ψ(x)+ψ(y)), conviene utilizar la llamada Desigualdad de Cauchy-
Schwarz, que expresa
'x, y` ≤ ψ(x)ψ(y).
La Desigualdad de Cauchy-Schwarz resulta como consecuencia de desarrollar
el miembro de la derecha de
0 ≤ ψ
2
(ψ(y)x −ψ(x)y) = 'ψ(y)x −ψ(x)y, ψ(y)x −ψ(x)y`.
160
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
Ejercicio 11.2.2 Mostrar que si ψ es una norma inducida por un producto
interno ', `, entonces ´este se puede obtener a partir de la norma mediante
'x, y` =
1
4

2
(x + y) −ψ
2
(x −y))
Ejercicio 11.2.3 Dada la norma ψ, mostrar que d(x, y) = ψ(y − x) es una
distancia. (Se dice que d es la distancia inducida por la norma ψ.)
Demostraci´ on del Teorema 11.2.1. En virtud de los resultados de los ejer-
cicios precedentes, basta mostrar que (X, Y ) → EXY es un producto interno.
La linealidad de EXY separadamente en X y en Y es inmediata. La desigual-
dad EX
2
≥ 0 es tambi´en inmediata, y la condici´ on EX
2
= 0 implica que X es
la clase de equivalencia que contiene e la constante 0, como consecuencia del
Corolario 11.2.1.1. 2
11.3 Convergencias cuadr´atica y en probabili-
dad.
11.3.1 Convergencia cuadr´atica.
Definici´ on 11.3.1 Dadas una sucesi´on de variables aleatorias (X
n
)
n=1,2,...
y
una variable Y , decimos que (X
n
) converge cuadr´ aticamente a Y , cuando
lim
n→∞
E((X
n
−Y )
2
) = 0.
De manera equivalente, si
˜
X
n
es la clase de equivalencia de X
n
y
˜
Y la de
Y , entonces X
n
converge cuadr´ aticamente a Y si y s´ olo si
˜
X
n
converge a
˜
Y en
L
2
(Ω, P), es decir, |
˜
X
n

˜
Y |
2
→ 0.
11.3.2 Convergencia en probabilidad.
Definici´ on 11.3.2 Dadas una sucesi´on de variables aleatorias (X
n
)
n=1,2,...
y
una variable Y , decimos que (X
n
) converge en probabilidad a Y , y lo escribi-
mos en la forma plim
n→∞
X
n
= Y , o tambi´en X
n
P
→ Y , cuando, para todo ε
positivo,
lim
n→∞
P¦[X
n
−Y [ > ε¦ = 0.
Ejemplo 11.3.1 Si las variables U
1
, U
2
, . . . son independientes, con distribu-
ci´ on uniforme en [0, α], entonces X
n
= min¦U
1
, U
2
, . . . , U
n
¦ converge en pro-
babilidad a 0, e Y
n
= max¦U
1
, U
2
, . . . , U
n
¦ converge en probabilidad a α.
Introducci´ on a la probabilidad.
11.3. Convergencias cuadr´ atica y en probabilidad. 161
Dado ε positivo, calculamos P¦[X
n
[ > ε¦ = P(
¸
n
i=1
¦U
i
> ε¦ = (1 −ε/α)
n
→ 0. (Se ha supuesto ε < α; si no fuese as´ı, la probabilidad que hemos
calculado ser´ıa cero, y el resultado no cambia).
An´ alogamente, P¦[Y
n
−α[ > ε¦ = P¦Y
n
< α−ε¦ = P(
¸
n
i=1
¦U
i
< 1−ε/α¦
= (1 −ε/α)
n
→ 0. 2
La situaci´ on del ejemplo anterior nos sugiere una aplicaci´ on importante de la
convergencia en probabilidad. Supongamos que el extremo α del intervalo en que
se distribuye la probabilidad de las variables U
n
es desconocido, y que queremos
conocerlo, al menos con un error relativo, digamos, del 1%.
La informaci´ on sobre la naturaleza que podemos disponer es la que resulta de la
observaci´on de las variables U
1
, U
2
, . . ., U
n
. La cantidad n de variables a observar,la
podemos elegir convenientemente. No tan grande que implique un gasto excesivo,
dado que resulta natural suponer que cada observaci´ on tiene un costo, pero tampoco
tan peque˜ no que el conjunto de las observaciones nos de una informaci´ on insuficiente.
En virtud del resultado del ejemplo, proponemos tomar Y
n
como valor aproxi-
mado de α. Al hacerlo as´ı, estaremos cometiendo un error relativo e = (α −Y
n
)/α.
Es posible que este error relativo no cumpla la especificaci´ on e < 1%, pero la pro-
babilidad de fallar P¦e > 1%¦ = P¦α−Y
n
> .01α¦ tiende a cero cuando n tiende a
infinito, por la convergencia en probabilidad de Y
n
a α. Si elegimos n suficientemente
grande, estaremos cumpliendo la especificaci´on con una probabilidad pr´ oxima a 1.
En nuestro caso particular, para obtener una probabilidad del 95% de cumplir
con la especificaci´on, basta tomar n tal que P¦α − Y
n
> .01α¦ = (1 − .01)
n
≤ .05,
y esto ocurre para n > log .05/ log .99 = 298.07 . . .
Ejemplo 11.3.2 Si las variables X
1
, X
2
, . . . no est´ an correlacionadas y tienen
todas igual esperanza µ e igual variancia σ
2
, entonces el promedio
¯
X
n
=
1
n
n
¸
i=1
X
i
converge en probabilidad al valor com´ un µ de las esperanzas.
La variancia de la suma de variables no correlacionadas es la suma de sus
variancias (ver Ejercicio 8.3.3), de modo que Var
¯
X
n
= σ
2
/n. Por otra parte,
la esperanza de
¯
X
n
es µ. Por lo tanto,
E((
¯
X
n
−µ)
2
) = Var
¯
X
n
→ 0,
y esto establece la convergencia indicada. 2
162
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
11.3.3 Criterio de convergencia en probabilidad basado
en la convergencia cuadr´atica.
Teorema 11.3.1 Si (X
n
) converge cuadr´ aticamente a Y , entonces X
n
P
→ Y .
Demostraci´ on. Por la desigualdad de Chebyshev, (Corolario 11.1.1.1)
P¦[X
n
−Y [ > ε¦ ≤
Var(X
n
−Y )
ε
2

E(X
n
−Y )
2
ε
2
→ 0.
2
Teorema 11.3.2 (Criterio de convergencia cuadr´ atica a una constante). Si
lim
n→∞
E(X
n
) = c, y lim
n→∞
Var(X
n
) = 0, entonces (X
n
) converge cuadr´ ati-
camente a c.
Demostraci´ on. E(X
n
−c)
2
= Var(X
n
) + (E(X
n
) −c)
2
. Ambos sumandos
tienen l´ımite cero, por las hip´ otesis. 2
Nota: Un ejemplo trivial permite observar que el rec´ıproco del Teorema
11.3.1 no es cierto. Si X
n
∼ n Ber(1/n), para cualquier ε positivo y n > ε,
P[X
n
[ > ε = 1/n → 0, mientras que E(X
n
)
2
= n no tiende a cero. Esto
significa que X
n
converge en probabilidad a cero, pero no cuadr´ aticamente.
11.4 Convergencia casi segura.
Definici´ on 11.4.1 (Convergencia casi segura)
Dadas la sucesi´on de variables aleatorias (X
n
)
n=1,2,...
y la variable Y , dec-
imos que X
n
converge casi seguramente a Y , y lo denotamos X
n
→ Y c.s.,
cuando
P¦X
n
→ Y ¦ = 1.
En palabras, la sucesi´ on de funciones X
n
con dominio Ω converge puntual-
mente a la funci´ on Y , excepto quiz´ a en un suceso de probabilidad 0.
Una peque˜ na modificaci´ on del ejemplo de la secci´on precedente muestra
que la convergencia casi segura no implica la convergencia cuadr´ atica. En
efecto, basta definir U ∼ Uni(0, 1) y X
n
= n1
{U<1/n}
. De esta manera,
¦X
n
→ 0¦ = ¦U > 0¦ tiene probabilidad 1, pero las variables X
n
tienen
la misma distribuci´ on que en el ejemplo anterior, y por lo tanto no convergen
cuadr´ aticamente.
Introducci´ on a la probabilidad.
11.4. Convergencia casi segura. 163
Por otra parte, la sucesi´ on Y
2
n
+j−1
= 1
{(j−1)2
−n
<U≤j2
−n
}
, j = 1, 2, . . . , 2
n
,
n = 0, 1, . . . definida a partir de la misma U ∼ Uni(0, 1) no converge con
probabilidad uno (s´ olo converge si U = 0) pero converge cuadr´ aticamente a
cero, ya que EY
2
2
n
+j−1
= 2
−n
→ 0.
El enunciado siguiente describe el v´ınculo entre la convergencia casi segura
y la convergencia en probabilidad.
Teorema 11.4.1 (i) Si X
n
→ Y c.s., entonces X
n
P
→ Y .
(ii) Si X
n
P
→ Y , entonces existe una sucesi´ on parcial X
n
i
de X
n
que tiende
a Y c.s.
Demostraci´ on. Consideremos el conjunto de no-convergencia ^ = ¦X
n

Y ¦. Dado que X
n
→ Y cuando para cualquier ε > 0 existe m ∈ N tal que
para todo n ≥ m se cumple [X
n
−Y [ < ε, podemos escribir
^
c
=
¸
ε>0
¸
m∈N
¸
n≥m
¦[X
n
−Y [ ≤ ε¦
o bien
^
c
=
¸
k∈N
¸
m∈N
¸
n≥m
¦[X
n
−Y [ ≤ 1/k¦
de modo que
^ =
¸
k∈N
¸
m∈N
¸
n≥m
¦[X
n
−Y [ > 1/k¦.
De aqu´ı resulta que X
n
→ Y c.s. equivale a P(^) = 0, y esto se cumple si
y s´olo si
P

¸
¸
m∈N
¸
n≥m
¦[X
n
−Y [ > 1/k¦
¸

= 0
para todo k.
Dado que la sucesi´ on
¸
n≥m
¦[X
n
−Y [ > 1/k¦ es mon´ otona, la condici´ on de
convergencia casi segura puede expresarse en la forma
lim
m→∞
P
¸
n≥m
¦[X
n
−Y [ > 1/k¦ = 0 para todo k. (11.1)
Para obtener (i), tenemos que mostrar que la convergencia casi segura
implica que para cualquier ε positivo, lim
m→∞
P¦[X
m
−Y [ > ε¦ = 0. Dado ε,
elegimos k > 1/ε de donde
¦[X
m
−Y [ > ε¦ ⊂ ¦[X
m
−Y [ > 1/k¦ ⊂
¸
n≥m
¦[X
n
−Y [ > 1/k¦
164
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
y aplicamos (11.1) para obtener
lim
m→∞
P¦[X
m
−Y [ > ε¦ ≤ lim
m→∞
P
¸
n≥m
¦[X
n
−Y [ > 1/k¦ = 0.
Para establecer (ii) suponemos que X
n
converge en probabilidad a Y . Por
lo tanto, para cada i ∈ N, P¦[X
n
−Y [ > 2
−i
¦ tiende a cero. Llamamos n
1
al
primer entero positivo para el cual
P¦[X
n
−Y [ > 2
−1
¦ < 2
−1
,
e, inductivamente, n
i
al primer entero mayor que n
i−1
tal que
P¦[X
n
i
−Y [ > 2
−i
¦ < 2
−i
.
Se deduce que la sucesi´on Z
i
= X
n
i
−Y cumple
P¦[Z
i
[ > 2
−i
¦ < 2
−i
. (11.2)
Completaremos la demostraci´ on verificando que (11.2) implica que Z
i
→ 0
c.s.
En efecto, para m tal que 2
m
≥ k,
P
¸
n≥m
¦[Z
n
[ > 1/k¦ ≤ P
¸
n≥m
¦[Z
n
[ > 2
−n
¦ ≤
¸
n≥m
P¦[Z
n
[ > 2
−n
¦

¸
n≥m
2
−n
= 2
−m+1
→ 0,
y esto implica la convergencia casi segura a cero de Z
n
de acuerdo a (11.1). 2
11.5 Completitud de L
2
(Ω, P).
Una sucesi´on fundamental o de Cauchy en un espacio c dotado de una m´etrica
o distancia d es una sucesi´on Z
n
de elementos de c con la propiedad
lim
n→∞
sup
m≥n
d(Z
m
, Z
n
) = 0.
Se verifica sin dificultad que una formulaci´ on equivalente es la siguiente:
Dado ε, existe N tal que si m, n ≥ N, entonces d(Z
m
, Z
n
) < ε.
Definici´ on 11.5.1 (Espacio completo.) Se dice que el espacio c con la dis-
tancia d es completo, cuando toda sucesi´ on fundamental tiene l´ımite.
Introducci´ on a la probabilidad.
11.6. Completitud de L
2
(Ω, P). 165
Teorema 11.5.1 El espacio L
2
(Ω, P) es completo.
Demostraci´ on. Se requiere verificar que, dada la sucesi´ on fundamental de
clases de equivalencia X
n
, existe una clase X tal que E(X
n
−X)
2
→ 0. Como
ya hemos indicado, usaremos indistintamente la notaci´ on X
n
para la clase o
para una variable aleatoria que la representa.
Por hip´ otesis, dado ε > 0, existe N tal que para todo m, n ≥ N, se cumple
E(X
m
−X
n
)
2
< ε. Vamos a elegir la sucesi´ on no decreciente n
i
de modo que,
para cada i, y para m, n ≥ n
i
, se cumpla E(X
m
−X
n
)
2
< 1/8
i
. En particular,
para cada i, E(X
n
i
−X
n
i+1
)
2
< 1/8
i
.
Por la Desigualdad de Markov, P¦[X
n
i
−X
n
i+1
[ > 1/2
i
¦ ≤ 2
2i
/2
3i
= 1/2
i
.
Como consecuencia,
P
¸
j≥i
¦[X
n
j
−X
n
j+1
[ > 1/2
j
¦ ≤
¸
j≥i
1
2
j
=
1
2
i−1
.
El suceso ¦[X
n
i
−X
n
k
[ >
1
2
i−1
para alg´ un k ≥ i¦ est´ a contenido en la uni´ on
que aparece en el t´ermino de la izquierda de la desigualdad precedente. Por
consiguiente,
P
¸
k≥i
¦[X
n
i
−X
n
k
[ >
1
2
i−1
¦ ≤
1
2
i−1
.
Dado ε > 0, tomemos i ≥ N tal que
1
2
N−1
<
1
2
ε. Para esos valores de i, se
cumple P
¸
k≥i
¦[X
n
i
−X
n
k
[ >
1
2
ε¦ ≤
1
2
i−1
y, como consecuencia,
P
¸
k,l≥i
¦[X
n
k
−X
n
l
[ > ε¦ ≤
1
2
i−1
.
Se deduce entonces que P
¸
i≥N
¸
k,l≥i
¦[X
n
k
− X
n
l
[ > ε¦ = 0, de modo
que el complemento
¸
i≥N
¸
k,l≥i
¦[X
n
k
−X
n
l
[ ≤ ε¦ tiene probabilidad 1, y esto
significa que, dado ε, casi seguramente existe i tal que para cualesquiera k, l
mayores o iguales que i, se cumple [X
n
k
−X
n
l
[ ≤ ε. Esto es lo mismo que decir
que la sucesi´on X
n
i
es casi seguramente de Cauchy, y por lo tanto existe casi
seguramente su l´ımite que llamaremos X.
Verifiquemos finalmente que X es el l´ımite cuadr´ atico de X
m
. Dado ε
elegimos N
ε
tal que para m, n ≥ N
ε
, se cumpla E(X
m
−X
n
)
2
< ε. Calculamos
|X
m
−X|
2
= E(X
m
−X)
2
= E(X
m
−lim
i→∞
X
n
i
)
2
= Elim
i→∞
(X
m
−X
n
i
)
2
.
Por el Lema de Fatou (Lema 6.5.3), esta expresi´ on est´ a acotada superiormente
por liminf
i→∞
E(X
m
−X
n
i
)
2
≤ ε para m ≥ N
ε
. 2
166
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
11.6 Ejercicios.
Ejercicio 11.6.1 Probar que, si B
n
tiene distribuci´ on Binomial (n, p), entonces
Bn
n
converge en probabilidad a p.
Ejercicio 11.6.2 Verificar que para el c´ alculo de l´ımites en probabilidad valen las
mismas reglas que para el c´alculo de l´ımites ordinarios:
plimX = ξ, plimY = η ⇒ plimX + Y = ξ + η;
g continua en a, plimX = a ⇒ plimg(X) = g(a);
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicio 11.6.3 Para estimar la intensidad λ con que se producen accidentes en
una carretera, de acuerdo al modelo:
P¦n accidentes en un intervalo de longitud t¦ =
(λt)
n
e
−λt
n!
,
se cuenta el n´ umero de de accidentes N(t) en un per´ıodo de longitud t y se calcula
ˆ
λ =
N(t)
t
.
(a) Calcular E
ˆ
λ, Var
ˆ
λ.
(b) Deducir que
ˆ
λ converge en probabilidad a λ cuando t → ∞.
Ejercicio 11.6.4 Si U
1
, U
2
, . . . son variables independientes con distribuci´ on uni-
forme en [0, 1], y M
n
= min¦U
1
, U
2
, . . . , U
n
¦, probar
(a) que M
n
converge en probabilidad a cero.
(b) que P¦M
n
→ 0¦ = 1.
(c) ¿Converge la sucesi´on P¦M
n
≤ tE(M
n
)¦? En caso afirmativo, ¿a qu´e
l´ımite?
11.7 Una aplicaci´ on a la estad´ıstica. Coheren-
cia de una sucesi´ on de estimadores.
A menudo se utilizan procedimientos de estimaci´ on que conducen a familias
de estimadores (T
n
)
n∈N
, uno para cada tama˜ no de muestra. Cuando cada
muestra consta de variables con valores en 1, el espacio de muestras para
muestras de tama˜ no n es c
n
= 1
n
, y como consecuencia, el estimador T
n
:
c
n
→ Θ tiene por dominio ese espacio de muestras.
Introducci´ on a la probabilidad.
11.7. Aplicaci´ on estad´ıstica: Coherencia. 167
Para una sucesi´ on de estimadores que aprovechen adecuadamente la infor-
maci´ on cada vez mayor que proporcionan las muestras cada vez m´ as grandes,
es de esperar que ese aprovechamiento pueda describirse mediante alguna
propiedad asint´ otica cuando n → ∞.
La coherencia de una sucesi´on de estimadores (consistency en ingl´es, tam-
bi´en traducido al castellano por consistencia) es precisamente una propiedad
que refleja un comportamiento asint´ otico deseable:
Definici´ on 11.7.1 La sucesi´ on (T
n
: c
n
→ Θ)
n∈N
de estimadores de θ

es
coherente (o consistente) cuando
plimT
n
(X
1
, . . . , X
n
) = θ

.
Ejemplo 11.7.1 Si U
1
, . . . , U
n
son i.i.d. Unif(0, θ), la sucesi´ on de estimadores
de m´ axima verosimilitud de θ T
n
= max¦U
1
. . . , U
n
¦ es coherente.
En efecto, P¦θ − T
n
> ε¦ = P(
¸
n
i=1
¦U
i
< θ −ε¦) =

θ−ε
θ

n
→ 0 (n → ∞)
para cualquier ε > 0. (La escritura anterior es correcta s´ olo para ε ∈ (0, θ]. Si
ε > θ, hay que cambiar θ −ε por la parte positiva (θ −ε)
+
= max¦θ −ε, 0¦.)
2
Ejemplo 11.7.2 Si X
1
, . . . , X
n
, . . . son i.i.d. Exp(λ), la sucesi´ on de estima-
dores de m´ axima verosimilitud
ˆ
λ
n
=
n
X
1
+...+Xn
de λ es coherente.
En vez de mostrar que plim
ˆ
λ
n
= λ, basta verificar que plim
¯
X
n
=
1
λ
, con
¯
X
n
=
1
n
¸
n
i=1
X
i
= (
ˆ
λ
n
)
−1
, como aplicaci´ on del Ejercicio 11.6.2.
De E
¯
X
n
= λ
−1
, Var
¯
X
n
= n
−1
λ
−2
y de los criterios de los Teoremas 11.3.1
y 11.3.2 resulta la conclusi´ on del enunciado. 2
Ejemplo 11.7.3 Es inmediato verificar, a partir del Teorema 11.3.1, que una
sucesi´ on de estimadores cuyo error cuadr´ atico medio tienda a cero, es coher-
ente. En el caso de los estimadores insesgados, esto mismo se expresa diciendo
que una sucesi´ on de estimadores insesgados cuya variancia tiende a cero, es
coherente.
11.7.1 Estimaci´ on coherente de las cuantilas de F a par-
tir de una muestra aleatoria simple.
Para cada p ∈ (0, 1), llamamos p-cuantila de una distribuci´ on de probabilidad
en R con funci´ on de distribuci´ on F a cualquier x
p
tal que F(x

p
) ≤ p ≤ F(x
p
).
168
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
Obviamente, si F tiene en una cuantila x
p
un punto de crecimiento, en-
tonces x
p
es la ´ unica p-cuantila. Rec´ıprocamente, si x

p
< x
′′
p
son dos p-
cuantilas, entonces F es constante (igual a p) en [x

p
, x
′′
p
). M´ as precisamente,
las p-cuantilas son los puntos del intervalo [sup¦x : F(x) ≤ p¦, F
−1
(u) =
inf¦x : F(x) ≥ p¦], con la definici´ on de la inversa generalizada introducida en
el Teorema 3.5.1.
Dada una sucesi´ on U
1
, . . ., U
n
, . . . i.i.d.∼ Unif(0, 1), la sucesi´ on (X
i
=
F
−1
(U
i
))
i∈N
es i.i.d. ∼ F, de acuerdo al Teorema 3.5.1. Por la monoton´ıa de
F
−1
, el estad´ıstico de orden h de la muestra uniforme de tama˜ no n formada
por las primeras n variables, que denotaremos U
(n)
(h)
es llevado por F
−1
en el
correspondiente estad´ıstico de orden h de (X
1
, . . . , X
n
).
El c´alculo de las esperanzas y variancias de U
(n)
[np]
, donde [] designa a la
parte entera (ver los Ejercicios 8.11.1 y 8.11.3) permite aplicar los Teoremas
11.3.1 para concluir que plimU
(n)
[np]
= p. Como consecuencia, cuando p es un
punto de continuidad de F
−1
, y esto ocurre cuando la p-cuantila x
p
es un punto
de crecimiento de F, se cumple
plimX
(n)
[np]
= x
p
.
Tenemos de esta manera una sucesi´ on coherente de estimadores de x
p
.
11.8 Una aplicaci´ on al an´alisis: Teorema de
Weierstrass de aproximaci´ on de funcio-
nes continuas por polinomios.
Como aplicaci´ on de la Desigualdad de Chebyshev, podemos obtener una de-
mostraci´ on del siguiente teorema debido a Weierstrass, mediante un procedi-
miento justificado por una heur´ıstica probabil´ıstica.
Teorema 11.8.1 (Aproximaci´ on de funciones continuas por polinomios.)
Si F es una funci´ on continua en el intervalo [a, b], y ε es un n´ umero positivo
arbitrario, entonces existe un polinomio Q tal que para todo x ∈ [a, b], se
cumple [F(x) −Q(x)[ ≤ ε.
Demostraci´ on. Con el cambio de variables p = (x − a)/(b − a), basta
mostrar que f(p) = F(a + (b − a)p), continua en [0, 1], se puede aproximar
uniformemente en ese intervalo por medio de un polinomio q
n
de grado n.
Introducci´ on a la probabilidad.
11.9. Leyes de Grandes N´ umeros. 169
Supongamos una muestra X
1
, . . . , X
n
de tama˜ no n de la distribuci´ on de
Bernoulli con par´ ametro p, de modo que el estad´ıstico B
n
/n, con B
n
=
¸
n
i=1
X
i
es un estimador coherente de p.
Resulta entonces razonable esperar que cuando n tiende a ∞, la esperanza
de f(B
n
/n) resulte pr´ oxima a f(p). Esta esperanza resulta ser un polinomio
q
n
(p) =
n
¸
j=0
f(j/n)

n
j

p
j
(1 −p)
n−j
.
Vamos a mostrar que cuando n tiende a infinito, q
n
converge uniformemente
a f: Por ser continua en el intervalo [0, 1], la funci´ on f est´ a acotada, y es
uniformemente continua. Llamemos M a una cota de [f[, y encontremos δ tal
que, si [s −t[ < δ, entonces [f(s) −f(t)[ < ε/2.
Puesto que B
n
/n converge en probabilidad a p, la probabilidad
P¦[B
n
/n −p[ > δ¦
tiende a cero, de modo que podemos encontrar n
0
tal que para n ≥ n
0
,
P¦[B
n
/n −p[ > δ¦ < ε/(4M).
Se deduce entonces
[q
n
(p) −f(p)[ = [Ef(B
n
/n) −f(p)[
≤ [E(f(B
n
/n) −f(p))1
{|Bn/n−p|≤δ}
[ +[E(f(B
n
/n) −f(p))1
{|Bn/n−p|>δ}
[
≤ (ε/2)P¦[B
n
/n −p[ ≤ δ¦ + 2MP¦[B
n
/n −p[ > δ¦ = ε,
para cualquier n > n
0
, uniformemente en p. 2
11.9 Leyes de Grandes N´ umeros.
11.9.1 Ley D´ebil de los Grandes N´ umeros.
Teorema 11.9.1 (Ley d´ebil de los Grandes n´ umeros para variables equidis-
tribuidas, no correlacionadas).
Si (X
n
)
n=1,2,...
es una sucesi´ on de variables aleatorias no correlacionadas,
todas con la misma esperanza µ, y con la misma variancia finita, entonces
plim
n→∞
¯
X
n
= µ, con
¯
X
n
=
1
n
n
¸
i=1
X
i
.
170
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
Demostraci´ on. Si σ
2
es la variancia com´ un a las variables X
i
, un c´ alculo
directo muestra que la esperanza y la variancia del promedio
¯
X
n
son respecti-
vamente µ y σ
2
/n. Los criterios de los Teoremas 11.3.1 y 11.3.2 terminan la
demostraci´ on. 2
Corolario 11.9.1.1 Si (X
n
)
n=1,2,...
es una sucesi´ on de variables aleatorias in-
dependientes, id´enticamente distribuidas, con esperanza y variancia finitas,
vale la conclusi´ on del Teorema.
11.9.2 Ley Fuerte de los Grandes N´ umeros.
Teorema 11.9.2 Ley fuerte de los Grandes n´ umeros para variables equidis-
tribuidas, de A.N.Kolmogorov Si (X
n
)
n=1,2,...
es una sucesi´ on de variables
aleatorias independientes, todas con la misma distribuci´ on, E[X
1
[ < ∞, y µ
es el valor esperado com´ un de todas ellas, entonces
P

lim
n→∞
X
1
+ X
2
+ . . . + X
n
n
= µ

= 1.
Demostraci´ on La posponemos hasta '13.12, pero mostramos a continuaci´ on que la
misma conclusi´on vale con la hip´ otesis agregada E(X
1
)
4
< ∞.
Abreviemos
¯
X
n
=
X1+X2+...+Xn
n
, y reescribamos el suceso ¦lim
n→∞
¯
X
n
= µ¦ en la
forma
¦dado ε > 0, existe m tal que para todo n ≥ m se cumple [
¯
X
n
−µ[ < ε¦,
que equivale a
¦para todo h ∈ N, existe m tal que para todo n ≥ m, [
¯
X
n
−µ[ < 1/h¦
=
¸
h∈N
¸
m∈N
¸
n≥m
¦[
¯
X
n
−µ[ < 1/h¦.
Para probar que este suceso tiene probabilidad 1, verificaremos que su complemento
¸
h∈N
¸
m∈N
¸
n≥m
¦[
¯
X
n
−µ[ ≥ 1/h¦ tiene probabilidad cero. Como se trata de una uni´ on
numerable en h ∈ N, basta probar que cada uno de los uniendos tiene probabilidad
cero. Para ello fijamos h arbitrario y empezamos por acotar
P

¸
¸
m∈N
¸
n≥m
¦[
¯
X
n
−µ[ ≥ 1/h¦
¸

≤ P

¸
¸
n≥m
¦[
¯
X
n
−µ[ ≥ 1/h¦
¸

,
para todo m.
Introducci´ on a la probabilidad.
11 N8.- Ars Conjectandi. 171
Hacemos un par´entesis para acotar P¦[
¯
X
n
−µ[ ≥ 1/h¦ usando la desigualdad parecida
a la de Chebyshev que se obtiene como ella del Teorema 11.1.1 (Ver Ejercicio 11.1):
P¦[
¯
X
n
−µ[ ≥ 1/h¦ ≤
E((
¯
X
n
−µ)
4
)
(1/h)
4
= (h/n)
4
E((
n
¸
i=1
(X
i
−µ))
4
).
Calculamos por separado
E

n
¸
i=1
(X
i
−µ)

4
=
n
¸
i,j,k,l=1
E
i,j,k,l
,
donde abreviamos E
i,j,k,l
= E(X
i
−µ)(X
j
−µ)(X
k
−µ)(X
l
−µ).
Cuando alguno de los cuatro ´ındices (i, j, k, l) es diferente a los otros, el correspon-
diente factor, digamos (X
i
− µ) es independiente del producto de los otros tres, y
E
i,j,k,l
= E(X
i
−µ) E(X
j
−µ)(X
k
−µ)(X
l
−µ) = 0, porque E(X
i
−µ) = 0.
El cuarto momento de la suma se reduce entonces a
¸
i=j=k=l
E
i,j,k,l
+
¸
i=j,k=l
E
i,j,k,l
+
¸
i=k,j=l
E
i,j,k,l
+
¸
i=l,j=k
E
i,j,k,l
=
n
¸
i=1
E(X
i
−µ)
4
+ 3
¸
i=j
E(X
i
−µ)
2
(X
j
−µ)
2
.
Usamos ahora la hip´ otesis de que todas las variables tienen la misma distribuci´ on, de
lo que resulta
E

n
¸
i=1
(X
i
−µ)

4
= nE(X
1
−µ)
4
+ 3n(n −1)(E(X
1
−µ)
2
)
2
,
y continuamos con nuestra desigualdad inicial:
P

¸
¸
m∈N
¸
n≥m
¦[
¯
X
n
−µ[ ≥ 1/h¦
¸

≤ P

¸
¸
n≥m
¦[
¯
X
n
−µ[ ≥ 1/h¦
¸


¸
n≥m
P¦[
¯
X
n
−µ[ ≥ 1/h¦ ≤
¸
n≥m
(h/n)
4
[nE(X
1
−µ)
4
+ 3n(n −1)(E(X
1
−µ)
2
)
2
],
para todo m. Esta ´ ultima expresi´ on tiene l´ımite cero cuando m tiende a ∞, pues la
serie es convergente. 2
172
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
N8.- El Ars Conjectandi de Jacob Bernoulli.
La primera Ley de los Grandes n´ umeros se debe a Jacob Bernoulli. Es una ley d´ebil, referida a varia-
bles de Bernoulli, y se la encuentra en Ars Conjectandi, uno de los primeros tratados sobre el c´alculo de
probabilidades, publicado en 1713 despu´es de la muerte de su autor.
El primer texto sobre probabilidades que se public´o fue De Ratiociniis in Ludo Aleae (1657) de Christian
Huygens (1629 - 1695), y su contenido est´a esencialmente contenido en elArs Conjectandi. Otras obras
contempor´aneas del libro de Bernoulli, fueron Essai d’analyse sur les jeux de hasard (1708) de Pierre de
Montmort (1678 - 1719) y The Doctrine of Chances (1718) de Abraham De Moivre (1667 - 1754).
11.10 Distribuci´ on emp´ırica de una muestra.
Ley de Glivenko-Cantelli.
Consideremos una muestra aleatoria simple de una distribuci´ on F (esta deno-
minaci´ on ya ha sido utilizada en '8.11.1), es decir, un conjunto X
1
, X
2
, . . .,
X
n
de variables aleatorias independientes con la distribuci´ on F.
Dada la muestra X
1
, X
2
, . . . , X
n
de F, llamamos funci´ on de distribuci´ on
emp´ırica de dicha muestra a la funci´ on (aleatoria)
F
n
(t) =
1
n
n
¸
i=1
1
{X
i
≤t}
, t ∈ R. (11.3)
Introducci´ on a la probabilidad.
11.11. Ley de los Grandes N´ umeros funcional. 173
Teorema 11.10.1 (Ley de Glivenko Cantelli) Para cada t ∈ R, la funci´ on
de distribuci´ on emp´ırica F
n
(t) converge en probabilidad a F(t).
En cada intervalo de continuidad de F, F
n
converge a F uniformemente
con probabilidad 1.
Demostraci´ on. 1
{X
i
≤t}
es para cada i una variable Ber(F(t)). Por lo tanto,
por ser las variables (1
{X
i
≤t}
)
i=1,2,...,n
independientes, nF
n
(t) es Bin(n, F(t)).
Se deduce entonces que E(F
n
(t)) = F(t), Var(F
n
(t)) =
1
n
(F(t)(1 − F(t)), y
los criterios de los Teoremas 11.3.1 y 11.3.2 permiten obtener la conclusi´ on
deseada relativa a la convergencia en probabilidad.
De otra manera, por ser F
n
(t) el promedio de n variables Ber(F(t)) in-
dependientes, se le aplican las leyes de los grandes n´ umeros de los Teoremas
11.9.1 y 11.9.2; la ley d´ebil nos da nuevamente la convergencia en probabilidad.
La ley fuerte (la demostraci´ on vista arriba es aplicable porque la distribuci´ on
de Bernoulli tiene momento de cuarto orden finito, puesto que la propia varia-
ble es acotada), nos da la convergencia con probabilidad 1, para cada t. Esto
no basta para concluir la convergencia con probabilidad uno simult´ aneamente
para todo t, pero s´ı para todo t en un conjunto numerable, por ejemplo, el
de los racionales, o, tambi´en, como nos conviene considerar para la aplicaci´ on
inmediata, en la uni´ on del conjunto de los racionales con un conjunto finito
dado.
Dado el intervalo de continuidad [a, b] de F, vamos a verificar que si F
n
(t) →
F(t) para todo t en la uni´ on de los racionales con el conjunto finito ¦a, b¦,
entonces la convergencia es uniforme en todo el intervalo [a, b].
Por ser F continua en [a, b], es uniformemente continua, de modo que dado
ε arbitrario, podemos encontrar una partici´ on a = t
0
< t
1
< t
2
< . . . <
t
m
= b para la cual F(t
i
) − F(t
i−1
) < ε/2 (i = 1, 2, . . . , m), y, sin p´erdida de
generalidad podemos elegir t
1
, t
2
, . . ., t
m−1
racionales.
Para todo t en [t
i−1
, t
i
] se cumple entonces, por la monoton´ıa de las fun-
ciones de distribuci´ on y por la construcci´ on de la partici´ on,
F
n
(t) −F(t) ≤ F
n
(t
i
) −F(t
i
) +F(t
i
) −F(t) ≤ F
n
(t
i
) −F(t
i
) +ε/2
F(t) −F
n
(t) ≤ F(t) −F(t
i−1
) +F(t
i−1
) −F
n
(t
i−1
) ≤ ε/2 +F(t
i−1
) −F
n
(t
i−1
)
y por la convergencia (casi segura) de F
n
a F sobre la uni´ on del conjunto
de los racionales, y del conjunto finito ¦a, b¦, deducimos que se puede elegir
n tan grande que para todo i = 0, 1, 2, . . . , m se cumplan F
n
(t
i
) − F(t
i
) <
ε/2, F(t
i−1
) − F
n
(t
i−1
) < ε/2. Con estas desigualdades y las establecidas
anteriormente se concluye que para todo t en [a, b], [F
n
(t) −F(t)[ < ε . 2
174
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
11.11 Reinterpretaci´ on de la Ley de Glivenko
- Cantelli como una Ley de los Grandes
N´ umeros funcional.
A la variable aleatoria real X, con funci´ on de distribuci´ on de probabilidades
F, asociaremos la funci´on escal´ on
1
X
(x) = 1
{X≤x}
.
Esto define una correspondencia de Ω en el espacio de las funciones de R en
R, que podremos interpretar como una variable aleatoria, si dotamos a este
´ ultimo de una σ-´algebra adecuada.
Dentro de ese contexto, resulta natural llamar esperanza de 1
X
a la funci´on
que a cada x ∈ R asocia E(1
X
(x)) = F(x), es decir, E1
X
= F.
Dada la sucesi´ on de variables aleatorias (X
n
)
n=1,2,...
independientes, con
funci´on de distribuci´ on continua F, consideremos la sucesi´ on de sus funciones
escal´ on 1
Xn
. El promedio
¯
1 = n
−1
¸
n
i=1
1
X
i
es precisamente la funci´ on de
distribuci´ on emp´ırica F
n
, de modo que la Ley de Glivenko-Cantelli (Teorema
11.10.1) expresa que el promedio de las funciones escal´ on de variables alea-
torias independientes con funci´ on de distribuci´ on F converge a su esperanza,
que es F, con probabilidad 1, uniformemente en los intervalos de continuidad
de F. Cuando F es continua, la convergencia a la que alude el enunciado
precedente es la convergencia uniforme.
Dotemos al espacio de las funciones de R en R de la norma del supremo
| |

definida por |f|

= sup
−∞<t<∞
[f(t)[.
La convergencia uniforme es precisamente la convergencia en esta norma,
de modo que el enunciado precedente para la Ley de Glivenko-Cantelli es el de
una Ley fuerte de los Grandes N´ umeros, para variables aleatorias con valores
en el espacio de las funciones de R en R con la norma del supremo, cuando F
es continua.
No vamos a discutir aqu´ı c´omo elegir la σ-´algebra para que las funciones
escal´ on sean variables aleatorias. M´ as adelante volveremos sobre la inter-
pretaci´ on en espacios de funciones de los teoremas que se refieren al com-
portamiento asint´ otico de los promedios de variables aleatorias independientes
equidistribuidas.
Introducci´ on a la probabilidad.
11.12. Aplicaciones de la convergencia de F
n
a F. 175
11.12 Algunas aplicaciones estad´ısticas de la
convergencia de F
n
a F.
Cuando se desea estimar un par´ ametro de una distribuci´ on F, y la informaci´ on
emp´ırica que se dispone es una muestra aleatoria simple X
1
, X
2
, . . ., X
n
de
F, suele dar buenos resultados expresar el par´ ametro de la distribuci´ on en
t´erminos de la funci´ on de distribuci´ on F, y reemplazar F por F
n
en esa ex-
presi´ on.
La convergencia de F
n
a F implicar´ a frecuentemente la convergencia de la
expresi´ on as´ı obtenida al par´ ametro que se desea describir. De esta manera
se consigue un procedimiento asint´ oticamente adecuado (para n → ∞) de
descripci´on del par´ ametro de inter´es.
Vamos a considerar algunos ejemplos. Naturalmente, en cada caso ser´ a
necesario verificar la continuidad de la dependencia del par´ ametro de inter´es
respecto de la distribuci´ on, o, m´ as directamente, la convergencia de la ex-
presi´ on en F
n
hacia la expresi´ on en F.
Ejemplo 11.12.1 Supongamos que nos interesa obtener el valor del par´ ame-
tro p de una distribuci´ on de Bernoulli de la que se conoce una muestra aleatoria
simple X
1
, . . ., X
n
.
El par´ ametro p es la esperanza de la distribuci´ on, es decir, p =

xdF(x)
con F(x) = 0 si x < 0, F(x) = 1 −p si 0 ≤ x < 1 y F(x) = 1 si x ≥ 1. Por lo
tanto, la integral que se obtiene con F
n
en lugar de F
T
n
=

xdF
n
(x) = n
−1
n
¸
j=1
X
j
es calculable a partir de las observaciones, y es de esperar que converja a p
cuando n tiende a infinito. En efecto es as´ı, como lo asegura la Ley de los
Grandes N´ umeros.
Se observar´ a que T
n
es una razonable aproximaci´ on de p, al menos para n
grande. Lo confirma, por ejemplo, el c´ alculo de la distancia cuadr´ atica entre
T
n
y p:
E(T
n
−p)
2
= VarT
n
= p(1 −p)/n.
(Ver como antecedente '4.3.4). 2
Nota: Algunas observaciones del ejemplo precedente son generalizables:
para estimar la esperanza de una distribuci´ on de la que se posee una muestra
(X
1
, . . . , X
n
), es razonable utilizar el promedio
¯
X
n
=
X
1
+...+Xn
n
. El estimador
176
Enrique M. Caba˜ na.
Cap´ıtulo 11: Convergencia de variables aleatorias. LGN.
obtenido es insesgado, y si la esperanza de F es finita, la sucesi´ on de promedios
es coherente.
Podemos ir un poco m´ as lejos, e intentar una justificaci´ on heur´ıstica del
m´etodo de estimaci´ on de los momentos:
Ejemplo 11.12.2 Llamemos m
i
(θ) =

x
i
dF
θ
(x) al momento de orden i de
la distribuci´ on F
θ
. Es de esperar que el momento emp´ırico T
(i)
n
=

x
i
dF
n
(x)
nos de un valor pr´ oximo a m
i
(θ) y que plimT
(i)
n
= m
i
(θ). Si la transformaci´ on
θ → m
1
(θ) es invertible y tiene una inversa continua m
−1
1
, entonces m
−1
1
(T
(i)
n
)
nos dar´ a un estimador coherente de θ.
Cuando θ = (θ
1
, θ
2
) ∈ R
2
, no es de esperar que θ → m
1
(θ) sea invert-
ible, pero si (θ
1
, θ
2
) → (m
1

1
, θ
2
), m
2

1
, θ
2
)) lo es, y tiene inversa continua
θ
1
= t
1
(m
1
, m
2
), θ
2
= t
2
(m
1
, m
2
), entonces (t
1
(T
(1)
n
, T
(2)
n
), t
2
(T
(1)
n
, T
(2)
n
)) ser´ a
un estimador coherente de (θ
1
, θ
2
).
Ejemplo 11.12.3 Supongamos que queremos obtener un estimador de θ a
partir de la muestra X
1
, . . ., X
n
de la distribuci´ on uniforme en (0, θ) cuya
funci´ on de distribuci´ on llamaremos F.
Una primera observaci´ on, a saber, que θ = 2

θ
0
xdF(x) (n´ otese que F(x) =
x/θ para 0 < x < θ), nos conduce al estimador T
n
= 2
¸
n
j=1
X
j
/n, cuya
convergencia a θ es de nuevo consecuencia de la Ley de los Grandes N´ umeros.
Una segunda observaci´ on, que θ es el extremo derecho del soporte de F,
nos lleva a proponer como estimador al extremo derecho del soporte de F
n
, es
decir, X
(n)
= max
1≤j≤n
X
j
. 2
Ejercicio 11.12.1 Mostrar que el estimador X
(n)
del ejemplo precedente converge
casi seguramente a θ cuando n → ∞.
Ejercicio 11.12.2 Comparar los dos estad´ısticos del ejemplo precedente desde el
punto de vista de su distancia cuadr´ atica al par´ ametro θ que pretenden estimar.
12. Convergencia en Ley.
Distribuci´ on normal. Teorema
del L´ımite Central.
12.1 Convergencia en ley o en distribuci´ on,
para variables con valores en R.
Definici´ on 12.1.1 La sucesi´ on F
n
de funciones de distribuci´ on de probabili-
dad en R converge d´ebilmente a la funci´ on de distribuci´ on de probabilidad F,
cuando para cada punto de continuidad x de F se cumple
lim
n→∞
F
n
(x) = F(x).
La sucesi´ on de variables aleatorias X
n
converge en ley o en distribuci´ on a
la variable aleatoria X, cuando la sucesi´ on de las distribuciones de probabilidad
F
Xn
de las variables X
n
converge d´ebilmente a la funci´ on de distribuci´ on de
probabilidad F de la variable X.
Nota: Se observar´ a que la convergencia en distribuci´ on de una sucesi´ on de
variables aleatorias X
n
∼ F
n
es una propiedad de la sucesi´ on de sus distribu-
ciones, y no requiere ning´ un tipo de convergencia de las variables aleatorias
consideradas como funciones definidas en cierto espacio de probabilidad Ω.
M´as a´ un, esas variables pueden tener diferentes espacios de probabilidad como
dominio. Sin embargo, cuando todas ellas est´ an definidas en el mismo espacio
y X
n
→ X c.s., esto implica la convergencia en distribuci´ on, como lo expresa
el siguiente Teorema.
Teorema 12.1.1 Si X, X
n
(n = 1, 2, . . .) son variables aleatorias de (Ω, A, P)
en R y limX
n
= X c.s., entonces X
n
converge a X en distribuci´ on.
177
178
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
Demostraci´ on. Si x es un punto de continuidad de la funci´ on de distribuci´ on
F de X, y ε es un n´ umero positivo arbitrario, elegimos y > x tal que F(y) <
F(x) +ε.
Se cumple entonces
P

¸
¸
m
¸
n≥m
{|X
n
−X| ≤ y −x}
¸

= 1
por la convergencia casi segura de X
n
a X, y, por tratarse de la probabilidad
de una uni´ on creciente, existe m
0
tal que
P
¸
n≥m
0
{|X
n
−X| ≤ y −x} > 1 −ε, (12.1)
o bien,
P(C) < ε, C =

¸
¸
n≥m
0
{|X
n
−X| ≤ y −x}
¸

c
(12.2)
Observamos adem´ as que, para cualquier entero positivo n, las desigualdades
X
n
≤ x y |X
n
−X| < y −x implican X < y, de modo que
{X
n
≤ x} ∩ {|X
n
−X| < y −x} ⊂ {X ≤ y} (12.3)
Por lo tanto, para n > m
0
, la definici´ on de C y (12.3) implican
{X
n
≤ x} ⊂ {X
n
≤ x} ∩ {|X
n
−X| < y −x} ∪ C ⊂ {X ≤ y} ∪ C,
de donde resulta ( por (12.2) y (12.1))
P{X
n
≤ x} ≤ P{X ≤ y} + ε ≤ P{X ≤ x} + 2ε. (12.4)
Tomando l´ımite superior en (12.4) resulta
limsup
n→∞
P{X
n
≤ x} ≤ P{X ≤ x} + 2ε,
y, por ser ε arbitrario, concluimos
limsup
n→∞
P{X
n
≤ x} ≤ P{X ≤ x}.
De manera an´ aloga, o aplicando el mismo razonamiento a las variables
−X
n
, −X se establece la desigualdad complementaria
liminf
n→∞
P{X
n
≤ x} ≥ P{X ≤ x}.
y ambas implican la conclusi´ on deseada. 2
Introducci´ on a la probabilidad.
12.1. Convergencia en ley o en distribuci´ on. 179
Ejercicios.
Ejercicio 12.1.1 Si X
n
est´a uniformemente distribuida en 1/n, 2/n, . . ., (n−1)/n,
1, demostrar que X
n
converge en distribuci´ on, y hallar la distribuci´ on l´ımite.
Si g es una funci´ on continua en R (o en [0, 1]), encontrar el l´ımite de Eg(X
n
).
Ejercicio 12.1.2 Si X
n
∼ F
n
converge en probabilidad a la constante a, entonces
converge en distribuci´ on a la constante a, es decir, las distribuciones F
n
convergen
d´ebilmente a la probabilidad concentrada en a.
Verificar que, si g es continua y acotada, Eg(X
n
) → Eg(a).
Ejercicio 12.1.3 Si X
n
converge en probabilidad a X (es decir, si la sucesi´on de
las diferencias X
n
− X converge en probabilidad a la constante 0), entonces X
n
converge en distribuci´ on a X.
Observar que la convergencia casi segura en la hip´ otesis del Teorema 12.1.1 puede
reemplazarse por convergencia en probabilidad.
Ejercicio 12.1.4 Mostrar que si F es una funci´ on de distribuci´ on, entonces el con-
junto de los valores {u : Existe m´as de un valor de x con imagen u} es numerable.
Sugerencia: Observar que cada uno de esos valores de u es imagen de puntos de
un cierto intervalo, y que esos intervalos son disjuntos. La cantidad de intervalos
contenidos en (−n, n) constituyen un conjunto numerable, porque hay a lo sumo 2n
de longitud mayor o igual que 1, luego a lo sumo 2
2
n de longitud mayor o igual que
2
−1
, 2
3
n de longitud mayor o igual que 2
−2
, etc. A estos se agregan los que a´ un no
est´en considerados, que est´en incluidos en (−n − 1, n + 1), que por un argumento
an´ alogo tambi´en son un conjunto numerable. Esto se aplica para n = 1, 2, . . . y
resulta que el conjunto buscado es numerable, por ser uni´ on de una sucesi´on de
conjuntos numerables.
12.1.1 Un rec´ıproco del Teorema 12.1.1.
Teorema 12.1.2 Si la sucesi´ on de variables aleatorias X
n
converge en dis-
tribuci´ on a X, existe una sucesi´ on de copias X

n
, definidas en un mismo espacio
de probabilidad, que converge casi seguramente a una copia X

de X.
(Llamamos copia de una variable Z a una variable Z

con la misma dis-
tribuci´ on de probabilidad).
Demostraci´ on. Si F
n
, F son las funciones de distribuci´ on de X
n
, X, y U es
una variable uniforme en [0, 1], construimos X

n
= F
−1
n
(U), X

= F
−1
(U). Uti-
lizamos para esta construcci´ on, la inversa generalizada definida en el Teorema
3.5.1: F
−1
(u) = inf{x : F(x) ≥ u}.
180
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
Vamos a mostrar que P{lim
n→∞
X

n
= X

} = 1. Para ello, empecemos
por observar que cuando x es un punto de crecimiento de F, es decir, cuando
cualquiera sea ε > 0, existen y, z tales que x − ε < y < x < z < x + ε
y F(y) < F(x) < F(z), se cumple entonces F
−1
(F(x)) = x. En efecto,
llamemos u = F(x). Se cumple, por una parte, z ∈ {x

: u ≤ F(x

)} de modo
que F
−1
(u) ≤ z ≤ x + ε, y por otra parte, y ∈ {x

: u ≤ F(x

)}, por lo
que F
−1
(u) ≥ y ≥ x −ε. Por ser ε arbitrario, necesariamente debe cumplirse
F
−1
(u) = x.
Para n suficientemente grande, F
n
(z) > u, puesto que tiene l´ımite F(z),
y por el mismo argumento aplicado a F, tambi´en F
−1
n
(u) < z. De manera
an´ aloga, para n suficientemente grande, F
n
(y) < u y esto implica y < F
−1
n
(u).
Se concluye entonces que x − ε ≤ F
−1
n
(u) ≤ x + ε, y esto significa que
F
−1
n
(u) tiende a x = F
−1
(u), porque ε es arbitrario.
Para terminar la demostraci´ on, basta verificar que el conjunto {F(x) :
x punto de crecimiento de F} tiene probabilidad 1 para la distribuci´ on uni-
forme en (0, 1), y es suficiente mostrar que tiene probabilidad mayor que 1 −ε
para ε > 0 arbitrario.
Cada punto x que no es de crecimiento, est´ a contenido en un intervalo
[y, z) en el que F es constante. Como F es no decreciente y continua por
la derecha, los intervalos de constancia constituyen un conjunto numerable
(ver Ejercicio 12.1.4). Si u
1
, u
2
, u
3
, . . ., son los valores de F en la sucesi´on
de intervalos donde es constante, entonces excluiremos de (0,1) el intervalo
de longitud 2
−1
ε centrado en u
1
, el intervalo de longitud 2
−2
ε centrado en
u
2
, el intervalo de longitud 2
−3
ε centrado en u
3
, . . ., el intervalo de longitud
2
−i
ε centrado en u
i
, . . ., y lo que excluimos de esa manera es un conjunto de
probabilidad acotada por ε. Los puntos no excluidos son de crecimiento, es
decir, P{U ∈ {F(x) : x punto de crecimiento de F}} > 1 −ε. 2
12.1.2 Una caracterizaci´ on de la convergencia en dis-
tribuci´ on.
Teorema 12.1.3 Es condici´on necesaria y suficiente para que la sucesi´ on F
n
de funciones de distribuci´ on de probabilidad converja d´ebilmente a la funci´ on
de distribuci´ on de probabilidad F, que para cada funci´ on g continua y acotada
lim
n→∞

g(x)dF
n
(x) =

g(x)dF(x).
De manera equivalente, con otra notaci´ on: es condici´ on necesaria y sufi-
ciente para que las variables aleatorias reales X
n
converjan en distribuci´ on a
Introducci´ on a la probabilidad.
12.1. Convergencia en ley o en distribuci´ on. 181
la variable aleatoria X, que para cada funci´ on g : R → R continua y acotada,
lim
n→∞
Eg(X
n
) = Eg(X).
Demostraci´ on de la suficiencia. Dados z de continuidad de F, y ε > 0,
construimos las funciones auxiliares continuas y acotadas u

z,ε
(x) = 1
{x<z−ε}

−1
(z − x)1
{z−ε≤x≤z}
y u
+
z,ε
(x) = 1
{x<z}

−1
(z + ε − x)1
{z≤x≤z+ε}
, que sa-
tisfacen las desigualdades 1
{x≤z−ε}
≤ u

z,ε
(x) ≤ 1
{x≤z}
≤ u
+
z,ε
(x) ≤ 1
{x≤z+ε}
.
0
1
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
u

z,ε
u
+
z,ε
z z + ε z −ε
Figura 12.1: Gr´ aficos de u

z,ε
y de u
+
z,ε
.
Obtenemos, con X
n
∼ F
n
y X ∼ F,
F
n
(z) = E1
{Xn≤z}
≥ Eu

z,ε
(X
n
),
de donde deducimos
liminf
n→∞
F
n
(z) ≥ lim
n→∞
Eu

z,ε
(X
n
) = Eu

z,ε
(X) ≥ E1
{X≤z−ε}
= F(z −ε),
y, an´ alogamente
F
n
(z) ≤ Eu
+
z,ε
(X
n
),
limsup
n→∞
F
n
(z) ≤ lim
n→∞
Eu
+
z,ε
(X
n
) = Eu
+
z,ε
(X) ≤ E1
{X≤z+ε}
= F(z + ε).
Dado que las desigualdades
F(z −ε) ≤ liminf
n→∞
F
n
(z) ≤ limsup
n→∞
F
n
(z) ≤ F(z + ε)
valen para todo ε > 0, pasamos al l´ımite con ε ↓ 0 y la continuidad de F en z
implica que ambos l´ımites coinciden con F(z). 2
Demostraci´ on de la necesidad. supongamos g continua y acotada por M.
Dado ε > 0 arbitrario, elegimos puntos de continuidad a, b de F tales que F(a)
182
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
< ε/(6M), 1 − F(b) < ε/(6M). La continuidad uniforme de g en [a, b] nos
permite encontrar puntos de continuidad de F x
0
= a < x
1
< x
2
< . . . < x
k
= b de modo que para cualquier i = 1, 2, . . ., k, si y, z ∈ [x
i−1
, x
i
], entonces
|g(y) −g(z)| < ε/6.
A partir de esta construcci´ on, definimos las aproximaciones por defecto y
por exceso de g:
g

ε
(x) = −M1
{x≤a}
+
k
¸
i=1
(g(x
i
) −ε/6)1
{x
i−1
<x≤x
i
}
−M1
{b<x}
,
g
+
ε
(x) = M1
{x≤a}
+
k
¸
i=1
(g(x
i
) +ε/6)1
{x
i−1
<x≤x
i
}
+ M1
{b<x}
.
Por ser g

ε
y g
+
ε
funciones seccionalmente constantes, es posible expresar
las esperanzas Eg

ε
(X
n
), Eg

ε
(X
n
) de manera sencilla:
Eg

ε
(X
n
) = −MF
n
(a) +
n
¸
i=1
(g(x
i
) −ε/6)(F
n
(x
i
) −F
n
(x
i−1
)) −M(1 −F
n
(b))
→ −MF(a) +
n
¸
i=1
(g(x
i
) −ε/6)(F(x
i
) −F(x
i−1
)) −M(1 −F(b)) = Eg

ε
(X),
y, an´ alogamente,
Eg
+
ε
(X
n
) → Eg
+
ε
(X).
Las desigualdades g

ε
(x) ≤ g(x) ≤ g
+
ε
(x) implican
Eg

ε
(X
n
) ≤ Eg(X
n
) ≤ Eg
+
ε
(X
n
),
de modo que, pasando al l´ımite en n, obtenemos para cada ε
Eg

ε
(X) ≤ liminf Eg(X
n
) ≤ limsup Eg(X
n
) ≤ Eg
+
ε
(x).
La diferencia entre los extremos Eg
+
ε
(X) −Eg

ε
(X) est´ a acotada por
2MF(a) + (2ε/6)(F(b) −F(a)) + 2M(1 −F(b)) < ε,
que puede elegirse arbitrariamente peque˜ no, y adem´ as, la constante Eg(X)
est´ a comprendida entre ambos extremos para cualquier ε, de modo que se
concluye que ambos l´ımites, inferior y superior, coinciden con Eg(X). 2
Introducci´ on a la probabilidad.
12.2. Distribuci´ on normal en R. 183
Ejercicios.
Ejercicio 12.1.5 Concluir, como consecuencia del Teorema 12.1.3, que, si la su-
cesi´on de variables aleatorias reales (X
n
) converge en distribuci´ on a X, entonces
sus funciones caracter´ısticas ψ
n
(t) = Ee
ıtXn
convergen para cada t a la funci´ on
caracter´ıstica ψ(t) = Ee
ıtX
de X.
Ejercicio 12.1.6 (i) Dada la sucesi´on (X
n
) de variables aleatorias i.i.d., expre-
sar la funci´ on caracter´ıstica ψ
n
(t) de Z
n
= (
¸
n
i=1
X
i
)/

n a partir de la funci´ on
caracter´ıstica ψ
0
(t) de X
1
.
(ii) De la desigualdad |e
ıy
−1| ≤ |y
3
|/2 y de un desarrollo de Taylor de segundo
orden de e
ıy
, deducir la acotaci´ on |e
ıy
−1 −ıy +y
2
/2| ≤ |y|
3
/2.
(iii) Mostrar que, si X
1
tiene esperanza cero, variancia uno y momento de tercer
orden finito, entonces lim
n→∞
ψ
n
(t) = e
−t
2
/2
.
(iv) Deducir que, si la sucesi´ on (Z
n
) converge en distribuci´ on, el l´ımite tiene que
tener funci´ on caracter´ıstica ψ(t) = e
−t
2
/2
.
Ejercicio 12.1.7 Adaptar la demostraci´ on del Teorema 12.1.3, para obtener el
siguiente resultado similar:
Teorema 12.1.4 Es condici´ on necesaria y suficiente para que la sucesi´ on F
n
de
funciones de distribuci´ on de probabilidad converja a la funci´ on G en cada punto de
continuidad de G, que para cada funci´ on g continua con l´ımites 0 en −∞ y en +∞,
lim
n→∞

g(x)dF
n
(x) =

g(x)dG(x).
La funci´ on G es no decreciente, con recorrido en [0, 1], por ser l´ımite de una
sucesi´on de funciones de distribuci´ on, pero no es necesariamente una funci´ on de
distribuci´ on de probabilidades, es decir, puede no tener l´ımites 0 y 1 en −∞ y en
+∞ respectivamente.
12.2 Distribuci´ on normal en R.
Definici´ on 12.2.1 Decimos que la variable aleatoria real Z tiene distribuci´ on
normal t´ıpica cuando su densidad de distribuci´ on de probabilidades es
ϕ(z) =
1


e
−z
2
/2
, z ∈ R.
Notaci´ on: Llamamos Φ a la funci´ on de distribuci´ on Φ(z) =

z
−∞
ϕ(t)dt.
184
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-3 -2 -1 0 1 2 3
ϕ
Φ
Figura 12.2: Funci´ on de distribuci´ on de probabilidades Φ y densidad ϕ (lla-
mada campana de Gauss) de una variable normal t´ıpica.
La figura 12.2 describe la forma de ambas funciones, y la Tabla 12.2 indica
algunos valores de la funci´ on de distribuci´ on Φ.
Los valores de la Tabla 12.2 se han obtenido mediante integraci´ on num´erica. Las
desigualdades del Ejercicio 12.2.3 permiten obtener aproximaciones de Φ(x) para x
mayor que el m´aximo valor incluido en la tabla (x > 3).
Las variables normales t´ıpicas tienen esperanza cero, y variancia uno (ver
Ejercicio 12.2.1). Por lo tanto, cuando Z es normal t´ıpica, X = µ + σZ tiene
esperanza µ y variancia σ
2
. Esto justifica la definici´ on siguiente:
Definici´ on 12.2.2 Decimos que X tiene distribuci´ on normal (µ, σ
2
), o dis-
tribuci´ on normal con media µ y variancia σ
2
, cuando (X − µ)/σ tiene dis-
tribuci´ on normal t´ıpica.
Nota: A las variables normales tambi´en se las llama gaussianas.
Ejercicios.
Ejercicio 12.2.1 Mostrar que la funci´ on generatriz de momentos de una variable
gaussiana t´ıpica Z es
Ee
tZ
= e
t
2
/2
Introducci´ on a la probabilidad.
12.2. Distribuci´ on normal en R. 185
Tabla 12.1: Tabla de la funci´ on de distribuci´ on normal t´ıpica: Φ(x) =

x
−∞
ϕ(t)dt, ϕ(x) =
e
−x
2
/2

(2π)
.
x Φ(x) x Φ(x) x Φ(x) x Φ(x) x Φ(x) x Φ(x)
.00 .5000 .50 .6914 1.00 .8413 1.50 .9331 2.00 .9772 2.50 .9937
.01 .5039 .51 .6949 1.01 .8437 1.51 .9344 2.01 .9777 2.51 .9939
.02 .5079 .52 .6984 1.02 .8461 1.52 .9357 2.02 .9782 2.52 .9942
.03 .5119 .53 .7019 1.03 .8484 1.53 .9369 2.03 .9787 2.53 .9944
.04 .5159 .54 .7054 1.04 .8508 1.54 .9382 2.04 .9792 2.54 .9945
.05 .5199 .55 .7088 1.05 .8531 1.55 .9394 2.05 .9797 2.55 .9947
.06 .5239 .56 .7122 1.06 .8554 1.56 .9406 2.06 .9802 2.56 .9948
.07 .5279 .57 .7156 1.07 .8576 1.57 .9417 2.07 .9807 2.57 .9950
.08 .5318 .58 .7190 1.09 .8621 1.58 .9429 2.08 .9811 2.58 .9951
.09 .5358 .59 .7224 1.08 .8599 1.59 .9440 2.09 .9816 2.59 .9952
.10 .5398 .60 .7257 1.10 .8643 1.60 .9452 2.10 .9820 2.60 .9954
.11 .5437 .61 .7290 1.11 .8665 1.61 .9463 2.11 .9825 2.61 .9955
.12 .5477 .62 .7323 1.12 .8686 1.62 .9473 2.12 .9829 2.62 .9956
.13 .5517 .63 .7356 1.13 .8707 1.63 .9484 2.13 .9833 2.63 .9958
.14 .5556 .64 .7389 1.14 .8728 1.64 .9494 2.14 .9837 2.64 .9959
.15 .5596 .65 .7421 1.15 .8749 1.65 .9505 2.15 .9841 2.65 .9960
.16 .5635 .66 .7453 1.16 .8769 1.66 .9515 2.16 .9845 2.66 .9961
.17 .5674 .67 .7485 1.17 .8789 1.67 .9525 2.17 .9849 2.67 .9962
.18 .5714 .68 .7517 1.18 .8809 1.68 .9535 2.18 .9853 2.68 .9963
.19 .5753 .69 .7549 1.19 .8829 1.69 .9544 2.19 .9856 2.69 .9964
.20 .5792 .70 .7580 1.20 .8849 1.70 .9554 2.20 .9860 2.70 .9965
.21 .5831 .71 .7611 1.21 .8868 1.71 .9563 2.21 .9863 2.71 .9966
.22 .5870 .72 .7642 1.22 .8887 1.72 .9572 2.22 .9867 2.72 .9967
.23 .5909 .73 .7673 1.23 .8906 1.73 .9581 2.23 .9870 2.73 .9968
.24 .5948 .74 .7703 1.24 .8925 1.74 .9590 2.24 .9874 2.74 .9969
.25 .5987 .75 .7733 1.25 .8943 1.75 .9599 2.25 .9877 2.75 .9970
.26 .6025 .76 .7763 1.26 .8961 1.76 .9607 2.26 .9880 2.76 .9971
.27 .6064 .77 .7793 1.27 .8979 1.77 .9616 2.27 .9883 2.77 .9972
.28 .6102 .78 .7823 1.28 .8997 1.78 .9624 2.28 .9886 2.78 .9973
.29 .6140 .79 .7852 1.29 .9014 1.79 .9632 2.29 .9889 2.79 .9973
.30 .6179 .80 .7881 1.30 .9031 1.80 .9640 2.30 .9892 2.80 .9974
.31 .6217 .81 .7910 1.31 .9049 1.81 .9648 2.31 .9895 2.81 .9975
.32 .6255 .82 .7938 1.32 .9065 1.82 .9656 2.32 .9897 2.82 .9976
.33 .6292 .83 .7967 1.33 .9082 1.83 .9663 2.33 .9900 2.83 .9976
.34 .6330 .84 .7995 1.34 .9098 1.84 .9671 2.34 .9903 2.84 .9977
.35 .6368 .85 .8023 1.35 .9114 1.85 .9678 2.35 .9905 2.85 .9978
.36 .6405 .86 .8051 1.36 .9130 1.86 .9685 2.36 .9908 2.86 .9978
.37 .6443 .87 .8078 1.37 .9146 1.87 .9692 2.37 .9910 2.87 .9979
.38 .6480 .88 .8105 1.38 .9162 1.88 .9699 2.38 .9912 2.88 .9980
.39 .6517 .89 .8132 1.39 .9177 1.89 .9706 2.39 .9915 2.89 .9980
.40 .6554 .90 .8159 1.40 .9192 1.90 .9712 2.40 .9917 2.90 .9981
.41 .6590 .91 .8185 1.41 .9207 1.91 .9719 2.41 .9919 2.91 .9982
.42 .6627 .92 .8212 1.42 .9221 1.92 .9725 2.42 .9921 2.92 .9982
.43 .6664 .93 .8238 1.43 .9236 1.93 .9731 2.43 .9924 2.93 .9983
.44 .6700 .94 .8263 1.44 .9250 1.94 .9738 2.44 .9926 2.94 .9983
.45 .6736 .95 .8289 1.45 .9264 1.95 .9744 2.45 .9928 2.95 .9984
.46 .6772 .96 .8314 1.46 .9278 1.96 .9750 2.46 .9930 2.96 .9984
.47 .6808 .97 .8339 1.47 .9292 1.97 .9755 2.47 .9931 2.97 .9985
.48 .6843 .98 .8364 1.48 .9305 1.98 .9761 2.48 .9933 2.98 .9985
.49 .6879 .99 .8389 1.49 .9318 1.99 .9767 2.49 .9935 2.99 .9985
.50 .6914 1.00 .8413 1.50 .9331 2.00 .9772 2.50 .9937 3.00 .9986
186
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
y que la funci´ on caracter´ıstica es
Ee
itZ
= e
−t
2
/2
.
Calcular todos los momentos de una variable gaussiana t´ıpica. Verificar que si X es
normal (µ, σ
2
), entonces valen las f´ ormulas:
E(X −µ)
2n
= σ
2n
(2n)!
n!2
n
, E(X −µ)
2n+1
= 0, n = 0, 1, 2, . . .
Ee
tX
= e
tµ+(tσ)
2
/2
y que la funci´ on caracter´ıstica es
Ee
itX
= e
tµ−(tσ)
2
/2
.
Ejercicio 12.2.2 Mostrar que la suma de dos variables gaussianas independientes
es gaussiana. Deducir que cualquier combinaci´ on lineal de dos o m´ as variables
gaussianas independientes es gaussiana.
Ejercicio 12.2.3 Mostrar que cuando Z es normal t´ıpica y x es positivo, la pro-
babilidad 1 −Φ(x) del suceso {Z ∈ (x, +∞)} satisface las desigualdades :
xϕ(x)
1 +x
2
< 1 −Φ(x) <
ϕ(x)
x
Ejercicio 12.2.4 Verificar que los cocientes incrementales de ϕ:
ϕ(x +δ) −ϕ(x)
δ
est´an uniformemente acotados en valor absoluto por ϕ(1).
12.3 Teorema del L´ımite Central para varia-
bles equidistribuidas.
Teorema 12.3.1 Si las variables X
1
, X
2
, . . ., X
n
, . . . son independientes,
equidistribuidas, con esperanzas µ y variancias σ
2
, entonces para cada x se
cumple
lim
n→∞
P

X
1
+ X
2
+ . . . + X
n
−nµ


2
≤ x
¸
=
1

x
−∞
e
−t
2
/2
dt.
Introducci´ on a la probabilidad.
12.3. TLC para variables equidistribuidas. 187
Ya sabemos, por la Ley de los Grandes N´ umeros, que, cualquiera sea la dis-
tribuci´ on (con esperanza finita) de una muestra aleatoria simple, el promedio
¯
X
n
converge a la esperanza, y por lo tanto,
¯
X
n
− µ converge a cero. Lo que
expresa el teorema anterior, es que, si para cada n multiplicamos esa diferencia
(aleatoria), que tiende a cero, por el factor

n/σ
2
que tiende a infinito, los
productos resultantes constituyen una sucesi´ on de variables aleatorias cuyas
distribuciones de probabilidad convergen en el sentido de la Definici´ on 12.1.1
a la distribuci´ on normal t´ıpica, distribuci´ on cuya importancia es considerable,
por esta entre otras razones.
Una demostraci´ on parcial del Teorema 12.3.1. Es claro que basta demostrar
el teorema en el caso en que las variables tienen esperanza cero y variancia
uno. En tal caso, el Ejercicio 12.1.6 muestra que, con la hip´ otesis adicional
E|X
1
|
3
< ∞, si
¸
n
i=1
X
i
/

n converge en distribuci´ on, la distribuci´ on l´ımite
debe tener funci´on caracter´ıstica ψ(t) = e
−t
2
/2
. Esta es precisamente la funci´ on
caracter´ıstica de la distribuci´ on normal t´ıpica (ver Ejercicio 12.2.1, y tener en
cuenta el Corolario 13.10.1.1). El mismo argumento es aplicable a cualquier
sucesi´on parcial de
¸
n
i=1
X
i
/

n.
Supongamos, para hacer una demostraci´ on por reducci´ on al absurdo, que
la sucesi´on F
n
de las funciones de distribuci´ on de
¸
n
i=1
X
i
/

n no converge a
la funci´ on de distribuci´ on Φ(t) de la normal t´ıpica. La suposici´ on precedente
implica que para alg´ un x
0
, F
n
(x
0
) tiene una sucesi´on parcial (F

(x
0
))
ν∈N
que
converge a otro l´ımite G(x
0
) = Φ(x
0
).
El Lema 12.3.1 muestra que F

tiene a su vez una sucesi´on parcial que
converge a una funci´ on de distribuci´ on G en todos sus puntos de continuidad.
Esta es la contradicci´ on que busc´ abamos, porque entonces la funci´ on ca-
racter´ıstica de F

deber´ıa converger a la funci´ on caracter´ıstica de G, y no
a e
−t
2
/2
. Esta demostraci´ on del Teorema del L´ımite Central para variables
equidistribuidas es parcial, porque ha requerido agregar la hip´ otesis de finitud
del momento de tercer orden. 2
Lema 12.3.1 Bajo las hip´otesis del Teorema 12.3.1, cualquier sucesi´ on parcial
G
n
= F

de la sucesi´ on F
n
de las funciones de distribuci´ on de
¸
n
i=1
X
i
/

n
tiene una sucesi´ on parcial que converge a una funci´ on de distribuci´ on G en
todos sus puntos de continuidad.
Demostraci´ on. Tomemos una sucesi´ on (x
m
)
m∈N
densa en R (por ejemplo,
una sucesi´on que recorra a los racionales).
Verifiquemos en primer lugar que G
n
tiene una sucesi´on parcial que con-
verge en cada x
m
. Para ello utilizaremos una construcci´ on a la que suele
denominarse “proceso diagonal”.
188
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
Como {G
n
(x
1
) : n ∈ N} es un conjunto acotado (entre 0 y 1), existe una
sucesi´on estrictamente creciente de naturales n
1,i
tal que G
n
1,i
tiene l´ımite que
llamaremos G(x
1
), cuando i → ∞.
Tambi´en {G
n
1,i
(x
2
) : i ∈ N} es acotado, de modo que existe una sucesi´ on
parcial n
2,i
de n
1,i
tal que G
n
2,i
(x
2
) converge a un l´ımite G(x
2
) cuando i → ∞.
Adem´ as, por ser G
n
2,i
(x
1
) una sucesi´on parcial de G
n
1,i
(x
1
), tambi´en converge
a G(x
1
).
La acotaci´ on de {G
n
2,i
(x
3
) : i ∈ N} asegura ahora la existencia de una
sucesi´on parcial n
3,i
de n
2,i
para la que existe lim
i→∞
G
n
3,i
(x
3
), que llamamos
G(x
3
). Se cumple adem´ as lim
i→∞
G
n
j,i
(x
j
) para j < 3.
La continuaci´ on de este procedimiento lleva a construir sucesiones n
h,i
par-
ciales de n
h−1,i
, para las que existe el l´ımite lim
i→∞
G
n
h,i
(x
h
) que denominamos
G(x
h
), y que por ser sucesiones parciales de todas las anteriores, cumplen
tambi´en lim
i→∞
G
n
h,i
(x
j
) = G(x
j
) para j < h.
La llamada sucesi´ on diagonal n
i,i
es una sucesi´on parcial de cada n
h,i
, a
partir de i = h, y por lo tanto cumple
lim
i→∞
G
n
i,i
(x
j
) = G(x
j
)
para cada j.
Dado que cada una de las funciones de distribuci´ on G
n
i,i
es no decreciente,
con valores en [0, 1], tambi´en el l´ımite G es no decreciente y tiene recorrido en
[0, 1].
S´ olo resta para terminar la demostraci´ on, verificar que G es una funci´ on de
distribuci´ on de probabilidades, o, en otras palabras, que su recorrido contiene
al intervalo abierto (0, 1). Para ello no basta que G sea l´ımite puntual de
funciones de distribuci´ on, como lo muestra el Ejercicio 12.3.1.
Vamos a mostrar que para cada ε positivo, el recorrido de G contiene al
intervalo (ε, 1 − ε). Basta para ello mostrar que existe un intervalo [a, b] tal
que G(b) − G(a) ≥ 1 − ε. Esto se debe a que pueden encontrarse a, b tales
que cada una de las funciones de distribuci´ on F
n
satisface la misma propiedad:
F
n
(b) −F
n
(a) ≥ 1 −ε.
La demostraci´ on de este ´ ultimo hecho puede basarse en una aplicaci´ on de
la desigualdad de Chebyshev: Como cada Y
n
=
¸
n
i=1
X
i
/

n tiene esperanza 0
y variancia 1,
P{|Y
n
| > 1/

ε} ≤ ε
y entonces F
n
(1/

ε) −F
n
(−1/

ε) ≥ 1 − ε, es decir, basta tomar b = −a
= 1/

ε cualquiera sea n. 2
Introducci´ on a la probabilidad.
12.3. TLC para variables equidistribuidas. 189
Un mayor cuidado en las acotaciones dentro del mismo contexto permite
eliminar la hip´ otesis E|X
1
|
3
< ∞, que fue utilizada en la demostraci´ on prece-
dente. Posponemos una demostraci´ on del Teorema del L´ımite Central para
variables equidistribuidas sin el agregado de esta hip´ otesis superflua, basada
en una argumentaci´ on diferente, hasta §12.4.
Aprovechamos ahora algunos elementos de la demostraci´ on precedente del
Teorema del L´ımite Central, para obtener el siguiente resultado, m´ as gene-
ral, del que puede obtenerse nuevamente el Teorema del L´ımite Central como
corolario:
Teorema 12.3.2 Si las funciones caracter´ısticas ψ
Xn
(t) = Ee
ıtXn
de la su-
cesi´ on de variables X
n
con valores en R tienen por l´ımite la funci´ on carac-
ter´ıstica ψ
X
(t) de una variable X, para cada t, entonces (X
n
)
n=1,2,...
converge
en distribuci´ on a X.
Demostraci´ on. Para cada n, llamemos F
n
a la funci´on de distribuci´ on
de X
n
. Si el enunciado no fuera cierto, el proceso diagonal utilizado en la
demostraci´ on del Lema 12.3.1 muestra que existir´ıa una sucesi´ on parcial de
F
n
que converge a una funci´ on G en sus puntos de continuidad, distinta de la
funci´on de distribuci´ on F de la variable X. Esta funci´ on G no tiene por qu´e
ser una funci´ on de distribuci´ on de probabilidades.
La hip´ otesis ψ
Xn
(t) → ψ
X
(t) implica, para cada u > 0,
lim
n→∞

u
0
ψ
Xn
(t) =

u
0
ψ
X
(t).
Por otra parte

u
0
ψ
Xn
(t) =

u
0


−∞
e
ıtx
dF
n
(x)

dt
=


−∞
¸
e
ıtx
ix
¸
u
0
dF
n
(x) =


−∞
e
ıux
−1
ix
dF
n
(x).
Para el c´ alculo del l´ımite de esta ´ ultima integral cuando n tiende a infinito, se
aplica el Teorema 12.1.4, y esto conduce a
lim
n→∞

u
0
ψ
Xn
(t) =


−∞
e
ıux
−1
ix
dG(x) =

u
0


−∞
e
ıtx
dG(x)

dt.
Concluimos entonces que para cada u vale

u
0
ψ
X
(t) =

u
0


−∞
e
ıtx
dG(x)

dt
de manera que


−∞
e
ıtx
dG(x) es la funci´on caracter´ıstica de X, y esto implica
que G coincide con F. 2
190
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
Ejercicios
Ejercicio 12.3.1 Mostrar que la sucesi´on de funciones de distribuci´ on de las va-
riables X
n
= n + U, U ∼ Uniforme(0, 1) tiene l´ımite en cada punto de la recta
real, pero ese l´ımite no es una funci´ on de distribuci´ on de probabilidades. Obser-
var que lo mismo ocurre cualquiera sea la distribuci´ on de probabildades de U, no
necesariamente uniforme.
12.4 Teorema del L´ımite Central para arreglos
triangulares de variables independientes.
Teorema 12.4.1 (de Lindeberg) Si k(n) es una sucesi´ on creciente de natura-
les, para cada n, X
n,1
, X
n,2
, . . ., X
n,k(n)
son variables independientes, EX
n,j
= 0,
¸
k(n)
j=1
VarX
n,j
= 1, y lim
¸
k(n)
j=1
EX
2
n,j
1
{|X
n,j
|>ε}
= 0 para cada ε > 0,
entonces
¸
k(n)
j=1
X
n,j
converge en distribuci´ on a la normal t´ıpica N(0, 1).
Posponemos la demostraci´ on hasta §13.13.
Corolario 12.4.1.1 Vale el Teorema del L´ımite Central para variables equi-
distribuidas (Teorema 12.3.1).
Demostraci´ on. En efecto, es suficiente verificar que si las variables X
1
, X
2
,
. . ., X
n
, . . . son independientes, equidistribuidas, con esperanzas µ y variancias
σ
2
, entonces el arreglo triangular X
n,j
= (X
j
−µ)/(

nσ), j = 1, . . . , n, satisface
las hip´ otesis del Teorema de Lindeberg.
La ´ unica verificaci´ on no trivial es que para cada ε positivo,
lim
n
¸
j=1
E[(X
j
−µ)/(

nσ)]
2
1
{|X
j
−µ|/(

nσ)>ε}
= 0.
Calculamos
n
¸
j=1
E[(X
j
−µ)/(

nσ)]
2
1
{|X
j
−µ|/(

nσ)>ε}
= σ
−2
E(X
1
−µ)
2
1
{|X
1
−µ|>

nσε}
.
La variable aleatoria cuya esperanza se calcula en el t´ermino de la derecha est´ a
uniformemente acotada por (X
1
− µ)
2
, que tiene esperanza finita, y converge
a cero cuando n tiende a infinito, de modo que el l´ımite de las esperanzas es
cero, por el Teorema de Convergencia Dominada de Lebesgue. 2
Introducci´ on a la probabilidad.
12.5. Convergencia en distribuci´ on de estad´ısticos de orden. 191
12.5 Aplicaci´ on: Un ejemplo de convergencia
en distribuci´ on asociado a los estad´ısticos
de orden.
En lo que sigue utilizamos las notaciones de §8.11.1, con el agregado de un
super´ındice entre par´entesis que indica el tama˜ no de la muestra, por ejemplo,
el estad´ıstico de orden h de una muestra U
1
, . . . , U
n
de la distribuci´ on uniforme
en [0, 1] lo denotaremos U
(n)
(h)
.
De acuerdo a lo visto en el Ejemplo 8.11.1, y en el Ejercicio 8.11.3, EU
(n)
(h)
=
h
n+1
y VarU
(n)
(h)
=
h(n−h+1)
(n+1)
2
(n+2)
, de modo que cuando se hace tender n a infinito,
con h = h(n) tal que h(n)/(n + 1) → p, la esperanza de U
(n)
(h)
tiende a p y la
variancia tiende a cero, y esto implica que U
(n)
(h)
converge en probabilidad a p.
La variancia del producto Z
n
(α) = n
α
(U
(n)
(h)
− p) a´ un tiende a cero para
α < 1/2, de modo que si limn
α

h(n)
n+1
−p

= 0, plim
n→∞
Z
n
(α) = 0, y esto da
una idea de la rapidez de la convergencia de U
(n)
(h)
a p.
Cuando α es mayor que 1/2, en cambio, la variancia de Z
n
(α) tiende a
infinito, y en el caso l´ımite α = 1/2, lim
n→∞
VarZ
n
(1/2) = p(1 − p). Vamos
a verificar que en este caso la sucesi´ on de variables aleatorias Z
n
= Z
n
(1/2)
converge en distribuci´ on, cuando la rapidez de la convergencia de h(n)/(n+1)
a p es suficiente.
Teorema 12.5.1 Cuando 0 < p < 1 y se cumple
lim
n→∞

n

h(n)
n
−p

= 0 (12.5)
la sucesi´ on
1

p(1−p)
Z
n
=

n
p(1−p)
(U
(n)
(h(n))
− p) converge en distribuci´ on a la
normal t´ıpica.
Demostraci´ on. Tenemos que mostrar que, para todo x,
P

n
p(1 −p)
(U
(n)
(h(n))
−p) ≤ x
¸
= P

U
(n)
(h(n))
≤ p + x

p(1 −p)
n

converge a Φ(x) cuando n tiende a infinito, y, con B
n
(p) =
¸
n
i=1
1
{U
i
≤p}

Bin(n, p), B
n

n
) =
¸
n
i=1
1
{p<U
i
≤p+δn}
∼ Bin(n, δ
n
), y δ
n
= x

p(1−p)
n
, esto
192
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
equivale a verificar que
lim
n→∞
P{B
n
(p) +B
n

n
) ≥ h(n)} = Φ(x). (12.6)
Por el Teorema del L´ımite Central aplicado a B
n
(p) (suma de variables
independientes de Bernoulli(p)), sabemos que W
n
=
Bn(p)−np

np(1−p)
converge en
destribuci´ on a la normal t´ıpica, de modo que para cada x, limP{W
n
≤ x} =
Φ(x).
Esto sugiere reescribir la probabilidad que aparece en (12.6) en la forma
P

B
n
(p) −np

np(1 −p)
+
B
n

n
) −nδ
n

np(1 −p)

h(n) −np −nδ
n

np(1 −p)

(12.7)
que abreviamos P{W
n
+ Y
n
+ x
n
−x ≥ −x} con
Y
n
=
B
n

n
) −nδ
n

np(1 −p)
,
x
n
= −
1

p(1 −p)
¸

n

h(n)
n
−p




n
¸
→ x (n → ∞).
De EY
n
= 0, VarY
n
=
nδn(1−δn)
np(1−p)
→ 0 (cuando n → ∞), resulta que Y
n
converge a cero en probabilidad, y lo mismo ocurre con Y
n
+ x
n
−x.
Para obtener el resultado requerido, basta aplicar la parte (i) del Lema
12.5.1 a la suma de W
n
con Y
n
+ x
n
−x. La conclusi´ on que se obtiene es que
W
n
+ Y
n
+ x
n
−x converge en ley a la normal t´ıpica, y, como consecuencia el
l´ımite de (12.7) es Φ(x). 2
Corolario 12.5.1.1 La condici´ on (12.5) y por lo tanto la conclusi´ on del Teo-
rema se cumplen cuando h(n) = [np], h(n) = [np] + 1, o m´as en general,
cuando h(n) = [np] +m, para cualquier entero fijo m (la notaci´ on [x] significa
la parte entera de x, esto es, [x] = max{i : i ∈ Z, i ≤ x}).
La verificaci´ on es inmediata.
Corolario 12.5.1.2 Cuando, para cada n, X
(n)
1
, . . . , X
(n)
n
es una muestra de
tama˜ no n de F, X
(n)
(h)
denota al estad´ıstico de orden h de la muestra, y F tiene
densidad positiva y continua f, entonces

n
p(1−p)
f(F
−1
(p))(X
(n)
(h(n))
− F
−1
(p))
converge en distribuci´ on a la normal t´ıpica cuando h(n) cumple la condici´ on
del enunciado del Teorema.
Introducci´ on a la probabilidad.
12.5. Convergencia en distribuci´ on de estad´ısticos de orden. 193
Demostraci´ on. Podemos pensar que X
(n)
(h(n))
es el resultado de aplicar la
transformaci´ on can´ onica F
−1
al estad´ıstico de orden h(n) de una muestra de
tama˜ no n de la distribuci´ on uniforme en (0, 1). Un desarrollo de Taylor de
primer orden de
F
−1
(U
(n)
(h(n))
) = F
−1
(p)) +
1
f(F
−1
(p + θ(U
(n)
(h(n))
−p)))
(U
(n)
(h(n))
−p), 0 < θ < 1
conduce a escribir la sucesi´ on

n
p(1−p)
f(F
−1
(p))(F
−1
(U
(n)
(h(n))
) − F
−1
(p)) como
producto de

n
p(1−p)
(U
(n)
(h(n))
−p), que converge a la normal t´ıpica como conse-
cuencia del Teorema 12.5.1, y el cociente
f(F
−1
(p))
f(F
−1
(p+θ(U
(n)
(h(n))
−p)))
, que mostraremos
que converge en probabilidad a 1. La demostraci´ on quedar´ a completa estable-
ciendo la parte (ii) del Lema 12.5.1.
Para verificar que plim
f(F
−1
(p))
f(F
−1
(p+θ(U
(n)
(h(n))
−p)))
= 1, nos referimos al Ejercicio
11.6.2. De acuerdo a lo que all´ı se establece, nos basta mostrar que
plimf(F
−1
(p + θ(U
(n)
(h(n))
−p))) = f(F
−1
(p)),
y, por la continuidad de f ◦ F
−1
, basta que plim(U
(n)
(h(n))
−p) = 0. Esto ´ ultimo
lo hemos verificado directamente en §12.5, y tambi´en es consecuencia de la
parte (i) del Lema 12.5.1 aplicada al producto

n(U
(n)
(h(n))
−p)
1

n
. 2
Lema 12.5.1 (i) Si Z
n
converge en distribuci´ on y X
n
converge en probabi-
lidad a cero, entonces Z
n
X
n
converge en probabilidad a cero, y Z
n
+X
n
converge en distribuci´ on al mismo l´ımite que Z
n
.
(ii) Si Z
n
converge en distribuci´ on y X
n
converge en probabilidad a 1, en-
tonces Z
n
X
n
converge en distribuci´ on al mismo l´ımite que Z
n
.
Demostraci´ on de (ii) a partir de (i). Basta escribir Z
n
X
n
= Z
n
+Z
n
(X
n
−1),
y notar que plimX
n
−1 = 0 2
Demostraci´ on de (i). Supongamos que Z
n
converge en distribuci´ on a Z
con funci´ on de distribuci´ on F y X
n
converge en probabilidad a 0. Dado ε > 0,
elegimos puntos de continuidad −M, M de F tales que 1 −F(M) +F(−M) <
ε/2. Luego elegimos N tal que, para n ≥ N, P{|X
n
| > ε/M} < ε/2.
Deducimos que {|Z
n
X
n
| > ε} ⊂ {|Z
n
| > M} ∪ {|X
n
| > ε/M}, y entonces
P{|Z
n
X
n
| > ε} ≤ P{|Z
n
| > M} + P{|X
n
| > ε/M} < ε, para n ≥ N, y esto
muestra que Z
n
X
n
converge a cero en probabilidad.
194
Enrique M. Caba˜ na.
Cap´ıtulo 12: Convergencia en Ley. Dist. Normal. TLC.
Dado el punto de continuidad x de F, y ε > 0, elegimos δ > 0 tal que
F(x + δ) < F(x) + ε/2, y F(x − δ) > F(x) − ε/2 y de modo que x + δ y
x − δ sean tambi´en puntos de continuidad de F. Luego elegimos N tal que
si n ≥ N, P{|X
n
| > δ} < ε/2. Concluimos, por una parte, que el suceso
{Z
n
+ X
n
≤ x} est´ a contenido en {Z
n
≤ x + δ} ∪ {|X
n
| > δ} y por lo tanto
P{Z
n
+ X
n
≤ x} ≤ P{Z
n
≤ x + δ} +P{|X
n
| > δ}, y, por otra parte, que su
complemento {Z
n
+X
n
> x} est´ a contenido en {Z
n
> x−δ}∪{|X
n
| > δ} y por
lo tanto P{Z
n
+X
n
> x} ≤ P{Z
n
> x−δ} +P{|X
n
| > δ}, y P{Z
n
+X
n
≤ x}
= 1 −P{Z
n
+X
n
> x} ≥ 1 −P{Z
n
> x−δ} −P{|X
n
| > δ} = P{Z
n
≤ x−δ}
−P{|X
n
| > δ}.
Para n ≥ N,
P{Z
n
≤ x −δ} −ε/2 ≤ P{Z
n
+ X
n
≤ x} ≤ P{Z
n
≤ x + δ} + ε/2,
y, pasando al l´ımite cuando n tiende a infinito, resulta
F(x) −ε ≤ F(x −δ) −ε/2 ≤ liminf
n→∞
P{Z
n
+ X
n
≤ x}
≤ limsup
n→∞
P{Z
n
+ X
n
≤ x} ≤ F(x + δ) +ε/2 ≤ F(x) +ε.
Dado que ε es arbitrario, concluimos que existe el l´ımite de P{Z
n
+X
n
≤ x}
y que vale F(x). 2
13. Complementos y
demostraciones omitidas en
cap´ıtulos anteriores.
13.1 Teorema de Extensi´ on de Probabilidades
de A. N. Kolmogorov.
Repetimos el enunciado para facilitar la lectura: Teorema 3.2.1 Dada una
funci´ on p en un ´ algebra /
0
de subconjuntos de Ω con las propiedades
• p(Ω) = 1,
• para cualquier sucesi´ on A
1
, A
2
, . . . , A
n
, . . . de conjuntos disjuntos en /
0
cuya uni´ on tambi´en est´ a en /
0
, se cumple p(
¸

n=1
A
n
) =
¸

n=1
p(A
n
),
existe una ´ unica probabilidad P en la m´ınima σ-´ algebra que contiene al ´ algebra
dada, cuya restricci´ on al ´ algebra es p, definida por
P(A) = inf


¸
j=1
p(A
j
) : (A
j
)
j∈N
cubrimiento disjunto de A en /
0

. (13.1)
13.1.1 Demostraci´ on de la existencia.
Paso 1: Definici´ on de una extensi´ on P de p al dominio 2

.
Para cada A ⊂ Ω, definimos P(A) mediante (13.1). Llamamos abreviadamente
cubrimiento disjunto de A en /
0
a cualquier sucesi´on disjunta (A
j
)
j∈N
de conjuntos
contenidos en /
0
, cuya uni´ on contiene a A.
Se observar´ a que el ´ınfimo sobre todos los cubrimientos de A en /
0
, no necesaria-
mente disjuntos, coincide con P(A), ya que, por cada cubrimiento (A
j
)
j∈N
en /
0
,
195
196
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
(
¯
A
j
= A
j
∩(
¸
i<j
A
i
)
c
)
j∈N
es un cubrimiento disjunto tambi´en en /
0
, y
¸

j=1
p(
¯
A
j
)

¸

j=1
p(A
j
).
Vamos a mostrar que la restricci´on de P a /
0
es p: Dado A en /
0
, la desigualdad
P(A) ≤ p(A) es trivial, pues (A, ∅, ∅, ∅, . . .) es un cubrimiento de A en /
0
, y p(A) +
p(∅) + p(∅) + . . . = p(A). Por otra parte, la inclusi´ on A ⊂
¸

j=1
A
j
, con (A
j
)
j∈N
disjuntos, en A
0
, permite escribir A =
¸

j=1
(A
j
∩ A), p(A) =
¸

j=1
p(A
j
∩ A) ≤
¸

j=1
p(A
j
), de modo que p(A) ≤ inf
¸

j=1
p(A
j
) = P(A).
Paso 2: P es mon´ otona: (A ⊂ B implica P(A) ≤ P(B)).
De ∅ ∈ /
0
resulta P(∅) = p(∅) = 0, y, dado que cuando A ⊂ B, todo cubrimiento
de B lo es de A, entonces
Π
B
=


¸
j=1
p(A
j
) : (A
j
)
j∈N
cubrimiento de B en /
0


¸
j=1
p(A
j
) : (A
j
)
j∈N
cubrimiento de A en /
0

= Π
A
y resulta la desigualdad
P(A) = inf Π
A
≤ inf Π
B
= P(B).
Paso 3: P es subaditiva: para cualquier sucesi´ on (A
j
)
j∈N
de subconjuntos
disjuntos de Ω, P(
¸

j=1
A
j
) ≤
¸

j=1
P(A
j
)) y P(∅) = 0.
Para cada sucesi´on disjunta (A
j
), y para cada ε > 0, P(
¸

j=1
A
j
) ≤
¸

j=1
P(A
j
) +
ε. Para cada A
j
, buscamos un cubrimiento (A
j,k
)
k=1,2,...
en /
0
tal que P(A
j
) ≥
¸

k=1
p(a
j,k
) − ε/2
j
. El cubrimiento (A
j,k
)
j,k=1,2,...
de
¸

j=1
A
j
nos lleva a acotar
P(
¸

j=1
A
j
) ≤
¸

j,k=1
p(a
j,k
) ≤
¸

j=1
(P(A
j
) +ε/2
j
) =
¸

j=1
P(A
j
) +ε, y esta es la
desigualdad requerida. Como ε es arbitrario, se concluye la subaditividad.
Paso 4: La familia
/ = ¦A : para todo B ⊂ Ω, P(B) = P(B ∩ A) + P(B ∩ A
c

es un ´algebra.
Es trivial que / contiene a ∅, y que es cerrada bajo complementos, a partir de la
definici´ on. Tambi´en es cerrada bajo intersecciones, ya que si A, B ∈ / y C es un
conjunto cualquiera,
P(C) = P(C ∩ A) + P(C`A) = P(C ∩ A ∩ B) + P((C ∩ A)`B) + P(C`A)
Introducci´ on a la probabilidad.
13.1. Extensi´ on de probabilidades. 197
≥ P(C ∩ (A ∩ B)) + P(C`(A ∩ B)), (13.2)
por la subaditividad de P, ya que C`(A∩B) = (C`A) ∪(C∩A)`B. Otra vez usamos
la subaditividad para agregar a la cadena de desigualdades (13.2)
P(C ∩ (A ∩ B)) + P(C`(A ∩ B)) ≥ P(C), (13.3)
y esto implica que todas las desigualdades en (13.2) y (13.3) pueden ser reemplazadas
por igualdades, y que, por consiguiente, A ∩ B est´a en /.
Al ser / cerrada bajo complementos e intersecciones, tambi´en lo es bajo uniones.
Paso 5: La familia / introducida en el Paso 4 es una σ-´algebra y (Ω, /, P)
es un espacio de probabilidad.
Falta verificar que si (A
n
)
n∈N
⊂ /, entonces
¸
n∈N
A
n
est´a en /. La uni´ on
¸
n∈N
A
n
=
¸
n∈N
(A
n
`
¸
j<n
A
j
) puede escribirse como uni´ on disjunta de elementos
de /, de modo que no perdemos generalidad al suponer para lo que sigue que los A
n
son disjuntos.
Para cada n,
¸
j≤n
A
j
∈ /, de modo que para cada B,
P(B) = P(B ∩
¸
j≤n
A
j
) + P(B`
¸
j≤n
A
j
) ≥
¸
j≤n
P(B ∩ A
j
) + P(B`
¸
j∈N
A
j
)
y, pasando al l´ımite cuando n → ∞, obtenemos
P(B) ≥
¸
j∈N
P(B ∩ A
j
) + P(B`
¸
j∈N
A
j
)
≥ P(B ∩
¸
j∈N
A
j
) + P(B`
¸
j∈N
A
j
) ≥ P(B)
(las dos ´ ultimas desigualdades por la subaditividad).
Se concluye que
¸
j∈N
A
j
∈ /, y adem´as, con B =
¸
j∈N
A
j
, P(
¸
j∈N
A
j
) =
¸
j∈N
P(A
j
), de modo que P es una probabilidad en (Ω, /).
Paso 6 (´ ultimo): /
0
⊂ /, y, por lo tanto, / contiene a la σ-´algebra
generada por /
0
.
Dado A ⊂ /
0
, D cualquiera, y ε arbitrario, cubrimos D por
¸
j
A
j
, (A
j
) ⊂ /
0
, de
modo que P(D) <
¸
j
p(A
j
) + ε. 2
198
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
13.1.2 Demostraci´ on de la unicidad.
Supongamos ahora dos probabilidades P, Q sobre la σ-´algebra / generada por /
0
,
cuya restricci´on a /
0
es p, y llamemos ´
0
a la familia de sucesos en / sobre los
cuales P y Q coinciden.
Es inmediato que ´
0
contiene a /
0
, por la hip´ otesis sobre P y Q. Adem´as, es cerrada
bajo complementos y bajo l´ımites mon´otonos: En efecto, si A, ∈ ´
0
, es decir, si P(A)
= Q(A), entonces P(A
c
) = 1−P(A) = 1−Q(A) = Q(A
c
), de modo que A
c
∈ ´
0
. Por
otra parte, si A
n
↑ A, A
n
∈ ´
0
, entonces P(A) = lim
n→∞
P(A
n
) = lim
n→∞
Q(A
n
)
= Q(A). Esto ´ ultimo establece que el l´ımite de una sucesi´on creciente en ´
0
tambi´en
est´a en ´
0
. Lo mismo ocurre con una sucesi´on decreciente, ya que su l´ımite es el
complemento del l´ımite de la sucesi´on de complementos, y se aplican los resultados
ya establecidos.
Terminamos la demostraci´on una vez que establezcamos que cualquier familia de
conjuntos ´, cerrada bajo l´ımites mon´otonos que contiene un ´ algebra /
0
, tambi´en
contiene a la σ-´algebra / generada por /
0
. Esto es consecuencia del Lema 13.1.1,
que contiene un enunciado m´ as preciso. 2
Lema 13.1.1 La m´ınima σ-´ algebra / y la m´ınima familia ´ cerrada bajo
l´ımites de sucesiones mon´ otonas de conjuntos, que contienen un ´ algebra /
0
,
coinciden.
Demostraci´ on: La inclusi´ on ´ ⊂ / es inmediata, ya que toda σ-´algebra es cerrada
bajo l´ımites de sucesiones.
Para demostrar la inclusi´ on en sentido inverso, vamos a establecer en primer lugar
que ´ es un ´algebra. Para ello basta mostrar que
si A, B ∈ ´, entonces A ∩ B, A ∩ B
c
, A
c
∩ B, A
c
∩ B
c
∈ ´ (13.4)
En efecto, (13.4) aplicado a A, Ω implica que ´ es cerrada bajo complementos (Se
notar´ a que, puesto que ´ ⊃ /
0
, entonces en particular Ω ∈ ´). Que ´ es cerrado
bajo intersecciones es parte de (13.4), y dado que una uni´ on se expresa en t´erminos de
intersecciones y complementos, A∪B = (A
c
∩B
c
)
c
, tambi´en es cerrada bajo uniones.
Una vez demostrado que ´ es un ´algebra, se muestra que es una σ-´algebra expresando
cada uni´ on
¸

n=1
A
n
, A
n
∈ ´ en la forma lim
n→∞
¸
m≤n
A
m
, y esto implica ´ ⊃
/.
De lo que precede, resulta que para terminar la demostraci´ on, s´ olo falta establecer
(13.4).
Dado A ∈ ´, llamemos ´
A
al conjunto de los B ∈ ´ que cumplen (13.4). Si B
n
es una sucesi´on mon´ otona en ´
A
, entonces A ∩ B = limA ∩ B
n
est´a en ´ por ser
l´ımite de una sucesi´on mon´ otona en ´, y de la misma manera se cumplen el resto
de las propiedades que implican que B est´a en ´
A
, es decir, ´
A
es cerrada bajo
l´ımites de sucesiones mon´otonas. Cuando A ∈ /
0
, ´
A
contiene a /
0
, y por lo tanto
coincide con ´.
Introducci´ on a la probabilidad.
13.2. Probabilidad en R, dada su funci´ on de distribuci´ on. 199
Reformulamos lo que precede en la forma “A ∈ /
0
, B ∈ ´ implican la conclusi´ on
de (13.4)”, que, por la intercambiabilidad de A y B en esa conclusi´on, equivale a
“A ∈ ´, B ∈ /
0
implican la conclusi´ on de (13.4)” o bien “´
A
⊃ /
0
para todo A
en ´”. Repetimos el argumento que muestra que ´
A
es cerrada bajo l´ımites de
sucesiones mon´otonas, con lo que obtenemos nuevamente la conclusi´ on “´
A
contiene
a /
0
, y por lo tanto coincide con ´”, esta vez para todo A ∈ ´. Esto es una manera
de reformular (13.4). 2
13.2 Definici´ on de una probabilidad en R a
partir de su funci´ on de distribuci´ on.
Teorema 3.2.2 Si F : R → R satisface las propiedades
(d
1
) F
X
es no decreciente,
(d
2
) F
X
es continua por la derecha,
(d
3
) F
X
(−∞) = 0, F
X
(+∞) = 1,
entonces existe una probabilidad P
(F)
en (R, B) tal que
F(x) = P
(F)
((−∞, x]).
Demostraci´ on: La probabilidad aludida es la extensi´ on de la funci´ on aditiva p en
el ´algebra de las uniones finitas de intervalos disjuntos de la forma (a, b], −∞ ≤ a ≤
b ≤ ∞, que vale p((a, b]) = F(b) − F(a).
Observemos en primer lugar que p es aditiva, es decir, si A, B, son uniones finitas de
intervalos semiabiertos, y A∩B = ∅, entonces p(A∪B) = p(A)+p(B). La verificaci´ on
es simple: Sugerimos, por ejemplo, considerar el conjunto finito C formado por los
puntos que pertenecen a la frontera de A o a la de B, −∞ y +∞, y el conjunto
tambi´en finito de los intervalos semiabiertos . = ¦(a, b] : a, b ∈ C, (a, b) ∩ C = ∅¦.
De esta construcci´on resulta que, si .
A
, .
B
son los subconjuntos de . formados
respectivamente por los intervalos contenidos en A, y los contenidos en B, entonces
A =
¸
¦(a, b] : (a, b] ∈ .
A
¦, p(A) =
¸
¦F(b) − F(a) : (a, b] ∈ .
A
¦,
B =
¸
¦(a, b] : (a, b] ∈ .
B
¦, p(B) =
¸
¦F(b) − F(a) : (a, b] ∈ .
B
¦,
A ∪ B =
¸
¦(a, b] : (a, b] ∈ .
A
∪ .
B
¦, p(A ∪ B)
=
¸
¦F(b) − F(a) : (a, b] ∈ .
A
∪ .
B
¦,
y la conclusi´ on requerida es inmediata.
200
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
Para aplicar el Teorema de Extensi´ on (Teorema 3.2.1) es necesario verificar adem´as
que, cuando una uni´ on numerable de uniones finitas de intervalos semiabiertos es ella
misma una uni´ on finita de intervalos semiabiertos, entonces a´ un vale la aditividad.
Cuando esta uni´ on consta de un solo intervalo, la demostraci´ on es el contenido del
Lema 13.2.1. Cuando consta de varios, se procede con cada uno por separado de la
misma manera. 2
Lema 13.2.1 Si F es una funci´ on con las propiedades (d
1
), (d
2
) y (d
3
) de
3.1.2, y (a, b] =
¸

j=1
(a
j
, b
j
], donde ((a
j
, b
j
])
j=1,2,...
es una familia de intervalos
disjuntos, entonces F(b) − F(a) =
¸

j=1
(F(b
j
) − F(a
j
)).
Demostraci´ on: Para cada J = 1, 2, . . ., reordenamos los intervalos del conjunto
finito ¦(a
j
, b
j
] : j = 1, 2, . . . , J¦: Elegimos como primer intervalo al que contiene
los n´ umeros m´as peque˜ nos, y lo denominamos (a
J
(1)
, b
J
(1)
]. Como segundo intervalo,
que denominamos (a
J
(2)
, b
J
(2)
] elegimos al que contiene los n´ umeros m´as peque˜ nos en-
tre los restantes J − 1 intervalos, y as´ı sucesivamente. De esta manera, las familias
de intervalos ¦(a
j
, b
j
] : j = 1, 2, . . . , J¦ y ¦(a
J
(j)
, b
J
(j)
] : j = 1, 2, . . . , J¦ coinciden, y
b
J
(j)
≤ a
J
(j+1)
para cada j = 1, 2, . . . , J − 1.
Con esta nueva notaci´ on,
J
¸
j=1
(F(b
j
) − F(a
j
)) =
J
¸
j=1
(F(b
J
(j)
− F(a
J
(j)
))
= F(b
J
(J)
) − F(a
J
(1)
) −
J−1
¸
j=1
(F(a
J
(j+1)
) − F(b
J
(j)
)) ≤ F(b
J
(J)
) − F(a
J
(1)
)
porque la ´ ultima suma tiene todos sus t´erminos no negativos.
De F(b
J
(J)
) ≤ F(b), F(a
J
(1)
) ≥ F(a) resulta la desigualdad
¸
J
j=1
(F(b
j
) − F(a
j
)) ≤
F(b) − F(a), que vale para todo J y por lo tanto implica

¸
j=1
(F(b
j
) − F(a
j
)) ≤ F(b) − F(a). (13.5)
Para demostrar la desigualdad opuesta, nos basamos en que cada intervalo cerrado
en R (como cualquier conjunto cerrado y acotado en R
d
) es compacto (Teorema de
Heine-Borel). Esto significa, aplicado al intervalo [c, b], que si la uni´ on de una familia
T de conjuntos abiertos
¸
¦A : A ∈ T¦ cubre (contiene) a [c, b], hay una subfamilia
finita T
0
⊂ T cuya union
¸
¦A : A ∈ T
0
¦ tambi´en cubre al mismo intervalo
1
.
1
Lo verificamos por reducci´ on al absurdo: Si no la hubiere, una de las dos mitades
[c, (c + b)/2] o [(c + b)/2, b] tampoco podr´ıa cubrirse con la uni´ on de una subfamilia finita,
ya que si ambas mitades admitieran un cubrimiento finito, la uni´ on de ambos cubrimientos,
que tambi´en es una uni´ on finita de abiertos de T, ser´ıa un cubrimiento de todo el intervalo.
Llamemos [c
1
, b
1
] a una de las mitades, que no admita un cubrimiento finito. Por el mismo
Introducci´ on a la probabilidad.
13.3. Propiedades de esperanzas e integrales. 201
Dado ε > 0, elegimos c ∈ (a, b) tal que F(c)−F(a) < ε/2. La selecci´on de c es posible
por la continuidad de F en a por la derecha. Para cada j, elegimos c
j
> b
j
tal que
F(c
j
) −F(b
j
) ≤ ε/2
j+1
, lo que tambi´en es posible por la continuidad a la derecha de
F en b
j
. Se deduce que
¸

j=1
(a
j
, c
j
) ⊃
¸

j=1
(a
j
, b
j
] = (a, b] ⊃ [c, b], de modo que, por
la compacidad, hay una uni´ on finita que cubre [c, b]:
J
¸
j=1
(a
j
, c
j
) ⊃ [c, b].
De esta ´ ultima inclusi´ on se deduce la desigualdad
F(b) − F(c) ≤
J
¸
j=1
(F(c
j
) − F(a
j
)),
y por la selecci´on de c, c
1
, c
2
, . . .,
F(b) − F(a) − ε/2 ≤
J
¸
j=1
(F(b
j
) − F(a
j
) + ε/2
j+1
) ≤

¸
j=1
(F(b
j
) − F(a
j
)) + ε/2.
Esto equivale a F(b) − F(a) ≤
¸

j=1
(F(b
j
) − F(a
j
)) + ε, y, por ser ε arbitrario,
F(b) − F(a) ≤
J
¸
j=1
(F(b
j
) − F(a
j
)). (13.6)
De (13.5) y (13.6) resulta la igualdad requerida. 2
13.3 Algunas propiedades de las esperanzas y
de las integrales.
13.3.1 Monoton´ıa, linealidad y σ-aditividad de esperan-
zas e integrales.
Monoton´ıa.
La demostraci´on del Lema 6.3.2, se aplica tanbi´en al caso de la integral respecto
de µ, reemplazando P por µ. Adem´as de justificar la coherencia de la definici´ on de
argumento, al menos una de las mitades de [c
1
, b
1
], que llamaremos [c
2
, b
2
], tampoco admite
un cubrimiento finito. Continuamos aplicando el mismo argumento a [c
2
, b
2
], y as´ı sucesi-
vamente, para obtener una sucesi´on de intervalos [c
i
, b
i
] que no admiten ser cubiertos por
uniones finitas de elementos de T, cada uno mitad del anterior, es decir, b
i
−c
i
= (b −c)/2
i
,
b
i+1
= b
i
o c
i+1
= c
i
, i = 1, 2, . . .. Las sucesiones mon´otonas (c
i
), (b
i
) tienen un l´ımite
com´ un c
i
↑ m, b
i
↓ m, contenido en [c, b], y por lo tanto cubierto por un A
0
∈ T. Para i su-
ficientemente grande, [c
i
, b
i
] ⊂ A
0
(porque A
0
es abierto), y esto contradice la construcci´ on,
puesto que basta un solo elemento de T para cubrir uno de los intervalos ([c
i
, b
i
]). Queda
as´ı verificada la compacidad de [c, b]. 2
202
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
la integral, tiene como consecuencia inmediata que si 0 ≤ X ≤ Y y X es simple,
entonces

Xdµ ≤

Y dµ.
De aqu´ı resulta la monoton´ıa de la integral, expresada en la primera parte del Teorema
7.3.2, para integrandos no negativos. La monoton´ıa para integrandos cualesquiera es
inmediata a partir de la reducci´ on de la integral a diferencia entre la integral de la
parte positiva menos la integral de la parte negativa del integrando. 2
Linealidad.
Para demostrar la linealidad, segunda parte del enunciado del Teorema 7.3.2, puede
procederse en pasos sucesivos que imitan los que conducen a la definici´ on de la integral.
Paso 1: Linealidad para integrandos simples. Si X =
¸
i
x
i
1
Ai
, Y =
¸
j
y
j
1
Bj
,
x
i
, y
j
> 0, entonces αX + βY , α, β > 0, es tambi´en una funci´ on simple, y

(αX +
βY )dµ =

(
¸
i
αx
i
1
Ai
+
¸
j
βy
j
1
Bj
)dµ =
¸
i
αx
i
µ(A
i
) +
¸
j
βy
j
µ(B
j
) es lo mismo
que α

Xdµ+β

Y dµ (el resultado +∞ no est´a excluido). La extensi´ on a funciones
simples y coeficientes de signo cualquiera, en el caso en que los integrandos son inte-
grables, es inmediata, como consecuencia de sumar por separado los t´erminos de uno
y otro signo.
Paso 2: Linealidad para integrandos y coeficientes no negativos. Cuando X, Y son
no negativas, las aproximamos por sucesiones de funciones simples 0 ≤ X
n
↑ X,
0 ≤ Y
n
↑ Y , y la ecuaci´on

(αX + βY )dµ = α

Xdµ + β

Y dµ resulta de pasar
al l´ımite en la igualdad

(αX
n
+βY
n
)dµ = α

X
n
dµ + β

Y
n
dµ cuya validez se ha
establecido en el Paso 1.
Paso 3: Linealidad para integrandos y coeficientes cualesquiera. Surge del resultado
del Paso 2, de manera elemental, aunque algo trabajosa. El detalle para el caso
α, β > 0, es el siguiente: Para establecer que

(αX + βY )dµ =

(αX + βY )
+
dµ −

(αX + βY )

dµ es lo mismo que α

Xdµ + β

Y dµ = α

X
+
dµ + β

Y
+
dµ −
α

X

dµ − β

Y

dµ, hay que verificar la igualdad

(αX + βY )
+
dµ + α

X


+ β

Y

dµ =

(αX + βY )

dµ + α

X
+
dµ + β

Y
+
dµ.
A esta ´ ultima expresi´ on le podemos aplicar el Paso 2, que nos permite escribirla en
la forma

[(
˜
X +
˜
Y )
+
+
˜
X

+
˜
Y

]dµ =

[(
˜
X +
˜
Y )

+
˜
X
+
+
˜
Y
+
]dµ, (13.7)
con
˜
X = αX,
˜
Y = βY . La igualdad (13.7) se debe a que los integrandos coinciden:
(
˜
X +
˜
Y )
+
+
˜
X

+
˜
Y

− (
˜
X +
˜
Y )


˜
X
+

˜
Y
+
= (
˜
X +
˜
Y ) −
˜
X −
˜
Y = 0.
2
σ-aditividad.
Se establece a partir de la linealidad y del Teorema 7.3.4 de Convergencia Mon´ otona,
cuando el integrando es no negativo, o del Teorema 7.3.6 de Convergencia Dominada,
Introducci´ on a la probabilidad.
13.5. Producto de probabilidades. 203
cuando es integrable: Si (A
n
)
n∈N
es una sucesi´on disjunta,
¸
n

An
Xdµ = lim
n→∞
¸
m≤n

An
Xdµ = lim
n→∞

1
¸
m≤n
An
Xdµ
=

lim
n→∞
1
¸
m≤n
An
Xdµ =

¸
n∈N
An
Xdµ.
2
13.3.2 C´alculo de l´ımites.
En '6.5.3, con las notaciones que corresponden al c´ alculo de esperanzas, se
demuestran teoremas de pasaje al l´ımite que tambi´en son v´ alidos cuando las
esperanzas se reemplazan por integrales. Las demostraciones para integrales
respecto de medidas no necesariamente unitarias, son las mismas.
13.4 Cambio de variables en una integral.
Teorema 13.4.1 Dada la funci´on medible X : (Ω, /, µ) → (c, B), llamemos
µ
X
a la medida µ
X
(B) = µ(¦ω : X(ω) ∈ B¦ inducida por X en B, a partir de
µ. Valen entonces los dos enunciados siguientes:
• Si g : (c, B) → (T, () es una funci´ on medible no negativa, entonces

X
−1
(B)
g ◦ Xdµ =

B
gdµ
X
. (13.8)
• Son equivalentes “g es integrable respecto de µ
X
” y “g ◦ X es integrable
respecto de µ”, y en tal caso, vale (13.8).
La validez de (13.8) es trivial cuando g es la indicatriz de un conjunto en B, y por la
linealidad de ambos t´erminos respecto de la funci´ on g, (13.8) se extiende a funciones
simples. Dado que cuando una sucesi´ on de funciones simples (g
n
) aproxima g ≥ 0
mon´ otonamente (0 ≤ g
n
↑ g), entonces tambi´en 0 ≤ g
n
◦ X ↑ g ◦ X, se extiende la
validez de (13.8) a g ≥ 0 por convergencia mon´ otona.
Al aplicar (13.8) a [g[, se deduce en particular la equivalencia de las integrabilidades
de g y g ◦ X, y la validez de (13.8) aplicada a g integrable resulta de separar g =
g
+
− g

, y aplicar el mismo resultado que se acaba de establecer para funciones no
negativas a g
+
y a g

por separado. 2
Corolario 13.4.1.1 En particular, cuando X es una variable aleatoria real
con funci´ on de distribuci´ on F,
Eg(X) =

g ◦ XdP =

gdP
X
=

g(x)dF
X
(x).
204
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
13.5 Producto de probabilidades, Teorema de
Fubini.
Definici´ on 13.5.1 Dados los espacios de probabilidad (Ω
1
, /
1
), y (Ω
2
, /
2
), se
llama producto de ambos al nuevo espacio de probabildad (Ω
1

2
, /
1
/
2
),
donde Ω
1

2
designa como es habitual al producto cartesiano ¦(ω
1
, ω
2
) :
ω
1
∈ Ω
1
, ω
2
∈ Ω
2
¦, y /
1
/
2
es la llamada σ-´algebra producto de /
1
y /
2
, que es la m´ınima σ-´ algebra que contiene a los productos cartesianos
¦A
1
A
2
: A
1
∈ /
1
, A
2
∈ /
2
¦.
Dadas las probabilidades P
1
en (Ω
1
, /
1
) y P
2
(Ω
2
, /
2
), llamamos proba-
bilidad producto P = P
1
P
2
a la probabilidad en (Ω
1

2
, /
1
/
2
) que a
cada suceso en / que es un producto cartesiano de sucesos A
1
∈ /
1
, A
2
∈ /
2
,
asocia P(A
1
A
2
) = P
1
(A
1
)P
2
(A
2
).
Para asegurar la coherencia de la definici´ on precedente, es necesario verificar que
la funci´ on de conjunto P definida sobre los productos cartesianos de sucesos se ex-
tiende a una probabilidad en la σ-´algebra producto. Esta verificaci´ on es parte de la
demostraci´on del Teorema 13.5.1.
Lema 13.5.1 Cuando A ∈ /
1
/
2
sus secciones A
ω
1
= ¦ω
2
: (ω
1
, ω
2
) ∈ A¦,
A
ω
2
= ¦ω
1
: (ω
1
, ω
2
) ∈ A¦ est´an en /
2
, /
1
, respectivamente, para cada ω
1
∈ Ω
1
y cada ω
2
∈ Ω
2
, y cuando X : (Ω
1

2
, /
1
/
2
) → (c, B) es una funci´ on
medible, entonces X(ω
1
, ) : (Ω
2
, /
2
) → (c, B) y X(, ω
2
) : (Ω
1
, /
1
) → (c, B)
son medibles para cada ω
1
y cada ω
2
.
Teorema 13.5.1 (Teorema de Fubini.) Cuando X : (Ω
1

2
, /
1
/
2
) →
(c, B) es, o bien no negativa, o bien integrable respecto de la probabilidad
producto P = P
1
P
2
, entonces
E(X) =

XdP =

X(ω
1
, ω
2
)dP
2

2
)

dP
1

1
)
=

X(ω
1
, ω
2
)dP
1

1
)

dP
2

2
). (13.9)
Demostraci´ on del Teorema de Fubini:
Paso 1: X indicatriz de un suceso producto A = A
1
A
2
.
Cuando X(ω
1
, ω
2
) = 1
A

1
, ω
2
) = 1
A1

1
)1
A2

2
), hay que verificar que

XdP =
P(A) es igual a

1
A1

1
)1
A2

2
)dP
1

1
)

dP
2

2
) =

1
A1

1
)P
2
(A
2
)dP
1

1
) =
Introducci´ on a la probabilidad.
13.6. Integraci´ on en R
d
. 205
P
1
(A
1
)P
2
(A
2
), y esto es precisamente lo que establece la definici´on de la probabilidad
producto.
Paso 2: X indicatriz de un suceso A ∈ /
1
/
2
, y verificaci´on de la coherencia de
la definici´ on de probabilidad producto.
Del Paso 1 resulta una consecuencia interesante: En virtud del Lema 13.5.1 la funci´ on
de conjunto
A →

1
A

1
, ω
2
)dP
2

2
)

dP
1

1
) (13.10)
est´a bien definida por medio de las integrales para todo A medible en la σ-´algebra
producto, y, como consecuencia de las propiedades de las integrales, es σ-aditiva.
Por otra parte, coincide con el producto de las probabilidades de los factores cuando
A = A
1
A
2
como lo muestra el c´alculo que precede. Por lo tanto, se concluye
la coherencia de la definici´ on de la probabilidad producto, y ´esta puede expresarse
mediante (13.10). Por un argumento en el que se intercambian los papeles de ω
1
y
ω
2
, se establece que tambi´en P(A) =

1
A

1
, ω
2
)dP
1

1
)

dP
2

2
). En resumen,
vale (13.9) para indicatrices de sucesos.
Pasos restantes: extensi´on sucesiva hasta el caso general, de la manera habitual.
Una vez verificada la validez de (13.9) para indicatrices, las igualdades se extienden
a variables simples por la linealidad, y a variables no negativas por la convergencia
mon´ otona, ya que una y otra son aplicables en cada t´ermino de la ecuaci´on a estable-
cer. Se extiende luego a variables integrables X = X
+
− X

, aplicando (13.9) por
separando a X
+
y a X

. 2
Demostraci´ on del Lema 13.5.1: Para cada ω
1
∈ Ω
1
introducimos la funci´ on ψ
ω1
:

2
→ Ω
1

2
definida por ψ
ω1

2
) = (ω
1
, ω
2
). Dado que para cada A
1
∈ /
1
,
A
2
∈ /
2
, ψ
−1
ω1
(A
1
A
2
) es A
2
si ω
1
∈ A
1
o ∅ en caso contrario, y en ambos casos
ψ
−1
ω1
(A
1
A
2
) ∈ /
2
, se deduce que las preimagenes de los sucesos de la σ-´algebra
generada por los productos A
1
A
2
est´a contenida en /
2
, y esto significa que ψ
ω1
:
(Ω
2
, /
2
) → (Ω
1

2
, /
1
/
2
) es medible.
Como consecuencia,
A
ω1
= ψ
−1
ω1
(A) ∈ /
2
,
y
X(ω
1
, ) = X ◦ ψ
ω1
composici´on de funciones medibles, es medible.
Estas dos ´ ultimas conclusiones y las que se obtienen intercambiando el papel de las
coordenadas ω
1
y ω
2
terminan la demostraci´ on. 2
Nota: Los resultados de esta secci´ on se extienden de probabilidades a me-
didas σ-finitas a partir de la representaci´ on de estas ´ ultimas mediante combi-
naciones lineales de probabilidades.
206
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
13.6 Integral de Lebesgue y densidades en R
d
.
La medida de Lebesgue λ en R
d
es la que a cada producto cartesiano B
1

. . . B
d
de conjuntos de Borel B
i
en R (i = 1, . . . , d) asocia el producto de
sus medidas de Lebesgue unidimensionales
λ(B
1
. . . B
d
) =
d
¸
i=1
λ(B
i
).
Esta medida est´ a definida en la m´ınima σ-´algebra B
(d)
que contiene a los
productos de conjuntos de Borel, que es la σ-´ algebra de Borel de R
d
.
La integral de Lebesgue en R
d
es la integral respecto de λ .
De la misma manera que en el caso unidimensional, cuando X : Ω → R
d
tiene distribuci´ on P
X
en (R
d
, B
(d)
) absolutamente continua respecto de λ,
decimos que la distribuci´ on de X es absolutamente continua sin hacer menci´ on
expresa de la medida de Lebesgue. A la densidad f =
dPx

la llamamos
densidad de P
X
y esta funci´ on satisface
P¦X ∈ S¦ = P
X
(S) =

S
f dλ (13.11)
para cualquier S en B
(D)
.
Las observaciones limitativas de '8.1 sobre las regiones S donde vale (8.2)
se deben a que se sobreentiende que la integral a la que se refiere el contexto
es la de Riemann. Al enunciar la validez de (8.2), en el caso d = 2, sobre
rect´ angulos, uniones de rect´ angulos, o regiones tales como S = ¦(x, y) : a ≤
x ≤ b, c(x) ≤ y ≤ d(x)¦ con c, d continuas en [a, b], lo que se procura garantizar
es la existencia de la integral de Riemann. Al utilizar la integral de Lebesgue,
estas limitaciones son innecesarias, como acabamos de establecer al enunciar
(13.11).
Cuando la integral de Riemann

A
f(x, y)dx dy existe, y f es λ-integrable,
entonces

A
f dx dy =

f1
A
dλ. Un enunciado an´ alogo vale para cualquier
d > 2. La demostraci´ on es similar a la del Teorema 7.4.1.
13.7 Una distancia entre probabilidades.
Supongamos que las probabilidades P y Q tienen densidades p y q respec-
tivamente, respecto de una medida µ. La diferencia P(A) − Q(A) puede
entonces escribirse por medio de la integral

A
(p − q)dµ. Esta expresi´ on al-
canza su m´ aximo valor en el conjunto A
+
= ¦p > q¦, y su m´ınimo (nega-
tivo) en A

= ¦p < q¦. La suma de los valores absolutos de estos extremos,
Introducci´ on a la probabilidad.
13.8. Normas L
p
. 207
que tambi´en puede escribirse en la forma

A
+(p − q)dµ −

A
−(p − q)dµ =

(1
A
+ −1
A
−)(dP − dQ), coincide con
P − Q = max
|f|≤1

fd(P − Q), (13.12)
como es f´ acil verificar a partir de esta ´ ultima forma de escritura.
La expresi´ on (13.12) puede utilizarse como un indicador de la distancia
entre las probabilidades P y Q.
Nota: Se observar´ a que, aunque la medida µ no juega ning´ un papel en el
resultado
P − Q = max
A
(P(A) − Q(A)) + max
A
(Q(A) − P(A))
el razonamiento s´ olo se aplica, en principio, a probabilidades que tengan den-
sidad respecto de alguna medida µ, pues se requiere utilizar esas densidades
para verificar la existencia de los m´ aximos involucrados, e incluso encontrar en
qu´e sucesos se producen. Sin embargo, el Teorema 7.6.1 asegura la existencia
de tal medida µ, por ejemplo, µ = P + Q.
Ejercicio 13.7.1 Mostrar que (13.12) tiene las propiedades de una distancia entre
probabilidades, a saber,
• P − Q ≥ 0, con igualdad si y s´ olo si P = Q, y
• P − R ≤ P − Q + Q − R, para cualesquiera probabilidades P, Q, R.
13.8 Normas L
p
en espacios de clases de equi-
valencia de funciones medibles.
Es f´acil verificar que la distancia P − Q entre las probabilidades P y Q con
densidades respectivas p y q respecto de µ dada por la f´ ormula 13.12 coincide
con

[p − q[dµ. Al expresarla de esta manera, en t´erminos de las densidades,
resulta natural preguntarse si esta distancia entre las probabilidades puede ser
tambi´en interpretada como una distancia entre las funciones de densidad p y
q.
La respuesta es que no, porque dos funciones distintas, pero que difieran
s´olo sobre un conjunto de medida nula (es decir, µ¦p = q¦ = 0) cumplen

[p − q[dµ = 0. Esto no contradice que la misma integral mida la distancia
entre las probabilidades cuyas densidades son p y q, ya que cuando µ¦p = q¦
208
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
= 0, para todo conjunto medible A,

A
pdµ =

A
qdµ, y entonces p y q son
densidades de la misma medida.
Esta observaci´ on sugiere introducir las clases de equivalencia de funciones
que difieren entre s´ı en conjuntos de medida nula:
Definici´ on 13.8.1 Dos funciones medibles f, g : (Ω, /, µ) → R son equiva-
lentes (o µ-equivalentes, cuando la medida a la que se asocia esta definici´ on
no es obvia dentro del contexto) cuando µ¦f = g¦ = 0.
Notaci´on: Denotaremos la clase de equivalencia de una funci´ on f mediante el mismo
s´ımbolo f que denota a la funci´ on.
Lema 13.8.1 En el conjunto de las clases de µ-equivalencia de funciones me-
dibles f de (Ω, /, µ) en R con la propiedad

[f[dµ < ∞, |f|
1
=

[f[dµ es
una norma, y d
1
(f, g) =

[f − g[dµ es una distancia.
Notaci´on: En expresiones tales como |f|
1
=

[f[dµ, el s´ımbolo f en el primer
miembro denota una clase de equivalencia de funciones, y el mismo s´ımbolo f en el
segundo miembro designa una cualquiera de las funciones representantes de esa clase.
La coherencia de la notaci´ on se debe a que cualquiera sea la funci´ on de la clase que
se use como integrando, el resultado es el mismo.
Corolario 13.8.1.1 La distancia P −Q entre las probabilidades P con densi-
dad p y Q con densidad q es igual a la distancia |p −q|
1
entre las densidades.
Ejercicio 13.8.1 Verificar que la afirmaci´ on del Lema 13.8.1 referente a d
1
es
consecuencia del resultado del Ejercicio 11.2.3, y demostrar la afirmaci´ on relativa a
| |
1
.
Ejercicio 13.8.2 Mostrar que | |
1
no est´a inducida por un producto interno.
Sugerencia: Si lo estuviera, el Ejercicio 11.2.2 permite encontrarlo. Sin embargo el
presunto producto interno que se escribe en t´erminos de la norma no cumple las
propiedades que debe cumplir un producto interno.
El siguiente enunciado generaliza al del Lema 13.8.1:
Teorema 13.8.1 (Espacios L
p
.) En el conjunto L
p
(Ω, /, µ) de las clases de µ-
equivalencia de funciones medibles f : (Ω, /, µ) → R con la propiedad

[f[
p

< ∞, |f|
p
= (

[f[
p
dµ)
1/p
es una norma, y d
p
(f, g) = (

[f −g[
p
dµ)
1/p
es una
distancia, cuando p es mayor o igual que 1.
Introducci´ on a la probabilidad.
13.9. Densidad de una medida. 209
Demostraci´ on. Basta mostrar que |f|
p
= (

[f[
p
dµ)
1/p
define una norma.
La ´ unica propiedad no inmediata a verificar es que para cualesquiera f, g en
L
p
(Ω, /, µ), |f + g|
p
≤ |f|
p
+|g|
p
.
El caso p = 2 est´ a esencialmente tratado en el Ejercicio 11.2.1, ya que
los mismos argumentos utilizados en la demostraci´ on del Teorema 11.2.1 se
aplican para mostrar que (f, g) →

fgdµ es un producto interno.
El caso p = 1 es el del Teorema 13.8.1, ya establecido, y supondremos en
lo que sigue p > 1. Observamos en primer lugar que no se pierde generalidad
si se suponen f y g no negativas. Bajo esta suposici´ on, escribimos

(f + g)
p
dµ =

f(f + g)
p−1
dµ +

g(f + g)
p−1
dµ,
y la desigualdad que queremos establecer es equivalente a

f(f + g)
p−1
dµ +

g(f + g)
p−1
dµ ≤ (|f|
p
+ |g|
p
)|f + g|
p−1
p
.
Vamos a verificar por separado

f(f + g)
p−1
dµ ≤ |f|
p
|f + g|
p−1
p
, (13.13)

g(f + g)
p−1
dµ ≤ |g|
p
|f + g|
p−1
p
.
Basta considerar la primera de estas desigualdades, porque la otra se obtiene in-
tercambiando f con g. Introducimos las notaciones h =

f
fp

p
, k =

f+g
f+gp

p
,
con lo que (13.13) se expresa en la forma

h
(1/p)
k
(p−1)/p
dµ ≤ 1.
Vamos a utilizar la siguiente desigualdad, que demostramos por separado
(ver Lema 13.8.2 y tomar la exponencial):
0 ≤ α ≤ 1, x, y > 0, implican x
α
y
(1−α)
≤ αx + (1 − α)y.
La aplicamos con x = h, y = k y α = 1/p, y obtenemos

h
(1/p)
k
(p−1)/p
dµ ≤
1
p

hdµ + (1 −
1
p
)

kdµ = 1,
porque

hdµ =

[f/|f|
p
]
p
dµ =

f
p
dµ/|f|
p
= 1, y tambi´en, an´ alogamente,

kdµ = 1. Esto termina la demostraci´ on. 2
Lema 13.8.2 La funci´ on log tiene derivada segunda negativa, y, como con-
secuencia, cada punto del segmento que une los puntos (x, log x), (y, log y) de
su gr´ afico, est´ a por debajo del gr´ afico, es decir, para cada α entre 0 y 1,
log(αx + (1 − α)y) ≥ αlog x + (1 − α) log y.
Demostraci´ on. Est´ a incorporada al enunciado. 2
210
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
13.9 Densidad de una medida absolutamente
continua.
Con motivo del Corolario 7.3.3.1 hemos considerado diferencias de medidas, que
hemos llamado medidas con signo en esa oportunidad. En la secci´ on '13.7 se observ´o
que la medida con signo P − Q alcanza su m´aximo sobre un conjunto A
+
y su
m´ınimo sobre un conjunto A

. Es inmediato que sobre el complemento de A
+
∪ A

P −Q se anula, de modo que podemos establecer que existe un suceso C (que puede
elegirse igual a A
+
o a (A

)
c
) sobre el cual P − Q alcanza su m´aximo, y sobre cuyo
complemento alcanza su m´ınimo. M´ as a´ un, P − Q es no negativa sobre cualquier
subconjunto de C y no positiva sobre cualquier subconjunto de su complemento.
Este resultado se obtuvo en '13.7 a partir de las densidades de las medidas involu-
cradas P y Q. Sin embargo, puede establecerse de manera directa, y lo haremos para
utilizarlo como insumo en la demostraci´ on del Teorema que demuestra la existencia
de la densidad.
Definici´ on 13.9.1 Llamamos una medida con signo en un espacio de me-
dida (Ω, /) a una funci´ on σ-aditiva con dominio / y recorrido en R∪¦+∞¦
o bien en R∪ ¦−∞¦.
Lema 13.9.1 (Descomposici´on de Jordan-Hahn). Dada la medida con signo
ψ en (Ω, /), finita, existe un conjunto medible C tal que para cualquier A ∈
/, A ⊂ C, se cumple ψ(A) ≥ 0, y para cualquier A ∈ /, A ∩ C = ∅, se
cumple ψ(A) ≤ 0. Como consecuencia, ψ es m´ axima en C y m´ınima en su
complemento.
Demostraci´ on. Llamemos M al extremo superior de ¦ψ(A) : A ∈ /¦, y consideremos
una sucesi´on (A
n
)
n∈N
tal que ψ(A
n
) → M, cuya uni´ on llamamos A

. Para cada n
se considera la familia 1
n
de las 2
n
intersecciones de la forma
¸
n
i=1
A

i
, donde cada A

i
es A
i
´ o A

` A
i
, y se definen B
n
=
¸
¦C : C ∈ 1
n
, ψ(C) > 0¦. De esta construcci´on
resulta ψ(A
n
) ≤ ψ(B
n
).
Complementamos la construcci´on con C
m
=
¸
m≥n
B
m
. A medida que m crece, el
agregado de cada B
m
agranda la uni´ on con conjuntos sobre los cuales ψ es no negativa.
Por lo tanto, ψ(B
n
) ≤ ψ(C
n
).
Reunimos esta desigualdad con la obtenida anteriormente, y recordamos que ψ est´a
acotada por M, de modo que ψ(A
n
) ≤ ψ(C
n
) ≤ M. La sucesi´on C
n
es mon´otona.
Llamemos C a su l´ımite, y pasemos al l´ımite en las desigualdades anteriores cuando
n tiende a infinito. Obtenemos M ≤ ψ(C) ≤ M, es decir, ψ(C) alcanza el valor
m´aximo M.
Como consecuencia, sobre cualquier subconjunto medible del complemento de C, ψ
debe ser no positiva, pues de lo contrario, agreg´ andolo a C tendr´ıamos un valor mayor
para ψ. An´ alogamente, sobre cualquier subconjunto medible de C ψ es no negativa,
porque en caso contrario, quit´ andolo obtendr´ıamos un valor de ψ a´ un mayor. 2
Introducci´ on a la probabilidad.
13.9. Densidad de una medida. 211
Corolario del Lema 13.9.1Si τ << µ son dos medidas finitas en (Ω, /) y
τ(Ω) > 0, entonces existe una funci´ on medible f no negativa tal que

f dµ > 0,
y para todo A medible,

A
f dµ ≤ τ(A). En particular, puede elegirse f igual
a un m´ ultiplo de la indicatriz de un suceso.
Demostraci´ on: La medida con signo definida por ψ(A) = τ(A) −

A
c dµ alcanza
un valor positivo en Ω cuando c se elige adecuadamente, por ejemplo, c =
τ(Ω)
2µ(Ω)
. Por
lo tanto, el conjunto C donde es positiva, de la descomposici´on de Jordan-Hahn es
no trivial, y en ´el se cumple ψ(C) ≥ ψ(Ω) =
1
2
τ(Ω).
Para cualquier A ⊂ C, ψ(A) = τ(A) −

A
c dµ > 0, de modo que la funci´ on f = c1
C
tiene las propiedades que se indican en el enunciado. 2
13.9.1 Demostraci´ on del Teorema de Radon-Nikodym.
Repetimos el enunciado del Teorema 7.6.1 para facilidad de referencia:
Cuando τ es una medida σ-finita absolutamente continua respecto de la
medida σ-finita µ, existe la densidad de τ con respecto a µ, es decir, existe
una funci´ on medible g (que se denota dτ/dµ), tal que para todo A medible,
τ(A) =

A
gdµ. La densidad es esencialmente ´ unica, es decir, si h es tambi´en
una densidad (porque es una funci´ on medible que cumple τ(A) =

A
hdµ para
todo A medible), entonces µ¦g = h¦ = 0.
Para el caso en que τ es una probabilidad P, y µ es una medida finita, el
enunciado expresa que, si P es absolutamente continua respecto de µ, entonces
existe la densidad p de P con respecto a µ, tal que para todo suceso A, P(A) =

A
p dµ.
Desarrollamos a continuaci´ on la demostraci´ on para este caso. Cuando se
trata de una medida sigma finita τ en vez de P, se la escribe como combi-
naci´ on lineal de probabilidades, y se aplica el resultado ya establecido a cada
probabilidad. Cuando µ es σ-finita, se hace una partici´ on disjunta (D
n
)
n∈N
de Ω tal que sobre cada D
n
µ sea finita, y se aplica el resultado ya obtenido a
las restricciones de τ y de µ a cada D
n
por separado.
Demostraci´ on: Partimos entonces de P << µ, µ finita, y consideramos la clase
T
+
= ¦q ≥ 0 :

A
q dµ ≤ P(A), para todo A ∈ /¦.
Se trata de una familia no vac´ıa, pues contiene a la constante 0, y adem´ as es cerrada
bajo supremos de sucesiones. En efecto, si q, r ∈ T
+
, entonces

A
(q ∨ r) dµ =

A∩{q>r}
q dµ +

A∩{q≤r}
r dµ ≤ P(A ∩ ¦p > q¦) + P(A ∩ ¦p ≤ q¦ = P(A). Si
212
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
(q
n
)
n∈N
⊂ T
+
y r
n
= q
1
∨ q
2
∨ . . . ∨ q
n
, entonces (r
n
)
n∈N
⊂ T
+
, por el c´alculo
precedente, y se deduce sup
n
q
n
= limr
n
∈ T
+
por la continuidad de la integral.
Llamemos s = sup
q∈F

q dµ. A partir de una sucesi´ on (q
n
)
n∈N
⊂ T
+
con la propie-
dad lim
n→∞

q
n
dµ = s, construimos p = sup
n∈N
q
n
, que cumple

p dµ = s. Vamos
a mostrar que p es la densidad que buscamos. Para ello, basta verificar que la medida
τ(A) = P(A) −

A
p dµ es nula.
Lo demostramos por reducci´ on al absurdo. Si no lo fuera, el Corolario del Lema
13.9.1 nos llevar´ıa a encontrar f = c1
C
con c, µ(C) > 0, tal que p + f estar´ıa en
T
+
, pero

f dµ > 0, en contradicci´ on con la selecci´on de p, pues se obtendr´ıa

(p + f)dµ >

p dµ = s.
Si p

es otra densidad, entonces para todo suceso A, P(A) =

A
p

dµ, de modo que
para todo suceso A,

A
(p

− p) dµ = 0, y esto implica µ¦p

= p¦ = 0 (ver Teorema
7.3.1). 2
13.10 Inversi´ on de la funci´ on caracter´ıstica de
una distribuci´ on de probabilidades en
R.
Teorema 13.10.1 Cuando ψ : R → C es la funci´ on caracter´ıstica ψ(t) =
E(e
ıtX
) de una variable aleatoria X : Ω → R, la distribuci´ on F
X
de X se
obtiene a partir de ψ mediante la f´ ormula de inversi´ on
F
X
(b) − F
X
(a) =
1

lim
u→∞

u
−u
e
−ıta
− e
−ıtb
ıt
ψ(t)dt
v´ alida en puntos de continuidad a, b de F
X
.
Demostraci´ on: Calculamos
1

u
−u
e
−ıta
− e
−ıtb
ıt
ψ(t)dt =
1

u
−u
e
−ıta
− e
−ıtb
ıt
dt

e
ıtx
dF
X
(x)
=
1


u
−u
e
ıt(x−a)
− e
ıt(x−b)
ıt
dt

dF
X
(x)
=
1


u
−u
e
ıt(x−(a+b)/2)
e
ıt(b−a)/2
− e
−ıt(b−a)/2
ıt
dt

dF
X
(x)
=
1
π

u
0
(e
ıt(x−(a+b)/2)
+ e
−ıt(x−(a+b)/2)
)
sin(t(b − a)/2)
t
dt

dF
X
(x)
Introducci´ on a la probabilidad.
13.10. Inversi´ on de la funci´ on caracter´ıstica en R. 213
= 2
1
π

u
0
cos(t(x − (a + b)/2))
sin(t(b − a)/2)
t
dt

dF
X
(x)
=
1
π

u
0
sin(t(x − a)) + sin(t(b − x))
t
dt

dF
X
(x)
=
1
π

u(x−a)
0
sin(y)
y
dy

dF
X
(x) +
1
π

u(b−x)
0
sin(y)
y
dy

dF
X
(x).
La funci´ on sin(y)/y es positiva en (0, π), (2π, 3π), . . ., (2nπ, (2n + 1)π), . . ., y nega-
tiva (π, 2π), . . ., ((2n−1)π, 2nπ), . . ., de modo que su integral I(x) =

x
0
(sin(y)/y)dy
alterna intervalos de crecimiento, que son los primeros, y decrecimiento, que son
los restantes, como lo indica la Figura 13.1. Adem´ as, para cada n > 0, los in-
crementos I(nπ) −I((n − 1)π), I((n + 1)π) −I(nπ), de distinto signo, satisfacen
[I(nπ) −I((n−1)π)[ > [I((n+1)π) −I(nπ)[, ya que, por ser sin(y −π) = −sin(y), se
cumple [I(nπ) −I((n−1)π)[ =


(n−1)π
[ sin(y)[dy/y =

(n+1)π

[ sin(y −π)[dy/(y −π)
>

(n+1)π

[ sin(y)[dy/y. Estas desigualdades nos muestran, por una parte, que el
m´aximo de I se alcanza en π, y, por otra parte, que existe el l´ımite lim
x→∞
I(x). Es
bien conocido que este l´ımite vale π/2, como lo indica el Lema 13.10.1, que agregamos
a los efectos de completar los argumentos de esta demostraci´on.
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14
Figura 13.1: Gr´ aficos de sin(x)/x (lleno) y de I(x)/π (punteado), con I(x) =

x
0
sin(y)dy/y. En abscisas se indica x/π.
Como consecuencia de una de las observaciones anteriores, el integrando
1
π

u(x−a)
0
sin(y)
y
dy

+
1
π

u(b−x)
0
sin(y)
y
dy

214
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
est´a acotado en valor absoluto por la constante 2I(π), uniformemente en u. Por lo
tanto, por el Teorema de Convergencia Dominada, podemos pasar al l´ımite cuando
u tiende a infinito dentro de la integral respecto de dF
X
. El l´ımite del integrando es
1 cuando a < x < b, 0 cuando x < a ´ o b < x y 1/2 cuando x = a y cuando x = b.
Por lo tanto, resulta una versi´ on de la f´ ormula del enunciado v´ alida a´ un en puntos
de discontinuidad de F
X
:
F
X
(b) + F
X
(b

) − F
X
(a) − F
X
(a

)
2
=
1

lim
u→∞

u
−u
e
−ıta
− e
−ıtb
ıt
ψ(t)dt.
2
Una consecuencia importante (e inmediata) del teorema precedente es el
siguiente corolario:
Corolario 13.10.1.1 La funci´on caracter´ıstica de una variable aleatoria X
determina a su distribuci´ on F
X
.
Lema 13.10.1


0
sin(y)
y
dy =
π
2
.
Demostraci´ on. Aplicamos el Teorema de Cauchy de integraci´on de funciones de va-
riable compleja, al c´ alculo de la integral de e
ız
/z en el camino que indica la Figura
13.2.
r −r R −R
0
Figura 13.2: Camino de integraci´ on para el c´ alculo de

e
ız
dz/z.
El Teorema mencionado indica que la integral es cero, de modo que podemos escribir:

R
r
e
ıt
t
dt +

π
0
e
ıReıt
ıdt −

R
r
e
−ıt
t
dt −

π
0
e
ıreıt
ıdt = 0.
De aqu´ı resulta, pasando al l´ımite con r → 0,

R
0
sin(t)
t
dt + ı

π
0
e
ıRcos(t)
e
−Rsin(t)
dt = ıπ. (13.14)
Puesto que e
ıRcos(t)
est´a acotado, y lim
R→∞

π
0
e
−Rsin(t)
dt = 0, se obtiene el resultado
indicado en el enunciado al pasar al l´ımite en 13.14 cuando R → ∞.
Introducci´ on a la probabilidad.
13.11. Inversi´ on de la funci´ on caracter´ıstica en R
d
. 215
13.11 Inversi´ on de la funci´ on caracter´ıstica de
una distribuci´ on de probabilidades en
R
d
.
Teorema 13.11.1 Cuando ψ : R
2
→ C es la funci´ on caracter´ıstica ψ(s, t)
= E(e
ı(sX+tY )
) de la pareja de variables aleatorias (X, Y ) : Ω → R
2
, la dis-
tribuci´ on conjunta F
X,Y
de (X, Y ) se obtiene a partir de ψ mediante la f´ ormula
de inversi´ on
F
X,Y
(b, d) − F
X,Y
(b, c) − F
X,Y
(a, d) + F
X,Y
(a, c)
=
1
(2π)
2
lim
u→∞

u
−u

u
−u
e
−ısa
− e
−ısb
ıs
e
−ıtc
− e
−ıtd
ıt
ψ(s, t)ds dt
v´ alida en intervalos de continuidad ((a, b), (c, d)] de F
X,Y
.
Definici´ on 13.11.1 El intervalo generalizado ((a, b), (c, d)] = ¦(x, y) : a <
x ≤ b, c < y ≤ d¦ es un intervalo de continuidad de la distribuci´ on conjunta o
de la funci´ on de distribuci´ on conjunta de las variables X, Y , cuando la proba-
bilidad de que (X, Y ) pertenezca al borde de ((a, b), (c, d)] es nula.
Demostraci´ on: Adaptamos el c´alculo de la demostraci´on del teorema de inversi´ on del
caso unidimensional, a la situaci´ on presente:
1
(2π)
2

u
−u

u
−u
e
−ısa
− e
−ısb
ıs
e
−ıtc
− e
−ıtd
ıt
ψ(s, t)ds dt
=
1
(2π)
2

u
−u

u
−u
e
−ısa
− e
−ısb
ıs
e
−ıtc
− e
−ıtd
ıt

e
ı(sx+ty)
)dF
X,Y
(x, y)ds dt
=
1
(2π)
2

u
−u
e
ıs(x−(a+b)/2)
e
ıs(b−a)
− e
−ıs(b−a)
ıs
ds

u
−u
e
ıt(y−(c+d)/2)
e
ıt(d−c)
− e
−ıt(d−c)
ıt
dt

dF
X,Y
(x, y)
=
1
π
2

u
0
sin(s(x − a)) + sin(s(b − x))
s
ds

u
0
sin(t(x − c)) + sin(t(d − x))
t
dt

dF
X,Y
(x, y)

(u→∞)

1
((a,b)(c,d))
+
1
2
1
∂((a,b)(c,d))

dF
X,Y
(x, y),
donde la notaci´ on ∂A designa a la frontera del conjunto A.
216
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
Como en el caso unidimensional, esta f´ ormula es ligeramente m´as general que la del
enunciado, y la implica trivialmente. 2
Tanto el enunciado como la demostraci´on correspondientes al caso d-dimensional,
para d > 2, son similares, y nos limitamos a escribir el enunciado:
Teorema 13.11.2 Denotamos por X = (X
1
, . . . , X
d
) a una variable aleatoria
con valores en R
d
, y por ψ : R
d
→ C a su funci´on caracter´ıstica ψ(t) =
E(e
ıt,X
), con t = (t
1
, . . . , t
d
) y 't, X` =
¸
d
h=1
t
h
X
h
.
La distribuci´ on conjunta F
X
de X se obtiene a partir de ψ mediante la
f´ ormula de inversi´ on
F
X
((a, b]) =
1
(2π)
d
lim
u→∞

u
−u
. . .

u
−u
d
¸
h=1
e
−ıt
h
a
h
− e
−ıt
h
b
h
ıt
h
ψ(t)dt
1
. . . dt
d
v´ alida en intervalos de continuidad (a, b] = ¦x = (x
1
, . . . , x
d
) : a
h
< x
h
≤ b
h
,
h = 1, . . . , d¦ de F
X
.
Resultan de lo anterior los siguientes corolarios:
Corolario 13.11.2.1 La funci´ on caracter´ıstica de una variable X con valores
en R
d
permite identificar la distribuci´ on de X.
Corolario 13.11.2.2 Las distribuciones de probabilidad de todas las combina-
ciones lineales 't, X` de una variable aleatoria X con valores en R
d
permiten
identificar (y obtener) la distribuci´ on conjunta de X.
El primer corolario es una consecuencia inmediata del Teorema de Inversi´ on
13.11.2, y el segundo se debe a que para construir la funci´ on caracter´ıstica,
por su propia definici´ on, basta conocer las distribuciones de las combinaciones
lineales de las componentes de X. 2
13.12 Demostraci´ on de la Ley Fuerte de los
Grandes N´ umeros de Kolmogorov.
El Teorema 11.9.2 expresa que si (X
n
)
n=1,2,...
es una sucesi´on de variables
aleatorias independientes, todas con la misma distribuci´ on, E[X
1
[ < ∞, y µ
es el valor esperado com´ un de todas ellas, entonces
P

lim
n→∞
X
1
+ X
2
+ . . . + X
n
n
= µ

= 1.
Introducci´ on a la probabilidad.
13.12. Demostraci´ on de la L.G.N. de Kolmogorov. 217
Basta demostrar este resultado para variables no negativas, porque en el
caso general, descomponemos X
n
= X
+
n
− X

n
, y aplicamos el Teorema a las
sucesiones (X
+
n
) y (X

n
) por separado. Suponemos en lo que sigue que X
1
≥ 0.
Demostraci´ on para variables no negativas. Recordemos que, cuando una variable
aleatoria V s´olo toma valores naturales, su esperanza se puede calcular como suma
de las probabilidades asociadas a las semirrectas (j, ∞), j ∈ N:
EV =

¸
j=0
jP¦V = j¦ =

¸
j=0
j
¸
k=1
P¦V = j¦ =

¸
k=1

¸
j=k
P¦V = j¦ =

¸
k=1
P¦V ≥ k¦.
Denotemos la parte entera, como en cap´ıtulos anteriores, mediante [ ]. De las de-
sigualdades [X
1
] ≤ X
1
< [X
1
] + 1 que acotan la variable X
1
entre dos variables de
valores naturales, deducimos E[X
1
] ≤ EX
1
≤ E[X
1
] + 1, es decir,

¸
j=1
P¦X
1
≥ j¦ ≤ EX
1


¸
j=0
P¦X
1
≥ j¦.
Para cada n ∈ N, introducimos X

n
= X
n
1
{Xn≤n}
y verificamos que se cumple
X

n
= X
n
para todo n suficientemente grande, con probabilidad 1, es decir:
P(
¸
n
¸
m≥n
¦X

n
= X
n
¦) = 1.
En efecto, el suceso complementario
¸
n
¸
m≥n
¦X

m
= X
m
¦
c
tiene probabilidad aco-
tada para cada n por
P(
¸
m≥n
¦X

m
= X
m
¦
c
) ≤
¸
m≥n
P(¦X

m
= X
m
¦
c
) =
¸
m≥n
P¦X
m
> m¦.
Esta suma est´a acotada por el resto de la serie convergente
¸

j=1
P¦X
1
≥ j¦ ≤ EX
1
< ∞, que tiende a cero cuando n tiende a infinito, y esto implica que la probabilidad
de
¸
n
¸
m≥n
¦X

m
= X
m
¦
c
es cero.
La propiedad que acabamos de verificar implica que, con las notaciones S
n
=
¸
n
j=1
X
j
y S

n
=
¸
n
j=1
X

j
, se cumple, casi seguramente, lim
n→∞
(S
n
− S

n
)/n = 0. Nuestra
meta ser´a entonces verificar que, casi seguramente, lim
n→∞
S

n
/n = EX
1
, para con-
cluir que P¦lim
n→∞
S
n
/n = EX
1
¦ = 1.
Calculamos
lim
n→∞
¸
n
j=1
X

j
n
−EX
1
= lim
n→∞
¸
n
j=1
(X

j
−EX

j
)
n
+
¸
n
j=1
(EX

j
−EX
1
)
n
= lim
n→∞
¸
n
j=1
(X

j
−EX

j
)
n
porque lim
n→∞
EX

n
= lim
n→∞
EX
1
1
{X1≤n}
= EX
1
por el Teorema de Conver-
gencia Dominada, ya que lim
n→∞
X
1
1
{X1≤n}
= X
1
, y [X
1
1
{X1≤n}
[ ≤ X
1
, cuya
esperanza es finita.
218
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
Vamos a verificar
lim
n→∞
¸
n
j=1
(X

j
−EX

j
)
n
= 0, (13.15)
es decir que, dado ε > 0 arbirtrario, para alg´ un m y para todo n ≥ m se cumple
A
n
=

¸
n
j=1
(X

j
−EX

j
)
n

< ε

casi seguramente. Esto puede expresarse en la forma
P(
¸
m
¸
n≥m
A
n
) = 1, y equivale a P(
¸
m
¸
n≥m
A
n
c
) = 0.
En vez de demostrar directamente (13.15), vamos a comenzar estableciendo
lim
i→∞
¸
ni
j=1
(X

j
−EX

j
)
n
i
= 0, (13.16)
para la sucesi´on n
i
= [(1 + δ)
i
], δ > 0, que satisface n
i
→ ∞, n
i
≤ (1 + δ)
i
< n
i
+ 1
≤ 2n
i
. Para ello, veremos que dado ε > 0, P
¸
i0
¸
i≥i0
(A
ni
)
c
= 0 y basta para
establecerlo mostrar que la serie
¸
i
P(A
ni
)
c
es convergente, porque la probabilidad
que queremos mostrar que es nula est´a acotada por P
¸
i≥i0
A
ni
c

¸
i≥i0
P(A
ni
c
)
para cualquier i
0
.
Acotamos P((A
ni
)
c
) mediante la desigualdad de Chebyshev:
P((A
ni
)
c
) = P

ni
¸
j=1
(X

j
−EX

j
)

≥ n
i
ε


¸
ni
j=1
VarX

j
n
2
i
ε
2

4
(1 + δ)
2i
ε
2
ni
¸
j=1

j
0
x
2
dF =
4
(1 + δ)
2i
ε
2
ni
¸
j=1
j
¸
k=1

k
k−1
x
2
dF

4
(1 + δ)
2i
ε
2
ni
¸
j=1
j
¸
k=1
k

k
k−1
xdF ≤
4
(1 + δ)
2i
ε
2
ni
¸
k=1
k

k
k−1
xdF(n
i
− k + 1)

4
(1 + δ)
i
ε
2
ni
¸
k=1
k

k
k−1
xdF.
Como consecuencia,

¸
i=1
P(A
ni
)
c


¸
i=1
4
(1 + δ)
i
ε
2
ni
¸
k=1
k

k
k−1
xdF
=
4
ε
2

¸
k=1
k

k
k−1
xdF
¸
{i:(1+δ)
i
≥k}
1
(1 + δ)
i

4
ε
2
δ
EX
1
.
Esto termina de demostrar (13.16), y en consecuencia,
lim
i→∞
S
ni
n
i
= EX
1
casi seguramente.
Introducci´ on a la probabilidad.
13.13. TLC para arreglos triangulares. 219
Dado que lim
i→∞
n
i+1
/n
i
= lim
i→∞
(1 + δ)
i+1
/(1 + δ)
i
= 1 + δ < (1 + δ)
2
, para i
suficientemente grande, n
i+1
≤ (1 + δ)
2
n
i
, y, por consiguiente, para n
i
< j ≤ n
i+1
e
i suficientemente grande,
1
(1 + δ)
2
S
ni
n
i

S
j
j
≤ (1 + δ)
2
S
ni+1
n
i+1
.
Pasando al l´ımite cuando j → ∞ (y entonces tambi´en i → ∞) encontramos
1
(1 + δ)
2
EX
1
≤ liminf
j→∞
S
j
n
j
≤ limsup
j→∞
S
j
n
j
≤ (1 + δ)
2
EX
1
,
y con δ → 0 se obtiene lim
j→∞
Sj
nj
= EX
1
. 2
13.13 Demostraci´ on del T.L.C. de Lindeberg,
para arreglos triangulares.
Repetimos el enunciado del Teorema 12.4.1: Si k(n) es una sucesi´ on creciente
de naturales, para cada n, X
n,1
, X
n,2
, . . ., X
n,k(n)
son variables independientes,
EX
n,j
= 0,
¸
k(n)
j=1
VarX
n,j
= 1, y lim
¸
k(n)
j=1
EX
2
n,j
1
{|X
n,j
|>ε}
= 0 para cada
ε > 0, entonces
¸
k(n)
j=1
X
n,j
converge en distribuci´ on a la normal t´ıpica N(0, 1).
Demostraci´ on. Los argumentos utilizados en la demostraci´ on del Teorema 12.3.1
son aplicables a este caso. Los repasamos brevemente:
Paso 1: Si F
n
es la funci´ on de distribuci´ on de S
n
=
¸
k(n)
j=1
X
n,j
, (x
m
)
m∈N
es una
sucesi´on que enumera a los racionales, y (F
ni
)
i∈N
es una sucesi´on parcial de (F
n
)
n∈N
,
entonces un proceso diagonal muestra que existe una sucesi´on parcial (F
niν
)
ν∈N
de
(F
ni
)
i∈N
que converge en cada x
m
a una funci´ on F.
Paso 2: F es una funci´ on de distribuci´ on, porque las sumas S
n
tienen esperanza cero
y variancia uno. Por lo tanto, por la Desigualdad de Chebyshev, para cada ε positivo,
P¦[S
n
[ ≥ (ε)
−1/2
¦ ≤ ε, de modo que F((ε)
−1/2
) ≥ 1 − ε y F(−(ε)
−1/2
) ≤ ε.
Paso 3: Vamos a verificar en el Paso 4, que ψ
n
(t) = Ee
ıtSn
converge a ψ(t) =
e

1
2
t
2
. El resultado del Ejercicio 12.1.6 implica que esa es la funci´ on caracter´ıstica
de F, y entonces concluimos que el l´ımite F de cualquier sucesi´on parcial de (F
n
) es
necesariamente Φ, la funci´ on de distribuci´ on Normal(0,1). Esto implica la conclusi´ on
que queremos demostrar, ya que si F
n
no convergiera d´ebilmente a Φ, habr´ıa una
sucesi´on parcial con un l´ımite diferente, y esto contradice lo que acabamos de verificar.
Paso 4 (´ ultimo): S´ olo nos resta verificar que ψ
n
(t) = Ee
ıtSn
=
¸
k(n)
j=1
Ee
ıtXn,j
converge
a ψ(t) = e

1
2
t
2
.
Para ello vamos a utilizar el desarrollo de Taylor con resto integral
f(1) =
n
¸
j=0
f
(j)
(0)/j! +

1
0
f
(n+1)
(s)(1 − s)
n
ds/n!
220
Enrique M. Caba˜ na.
Cap´ıtulo 13 Complementos y demostraciones.
aplicado a f(t) = e
ıtz
, con n = 1 y con n = 2, y a f(t) = log(1 − tz) con n = 1:
e
ız
= 1 + ız +

1
0
(−e
ısz
z
2
)(1 − s)ds, z ∈ R
e
ız
= 1 + ız −
z
2
2
+

1
0
(−ıe
ısz
z
3
)(1 − s)
2
ds
2!
, z ∈ R
log(1 − z) = −z +
z
2
2

1
0
1
(1 − sz)
2
(1 − s)ds, [z[ < 1.
De las acotaciones

1
0
(e
ıtz
)(1 − t)dt

1
0
(1 − t)dt = 1/2,

1
0
(e
ıtz
)(1 − t)
2
dt/2

1
0
(1 − t)
2
dt/2 = 1/6,
deducimos que para cualquier z ∈ R,
e
ız
= 1 + ız + λ
2
z
2
/2, e
ız
= 1 + ız − z
2
/2 + λ
3
[z[
3
/6
donde [λ
2
[ < 1, [λ
3
[ < 1. En el desarrollo del logaritmo, para cualquier z con
[z[ < 1/2, se cumple
log(1 − z) = −z + θ
2
z
2
con [θ
2
[ < 1.
Calculamos ahora
Ee
ıtXn,j
= Ee
ıtXn,j
1
{|Xn,j|>ε}
+Ee
ıtXn,j
1
{|Xn,j|≤ε}
= E(1 + ıtX
n,j
+ λ
2
t
2
X
2
n,j
/2)1
{|Xn,j|>ε}
+E(1 + ıtX
n,j
− t
2
X
2
n,j
/2 + λ
3
[t[
3
[X
n,j
[
3
/6)1
{|Xn,j|≤ε}
= 1 −Et
2
X
2
n,j
/2 +E1
{|Xn,j|>ε}
(1 + λ
2
)t
2
X
2
n,j
/2 +E1
{|Xn,j|≤ε}
λ
3
[t[
3
[X
n,j
[
3
/6
= 1 − t
2
VarX
n,j
/2 + A
n,j
,
con [A
n,j
[ ≤ E1
{|Xn,j|>ε}
t
2
X
2
n,j
+ [t[
3
εVarX
n,j
/6, de modo que
limsup
n→∞
k(n)
¸
j=1
[A
n,j
[ ≤ [t[
3
ε/6.
Resulta entonces

log Ee
ıt
¸
k(n)
j=1
Xn,j
+ t
2
/2

=

k(n)
¸
j=1
log(1 − t
2
VarX
n,j
/2 + A
n,j
) + t
2
/2

Introducci´ on a la probabilidad.
13.13. TLC para arreglos triangulares. 221
=

k(n)
¸
j=1
(−t
2
VarX
n,j
/2 + A
n,j
+ θ
2
(t
2
VarX
n,j
/2 − A
n,j
)
2
) + t
2
/2

=

k(n)
¸
j=1
A
n,j
+
k(n)
¸
j=1
θ
2
(t
2
VarX
n,j
/2 − A
n,j
)
2
)

≤ [t[
3
ε/6 +
k(n)
¸
j=1
(t
2
VarX
n,j
)
2
/2 + 2
k(n)
¸
j=1
(A
n,j
)
2
.
Dado que VarX
n,j
≤ ε
2
+EX
2
n,j
1
{|Xn,j|>ε}
, deducimos
max VarX
n,j
≤ ε
2
+
k(n)
¸
j=1
EX
2
n,j
1
{|Xn,j|>ε}
y entonces
limsup
k(n)
¸
j=1
(VarX
n,j
)
2
/2 ≤ ε
2
/2.
Por otra parte, para n grande, [A
n,j
[ < 1, y
limsup 2
k(n)
¸
j=1
(A
n,j
)
2
≤ 2 limsup
k(n)
¸
j=1
[A
n,j
[ ≤ [t[
3
ε/3.
Concluimos limsup [ log Ee
ıt
¸
k(n)
j=1
Xn,j
+t
2
/2[ ≤ [t[
3
ε/6 +t
2
ε
2
/2 +[t[
3
ε/3, y, por ser
ε arbitrario, esto significa que, para cada t, limlog Ee
ıt
¸
k(n)
j=1
Xn,j
= −t
2
/2. 2

Contenido
1 La probabilidad, un modelo matem´tico a bre. 1.1 Sucesos. . . . . . . . . . . . . . . . . . . 1.2 Probabilidad. . . . . . . . . . . . . . . . 1.2.1 La ley del azar. . . . . . . . . . . 1.2.2 Un juego de azar. . . . . . . . . . o 1.2.3 Definici´n de probabilidad. . . . . 1.3 La definici´n cl´sica de la probabilidad. . o a para la incertidum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 . 5 . 5 . 6 . 8 . 10 . . . . . . . . . . . . 15 15 17 18 20 21 22 25 25 28 30 33 33 38

2 Probabilidades condicionales. 2.1 Interpretaci´n intuitiva. . . . . . . . . . . . . . . . . . . . . o 2.2 Definici´n de la probabilidad condicional. . . . . . . . . . . . o 2.3 Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Una interpretaci´n objetiva para la probabilidad condicional. o 2.5 El Teorema de Bayes. . . . . . . . . . . . . . . . . . . . . . . 2.6 Dos ejemplos de aplicaci´n estad´ o ıstica del Teorema de Bayes.

3 Variables aleatorias. 3.1 Introducci´n. . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.2 Dos teoremas de existencia. . . . . . . . . . . . . . . . . . . . 3.3 Variables discretas y absolutamente continuas. . . . . . . . . . 3.4 Algunos ejemplos de variables aleatorias. . . . . . . . . . . . . 3.4.1 Variables asociadas a ensayos repetidos. . . . . . . . . 3.4.2 Dos distribuciones absolutamente continuas. . . . . . . 3.5 Construcci´n expl´ o ıcita de variables aleatorias en R, con funci´n o de distribuci´n F dada, a partir de U ∼Uni(0, 1). . . . . . . . o o o 3.6 Soluci´n de la ecuaci´n funcional g(s + t) = g(s) +g(t), s, t > 0. Probabilidad e informaci´n. . . . . . . . . . . . . . . . . . . . o 3.6.1 Las soluciones de la ecuaci´n. . . . . . . . . . . . . . . o iii

. 40 . 41 . 41

iv 3.6.2 4

CONTENIDO La informaci´n. . . . . . . . . . . . . . . . . . . . . . . . 42 o 47 47 49 51 53 57 57 58 59 62

Tres aplicaciones vinculadas con la distribuci´n binomial. o 4.1 Un modelo probabil´ ıstico: El paseo al azar simple. . . . . . . . . 4.1.1 Paseo al azar sim´trico simple. Principio de Reflexi´n. . e o 4.1.2 El paseo con dos barreras. Principio de Reflexi´n M´ltiple. o u 4.2 La f´rmula de Stirling y el l´ o ımite de las probabilidades binomiales. 4.3 Una aplicaci´n estad´ o ıstica: inferencia sobre el par´metro en un a modelo de Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Introducci´n. . . . . . . . . . . . . . . . . . . . . . . . . o 4.3.2 Un primer esquema de soluci´n. . . . . . . . . . . . . . . o 4.3.3 Algunas generalidades sobre la prueba de hip´tesis. . . . o 4.3.4 Estimaci´n de p. . . . . . . . . . . . . . . . . . . . . . . o Cadenas de Markov 5.1 Algunos ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Cadenas finitas homog´neas en el tiempo . . . . . . . . . . . . e 5.3 Cadenas finitas con estados absorbentes. . . . . . . . . . . . . 5.3.1 Partici´n en bloques de la matriz de probabilidades de o transici´n . . . . . . . . . . . . . . . . . . . . . . . . . o 5.4 Teorema de convergencia de probabilidades en una cadena de Markov finita. . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

65 . 65 . 66 . 68 . 69 . 71 . . . . . . . . . . . . . . 77 77 78 81 83 88 88 89 90 90 91 92 93 93 95

6 Valor esperado de una variable aleatoria. 6.1 Introducci´n. . . . . . . . . . . . . . . . . . . . . . . . . . . . o 6.2 Una definici´n descriptiva de la esperanza. . . . . . . . . . . . o 6.3 Definici´n constructiva de la esperanza. . . . . . . . . . . . . . o 6.4 C´lculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . a 6.5 Algunas propiedades de las esperanzas. . . . . . . . . . . . . . 6.5.1 Variables constantes con probabilidad 1. . . . . . . . . 6.5.2 Desigualdad de Jensen. . . . . . . . . . . . . . . . . . . 6.5.3 C´lculo de l´ a ımites . . . . . . . . . . . . . . . . . . . . . 6.5.4 Teorema de Convergencia Dominada de Lebesgue. . . . 6.6 Momentos, variancia. . . . . . . . . . . . . . . . . . . . . . . . 6.7 Medidas de posici´n y medidas de dispersi´n de una distribuci´n o o o de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . 6.8 Esperanza del producto de variables independientes. . . . . . . 6.8.1 Independencia de variables aleatorias. . . . . . . . . . . 6.9 Funciones generatrices. . . . . . . . . . . . . . . . . . . . . . .

CONTENIDO 6.10 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11 * Una aplicaci´n: C´lculo de probabilidades en el paseo al azar o a con barreras. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11.1 Paseo al azar con dos barreras absorbentes. . . . . . . . 6.11.2 Paseo al azar con una barrera . . . . . . . . . . . . . . 7 Medidas, integrales, densidades. 7.1 Espacios de medida. . . . . . . . . . . . . . . . . . . . . . . . 7.2 Probabilidades y medidas completas. . . . . . . . . . . . . . . 7.3 Integral respecto de una medida. . . . . . . . . . . . . . . . . 7.4 Dos ejemplos: Integral de Lebesgue e integral respecto de una medida discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Integral respecto de la medida de Lebesgue . . . . . . . 7.4.2 Integral respecto de la medida νS del Ejemplo 7.1.1. . . 7.5 La esperanza como caso particular de la integral. . . . . . . . 7.6 Densidad de una medida respecto de otra medida. . . . . . . . 8 Distribuciones conjuntas, independencia. 8.1 Distribuci´n conjunta de una pareja de variables aleatorias. . . o 8.2 La integral de Lebesgue en R2 . . . . . . . . . . . . . . . . . . 8.3 C´lculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . a 8.3.1 Momentos asociados a una pareja de variables. . . . . . 8.4 Distribuci´n de variables aleatorias independientes. Producto o de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Independencia de variables aleatorias. . . . . . . . . . . 8.4.2 Producto de probabilidades. . . . . . . . . . . . . . . . 8.4.3 La medida de Lebesgue en R2 , como medida producto. 8.5 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Una aplicaci´n de la esperanza. Otra soluci´n al problema de la o o aguja de Buffon. . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7 Distribuci´n de la suma de variables independientes. . . . . . . o 8.8 Un ejemplo: Suma de variables geom´tricas, distribuci´n binoe o mial negativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.9 Otro ejemplo: Suma de variables exponenciales. Distribuci´n o Gamma y distribuci´n de Poisson. . . . . . . . . . . . . . . . . o 8.10 Ensayos repetidos, cuando hay m´s de dos resultados posibles: a la distribuci´n multinomial . . . . . . . . . . . . . . . . . . . . o 8.11 Los estad´ ısticos de orden de una muestra. . . . . . . . . . . . 8.11.1 Definici´n de los estad´ o ısticos de orden. . . . . . . . . .

v . 97 . 97 . 97 . 100 103 . 103 . 104 . 105 . . . . . 107 107 108 108 109

111 . 111 . 114 . 115 . 115 . . . . . 116 116 117 117 118

. 119 . 121 . 122 . 123 . 125 . 127 . 127

. . . . . .4 Un ejemplo: Obtenci´n de las probabilidades de absorci´n. . . . . . . . . . . y el Teorema de Fubini.3 Criterio de convergencia en probabilidad basado en la convergencia cuadr´tica. .1 Significado de las hip´tesis del enunciado. . . . . 162 11. 129 9 Distribuciones y esperanzas condicionales. . . . . 128 8. . . .2 Distancias entre variables aleatorias basadas en momentos. . . . .1 Convergencia cuadr´tica. . 154 10. . . . . 157 11. . . . . o 9.3. . . . . . . . .3 Otra derivaci´n de la densidad del h-´simo estad´ o e ıstico de orden. . . . . . 145 10. y de o o las esperanzas de los tiempos de absorci´n a partir del Teorema o de convergencia de probabilidades. . . . . . . . 155 o 11 Convergencia de variables aleatorias. . . 162 a 11. . . . . .2 Distribuci´n de los estad´ o ısticos de orden. . . . . . . .4 La distribuci´n condicional. . . . . . . . .vi CONTENIDO 8. . . . . . . 157 11. . . . . . . . . . .2 Teorema de convergencia de probabilidades en una cadena de Markov numerable. . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . o 9. . . . . . . 9. . . . . . 158 a 11. . . 147 o ∗ 10. . . . . . .1 Introducci´n. .5 Uso de los m´todos matriciales de §5. . . Leyes de Grandes N´u meros. . . . . . . .11. 160 11. . 10 ∗ 131 . . . . . .2 Convergencia en probabilidad. 164 11. . . . . . . . .2. . 131 . . . . . 160 a 11. . . .11. . . . . . . . . . . . . 148 o 10. . . .5 Esperanzas condicionales iteradas. . . . . 142 Convergencia de probabilidades en una cadena de Markov. . . . . . . . 132 . . . . .4 Convergencia casi segura. . . . . . . 158 11. . 9. . . . . . . .6 La esperanza de una funci´n de una pareja de variables indeo pendientes. . . . . . . . .3 Ejercicios. . . . . . . . . . . 145 10. . . . . . . . . . . . 139 . . .3 Convergencias cuadr´tica y en probabilidad.1 Desigualdades de Markov y de Chebyshev. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . . 160 a 11. . . . . . .3. . . . . . .1. . . 153 10. . . . . . . P). . . . . . . .5 Completitud de L2 (Ω. . . .3 para el c´lculo de los e a tiempos esperados de absorci´n. . . . . . .6 Ejercicios. . .2 Una interpretaci´n intuitiva para la esperanza condicional. . o 9. . . . . . . . . . . . . . . .2. . . . . . . . . . o 9. . . 137 . . . . . 133 . . . . . . .3 Definici´n de la esperanza condicional. . . . . . .1 Distancia cuadr´tica. . . . . . . . . 146 10. . . . . . . .2 Demostraci´n del Teorema 10. . . . . . . . . . . . . . . .2. 166 . . . . . . .1 Cadenas con una cantidad numerable de estados. .

. 186 12. . .1 Convergencia en ley o en distribuci´n. . . . . . 166 . . . . . . . . . . . .3.1 Demostraci´n de la existencia. . . . . Teorema del L´ o ımite Central. 190 13 Complementos y demostraciones omitidas en cap´ ıtulos anteriores. . . . . . .1. . . . . . . .12Algunas aplicaciones estad´ ısticas de la convergencia de Fn a F . .1.9. . . . . . . . . . . . . . . . .2 Demostraci´n de la unicidad. . . . . u 11. . 201 13. . . . .1 Ley D´bil de los Grandes N´meros. . . . . . . . . . . . . 174 . 168 169 169 170 . . .5 Aplicaci´n: Un ejemplo de convergencia en distribuci´n asociao o do a los estad´ ısticos de orden. . . . . . .3. . . . . . . . . .3 Algunas propiedades de las esperanzas y de las integrales. . . . . . 11. . .9 Leyes de Grandes N´meros. . para variables con valores o en R. . . . . . . . . . . . . .2 Una caracterizaci´n de la convergencia en distribuci´n. . .7. . . . . . . Coherencia de una sucesi´n de o estimadores.4 Teorema del L´ ımite Central para arreglos triangulares de variables independientes. . . tegrales. u 11. . . 190 12. . . . . . . N. . . . .7 Una aplicaci´n a la estad´ o ıstica. . . . . . . . . . . . . . . . . 201 13. . 11. .3 Teorema del L´ ımite Central para variables equidistribuidas. . . . . . . . . . . . . . . . . . . . . .1. . .1 Monoton´ linealidad y σ-aditividad de esperanzas e inıa. . . . . . . . . . . . . . . . . .10 Distribuci´n emp´ o ırica de una muestra. . .1. . . .2 Definici´n de una probabilidad en R a partir de su funci´n de o o distribuci´n. . . . . . . . . . . . . . Distribuci´n normal. . . .Cantelli como una Ley o de los Grandes N´meros funcional. . . . . . . . . . . .2 Ley Fuerte de los Grandes N´meros. . . .1 Estimaci´n coherente de las cuantilas de F a partir de o una muestra aleatoria simple. . . . . . . . . . . .CONTENIDO 11. . . . . . . . . . . . . . . . . . . .2 C´lculo de l´ a ımites. . . . . . . . . . . . . . 172 . 11. 183 o 12. . 167 . . . . . . . . 195 o 13. . . . 179 12. . . . .9. . . . . . . . . . . . . 195 o 13. . . . o 11. . . . 177 12. . 195 13. Kolmogorov. .2 Distribuci´n normal en R. . 203 . . . . e u 11. . .11Reinterpretaci´n de la Ley de Glivenko . . . . . . . . 199 o 13. . . .1 Teorema de Extensi´n de Probabilidades de A. . vii . u 11. . 198 o 13. . . . . .8 Una aplicaci´n al an´lisis: Teorema de Weierstrass de aproxio a maci´n de funciones continuas por polinomios. . . . . . . . . Ley de Glivenko-Cantelli. 175 12 Convergencia en Ley. . . . . . . 177 12. .1 Un rec´ ıproco del Teorema 12. . . . . . . .1. . . 180 o o 12. . . . . . . . . . . . . .1. . .

. . . . 211 o 13. . . . . . . . . . . . . . . . . . . . 204 Integral de Lebesgue y densidades en Rd . . . . . . . . . . de Lindeberg. . . . . .5 13. . . . . . . . . . . 216 13. .10Inversi´n de la funci´n caracter´ o o ıstica de una distribuci´n de proo babilidades en R. . . 212 13.11Inversi´n de la funci´n caracter´ o o ıstica de una distribuci´n de proo babilidades en Rd . . 206 Una distancia entre probabilidades. .viii 13. . . . . . . . . . . .12Demostraci´n de la Ley Fuerte de los Grandes N´meros de Kolmogorov. . . . . . 207 13. para arreglos triangulares. . . . . . . . 210 13. . .9 Densidad de una medida absolutamente continua. . . . . . . . . . . . . . . . . . .1 Demostraci´n del Teorema de Radon-Nikodym. . . . .8 CONTENIDO Cambio de variables en una integral. . . 215 o u 13. Teorema de Fubini. . . . . . . . . . 206 Normas Lp en espacios de clases de equivalencia de funciones medibles. . . . . .13Demostraci´n del T. . . . . . . . . . . . . . . . . . . . .C. . . . . . . .4 13. . . . . . . . . . . . . . . . . . . . . . . . . . 203 Producto de probabilidades. . . . .9. . .6 13. . . .L. .219 o . .7 13. .

. . . o a 6. . . . . . . .2 Camino de integraci´n para el c´lculo de eız dz/z. . . .3 4. . . . . . . . . . . . . . . . 23 o Funci´n de distribuci´n de una variable discreta . . . . . . . . . . .2 Funci´n de distribuci´n de probabilidades Φ y densidad ϕ (llao o mada campana de Gauss) de una variable normal t´ ıpica. . . . . . 48 50 52 59 61 66 . . . . . . . . . . . . . . . . 6. . . . 113 o 12. . . . . . . . . 184 13. . . . . . . . . . . 8. . . . o Reflexiones sucesivas de j respecto del par de niveles −a y b. . .6. . . 181 a z. . . .3 Interpretaci´n de la esperanza como diferencia de areas. . . . .2 3. . . . . . . . . . . . . a Reflexi´n de una trayectoria .1 3.5 5. . . . . . . . . . 213 a 13. 84 . . . . . .1 Gr´ficos de u− y de u+ . . . . . . .1 6. 85 .1 4. . 86 Interpretaci´n gr´fica de un sumando en la esperanza de una o a variable discreta. . . . .1 Dominios de integraci´n. . . . .1 3. . . . . . . . . . . . 43 o o Representaciones gr´ficas de la trayectoria de un paseo al azar. . . . . . . . .4 Aproximaci´n de la esperanza por esperanzas de aproximaciones o discretas. .1 . . . . . .ε z. . . . . . . . . .3 4.3. . o Errores de tipos I y II en una prueba de hip´tesis. . . . . . Ilustraci´n para el Ejemplo 4. . . . . . . .Indice de Figuras 2. . 31 o o Funci´n de distribuci´n de una variable absolutamente continua 32 o o Soluci´n de la ecuaci´n funcional g(s + t) = g(s) + g(t) . o ´ 6. . 85 . .2 4. . . . . . . . .1 . . o Diagrama de estados y transiciones de la cadena del Ejemplo 1. . .4 4.1 Gr´ficos de sin(x)/x y de 0x sin(y)dy/y.1 Ilustraci´n para el Ejemplo 2. 214 o a ix .2 Interpretaci´n gr´fica de la esperanza de una variable discreta. .ε 12. . . . . . . . .

x FIGURAS .

Indice de Tablas
6.1 Esperanzas, variancias y funciones generatrices de momentos de algunas distribuciones. . . . . . . . . . . . . . . . . . . . . . . . 98

o ıpica. . . . . . . . . . . . . . . . . . . . . . 185 12.1 Distribuci´n normal t´

xi

Tanto el desarrollo de la probabilidad como el de la estad´ ıstica, lo mismo que sus aportes al progreso cient´ ıfico y tecnol´gico, son un proo ducto del Siglo XX. El registro de datos estad´ ısticos es tan viejo como la escritura, pero el an´lisis matem´tico de esos datos, a a o con el prop´sito de tomar decisiones, tiene aproximadamente un siglo de u antig¨edad, ya que suele establecerse como hito que marca el origen de la estad´ ıstica al comienzo de la edici´n de la revista estad´ o ıstica m´s a antigua, Biometrika, cuyo primer n´mero apareci´ en 1899. u o Aunque hay antecedentes de c´lculos de probabilidades asociados a juegos de a azar, que se remontan al menos al Siglo XVI, los matem´ticos de principios del siglo a u ıan pasado a´n ve´ a la probabilidad como un invento de los siglos 17 y 18 no integrado a la disciplina rigurosa que cultivaban, carente de una estructura s´lida, que apenas o ten´ el m´rito de dar ingeniosas soluciones ad hoc a variados problemas. ıa e La formalizaci´n del c´lculo de probabilidades, como una rama de la matem´tica o a a s´lidamente fundada, est´ asociada a trabajos realizados por Andrei N. Kolmogorov o a (1903-1987). Bas´ndose en los estudios de quienes en esa ´poca formalizaban el a e c´lculo de integrales, Kolmogorov construy´ una teor´ axiom´tica de la probabilidad a o ıa a inmersa dentro de la teor´ de la medida y contribuy´ al desarrollo de ambas con ıa o aportes originales. Hoy sigue public´ndose Biometrika, junto con un gran n´mero a u de revistas de probabilidad y de estad´ ıstica matem´tica que, en a conjunto, recogen un doceavo de los trabajos de matem´tica que a aparecen en la bibliograf´ especializada. El aporte de la probabiıa lidad y de la estad´ ıstica al desarrollo de las ciencias sociales y de la naturaleza, e incluso de otras ramas de la matem´tica es indudaa ble, y los m´todos estad´ e ısticos contribuyen de manera sustantiva a mejorar la producci´n de bienes y la prestaci´n de servicios. o o

1. La probabilidad, un modelo matem´tico para la incertiduma bre.
La teor´ de las probabilidades proporciona modelos matem´ticos para desıa a cribir situaciones en las que existe incertidumbre. Se indica por medio de la probabilidad el grado de factibilidad de un determinado acontecimiento o de confianza que se tiene en que ocurra ese acontecimiento. M´s precisamente, a o la probabilidad es una funci´n que tiene por dominio una familia de acontecimientos cuya ocurrencia es posiblemente incierta. A cada uno de estos acontecimientos la probabilidad atribuye un n´mero, tanto m´s grande cuanto u a mayor sea su factibilidad, o la confianza en que ese acontecimiento ocurra. A la m´xima factibilidad o confianza (certeza), le atribuye el 1, y a la m´ a ınima, el 0. 1

1.1

Sucesos.
Comencemos por analizar el dominio de la probabilidad, es decir, la familia que llamaremos A, de los acontecimientos que vamos a incluir en el modelo. Convendremos que toda vez que nos interese considerar la eventual ocurrencia de un acontecimiento ˆ A, incluiremos tambi´n en nuestro modelo el acontecimiento e

Estos comentarios iniciales s´lo aspiran a establecer un v´ o ınculo entre el modelo matem´tico que vamos a introducir, y algunas de las posibles aplicaciones de ese modelo, a fuera de la matem´tica. Buena parte de la riqueza y del atractivo de la probabilidad consisa ten en que constituye un instrumento para construir modelos capaces de reflejar fen´menos o inciertos de la naturaleza, respecto de los cuales puede interesarnos adoptar decisiones. Estas incertidumbres pueden en particular pensarse de manera objetiva o subjetiva, y eso explica el uso de los t´rminos “factibilidad” y “confianza”, respectivamente. Es por ello que e motivaremos en §1.2 la definici´n de la probabilidad mediante dos modelos, uno de ellos o objetivo, y el otro subjetivo.

1

1

2

Enrique M. Caba˜a. n Cap´ ıtulo 1: Probabilidad.
ˆ ˆ “no ocurre A” , abreviado “no A”, ˆ ˆ y toda vez que nos interese considerar la ocurrencia de los acontecimientos A y B, ˆ tambi´n incluiremos en nuestro modelo los acontecimientos compuestos a partir de A e ˆ que son: y de B ˆ ˆ ˆ ˆ “ocurren ambos acontecimientos, el A y el B”, abreviado “A y B”, ˆ ˆ ˆ´ ˆ “alguno de los acontecimientos A, B ocurre”, abreviado “A o B”, y tambi´n otras combinaciones cuya inclusi´n es consecuencia de las anteriores, tales e o ˆ ˆ ˆ ˆ ˆ ˆ como “ocurre A pero no B”, que equivale a “A y (no B)”, o bien “ocurre A o B pero ˆ ˆ ´ ˆ ˆ no ambos”, que es lo mismo que “(A y (no B)) o (B y (no A))”. Por una inducci´n o obvia, estas convenciones se generalizan a acontecimientos compuestos por m´s de a dos, tales como la ocurrencia de por lo menos uno de varios acontecimientos dados, o la no ocurrencia de ninguno de ellos. Resulta un sencillo ejercicio verificar que las operaciones (no, o, y) entre acontecimien´ tos tienen las mismas propiedades formales que ciertas operaciones (complemento, uni´n, intersecci´n, respectivamente) entre conjuntos. M´s a´n, es posible mostrar o o a u que cada acontecimiento se puede asociar a un subconjunto de un conjunto dado que llamaremos Ω, de modo que se correspondan: acontecimiento ˆ A subconjunto A

ˆ B

B

ˆ no A

Ac

ˆ´ ˆ AoB

A∪B

ˆ ˆ AyB

A∩B

ˆ ˆ A y (no B) ...

A\B ... ...

(s1 ) = (a1 ). e Definici´n 1.2. en otras o palabras. . un subconjunto A de Ω se corresponder´ con el acontecimiento consistente en que ocurre alguno de los estados a descritos por los puntos de Ω contenidos en A. para verificarlo. o. entonces ∞ e n=1 Am tambi´n pertenece a A. entonces su complemento Ac tambi´n pertenece a A.2 Una familia A de subconjuntos de Ω que cumple las propieo dades (s0 ) = (a0 ). y o m=1 m=1 m que la diferencia sim´trica de A y B es A △ B = (A ∩ B c ) ∪ (B ∩ Ac ). .. entonces n Am m=1 tambi´n pertenece a A. o 1. y. (a1 ) y (a2 ). Observemos que la familia {∅.1 A una familia A que cumple (a0 ). pertenecen a A. (a2 ) Si los conjuntos A1 . Entonces. e (a1 ) Si A pertenece a A.Introducci´n a la probabilidad. de acuerdo a la a observaci´n precedente. y o (s2 ) Si los conjuntos de una sucesi´n (An )n=1. a Puede verificarse que toda σ-´lgebra de subconjuntos de Ω es un algebra. Ω} es una σ-´lgebra. An (n ∈ N) pertenecen a A.1. ´ Toda algebra de subconjuntos de Ω es tambi´n cerrada bajo intersecciones ´ e finitas. el conjunto formado por las descripciones exhaustivas y mutuamente excluyentes de cada uno de los estados posibles del sistema que nos interesa describir. Sucesos 3 Para ello podemos pensar que Ω es el conjunto de todos los acontecimientos elementales o “estados posibles de la naturaleza”.2) es que toda algebra y toda σ-´lgebra contienen necesariamente a Ω ´ a ıo y al conjunto vac´ ∅.1) y (1. a a . se trata de la σ-´lgebra m´s peque˜a posible.1. a la que o a a n suele llam´rsele σ-´lgebra trivial. . se la llama un algebra de subconjuntos de Ω. Las consideraciones anteriores nos conducen a introducir la siguiente definici´n. o Dado un conjunto no vac´ Ω..1. . Conviene recordar. es decir. consideremos una familia A de partes de Ω ıo con las propiedades: (a0 ) A es no vac´ ıa. a una familia de subconjuntos de Ω cerrada bajo complementos y uniones finitas. se llama σ-´lgebra de subconjuntos de Ω. que e una intersecci´n finita puede escribirse en la forma n Am = ( n Ac )c .. a ´ Conviene verificar previamente que una consecuencia de las definiciones (1. y bajo diferencias sim´tricas.1. e Definici´n 1.1.

1. o Definici´n 1.1. existe una m´ ınima σ-´lgebra que los contiene.2 Verificar que toda σ-´lgebra de subconjuntos de Ω es un algebra.8 Verificar que coinciden las m´ ınimas σ-´lgebras de partes de R a que contienen (i) los intervalos abiertos. . El Teorema 3.1. { 1 } y { 2 }. .5 Verificar que la intersecci´n de σ-´lgebras de subconjuntos de Ω o a es tambi´n una σ-´lgebra. a ´ Ejercicio 1. m=1 ∞ (a3 ) A1 . .1 nos dar´ una e a a primera clave para apreciar la conveniencia de esta formalizaci´n. . . Esta σ-´lgebra se llama de Borel. Ejercicio 1.1. entonces A contiene tambi´n todos e los intervalos cerrados y semiabiertos.6 Enumerar la m´ ınima σ-´lgebra de subconjuntos de R que contiene a a los conjuntos { 0 }.1.1. . An (n ∈ N ) ∈ A ⇒ n Am ∈ A.1. .7 Verificar que si A es una σ-´lgebra de partes de R que contiene a los intervalos abiertos {(a. .2. Ejercicios.1. tiene ventajas ´ t´cnicas adoptar en cambio una σ-´lgebra. An es una partici´n de Ω. ∈ A ⇒ m=1 Am ∈ A Ejercicio 1. . An son disjuntos y n Am = Ω.1 o o sugiere adoptar un algebra como dominio de la probabilidad. . . a ≤ b}.1. (iii) todos los intervalos. .3 Verificar que la familia 2Ω de todos los subconjuntos de Ω es una σ-´lgebra.1. b ∈ R. Deducir que dada una familia cualquiera de subconjuntos e a de Ω. (iv) los conjuntos abiertos. Ejercicio 1.4 Enrique M. Caba˜a. Ejercicio 1. b) : a. . y los a elementos de A se llaman sucesos. entonces la familia de todas las m=1 ´ uniones { m∈J : J subconjunto de {1.3 La pareja (Ω. se llama espacio probabilizable. . (ii) los intervalos cerrados. . Nota: Aunque la introducci´n informal que precede a la Definici´n 1. .4 Verificar que si A1 . los o sucesos A1 . . a Ejercicio 1. A2 . n Cap´ ıtulo 1: Probabilidad. 2. a ıo y que se cumplen las propiedades (a2 ) A1 . a Ejercicio 1. . A) en la que Ω es un conjunto no vac´o y A o ı es una σ-´lgebra de subconjuntos de Ω. Ejercicio 1.1 Verificar que toda σ-´lgebra A contiene a Ω y al suceso vac´ ∅. n}} es un algebra. (v) los conjuntos cerrados. es decir. . a .

. de modo que p(Ω) = 1. y. queremos atribuir ahora una medida. Aunque la ley no dice nada sobre cu´les son estos l´ a ımites. pero en u cada repetici´n del experimento no hay certeza sobre cu´l de estos ser´ como suele o a a ocurrir cuando se arroja un dado. . o de donde resulta p(1) + . Supongamos que el experimento consiste o en arrojar un dado cuyas caras est´n numeradas de 1 a 6. tenemos rn (Ω) = n . 6. El resultado (el n´mero a u de la cara que queda hacia arriba) puede ser cualquiera de esos seis n´meros. . o 1. Antes de dar una definici´n formal. . . Si tuvi´ramos buenas razones para suponer e que ninguna de las caras est´ privilegiada respecto de las otras (por la construcci´n a o del dado y por la manera de arrojarlo). Repitamos indefinidamente un cierto experimento E con independencia entre las sucesivas replicaciones. . B son dos resultados posibles del experimento que no pueden ocurrir simult´neamente. Por otra parte. concluir´ ıamos p(1) = p(2) = . las frecuencias rn (1).2. . su probabilidad. que nos diga hasta qu´ e punto podemos confiar en que ese acontecimiento ocurra.2 Probabilidad. o Adem´s. si A. . . + p(6) = 1. el cociente rn (A)/n (que llamamos frecuencia relativa de A) tiene l´ ımite cuando n tiende a infinito. Designamos por rn (A) (que llamamos frecuencia de A) al n´mero de veces que ha ocurrido A al cabo de n repeticiones. A cada acontecimiento (o suceso). y entonces debe cumplirse p(i) = 1/6.2. entonces rn (A o B) = rn (A) + rn (B). es claro que todos ellos son n´meros comprendidos entre 0 u y 1.Introducci´n a la probabilidad. y llamemos A a uno de los resultados posibles. La ley que hemos enunciado conduce a l´ ımites p(1). . . . p(6) para las frecuencias relativas con que se obtienen los resultados 1. 6. . Interpretamos la independencia entre las sucesivas repeticiones en el sentido de que la ejecuci´n de cualesquiera de ellas. resultado trivial que siempre ocurre. rn (6) cumplen rn (1) + . . + rn (6) = n. Probabilidad 5 1. vamos a considerar dos situaciones que nos proporcionar´n o a una interpretaci´n intuitiva para la probabilidad. En general. Consideremos la siguiente ley sobre cuya eventual validez no nos pronunciamos. y a ese l´ ımite lo llamamos p(A). . . sobre cuya ocurrencia existe incertidumbre. . i = 1.1 La ley del azar. Consideremos un ejemplo de tal situaci´n. Supongamos que el resultado del experimento es incierto. ya que las frecuencias relativas cumplen esa propiedad por su propia definici´n. u Entonces. no tiene ninguna influencia sobre las otras y sobre sus resultados. de donde p(A o B) = p(A) + a ´ ´ p(B). . = p(6). . . en particular o sus resultados. o 1. . . si Ω es el resultado consistente en que ocurra alguno cualquiera de los resultados posibles. . como en cada repetici´n del experimento ocurre alguno de los resultados a o indicados y s´lo uno.

por la consecuencia desastrosa que esto le significar´ ıa. nuestro jugador podr´ intervenir simult´neamente dos veces en el mismo juego. Por lo tanto. el a jugador lo cambiar´ por cπ(A). Consideree mos un experimento cuyo resultado es incierto. que retomaremos en varias oportunidades para o motivar algunas de las definiciones. es decir. pero estar´ dispuesto a intercambiar su papel con la ıa banca por un pago superior a π(A). sin pretender obtener una ganancia de su juego. Vamos a llamar π(A) a la cantidad que el jugador estima u equitativo pagar para intervenir. si A y B son dos resultados posibles. recibe como premio una unidad monetaria. un jugador podr´ estimar apropiado n ıa invertir una peque˜a cantidad en un juego para duplicarla en caso de ganar. y llamemos A a uno de sus resultados posibles. basado en un juego de azar hipot´tico. llamemos π(A) a una cantidad tal e que el jugador considera que le conviene jugar si el pago que debe hacer por intervenir en el juego es menor que π(A). Obviamente se cumple 0 ≤ π(A) ≤ 1. e Aceptemos adem´s que si el premio del juego fuese c si ocurre A y 0 si no ocurre. n Cap´ ıtulo 1: Probabilidad. De otra manera.6 Enrique M. y si no ocurre A.2. La cantidad π(A) no tiene por qu´ ser la misma e para distintos jugadores. pues en caso contrario el jugador tendr´ ıa seguramente una ganancia (si fuese π(A) < 0) o una p´rdida (si 1 < π(A)). que no pueden ocurrir a e la vez. pues puede depender de su informaci´n previa. a ´ . pero no n invertir´ toda su fortuna en el mismo juego. π(A) ¨ r ¨ r ıE E ¨ A? r s´ 1 rr ¨¨ r¨ no c 0 Podemos expresar la condici´n de equitatividad del juego de otra manera: el jugador o estima que la cantidad cierta π(A) y la cantidad incierta que es el premio del juego. ıa a apostando una vez en favor de A. Esta condici´n de linealidad s´lo es razonable si las ıa o o sumas a intercambiar son peque˜as. que vale 1 si ocurre A y 0 si no ocurre A. pero sin sufrir tampoco una p´rdida. si ocurre A. y la otra vez por B. o de otras o consideraciones subjetivas. en efecto. tienen el mismo valor. ıa u para no arriesgarse a perder. n Observemos tambi´n que. no recibe ning´n premio. Como esto es equivalente a intervenir una vez apostando por (A o B) (obs´rvese que para que esto sea correcto se requiere ´ e que A y B no puedan ocurrir simult´neamente). Un jugador se dispone a participar en el siguiente juego de azar: se realiza el experimento. 1. Caba˜a. son intercambiables.2 Un juego de azar. por lo cual estima que debe pagar π(A). Veamos a continuaci´n otro ejemplo. se deduce π(A o B) = π(A) + π(B). a´n cuando la duplicara en caso de ganar. convendr´ pensar en lo sucesivo que las sumas que se intercambian son a peque˜as. por lo cual estima que debe pagar π(B).

. si considera que la ley del azar es v´lida. y 1.1. con lo que se asegura una ganancia de 1.2. De aqu´ resulta que el jugador deber´ considerar intercambiables π(A) con ı a rn (A)/n. Probabilidad                                      7 π(A) ¨ r ¨ r ıE E ¨ A? r s´ 1 rr ¨¨ r¨ no c 0 + π(B) ¨ r ¨ r ı E r B? r s´ 1 ¨ ¨ E r ¨ ¨ r no c 0 = π(A ∪ B) ¨ r ¨ r ı E r A ∪ B? r s´ 1 ¨ ¨ E r ¨ ¨ r no c 0 Una observaci´n trivial es que si el jugador apuesta por el resultado Ω consistente en o que ocurra cualquiera de los resultados posibles. o o El mismo experimento de 1. las consideraciones anteriores indican que o los seis valores π(1). El jugador puede saber poco o nada sobre ıa ´ la construcci´n del dado. Observemos de paso que si nuestro jugador no encuentra razones para preferir un resultado a otro. considerar´ intercambiable una apuesta nπ(A) con la ganancia rn (A) (con la notaci´n a o introducida en 1.Introducci´n a la probabilidad. π(6) no pueden ser completamente arbitrarios: deben ser no negativos y sumar 1. razones de conveniencia t´cnica vinculadas a resultados tales e como los de los Teoremas 3. a Entre los modelos de 1. a No debe extra˜arnos entonces que π y p compartan algunas propiedades. como la equivalencia de π(A) a con rn (A)/n vale para todo n. y.2. . y la ganancia promedio rn (A)/n .2.2 puede establecerse la siguiente relaci´n. . usando la informaci´n que tenga.2. desde el punto de vista de la confianza que tenga en que cada uno de ellos ocurra. El experimento de arrojar ıcil el dado podr´ realizarse por una unica vez. deber´ estimar π(A) = p(A).1.1). . y atribuir´ valores a π. elegir´ π(1) = . o 1.1 sirve de ejemplo para esta situaci´n. Har´ su composici´n o a o de lugar.1 y 1. a a la propiedad del item (p2 ) se formular´ para sucesiones finitas exclusivamente. . Para las n primeras repeticiones. la condici´n de equitatividad presente en la descripci´n de π implica π(Ω) = 1. es π(A). .2. ıa Sin embargo. aconsejan extender la aditividad a sucesiones infinitas. n Nota: La definici´n que sigue intenta recoger los elementos comunes preo sentes en los dos ejemplos precedentes.2.2. y que nuestro jugador est´ dispuesto a apostar a cada vez π(A) para ganar 1 en caso de ocurrir A. o sobre la habilidad del que lo arroja. al menos por el momento!). Supono gamos que el juego puede repetirse. Sin ir m´s all´ de lo que ellos sugieren. la apuesta promedio. Pero ahora no o es necesario suponer que haya una sucesi´n de repeticiones independientes (t´rmino o e dif´ de definir formalmente. . constante. Notemos que o a cualquiera sea esta composici´n de lugar. = π(6) = 1/6.

y (pn )n=1.2.1 Probar que toda probabilidad satisface las siguientes propiedades: (p’1 ) P(∅) = 0. .. An . Caba˜a. . A). A.2.2. entonces se cumple ∞ P( n=1 An ) = ∞ P(An ). es una sucesi´n de sucesos disjuntos. Si Ω = {ω1 . .. o Definici´n 1. ..8 Enrique M. Ejercicio 1. B. . A).2. entonces se cumple P ( n Am ) = n P(Am ).. . Dado un espacio probabilizable (Ω.. mostrar que . es una sucesi´n de o ∞ n´meros no negativos tal que n=1 pn = 1. mostrar que aP + bQ tambi´n es una probabilidad para cualquier par de n´meros e u no negativos a y b que satisfagan a + b = 1. 1.<ik ≤n P(Ai1 ∩ Ai2 ∩ .2.2. . donde P es una probabilidad en (Ω.. son sucesos arbitrarios. (p5 ) P(A ∪ B) = P(A) + P(B) − P(A ∩ B). .2 Probar por inducci´n completa la siguiente generalizaci´n de la o o propiedad (p5 ) del ejercicio precedente: Para cualesquiera sucesos A1 . A) a una funci´n P : A → R+ que satisfaga o (p1 ) P(Ω) = 1 o (p2 ) Si (An )n=1. n=1 Definici´n 1..n es una familia finita de sucesos disjuntos. P). .4 Si A. n Cap´ ıtulo 1: Probabilidad. A = 2Ω es la familia de todos los subconjuntos de Ω. ω2 . Ejercicios Ejercicio 1. Ejercicio 1..2..1 . o se llama espacio de probabilidad.3 Si P y Q son dos probabilidades definidas en un mismo espacio. Ejemplo. A).2 La terna (Ω.} es un conjunto numerable.. ∩ Aik ) i=1 k=1 Ejercicio 1. entonces P(A) = ωn ∈A pn es una u probabilidad en (Ω.. C. .3 Definici´n de probabilidad. A2 .2.2. m=1 m=1 c ) = 1 − P(A) (p ) P(A 3 (p4 ) A ⊂ B ⇒ P(A) ≤ P(B).2. . (p’2 ) Si (Am )m=1. . la probabilidad de la uni´n puede calo cularse mediante la f´rmula: o P( n Ai ) = n (−1)k+1 1≤i1 <. ωn . .. llamamos probabio lidad en (Ω.

3. o c En efecto. Como los Cn son disjuntos. o verificar que ∞ i=1 Ei se puede escribir como una uni´n disjunta en la forma o ∞ ∞ Ei = i=1 i=1 (Ei \ Ei−1 ). Por lo tanto. o (i) Si (An )n=1.2. es una sucesi´n decreciente de sucesos.1 (Continuidad de la probabilidad). por n=1 n=1 ∞ (i). n→∞ o (ii) Si (Bn )n=1.6 Dada una sucesi´n creciente de sucesos: ∅ = E0 ⊂ E1 ⊂ E2 ⊂ . . si vale (i) y (Bn )n=1. (b) P(A ∪ B ∪ C) ≥ P(A) ∨ P(B) ∨ P(C). y P ∞ An = ∞ P(Cm ). De ı manera an´loga se muestra que (ii) implica (i).5 Un dado est´ cargado de modo que la probabilidad de cada cara a es proporcional al n´mero indicado en la cara.2. n = 2. Adem´s se verifica que a An = n Cm y que ∞ An = ∞ Cn .entonces ∞ P n=1 Bn = lim P(Bn ). Observemos en primer lugar que (i) y (ii) son equivalentes.2. 2 m=1 El enunciado del Teorema 1. entonces (Bn )n=1... . porque cuando (An ) o .. a Para probar (i) definimos Cn = An \ An−1 .2. . es una sucesi´n creciente de sucesos. y C1 = A1 de manera que los sucesos (Cn )n=1. P(An ) n=1 n=1 m=1 = n P(Cm )... es decreciente.. son disjuntos.1 podr´ haberse escrito en la forma: Para toda sucesi´n ıa o mon´tona de sucesos (An ). Cu´l es la probabilidad de que al u a arrojarlo.2..2.2. . y P ∞ Bn = 1−P( n=1 Bn )c = 1−P( ∞ Bn ) = 1−limn→∞ P(Bn ).. se cumple lim P(An ) = P(lim An )... Teorema 1.. se cumple ∞ P n=1 An = lim P(An ). es cre∞ c c ciente. o 1. n→∞ Demostraci´n... P ∞ An = n=1 m=1 n=1 m=1 limn→∞ n P(Cm ) = limn→∞ P(An ). . 9 Ejercicio 1.2. De aqu´ resulta P( n=1 Bn ) = 1−limn→∞ (1 − P(Bn )) = limn→∞ P(Bn )...2. se obtenga un resultado par? Ejercicio 1..2..Introducci´n a la probabilidad. Probabilidad (a) P(A ∩ B ∩ C) ≤ P(A) ∧ P(B) ∧ P(C).

3 La definici´n cl´sica de la probabilidad. . A2 . Decimos que (An ) tiene l´ ımite cuando lim sup An y lim inf An coinciden. . 1. lim An = n=1 An .. An } es una partici´n de Ω (es decir. . 1lim inf An = lim inf 1An . . dejamos a cargo del lector verificar que las definiciones de lim sup y de lim inf de conjuntos podr´ haberse hecho de la siguiente manera equivalente: Si ıan 1 si ω ∈ A designamos por 1A a la funci´n indicatriz de A.3. lim inf An = {ω : lim inf 1An = 1}. . y queremos determinar la probabilidad del suceso obtenido por la uni´n de algunos de ellos. ∞ que pueden adoptarse como definici´n de l´ o ımites de sucesiones de conjuntos a partir de los l´ ımites de las sucesiones de sus funciones indicatrices. hay una amplia o o variedad de situaciones que pueden modelarse mediante un esquema en el que el Teorema 1. como lo sugieren los ejercicios siguientes. entonces. Estas corresponden al contexto e relativamente limitado en que podemos identificar una partici´n de Ω en suceo sos equiprobables. si exactamente k de ellos son favorables a cierto resultado. son sucesos disjuntos cuya uni´n es Ω) y se cumple P(A1 ) = P(A2 ) o = . es igual al n´mero u de casos favorables dividido por el n´mero de casos posibles. llamamos l´ o ımite superior de la sucesi´n al o ∞ ∞ ∞ ∞ conjunto lim sup An = n=1 m=n Am . y l´ ımite inferior a lim inf An = n=1 m=n Am .1 Si {A1 . definimos lim An = lim sup An = lim inf An .1 no ofrece dificultades especiales. A1 . o . Su o principal inter´s se debe a sus aplicaciones. Caba˜a. An . .1 es aplicable. ∪ Ak ) = k/n. es decir. . n Cap´ ıtulo 1: Probabilidad. o a Teorema 1. a Finalmente. es decir. Resulta inmediato verificar que cuando (An ) es mon´tona. . entonces se cumplen las igualdades. El mismo resultado suele expresarse diciendo que. =P(An ). A pesar de esta limitaci´n. la probabilidad de este resultado es k/n. y en ese caso. 1A (ω) = o 0 si ω ∈ A.3. 1lim sup An = lim sup 1An .10 ∞ Enrique M.2. Las dos definiciones precedentes de l´ ımite de sucesiones mon´tonas de conjuntos o son coherentes con las siguientes: Para cualquier sucesi´n de conjuntos (An ). se define lim An = n=1 An . Esta observaci´n justifica mejor el nombre de teorema de continuidad para el Teorema o 1.1. .3. . . alguno de los cuales ocurre necesariamente. esta ultima definici´n de o ´ o l´ ımite coincide con la del p´rrafo anterior. es creciente. M´s precisamente: a lim sup An = {ω : lim sup 1An = 1}. u La demostraci´n del Teorema 1. entonces P(A1 ∪ A2 ∪ . y cuando es decreciente. cuando hay n sucesos igualmente probables y mutuamente excluyentes. A2 .

3. ¿ Cu´l es la probabilidad de que no a haya dos iguales? Ejercicio 1. Cada caballo tiene la misma probabilidad de ganar una carrera. ¿ cu´l es la probabilidad a de que exactamente una caja quede vac´ ıa? Ejercicio 1.1.6 Se busca una determinada ficha de un mazo de n. en cambio. Para encontrarla.3.7 Se corren seis carreras. que cualquier otro de los que corren en ella. (a) Calcular la probabilidad de obtener el mismo resultado las tres primeras veces (es decir.3. u Ejercicio 1. .Introducci´n a la probabilidad.3. de modo que se coloca una bola en cada caja.3. en N cajas. ¿ Cu´l es la probabilidad de elegir a los ganadores? a .2 Se arrojan repetidamente dos dados perfectos y se observan las sumas sucesivas S1 . por supuesto. y que. que ha sido mezclado. La definicion clasica de la probabilidad.3. Ejercicio 1. a la validez del a modelo. (b) Calcular la probabilidad del suceso S1 < S2 < S3 . . S1 = S2 = S3 ). Se eligen al azar un caballo de cada carrera. en la caja n´mero 4 no est´ u u e la bola n´mero 4? (N ≥ 4). en cada una de las cuales participan diez caballos. (c) Generalizar (a) y (b) al caso en que se consideran los N primeros resultados en vez de los tres primeros.4 Si m bolas se colocan al azar en n cajas.5 ¿ Cu´l es la probabilidad de que en un grupo de r personas elegia das al azar. Ejercicio 1. haya por lo menos dos que cumplan a˜os el mismo d´ n ıa? Ejercicio 1. . ¿ Cu´l es la probabilidad de que en las cajas n´meros 1 y 2 se coloquen las bolas a u con n´meros 1 y 2 respectivamente.3. 11 Ejercicios En cada uno de los enunciados que siguen se plantean situaciones para cuya soluci´n es posible plantear un modelo para la aplicaci´n del Teorema 1.3 Se eligen n d´ ıgitos al azar.1 Se distribuyen al azar N bolas numeradas de 1 a N . o ´ ´ 1. o o La validez de los resultados estar´ condicionada.3. se examinan las fichas una a una hasta que la ficha buscada aparece. S2 .3. ¿ Cu´l es la probabilidad de tener que examinar j fichas? a Ejercicio 1.

Caba˜a. El llamado ”´ ltimo a ıa u u Teorema de Fermat” que expresa que la ecuaci´n diof´ntica xn + y n = z n o a no tiene ra´ ıces para n > 2. el 17 de agosto de 1601. sin duda. a Fermat.1557). Se suele establecer como comienzo del c´lculo de probabilidades. γ = a+b+c ? Ejercicio 1. que manifest´ haber demostrado en una nota o escrita al margen de un texto.1642). Aunque o era abogado y funcionario del gobierno.2. Se le pide que ponga en correspondencia cada pregunta con su respuesta.1500 . Ejercicio 1.1995 como o ıas resultado de la aplicaci´n de teor´ muy elaboradas. especialmente a la teor´ de n´ meros. deben su surgimiento al prop´sito de demostrar el ”Teorema de o Fermat”. pero cuya demostraci´n nunca se conoci´.8 En la ciudad circulan a billetes de una serie que llamaremos A. . ¿ Cu´l es la probabilidad de que acierte a alguna. N1. si contesta al azar? Se sugiere utilizar la f´rmula establecida en el Ejercicio o 1.. tenga alg´n billete de cada serie? u ¿ Es posible responder la misma pregunta si en vez de conocer el n´mero de u a billetes de cada serie que circulan se conocen las proporciones α = a+b+c . Naci´ en Beaumont de Lomages. se le recuerda por sus contribuciones a la matem´tica. fue o o un desaf´ para quienes intentaron demostrarlo durante m´s de trescientos ıo a n o e a˜os desde entonces.12 Enrique M. los primeros en ocuparse en formalizar aspectos relativos a este tema.Los comienzos del c´lculo de probabilidaa des. Pierre de (1601-1665). al resolver problemas a planteados por juegos de azar. el intercama bio de correspondencia entre Fermat y Pascal referente a juegos de azar. en correspondencia intercambiada entre ambos. algunas de las cuales. §1. Cardano (1501 1576) (a quien se remonta el c´lculo de probabilidades mediante la ”definici´n a o cl´sica”.3.9 En un examen se le entregan a un estudiante n preguntas y se le entregan de manera desordenada las n respuestas. No fueron ellos. ´ El y Blaise Pascal. sin embargo. Tartaglia (ap.3. n Cap´ ıtulo 1: Probabilidad. Francia. La demostraci´n reci´n se obtuvo en 1993 . β = b c a+b+c .3) y Galileo Galilei (1564 . y entre sus predecesores se encuentran Fra Luca Pacioli (aproximadamente 1445 . establecieron las bases del c´lculo de probabilidades.2. b de una serie B y c de una serie C. ¿ Cu´l es la probabilidad de que una persona a que tiene cinco billetes.1517).

Invent´ la pascalina. o 1.. Etienne Pascal.Fermat. 13 Pascal. o a Junto con Fermat. Naci´ en Clermont. y la geometr´ a a ıa proyectiva. resolviendo problemas planteados o a por la pr´ctica de los juegos de azar. le dio una o educaci´n poco ortodoxa.Introducci´n a la probabilidad. Blaise (1623-1662). Francia. Pascal. estableci´ las bases del c´lculo de probabilidades. a . Auvergne. aunque pretendi´ mantenerlo alejado de la matem´tica durante sus primeros o o a a˜os de estudio. N1. la hidrodin´mica. Sus principales contribuciones las hizo en al campo de la hidrost´tica. ´l redescubri´ por s´ mismo algunos resultados de la geometr´ n e o ı ıa. primera calculadora decimal mec´nica. y. Su padre. el 19 de junio de 1623.

n Cap´ ıtulo 1: Probabilidad. .14 Enrique M. Caba˜a.

A un jugador que ignore el resultado de la primera vez que se ha arrojado la moneda.5. luego de saber que A ocurre.5. Consideremos un ejemplo. sin que resulte m´s veros´ a ımil que la moneda retirada sea una o la otra. lo que le lleva a pagar 0 por intervenir a en el juego.2. no 15 . y entonces es seguro que no ocurrir´ B. Consecuentemente. le resulta equitativo pagar 0. Supongamos asimismo que la otra moneda tiene una propiedad an´loga.dentro de nuestro modelo subjetivo. las dos monedas o son equivalentes. Si en cambio p es 0. o. la probabilidad de que salga cruz es 1 − p. Modifiquemos ahora nuestro ejemplo de la manera siguiente. la composici´n de lugar del jugador sobre esa o moneda lo llevar´ a pagar p por intervenir en el juego en que recibe 1 si al arrojar ıa la moneda sale cara. Si p es 1. Probabilidades condicionales. con la informaci´n que posee o a priori. se repite la situaci´n descrita arriba. Se retira una de ellas de la caja. de qu´ o e manera. Luego se vuelve a arrojar. y se ofrece apostar a que en esta segunda oportunidad salga cruz. que resulta equitativo pagar π(B) por obtener premio 1 cuando B ocurre. Cualquiera que sea la elegida. la llamaremos π(B|A). de modo que conocer si A ocurre o no. Llamemos A al suceso que consiste en que sale cara. o la que tiene dos cruces. y se arroja sobre la mesa. es porque la moneda que se extrajo es la que tiene dos caras. De otra modo: nos preguntamos si π(B|A) difiere de π(B). Sin embargo.5 por intervenir en el juego en que recibe premio 1 cuando ocurre B. Supongamos que en una caja se han guardado dos monedas. D´mosle ahora al jugador la informaci´n adicional de que A ocurre. Una de ellas tiene dos caras. lo que es lo mismo . ya que es igualmente plausible que la moneda extra´ sea la que tiene dos caras. A la nueva e o cantidad que considera equitativo pagar para obtener premio 1 cuando ocurre B. y en caso afirmativo. o Vamos a retomar el modelo de 1. suceso que llamaremos B. es claro ıda que si sabe que A ha ocurrido. la probabilidad de que en la segunda instancia en que se arroja salga cara es 0.y lo que precede es una manera abreviada de decirlo . Consideremos un experimento con resultados posibles A y B y supongamos que un jugador estima.2. Supongamos que una de las monedas ha sido trucada de modo que la probabilidad de que al arrojarla salga cara es p. Resulta razonable plantearse si esta informaci´n nueva lo induce a cambiar su apuesta. pero ahora a es 1 − p la probabilidad de que salga cara y p la de que salga cruz. y la otra dos cruces. 2.2.1 Interpretaci´n intuitiva.

Supongamos por a˜adidura que el premio en esta segunda instancia es 1. en el momento de preguntarse hasta cu´nto est´ dispuesto a pagar al apostar por B. que llamaremos apuesta combinada: Se apuesta por un cierto resultado A. el jugador debe considerar. Caba˜a. y cuando p = 0. Dado que pagar´ π(A) por obtener premio 1 si ocurre A. se deduce e que estar´ dispuesto a pagar π(A ∩ B). M´s adelante. si ´ste se produce. una vez introducidos algunos elementos que facilitar´n el c´lculo. y. cualquiera sea p. u sin saber si A ocurre o no. Pero cuando p = 1. ya que ıa la situaci´n es similar.16 Enrique M.5. y a a a a 0. de modo que la a e apuesta combinada ser´ π(A)π(B|A). Esto es lo que debe obtener como ganancia de su primera apuesta. Es de esperar entonces que π(B|A) var´ continuamente con o ıe p recorriendo valores que van de 0 a 0. est´ dispuesto a pagar ı ıa a π(B|A). por analog´ con el primer caso. o Consideremos ahora una forma particular de apuesta. cuando p = 0.5. π(B|A) = 0. como antes. En todos los casos. n Por una parte.5.5. n Cap´ ıtulo 2: Probabilidades condicionales servir´ para modificar la composici´n de lugar respecto del resultado de la segunda a o instancia. para multiplicar el premio por ıa π(B|A) multiplicar´ tambi´n su apuesta por el mismo coeficiente. a Por otra parte. cuando p va de 1 a 0. dado que s´lo obtiene la ganancia 1 cuando ocurre A (para poder o continuar apostando) y tambi´n B (para ganar en la segunda apuesta). que A ha ocurrido. al apostar por B con la informaci´n de que A ha ocurrido (tiene o que haber ocurrido. π(B|A) = 0.5 y nuevamente a 0. Parece razonable que el efecto del par´metro p sea continuo. pues de no ser as´ no estar´ apostando). se invierte la e ganancia en apostar a otro resultado B. dado que a a o s´lo en este caso tiene efecto su segunda apuesta. propondremos como ejercicio encontrar π(B|A) en funci´n de p. a π(B) = 0. π(B|A) = 0. . a De los dos p´rrafos anteriores resulta que debe cumplirse a π(A ∩ B) = π(A)π(B|A). λπ(A) ¨r ıE E ¨¨A? rr s´ λ = π(B|A) ¨ r r ¨¨ r no c 0 π(A)π(B|A) ¨r ıE E ¨¨B? rr s´ 1 ¨ r ¨ rr¨ no c 0 = ¨r r ıE E ¨¨ B? r s´ 1 A ¨ r ∩ ¨ r ¨ r no c 0 Vamos a analizar c´mo puede decidir un jugador cu´nto est´ dispuesto a pagar para o a a intervenir en un juego en que apuesta por A e invierte su ganancia en apostar por B. Cuando esto es as´ a´n antes de jugar y ı.

1 Dado un espacio de probabilidad (Ω. . ∩ An ) = 6 P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) . En o efecto. . A. se define la funci´n P(·|A) : A → R+ de la siguiente o manera: P(B|A) = P(A ∩ B)/P(A). 2.2. .2 Definici´n de la probabilidad condicional. o ´ 2. y que la restricci´n de P(·|A) a AA es tambi´n una probabilidad. entonces P(A|D) ≤ P(B|C). Definicion de la probabilidad condicional. o Ejercicios. o e Ejercicio 2. Con las notaciones que estamos utilizando. .2. P(·|A)) es un nuevo espacio de probabilidad.) (p6 ) P(A1 ∩ A2 ) = P(A1 ) P(A2 |A1 ) (p′ ) P(A1 ∩ A2 ∩ . (Se supondr´ P(A) > 0). ∩ An−1 ) Ejercicio 2. P(An |A1 ∩ A2 ∩ . B es independiente de A cuando π(B|A) = π(B).2 Probar la siguiente regla de multiplicaci´n de probabilidao des.1 (i) Verificar que (Ω.3 Verificar (i) P(A|B ∩ C)P(B|C) = P(B|A ∩ C)P(A|C) (ii) Si A ⊂ B ⊂ C ⊂ D. . .2. Ejercicio 2. o Definici´n 2. P). y un suceso A o tal que P(A) > 0. los sucesos condicionantes tienen probabilidad positiva. Dicha funci´n se llama probabilidad condicional dado A. diremos que B es independiente de A. 17 Observemos finalmente que las consideraciones anteriores conducen a una formalizaci´n del concepto de independencia. (Se supondr´ en lo que sigue que las probabilidades condicionales est´n definia a das.2. hasta ahora manejado de manera informal. A.2. a (ii) Verificar que AA = {A ∩ B : B ∈ A} es una σ-´lgebra de subconjuntos de a A.Introducci´n a la probabilidad. si la informaci´n sobre la ocurrencia de A no cambia la confianza en la ocuro rencia de B. La probabilidad condicional y la independencia de sucesos se introducen formalmente en las definiciones que siguen. es decir. .

porque tiene sentido a´n cuando A y/o B tienen probabilidad a u cero. cuando o Definici´n 2. al ser arrojada. . . an´logamente a B independiente de A cuando P(B|A) = P(B). Una de las monedas. El resultado de arrojar la otra es cruz con probabilidad p y cara con probabilidad 1−p.4 Se elige una de dos monedas. los sucesos que consisten en que la primera vez el resultado es cara. {A. C} lo sea necesariamente.5.3. B. n}.3. C}. B}. . pero no la evitaremos en lo que sigue. . Esta forma de expresi´n puede prestarse a o confusi´n. n Cap´ ıtulo 2: Probabilidades condicionales Ejercicio 2.1 Se dice que los sucesos A. 2. . es habitual decir que los sucesos son independientes. con iguales probabilidades 0. Calcular la probabilidad de B dado A en funci´n o de p.1 (Para o verificarlo basta recurrir a la definici´n de probabilidad condicional).3.18 Enrique M. Definici´n 2.2. sin que {A. ı Para referirse a un conjunto independiente de sucesos. 0. respectivamente. De acuerdo a los comentarios previos a la Definici´n 2. e Ejercicios. . An } es un conjunto o independiente de sucesos. 2. resulta en cara con probabilidad p y en cruz con probabilidad 1 − p. P(A ∩ B) = P(A)P(B). B son independientes. La Definici´n o o 2. {B.3 Independencia. . estas dos definiciones son casi equivalentes a la Definici´n 2.1 es m´s general. A2 . A y B son. Caba˜a.2 Se dice que el conjunto {A1 . .3.3. y.5 para cada una de ellas. C} pueden ser conjuntos independientes. en la medida que el contexto o indique qu´ es lo que se quiere expresar.1. Sin embargo. con independencia entre los resultados de una y otra instancia. cuando P( j∈J Aj ) = j∈J P(Aj ) para cualquier subconjunto de ´ndices J ∈ {1. y en que la segunda vez es cruz.3. Se arroja dos veces la moneda elegida. .1 Mostrar por medio de un ejemplo que {A. Ejercicio 2. corresponder´ definir de o ıa manera asim´trica e A independiente de B cuando P(A|B) = P(A).

3.2 Se lanzan tres dados simult´neamente. . . 1. 1. dado que ocurri´ al menos un 5 en los n lanzao mientos.3. o 2. . (c) la bola #2 resulte colocada en la caja #2 dado que la caja #1 result´ o ocupada por la bola #1.3.6 Mostrar que los dos experimentos siguientes son equivalentes: (1) De un mazo de n cartas se extrae una carta de modo que la probabilidad de cualquiera de las cartas del mazo es la misma. T2 . dado que ocurri´ al menos un 5 en los primeros m lanzamientos. Luego una tercera en las mismas condiciones. El resultado ı ıdo del experimento es el conjunto desordenado de las m cartas extraidas. o Ejercicio 2.3 Se lanza una moneda sucesiva e independientemente. (b) la bola #2 resulte colocada en la caja #2 dado que la caja #1 result´ o desocupada. n0 .3. Calcular: a 19 (a) la probabilidad de obtener un 6. ¿Cu´l es la probabilidad de que ocurran cuatro caras antes que cinco cruces? a Ejercicio 2. Luego se extrae una segunda carta de modo que la probabilidad de cualquiera de las restantes cartas es la misma. Probar que para cualquier n0 y n = 0..3. dado que no hay dos resultados iguales.Introducci´n a la probabilidad. La probabilidad de que ocurra cara en un lanzamiento es p. entonces P(B|A) > P(B). Ejercicio 2. Independencia. 2. . de modo que cualquiera de las combinaciones posibles tenga la misma probabilidad. y as´ sucesivamente hasta haber extra´ m cartas. (c) idem. . independientemente. Ejercicio 2. . (2) Se extraen al azar m cartas del mazo. Calcular las probabilidades de los siguientes sucesos: (b) obtener al menos dos 5. de modo que P(T1 = n) = P(T2 = n) = p(1 − p)n (n = 0. y la de que ocurra cruz es 1 − p. Se lanza ahora un dado n veces. se cumple P{T1 = n|T1 + T2 = n0 } = 1/(n0 + 1). sucesiva e independientemente. Ejercicio 2.).7 Se eligen dos enteros no negativos T1 .3.5 Se distribuyen al azar k bolas (numeradas de 1 a k ) en 2k cajas (numeradas de 1 a 2k ). . .4 Probar que si P(A|B) > P(A). de modo que cada caja contiene a lo sumo una bola. . Calcular las siguientes probabilidades: (a) la caja #1 resulte ocupada.3. n m Ejercicio 2.

Para incluirlos puede considerarse. U2 .). que no es otra que el algebra formada por ´ las uniones de sucesos elegidos entre los 2n sucesos elementales de la forma ´ {Ui = ui : i = 1.2. 2. Repitamos el experimento hasta que ocurra A por primera vez. n} con ui = 0 o 1. Suponemos que en cada oportunidad. u o o Llamemos X al n´mero cuya expresi´n en el sistema de numeraci´n binaria es 0. . . . . U3 .8 Se arroja sucesivamente una moneda y se describen los resultados por medio de los n´meros U1 . . que puede repetirse indefinidamente.20 Enrique M. En esa oportunidad nos fijamos si ocurri´ B y en tal caso decimos que ocurri´ el suceso “B|A ”.}. . . .4 Una interpretaci´n objetiva para la proo babilidad condicional. Un . y en caso contrario. que involucran a todos los Ui . (j ≤ k ≤ 2n ). . n} con ui = 0 o 1. . . o bien. . . X = ∞ 2−n Un . n Cap´ ıtulo 2: Probabilidades condicionales Ejercicio 2. . 2. . . Un para un valor fijo de n. . la probabilidad de obtener cara es 1/2. o o Supongamos un experimento en el que pueden obtenerse resultados A. Un = 0. P(X = 1). y que las sucesivas replicaciones son independientes. . . de manera equivalente. 2. 2. para cada n. Si llamamos abreviadamente A∗ =“A ocurre por primera vez en la n-´sima e n repetici´n”. .3.. Cuando en la n−´sima replicaci´n el u e o resultado es cara. o ´ 2. . entonces “B|A” = o e o ∞ o A∗ ∩ Bn .1 indica que la extensi´n es posible y unica. . de manera independiente. P(X = 0). y i=1 extender la probabilidad a la m´ ınima σ-´lgebra que contiene todas las An (n a = 1. ponemos Un = 1. P(j2−n ≤ X ≤ k2−n ). .. . n n=1 n Por la independencia de las repeticiones. 2. B. por ejemplo. el ´lgebra An de todas las uniones finitas a de {Ui = ui : i = 1.U1 U2 U3 . Caba˜a. . . Esto no basta para incluir resultados del tipo de {X = 1} = {Ui = 1 : i = 1.. n} = n P{Ui = ui }. . Podemos ahora reinterpretar la probabilidad condicional. el suceso Cn que consiste en que A no ocurre en ninguna de las primeras n − 1 repeticiones tiene probabilidad . Nota: Cada uno de los resultados que especifican exclusivamente los valores de U1 .. corresponden a sucesos en la σ-´lgebra a generada por {Ui = 1}i=1.n . . y la uni´n es disjunta pues lo son los A∗ . Tenemos as´ o o ı una descripci´n expl´ o ıcita de la ocurrencia de B condicionada a que se sabe que ocurre A. .. y Bn =“B ocurre en la n-´sima repetici´n”. Calcular n=1 P(X ≥ 1/2). a partir de la consideraci´n de una sucesi´n de repeticiones independientes de un experimento. en la que la probabilidad de ´ cada resultado elemental es P{Ui = ui : i = 1. El Teorema 3.

5. B2 .5.5 El Teorema de Bayes. El suceso Dn que consiste en que A y B ocurren en la n´sima repetici´n tiene probabilidad P(A ∩ B). .10. Por la definici´n de probabilidad condicional. Ejercicio 2.. y dado que no la padece. 2. Basta entonces verificar que P(A) = n P(Bh )P(A|Bh ). P(Bh )P(A|Bh ) Demostraci´n. . la probabilidad condicional de cada uno de o los Bj dado A se calcula mediante la f´rmula o P(Bj |A) = n h=1 P(Bj )P(A|Bj ) . El Teorema de Bayes. 2 h=1 Ejercicios. ¿Cu´l a es la probabilidad de que un fumador padezca la mencionada afecci´n card´ o ıaca? Ejercicio 2. Teorema 2.40. .5.1 De un estudio cl´ ınico se han concluido los siguientes resultados: La probabilidad de que una persona extra´ al azar de la poblaci´n tenga cierta ıda o afecci´n card´ o ıaca es 0. y esto es debido a que A se h=1 puede descomponer como uni´n disjunta de los sucesos Bj ∩ A(j = 1.10. . Bn . la probabilidad de que fume es 0. podemos eso o cribir P(Bj |A) = P(Bj ∩ A)/P(A). . o 2. la probabilidad de que fume es 0. . y supongamos que tambi´n se e conocen las probabilidades condicionales de un suceso A dados cada uno de los sucesos de la partici´n.2 Repetir el ejercicio anterior con los datos ligeramente modificados: La probabilidad de que una persona extra´ al azar de la poblaci´n tenga cierta ıda o afecci´n card´ o ıaca es 0. y P(Bj ∩ A) = P(Bj )P(A|Bj ).002.5. n).40. n−1 21 (1 − P(A)) . dado que padece esa afecci´n. Entonces. n De aqu´ resulta ı ∞ ∞ P(“B|A”) = n=1 P(A∗ ∩ Bn ) = P(A ∩ B) n n=1 (1 − P(A))n−1 = P(A ∩ B)/P(A). de modo que se cumple ´ P(A∗ ∩ Bn ) = P(A ∩ B)(1 − P(A))n−1 . 2. la probabilidad de que o fume es 0. como era de esperar.1 (de Bayes) Supongamos dada una partici´n de Ω en sucesos o B1 .002.Introducci´n a la probabilidad. . El suceso A∗ ∩ Bn coincide e o n con Cn ∩ Dn pero estos ultimos son independientes. o de modo que P(A) = n P(Bj ∩ A). de probabilidades conocidas. . la probabilidad de que fume dado que padece la enfermedad es 0.

6. Con s = h1 + . . 10} = 0. Caba˜a. ¿Qu´ deber´ e ıamos responder a la misma pregunta.95)s−10 (0. .8)s−10 (0. A y B. la probabilidad de que q valga 0.95 errar´ ıamos con probabilidad 0. .6 Dos ejemplos de aplicaci´n estad´ o ıstica del Teorema de Bayes. H2 = h2 . que la probabilidad de que un aspirante -no importa su califio o caci´n.05.95 es 30/100 = 0. +h10 . para minimizar la probabilidad de error. o De las 100 cajas. la que resulta relevante.. es 0. i = 1.. elegiremos la respuesta m´s a probable. basada en la informaci´n proporcionada por un exo o perimento. que ser´ 0.provenga de ese instituto es 0. . . ni las cajas ni las piezas que contienen poseen indicios que permitan saber cu´l fue el procedimiento de elaboraci´n. de modo que debe ser reemplazada con frecuencia.35. de acuerdo a la capacidad demostrada durante un primer mes de trabajo a prueba.sea calificado A. Vamos a considerar situaciones en la que el Teorema de Bayes nos ayudar´ a a adoptar una decisi´n. ya que si respondi´ramos ıa e 0. mientras que las restantes 70 se prepararon mediante un procedimiento “B” y tienen q = 0.95)s−10 (0. deber´ e a ıamos decir que vale 0. . A partir de estos datos. .8. Ejemplo 2. h = 1.3(0. . . con P{H = h} = q h−1 (1 − q).1 Supondremos que cierto mecanismo posee una pieza que es sometida a un intenso esfuerzo cada vez que se acciona.. Las duraciones de estas piezas son independientes con la distribuci´n indicada. La experiencia muestra que puede suponerse que la probabilidad de que un aspirante que termina por ser clasificado A provenga de cierto instituto de formaci´n es 0.95|Hi = hi . cuyas duraciones resultan ser H1 = h1 .7(0. . y utilizados 10 de los repuestos. 2.5.3 Los aspirantes a ocupar cierto empleo se clasifican en dos categor´ ıas. Sin embargo. 30 fueron elaboradas con un procedimiento “A” que produce un valor de q = 0. Esto justifica de por s´ el t´ ı ıtulo aplicaci´n estad´stica ya que la o ı estad´ ıstica matem´tica tiene por objeto.3(0. .2)10 . . H10 = h10 ? Nuevamente. la aplicaci´n de modea o los probabil´ ısticos a la toma de decisiones en base a informaci´n emp´ o ırica. precisamente.25 (esto a veces se formula expresando que el 35% de los clasificados A y el 5% del total de los aspirantes provienen del mencionado instituto. H10 = h10 . . ¿Cu´l es la probabilidad de que un aspirante proveniente del a instituto en cuesti´n sea clasificado A? o 2. y por a o consiguiente cu´nto vale q. y que la probabilidad de que un aspirante -no importa de donde venga.95. P{q = 0. Cada repuesto es utilizable H veces. una vez abierta la caja. y que el 25% de los aspirantes son clasificados A).05)10 + 0.7. . . pero ahora es la probabilidad condicional dadas H1 = h1 .8.3.22 Enrique M. n Cap´ ıtulo 2: Probabilidades condicionales Ejercicio 2. a Si extraemos una caja al azar. En un dep´sito hay 100 cajas de 150 repuestos cada o una.05)10 0.3. para minimizar la probabilidad de equivocarnos. Si estuvi´ramos obligados a responder cu´nto vale q.

3 0. (b) que la incidencia de esas enfermedades en la poblaci´n formada por los pacientes o que concurren a la cl´ ınica es de. 1%.8 0. y no cada una de las duraciones individuales. al responder q = 0.6.5% y 0. como suele denominarse a las probabilidades condicionales dada la informaci´n relativa a los diez primeros repuestos utilizados.1%. .2 Un m´dico es consultado por un paciente y encuentra que ´ste e e presenta ciertos s´ ıntomas. 0.95 del Ejemplo 2.1: Probabilidad a posteriori del suceso q = .1 0 70 75 80 85 90 95 100 105 110 115 120 Figura 2.4.6.2 0.7 0.Introducci´n a la probabilidad. respectivamente.6 0. p3 = 1. y que la eventualidad de que un paciente padezca a la vez dos de esas enfermedades es descartable. Se observar´ que s´lo o a o resulta relevante en los resultados. la suma de las duraciones de los repuestos.6.1. donde p1 = . en cambio.5 0.4 0. y (c) que la probabilidad de que un enfermo de Ei presente los mencionados s´ ıntomas es pi . o Ejemplo 2.9 0.7. o 2.95 con confianza de que se errar´ la resa puesta con probabilidad inferior a 5%. El Teorema de Bayes.8 la probabilidad de errar es tambi´n inferior a 5%. en funci´n de la suma s de las duraciones de los primeros diez repuestos utilizados. 1 0.1. y si s ≤ 78. E2 y E3 . En ambos casos se trata de probabie lidades a posteriori. p2 = . 23 y esta expresi´n var´ con s como lo indica la Figura 2. El conocimiento general de medicina que posee el m´dico e le permite saber (a) que esos s´ ıntomas s´lo aparecen eventualmente en pacientes que hayan contraido o alguna de las enfermedades E1 . Esa misma figura muestra o ıa que para s ≥ 113 se puede responder q = 0.

24

Enrique M. Caba˜a. n Cap´ ıtulo 2: Probabilidades condicionales
Con esa informaci´n, ¿en cu´nto estima el m´dico la probabilidad de que el paciente o a e en observaci´n est´ enfermo de E1 ? o e El m´dico ya sabe que la probabilidad de que el paciente est´ aquejado de E1 es e e 2%, desde el momento que llega a ser atendido. Lo que debemos respondernos es c´mo cambia su composici´n de lugar la informaci´n resultante de su examen, que o o o le dice que el paciente posee los s´ ıntomas en cuesti´n. En otras palabras, cu´l es la o a probabilidad condicional de que el paciente est´ enfermo de E1 dado que posee los e s´ ıntomas. La respuesta es el cociente entre la probabilidad de que posea los s´ ıntomas y est´ e enfermo de E1 , y la probabilidad de que posea los s´ ıntomas, es decir, 0.01 × 0.7 = 0.7. 0.01 × 0.7 + 0.005 × 0.4 + 0.001 De la misma manera, el m´dico puede calcular las probabilidades a posteriori de que e el paciente padezca E2 (0.2) o E3 (0.1), y estos resultados facilitar´n su decisi´n a o respecto de qu´ aconsejarle, o qu´ informaci´n adicional procurar, mediante nuevos e e o ex´menes, por ejemplo, o mediante la observaci´n de las reacciones del paciente a a o cierta medicaci´n. o

3. Variables aleatorias.
3.1 Introducci´n. o
Vamos a considerar funciones que a cada uno de los estados posibles de la naturaleza hacen corresponder un punto de un conjunto dado E, es decir, funciones de Ω en E. Se utilizan habitualmente para describir alguna caracter´ ıstica de inter´s, repree sentable por un un punto de E. Por ejemplo, si al arrojar un dado nos interesa describir qu´ cara qued´ hacia arriba, podemos hacerlo con una funci´n con valores e o o en {1, 2, 3, 4, 5, 6} o en R, que vale 1, 2, . . . , 6 seg´n el caso. Una descripci´n completa u o de la naturaleza se obtiene, por ejemplo, con E = Ω, y la funci´n identidad. o Recordemos que hemos dado a Ω una estructura de espacio probabilizable dot´na dolo de una σ-´lgebra de subconjuntos A . Convendremos en dar tambi´n a E una a e a estructura de espacio probabilizable, con una σ-´lgebra S, y las descripciones de la naturaleza que haremos por medio de la funci´n X : Ω → E, ser´n las que especifican o a que X toma valores en S, para alg´n S en S. Vamos a exigir que, cualquiera sea S u en S, los acontecimientos {ω : X(ω) ∈ S} sean sucesos, es decir, sean elementos de A. A las funciones de Ω en E que cumplen esta propiedad las llamaremos variables aleatorias.

Definici´n 3.1.1 Dado un espacio probabilizable (Ω, A) se llama variable o aleatoria en (E, S) a una funci´n X : Ω → E tal que la preimagen de todo o conjunto S de S es un suceso. Para indicar que X es una variable aleatoria de (Ω, A) en (E, S), puede escribirse X : (Ω, A) → (E, S). a En particular, cuando E sea R y no se indique lo contrario, se convendr´ en tomar como σ-´lgebra S, la de Borel, descrita en el Ejercicio 1.1.8, cuya a definici´n se indica a continuaci´n. o o Definici´n 3.1.2 Llamamos σ-´lgebra de Borel de R a la m´ o a ınima σ-´lgebra a que contiene los intervalos. 25

26

Enrique M. Caba˜a. n Cap´ ıtulo 3: Variables aleatorias.

Nota 1. Cuando se haga referencia a una variable aleatoria real, se sobreentender´ que es una variable aleatoria en (R, B) donde B es la σ-´lgebra a a de Borel de R. Nota 2. A las variables aleatorias del espacio probabilizable (Ω, A) en el espacio probabilizable (E, S), se las llama tambi´n funciones medibles de e (Ω, A) en (E, S), particularmente cuando el contexto en el que se las utiliza no es el de la teor´ de las probabilidades. ıa Ejercicio 3.1.1 Observar que la definici´n de variable aleatoria X : (Ω, A) → o (E, S) es tanto m´s exigente cuanto m´s rica es S, mientras que, cuando S es muy a a reducida, la definici´n es poco exigente. En el caso extremo S = {∅, Ω}, cualquier o o a a funci´n de Ω en E es una variable aleatoria, no impoorta cu´l sea la σ-´lgebra A. Observar tambi´n que ocurre un fen´meno inverso con A: ¿Puede elegirse A e o de manera que cualquier funci´n de Ω en E sea una variable aleatoria? ¿Puede o elegirse A de manera que ninguna funci´n de Ω en E sea una variable aleatoria? Si o la respuesta es afirmativa, indicar c´mo se elige A, y si es negativa, describir cu´l es o a el caso extremo. Ejercicio 3.1.2
{S ⊂ E : una σ-´lgebra. a X −1 (S) (i) Dada una funci´n X : Ω → E, mostrar que la familia SX = o ∈ A} (subconjuntos de E cuya preimagen es un suceso), es

(ii) Verificar que X es una variable aleatoria en (E, SX ). (iii) Mostrar que es equivalente que X : (Ω, A) → (E, S) sea una variable aleatoria, a que S est´ incluido en SX . e a (iv) Mostrar que la familia AX = {X −1 (S) : S ∈ S} es una σ-´lgebra, y que X es una variable aleatoria de (Ω, AX ) en (E, S). (v) Mostrar que es equivalente que X : (Ω, A) → (E, S) sea una variable aleatoria e a que AX est´ incluida en A.

A la familia AX se la llama σ-´lgebra generada por X. De acuerdo a su a construcci´n, es la m´ o ınima σ-´lgebra respecto de la cual X es medible. a Ejercicio 3.1.3 Mostrar que si X : (Ω, A) → (E, S) es una variable aleatoria,
entonces, cualquiera sea la funci´n medible g : (E, S) → (E, S), g ◦ X : (Ω, A) → o (E, S) es una variable aleatoria.

Lema 3.1.1 Una funci´n X : Ω → R es una variable aleatoria (en (R, B)) si o o u y s´lo si para todo par de n´meros reales a, b, el conjunto {ω : a ≤ X(ω) ≤ b} es un suceso.

Introducci´n a la probabilidad. o ´ 3.1. Introduccion.

27

Demostraci´n. Cuando X : (Ω, A) → (R, B) es una variable aleatoria, {ω : o a ≤ X(ω) ≤ b} ∈ A, porque [a, b] es un conjunto de Borel. Rec´ ıprocamente, {ω : a ≤ X(ω) ≤ b} ∈ A implica [a, b] ∈ SX , de modo que la m´ ınima σ-´lgebra a B que contiene a {[a, b] : a, b ∈ R}, est´ en SX y se aplica la proposici´n (iii) a o del Ejercicio 3.1.2. 2 Definici´n 3.1.3 Dada una variable aleatoria X : (Ω, A) → (E, S), la funci´n o o PX : S → R definida por medio de PX (S) = P(X −1 (S)) = P({ω : X(ω) ∈ S}) se llama distribuci´n de probabilidad de la variable aleatoria X. o Teorema 3.1.1 La terna (E, S, PX ) es un nuevo espacio de probabilidad. Demostraci´n. Para demostrar el Teorema hay que verificar que PX cumple o las propiedades (p1 ) y (p2 ) de la Definici´n 1.2.1. o −1 La primera es consecuencia de X (R) = Ω, y la segunda, de que para cada sucesi´n de conjuntos disjuntos (Sn )n=1,2,... en S, se cumple o
∞ ∞ ∞ ∞

PX
n=1

Sn = P X −1
n=1

Sn

=P
n=1

X −1 (Sn ) =
n=1

P(X −1 (Sn )). 2

Definici´n 3.1.4 Se llama funci´n de distribuci´n de probabilidad de una o o o variable aleatoria real X a la funci´n FX : R → R+ definida por FX (x) o = PX ((−∞, x]) = P(X −1 ((−∞, x]) = P({ω : X(ω) ≤ x}). Notaci´n. En lo sucesivo, denotaremos un suceso de la forma o {ω : X(ω) cumple la propiedad “P”}, en la forma abreviada {X cumple la propiedad “P”}. Para recordar el origen de la abreviatura, mantendremos las llaves { }, pero eliminaremos en cambio la menci´n expl´ o ıcita del punto gen´rico ω de Ω. e En particular, escribiremos {X ≤ x} en lugar de {ω : X(ω) ≤ x}, y aligeraremos algo m´s las notaciones, escribiendo P{X cumple “P”} en vez de a P({X cumple “P”}). o o Teorema 3.1.2 La funci´n de distribuci´n de probabilidad FX de una variable aleatoria real X, satisface las propiedades:

si FX es la funci´n de distribuci´n de X. P{a < X < b} = FX (b− ) − FX (a). (d3 ) FX (−∞)(= limx→−∞ F (x)) = 0.2. o 2 Observaci´n. (ii) P{X = x} = FX (x) − FX (x− ). como resulta del c´lculo realizado para la demostraci´n de (d1 ).28 (d1 ) FX es no decreciente. xn ]) n=1 = PX ((−∞.2. y aplicamos el Teorema 1. que pueden o ser salteadas en una primera lectura. Caba˜a. b] en la forma P{a < X ≤ b} = FX (b) − FX (a).1 o a la sucesi´n decreciente de conjuntos de Borel (−∞. se cumplen o o (i) P{a < X ≤ b} = FX (b) − FX (a).1. Si x < y. A partir de la funci´n de distribuci´n de X se calcula la o o o probabilidad de que X pertenezca a un intervalo semiabierto (a. nos damos una sucesi´n decreciente xn → x. xn ]) = PX ( ∞ (−∞. n Cap´ ıtulo 3: Variables aleatorias. o Teorema 3. Para demostrar (d2 ).4 Verificar que. Enrique M. xn ] y a la probabilidad PX o . incluimos en §13. (d2 ) FX es continua por la derecha.1. Ejercicio 3. a o Ejercicios. La demostraci´n de (d3 ) es similar.5 Mostrar que. x]) = FX (x). FX (+∞)(= limx→+∞ F (x)) = 1. Enunciamos a continuaci´n dos teoremas cuyas demostraciones. 3. P{a ≤ X < b} = FX (b− ) − FX (a− ). Ejercicio 3.2 Dos teoremas de existencia. entonces FX (x) = P{X ≤ x} ≤ P{X ≤ x} + o P{x < X ≤ y} = P{X ≤ y} = FX (y). entonces FX ≥ FY .1 Teorema de extensi´n de probabilidades de Kolmogorov. Demostraci´n.1. Obtenemos limn→∞ FX (xn ) = limn→∞ PX ((−∞. (iii) P{a ≤ X ≤ b} = FX (b) − FX (a− ). o ´ Dada una funci´n p en un algebra A0 de subconjuntos de Ω con las propiedades . y esto prueba (d1 ). si X ≤ Y .

2. y publicado las ıa u . cuya restricci´n al algebra es p. N..2.2.2. An .1 En las condiciones del Teorema 3. se cumple p( ∞ An ) = ∞ p(An ). (1903-1987). entonces existe una probabilidad P(F ) en (R. de conjuntos disjuntos en A0 o cuya uni´n tambi´n est´ en A0 . a Naci´ en Tambov (Rusia) en 1903 y muri´ en Mosc´ en 1987. . B. con aportes en muy diversas ramas de la matem´tica. B) tal que F (x) = P(F ) ((−∞. 29 • para cualquier sucesi´n A1 .Kolmogorov.Kolmogorov. x]) = F (x). que expresa lo siguiente: Teorema 3. . P(F ) ) y como variable aleatoria XF : R → R a la identidad. De esta manera su funci´n de distribuci´n en x es P(F ) {XF ≤ x} = P(F ) ((−∞. A2 .2. .Introducci´n a la probabilidad.2 Si F : R → R satisface las propiedades (d1 ). .1 pues basta tomar como espacio de probabilidad (R.1. . N2. • p(Ω) = 1. existe una variable aleatoria XF cuya funci´n de distribuci´n es F . o 3. definida por o ´ P (A) = inf  ∞  j=1 Un cubrimiento disjunto de A en A0 es cualquier sucesi´n disjunta (Aj )j∈N o o de conjuntos contenidos en A0 ..2. A. .1)   El teorema precedente permite concluir un rec´ ıproco del Teorema 3. o e a n=1 n=1 existe una unica probabilidad P en la m´nima σ-´lgebra que contiene al algebra ´ ı a ´ dada. o o Demostraci´n del corolario: La construcci´n de una XF es inmediata a o o partir del Teorema 3. (d2 ) y (d3 ) del enunciado 3. .2. p(Aj ) : (Aj )j∈N cubrimiento disjunto de A en A0  . Andrei Nicolaievich Kolmogorov fue uno de los matem´ticos m´s creativos a a del siglo pasado. (3.2. o o u En un art´ ıculo publicado en 1933 realiz´ una construcci´n rigurosa de la teor´ de la probabilidad.1. x]). cuya uni´n contiene a A. Corolario 3. 2 o o N2. Antes o o ıa ya hab´ obtenido condiciones necesarias y suficientes para la Ley de los Grandes N´ meros.

b]. realiz´ aportes al estudio de la turbulencia. data de 1937. P{a < X ≤ b} = b a fX (t)dt.}. . de modo que los intervalos (a. b). [a. fueron sus estudios de la dependencia y sus o contribuciones a la teor´ de los procesos estoc´sticos. se la suele llamar funci´n de cuant´ de la o ıa distribuci´n de probabilidad. o Para el caso de una variable absolutamente continua. dedic´ muchos esfuerzos al mejoramiento de la u o o ense˜anza de la matem´tica en los colegios secundarios. b]. Otra de sus contribuciones mayores a o fue la introducci´n de la medida de complejidad de algoritmos que lleva su nombre. bases de la teor´ moderna de los procesos de Markov. adem´s a a de su trabajo pionero de fundamentaci´n de la probabilidad. entonces o x FX (x) = −∞ fX (t)dt. Otros de sus aportes fundamentales a la probabilidad y a la estad´ ıstica matem´tica. o la funci´n de distribuci´n FX (x) = xi ≤x pi . y a la formaci´n en matem´tica de los estudiantes n a o a m´s destacados.1 (i) Una variable aleatoria se dice discreta cuando su o recorrido es un conjunto discreto S. o Observemos que cuando el recorrido de una variable aleatoria discreta X es el conjunto S = {xi : i = 1. Su celebrada prueba de ajuste basada en la utilizaci´n ıa a o de una distancia entre la distribuci´n emp´ o ırica y la distribuci´n hipot´tica. por lo tanto. La funci´n de distribuci´n resulta o o o o ser una funci´n de saltos o en escalera. y a los o sistemas din´micos en vinculaci´n con el movimiento de los planetas.3 Variables discretas y absolutamente continuas. o (ii) Una variable se dice absolutamente continua cuando su funci´n de o distribuci´n tiene derivada seccionalmente continua. en particular. la o funci´n de distribuci´n puede escribirse como integral de su derivada.30 Enrique M. Definici´n 3. A la funci´n que a cada punto x de S le asocia la o probabilidad P{X = x}. Como FX resulta continua. A o o la derivada de la funci´n de distribuci´n se la llama funci´n de densio o o dad de la distribuci´n de probabilidad. a o ıa En muchos casos. [a. sus trabajos se˜ alaron profundas vinculaciones entre temas que sol´ estudiarse n ıan separadamente. Caba˜a. . un conjunto de puntos de R cuya intersecci´n con cualquier intervalo contiene una cantidad o finita de elementos. por la que fue designado integrante de la Academia de a Ciencias de Mosc´ . . a 3. o e Adem´s de su actividad como investigador. 2. y. es decir. y por la que recibi´ el Premio Lenin. b] tienen la misma probabilidad. entonces las probabilidades pi = P{X = xi } bastan para determinar la distribuci´n de probabilidades de X.3. Una lista detallada de o los temas de la matem´tica a los que realiz´ aportes originales. n Cap´ ıtulo 3: Variables aleatorias. dejar´ muy pocos sin mencionar. [a. . En trabajos posteriores enfatiz´ el papel de la ıa o probabilidad en el an´lisis de muchos fen´menos f´ a o ısicos. si la densidad de distribuci´n de probabilidad es fX . y. para cualquier x se cumple P{X = x} = 0.

y por consiguiente f es una funci´n de densidad de o probabilidad. . toda funci´n con esas propiedades define una distribuci´n o o o de probabilidades que a cada A asocia x∈S∩A p(x).1: La funci´n de distribuci´n de probabilidades de una variable X o o discreta es una funci´n en escalera con salto en cada punto xi del recorrido o igual a la cuant´a pi = P{X = xi }. toda densidad de distribuci´n de probabilidades debe ser no o negativa y satisfacer ∞ fX (t)dt = 1.Introducci´n a la probabilidad. Variables discretas y absolutamente continuas. rec´ ıprocamente. es claro que x F (x) = −∞ fX (t)dt satisface (d1 ). de la cual es funci´n de cuant´ ıa. El esquema de la figura corresponde a una ı variable con recorrido finito. toda funci´n de cuant´ p : S → R debe ser no negativa y a o ıa satisfacer p(x) = 1. An´logamente. (d2 ) y (d3 ). 6 31 1 pn pn−1 pi p3 p2 p1 x1 x2 x3 xi xn−1 xn 0 - Figura 3.3. x∈S y. si f satisface esas condiciones. Obviamente. −∞ Rec´ ıprocamente. o 3.

. X2 . Ejercicio 3. Llamamos X al n´mero necesario de lanzamientos. . .3. Ejercicio 3. (a) Calcular P{X ≥ h}.32 Enrique M. . n Cap´ ıtulo 3: Variables aleatorias.2 Encontrar la distribuci´n de la variable aleatoria X del enunciado o precedente. . (b) Si Y es el m´ (c) Calcular P{X − Y = par}.3. la probabilidad de que ocurra un cierto resultado A es p. el n´mero de veces que ocurre u A sea h.3.). n. . ınimo entre X y M . . X4 en una circunferencia. el area bajo el o ´ gr´fico de la funci´n de densidad de distribuci´n en un intervalo representa la a o o probabilidad de que la variable est´ en ese intervalo. Ejercicio 3. fX a b Figura 3.1 Se arroja una moneda hasta que salga cara por primera vez. (b) u u P{X ≥ 5}. Calcular la probabilidad de que la cuerda que une X1 con X2 y la que une X3 con X4 se corten. 1. Caba˜a.3 Se dice que X tiene distribuci´n geom´trica (y se abrevia X ∼ o e Geo(p)) cuando P{X = h} = (1 − p)h p (h = 0. Calcular: (a) P{X = par}.3.2: Para una distribuci´n absolutamente continua. 2. En cada una de ellas. (c) P{X = m´ltiplo de 3} Ejercicio 3. X3 . Ejercicio 3. para cada h = 0. calcular P{Y = h}.4 Se eligen al azar e independientemente cuatro puntos X1 . 2. Calcular la probabilidad de que al cabo de las n repeticiones. 1.3.5 Se realizan n repeticiones independientes de un experimento. e Ejercicios. .

que ya han intervenido en ejercicios propuestos o m´s arriba. de o a par´metro P(A). Vamos a describir expresamente las distribuciones de algunas variables aleatorias de frecuente aplicaci´n. Mostrar que pj = P{j ≤ X < j + 1} es de la forma (1 − a)aj . A esta distribuci´n se la denomina de Bernoulli. o 3. 33 Ejercicio 3.3. donde g es una funci´n derio vable. Ejercicio 3. o e Comparar con los resultados del Ejercicio 2.7 X tiene densidad constante en [0. y suo o pongamos que X se puede representar como una variable aleatoria continua con densidad exponencial: f (x) = λe−λx . fuera de ese intervalo. (i) Hallar la distribuci´n de probabilidad de la n-´sima cifra decimal de X. B). 1] y cero. Determinar a. Ejercicio 3. x ≥ 0. estrictamente creciente.3. 1A es una variable aleatoria. con probabilidades 1 − P(A) y P(A) concentradas en 0 y 1 respectivamente. . 1A (ω) = 0 si ω ∈ A.3. Calcular las funciones de distribuci´n y de densidad o de probabilidad de Y . con valores posibles 0 y 1.1 Variables asociadas a ensayos repetidos. o e (ii) Hallar la distribuci´n de la n-´sima cifra del desarrollo binario de X. Distribuci´n de Bernoulli o Convengamos en describir la ocurrencia de un suceso A mediante su funci´n o indicatriz 1 si ω ∈ A.4 Algunos ejemplos de variables aleatorias.3. y su distribuci´n de o probabilidades es discreta.9 Si X tiene funci´n de distribuci´n F en (R.4.3. y abreviaremos 1A ∼ Ber(P(A)). Ejercicio 3. Algunos ejemplos de variables aleatorias.6 Llamemos X a la duraci´n de un componente electr´nico. encontrar la funo o ci´n de distribuci´n de F (X).Introducci´n a la probabilidad.8 X tiene distribuci´n absolutamente continua FX y se define una o nueva variable aleatoria Y por medio de Y = g(X). o o 3.4.8. a 3. Repetir el c´lculo para el caso en que g es estrictamente a decreciente.

. . Xn vale 1 si A ocurre en la n-´sima repetici´n. n.1 g2. . n Para n > 1.h = P{Bin(n. es decir.. { n−1 Xj = h − 1} es vac´ pero la ecuaci´n tambi´n sigue siendo ıo..h + gn−1. p) = h}. a Con las nuevas variables gn.0 g3.h−1 . Se observar´ que en el caso h = n. Llamamos Xn a la variable aleatoria (de Bernoulli) indicatriz del suceso “A ocurre en la n-´sima repetici´n”.2 g3. en el tri´ngulo: a g1... a En efecto. p (abreviado Bin(n. Caba˜a.. An´logamente. n Cap´ ıtulo 3: Variables aleatorias..h ph (1−p)(n−h) = gn−1.n . y vale 0 si no ocurre. p) = h} = 0... gn. respectivamente.... p) = h}/[ph (1 − p)(n−h) ]. el suceso { n−1 Xj = h} es vac´ pero la a ıo. p) = h} = { j=1 Xj = h} se descompone n−1 como uni´n (disjunta) de { j=1 Xj = h} ∩ {Xn = 0} y { n−1 Xj = h − 1} ∩ o j=1 {Xn = 1}. 1.0 g2... . p) = h} o = P{Bin(n − 1.. Esto muestra que para obtener los n´meros gn. p)) a la variable a B = n Xj ..1 gn..h = gn−1..1 g2.0 gn..1 g3.. o a a si h = 0. p) = h − 1}p. P{Bin(n−1. y p a la probabilidad de que ocurra A. p. pues sus valores posibles son 0.h−1 ph−1 (1 − p)(n−h) p.3 .0 g1.34 Distribuci´n binomial o Enrique M.... Se trata obviamente de una variable discreta. gn. gn. e o es decir. o a cualquiera que tenga su misma distribuci´n de probabilidao j=1 des. Consideremos un experimento aleatorio que se repite sucesivamente con independencia de las repeticiones anteriores.2 . Llamemos A a uno de sus resultados posibles. 2.. Resulta entonces la relaci´n de recurrencia P{Bin(n.h ph (1−p)(n−1−h) (1−p) o + gn−1. 1−p.h . ... En ambos casos los sucesos que se interceptan son independientes. y sus probabilidades son P{Bin(n−1.h se puede proceder de u la misma manera que para obtener los n´meros binomiales por medio del u tri´ngulo de Tartaglia. p) = h−1}. gn.. la ecuaci´n precedente se reduce a gn. o e j=1 v´lida. el suceso {Bin(n. p) = h}. . Su distribuci´n queda determinada por los valores P{B = h} o = P{Bin(n. e o Llamamos binomial con par´metros n.2 g3. . p) = h}(1 − p) + P{Bin(n − 1. ya que P{Bin(n − 1. j=1 ecuaci´n sigue siendo v´lida.

y con probabilidades P{Z = h} = (1 − p)h p. con probabilidad p.0 . p) = 1} = P{X1 = 1} = p. 2.h = n . Cuando se encuentren referencias a distribuciones geom´tricas. Tambi´n suele decirse que tiene distribuci´n geom´trica con e o e par´metro p la variable Z = Y − 1. e La probabilidad de que esto suceda es P{Geo(p) = h} = (1 − p)h−1 p. . p) = 0} = P{X1 = a 0} = 1−p. sin necesidad de introducir las variables gn. Se trata de dos e ´ distribuciones diferentes. lo que implica que todo el tri´ngulo u coincide con el Tri´ngulo de Tartaglia. Dado que gn. 35 cada elemento se obtiene sumando los dos inmediatos que est´n arriba a la a izquierda y arriba a la derecha. que corresponde a la variable ´ Bin(0. o a cualquier variable con la misma distribuci´n. Para terminar el c´lculo.4. .h o y utilizar el Tri´ngulo de Tartaglia. basta observar que P{Bin(1. al n´e a u mero de ensayos que deben realizarse antes de obtener por primera vez el resultado A. por inducci´n completa. ser´ necee a sario en cada caso referirse al contexto. Supongamos que Y tiene distribuci´n geom´trica con par´meo e a tro p de acuerdo a la definici´n precedente. puede agregarse una a primera fila con un unico elemento igual a 1. y en cada una de ellas ocurre A. 1. 3. 1 . resulta P{Bin(n. abreviado Geo(p). Esta h h ultima f´rmula puede obtenerse tambi´n a partir de la relaci´n de recurrencia ´ o e o original. y la de Y con valores posibles 1. o El suceso {Geo(p) = h} se cumple cuando en las primeras h−1 repeticiones no ocurre A y en la siguiente (la h-´sima) ocurre. p) trivialmente igual a cero. 2. que corresponde al n´mero de fracasos a u antes del primer ´xito. a Distribuci´n geom´trica o e Repetimos un experimento con las mismas caracter´ ısticas que en el caso anterior. Naturalmente. . es decir. la de Z con valores posibles 0.1 de la primera fila del tri´ngulo son precisamente iguales a 1 1 a a los n´meros combinatorios 0 . se procede como si la fila anterior estuviera continuada con ceros hacia ambos lados.. o 3. p) = h} = n ph (1 − p)(n−h) . Cuando se trata de los extremos de la fila.. Advertencia. . Algunos ejemplos de variables aleatorias. . para saber cu´l de las situaciones a .Introducci´n a la probabilidad. 3. y que P{Bin(1. por la independencia de las sucesivas repeticiones. que puede interpretarse o como el n´mero de intentos hasta el primer ´xito en la sucesi´n de ensayos u e o descrita arriba. y no cuenta el ultimo intento exitoso. P{Y = h} = (1 − p)(h−1) p. de donde deducimos que los elementos g1. es decir. . las sucesivas repeticiones son independientes. g1. Llamamos variable geom´trica con par´metro p.

Bernoulli. como muchos protestantes. La importancia para la matem´tica y la f´ a ısica del trabajo cient´ ıfico de parientes cercanos de Jacob Bernoulli justifica un breve esquema (indicado con apenas alguna palabra clave) de la naturaleza de esos aportes. El y su hermano e a menor y disc´ ıpulo Johann. Enrique M. de la persecuci´n de los o cat´licos espa˜ oles que reinaban en los Pa´ o n ıses Bajos. public´ la Ley de los Grandes N´meros para las frecuencias de ocurrencia de un o u resultado en observaciones repetidas. Ense˜´ matem´tica en la Universidad de Basilea hasta su muerte en 1705. fue tambi´n el primero en la familia o e en dedicarse al estudio de la matem´tica y de la astronom´ a ıa. y por las posiciones a ocupar. tambi´n matem´tica. en 1689.. que los e llev´ a romper relaciones en 1697. N3. Estudi´ con Malebranche en Francia. La publicaci´n m´s importante de Bernoulli fue su opus p´stumo Ars Conjectandi (Basilea. alimentada por la competencia por el reconocimiento a sus propios m´ritos. de origen belga. geometr´ series y el c´lculo de variaciones y las ecuaciones diferenciales. debi´ emigrar a Suiza huyendo. o o y con Boyle y con Hooke en Inglaterra. un o a o c´lebre tratado de teor´ de la probabilidad. Caba˜a.36 mencionadas es la aludida. varios de los cuales realizaron importantes aportes a la probabilidad. y de los v´ ınculos de parentesco entre los cient´ ıficos que los produjeron: . o La familia Bernoulli. 1713). a Entre otros resultados. en particular. fue uno de los integrantes de una familia de cient´ ıficos. nacido el 27 de diciembre de 1654 in Basilea. fueron los primeros en estudiar y ıas a aplicar las teor´ de Leibniz sobre el c´lculo diferencial. su an´lisis de los resultados probabil´ a ısticos asociados a ensayos repetidos. probabilidad. siguiendo su vocaci´n. Jacob Bernoulli. adem´s e ıa a de las propias. Aunque debi´ graduarse en filosof´ (1671) y teolog´ (1676) o ıa ıa por imposici´n paterna. no a y a partir de 1687. que incluye contribuciones de van Schooten y Leibniz. Jacob (1654-1705). n La familia Bernoulli. Su c´tedra fue luego deno a a sempe˜ ada por su hermano Johann. o ıa. A partir de 1683 ense˜ ´ mec´nica en la Universidad de Basilea. La colaboraci´n entre los hermanos se transform´ pronto en una rio o validad. Suiza. o Un resumen de las contribuciones de Jacob Bernoulli incluye trabajos sobre v´ ınculos entre el ´lgebra y a la l´gica. n Cap´ ıtulo 3: Variables aleatorias.

probabilidad. a Johann (1744-1807) Probabilidad. o ©     c Daniel (1751-1834) d ‚ d Jacob (1759-1789) Elasticidad. hidrost´tica.   ©   Nicolaus (1695-1726) Curvas. a . a series. ´ptica.Introducci´n a la probabilidad. a d ‚ d Johann (1710-1790) Calor. Nicolaus (1623-1708) 37   ©   Jacob (1654-1705) Ensayos repetidos. seguros. a ecuaciones diferenciales. c´lculo a de variaciones. Ley de los Grandes N´ meros u r c Nicolaus (1662-1716) rr j r Johann (1667-1748) C´lculo diferencial. hidrodin´mica. c Daniel (1700-1782) Vibraciones. astronom´ ıa. ecuaciones diferenciales.Bernoulli. c´lculo. o 3 N3. c Nicolaus (1687-1759) Series. probabilidad.. La siguiente cronolog´ muestra las coincidencias en el tiempo de los miembros de la familia con otros ıa notables matem´ticos.

de acuerdo a lo que resulta a a n de los argumentos que siguen). Se observar´ que la probabilidad que o a la distribuci´n uniforme asocia a cada conjunto de (a.sin x)∈Γ Ax = C. que la variable X del Ejercicio 2. si x < a. Obs´rvese. funci´n de distribuci´n. B) con esa funci´n de distribuci´n. 2R ). por ejemplo. En efecto. no llena C. sin x) = (cos y. tal que si A. (cos x. y vamos a llamar Γ a un subconjunto de C formado con un punto de cada uno de los Ax . es decir. entonces P{Z ∈ A} = P{Z ∈ B}. cumple las propiedades de una La funci´n F (x) = o  b−a  1. cuya distribuci´n de probabilidad sea o invariante bajo traslaciones. sin x) de la circunferencia C de radio 1. Vamos a partir C en conjuntos de la forma Ax . b = 2π. b). b) y cero fuera de ese intervalo. para cada n entero. n Cap´ ıtulo 3: Variables aleatorias. Distribuci´n uniforme. entonces Ax ∩ Ay = ∅.2. b). y es claro que si (cos y. sin x) en el punto (cos y. si b < x. Se deduce que el valor de esa constante debe ser 1/(b − a).4.2 Dos distribuciones absolutamente continuas. sin y) aplica Ax en Ay . sin x) asociamos el conjunto Ax = {(cos(n + x).38 Enrique M.3. B son dos subconjuntos de (a. b)) cuando su densidad de distribuci´n de probabilidades es cono stante en (a. vamos a verificar que no existe una variable aleatoria U en (R. la circunferencia C se obtiene como uni´n (disjunta) de los conjuntos o o Γn = {(cos(n + x). 2π) con los puntos (cos x. b) o y B se obtiene como resultado de aplicar a A una traslaci´n. b) (abreviado.2. por el corolario del Teorema 3. sin(n + x)) : n entero }. Caba˜a.  x−a . (cos y. sin x) ∈ Γ}. o X ∼ Uni(a. de modo que. o . Por comodidad. y (cos x. Es inmediato verificar que el giro que lleva el punto (cos x. 3. porque lo contrario implicar´ que C ser´ numerable. A cada punto (cos x. para que la integral de la densidad en toda la recta sea 1. tomamos a = 0. 1). para poder asegurar la existencia de variables con la o distribuci´n uniforme. tal que (cos x. o o uniforme en (a. Este conjunto Γ es infinito.   0. sin y) implica Ax = Ay . sin y) no pertenece a Ax . la o o distribuci´n uniforme debe atribuir a cada uno de ellos la misma probabilidad. es decir. sin y) ∈ Γ. Como estos conjuntos se obtienen uno de otro por medio de un giro en C. sin x). es decir. que se obtienen girando Γ en un a ´ngulo n. b) es invariante bajo o traslaciones. exiso o te una variable aleatoria en (R.8 e tiene distribuci´n uniforme en (0. que es necesario dotar a R de una o σ-´lgebra m´s peque˜a que 2R (como lo es la de Borel. Como cada Ax es un conjunto numerable. e identificamos los puntos x del intervalo [0. que equivale a una traslaci´n m´dulo 2π en el intervalo. Observaci´n: Es interesante notar. sin embargo. sin(n + x)) : (cos x. Por ıa ıa la construcci´n. con valores en un intervalo (a. si a ≤ x ≤ b. o Decimos que X tiene distribuci´n uniforme en el intervalo (a.

para que g sea mon´tona o decreciente). . lo mismo ocurre con g y las unicas solu´ ciones mon´tonas de la ecuaci´n funcional (3.2) g(s + t) = g(s) + g(t). como la pieza no envejece.P{T > t}. t ≥ 0 se cumple P{T > t + s} = P{T > s}. para cualesquiera s. P({T > t + s} ∩ {T > t}) = P{T > s}. Como P{T > t} decrece con T . 2π)) = P(C) = P ı ıa serie cuyos sumandos son todos iguales no puede converger a 1. es decir. cuando sabemos que en el instante t a´n no se ha destruido. o. (Se trata.) Esto nos lleva a exigir P{T > t + s|T > t} = P{T > s}. donde λ es una constante (positiva. Deducimos que P{T > t} = e−λt . de un modelo bastante natural para describir la vida de una componente electr´nica del tipo o de un transistor. de este argumento se deduce que la σ-´lgebra de Borel es estrictamente m´s peque˜a que la de todos los a a n subconjuntos de R. es que los conjuntos Γn no son de Borel. pero no de efectos de envejecimiento propios de la a pieza. desde entonces u en adelante tenemos para ella la misma expectativa de duraci´n que en el moo mento en que la colocamos en el sistema. Vamos a describir un modelo para la distribuci´n de probabilidades de T que corresponde o al caso en que la propensi´n a la ocurrencia de accidentes que pueden destruir o la pieza es constante en el tiempo. (3. t ≥ 0. cuya duraci´n depende de las sobreintensidades o accidentales que circulan por ella por causa del funcionamiento del circuito en el que est´n incluidas.Introducci´n a la probabilidad. En particular. y no depende de la historia anterior del proceso que estamos considerando.6.. por ejemplo. ı que para s. teniendo en cuenta que {T > t+s}∩{T > t} = {T > t+s}. y esta o o Esta contradicci´n muestra que no puede pretenderse definir una distribuci´n uniforme sobre todos los subconjuntos del intervalo. Γn = De all´ resultar´ 1 = P([0. P{T > t} De aqu´ resulta. Distribuci´n exponencial. con g(t) = log P{T > t}. ∞ n=−∞ ∞ n=−∞ 39 P(Γn ). o un diodo.2) (ver Lema 3.Bernoulli. pero que puede ser destruida accidentalmente. o Llamemos T a una variable aleatoria que representa la duraci´n de una pieza o que no envejece.1) son de la o o forma g(t) = −λt. En tal caso. Lo que necesariamente o a ocurre. o 3 N3. No hay contradicci´n con la exiso tencia de la distribuci´n uniforme sobre la σ-´lgebra de Borel.

Se trata de procedimientos determin´ ısticos. a Teorema 3.5 Construcci´n expl´ o ıcita de variables aleatorias en R. y un valor inicial X0 . donde se menciona la aparici´n de la primera prueba de ajuste. Un comentario sobre el significado de expresiones tales como “se comporta de manera similar”. a partir de U ∼Uni(0. 2 Nota: El resultado anterior interesa cuando se quiere simular variables aleatorias por medio de una computadora o una calculadora manual. Cuando una variable aleatoria T tiene funci´n de distribuci´n de probabio o −λt lidad P{T ≤ t} = 1 − e (t ≥ 0). a partir de una variable aleatoria U uniforme en (0. porque unas y otras suelen tener procedimientos que simulan sucesiones de variables aleatorias uniformes en (0. El siguiente enunciado introduce una inversa generalizada o de F . e indica un resultado algo m´s general. que se obtiene u a o se comporta de manera similar a una sucesi´n de variables uniformes en (0. independientes. 1). a 3. A. Uno de los m´todos m´s simples y m´s utilizados para dicha generaci´n de e a a o n´meros seudo aleatorios. tambi´n e entero.5. Lo abreviaremos Exp(λ). Cuando los n´meros p. decimos que su distribuci´n es exponencial o con par´metro λ. dos enteros positivos A. y adem´s existe a la funci´n inversa. 1) basta invertir la correspondencia U = F (X) al menos cuando F es continua. . se calculan sucesivamente Xn = A + BXn−1 [mod p].40 Enrique M. es el siguiente: Se elige un entero u positivo p muy grande. B. pero cuyo comportamiento se u asemeja al de variables uniformes independientes obtenidas por alg´n procedimiento u de sorteo. con F −1 (u) = inf{x : F (x) ≥ u}. B est´n bien elegidos. 1) y F es una funci´n de distribuci´n en R.3. U2 . la sucesi´n U1 . o . Al resolver el Ejercicio 3. . que producen sucesiones de n´meros del intervalo (0.1 Si U ∼ Uni(0. al a fin de este cap´ ıtulo. puede encontrarse en la nota biogr´fica sobre Karl Pearson. 1). A partir de estos valores iniciales. y se toma la sucesi´n Un = Xn /p como o salida del proceso. . 1) totalmente previsibles. 1) indeo pendientes.9 se habr´ observado que cuando X tiene funci´n a o de distribuci´n F continua. o o entonces X = F −1 (U ) ∼ F . comprendido entre 0 y p − 1. U = F (X) es uniforme en (0. Esto sugiere o o o que para construir una variable aleatoria real X con funci´n de distribuci´n F . P{F −1 (U ) ≤ x} = P{inf{y : F (y) ≥ U } ≤ x} = P{U ≤ o F (x)} = F (x). n Cap´ ıtulo 3: Variables aleatorias. 1). con funci´n de distribuci´n F o o dada. Caba˜a. como se les suele llamar. Demostraci´n.

.1 Las soluciones de la ecuaci´n... e . o i. Ejercicio 3. o ´ ´ 3. p).3 Si U1 . son i.i.. j1{ j−1 h=0 pn. .1 Si U1 .. son variables aleatorias independientes e id´nticae mente distribuidas con distribuci´n uniforme en (0.. ∼ Exp(λ)..2.i. . . son i. . entonces ([Xi ])i=1.i.6. Ejercicio 3. 41 Ejercicios. con distribuci´n geom´trica.5..2 Si U1 .i. . y Xi = − log Ui . U2 . (b)   1{Uj ≤p}   i=1. .2. Hi = min j :  Ejercicio 3. .h } ..i.1 Cuando g : R+ → R es soluci´n de la ecuaci´n funcional o o o bien es de la forma g(t) = tg(1) o bien su gr´fico es denso en un angulo con a ´ v´rtice en el origen.2) y con otra aplicaci´n de la misma ecuaci´n. Ejercicio 3. o g(s + t) = g(s) + g(t).h <Ui ≤ j h=0 pn. (i = 1.5. con pn. .Introducci´n a la probabilidad.d. .d.d.6.. . . ∼ Bin(n. y (τ Xi )i=1.2..4 Si X1 . U2 . 2. . son i. .d.d. s.i. entonces la sucesi´n definida o    Hi−1 +j 1{Uk ≤p} ≥ 1 k=Hi−1 +1   es i. . s. son i.) entonces (Xi )i=1.2. ∼ Uni(0. t > 0 Lema 3.i. U2 . o Completamos este cap´ ıtulo con la demostraci´n del Lema utilizado para reo solver la ecuaci´n funcional (3.5.d. ∼ Geo(p).d. p) = h} recursivamente H0 = 0. Solucion de una ecuacion funcional. X2 .6.d. o o o 3. entonces (a)   ni j=n(i−1)+1 n j=0 son i.2.. . . Probabilidad e informaci´n.h = P{Bin(n.5. ([X] designa la parte entera de X) son i. U2 . . son i. 1)..6 Soluci´n de la ecuaci´n funcional g(s + t) o o = g(s) +g(t). y   i=1. ∼ Uni(0. 1). 1)). 1) (lo abreviamos U1 . t > 0.i. ∼ Exp(1). ∼ Exp(1/τ ). ∼ Uni(0. ¿Cu´l es el o e a par´metro? a 3...d.i. .

una loter´ por ejemplo . limn→∞ sn = µ. .. esto ultimo era lo que.3) En particular. g(3/m) = g(2/m) + g(1/m) = 3g(1/m). se obtiene respectivamente g(2/m) = g(1/m) + g(1/m) = 2g(1/m)... sino su escasa probabilidad. g(ru) = o rg(u) = cru.. 3/m. converge a (λ+µu.. t = o 1/m.. .nos ıa. es decir. lo que se sorteara con iguales probabilidades fuera un castigo. o La probabilidad de un suceso est´ vinculada a la cantidad de informaci´n a o que proporciona saber que ha ocurrido. rn g(1) + sn g(u)) est´ en el gr´fico de o a a g y por la construcci´n de las sucesiones (rn ). ya que. Si las coordenadas de este punto son (λ + µu.2) con s = 1/m. aplicando (3.3).. ´ a Lo que vuelve sorprendente el hecho de haber ganado no es el tama˜o n del premio.. Convengamos entonces en medir la informaci´n que nos aporta saber que o o ha ocurrido un suceso A por medio de una funci´n g(P(A)) que decrece cuando crece P(A). con λ. Esto indica que la sucesi´n de puntos (rn + sn u.. o bien existe un irracional o u tal que g(u) = cu con c = g(1). g(n/m) = ng(1/m). Es por eso que saber que hemos sido favorecidos en un sorteo realizado entre un n´mero muy grande de postulantes u que participan en condiciones de equitatividad . (sn ) de racionales no negativos tales que limn→∞ rn = λ. se cumple h(r) = rh(1) para todo r racional positivo. Se cumple entonces g(rn + sn u) = g(rn ) + g(sn u) = rn g(1) + sn g(u). g(u)).42 Enrique M. Reemplazamos ahora esta expresi´n de g(1/m) en o (3. Como la funci´n h(t) = g(tu) satisface la misma o ecuaci´n (3. Caba˜a. con n = m en esta ultima igualdad...6. 2/m.. o bien esta f´rmula vale para todo t en R+ .... n Cap´ ıtulo 3: Variables aleatorias.. resulta mucho m´s informativo que saber que no fuimos favorecidos... µ ≥ 0. Y si en vez de un premio.. . g(1)) y (u. a sin duda. que vale para todo racional positivo r puesto que m y n son enteros positivos arbitrarios. Demostraci´n. .. λg(1) + µg(u)). tambi´n resultar´ e ıa igualmente sorprendente. o 2 3. Tomemos un punto cualquiera del angulo formado por las combinaciones ´ lineales con coeficientes no negativos de los vectores (1. podemos encontrar un par de sucesiones (rn ). (3. obtenemos g(1) = mg(1/m). y obtenemos g(r) = rg(1).. . g(4/m) = g(3/m) + g(1/m) = 4g(1/m)..2). Finalmente. de ´ modo que g(1/m) = (1/m)g(1)..2 La informaci´n. λg(1)+µg(u)). razonablemente. Observemos que. (sn ). esper´bamos que ocurriera..

4) en . que podemos expresar en la forma g(P(A)P(B)) = g(P(A)) + g(P(B)) una vez que hemos convenido en expresar la informaci´n o como una funci´n de la probabilidad.4) para cualesquiera p.6. el cambio de variables p = e−s . q = e−t . q ∈ (0. o Estas dos propiedades. En cambio. con g mon´tona. se justifica porque cuando A y B son o independientes. despu´s de saber que a o e ocurri´ A.3: El gr´fico de la soluci´n de g(s + t) = g(s) + g(t) es una semirrecta a o o es denso en un angulo. t ≥ 0 transforma (3. 1) determinan la forma de la informaci´n g. si A y B no fueran independientes y ya sabemos que ocurre A. la informaci´n “ocurre A” no cambia nuestra composici´n de o o lugar respecto de la ocurrencia de B.Introducci´n a la probabilidad. g(1))························2····· · · ·¨···· ¨·········································2·· · ¨·········································ag(u))·· · ··a·················2···············2·2·2 ··· ·· ······2· (u. 43 · · ············· ·········································· ····································· ····· ······ · ·· · · ··································································· · ·········· ······ · ································································································· ····················································································· ········ ················ ······· · ··················································································· · ····· · ····· 6 ¨ · ········ · · ········· · · · · ················· · ······························ · · · · ¨······················································································································· ······················································································································· · · ·· ·· ·· ·· · ¨····· · · · ···· · ···· ······· · · ·· ¨······················································································································· g(1)) +·µ(u. ······ 2 · ·· ·¨ · · 2 ···· · · ¨··················2 · · · ············ · ··· · · · ·¨···············2· · 222 · · 2 ¨ ····· · 1 rn λ µu sn u Figura 3. la informaci´n proporcionada por saber que ocurren ambos sucesos o es la suma de las informaciones correspondientes a saber que ocurre cada uno de ellos. que. s. ya no es relevante.·····················a································································· 2 ········································2·2··································································· ··············································································· ···· ········¨ · ¨ · ¨···································2··········· ······································ 2······ ¨ ·· · ····· ···················2·············2 ····················································· · · · · · · ·2·2···············2····························¨······················································ ·······2···········2····· · ·¨······ · · ·· · · ¨·¨················································································································· ·····················································¨································ · ······· ¨2 ···· · · ········· · · ·· ······2···· ¨·¨······················································2························· · ¨······ ·················· ····································22 · ····2·········································¨········¨·2·········2 · · · · ··· ········ · · ··· ¨················································¨·······2· ···· · ··· · ·· 22 (1. Solucion de una ecuacion funcional. nuestra sorpresa al enterarnos que tambi´n ocurre e B ser´ funci´n de P(B|A) (= P(B)) y no de P(B). En o efecto. Esta propiedad. (i) que la informaci´n que aporta “ocurre A” es o g(P(A)). y por lo tanto agregar a ella la informaci´n o “ocurre B” nos aporta tanto despu´s de saber que ocurre A como nos hubiera e aportado antes de saberlo. o ´ ´ 3. ´ Resulta razonable adem´s establecer que si A y B son sucesos indepena dientes.·g(u)) ¨························λ(1. y (ii) que o g(pq) = g(p) + g(q) (3.

si hacemos esa convenci´n binaria. entre 1893 y 1901.44 Enrique M. Pearson produjo m´s de treinta art´ ıa. para alg´n u valor de λ (positivo para que la informaci´n misma sea no negativa). Surrey. conoci´ a Pearson y le provey´ el apoyo intelectual y econ´mico para la creaci´n del o o o o Laboratorio de Biometr´ En ´l. o o o para ayudarlo a mostrar cuantitativamente la relaci´n entre las variables que interven´ en sus experimentos. el alcoholismo.Pearson. 1 = −λ log 1/2. constituyeron la base de The Grammar of Science que public´ en 1892. y el retardo mental. en particular. o En 1884 fue designado Goldsmid Professor de matem´tica aplicada y mec´nica en el University College a a de Londres. de modo que. que hab´ arbitrado ıa art´ ıculos de Weldon. a menudo contradec´ el pensamiento corriente de sus contempor´neos. tercero en la lista o de honores de matem´tica en Cambridge (1879).. e a ıculos sobre m´todos e estad´ ısticos. Karl Pearson naci´ en Coldharbour. estaremos o eligiendo λ = 1/ log 2 y g(P(A)) = − log P(A)/ log 2 = − log2 P(A). tales como la tuberculosis. Motivado por el estudio de la evoluci´n y de la o herencia. y luego estudi´ en Alemania. Pearson fue atra´ al estudio de la biometr´ por su trabajo como profesor de matem´tica aplicada. y lo hizo con singular capacidad y habilidad. Francis Galton. y su trabajo llev´ a la estad´ o ıstica a ser una rama de estudio independiente. Los resultados e que obtuvo. Inglaterra. fue uno de los fundadores de la estad´ ıstica moderna. que hab´ sido designado Profesor de Zoolog´ en el University College quien lo interes´ ıa ıa o en el tema. Sus clases con conceptos modernos sobre la ciencia. En 1899 public´ la prueba “chi-cuadrado”. N4. Caba˜a. y sus clases sobre probabilidades y la filosof´ del azar fueron una s´lida base o ıa o para sus posteriores trabajos en biometr´ y estad´ ıa ıstica. ıdo ıa a Fue Walter Weldon. g(e−s−t ) = g(e−s ) +g(e−t ) de modo que concluimos g(e−t ) = λt. lo que le atrajo la ıan a cr´ ıtica de autoridades de la medicina y de la administraci´n p´ blica. o tad´ ıstica fue poner de manifiesto la importancia de la aplicaci´n de los m´todos estad´ o e ısticos. donde se volvi´ un experto a o o en literatura en idioma alem´n (y cambi´ la ortograf´ del nombre Carl con el que hab´ sido bautizado para a o ıa ıa transformarse en hom´nimo de Karl Marx). o Aplic´ los m´todos estad´ o e ısticos que ´l mismo contribuy´ a desarrollar al estudio de muchos problemas e o de la sociedad de su ´poca. o La medida de la informaci´n de “ocurre A” es entonces −λ log P(A). En ese per´ ıodo complet´ la derivaci´n del coeficiente de correlaci´n iniciada por Francis Galton. o Se suele convenir que la unidad de informaci´n es la que aporta saber cu´l o a de dos sucesos complementarios de probabilidad 1/2 es el que ocurre. es decir. Karl (1857-1936). n Cap´ ıtulo 3: Variables aleatorias. o n . o ıan e introdujo el t´rmino “desviaci´n t´ e o ıpica” (“standard deviation”). o u A pesar de la importancia de sus aportes a la teor´ probablemente su mayor contribuci´n a la esıa. Fue un estudiante destacado. Se retir´ del University College en 1933 tres a˜ os antes de su muerte. como fundador y editor de la revista Biometrika (1901-1936). al pedir su ayuda para resolver problemas estad´ ısticos.

gracias a la cual las observaciones emp´ reflejo de una distribuci´n de probabilidad subyacente. Todo el pensamiento cient´ ıfico del Siglo XX est´ permeado por la utilizaci´n de modelos aleatorios. Xn no refuta esa suposici´n. . . si bien tienen o importancia filos´fica y han motivado interesantes avances matem´ticos. o bien rechazar por inveros´ ımil que F sea F0 . . en definitiva. que es el verdadero objeto de estudio.Introducci´n a la probabilidad.. asociados al estudio de los sistemas “ca´ticos”. o . N4. por su aporte cient´ ıfico y por su influencia como editor. Pearson introdujo la primera prueba de ajuste que se conoce en la bibliograf´ ıa. Se trata de un procedimiento estad´ ıstico por el cual. o 3. El resultado de una prueba o de ajuste puede ser. Pearson. el objeto de inter´s que es la distribuci´n de probabilidades nunca puede observarse. o bien no rechazarlo. . es lo que nos interesa conocer. e o Lo que puede observarse son resultados de fen´menos naturales. y posibilitaron una o verdadera revoluci´n en la manera de pensar los problemas de la f´ o ısica. o Como consecuencia. o Dentro de este contexto. o o o A tales procedimientos. . . dadas las observaciones X1 . se los llama pruebas de ajuste a la distribuci´n F0 . Hasta fines del siglo XIX era habitual pensar todos los fen´menos naturales de manera determin´ o ıstica.Karl Pearson. 45 Los modelos aleatorios y las pruebas de ajuste. aparecida en un art´ ıculo suyo de 1999. ıa. que. Xn de un fen´meno natural. fue uno de los grandes precursores de ıricas aparecen como un esta nueva forma de pensar la naturaleza. como tales pueden considerarse variables aleatorias o con cierta distribuci´n F . Los modelos aleatorios para los fen´menos naturales se desarrollaron desde entonces. ıa. e incluso a o los intentos de volver al viejo determinismo. no han aportado alternativas que o a reemplacen a los modelos aleatorios. la biolog´ la econom´ por ejemplo. . que proporcionan variables aleatorias con o la distribuci´n que. . X2 . se decide si es plausible que esa distribuci´n F sea cierta distribuci´n dada F0 . por considerar que o la informaci´n proporcionada por las observaciones X1 .

n Cap´ ıtulo 3: Variables aleatorias. .46 Enrique M. Caba˜a.

2.1. . con Hn = e n o i=1 Bi ∼ Bin(n. o P{Xn = −1} = q. que se obtienen eligiendo ω ∈ Ω.1 Un modelo probabil´ ıstico: El paseo al azar simple. q. las sumas parciales Sn = 2Hn −n. a cada una de las sucesiones o (Sn (ω))n=0. p). 2. ´ Definici´n 4. de variables aleatorias. . . ..1. obtenida a partir de o las variables independientes Xn con la misma distribuci´n P{Xn = 1} = p. j = 1.. en el instante n. . para cualquier n ∈ N y cualesquiera conjuntos de Borel Bj . . Dado que el cambio Xn = 2Bn − 1 permite representar las variables Xn en t´rminos de variables Bn ∼ Ber(p). a la sucesi´n Sn = i=1 Xi . .1 Se llama paseo al azar simple con probabilidades p... o a 47 . o 4. Esto sugiere que un paseo puede pensarse como una variable aleatoria con valores en el espacio de las sucesiones. Llamamos realizaci´n o trayectoria de un paseo. Para que los elementos de la sucesi´n sean variables o aleatorias. 2. Cada incremento o Xn = Sn − Sn−1 se interpreta como un paso realizado por el sistema (Sn )n=0. con valores 1 o −1.. o Se llama en general paseo al azar a la sucesi´n de sumas parciales Sn = n Xi i=1 de una sucesi´n dada Xn . 1. n}. p) tienen una distribuci´n de probabilidades que se describe de manera inmediata a partir de la distribuci´n binomial con par´metros (n. . o n p + q = 1. n = 0. . n = 1. ∗ Tres aplicaciones vinculadas con la distribuci´n binomial. . Vamos a estudiar a continuaci´n algunas propiedades del paseo al azar o simple. dotamos al espacio de las sucesiones de la m´ ınima σ-´lgebra que contiene a a los conjuntos de la forma {ω : Sj ∈ Bj .1.4.. que corresponde a tomar los pasos independientes e id´nticamente dise tribuidos.

Uno de ellos es la poligonal que une los puntos (n − 1. k) : |k| ≤ n} recursivamente en n.n+1 (h. Hay trayectorias que unen esos n1 n1 + n2 puntos.n−m (0. permiten calcular las probabilidades {p0. . k) = 1{k=0} .n (h.n (h.2 Verificar que las probabilidades pm. . k) = P{Sn = k | Sm = h}. a Resulta igualmente inmediato que incrementos Snj − Smj .n (h. ∗ Figura 4. p). de la misma paridad que m. k − 1) + qpm. Ejercicio 4. n1 − n2 ) tiene n1 + n2 la misma probabilidad pn1 q n2 .1. .1. y el otro es el gr´fico de a S[t] . Ejercicios. . ≤ mk < nk ) son independientes. 0) con (n1 + n2 . j = 1. 0 ≤ t. Mostrar que pm. . |h| ≤ m. k correspondientes a intervalos disjuntos del ´ ındice (m1 < n1 ≤ m2 < n2 ≤ . con distribuci´n Bin(nj − mj . o Cada realizaci´n o trayectoria de un paseo suele representarse por medio o del gr´fico de los puntos de la sucesi´n. k − h). . donde [·] designa a la parte entera. con m ≤ n. X4 = X6 = −1. (La trayectoria representada es la que corresponde a n = 6 pasos con X1 = X2 = X3 = X5 = 1. n Cap´ ıtulo 4 Tres aplicaciones. de modo que P{Sn1 +n2 = n1 − n2 } = pn1 q n2 como surge n1 tambi´n de aplicar directamente los resultados conocidos para la distribuci´n e o binomial.48 Enrique M.0 (0. k + 1). 2. . que. k) definidas en el ejercicio precedente satisfacen las ecuaciones: pm. Caba˜a. Sn−1 ) y (n.1.) Cada una de las trayectorias que une (0.n (h.1: Representaciones gr´ficas de la trayectoria de un paseo al azar. Ejercicio 4.n (h. o tambi´n alguno de los dos gr´ficos a o e a de funciones de dominio R+ que muestra la Figura 4.1 Llamemos pm. k) = ppm. Sn ). junto a las condiciones iniciales p0.n (0. k) = p0.

o 4. k) = 0 si |h| > m o si o Ejercicio 4.ν (h. Deducir en particular el resultado del ejercicio anterior. Rec´ ıprocamente. es el llamado Principio de Reflexi´n de Desir´ Andr´: o o e e Teorema 4.n (h. 2−n . hay otra que une (0.4 Verificar que para todo n. 0) con (n. m) y alcanzan el nivel k. k) en que la trayectoria alcanza el valor k: h = min{j : Sj = k} (Ver Figura 4. 0) con (n. Sn satisfaga Sn = m.1 Paseo al azar sim´trico simple. u puesto que 2k − m > k). Una propiedad interesante del paseo al azar.1. entonces pm.3 Verificar que. es igual a P{Sn = 2k − m}. por inducci´n. calculando E[E((q/p)Sn | Sn−1 )]. k son enteros positivos.) La probabilidad de que el paseo al o azar sim´trico simple S1 . (Se sugiere proceder 4. a saber.1. 2 . ya que cada una de esas trayectorias tiene probabilidad 2−n . por cada trayectoria que une (0. . m). m. k) = l pm. o Ejercicio 4.n (h.2 Al paseo al azar simple con iguales probabilidades p = q = o e 1/2. . 49 |k − h| > n − m. k) : t ∈ R} a partir del primer punto (h.n (l. donde e n. m) cuyo m´ximo o a es mayor o igual que k. Esta correspondencia conserva trivialmente la probabilidad. que vamos a describir a continuaci´n.1 (Principio de Reflexi´n.1. E(q/p)Sn = 1. Para el paseo sim´trico. Principio de Ree flexi´n. l)pν. su sim´trica respecto de la misma horizontal Lk une e (0. 0) con (n. 0) con (n. con la convenci´n pm. Demostraci´n: Por cada trayectoria que une (0. La simetr´ respecto del primer punto en que una trayectoria alcanza a ıa Lk . 0) con (n. k). m < k. 0) con (n.1. Paseo al azar simple.2). maxj≤n Sj ≥ k. establece entonces una correspondencia biun´ ıvoca entre las trayectorias que unen (0. S2 . .1. 2k − m) (y necesariamente alcanza k por primera vez en alg´n h < n. Se deduce entonces el resultado indicado en el enunciado. o El caso particular p = q tiene especial inter´s: e Definici´n 4. 2k − m) que se obtiene simetrizando la anterior respecto de Lk = {(t.Introducci´n a la probabilidad. para cualquier ν (m ≤ ν ≤ n). el c´lculo de probabilidades y el recuento de trayece a torias son equivalentes. y las que unen (0. porque cada trayectoria particular de lon gitud n tiene la misma probabilidad que cualquier otra de la misma longitud. .1. 2k − m). se le llama paseo al azar sim´trico simple.

la probabilidad de que el o o paseo alcance el nivel k y termine en k + h es igual a la probabilidad de que alcance k y termine en k − h. Sn = k} = 2P{Sn > k} + P{Sn = k}. Sn < k} = P{Mn ≥ k. no alcance el nivel k es 0 para cualquier k. 2 +P{Mn ≥ k. o Corolario 4. p) = j} tiende a cero para p ∈ (0. j fijos. Sn < k} + P{Mn ≥ k. Por el Principio de Reflexi´n. ∗ k 0 n k 2k − m m Figura 4. y esto implica (iii)..2: Reflexi´n respecto del nivel k.1.2... la probabilidad de que el paseo (Sn )n=0. 1). Demostraci´n. Por la simetr´ de la distribuci´n ıa o de Sn se puede escribir por medio de la suma finita P{−k ≤ Sn < k} = n 2−n . . Sn > k} = P{Sn > k}.n−j par P{Bin(n.50 Enrique M. (ii) La probabilidad de que (Si )0≤i≤n permanezca por debajo del nivel k es 1 − P{Sn = k} − 2P{Sn > k} = P{−k ≤ Sn < k}. Caba˜a.1 (i) La probabilidad de que el paseo (Si )0≤i≤n alcance el nivel k (k > 0) es P{Sn = k} + 2P{Sn > k}.1. Sn > k} La probabilidad (ii) de que el paseo permanezca por debajo del nivel se obtiene como complemento de la anterior.1. cuando n → ∞. con Mn = max{Sj : j ≤ n}. Por lo tanto. n Cap´ ıtulo 4 Tres aplicaciones. y de aqu´ resulta (i): ı P{Mn ≥ k} = P{Mn ≥ k. P{Mn ≥ k. Cada una de las probabilidades binomiales (n − j)/2 −k≤j<k. (iii) En particular.

y terminan en Sn = j. ya que al menos para m > n. . . + Para calcular Nm establecemos una correspondencia biun´ ıvoca entre las trayectorias con Sn = j que alcanzan sucesivamente los niveles b. b. nm tales que Sn1 = −a.1. Sn4 = b.. al menos en m oportunidades. Sn5 = b. ∞ = m=1 + − (−1)m−1 (Nm + Nm ) donde la serie es en realidad una suma finita. b son dos enteros positivos. . o −a. . o −− • Nm (j) a la cantidad de trayectorias que cumplen las condiciones de la − definici´n de Nm (j). Sn3 = −a. . Snm = −a. donde a a. Las notaciones siguientes se refieren a cantidades de trayectorias de longitud n que cumplen las condiciones que se indican: Vamos a llamar • N (j) a la cantidad de trayectorias que terminan en Sn = j.Introducci´n a la probabilidad. Sn4 = −a. 51 4. . . ++ • Nm (j) a la cantidad de trayectorias que cumplen las condiciones de la + definici´n de Nm (j). . Sn5 = −a. donde . Sn2 = b. y terminan en Sn = j. si nm es impar. Snm = b..1. u El Principio de Reflexi´n nos da una manera de contar cu´ntas de las 2n o a trayectorias de un paseo de longitud n alcanzan el nivel k. Principio de Reflexi´n o M´ ltiple. • Nm (j) a la cantidad de trayectorias para las cuales existen ´ n2 . . si nm es impar. − ındices n1 . ∗ . Nm = Nm + Nm+1 . Sn2 = −a.2 El paseo con dos barreras. −a. • Nm (j) a la cantidad de trayectorias para las cuales existen ´ n2 . y de ellas podemos obtener recursivamente ++ −− + − ++ −− N 1 + N1 = (N1 + N1 ) − (N2 + N2 ) + − + − ++ −− = (N1 + N1 ) − (N2 + N2 ) + (N3 + N3 ) = . si es par. o Entre las funciones de j as´ definidas existen las siguientes relaciones: ı + ++ −− − −− ++ Nm = Nm + Nm+1 . . nm tales que Sn1 = b. Vamos a contar ahora cu´ntas de esas trayectorias alcanzan alguno de los niveles −a o b. . . si es par. + ındices n1 . o 4. y alcanzan el nivel −a antes que el nivel b. los sumandos se anulan. . y las trayectorias que llegan a Sn = jm . Paseo al azar simple. Sn3 = b. . o b. . .. y alcanzan el nivel b antes que el nivel −a.. −a.

la primera vez que alcanza ese nivel. para a ∗ h = 0. j−2h−1 = −2a − j − 2h(a + b). j2h+1 = 2b − j + 2h(a + b). . n Cap´ ıtulo 4 Tres aplicaciones. ∗ ∗ M´s precisamente. sucesivamente respecto de b.52 b + 3(a + b) b + 2(a + b) b + (a + b) b −a −a − (a + b) −a − 2(a + b) −a − 3(a + b) Enrique M. + ∗ Como consecuencia. la primera vez que lo alcanza despu´s de haber alcanzado e b. . Caba˜a. con notaciones an´logas. del reflejado a2 = b+3(a+b) de a1 respecto de b1 . j2h = j + 2h(a + b). etc. hasta haber alcanzado m reflexiones. . − Nm (j) La cantidad de trayectorias que alcanzan alguno de los dos niveles y ter- De la misma manera. 1. ∗ jm es el punto que se obtiene reflejando j m veces. con j−2h = j − 2h(a + b).3: Reflexiones sucesivas de j respecto del par de niveles −a y b. se procede para calcular a ∗ ∗ ∗ = N (j−m ). si convenimos en que j0 = j. luego respecto del reflejado a1 = b+(a+b) de −a respecto de b. Nm (j) = N (jm ). luego del reflejado b1 = b + 2(a + b) de b respecto de a1 . .. ∗ (−) (+) ∗ j3 = 2b − j + 2(a + b) ∗ j2 = j + 2(a + b) (−) (+) ∗ j1 = 2b − j ∗ j0 = j (−) (+) ∗ j−2 = j − 2(a + b) ∗ j−1 = −2a − j (−) ∗ j−3 = 2a − j − 2(a + b) Figura 4.

n! = √ 2π. vamos a calcular el l´ o o ımite cuando n tiende a infinito de las probabilidades asociadas a la distribuci´n o binomial: 1 n+ 2 lim . > 0) y termina en Sn = j es el que ∗ indica (4.2) 4.1. La f´rmula de Stirling describe el comportamiento asint´tico de n! cuando n o o tiende a infinito: Teorema 4. Est´ contenida en los ejercicios del final de esta secci´n. h Resumimos lo que precede en el siguiente enunciado: Teorema 4. se cumple n! nn+ 2 e−n y.Introducci´n a la probabilidad. y la cantidad de trayectorias que terminan en Sn = j sin haber alcanzado ninguno de los dos niveles −a y b es. h > n.3. o u El n´mero de trayectorias de un paseo al azar de longitud n que no alcanza u ninguno de los dos niveles −a y b (a. ∗ (n − jm )/2 (4. b.2. y cuando h no es entero.2 La f´rmula de Stirling y el l´ o ımite de las probabilidades binomiales. por complemento. n→∞ 1 = √ 2πeλn /12n . o ´ 4.1 Para cada n. e−n n Demostraci´n. con la convenci´n (4. 0 ≤ λn ≤ 1. (4.1) con la convenci´n de que o n = 0 cuando h < 0. ∞ ∗ (−1)m N (jm ) = m=−∞ ∞ (−1)m m=−∞ n . como consecuencia. minan en j es por lo tanto ∞ ++ −− N1 + N1 = m=1 + − (−1)m−1 (Nm + Nm ) = m=1 ∞ 53 ∗ ∗ (−1)m−1 (N (jm ) + N (j−m )). Formula de Stirling.2) y los valores de jm indicados en la Figura o 4.1).2 (Principio de Reflexi´n M´ltiple).2 o a o Como ejemplo de una aplicaci´n de esta f´rmula.2.

h − y trataremos de acotar esta diferencia por una expresi´n que tienda a cero. vincularemos la suma del segundo miembro de (4.1 Verificar el siguiente Teorema de De Moivre: Teorema 4.3) donde pn. p). a Vamos a calcular entonces log Stirling escrita en la forma 2πnp(1 − p)pn.h = n h Para obtener el resultado del enunciado. np(1−p)≤b (4. n Cap´ ıtulo 4 Tres aplicaciones. ∗ Ejemplo 4. o √ γ2 1 = log 2π + log np(1 − p) 2 2 γ2 2 + log n! − log h! − log(n − h)! + h log p + (n − h) log(1 − p) + = 1 log np(1 − p) + (n + 1/2) log n − (h + 1/2) log h − (n − h + 1/2) log(n − h) 2 . Se cumple o Bn − np ≤b ≤ b = =   b a 1 2 √ e−t /2 dt. M´s precisamente. Para que esto suceda. u basta mostrar que √ n a<(h−np)/ max √ np(1−p)≤b (pn.2 Para a < b cualesquiera. log n! = (n + 1/2) log n − n + log Obtenemos log 2πnp(1 − p)pn. y Bn ∼ Bin(n. lim P a < n→∞ P a<   Bn − np np(1 − p) Demostraci´n.h . que tiene por l´ ımite la integral del enunciado del Teorema. lo que es equivalente. basta que la diferencia de los logaritmos cumpla una propiedad an´loga.h − e−γ /2 tiene una cota (uniforme en h o γ) que tiende a cero cuando n → ∞.2.h + γ 2 /2 utilizando la F´rmula de o √ 2π + λn /12n.3) con la suma de Riemann 1 a<(h−np)/ pn (1 − p)n−h es la probabilidad binomial. γ = (h − np)/ np(1 − p). Caba˜a.54 Enrique M. mostraremos que la diferencia entre las dos sumas tiene l´ a ımite cero. √ np(1−p)≤b 2πnp(1 − p) e−γ 2 /2 .2. Dado que el n´mero de sumandos es la parte entera de (b − a) np(1 − p). que 2πnp(1 − p)pn.h − e−γ 2 /2 / 2πnp(1 − p)) 2 tiende a cero o. 2π np(1 − p) a<(h−np)/ √ pn.

|An. que est´n vinculadas por γ = o a (h−np)/ np(1 − p).h = λn /12n − λh /12h − λn−h /12(n − h).2.6) (4. cuando se cumple a < γ ≤ b.h . λn λh λn−h γ2 + − − + h log p + (n − h) log(1 − p) + 12n 12h 12(n − h) 2 55 = con 1 γ2 p(1 − p) h/n h 1 − h/n h + An.7). B(x) uniformemente acotada para 2 3 4 2 |x| < const.4) tiende a cero uniformemente en γ. Para esta ultima expresi´n. y aplicar el desarrollo (1 + x) log(1 + x) = 2 3 4 2 (1 + x)(x − x + x − x + . o ´ 4.) = x + x +B(x)x3 .Introducci´n a la probabilidad. est´ acotado por una expresi´n independiente de γ que tiende a cero cuando a o e n tiende a infinito. resulta 1 1 + p 1−p B(γn /p) B(−γn /p) − p2 (1 − p)2 . ´ o obtenemos λn−h λh − nAn. Acabamos de mostrar que esto ocurre con el t´rmino An. Vamos a verificarlo ahora separadamente para los dos otros sumandos que componen (4. es decir. Al reemplazar h/n = p + γn en (4. < 1.h | ≤ C/n. 2 2 que tiende a cero uniformemente en γ. (4. −n log − (1 − ) log 2 n p n 1−p 1 1 − log(1 + γn /p) − log(1 − γn /(1 − p)).6).h = λn − 12(p + γn ) 12((1 − p) − γn ) Recordemos que nuestra meta es mostrar que (4. Vamos a eliminar h introduciendo una variable intermedia γn = √ h p(1 − p)/ n.7) Al reemplazar h/n = p + γn en (4.h + log −n log − (1 − ) log (4. . (4. pero no de n.4) 2 (h/n)(1 − h/n) n p n 1−p 2 An. Reemplacemos primeramente h/n por p + γn en (4. se obtiene: γ2 − np(1 + γn /p) log(1 + γn /p) − n(1 − p)(1 − γn /(1 − p)) log(1 − γn /(1 − p)) 2 = γ2 − np 2 γ2 γn γ 3 γn + n + B( ) n 2 p 2p p p3 = 1 2 γ2 − nγn 2 2 − n(1 − p) 3 − nγn 2 3 −γn γn −γn −γn + + B( ) 3 2 1 − p 2(1 − p) p p que nos permite concluir que. . para n suficientemente grande. Dado que los sumandos que intervienen en nuestros c´lculos a n −p = γ son aquellos para los que a < γ ≤ b resulta como consecuencia que limn→∞ γn = 0.4): 1 p(1 − p) log h h 2 n (1 − n ) y γ2 h/n h 1 − h/n h . ni de h. Formula de Stirling.5) La expresi´n precedente incluye las variables h y γ. donde C es una constante adecuada que depende de p (0 < p < 1).5).

al tiempo o o a que realizaba estudios en el Coll`ge de Harcourt en Par´ e ıs.. 2Kn < i ≤ 2n.2. . (iii) Para cada n. acerca de qui´n era el creador del c´lculo. que vale 1. concluir que la sucesi´n dn − 12n es creciente. ∗ B(γn /p) B(−γn /p) − p2 (1 − p)2 y esta expresi´n tambi´n tiende uniformemente a cero.1 (i) Utilizando el desarrollo 1+x x3 x5 x7 1 log =x+ + + + . j = 0. . . Abraham (1667-1754). simple Sj .. y acotar la velocidad de convergencia. deducir que dn tiene un l´ ımite. 2n. e o Ejercicio 4. que llamaremos ℓ. tom´ lecciones privadas de matem´tica con un tutor. n Cap´ ıtulo 4 Tres aplicaciones. y. Si = 0. y define la independencia. Luego de realizar estudios de o l´gica.. y la us´ en 1733 para encontrar el l´ e o o ımite de las probabilidades binomiales. Francia. b. llamamos Kn a la variable aleatoria definida por las condiciones: S2Kn = 0. En 1697 fue elegido miembro de la Royal Society.2 Dado un paseo al azar sim´trico.. . .56 −γ 2 p(1 − p)γn Enrique M.. = eℓ (iv) Obtener la F´rmula de Stirling limn→∞ n+n! o 1 n 2 e−n Ejercicio 4. o e . e (i) Mostrar que la probabilidad u2n = P{S2n = 0} coincide con la probabilidad de que Sj no se anule para j = 1. e a Su tratado The Doctrine of Chance publicado en 1718 estudia diversos problemas relativos a juegos de azar. .2. 0 ≤ a < b ≤ 1. o Perteneci´ a una familia protestante. por razones n pol´ ıticas y religiosas. 2 N5. (Al resultado que se obtendr´ se le suele llamar Ley del Arcoseno ). naci´ el 26 de mayo de 1667 en Vitry. donde dn = log n! − (n + 2 ) log n + n y deducir que la sucesi´n o dn es decreciente. 1. Encontrar la distribuci´n de probabilidades de o Kn . deducir que la constante ℓ que interviene en la F´rmula de Stirling (ver el ejercicio anterior) vale o √ log 2π. (iv) Dadas las constantes a. 2 1−x 3 5 7 1 desigualdad. Expresar la probabilidad de {0 ≤ Kn ≤ n}. y trabaj´ o como tutor privado. Si = 0. tuvo dificultades en ser reconocido. (ii) Calcular la probabilidad α2k. Tambi´n obtuvo la famosa f´rmula (cos x + ı sin x)n = cos nx + ı sin nx. A los 18 a˜ os de edad. . pasando al l´ ımite en cada sumando.2n = P{S2k = 0. 1 1 1 (ii) Deducir tambi´n que dn − dn+1 ≤ 3(2n+1)2 = 12n − 12(n+1) y a partir de esta e . Caba˜a. luego de la expulsi´n de los Hugonotes de Frano cia. a 1 calcular dn − dn+1 . o (iii) De (i) y (ii). y en 1710 integr´ o una comisi´n de la Sociedad que deb´ dirimir una controversia entre o ıa Newton y Leibniz.de Moivre. tuvo que emigrar a Inglaterra. 2. En 1730 descubri´ la llamada F´rmula de Stirling (que lleva el nombre o o de Stirling porque ´ste obtuvo una versi´n mejorada). Abraham de Moivre. calcular limn→∞ P{a < Kn /n ≤ b}. como suma de las probabilidades individuales. 2k < i ≤ 2n}. 2. Como extranjero.

Nos adelantamos desde ya a plantear algunas aplicaciones de los elementos de probabilidad que estamos estudiando. se ha hecho una campa˜a publicitaria en favor de la opci´n o n o “A”.3 Una aplicaci´n estad´ o ıstica: inferencia sobre el par´metro en un modelo de Bera noulli. Se desea verificar el ´xito de la campa˜a. o Supondremos dadas n observaciones independientes de una distribuci´n de o Bernoulli con par´metro p (es decir. La estad´ ıstica constituye una importante motivaci´n para el estudio de la o probabilidad. n variables i. “A” y “B”. sobre su preferencia. o ´ 4. Ejemplo 4. 57 4. se nos plantea dar respuesta a la pregunta ¿Cu´nto vale p? o al a menos a la pregunta ¿Es p mayor que 1/2? . ∼ Ber(p)) y buscaremos a argumentos probabil´ ısticos que nos ayuden a tomar decisiones en relaci´n con o p.3. de modo que si se elige al azar un integrante de la poblaci´n. Por lo tanto.1 Preferencias de consumidores ante una opci´n binaria. Una aplicacion estad´ ıstica. o a donde p es la proporci´n de integrantes de la poblaci´n que optan por “A”. e A partir de esa situaci´n. La campa˜a es exitosa cuando p es mayor que 1/2. n En cualquier caso. p).i. consumen cierto producto que viene presentado de dos maneras diferentes.3. independientemente. es tambi´n la probabilidad de respuesta “A” cuando se pregunta a un e individuo elegido al azar. sin pretender mayor generalidad.3. la probabilidad de que o prefiera “A” es 1/2 (y la de que prefiera “B” es tambi´n 1/2). Llamemos o H al n´mero de respuestas favorables a “A”.Supongamos o que se admite que los integrantes de cierta poblaci´n tan grande que podemos suponer o infinita. o 4. y por o o consiguiente. la variable H tiene distribuci´n binomial con par´metros (n. y es adem´s una fuente de interesantes problemas probabil´ a ısticos.Introducci´n a la probabilidad. u Una campa˜a exitosa estar´ indicada por un alto valor de H.d. y tanto m´s exitosa cuanto mayor n a sea p. El problema que nos n a planteamos es c´mo usar el resultado H de nuestra consulta para medir el ´xito de o e la campa˜a. y para ello se consulta a n integrantes e n de la poblaci´n elegidos al azar. ı Lo haremos en relaci´n a un ejemplo. y que no tienen preferencia por ninguna de esas dos presentaciones.1 Introducci´n. a situaciones que podr´n ser descritas y a estudiadas como problemas de inferencia estad´stica.

Aprovechar los resultados para constatar la correcci´n o de la Figura 4. y varios valores de n. y con n = 50.4. que depender´ del valor de H. 0. Para ciertos e valores de H responderemos “S´ y concluiremos p > 1/2. para adaptarla mejor a la situaci´n que. el valor de c que induce el valor de α m´s pr´ximo a 5% (con a o 10 n = 10. a o 0. puesto que es a n una probabilidad de error. n − 1. tiene probabilidad π(p) = P{Bin(n.58 Enrique M. y por lo tanto s´lo n + 2 valores posibles de α.4 muestra la forma de π(p) para α aproximadamente igual a . o del intervalo [0.6. el mismo suceso que ahora nos conduce a la respuesta correcta.05.77%. seremos capaces de o resolver. Conviene tener en cuenta que para obtener el valor aparentemente optimo α = 0. y o que π(1/2) = α. y concluir p > 1/2 si y s´lo si H > c. de modo que resulta natural elegir una constante n c adecuada. Se concluye que el valor de c ser´ adecuado cuando α resulte peque˜o. ∗ La segunda pregunta es m´s simple. pero previaa mente reformularemos la pregunta. 1. El valor 5% no puede obtenerse de manera exacta en general. . lo que tiene por consecuencia π(p) = 0 para todo p.95%). que para nuestra figura u n hemos fijado en aproximadamente 5%. es inmediato verificar que π(p) es una funci´n continua de p. calcular π(p). n Cap´ ıtulo 4 Tres aplicaciones. 1] si se admitera que la campa˜a u n puede ser contraproducente. puesto que es una probabilidad de acierto. o a saber. dada o la naturaleza del problema y de la informaci´n que poseemos. obtenemos c = 7 y α = j=8 10 2−10 = 56/1024 = 5. Caba˜a. ya que s´lo hay un conjunto finito de sucesos de la forma {H > c}. y p = 0. c = 30 y α = 5. 0.5. verificar que el valor de c para el que α es lo m´s pr´ximo posible a 5% es 7. . Para saber si un c dado es o adecuado. o Intentaremos dar una respuesta binaria. j obtenemos c = 13 y α = 5. . Ω (para c < 0). es ´ preciso elegir c ≥ n. y para otros valores de H ı” responderemos “No” y no concluiremos p > 1/2. a o ı” mientras que a la primera se puede responder al menos con cualquiera de los infinitos n´meros reales del intervalo [1/2. en vez de la pregunta ¿Es p mayor que 1/2?. y en ese caso el procedimiento es inoperante. Ejercicio 4. el suceso H > c que nos lleva a concluir err´neamente p > 1/2 tiene probabilidad α o = P{Bin(n. 1]. 0. de modo que es imposible conseguir simult´neamente ambas metas.9 y 1. Sin embargo. .1 Para n = 10.47%. Para la figura hemos o elegido para cada n. evaluemos las consecuencias de nuestro procedimiento. Para ese valor de c.3.7. p) > c}. la nueva pregunta ¿Nos alcanza la evidencia experimental dada por el valor de H para concluir que p > 1/2? La respuesta adecuada a esta pregunta es tambi´n binaria. con n = 20. Ya hemos observado intuitivamente que los valores grandes de H son los que corresponden a una campa˜a exitosa. ∅ (para c ≥ n) y cada uno de los sucesos {H > c} para c = 0. a La Figura 4.8.2 Un primer esquema de soluci´n. Por ese motivo se descarta utilizar α = 0.3. y es preciso elegir para α alg´n valor tolerablemente peque˜o. Nos haremos. y π(p) resulte grande. mientras que para cada p > 1/2. . 1/2) > c}. Cuando p = 1/2. 4. porque admite s´lo dos respuestas: “S´ o “No”.

50 en funci´n de p. el m´ ınimo n para abaratar el costo de la decisi´n . π0 = 60%. iguales a (1/2. para n = 10. para que u resulte efectivo.3 Algunas generalidades sobre la prueba de hip´teo sis. cuando p > p0 .para el que se cumpla esa desigualdad). y completado con un mayor n´mero de curvas correspondientes a otros valores de n. y se toma la decisi´n de acuerdo o al procedimiento descrito arriba. elegir el n adecuado para que π(p0 ) ≥ π0 (es decir. o Como resumen de resultados de nuestro an´lisis. Por ejemplo. con α = 5%. correspondiente a n la probabilidad de decidir que la campa˜a ha tenido ´xito cuando en la realidad las n e probabilidades de respuesta siguen inalteradas.4 nos lleva a concluir que basta tomar n ≥ 20. podemos concluir que un procedia miento razonable para decidir si la campa˜a ha sido exitosa consiste en (a) fijar un n nivel de probabilidad α que se considere relativamente peque˜o. El t´rmino contra debe intero e . al menos con probabilidad π0 .Introducci´n a la probabilidad. 20. El procedimiento que hemos llevado a cabo en nuestro ejemplo suele llamarse prueba de la hip´tesis p = 1/2 contra la alternativa p > 1/2. p0 = 70%. 2 4. Se o consultan entonces n individuos independientemente. 59 n = 50 n = 20 n = 10 Figura 4.3. se considere importante reconocer que la campa˜a ha tenido ´xito. Una aplicacion estad´ ıstica. correspondiente al valor de α elegido.4.4: Probabilidad de decidir que la propaganda es efectiva. la Figura 4. 1/2). o ´ 4.3. por ultimo. en un n e ´ a ´baco como el de la Figura 4. y. (b) elegir una probabilidad p0 > 1/2 tal que.

en nuestro ejemplo: la campa˜a n publicitaria. y esto es claramente un error. opera de la manera deseada. y o nuestra decisi´n basada en la informaci´n experimental. la hip´tesis o o o nula puede ser falsa o verdadera. Si llamamos H0 a la hip´tesis nula y H1 a la hip´tesis o o o alternativa. Cada una de las dos posibilidades reales puede aparecer combinada con cada una de las dos decisiones posibles. En cambio. porque en ese caso estar´ justificado para dar los pasos necesarios para ponerlo en pr´ctica. p > 1/2. pero le resultar´ in´til gastar a ıa u esfuerzos en demostrar que el procedimiento no es operativo. Y mientras no est´ convencido que es a e operativo. o Puede argumentarse que cuando se produce un error de tipo II. Nuestro n ıa inter´s es demostrar. En nuestra decisi´n. rechazar la hip´tesis nula cuando es falsa. no rechazar la hip´tesis nula. p continuar´ valiendo 1/2. sino que se est´ desaprovechando la oportunidad de tener un e a acierto. si es posible. es claro que hemos comparado ambas posibilidades o hip´tesis. Caba˜a. y por lo tanto. y a esta situaci´n se la llama error de tipo II. tenemos que comparar dos situaciones. Si la campa˜a fuese inoperante. hip´tesis alternativa. que se cumple otra hip´tesis diferente. En la realidad. Tambi´n o e es claro que ambas hip´tesis no juegan un papel intercambiable en el problema. La realidad desconocida. le podr´ interesar mejorarlo o cambiarlo. . las otras dos combinaciones son indeseables: Dar por falsa la hip´tesis o nula cuando es verdadera. en nuestro e o caso. o bien o o (2) entender que no hay evidencia experimental que justifique ese rechazo. sobre cuyos resultados hay a priori incertidumbre. que es la hip´tesis que se adoptar´ cuando se o o a rechaza la hip´tesis nula. Tambi´n se utiliza el t´rmino contraste como sin´nimo de prueba. y es simplemente una abreviatura o o frecuente en el l´xico de los estad´ e ısticos.60 Enrique M. La hip´tesis p = 1/2 estaba aceptada como v´lida antes de aplicar el proo a cedimiento sobre cuyo resultado hay incertidumbre. y o vale la pena enfatizar que tampoco lo han jugado en el esbozo de soluci´n que hemos o propuesto. ∗ pretarse como sin´nimo de en comparaci´n con. o La soluci´n que hemos propuesto. En efecto. o La asimetr´ de la decisi´n est´ en general justificada por razones pr´cticas: al expeıa o a a rimentador interesado en demostrar que cierto procedimiento. si lo es. no le interesa en cambio aportar argumentos para demostrar que ese procedimiento es inoperante. que suele llamarse error de tipo I. podemos darla por falsa o no o hacerlo. A la n primera hip´tesis suele llam´rsele hip´tesis nula. se lo hace con cierta o hip´tesis alternativa como referencia. al procedimiento de decisi´n se lo llama abreviadamente una prueba de o H0 contra H1 . Le interesa a demostrar que es operativo. o e e o Cuando se contrasta o se pone a prueba una hip´tesis nula. Dos de estas combinaciones son deseables. y a la que querr´ o a o ıamos demostrar (en tanto sea verdadera). De acuerdo al esquema que hemos utilizado para plantear el problema y para aportar una soluci´n. y no rechazarla cuando es falsa. o y no rechazarla cuando es verdadera. conduce a una decisi´n binaria y asim´trica: (1) o o e rechazar la hip´tesis nula y adoptar como verdadera la hip´tesis alternativa. con lo que mostrar´ ıamos que la campa˜a ha surtido efecto. no se est´ cometiendo a t´cnicamente un error. n Cap´ ıtulo 4 Tres aplicaciones. se lo llama una prueba de la o hip´tesis nula. Al procedimiento utilizado para adoptar la decisi´n.

4 describe las potencia de las pruebas asociadas a tres valores diferentes de n. se adopta la decisi´n de rechazar H0 . y la otra es su complemento.i. . . . y en vez de la notaci´n π(Bin(n. E = {0.i.3. en nuestro caso. en dos regiones. . n}. se dice que es una hip´tesis compuesta. . 1. a A menudo. .d. . Cuando una hip´´ o o tesis.Introducci´n a la probabilidad.d. . . o Como hemos visto. y si resulta en S c no se rechaza H0 . H0 especifica una unica distribuci´n de probabilidad. contiene una sola distribuci´n de probabilidades. o ´ 4. Cuando H0 es compuesta. . p)) se ha optado por la notaci´n m´s a o o a simple π(p). o Supondremos que la informaci´n experimental es un punto en cierto conjunto E de o resultados posibles de los experimentos realizados. . Cada distribuci´n F compatible con H1 est´ identificada por un valor del o a par´metro p. y que S es un subconjunto de E perteneciente a la σ-´lgebra. Una de ellas es la regi´n de rechazo o regi´n cr´ o ıtica.d. Para cada F compatible con H1 .i. se dice que es o una hip´tesis simple. En caso contrario. π(F ) = P{(X1 . y la informaci´n experimental es H con valores en E. que denotaremos S. o a a Supondremos que E est´ dotado de una σ-´lgebra (en este caso 2E ) de modo que H es una variable aleatoria. Xn ) ∈ S : (Xi ) i. . Xn ) ∈ S : (Xi ) i. ∼ F }. . Si la muestra resulta en S. se llama nivel de la prueba al supremo F ∈H0 sup P{(X1 . Xn ) ∈ S : (Xi ) i.5: Errores de tipos I y II en una prueba de hip´tesis. A esa probabilidad se la llama nivel de la prueba. el procedimiento consiste en dividir el conjunto de los resultados o o posibles de la experimentaci´n. . sea H0 o H1 . . . o o Cuando H0 es simple. Una aplicacion estad´ ıstica. ∼ F } se llama potencia de la prueba asociada a F . una vez dada S queda determinada la probabilidad α = P{(X1 . . F especificada por H0 de cometer un error de tipo I. ∼ F }. La Figura 4. Decisi´n o Rechazamos H0 Naturaleza   H0 es cierta  H0 es falsa Error de tipo I Error de tipo II No rechazamos H0 61 Figura 4.

Nos limitamos ahora a indicar un par de criterios para elegir un estimador. elegiremos entonces como estimador de p el valor p que ˆ H p (1 − p) n ˆ maximiza H pH (1 − p)n−H para 0 ≤ p ≤ 1. para los que puede encontrarse una interpretaci´n heur´ o ıstica: • De todos los valores posibles de p. Se podr´ aducir que una vez obtenido H. elijamos el que hace m´s probable el resultado a H obtenido. y s´lo de H. . A. En pr´ximos cap´ o ıtulos estudiaremos medidas de la concentraci´n de o esa distribuci´n respecto a p que muestran que el estimador obtenido tiene buenas o propiedades. . a o n puesto que no conocemos p. Si esto no fuese suficiente para determinar el (los) par´metro(s). En nuestro caso tenemos una a unica observaci´n H de Ber(n. cuya distribuci´n es Bin(n. 1]. 1] que para o cada H especifique un valor T (H) para p. p ˜ En ambos casos hemos obtenido el mismo resultado. cuya a consideraci´n pospusimos para considerar inicialmente una pregunta aparentemente o m´s simple. n Cap´ ıtulo 4 Tres aplicaciones. Por ejemplo. esa distribuci´n es lo (´nico!) que nos permite valorar o u . p). cu´l es su distribuci´n de probabilidades. Interesa saber qu´ propiedades e tiene nuestro estimador. llamamos distribuci´n emp´ o ırica a la distribuci´n de probabilidades que o 1 asocia iguales probabilidades (con valor m ) a cada una de las m observaciones. Diremos en ese caso que T es un estimador de p y que T (H) es la estimaci´n de p correspondiente al valor experimental obtenido o H. .62 Enrique M. En nuestro ejemplo. Por lo tanto. y basta igualar n˜ = H para obtener p = H/n. ∗ 4. y ıa o a su error H − p ya no est´ sujeto a ninguna distribuci´n de probabilidad. Sin embargo. la manera de elegir un valor de ´ o p en respuesta a la pregunta. de modo que la distribuci´n emp´ ´ o o ırica est´ a concentrada en H. como se deduce sin dificultad. dado que la probabilidad del resultado H es n H n−H .3. y as´ hasta que resulte suı ficiente para determinar el o los par´metros. ya que esta o es la unica informaci´n que poseemos. elijamos aqu´l p para el que la esperanza e ˜ de la distribuci´n y la de la distribuci´n emp´ o o ırica coinciden. La informaci´n experimental u o que disponemos es la variable aleatoria H. es definir una funci´n T : {0. se busca la igualdad de las a variancias. a o y cu´n concentrada est´ esa distribuci´n alrededor del par´metro que pretendea a o a mos estimar. a • Cuando hemos realizado m observaciones independientes de una variable aleatoria. a diferencia de ´sta. . o a Volvamos ahora sobre la pregunta ¿cu´nto vale p? que formulamos al comienzo. que puede ser a o e respondida con cualquier n´mero en el intervalo [0. Fisher y a ´l se asocia el e nombre de m´xima verosimilitud. Este criterio fue introducido por R.4 Estimaci´n de p. luego de los momentos de tercer orden. n} → [0. Es razonable o que una respuesta a la pregunta formulada dependa de H. Caba˜a. De todos los valores posibles de p. o Estimaci´n puntual cl´sica. p). por admitir s´lo dos respuestas. la estimaci´n resultante est´ determinada. a saber: p = H/n.

b. β − 1) −B(α + 1. obtenemos h o P{H = h} = c n B(h + 3. Esta distribuci´n deber´ depender de los resultados experimentales.3. Llamemos a 1 c = ( 0 u2 (1 − u)2 du)−1 . 63 las propiedades del estimador. de la misma manera que el valor de venta o reventa de un billete de loter´ depende de la probabilidad de que ese billete gane el premio.Introducci´n a la probabilidad. En aqu´l caso conoc´ ıamos las probabilidades (a priori) de que un paciente tomado al azar entre los que acuden a una consulta padeciera la enfermedad Ei (i = 1. 2. o Por ejemplo. En el caso presente. La integral que nos permite calcular c es un caso particular de 1 B(α. (α + β − 1)! = 1 30 . sino a´n despu´s. o a e de H. Esta forma de proceder tiene un antecedente en el Ejemplo 2. H atribuye al suceso {a < p < b. si la operaci´n ha de realizarse o u e o con total desconocimiento del resultado del sorteo. en nuestro caso. o ´ 4. β) = 0 uα−1 (1 − u)β−1 du = Esta f´rmula es inmediata para β = 1. Eligiendo a = 0 y b = 1. Al igualar las dos expresiones obtenidas para la probabilidad de {a < p < b. H = h} = P{H = h} a fp|H=h (u)du. supongamos que nuestra distribuci´n a priori para p tiene densidad o fp (u) proporcional a u2 (1 − u)2 . y nos pregunt´bamos por la probabilidad condicional (a posteriori) de que padeciera la ena fermedad E1 . H = h}. β) o o = B(α. c = B(3. 3) = 2!2! 5! (α − 1)!(β − 1)! . o En particular. podemos asumir que existe incertidumbre sobre el valor de p y describirla mediante un modelo probabil´ ıstico: nuestra respuesta ser´ una distribuci´n de proıa o babilidades para p. o Existe tambi´n una posibilidad alternativa: en vez de elegir un valor de p como rese puesta. de modo que fp (u) = cu2 (1 − u)2 . ıa no s´lo antes de realizado el sorteo. n = h + 3). Una inducci´n en β a partir de B(α. dado que posee ciertos s´ ıntomas vinculados a las tres enfermedades de cierta manera conocida.6. Estimaci´n bayesiana. H = h} (0 ≤ a ≤ b ≤ 1) la b probabilidad a cu2 (1 − u)2 n uh (1 − u)n−h du. 3). h . β − 1) permite completar la verificaci´n. Podemos observar ahora que la distribuci´n h condicional de p dado H = h tiene densidad fp|H=h (u) que satisface b P{a < p < b. podemos dar una respuesta an´loga: a si conocemos una distribuci´n de probabilidades para p que describa nuestra incero tidumbre a priori sobre el valor de ese par´metro. nuestra composici´n de lugar a posteriori sobre p pasar´ a estar descrita por o a la distribuci´n condicional de p dada H. La distribuci´n condicional de H dado p es Bin(n. una vez que conozcamos el valor a de H. que est´ concentrada alrededor de 1/2. de manera que la distribuci´n o o conjunta de p.1. resulta la igualdad de los integrandos: a cu2 (1 − u)2 n h u (1 − u)n−h = P{H = h}fp|H=h (u). p). Una aplicacion estad´ ıstica. v´lidas para toda pareja a.

La constante de proporcionalidad c n (P{H = h})−1 queda determinada para que la integral en (0. 1) h valga 1. Caba˜a. Como resultado de nuestro proceso de estimaci´n. de manera que los c´lculos ya realizados a de c y de la probabilidad de {H = h} son innecesarios. n Cap´ ıtulo 4 Tres aplicaciones. en vez de describir nuestra incero tidumbre sobre p por medio de la distribuci´n a priori con densidad fp .64 Enrique M. o El valor m´s probable a posteriori del par´metro es entonces (H + 2)/(N + 4). fp|H=h (u) es proporcional a uh+2 (1 − u)n−h+2 . ∗ Como consecuencia. y debe valer (B(h + 3. a a . n − h + 3))−1 . n−H +3). lo haremos por o medio de la distribuci´n a posteriori fp|H (u) = uH+2 (1−u)n−H+2 /B(H +3.

´ A lo largo de este juego se pueden producir cuatro situaciones. e 65 . con la suposici´n ı o de que el dado es sim´trico. y por lo tanto el ´ jugador se dispone a realizar un nuevo lanzamiento. o estados del juego: I: El jugador se dispone a arrojar el dado por primera vez. Vamos a considerar tambi´n otros e ejemplos. Cuando el resultado de este nuevo lanzamiento es 1. Si el resultado es a = 1 realiza un nuevo lanzamiento independiente. gana.1 Algunos ejemplos. perder´ si obtiene 1 y volver´ a la misma situaci´n si obtiene a a o cualquier otra cara del dado. En este caso ganar´ a si obtiene a. R: El ultimo lanzamiento no define el resultado del juego. El diagrama de la Figura 5. as´ como sus respectivas probabilidades. y las flechas que los vinculan indican las transiciones entre estados que pueden ocurrir a medida que transcurre el juego. ∗ Cadenas de Markov 5.1 indica los estados posibles. pierde. gana. para luego introducir una definici´n formal. como resulta de la definici´n que veremos m´s adelante. Un jugador arroja un dado. y cuando no es 1 ni a. N: El jugador ha obtenido un resultado desfavorable y por lo tanto pierde. vuelve a realizar un lanzamiento independiente. hasta que por primera vez el resultado sea 1 o a. o Ejemplo 1. Si el resultado es 1. Los paseos al azar estudiados en cap´ ıtulo §4 pueden replantearse como ejemplos de cadenas de Markov. o a El Ejemplo 3 de la siguiente lista corresponde precisamente a un paseo al azar con un par de barreras absorbentes. con el cual se procede de la misma manera. G: El jugador acaba de realizar un lanzamiento exitoso y por lo tanto gana el juego.5. Cuando es a.

ninguna (Su ganancia neta es 1 o −1. es decir. 2. que suponemos un n´mero entero de unidades monetarias. o bien hasta perder todo su capital. a saber. hasta retirarse con un capital C + G (correspondiente. . N computadoras ocupadas en cada instante. u Este sistema tiene N + 1 estados posibles: 0..66 Enrique M. . ∗ G 1/6        T 1/6 I E R 1/6 c N 4/6 5/6 Figura 5. y apuesta en sucesivas u instancias una unidad. Si gana recibe dos unidades. Los estados del sistema que describe las sucesivas instancias de esta situaci´n son los posibles montos en poder del jugador al o t´rmino de cada apuesta. o bien sujeto a un modelo aleatorio que asigna a cada estado Ej de E la probabilidad πj de ser el estado inicial. . Caba˜a. Un laboratorio de computaci´n tiene una sala con una red de N o computadoras personales. 0. posiblemente determin´ ıstico. 1. Un jugador llega a una casa de juego con un capital C. luego de lo cual no puede seguir arriesgando. C + G. por ejemplo. E2 . Contin´a este procedimiento u u hasta obtener una ganancia G. y se registra el n´mero de computadoras ocupados. Se observa la sala a intervalos regulares de tiempo. En un instante dado que llamaremos 1. . 1. A este estado lo llamaremos X0 . .2 Cadenas finitas homog´neas en el tiempo e El modelo que describimos a continuaci´n puede utilizarse para estudiar las o situaciones de los ejemplos precedentes. a la ganancia m´xima que la casa de juego est´ a a dispuesta a cubrir). . Ejemplo 2.. n Cap´ ıtulo 5 Cadenas de Markov. Ejemplo 3.1: Diagrama de estados y transiciones de la cadena del Ejemplo 1. . y si pierde. el sistema pasa de X0 a un nuevo . Ek }. . En E hay un estado inicial. seg´n gane o pierda). Se tiene un conjunto o espacio de estados finito E = {E1 . . . e 5.

j=1. . . h = 1. Xh = Eih . que tambi´n es un elemento e del espacio de estados E. no importa cu´l haya sido la trayectoria que condujo a al estado Ei al cabo de las primeras n − 1 transiciones. X1 .. para cualesquiera ´ ındices i.. dado que la trayectoria inicial llega a Ei en la n − 1-´sima transici´n. n a los estados Ei1 . . . 2. .j .j )i.2 + .1 + pi. e o es siempre la misma. .j .. o Luego. o P{Xn = Ej |Xn−1 = Ei . . . .1. la probabilidad condicional de que la transici´n n-´sima sea de o e Ei a Ej . .2.1).1 Llamamos cadena de Markov con espacio de estados E = o {Ei : i = 1. . Xn . o 5.. . el sistema pasa de X1 a X2 .. .. que llamamos probabilidad o de transici´n de Ei a Ej . Pi. A este pasaje lo llamamos una transici´n del sistema.k de las probabilidades de transici´n o tiene la propiedad de que los elementos de cada una de sus filas suman 1. antes de llegar a Ei en el instante n − 1. j y cualquier sucesi´n finita de estados (Eih )h=0.Introducci´n a la probabilidad. dado que si en un instante la cadena se encuentra en cualquier estado Ei .k a cualquier sucesi´n de variables aleatorias X0 . . Esto significa que el conocimiento de la posici´n del sistema luego de la o n − 1-´sima transici´n permite saber la distribuci´n (condicional) de probabie o o lidades de la posici´n luego de la siguiente transici´n. . 67 estado X1 . Las sucesivas transiciones son aleatorias.n−2 . o Definici´n 5. . . . .ih h=1 (5. .. . . .1.2... . que cumpla o (5. n. . Lo que caracteriza al modelo que estamos considerando es la forma sencilla en que se describen las probabilidades asociadas a las transiciones: La probabilidad condicional de que el sistema pase en los instantes 1. 1. de X2 a X3 . .. Notemos que la matriz P = (pi. . o Nota. 2. . . . .. k} y matriz de probabilidades de transici´n o P = ((Pi. + pi. Cadenas finitas..1) para cualquier n y cualquier sucesi´n de estados (Eih )h=0. .2. 3. . con independecia de la o o historia del proceso..j ))i..k de que luego de la pr´xima transici´n est´ o o e . Ei2 . . .j es una funci´n exclusiva de Ei y Ej ..2. 2. . h = 0. no necesariamente distinto del anterior. n − 2} = Pi.. ..2.j=1. . Como consecuencia de (5.. la probabilidad pi. de Xn−1 a Xn . En palabras. . en sucesivos instantes prefijados que llamaremos 2. n|X0 = Ei0 } = Pih−1 . . .1) donde Pi.. Ein dado que parte de Ei0 es n P{Xh = Eih . .

se ha a˜adido artificialmente a la descripci´n e n o original del problema que cuando el jugador llega al estado G que corresponde a ganar el juego. u con estado de llegada G despu´s de cada una de ellas. podemos deducir c´mo evoluciona π (n) . n Cap´ ıtulo 5 Cadenas de Markov. E2 . ∗ en alguno de los estados del sistema (E1 . 0) y la matriz de probabilidades de transici´n es: o    P =  0 5/6 1/6 0 0 4/6 1/6 1/6    0 0 1 0  0 0 0 1  Se observar´ que para inscribir el juego dentro del modelo general de una a Cadena de Markov homog´nea.. . contin´an realizandose las transiciones. (5.2) Esta f´rmula muestra que si sabemos c´mo se comportan las sucesivas poo o tencias de P . De la misma manera. π2 . Xn = i=1 k Ej } = i=1 P{Xn−1 = Ei . π2 . . πk ). 0. a partir de ellos. 0. pero son triviales. o 5. pueden calcularse por ejemplo las o (n) probabilidades πj = P{Xn = Ej }. Ek ) es necesariamente igual a 1. . En la secci´n que sigue vamos a ver que este es el caso del Ejemplo 1. . . π2 . R = E2 . el vector de probabilidades iniciales es π (0) = (1. . Para uniformizar la notaci´n.j . πk ) de probabilidades iniciales y la matriz P de las probabilidades de transici´n definen el comportamiento probabil´ o ıstico del sistema. El vector π = (π1 . si existiera o el l´ ımite limn→∞ P n = P ∞ . N = E4 . al vector π de probabilidades iniciales lo o (0) (0) (0) denotaremos π (0) = (π1 . e . i=1 De aqu´ resulta la igualdad π (n) = π (n−1) P . . . .3 Cadenas finitas con estados absorbentes. Xn = Ej } = k P{Xn−1 = Ei }P{Xn = Ej | i=1 (n−1) Xn−1 = Ei } = k πi pi. . Caba˜a. (n) Se deduce para cada j que πj = P{Xn = Ej } = P k {Xn−1 = Ei . Comencemos analizando el Ejemplo 1: Los estados son I = E1 . . .πk ) Para encontrar π (n) conviene proceder de manera inductiva: Supongamos (n−1) (n−1) (n−1) que conocemos π (n−1) = (π1 . entonces existe el l´ ımite de π (n) y vale π (0) P ∞ . Veremos c´mo. .68 Enrique M. que vale para n ≥ 1 y permite ı deducir por inducci´n completa o π (n) = π (0) P n . G = E3 . . Por ejemplo. .

1 . El diagrama ayuda a enumerarlos. queda absorbido all´ pues las transiciones ı. + Qn−1 ) → (I − Q)−1 . . no hay ning´n camino de longitud 2 (ni de ninguna otra u mayor que cero) que lleve a I.3.2.3. . en exactamente dos transiciones. . 5. En resumen. y tambi´n se obtienen por la e misma f´rmula los vectores de probabilidades correspondientes a los instantes o que siguen. (5/6)(1/6)) = (0. 20/36. Las probabilidades π (1) se obtienen de manera inmediata: dado que con certeza X0 = I = E1 . Observemos que la matriz P puede escribirse 1/6 0 0 5/6 Q R en la forma P = .. P3 = Q3 (I + Q + Q2 )R 0 I . p1. + Qn−1 )R 0 I y el l´ ımite se calcula f´cilmente cuando Qn → 0. porque en a ese caso (I − Q)(I + Q + Q2 + . . Para calcular cada componente de π (2) podemos calcular probabilidades a lo largo de cada uno de los caminos posibles que llevan de I a cada uno de los otros estados.R = .Introducci´n a la probabilidad. . . 0). 1/6. . siguientes son obligatoriamente de N a N . 11/36. Tambi´n hay un solo e camino que lleva a N . donde Q = 1/6 1/6 0 4/6 0 I 0 0 1 0 . con igual probabilidad que el anterior. (5/6)(1/6) + (1/6).0 = 0 0 0 1 De ello resulta que las sucesivas potencias son: P2 = Q2 (I + Q)R 0 I Pn = .2 .3 ..I = .. 5/36). se cumple π (1) = (p1. e I − G − G con probabilidad (1/6). 69 una vez que el sistema llega a N . y hay dos que llevan a G: I − R − G. y su probabilidad es (5/6)(4/6). El mismo resultado se encuentra aplicando 5. o 5. Qn (I + Q + Q2 + . y entonces (I + Q + Q2 + .4 ) = (0. p1. 5/6. Cadenas con estados absorbentes. y existe (I − Q)−1 .. p1. (5/6)(4/6). + Qn−1 ) = I − Qn → I. . . π (2) = (0.1 Partici´n en bloques de la matriz de probabilidao des de transici´n o Vamos a introducir una notaci´n que nos simplificar´ la verificaci´n de que las o a o potencias de P tienen l´ ımite. Finalmente. Hay un solo camino que lleva a R en dos pasos: I − R − R. con probabilidad (5/6)(1/6).

vuelve a arrojar los dos dados. o ninguno. y vale P ∞ = . Si no gana luego de la primera jugada. o . Si | z | denota el m´ximo de los valores absolutos de las componentes de z. o En cuanto al l´ ımite. basta verificar que cualquiera sea el vector z. pierde cuando saca 7 u 11. procede con independencia del resto. con probabilidad 1 − q. Teorema 5. deja el equipo con probabilidad p y permanece por una unidad m´s con a probabilidad 1 − p. n→∞ 0 I Ejercicios. Cada individuo. Ejercicio 5. con probabilidad q. ∗ En nuestro caso. n Cap´ ıtulo 5 Cadenas de Markov. Estos resultados est´n resumidos a a en el enunciado siguiente. y gana cuando vuelve a sacar a.3. ´ste se retira sin utilizar el e sistema. 11. donde Q es 0 I una matriz cuadrada con (I−Q) no singular y con la propiedad limn→∞ Qn = 0. lo que implica | Qn z |≤ (5/6)n | z |→ 0.70 Enrique M. entonces 0 (I − Q)−1 R lim P n = . y nos dice cu´nto vale. suponer que cada usuario utiliza el sistema un n´mero entero de unidades de tiempo. y repite la operaci´n cuando el resultado no es 7. 0 (I − Q)−1 R Se concluye que existe el l´ ımite. llamemos a a la suma. gana. En el caso del Ejemplo 2. Qn z → 0. Cuando est´n todas a las computadoras ocupadas. Caba˜a.3. a entonces | Qz |≤ (5/6) | z |. Al principio de cada unidad de tiempo puede llegar un nuevo usuario.1 Proponer modelos para describir las situaciones descritas en los ejemplos 2 y 3 de 5.3. la verificaci´n de que I − Q es no singular es inmediata. 1/2 1/2 El an´lisis precedente nos muestra condiciones bajo las que existe el l´ a ımite de las potencias de P . ni a. que en nuestro caso se reduce a o o 1 −5/6 0 2/6 cuya soluci´n es o M= 1/6 0 1/6 1/6 . Ejercicio 5.1 Cuando la matriz de probabilidades de transici´n de una cao Q R dena de Markov homog´nea finita es de la forma P = e . en caso a contrario.2 ¿Cu´l es la probabilidad de ganar en el siguiente juego de dados? a El jugador arroja dos dados simult´neamente. 7/12 5/12 . Si obtiene suma 7 u 11. si llega un nuevo usuario. 0 I Para calcular esta matriz observemos que (I − Q)−1 R es la matriz M soluci´n de la ecuaci´n R = (I − Q)M . Al cabo de cada unidad de u tiempo.

M . . dentro de los cuales se mueven n esferas el´sticas que rebotan en las paredes.1 Cuando existe una potencia de la matriz P de probabilidades de transici´n de una cadena de Markov finita que tiene una columna de eleo mentos estrictamente positivos. . est´ distribuido en dos compartimientos.) se elige uno de los individuos al azar. . Teorema de convergencia de probabilidades.Introducci´n a la probabilidad.1. est´ garana tizada por el Teorema 5. ı donde 1 designa un vector cuyas componentes son todas iguales a 1. y deducir cu´nto vale el l´ a ımite del vector de probabilidades. Mostrar que a esta o nueva cadena se aplica el Teorema 5. y Xn−1 − 1 si estaba en A. con di´metro ligeramente menor que el a a del orificio. con independencia de lo ocurrido anteriormente. Tambi´n puede pensarse que los compartimientos son dos recipientes cerrados e intercomunicados por un peque˜o orificio circular. de manera que el n´mero Xn de individuos en A en el instante n es Xn−1 + 1 si el individuo elegido u inmediatamente antes de n estaba en B. una de las esferas atraviesa el orificio. Inmediatamente antes de cada instante n (= 1. . . dentro del contexto de la Teor´ Cin´tica ıa e de los Gases.3. . si existe. B. . 1.4 Verificar que la existencia del l´ ımite en el Ejemplo 2. observar que P 2 es la matriz de probabilidades de transici´n de otra cadena cuyos estados son s´lo una parte de los de la cadena anterior. pasando al l´ ımite en la igualdad π (n) = π (n−1) P .3. . (c) Si P es la matriz de probabilidades de transici´n de la cadena obtenida en o o (a).4. que llamaremos 1. . mostrar que no existe limn→∞ π (n) . Ejercicio 5. Teorema 5.. Este modelo fue propuesto por Ehrenfest.4. El vector fila π ∞ es soluci´n de la ecuaci´n π ∞ P = π ∞ . 2. con N = 3. (a) Describir el fen´meno mediante una cadena de Markov. 3 . que se enuncia m´s abajo. M . 2.4. En el instante a 0 hay X0 individuos en A (y n − X0 en B). 2. En los instantes 1. p = . existe el l´mite de P n y es de la forma 1π ∞ . o 5. . que llamaremos A. 71 Ejercicio 5.5 Un conjunto de M individuos (M > 0).3 En la situaci´n del Ejemplo 2. o o .5 y q = . o (b) Si π (n) es el vector cuyas componentes son las probabilidades P{Xn = k} k = 0. . o identificar el l´ ımite π ∞ . 5. ..3.5.4 Teorema de convergencia de probabilidades en una cadena de Markov finita. a Ejercicio 5.4. y este individuo cambia de compartimiento. porque suele presentarse reemplazando los individuos por pulgas y los compartimientos por perros.1. Nota: Al modelo del ejercicio precedente se la llama Dog-Flea Model.

La inclusi´n es a o inmediata porque P tiene componentes no negativas y P 1 = 1. lleva ahora a a ´ concluir que el l´ ımite de las sucesivas im´genes de V ∩ S tiene volumen dimV a o dimensional nulo. Si B es un conjunto de la variedad lineal (k − 1dimensional. de modo que tambi´n lo es A. vamos a adelantar una demostraci´n que se basa fuerteo mente en la finitud del n´mero de estados.72 Enrique M.. . contenida estrictamente en el hiperplano que genera S. s´lo puede tener en com´n con a a u o u el borde de S el punto ej0 . de o manera que el area de A es necesariamente cero. n Cap´ ıtulo 5 Cadenas de Markov. La hip´tesis del Teorema expresa que para alg´n n0 y alg´n j0 . De all´ resulta que SP n0 ı est´ estrictamente contenido en S. cualquiera sea π . llamemos V a la variedad que genera. M´s a´n. .1) y la inclusi´n estricta de SP n0 en S implica | det P | < 1. . se trata de un hiperplano) generada por S. y una repetici´n del argumento originalmente aplicado a o las sucesivas im´genes de S para concluir que A tiene area 0. del que el Teorema 5. o Para terminar la demostraci´n del Teorema basta verificar que A contiene o un unico punto. De SP ⊂ S deducimos aplicando nuevamente P que SP 2 ⊂ SP .1 es un caso particular. deberemos posponer su demostraci´n hasta el Cap´ o ıtulo 10. y necesariamente ıo genera una variedad de dimensi´n menor que k − 1. todos los o u u n0 elementos de la columna j0 de P son positivos. Por tratarse de un convexo. Si A no fuera un punto. o k 1 Su imagen SP = {πP : π ∈ S} est´ contenida en S. y esto es una contradicci´n porque lim(V ∩ S)P n ⊃ A. el ´rea (o volumen a k − 1-dimensional) de BP es igual al area de B multiplicada por | det P | (ver ´ Ejercicio 5. a . y tiene por lo tanto un l´ o ımite A ⊂ S que es no vac´ ıo porque las sucesivas im´genes por cada nueva aplicaci´n de P son conjuntos a o e cerrados. formado por las combinaciones convexas de los vectores fila etr . Sin embargo. Caba˜a. etr de la base can´nica. La intersecci´n de V con S es o necesariamente llevada al cabo de n0 aplicaciones de P en un subconjunto estricto de V ∩ S. Por el momento.4. El conjunto A es invariante bajo P . que se refiere a una cadena cuyo conjunto de estados puede ser infinito. π1 = 1} (donde la desigualdad se interpreta componente a componente). El conjunto de los valores posibles del vector o π (0) es el simplejo S = {π : π ≥ 0.4. u Demostraci´n del Teorema. ∗ M´s abajo enunciaremos un teorema de convergencia de probabilidades en a una Cadena de Markov. Notemos por otra parte que estos conjuntos tambi´n son convexos. y por extensi´n de o n este razonamiento encontramos que la sucesi´n SP de subconjuntos de S es o decreciente por inclusi´n. ´ tiene interior no vac´ relativo al hiperplano generado por S. ya que A e = limn→∞ SP n = (limn→∞ SP n−1 )P = AP . que es el l´ ´ ımite de las probabilidades π (n) cuando n tiende a (0) ∞.

parece natural plantearse peque˜as variantes. u1 .4. . Se reemplaza u2 por ese mismo vector m´s un m´ltiplo de u1 para que el resultado sea ortogonal a u1 . πi es cero. uk . . y en cada instante 1.| det P |. . · uk 2 . Los n´meros a y b son enteros positivos dados. por ejemplo. 73 2 Ejercicio 5. . uk es | det U |. u2 . 2. 0 ≤ λ ≤ 1}. ´ Se sugiere observar que si. u2 . entonces C(P A) = P C(A) y vol(C(B)) = dist(O. a menos que haya alcanzado los niveles −a o b. o si es posible . y extender el resultado a una figura medible cualquiera: Si C tiene volumen V. menos que A se reduzca a un punto. Se sugiere fraccionar la demostraci´n en dos pasos: o Paso 1. . . (b) Deducir que.Introducci´n a la probabilidad. si P es una matriz de k × k. . X1 es impar. . (c) Si H es el hiperplano determinado por e1 . o o Esta observaci´n responde por la negativa a la cuesti´n planteada. P uk tiene volumen | det U |. . entonces el paralelep´ ıpedo de lados P u1 . En el caso general. u2 2 . ya que. a √ donde dist(O. P u2 . e2 . para cada n de distinta paridad que i. . Paso 2. . . . . . definimos C(B) = {λx : x ∈ B. Teorema de convergencia de probabilidades. . . . Por la ortogonalidad. En ese caso. . Xn tiene la paridad de n y como consecuencia las probabilidades no pueden (n) tener l´ ımite. o 5. Se a u reemplaza u3 por u3 m´s una combinaci´n lineal de u1 y u2 de modo que el resultado a o sea ortogonal a u1 y a u2 . pero esto no es posible. Si existiera (n) el l´ ımite limn→∞ πi deber´ ser cero. uk 2 ) y entonces (det U )2 = u1 2 · u2 2 · . el area o volumen k − 1-dimensional de P A es | det P | o ´ por el area de A. si es posible modificar n ligeramente la cadena de manera que las probabilidades tengan l´ ımite. se ı desplaza al nivel una unidad superior o una unidad inferior. porque hay un n´mero ıa u finito de estados y sus probabilidades para cada n suman 1.1 Consideremos el siguiente paseo al azar con barreras reflectoras: Una part´cula parte del nivel (estado) X0 = 0. u Se propone calcular el vector de probabilidades l´mite.4. en o general. . U tr U = diag( u1 2 . uk ortogonales. . . . u2 . H) (= 1/ k) es la distancia del origen al hiperplano H. Ejemplo 5. ni el determinante de U ni el volumen del paraıpedo cambian cuando el conjunto de vectores se ortogonaliza por el siguiente lelep´ procedimiento (de Gram-Schmidt): Se deja u1 incambiado. . uk .. donde U es la matriz de columnas u1 . . y si est´ en b. para cualquier B ∈ H. . En ese caso.1 (a) Mostrar que el volumen del paralelep´ ıpedo de Rk de lados u1 . a a pasa a b − 1 con probabilidad 1. . . el volumen es u1 . H)´rea(C(B)). ı La primera observaci´n que podemos hacer es que X0 es par. y. . con probabilidades respectivas p y q (p + q = 1).4. entonces P C = {P u : u ∈ C} tiene volumen V| det P |. . Sin embargo.etc. ek y P H = H entonces para cada regi´n medible A en H. . si existe. si est´ en −a pasa a −a + 1 con probabilidad 1. .

∞ Concluimos entonces que πi = C1 (p/q)i .. π−a+1 .. . pero basta n que r sea positivo para que existan caminos de longitud max{a.... πb−1 = (q/p)πb . supongamos que la matriz de probabilidades de transici´n... 0 0 0  P = 0    . por separado.. . .. En el primer caso..     0 0 0 0 .. La ecuaciones extremas nos dan π−a+1 = (p/q)π−a .. . . .1 es aplicable. . las dos matrices son muy parecidas. 0 0 0  q r p 0 .4. . i con soluciones πi = C1 mi + C2 m2 (i = −a . de probabilidad positiva.. .. b − 1)... en vez o de   0 1 0 0 . ∗ pasar al l´ ımite en la cadena que se obtiene observando exclusivamente los valores de Xn para n par. donde m1 y m2 son las ra´ ıces de 1 2 p − (p + q)m + qm = 0. .. ... q r p  q r+p 0 0 0 0 . cuando p = q..     0 0 0 0 . C1 (p/q)b−1 + C2 = C1 (p/q)b−1 + (p/q)−1 C2 . y el valor de C1 se obtiene imponiendo que b la suma de las probabilidades C1 i=−a (p/q)i valga 1...... Reemplazando estas expresiones en las dos primeras ecuaciones. como consecuencia...3)  . 0 0 0     0 q r p .... . que unen cualquier estado con el 0.. Cada una de estas dos expresiones implica C2 = 0 y ambas dejan C1 indeterminada. . Caba˜a. πb ) son soluciones del sistema de ecuaciones: π−a (q + r) + π−a+1 q πi−1 p + πi r + πi+1 q πb−1 p + πb (r + p) = π−a . P = (5. b).74 Enrique M. mientras que las ecuaciones centrales se pueden escribir en la forma pπi−1 − (p + q)πi + qπi+1 = 0.2). obtenemos: C1 (p/q)−a+1 + C2 = C1 (p/q)−a+1 + (p/q)C2 . 0 con q + r + p = 1. −a + 2. . Al menos cuando r es peque˜o.. 0 1 0 es   q+r p 0 0 .. . .. = πi (i = −a + 1.. b}. 0 0 0     0 q 0 p . n Cap´ ıtulo 5 Cadenas de Markov.. 0 0 0  q 0 p 0 .. .. . .4. El Teorema 5. . m2 = 1 (ver Ejercicio 5. m1 = p/q. o para n impar. 0 0 0  ... y las probabilidades l´ ımite π ∞ ∞ ∞ ∞ ∞ = (π−a .. ... .... 0 0 0    0 q 0 ... por ejemplo.. = πb ... . Es interesante observar que las probabilidades l´ ımite no dependen de r.. es decir. . Estas son todas las soluciones. πb−1 . . .. q 0 p  0 0 0 0 ..

si llamamos π ′ = (π−a .. 0 0 0 . y que existe una unica soluci´n π que o ˆ ˆ ˆ ´ o ¯ cumple π−a = 0. .. .. .π ′′ ′′ .. . que corresponde a poner probabilidades o iniciales nulas a los estados pares. π ′′ = imi y sus combinaciones lineales son las soluciones del sistema. de modo que pueden estudiaro se separadamente la restricci´n de la cadena a los estados pares. . es decir que.. 1 2 (e) Verificar que cuando la ecuaci´n αm2 +βm +γ = 0 tiene una ra´ doble m. . 0 0 0 0 0 p2 . . Cada una de las matrices de las restricciones es muy similar a (5. dades l´ Dejamos como ejercicio completar los detalles de estos casos... 0 . q 0 0 0 . 2 Ejercicio 5.3). las soluciones son de la forma Ami + Bmi . .. . α... 0 .. y las probabiliımite se obtienen de la misma manera. . por una parte. 0 pq + p 0 0 0 0 . (i = −a. p2 0 p      P2 =          . y estudiar el caso p = q.4.. π ¯ de manera que el subespacio de las soluciones tiene dimensi´n 2. πb ).. excluido en el tratamiento que precede. o ız ′ = mi . o 5 N6. . X2 .Introducci´n a la probabilidad. (b) Observar. o (d) Buscar soluciones de la forma πi = mi . γ = 0) ′ ′ es un subespacio vectorial de Rb−a+1 .2 (a) Mostrar que el conjunto de las soluciones del sistema de ecuaciones απi+1 + βπi + γπi−1 = 0. Las probabilidades de transici´n para esta cadena son o  q 0 0 q + pq q2 0 . −a + 1.... π ′′ ) a dos soluciones. m2 ...... . . . πi i . ... correspondiente a vectores de probabilidades iniciales que atribuyen probabilidad cero a todos los estados impares.     Los estados de ´ ındice par. 2pq . 75 Consideremos ahora las observaciones de la cadena para tiempos pares: X0 . 0 .. X4 .. despejando sucesivamente π−a+2 . 0 0 0 0 0 0 p 0 2pq . b. . . ¯ ¯ (c) Deducir que el conjunto de todas las soluciones es {Aˆ + B π : A. π−a+3 . π−a+1 = 1. y la restricci´n complementaria.. constituyen dos clases de equivalencia que no se comunican entre si. . π−a+1 = 0. entonces Aπ ′ + Bπ ′′ es tambi´n soluci´n para e o = (π−a b cualesquiera A y B. 0 . .. y los de ´ ındice impar por otra. 0 0 0 0 p2 0 . . Deducir que cuando la ecuaci´n o 2 + βm + γ = 0 tiene ra´ αm ıces distintas m1 ... que existe una unica ´ soluci´n π que cumple π−a = 1.Markov. . . . B ∈ R}..

contribuy´ al estuu a o dio de las fracciones continuas. n Cap´ ıtulo 5 Cadenas de Markov. o y fue profesor de esa misma Universidad. fue alumno de o Chebyshev. se gradu´ en la Universidad de San Petersburgo. .. ∗ N6. particularmente el tipo de dependena cia de sucesiones de variables aleatorias que lleva su nombre (Cadenas de Markov).Markov. (1856-1922). Andrei Markov naci´ en Ryazan (Rusia). Caba˜a. Su aporte m´s importante a la probabilidad se refiere al estudio a de procesos estoc´sticos.76 Enrique M. Andrei A. Sus primeros trabajos matem´ticos se refieren a la teor´ de a ıa n´meros y al an´lisis. Entre otros temas. las series y las integrales.

un ejemplo que se˜ala una dificultad que deber´ tenerse n a en cuenta.1.6. o Esta aplicaci´n e del conjunto de las variables aleatorias en los reales. no a aleatoria) e(X) es intercambiable con la ganancia aleatoria X.}. sucesiva e independientemente. H = h si la primera cara ocurre en el h-´simo intento). . son independientes. la composici´n de lugar an´loga de nuestro o a jugador. o El juego de azar que utilizamos como ejemplo para motivar la definici´n de probabio lidad. no necesariamente tan sencilla como la funci´n indicatriz del suceso A. Intervenir en este ultimo equivale a hacerlo en n juegos con ganancias respectivas xh si H = h. ´ 77 . podr´ llevarlo a estimar que una determinada cantidad cierta (es decir. 2. . .) Llamemos H al orden del primer intento en que sale “cara” (H ∈ {1. Comparemos este juego con el que tiene por ganancia Xn = xH 1{H≤n} . Valor esperado de una variable aleatoria. . debe cumplirse e(X + Y ) = e(X) +e(Y ). cualesquiera sean los valores (1 o 0) de u1 . entonces los o e sucesos {Yi = ui } i = 1. por inducci´n. En ese caso. En ese ejemplo el jugador decide qu´ cantidad a e cierta π(A) estima equivalente a la ganancia aleatoria 1A .1 Se arroja una moneda equilibrada. es lo mismo participar simult´neamente en el juego de ganancia X a y en el juego de ganancia Y . . que participar en el juego de ganancia X + Y . Definimos la variable X = xH . 6. debe cumplir algunas condiciones de coherencia con la interpretaci´n que pretendemos darle.. Esta observaci´n se extiende a o cualquier n´mero de sumandos. Ejemplo 6. (La independencia significa que. nos servir´ tambi´n para introducir la definici´n del valor esperado o esperanza a e o matem´tica de una variable aleatoria.1 Introducci´n. y e nos preguntamos qu´ cantidad cierta es intercambiable por una “ganancia” incierta e X. antes de continuar. u o Veamos. supongamos ahora que la o ganancia aleatoria es una variable X. . Por lo tanto. u2 . . hasta que sale “cara” por primera vez. Yi = 0 en caso contrario. . con la notaci´n Yi = 1 si sale “cara” la i-´sima vez. 2. . o En primer lugar.

y . n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. Pero en general es posible que no exista ninguna cantidad e(X) adecuada. Para cada uno de ellos la apuesta equitativa es xh P{H = h} = (x/2)h . debe cumplirse e(X) ≥ 0. implica que e debe ser lineal. .2.2 Una definici´n descriptiva de la esperanza. En o algunos casos es posible que esta dificultad se resuelva agregando la convenci´n de o que e(X) puede ser +∞ o −∞. . junto con la observaci´n anterior. ni siquiera en R ∪ {−∞} ∪ {+∞}. Caba˜a. debe ocurrir e(X) ≤ e(Y ).1 (i) Llamamos esperanza o valor esperado a la aplicaci´n o o E definida en el conjunto de las variables aleatorias no negativas. para que el juego sea equitativo. Si x > 2. la monoton´ permite concluir o ıa que la f´rmula se extiende para todo r real. X − = X + − X. Definici´n 6. con X + = X ∨ 0.78 Enrique M. no hay ning´n valor admisible para e(X). de modo que la apuesta equitativa para ganar Xn ser´ la suma: e(Xn ) a n = h=1 (x/2)h . Esto implica. Con X ≥ 0. e(X) debe coincidir con esa constante. o Argumentos parecidos a los que se utilizan para demostrar el Lema 3. pero no converge cuando |x| ≥ 2.1 sugieren la siguiente definici´n de la espeo ranza. 2. como consecuencia de que la aplicaci´n de e conmuta con las sumas. o Los elementos considerados en §6. junto con la primera de las o propiedades establecidas. . Podemos observar por a˜an didura que cuando X se reduce a la funci´n indicatriz de A. n. Convendremos entonces desde ya en limitarnos en lo sucesivo a variables aleatorias no negativas. o Nuevamente. 6. . Cuando x < −2.6. u El resultado del ejemplo anterior. Esta serie suma 1−(x/2) h=1 cuando |x| < 2. siempre o que las cantidades que intervienen sean finitas. muestran que para todo racional r debe cumplirse e(rX) = re(X). y el ejemplo sugiere que esto ocurrir´ al menos cuando a X ≥ 0 o X ≤ 0. En particular. y a extender los resultados a variables cualesquiera mediante e(X) = e(X + ) − e(X − ). intercambiable con X. respectivamente. f´rmula que resulta de e(X + Y ) = e(X) + e(Y ) con X − en el lugar de Y . que no vamos a detallar en esta oportunidad. como en la mencionada demostraci´n. entonces e(X) se reduce o a π(A). Este antecedente hace que resulte natural asociar al juego de duraci´n indefinida con o ∞ x/2 ganancia X la apuesta equitativa e(X) = (x/2)h . podemos convenir en que e(X) es +∞. para h = 1.1. con valores ¯+ en R = R+ ∪ {+∞} que satisface: (e1 ): E(1A ) = P(A). para evitar una parte de la dificultad. nos lleva a tener en cuenta que puede no haber soluci´n al problema de encontrar una cantidad cierta. Esto. que cuando X ≤ Y . si X es constante.

valen las f´rmulas a + (+∞) = +∞. o a Nota 3: El mismo tipo de razones t´cnicas que conducen a definir las e probabilidades con la propiedad de aditividad. Si Xn ≥ 0. Nota 2: De |X| = X + +X − . 0. .1. en la que la aditividad de la esperanza o tambi´n se exige para sumas de sucesiones de variables aleatorias no negativas. si a > 0 y −∞ si a < 0. n = 1. resulta que E(|X|) < ∞ implica E(X + ) < ∞. Nota 1: Para el enunciado anterior y en lo que sigue.3.2) que se indica m´s abajo. a. Nota 4: No es obvio que exista alguna aplicaci´n que cumpla las condio ciones de la Definici´n 6. Definicion de la esperanza. tiene que estar dada de la manera o que indica la definici´n constructiva (Definici´n 6. X. . lleva en este caso a reforzar la linealidad mediante la formulaci´n de (e2 ).Introducci´n a la probabilidad.3.1. e y no solo para sumas finitas. ≤ Xn ≤ . pero si existe.2. Teorema 6. En cambio no atribuimos u ning´n significado a las expresiones (+∞) − (+∞). (ii) La aplicaci´n anteriormente definida se extiende a la familia de las o variables aleatorias que satisfacen E(|X|) < ∞. con a ∈ R. convenimos en que. o ´ 6. entonces E ∞ Xn = ∞ EXn . . En particular. mediante E(X) = E(X + ) − E(X − ). entonces n=1 n=1 E(λX + µY ) = λEX + µEY .3. 2. o o a Para garantizar la coherencia de las dos definiciones.(+∞) = +∞. de modo que la diferencia E(X + ) − E(X − ) que aparece al final de la definici´n precedente. De la Definici´n 6.2. que cumplen 0 ≤ X1 ≤ X2 ≤ X3 ≤ . y limn→∞ Xn = X.2. entonces limn→∞ E(Xn ) = E(X). resultar´ necesario dea mostrar el teorema siguiente. µ. si λ. .. motivada por consideraciones heur´ ısticas. 79 (e2 ): Si λ. entonces EλX = λEX. . Esto ultimo es o ´ el contenido del Teorema 6. X ≥ 0.1. . (+∞) + (+∞) = o (+∞). .2.1. reforzada con la σ-aditividad.(+∞). .2 y la existencia o o resulta de establecer que la esperanza definida a partir de la Definici´n 6.3. o La demostraci´n est´ contenida en lo que sigue: la unicidad es consecueno a cia de la construcci´n que se describe en la Definici´n 6.2 (Convergencia Mon´tona) Si (Xn ) es una sucesi´n de vao o riables aleatorias.1 resultan estas dos importantes consecuencias: o Teorema 6.2.1 Existe una unica aplicaci´n que cumple las condiciones de la ´ o Definici´n 6.2. est´ bien definida.2 o cumple con las propiedades que establece la Definici´n 6. E(X − ) < ∞. Y ≥ 0.2.

. µ. reemplazamos λ por −λ y X por −X.80 Enrique M. porque en caso contrario. . tambi´n U ′′ = (X − + Y − )(1 − Z) y V ′′ = (X + + Y + )(1 − Z) a e ′′ ′′ satisfacen U ≥ 0. podemos escribir E(X + Y ) = E(X + Y )+ − E(X + Y )− = E((X + − X − ) + (Y + − Y − )Z − E(−(X + − X − ) − (Y + − Y − ))(1 − Z). encontramos E(X + Y ) = EX + Z + EY + Z − EX − Z − EY − Z . es decir. EλX = E(λX)+ −E(λX)− = EλX + −EλX − = λEX + −λEX − = λEX. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. U ′ − V ′ ≥ 0. X. notemos en primer lugar que cuando U . V y U − V son no negativas. de modo que E(−(X + −X − )−(Y + −Y − ))(1−Z) = E(X − +Y − )(1−Z)−E(X + +Y + )(1−Z) = EX − (1 − Z) + EY − (1 − Z) − EX + (1 − Z) − EY + (1 − Z). . µ.1 establece en (i-e2 ) para λ. aplicada a las diferencias Xn − Xn−1 (n = 1. entonces E(U − V ) = EU −EV . Y no negativos. U ′′ − V ′′ ≥ 0. o 2. V ≥ 0. X e Y . podemos suponer λ no negativo. se cumple E((X + − X − ) + (Y + − Y − )Z = E(X + + Y + )Z − E(X − + Y − )Z = EX + Z + EY + Z − EX − Z − EY − Z. V ′ ≥ 0. ya que la descomposici´n o de U en sumandos no negativos nos permite escribir EU = E((U − V ) + V ) = E(U − V ) +EV .2. An´logamente. Demostraci´n: Basta verificar por separado (a): EλX = λEX y (b): o E(X + Y ) = EX + EY . aplicado o a la sucesi´n creciente de reducidas de la serie ∞ Xn cuyos sumandos son o n=1 variables aleatorias no negativas. cuando E(|X|) < ∞. Para (a). implica para este caso la interversi´n de la o esperanza con la suma. este Teorema de Convergencia Mon´tona. Puesto que U ′ = (X + + Y + )Z y V ′ = (X − + Y − )Z satisfacen U ′ ≥ 0. Con la abreviatura Z = 1{X+Y ≥0} .2. Caba˜a. n=1 n=1 Teorema 6. 2 Nota: Rec´ ıprocamente. vale tambi´n o e cualquiera sea el signo de λ. Entonces..3 (Linealidad) La linealidad E(λX +µY ) = λEX +µEY que la Definici´n 6. E ∞ Xn = ∞ EXn . Restando las dos ecuaciones obtenidas. X0 = 0). Demostraci´n: Es una consecuencia inmediata de la segunda parte de la o propiedad (e2 ) de la definici´n. E(|Y |) < ∞. Para establecer (b).

3.3 Definici´n constructiva de la esperanza. o ´ 6. de variables aleatorias o simples.1) (iv) Cuando E|X| < ∞. Y − . por ejemplo. EX + = E(X + Z + X + (1 − Z)) = EX + Z + EX + (1 − Z).n P(Aj.3. a cualquier combinaci´n o o lineal finita de funciones indicatrices de sucesos. An´loga descomposici´n se aplica a X − para obtener EX − a o − − = EX Z + EX (1 − Z). cuyo l´mite es X. (iii) Cuando X es una variable aleatoria no negativa tomamos una sucesi´n o mon´tona creciente Xn = j xj. n2n xj. j=0 (6.n . Definici´n 6.n ). 2. Se concluye entonces E(X + Y ) = EX + + EY + − EX − − EY − = EX + EY. E(X) = E(X + ) − E(X − ). − − + + 81 Por ser Z y 1 − Z no negativas. −EX (1 − Z) − EY (1 − Z) + EX (1 − Z) + EY (1 − Z). 2 6.1 Se llama variable aleatoria simple. j EX = n→∞ lim j2−n P{j2−n < X ≤ (j + 1)2−n }.n 1Aj. . . . o Definici´n 6. Definicion constructiva de la esperanza.3. y de la misma manera se procede con Y + .Introducci´n a la probabilidad. . n = 1. Entonces ı EX = lim EXn = lim n→∞ n→∞ En particular. (ii) Las esperanzas de las variables aleatorias simples se calculan mediante la f´rmula o k k E i=1 xi 1Ai = i=1 xi P(Ai ).2 (i) La esperanza de la funci´n indicatriz de un suceso A es o o E1A = P(A).

n P(Bj. Caba˜a. o .2 es coherente. ı. las esperanzas resultantes coinciden. tienen todas el mismo l´ ımite.n P(Aj. y al pasar al l´ ımite cuando m tiende a infinito en esta ultima desigualdad. La parte (iii) de la Definici´n 6. n→∞ (6.2 es coherente. para cada m. donde los ck son diferentes entre s´ y (Ck )k=1. o como indica el lema siguiente.n 1Bj. y ambas implican la conclusi´n requerida. De manera an´loga a J K 2 se verifica que k=1 ck P(Ck ) coincide con j=1 bj P(Bj ). Demostraci´n: Basta mostrar que o Yn ↑. entonces I ai P(Ai ) = J bj P(Bj )... y las sucesiones crecientes de funciones simples no negativas Yn = j yj.n . lim Yn ≥ Z = j zj 1Bj implica lim EYn ≥ EZ.3. j=1 i=1 Demostraci´n. o Supongamos ı. La construcci´n particular de la esperanza de X ≥ 0 que indica la definici´n o o precedente.3. Cada combinaci´n lineal finita de indicatrices de sucesos se puede o o escribir de manera unica como una combinaci´n lineal con coeficientes diferentes entre ´ o s´ de las indicatrices de sucesos de una partici´n de Ω. o a Lema 6. ı entonces limn→∞ j yj. J Lema 6.n ) = limn→∞ j zj.82 Enrique M.. Al intercambiar los papeles de (Yn ) y (Zm ) se obtiene la desigualdad contraria. o de modo que K K I I K ck P(Ck ) = k=1 I k=1 Ck ⊂Ai ai P(Ck ) = i=1 ai Ck ⊂Ai P(Ck ). son dos representaciones para la i=1 misma variable aleatoria simple.3.K es una partici´n de Ω. resulta de aproximar X por la sucesi´n de variables aleatorias o n2n simples Xn = j=0 j2−n 1{j2−n <X≤(j+1)2−n } . aplicable a cada Zm conduce a limn→∞ EYn ≥ EZm .n tienen l´mite X.2 Si X es no negativa.1 Si I ai 1Ai = j=1 bj 1Bj . porque cuando una misma o variable aleatoria simple se representa de dos maneras diferentes como combinaci´n lineal de indicatrices de sucesos. que es lo que se define como la esperanza de X. Zn = j zj. i=1 ai 1Ai = k=1 ck 1Ck .3..n ).2) ya que esta propiedad. y esto coincide con i=1 ai 1Ai dado que Ck ⊂Ai P(Ck ) = P(Ai ).2. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. La unicidad del l´ ımite de las aproximaciones simples y mon´tonas est´ expresada en el siguiente lema.n 1Aj. ck = Ck ⊂Ai ai . se ´ obtiene lim EYn ≥ lim EZm . La parte (ii) de la Definici´n 6. Se deduce que para cada k. porque las sucesiones de las o esperanzas de sucesiones crecientes de variables aleatorias simples no negativas que convergen a una variable aleatoria X.

La propiedad (e1 ) de la Definici´n 6. o 2 6. cuyo l´ ımite es mayor o igual que 1Bj .1 ) y de (e2. como area de un rect´ngulo vinculado al gr´fico de la funci´n ´ a a o de distribuci´n FX de la variable X. La linealidad en el caso de variables simples es trivial. cumple o las propiedades del operador esperanza de la Definici´n 6.1 ) EλX = λEX. .1. que demostramos en §6.2).2.5.1 se muestra una interpretaci´n gr´fica para el sumando o a xj P{X = xj }. P(Dn ) ↑ P(B) y entonces EYn ≥ (1 − δ)P(Dn ) → (1 − δ)P(B) = (1 − δ)EZ. La propiedad (e2 ) equivale a las siguientes tres propiedades: o (e2.n ∩Bj .2.3. Calculo de esperanzas. X. o Demostraci´n.2.3 ) la propiedad del Teorema 6. 2. no negativos. 83 Para establecer (6. y (e2. La validez de (e2. Como consecuencia de esa interpretaci´n. . y de aproximar variables arbitrarias por sucesiones mon´tonas de vao riables simples.3. o o encontramos que la esperanza puede expresarse como la diferencia entre el area ´ limitada por el gr´fico de FX y el de la constante 1. y Dn = {ω ∈ B : Yn (ω) > 1 − δ} ↑ B. (e2. xk }. de modo que no perdemos generalidad al limitarnos al caso Z = 1B . Para cada δ ∈ (0. 2 Teorema 6. a Observemos que la parte (ii) de la Definici´n 6. Y no negativos.Introducci´n a la probabilidad. .4.2 ) para variables aleatorias no negativas cualesquiera resulta de establecer que esas mismas f´rmulas valen para variables o simples.2 ) E(X + Y ) = EX +EY . .3) En la Figura 6.n 1 j.1. para cada yh.3. para λ. concluimos EYn ≥ EZ. .2 nos permite calcular la o esperanza de una variable aleatoria X con recorrido finito {x1 . (6. para X.1 coincide con (i) de la o o Definici´n 6. observemos que es suficiente proceder por separado.2.2. por medio de la f´rmula o k E(X) = j=1 xj P{X = xj }.2. x2 . del lado derecho del eje a de ordenadas.1 La esperanza a la que se refiere la Definici´n 6.. y del resultado del Lema 6. . n = 1.2). con cada una de las sucesiones zj Yn 1Bj = h zj 1Ah. menos el area comprendida entre el eje de abscisas y el gr´fico ´ a de FX del lado izquierdo (ver la Figura 6. en virtud de la propia definici´n de la esperanza.4 C´lculo de esperanzas.3. .3. Puesto que δ es arbitrario. 1). .3. o ´ 6.

Para ello. Teorema 6. donde [ ] designa a la parte entera. o Si X es no negativa.2. P{X = xj } xj Figura 6. (ii) Si las integrales que aparecen en la f´rmula siguiente convergen. Demostraci´n. ya que por el Teorema 6. pasamos al l´ ımite cuando n tiende a +∞ en las desigualdades +∞ 0 n n n (1−FXn (t))dt= 0 (1−FXn (t))dt≤ 0 (1−FX (t))dt≤ 0 (1−FXn (t))dt+2−n y esto termina la demostraci´n de (i). entono +∞ 0 ces: E(X) = 0 (1 − FX (t))dt − −∞ FX (t)dt. tiende al area sobre el gr´fico de FX . Estas f´rmulas valen en caso que X sea una variable discreta o o con recorrido finito.1: Interpretaci´n gr´fica de un sumando en la esperanza de una o a variable discreta. el area sobre el gr´fico de ´ a ´ a FXn .4 muestra un esquema de las funciones de distribuci´n de X y de o Xn . La Figura 6.4. E(X) = +∞ (1 0 − FX (t))dt. como en otros casos ya tratados.2 sabemos que tiende a la esperanza de X. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria.1 (i) Si X es no negativa. la aproximamos por la sucesi´n mon´tona creciente o o de variables discretas Xn = (2−n [2n X]) ∧ n. Caba˜a. y no lo detallamos. que es la esperanza de Xn . Vamos a verificar que cuando n tiende a infinito.84 Enrique M. o El caso general enunciado en (ii) se puede resolver separando X como diferencia de sus partes positiva y negativa. 2 . que es lo que se requiere probar. por la observaci´n anterior.

3: Interpretaci´n de la esperanza como diferencia de areas. o a Figura 6. Calculo de esperanzas.Introducci´n a la probabilidad.4. o ´ . 85 P{X = xj } xj Figura 6.2: Interpretaci´n gr´fica de la esperanza de una variable discreta. o ´ 6.

y la integral que aparece en la f´rmula siguiente es absolutamente convero gente. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. Distribuci´n de Xn o 2−n Distribuci´n de X o Figura 6.2 Si X tiene distribuci´n absolutamente continua con densidad o fX . Demostraci´n Separemos la integral en dos t´rminos. correspondientes a o e cada una de las semirrectas determinadas por el cero. se obtiene el resultado deseado. +∞ 0 tfX (t)dt = lim t(FX (t) − 1) − t→∞ 0 −∞ +∞ 0 0 (FX (t) − 1)dt FX (t)dt. que se discute en el pr´ximo cap´ o ıtulo. entonces E(X) = +∞ −∞ tfX (t)dt.1. 2 Los v´ ınculos entre el c´lculo de esperanzas y el c´lculo de integrales que a a aparecen en los resultados previos son un s´ ıntoma de una relaci´n mucho m´s o a estrecha entre unas y otras. v´lida para t t t > 0. se generalizan . Sumando las igualdades obtenidas anteriormente y aplicando el Teorema 6. y la hip´tesis o +∞ sobre la convergencia absoluta de la integral impropia −∞ tfX (t)dt.2.4.86 Enrique M. Teorema 6. la f´rmula (6.3) y la que aparece en el Teorema 6. muestran que limt→∞ t(FX (t) − 1) = limt→−∞ (−tFX (t)) = 0.4: Aproximaci´n de la esperanza por esperanzas de aproximaciones o discretas. y −tFX (t) = −t −∞ fX (s)ds ≤ −∞ sfX (s)ds.4. tfX (t)dt = lim (−tFX (t)) − t→−∞ −∞ a Las acotaciones t(1 − FX (t)) = t t+∞ fX (s)ds ≤ t+∞ sfX (s)ds. e integremos por partes en cada una de ellos de la manera siguiente.4. para t < 0. En paro ticular. Caba˜a.

. X2 . Finalmente. A tal efecto. si Y ∼ Geo(p). de modo que. o Demostraci´n de (ii). Cuando g es no negativa. .4. xn . m) con probabilidades respectivas pi .3 (i) Si X es una variable discreta.2 Una urna contiene N bolas numeradas de 1 a N .Introducci´n a la probabilidad. por pasaje al l´ ımite de las igualdades entre esperanzas e integrales de las sucesiones aproximantes. como es inmediato verificar. Calculo de esperanzas. Paso 2. . .4. que es cierto pues ambos miembros coinciden con P{X ∈ B}. . o Ejercicio 6. y g es o +∞ una funci´n seccionalmente continua tal que −∞ |g(t)|fX (t)dt < ∞. Cuando g = 1B . si son todos diferentes. .. Demostraci´n de (i).3. dentro del contexto de los cambios de variable en una integraci´n. Paso 3. y g es una funci´n tal que ∞ |g(xj )|P{X = xj } < ∞.1 Demostrar que. Se extrae una o muestra con reposici´n X1 . la validez del resultado se extiende a funciones g que son combinaciones finitas de funciones indicatrices. que resulta muy util para el c´lculo de ´ a esperanzas.4. Dado que ambos miembros son lineales en g. de modo que la observaci´n precedente establece el resultado a demostrar. 87 como indica el enunciado siguiente. entonces o j=1 ∞ E(g(X)) = j=1 g(xj )P{X = xj } (ii) Si X es una variable con distribuci´n absolutamente continua. Xn de n bolas. Suponemos que las extracciones son independientes y que cada bola tienen la misma probabilidad de ser extra´ ıda que cualquier otra. pero tambi´n e vale a´n cuando los xi no sean necesariamente diferentes. o bien P{g(X) = g(xi )} = {g(xj )=g(xi )} pj en general. . .4. 0 ≤ gn ↑ g.4. o y gn (t)f (t) ↑ g(t)f (t). Para la validez de este argumento es preciso establecer un Teorema de Convergencia Mon´tona para las integrales. . ya demostrado en el Paso 3. o ´ 6. La variable g(X) toma los valores g(xi ) con probabilidades pi = P{X = xi }.4. la descomposici´n g = g + −g − permite reducir el caso general o al de g no negativa. . nos referimos a 7. cuando P{X = xi } = u {xj =xi } pj . el resultado a establecer se extiende a g ≥ 0. . el resultado a demostrar se reduce a o E1{X∈B} = B f (t)dt. o Paso 4. con valores x1 . y gn es una sucesi´n de combinaciones lineales de o indicatrices que converge mon´tonamente a g. 2 m Revemos este teorema en §13. Teorema 6. . Calcular mediante esta f´rmula E(Y ). entonces gn (X) ↑ g(X). si X s´lo toma valores enteros positivos. . x2 . Paso 1. E(X) = o ∞ n=1 P{X ≥ n}. eno +∞ tonces E(g(X)) = −∞ g(t)fX (t)dt. o Ejercicios. Ejercicio 6. . . La f´rmula EX = i=1 pi xi vale cuando X toma los valores o o todos diferentes xi (i = 1.

hallar la funci´n de distribuci´n de: − log F (X).3. calcular E(1/(1 + X)) Ejercicio 6. En el siguiente teorema y en sus corolario. si la i-´sima carta va al i-´simo sobre e e n H = i=1 Xi . .3 Dada X ∼ Uni(−π/2. ˆ 6. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. y la de su cuadrado. . p).4. De la definici´n de esperanza. π/2). (d) Y = 1/(|X|a ) (Para qu´ e valores de a es E(Y ) < ∞?) o o Ejercicio 6. (b) Y = cos X. M }.1 Algunas propiedades de las esperanzas. u Sugerencia: 1. . Ejercicio 6. Verificar que.4. X2 . . su esperanza es 0. entero.5 Si X ∼ Bin(n. X2 . calcular la esperanza de Y = m´ ın{X.88 Enrique M. entonces p es insesgado.5 6. Hallar las distribuciones de probabilidad de las variables aleatorias a ın{X1 . Variables constantes con probabilidad 1. Calcular la esperanza del n´mero H de cartas que se ensobran correctamente. y se ensobran las cartas al azar de modo que la probabilidad de cualquiera de las posibles permutaciones de las cartas en sus sobres es la misma.4.6 Se escriben n cartas y sus respectivos sobres.4. Xn } y mn = m´ Calcular E(Mn ) y comprobar que si N es grande E(Mn ) vale aproximadamente N n/(n + 1). . se deduce sin dificultad que cuando una variao ble aleatoria vale 0 con probabilidad 1. Mn = m´x{X1 .5. Ejercicio 6. .4 Si X tiene funci´n de distribuci´n F absolutamente continua. (c) Y = 3X + 2. con Xi = 0 en caso contrario. .4. o o Ejercicio 6. y decimos ˆ p que un estimador es insesgado cuando su sesgo es cero. si llamamos sesgo de p a la diferencia b = Eˆ − p. .7 Si X ∼ Geo(p) y M > 0. . Xn }. calcular E(Y ) cuando: (a) Y = sin X. Ejercicio 6. encontramos criterios basados en esperanzas que permiten concluir que una variable aleatoria es cero con probabilidad uno.8 Calcular la esperanza del estimador p del par´metro p obtenido ˆ a en §4. Caba˜a. lo mismo que la esperanza de su valor absoluto.4.4.

esta igualdad se cumple si y s´lo si H = 0. o Demostraci´n. 2 . Tomando esperanzas en esta desigualdad obtenemos Eg(X) = f (EX) +cE(X − EX) = f (EX) ≤ Ef (X). Si el l´ ımite es cero. Definici´n 6.5.1.5. observamos que la nueva variable aleatoria K = log(1 + H) tiene el mismo signo que H.2 (Desigualdad de Jensen) Si X es una variable aleatoria con valores en el dominio de una funci´n f convexa. el Teorema permite concluir o inmediatamente (i) y (ii). n + 2−n ] tiene probabilidad nula.1) es no negativa y no decreciente. La igualdad corresponde a E(H − K) ıa. y como e se trata de una suma de sumandos no negativos. o (ii) E(X − EX)2 = 0 si y s´lo si P{X = EX} = 1. y la igualdad s´lo se cumple si P{H = 0} = 1. y. que P{0 < X} = 0.1 (i) EX 2 = 0 si y s´lo si P{X = 0} = 1. o 2 6. (X −EX)2 en lugar de X. 2 Corolario 6.Introducci´n a la probabilidad. que es lo que se requiere verificar. (2−n .5. Calculo de l´ ımites. y satisface K ≤ H. entonces E log(1 + H) ≤ 0. Con X 2 . esto implica P{H = K} = 1. = 0. La sucesi´n cuyo l´ o o ımite se calcula en (6.5.5. entonces Ef (X) ≥ f (EX).3. pasando al l´ ımite. o ´ 6. necesariamente cada t´rmino es cero. Para obtener (iii). o entonces P{X = 0} = 1.1 (Funci´n convexa) Una funci´n F : A ⊂ R → R se dice o o o convexa cuando por cada punto (a. y por el Teorema precedente. Se deduce que para cada n.) Si X ≥ 0 y EX = 0. Por otra parte. o Demostraci´n. f (a)) de su gr´fico pasa una recta g(x) a = f (a) + ca (x − a) con la propiedad g(x) ≤ f (x) para todo x ∈ A. Tomemos la recta de ecuaci´n g(x) = f (EX) + c(x − EX) que o o satisface g(X) ≤ f (X) para todo X.2 Desigualdad de Jensen. Teorema 6.1 (Corolario de la Definici´n 6.5. 89 Teorema 6.2. cada sumando es cero. Demostraci´n. Por la monoton´ se cumple EK ≤ EH. o (iii) Si EH = 0 (= EH + − EH − ).

n = max{X1. de a modo que Z ≤ X.m ≤ Xm.n .n creciente en cada uno de sus ´ ındices.n (↑ Xm ) es simple. Z..n . se cumple E lim inf Xn ≤ lim inf EXn . y la reemplazamos por ˜ o Xm. y pasando al l´ ımite cuando n tiende a infinito resulta EXm.n es o creciente..3 C´lculo de l´ a ımites Teorema de Convergencia Mon´tona de Beppo Levi (ver 6..n ≤ Xn. y obtenemos EX ≤ ´ limm→∞ EXm ≤ EX. Xm. y pasando al l´ ımite cuando m tiende a infinito. se obtiene X ≤ Z ≤ X. de modo que Z = X. Xm.5. obtenemos EXm. Y ≤ Xn ≤ Z.2. 2 6.2. Caba˜a. e a Tomando esperanzas en las desigualdades Xm.5.m ≤ EXm ≤ EX. X2. y tambi´n converge a X2 . o Dada una sucesi´n creciente de variables aleatorias no negativas Xn con l´ o ımite X. basta observar que Yn ≤ Xn . elegimos Xm.3 (Lema de Fatou) Cuando (Xn )n∈N es una sucesi´n de vao riables aleatorias no negativas. (Xn )n=1. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. Continuamos de la misma e e ˜ manera: para cada m. de modo que o EYn ≤ EXn .n . tenemos que demostrar que EXn ↑ EX. o ya que la sucesi´n Xm.m (↑ X) es simple. y cada elemento est´ acotado por X.n por la nueva sucesi´n X2.4 (de Convergencia Dominada) Cuando Y. Teorema 6.(n = .90 Enrique M. Teorema 6. de modo que tiene un l´ ımite Z.n ↑ X2 y ˜ 2. tambi´n v´lidas para m ≤ n.m ≤ EXm.n ↑ Xm (n → ∞).4 Teorema de Convergencia Dominada de Lebesgue.n ≤ EX.5. Dado que lim inf n→∞ Xn = limn→∞ inf m≥n Xm .2). La sucesi´n de variables aleatorias simples Xn. 2 Lema de Fatou. De esta manera se construye una sucesi´n Xm.5.n ↑ X1 . n→∞ Suponemos ahora 0 ≤ Xn .n }. por el Teorema de o Convergencia Mon´tona se cumple lim EYn = E lim Yn = E lim inf n→∞ Xn . o Para obtener la conclusi´n requerida. Pasando al l´ ımite cuando n tiende a infinito en Xm. por la definici´n constructiva de la esperanza. (n → ∞).n = max{Xm−1. con la propiedad Xm. es el l´ ımite ordinario de la sucesi´n Yn = inf m≥n Xm no decreciente.n ≤ X.n ↑ Z ≤ X resulta Xm ≤ Z ≤ X. 6. son variables aleatorias que satisfacen E|Y | < ∞. E|Z| < ∞. Luego aproximamos X2 de la misma manera: 0 ≤ X2. Para m ≤ n. y E lim inf n→∞ Xn = lim EYn ≤ lim inf EXn . Tambi´n Xm. de modo o e que pasamos al l´ ımite con m → ∞ en la ultima desigualdad.n ≤ Xn.n } ˜ reemplazamos la aproximaci´n X o o que es tambi´n creciente.n ↑ Xm . Aproximemos X1 por una sucesi´n creciente de variables aleatorias simples: 0 ≤ o ˜ X1.

decimos que E(X n ) es el momento de orden n de la variable X o de la distribuci´n de probabilidad de X . obtenemos EX = E lim inf Xn ≤ lim inf EXn ≤ lim sup EXn ≤ E lim sup Xn = EX.4) y (6. Los momentos de segundo orden corresponden a los momentos de inercia. 2 6. respecto de las distribuciones de probabilidades.6. . En particular. el momento central de orden 2 de X.) y limn→∞ = X. entonces n→∞ 91 lim EXn = EX. de modo que se deduce: E lim inf Xn ≤ lim inf EXn . 2. entonces el baricentro de la distribuci´n o de masas tiene abscisa E(X).4) El mismo Lema aplicado a las variables no negativas Z − Xn . Los momentos de X − E(X) se llaman momentos centrales de X. . nos lleva a concluir E lim inf(Z − Xn ) ≤ lim inf E(Z − Xn ). En particular. variancia.6.1 (Momentos de una distribuci´n de probabilidades) o o Cuando E(|X|n ) < ∞. As´ como el baricentro y el momento de inercia tienen especial importancia para ı describir propiedades mec´nicas de la distribuci´n de masas. Momentos. .5) con la existencia del l´ ımite Xn → X establecida en la hip´tesis o del Teorema. o 6. Suponemos ahora Y ≤ Xn ≤ Z. (6. . 1. x] es P{X ≤ x} = FX (x). (6. Si definimos en la recta real una distribuci´n de masas para la cual la masa de o la semirrecta (−∞. Definici´n 6. Los momentos de o |X| se llaman momentos absolutos de X.5) Reuniendo (6. variancia. E|Z| < ∞.Introducci´n a la probabilidad. de modo que E lim sup Xn ≥ lim sup EXn . Nota. lo mismo ocurre con la a o esperanza y la variancia. se llama variancia Var(X) = E([X − E(X)]2 ).6 Momentos. la variancia es el momento de inercia respecto del baricentro. E|Y | < ∞. que es lo mismo que EZ − E lim sup Xn ≤ EZ − lim sup EXn . El Lema de Fatou aplicado a las variables no negativas Xn − Y conduce a E(lim inf Xn − Y ) ≤ lim inf EXn − EY .

6. Teorema 6. Ejercicio 6. .92 Enrique M. Calcular E((1 + X)−1 ). Ejercicio 6.1 (i) El momento absoluto de primer orden de X respecto de c es finito si y s´lo si E|X| < ∞. Ya hemos indicado en §6. En o particular. Caba˜a. obtenemos medidas de la magnitud del apartamiento entre la variable X y el n´mero c. . p > 0. calcular su esperanza y su variancia. P{X > c} ≤ 1/2.4. y alcanza el m´nimo cuando c satisface o ı P{X < c} ≤ 1/2. en otras palabras. a saber.4 Calcular la variancia de la variable H del Ejercicio 6. Ejercicio 6. hallar las distribuciones de X 2 y de eX . .6. la aplicamos a las variables aleatorias |X − c|p . Uni(0. para los cuales el c´lculo es relativamente simple. 1. p).6.5 Si X tiene distribuci´n discreta con recorrido {0. b).5. medidas de la dispersi´n u o de la distribuci´n de probabilidades de la variable alrededor del punto c. puede interpretarse como el valor cierto intercambiable por el valor incierto de la variable. 1). Exp(λ). Ejercicio 6.7. 1. a Consideremos las dispersiones E|X − c| y E(X − c)2 como funciones de c. 2. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. a 6.1 que la esperanza de una variable aleatoria X da una idea del valor de esta variable aleatoria.6. Si en vez de aplicar la esperanza a X. o.} y proo babilidades P{X = h} = e−λ (λ)h /h!(h = 0. esta interpretaci´n es aplicable a los momentos absolutos de primero o y segundo orden. Ejercicios. .7 Medidas de posici´n y medidas de dispero si´n de una distribuci´n de probabilidao o des. Bin(n. se denomina distribuci´n de o o Poisson con par´metro λ. Uni(a. . El siguiente enunciado identifica para qu´ valor de c resultan m´ e ınimas.6.6.6.3 Si X ∼ Uni(0. Nota: La distribuci´n discreta del ejercicio 6.1 Mostrar que vale la siguiente f´rmula para el c´lculo de la vario a ancia Var(X) = E(X 2 ) − (EX)2 Ejercicio 6. y calcular en cada caso la esperanza y la variancia.2 Calcular las variancias de las distribuciones: Geo(p). . .). 1).

La parte relativa a la esperanza es la m´s o a simple: basta escribir E(X − c)2 = E[(X − EX) + (EX − c)]2 = VarX + (EX − c)2 . puesto que la esperanza del doble producto es cero.8 6. X. y alcanza el m´nimo cuando c es la esperanza EX.8. llamemos m a una mediana y c a un n´mero cualquiera. y la segunda a la definici´n de m. E|X − MedX| y VarX son utilizados como medidas de la dispersi´n de la distribuci´n de X respecto de los valores centrales MedX. Definici´n 6. es decir. o 6.Introducci´n a la probabilidad.8. Pueden interpretarse como centros alrededor de los cuales est´ distribuida la probabilidad asociada a X. Independencia de variables aleatorias. La primera desigualdad se debe a que en {c < X < m} se cumple 2X − c − m ≥ c − m. la esperanza EX y la mediana MedX.7.1 Esperanza del producto de variables independientes. Los valores m´ a ınimos de los momentos. se dice que es mediana de la distribuci´n de X. ı Definici´n 6. Y independientes. la familia de sucesos {{Xi ∈ Bi } : i ∈ I} es independiente. es decir. 93 (ii) El momento de segundo orden de X respecto de c es finito si y s´lo si o 2 EX < ∞. El t´rmino de la derecha e es obviamente m´ ınimo cuando c = EX. . o Demostraci´n del Teorema 6. EXY . o 2 Los valores de c que minimizan los momentos. 6.1 Cuando c satisface las condiciones de la parte (i) del teoo rema precedente.1 La familia de variables aleatorias X = {Xi : i ∈ I} (I o denota un conjunto de ´ndices arbitrario) es independiente cuando para cuaı lesquiera conjuntos medibles Bi en el recorrido de Xi . son indicadores de la posici´n de la distribuci´n de proo o babilidades de X.8. Supongamos c < m (si c > m se procede an´logamente) y calculea mos E|X − c| − E|X − m| = E((c − m)1{ X ≤ c} +(2X − c − m)1{ c < X < m} + (m − c)1{ m ≤ X}) ≥ E((c − m)1{ X ≤ c} + (c − m)1{ c < X < m} + (m − c)1{ m ≤ X}) = (m − c)(P{m ≤ X} − P{X < m}) ≥ 0.1.7. (i ∈ I). u Para demostrar la parte (i). o o EX.

los sucesos {Xn ∈ A}. y de las expresiones an´logas para los sucesos {Yn = k2−n }. . Esto es consecuencia de la independencia de las variables X e Y . .2 Cuando las variables X. n2n }. Y son independientes. {Yn ∈ B} son independientes. y tienen esperanzas finitas. . . 2.}. Demostraci´n. a Podemos escribir entonces E(Xn Yn ) = E(Xn )E(Yn ) de modo que E(XY ) = limn→∞ E(Xn )E(Yn ) = E(X)E(Y ).j xi yj P{X = xi .2.1 Verificar los enunciados de los dos ejemplos precedentes. . Yn = (2−n [2n Y ]) ∧ n . Ejemplo 6.}. Ejemplo 6. basta ver que cualquier suceso del conjunto {Xn = j2−n }(0≤j≤n2n ) es independiente de cualquier suceso del conjunto {Yn = k2−n }(0≤k≤n2n ) . . .j xi yj P{X = xi }P{Y = yj } = xi P{X = xi } i j yj P{Y = yj } = E(X)E(Y ). aunque la independencia sea una propiedad de la familia.8.8. el suceso {Xn ∈ A} se escribe como uni´n de los sucesos {Xn = j2−n } para o aquellos j para los cuales j2−n ∈ A. B de Borel en R. 1. . 2. Para verificarlo. (i ∈ I) son independientes. . 2. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. Yn = 2 i−1 1{i−1<2n Y ≤i} son independiene i=1 2n i=1 2n tes. dados A. se cumple E(XY ) = limn→∞ E(Xn Yn ). con o recorridos respectivos {xi : i = 1. B son o independientes. . Cuando X. {yj : j = 1. Consideremos primero el caso en que X.8. y la a esperanza del producto es E(XY ) = i. entonces tam2n 2n bi´n Xn = 2 i−1 1{i−1<2n X≤i} . se suele decir que las variables Xi . . j = 1. Por el Teorema 6.1 Las variables 1A . Adem´s. Se deduce que el recorrido de la pareja est´ contenido en {(xi .8. las aproximamos por sucesiones crecientes de variables discretas Xn = (2−n [2n X]) ∧ n. . Se deduce que.}. Teorema 6. Y = yj } = i. 1B son independientes si y s´lo si A. para 0 ≤ j < n2n . Caba˜a.2. Ejercicio 6. y de que {Xn = j2−n } = {j2−n ≤ X < (j + 1)2−n }. entonces E(XY ) = E(X)E(Y ). Nota: En ese caso. si A es un conjunto de Borel.94 Enrique M. como el recorrido a de la variable Xn es {j2−n : j = 0. . y {Xn = n} = {n ≤ X}. Y son no negativas. y no de las variables. .1 Si X. Y son discretas. Y son independientes. yj ) : i.

3 La covariancia de dos variables independientes es cero. .9.3 La funci´n caracter´ o ıstica de la distribuci´n uniforme en (0. Funciones generatrices. es ψ(t) = 0 e dx = ıt Cuando las esperanzas que aparecen arriba no est´n definidas en todo el e dominio. 95 La demostraci´n para el caso general se hace descomponiendo cada variable o en diferencia de su parte positiva y su parte negativa. 1) o 1 ıtx eıt −1 . Ejemplo 6.9. a la o o funci´n p : R → R definida por p(t) = E(etX ). Se llama funci´n generatriz de momentos de X o de su distribuci´n. o 6. Ejemplo 6. la funci´n generatriz de probabilidades es un polinomio (recorrido acotado) o una o serie de potencias (recorrido no acotado). llamaremos de la misma manera a las funciones dadas por la misma correspondencia. en el dominio en que ´sta est´ definida. Tambi´n se la llama funci´n generatriz de momentos factoriae o les. p) o n tj n j es p(t) = j=0 e j p (1 − p)n−j = (pet + 1 − p)n .Introducci´n a la probabilidad. Definici´n 6.1 Cuando X es una variable discreta con recorrido en N.9. La funci´n o 0 no est´ definida para t ≥ λ. o Se llama funci´n caracter´stica de X o de su distribuci´n. a los productos de las cuales es aplicable el resultado ya demostrado. 2 6. Y − EY . tambi´n lo son X − EX.9.6. a la funci´n g : R+ → R definida por la f´rmula o o o X g(t) = E(t ). Ejemplo 6. 2 Ejemplo 6. e e Ejemplo 6. para t < λ.1 Se llama funci´n generatriz de probabilidades de una variao o ble X o de su distribuci´n.2 La funci´n generatriz de momentos de una variable Bin(n.8. a la funci´n o ı o o ıtX ψ : R → C definida por ψ(t) = E(e ). Y son independientes. si X.4 La funci´n generatriz de momentos de la distribuci´n Exp(λ) o o es p(t) = 0∞ e−λx etx dx = e(t−λ)x /(t − λ)|∞ =(λ − t)−1 . a Teorema 6.9 Funciones generatrices. En efecto. El coeficiente del t´rmino de grado e n es la probabilidad del suceso {X = n}.5 es g(t) = j=0 t λ e /j! = e .1 La funci´n generatriz de probabilidades de la distribuci´n del o o ∞ j j −λ (t−1)λ Ejercicio 6.9.9. de e modo que E(X − EX)(Y − EY ) = E(X − EX)E(Y − EY ) = 0.9.

Esta funci´n o caracteriza a la distribuci´n. . . . . . . Se deduce que tX1 . ψX . . y generatriz de momentos. generatriz de momentos. llamamos S a su suma. . con X1 . tX1 ..2 Dadas las variables independientes X1 . .9. (EtXn ) n = (EtX1 )n = [(1 − p) + pt]n = j=0 n j p (1 − p)n−j tj . . es decir. . . . Es inmediata a partir de la definici´n de la funci´n generao o o triz de probabilidades. Xn ∼ Ber(p) independientes. p′′ (0) = E(X 2 ). o Teorema 6. . independiente de la utilizada en §3.4. . o Ejemplo 6. . tXn . Nota 3: La funci´n caracter´ o ıstica est´ definida para todo t. y caracter´stica de cierta ı . Demostraci´n. p) es g(t) = EtX = o (X1 +X2 +. respectivamente. tienen necesariamente la misma distribuci´n (Ver §13. y por lo tanto tiene esperanza finita.9. . . . Nota 2: Cuando la derivaci´n respecto de t conmuta con el c´lculo de espeo a ranzas en las definiciones de funciones generatrices o de funci´n caracter´ o ıstica (y esto puede ser verificado en cada caso particular). pues el m´dulo a o de la variable eıtX es 1. j Esta es una forma de obtener P{X = j}. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria.96 Enrique M. f ”(0) = −E(X 2 ). . 2 Nota 1: Se deduce en particular que la funci´n generatriz caracteriza a la o distribuci´n.1. La funci´n generatriz de probabilidades de X ∼ Bin(n.+Xn ) Et = EtX1 tX1 . . dos variables con la misma funci´n caro o acter´ ıstica. que es el coeficiente de tj .. φX . g (n) (1) = E( j=0 (X − j)). y entonces g(t) = (EtX1 )(EtX1 ) . X2 . . . . f ′ (0) = ıE(X). g ′′ (1) = E(X(X − 1)). . .. La dos primeras l´ ıneas justifican las denominaciones generatriz de momentos factoriales. . p(n) (0) = E(X n ). . . Caba˜a. . X2 . a las funciones generatriz de probabilidades. . . . .10). Designemos respectivamente por gX .5 Funci´n generatriz de probabilidades de la distribuci´n binoo o mial. f (n) (0) = ın E(X n ). Xn . . tXn son independientes. se cumplen n−1 g ′ (1) = E(X). p′ (0) = E(X).

2. n). . (n − 1)σ 1 Ejercicio 6. . donde la ultima igualdad es consecuencia del Teorema 6. a entonces n Xi tiene distribuci´n de Poisson con par´metro λ = n λi .). o a i=1 i=1 Ejercicio 6. o . o 6.1 El re´ sultado obtenido prueba la primera igualdad de la tesis.10 Ejercicios. donde σ 2 = Var(X ). Las otras dos se verifican de la misma manera. 1 ¯ buidas (Xi )i=1.11 6. P{Xn = −1} = q. se define X = n ( 2 .1. Paseo al azar con dos barreras absorbentes.4 Verificar la informaci´n contenida en la Tabla 6. p) ? (i = 1. Funciones generatrices.1 * Una aplicaci´n: C´lculo de probabilio a dades en el paseo al azar con barreras. n i=1 Xi ). demostrar o que si las variables Xi son independientes. 97 variable X. ψS = i=1 ψXi ..8. cuando las funciones que aparecen en las f´rmulas siguo ientes est´n definidas.Introducci´n a la probabilidad.11.10. Hemos definido en §4.1 A partir de la sucesi´n de variables independientes equidistrio Demostrar que E( n i=1 (Xi ¯ − X)2 ) = Ejercicio 6. de Poisson con par´metro λi (i = 1.10.3 ¿Cu´l es la distribuci´n de la suma de variables aleatorias indea o pendientes binomiales de par´metros (ni .2 Utilizando la funci´n generatriz de probabilidades. 2 6. . . 2. . Entonces. . valen las igualdades o n n n gS = i=1 gXi ..1 el paseo al azar simple como la sucesi´n Sn = n Xi o i=1 de las sumas parciales de las variables independientes Xn con la misma distribuci´n P{Xn = 1} = p. o 6.11. a Ejercicio 6.2.. .10. φS = i=1 φXi n Xi ) Demostraci´n: o n Xi i=1 Calculamos gS (t) = E(tS ) = E(t( n i=1 ) = E( i=1 tX ) = i E(t ).10.

n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. x > 0 fX (x) = λe−λx . 1. . λ) n n−1 −λx fX (x) = λ x e . . . h = 1. 2.98 Enrique M. . 1) 1 si 0 ≤ x ≤ 1. . x > 0 Gamma: Γ(n. 1. . Caba˜a. fX (x) = 0 en caso contrario. f: factoFunci´n de distribuci´n o o densidad o cuant´ ıa. . h h = 0. h = 0. . Geom´trica alternativa: Geo(p) e P{X = h} = (1 − p)h−1 p. .1: Esperanzas. Exponencial: Exp(λ) FX (x) = 1 − e−λx . . (x > 0) (n−1)! p p(1 − p) 1 − p + pt f np np(1 − p) (1 − p + pt)n f 1−p p 1−p p2 p 1−t(1−p) f 1 p 1−p p2 pt 1−t(1−p) f λ λ e−λ(1−t) f 1/2 1/λ 1/12 1/λ2 et −1 t o o λ/(λ − t) n n/λ n/λ2 λ λ−t o . . variancias y funciones generatrices de momentos de algunas distribuciones. Esperanza Variancia Funci´n o generatriz de momentos riales u o: ordinarios Bernoulli: Ber(p) P{X = 0} = 1 − p P{X = 1} = p Binomial: Bin(n. Poisson: Pois(λ) P{X = h} = λh e−λ /h! h = 0. 1. n Geom´trica: Geo(p) e P{X = h} = (1 − p)h p. . Tabla 6. Uniforme: Uni(0. p) P{X = h} = n ph (1 − p)n−h . .

b} absorbido por las barreras {−a. 99 Nos damos ahora dos enteros a.1. y llamamos T al tiempo de llegada a las barreras{−a.4 El l´ ımite del ejercicio precedente es una variable aleatoria S∞ . es decir.4 es trivial en el caso del paseo sim´trico.1.1 Los ejercicios que siguen al 6. b} (o tiempo de absorci´n o en el contexto de la definici´n siguiente): o T = min{n : Sn = −a ´ Sn = b}.11. desarrollan consecuencias de la primera igualdad de ese ejercicio. (Este ser´ seguıa ramente el caso cuando a = b = ∞. En cualquier otro caso. b}. {−a. Ejercicio 6.1.1 Llamamos paseo al azar con barreras absorbentes o {−a.b} = 0 para todo n.) Definici´n 6. a Sn = Sn∧T . T }.11. ¿Cu´l es su recorrido? Obtener la distribuci´n de S∞ pasando al l´ a o ımite en ESn = 0.1. . Veamos ahora el equivalente respecto de la otra igualdad.3 Deducir de la parte (iii) del Corolario 4. o 6. tal resultado es improbable: P{T = ∞} = 0. Ejercicio 6.Introducci´n a la probabilidad. en el contexto del paseo detenido por una doble barrera. vamos a verificar en primer lugar que E(Sn ) − n ∧ T = 0 para todo n.11.1 Observar que el resultado del Ejercicio 4.1 que existe el l´ ımite limn→∞ Sn .b} {−a.b} 2 {−a. Ejercicio 6.11. ESn − n = 0. De otra manera: una vez que la trayectoria del paseo original alcanza alguna de las barreras −a ´ b.b} Ejercicio 6. con T dado por (6. valen para todo n.11. b} es ESn {−a.11. parte (iii). ESn = 0. b que satisfacen −∞ ≤ −a < 0 < b ≤ +∞.11.1. cuando la trayectoria no o alcanza ninguna de las barreras. como consecuencia del Corolario 4.2 Verificar que la esperanza del paseo al azar sim´trico simple e Sn {−a. o (6. {−a. Ejercicios y un ejemplo complementario. Ejemplo 6. 2 es decir.b} e Dado el paseo al azar sim´trico simple Sn absorbido por las barreras {−a.6) con la convenci´n habitual min ∅ = +∞. o y permanece constante en el nivel de esa barrera.1. Funciones generatrices. decimos que T es infinito.6). e 2 ESn − n = 0. b}. Mostrar que para este caso.1. con n ∧ T = min{n.11. el nuevo paseo es absorbido por la barrera alcanzada.b} {−a.

hay probabilidades positivas y complementarias de que Sn sea absorbido en −a o tenga l´ ımite +∞. {−a.2. que la esperanza del tiempo de llegada del paseo al azar sim´trico simple a una barrera unica es ∞.b} 2 El incremento [(Sn+1 )2 − (n + 1) ∧ T ] −[(Sn ) − n ∧ T ] vale 0 cuando 2 2 T ≤ N . . en virtud de la construcci´n. como conocemos la distribuci´n de S∞ .11. De ello resulta que para p < q.b} 2 Como (Sn ) tiene l´ ımite (S∞ )2 y est´ acotada uniformemente por (a ∨ a 2 b) ..2. e ´ 6.b} 2 ciones de calcular E lim(Sn ) = a+b = ab.. con distribuci´n de Bernoulli ((q − 1/2)/q).b} {−a. Cuando p > q. Caba˜a. llamamos paseo o {−a} al azar con barrera absorbente {−a}. y dado T > n vale (Sn + 1) − Sn − 1 con probabilidad condicional 2 1/2. tambi´n se cumple P{T < ∞} = 1. y lo mismo ocurre con Sn e ∗ o puesto que. entonces P{T < ∞} = 1.2 Paseo al azar con una barrera Definici´n 6. si Xi = −1 y Zi = 0. podemos ∗ definir un nuevo paseo al azar sim´trico Sn = n Xi∗ con e i=1 Xi = 1.5 Deducir de los resultados del ejemplo anterior.1..11. El Teorema de Convergencia Mon´tona nos permite completar el c´lculo: lim En ∧ T = E lim n ∧ T = ET .1 La esperanza del tiempo de absorci´n T = min{n : Sn = o −a ´ Sn = b} del paseo al azar sim´trico simple Sn en las barreras {−a. donde las nuevas variables (Zi )i=1. 0. De acuerdo a la parte (iii) del Corolario 4..11. La demostraci´n se propone o como ejercicio.b} 2 E lim(Sn ) = lim E(Sn ) = lim En ∧ T . y (Sn − 1)2 − Sn − 1 con probabilidad condicional 1/2. el Teorema de Convergencia Dominada nos permite calcular E(S∞ )2 = {−a. ya que e n cuando Sn = i=1 Xi es un paseo al azar con probabilidades p < q.. Por ser (Sn ) o sim´trico alcanza el nivel −a con probabilidad 1. si Xi = 1 o Xi = −1 y Zi = 1.1. a Sn = Sn∧T . b} es o e ET = ab. .100 Enrique M. Ejercicio 6. si p = q(= 1/2).. 2 De lo que precede podemos deducir el siguiente resultado: Teorema 6. estamos en condio a2 b+b2 a {−a. en cambio.1.11. {−a. para cada ω se cumple Sn ≥ Sn .2 Dados a > 0 y T = min{n : Sn = −a}.b} 2 {−a. o a Por otra parte. n Cap´ ıtulo 6: Valor esperado de una variable aleatoria. La esperanza es 1 2 2 entonces P{T > n}[ 2 ((Sn + 1)2 − Sn − 1) + 1 ((Sn − 1)2 − Sn − 1)] = 0. son independientes entre s´ e independiı ∗ entes de (Xi )i=1.

Funciones generatrices.Introducci´n a la probabilidad.4 que cuando T ∗ es el tiempo de llegada al par de barreras {−a. o 6. se cumple = 1. 101 Ejercicio. E q Sn∧T ∗ p . de manera an´loga a la utilizada en el Ejercicio a 4.6 (i) Mostrar.1.11. Ejercicio 6. mostrar que ´ el suceso {limn→∞ Sn∧T = ∞} coincide con b∈N {Sn∧T ∗ = b}. Deducir la distribuci´n del l´ o ımite limn→∞ Sn∧T ∗ . (ii) Si T es el tiempo de llegada de Sn a la unica barrera {−a}. b}. y deducir que su q a probabilidad es 1 − p .11.

n Cap´ ıtulo 6: Valor esperado de una variable aleatoria.102 Enrique M. . Caba˜a.

1 Se llama medida en (Ω. o podemos introducir las probabilidades Pn (A) = µ(A∩An )/cn . n ∈ N} es una medida. Definici´n 7.1.7. 7. Las funciones de conjunto σ-aditivas tienen un inter´s que trasciende la teor´ e ıa de las probabilidades. densidades. La llamaremos medida de recuento asociada a S. que nos permiten escribir µ = ∞ cn Pn .1. y se trata de una medida σ-finita que puede escribirse en la forma νN (A) = n∈N 1{n∈A} . En particular. o Cuando µ es σ-finita. y (An ) es una partici´n de Ω con cn = µ(An ) < ∞. la funci´n o νS que a cada A ∈ A asocia la cantidad de puntos de S contenidos en A: νS (A) = #{xn : xn ∈ A. n ∈ N} es una medida en (R. νN (A) = #{n : n ∈ A.1 Dada una sucesi´n de puntos S = (xn )n∈N ⊂ Ω. Nota: Se observar´ que las probabilidades son las medidas µ con la propiea dad µ(Ω) = 1.1. integrales. Medidas. 103 . σ-aditiva. A) es σ-finita cuando existe una paro tici´n (An )n∈N de Ω con la propiedad µ(An ) < ∞ para todo n ∈ N. B). ¯+ Definici´n 7.2 Una medida µ en (Ω.1 Espacios de medida. n=1 o Ejemplo 7. A) a una funci´n µ : A → R = o o R+ ∪ {+∞}.

1 Llamaremos tambi´n Medida de Lebesgue a la que se obo e tiene completando la medida introducida en la definici´n 7. Entonces λ = n∈Z Pn es una medida σ-finita en R con la σ-´lgebra de Borel. se la llama medida de Lebesgue o en R. entonces A una nueva σ-´lgebra. n+1] a Pn ((x. y]) = y − x es su longitud. Caba˜a.2. n + 1])n∈N son una partici´n de R. ¯ Se dice que P completa a P . o o Definici´n 7.104 Enrique M.1.2. y por consiguiente vale y − x. se dice que P es completa. y]) es la longitud de la intersecci´n (x. Habitualmente o es a esta ultima a la que se hace referencia con este nombre. A).1 Verificar que A definida en el contexto previo es una σ-´lgebra. la longitud total. y]) o es la suma de las longitudes de las intersecciones de (x. integrales. o ¯ . densidades. Una vez definida una probabilidad P en (Ω. ¯ Ejercicio 7. Pn ((x. y la extensi´n P (A) = P (B) cuando B ∈ A y B ∈ A. y] ⊂ (n. Dado que o los conjuntos ((n.2 Introducimos las probabilidades Pn (A) = P{U − n ∈ A}. M´s en general. n+1]. 7. se so´ breentiende que la medida de Lebesgue es completa. para cada n. 1) y n ∈ Z. cuya restricci´n a los intervalos es la longitud. Ejemplo 7. para cualquier intervalo a (x. y cuando una probabilidad P coincide con su ¯ . A). n Cap´ ıtulo 7: Medidas. si A0 = {A ⊂ Ω : existe B ∈ A tal que A ⊂ B.1.2 Probabilidades y medidas completas.1. se define una medida completa. n + 1]. a Se observar´ que. P (B) = 0} es la familia de todos los subconjuntos de Ω contenidos en alg´n suceso de u ¯ = {A : existe B ∈ A tal que A∆B ∈ A0 } es probabilidad nula. con U uniforme en (0. y a que la extensi´n P de P es una probabilidad. y]) = n Pn ((x. y] ∩ (n. y para cada intervalo (x.3 A la medida λ que se introduce en el Ejemplo 7.2. es decir. a Definici´n 7.3.1. la probabilidad Pn definida en el ejemplo a precedente est´ concentrada en (n. y] con cada intervalo de la partici´n. completada P De manera an´loga. es a o ¯ ˆ una probabilidad en (Ω. y]. λ((x.

o Con X ≥ 0.n 1Aj. (v) Llamamos integral de X en un conjunto A medible. A) y la funci´n medible (o variable aleatoria) X :Ω o → R+ . integral de X respecto de µ. o 7. y omitimos sus demostraciones. y o − X y X tienen integral finita respecto de µ. (ii) La integral de una combinaci´n lineal finita de indicatrices de conjuntos o k k medibles es j=1 aj µ(Aj ). 105 7. e a porque son id´nticas a las de los lemas mencionados.n ). pues si o no se trabaja por separado con X + y X − a las que se aplica la misma hip´tesis o como surge de considerar las integrales extendidas a los conjuntos medibles A ∩ {X > 0} ´ A ∩ {X < 0}. cuando |X|dµ < ∞.2.2. definimos. de o acuerdo a la parte (i) de la Definici´n 7.1 que cada t´rmino de la sucesi´n no o e o . o Teorema 7. tomemos una sucesi´n moo o n´tona creciente Xn = j xj.Introducci´n a la probabilidad.1 (i) La integral de la indicatriz del conjunto medible A reo specto de µ es 1A dµ = µ(A). j=1 aj 1Aj (iii) Dada la funci´n medible no negativa X.n µ(Aj. . Esto significa. por ı ejemplo. Decimos que X es integrable respecto de µ. imitando la Definici´n 6.1 y 6. Entonces Xdµ = limn→∞ j xj. En particular. Tales resultados a tambi´n son v´lidos en el presente contexto. de funciones simples. Integral respecto de una medida. al o resultado de reemplazar en esa definici´n la probabilidad P por la medida µ: o Definici´n 7. j=0 (iv) Cuando X es una funci´n medible no necesariamente no negativa.3. cuyo o l´mite es X.1 Si A Xdµ = 0 para todo A medible.3. entonces + Xdµ = X + dµ − X − dµ. a la integral de X1A .3. La coherencia de la partes (ii) y (iii) de la definici´n. 2. n = 1. entonces µ{X = 0} = µ{ω : X(ω) = 0} = 0.3.3 Integral respecto de una medida. Dada la medida µ en (Ω.3. requiere o o establecer resultados an´logos a los de los Lemas 6. n2n Xdµ = n→∞ lim j2−n µ({j2−n < X ≤ (j + 1)2−n }). Observaci´n. e Notaci´n.3.n .3. . Demostraci´n: Basta mostrar que el resultado es cierto cuando X ≥ 0. . la hip´tesis implica en particular X dµ = 0.

cada Aj. µ({X = 0}) = µ(limn {2−n < X ≤ n}) = 0.3. La σ-aditividad es una consecuencia inmedio ata del Teorema. y entonces µ({2−n < X ≤ n}) = 0. . A1 . Omitimos las demostraciones porque son similares a las de las correspondientes propiedades de las esperanzas. X. n Cap´ ıtulo 7: Medidas.3. la integral una funci´n σ-aditiva del dominio A: o Aj Xdµ = j j Aj Xdµ. y por lo tanto lo es cada sumando. y se la llama una medida con signo. Teorema 7. cuyo l´ ımite j=0 es cero. Se concluye τ (A) = A Xdµ = limn→∞ Yn 1A dµ = 0.106 Enrique M. α. Xdµ es Teorema 7. τ es una diferencia de dos medidas. es ´l mismo igual a cero. β ≥ 0. disjuntos. . Caba˜a.1 Cuando X es no negativa. .n estrictamente positivos). 2 . A2 . Y integrables implican implican Xdµ ≤ Y dµ. la funci´n o τ (A) = A Xdµ (7. o bien X. la funci´n τ (A) = A Xdµ = A X + dµ − o − A X dµ es una diferencia de dos medidas. Entonces µ(A) = 0 implica µ(Aj.3 Cuando X es no negativa o integrable. Y. Cuando X cambia de signo. de donde. Cuando X es integrable. 2 Por medio de los enunciados siguientes.1) es una medida. densidades. Xdµ + β A (αX + βY )dµ = α Y dµ. X.3. con la propiedad τ (A) = 0 para todo A tal que µ(A) = 0.n debe estar contenido en A porque en caso contrario no se cumplir´ Yn ≤ X1A .3.n ) = 0 ıa y por lo tanto Yn dµ = 0 para todo n. Demostraci´n del Corolario.n es una sucesi´n mon´tona creciente o o de funciones simples no negativas con l´ ımite X1A (y con los coeficientes yj. con la misma propiedad. por continuidad. indicamos algunas propiedades importantes de la integral. Corolario 7.n 1Aj. Y integrables. Se deduce e inmediatamente que para cada j positivo.2 La integral es una funci´n mon´tona y lineal del integrando: o o 0≤X≤Y o ´ X ≤ Y. integrales. Si Yn = j yj. n negativa y no decreciente n2 j2−n µ({j2−n < X ≤ (j + 1)2−n }). . µ({j2−n < X ≤ (j +1)2−n }) es cero.

entonces lim inf n→∞ Xn dµ ≥ Xdµ.4 7.4 (Teorema de convergencia mon´tona de Beppo Levi). .n }λ(Jj. la integral de f 1[a. existe una sucesi´n de particiones de [a.Introducci´n a la probabilidad.4. entonces ı lim Xn dµ = Xdµ. y existen funciones inteo ı grables Y .3). b] o o o − en subintervalos {Jj.3. o 7.n ) y las sumas superiores Sn = b t ∈ Jj. Teorema 7. es decir. . y no las repetiremos. es una generalizaci´n de la integral de Riemann. entonces n→∞ lim Xn dµ = Xdµ.n : j = 1. Integral respecto de la medida de Lebesgue Vamos a verificar que. o Demostraci´n Por hip´tesis. la integral de Lebesgue. 7.1 Si f es una funci´n acotada en [a. 107 Los teoremas que siguen se refieren al pasaje al l´ ımite bajo el signo de integraci´n. entonces esta integral coincide con la integral de Lebesgue de f en [a. n→∞ Teorema 7.n }λ(Jj. b]. o Teorema 7.1 Dos ejemplos: Integral de Lebesgue e integral respecto de una medida discreta. Si Xn es una sucesi´n de funciones medio bles no negativas. b] y existe la integral de o b Riemann a f (t)dt.4.6 (Teorema de convergencia dominada de Lebesgue).5 (Lema de Fatou). . Z tales que Y ≤ Xn ≤ Z para todo n. Ejemplos: Integral de Lebesgue. Sus demostraciones coinciden con las de los correspondientes teoremas o de pasaje al l´ ımite bajo el signo de esperanza (§6.3.n ) convergen a la integral a f (t)dt. como se llama a la integral respecto de la medida de Lebesgue. cuando n tiende a infinito.1. kn } tal que las sumas inferiores Sn = kn kn + j=1 sup{f (t) : j=1 inf{f (t) : t ∈ Jj.3). .3. .5.b] respecto de la medida de Lebesgue λ (ver Definici´n 7. Teorema 7. e integral respecto de νS . Si Xn o es una sucesi´n mon´tona creciente de funciones medibles no negativas con o o l´mite X. Si Xn es una sucesi´n de funciones medibles con l´mite X. en un sentido bastante amplio.4. 2.

n . donde p es cualquier funci´n con la propiedad p(xj ) = pj .b] fn dλ = Sn .b] f dλ coincide con el l´ ımite de las sumas de Riemann que es la integral de Riemann.108 Enrique M. para cada xj ∈ S. es una notaci´n e o o o para esa misma integral.n = sup{f (t) : + − t ∈ Jj. Resulta en particular.n 1Jj. densidades. 2 n Nota. fn ≤ f ≤ fn . Del Teorema 13.b] f dλ ≤ Sn .4. si abreviamos mj.b] f dλ ≤ [a. En §13.4. pasando al l´ ımite cuando n tiende a infinito. En particular.2 Integral respecto de la medida νS del Ejemplo 7.1.5 La esperanza como caso particular de la integral.b] fn dλ ≤ [a. que si X es una variable discreta con recorrido S y probabilidades P{X = xj } = pj . entonces P{X ∈ A} = A pdνS .n }.n } y Mj. A. La expresi´n o en t´rminos de la funci´n de distribuci´n de probabilidad FX . + + − + [a. P) → (R. o 7. fn = j=1 kn − + j=1 Mj. resulta que [a.b] fn dλ. 7.6 se hace referencia a la extensi´n a R de la medida de o Lebesgue y de la correspondiente integral. Es inmediato verificar que A f dνS = xj ∈A∩S f (xj ).n 1Jj. o respecto de la distribuci´n de probabilidad PX de la variable X. por otra parte.n .1 resulta que la esperanza puede expresarse tambi´n por e medio de una integral en R: E(X) = xdPX (x) = xdFX (x). integrales. por ejemplo. y. de modo − + − − que [a. . n Cap´ ıtulo 7: Medidas. Caba˜a. B) o es la integral en Ω: E(X) = XdP. y. por una parte. [a. lo que nos lleva a concluir que Sn ≤ [a. Para la escritura de las sumas se ha aprovechado que la medida de Lebesgue de un intervalo es su longitud. encontramos que.b] fn dλ = Sn . De la definici´n de integral resulta que la esperanza de X : (Ω.1.n = inf{f (t) : t ∈ Jj. e introducimos las funciones simples fn = kn mj.

3.3. el inconveniente de dar a formas diferentes a resultados de naturaleza id´ntica. y para todo A ∈ A con µ(A) = 0 se cumple τ (A) = 0.6. En el Cap´ o ıtulo 3 se sobreentiende que se utiliza la integral de Riemann. Con esta nomenclatura.1 expresa que la o medida τ definida por (7.2 Cuando se dice que una variable aleatoria X o su distrio buci´n de probabilidades es absolutamente continua. resulta una formulaci´n algo m´s general. se dice que τ es absolutamente continua respecto de µ . en el primer caso. en el primer caso. A esta ultima tambi´n se la llama funci´n de cuant´ ´ e o ıa.1 o a o puede en consecuencia reemplazarse por la siguiente: Definici´n 7. la Definici´n 3. que se reducen a sumas. A). Cuando τ (A) = A Xdµ.1.Introducci´n a la probabilidad. De lo que precede surge que la pr´ctica de tratar separadamente a las distribuciones a absolutamente continuas y a las distribuciones discretas. e Observaci´n. se dice tambi´n que X es la densidad de τ con respecto a µ. se sobreentiende que o la distribuci´n de probabilidades es absolutamente continua respecto de la o medida de Lebesgue. en el segundo. como contrapartida.3.3. o Las definiciones introducidas en este cap´ ıtulo nos permiten reemplazar (i) por otra formulaci´n equivalente.3. Adem´s. Esta pr´ctica puede asimismo tener. lo esencial es que la funci´n de o o distribuci´n sea la integral de una densidad. y a la densidad respecto de νS en el segundo.1 indica una relaci´n entre medidas que resulta de inter´s: o e Definici´n 7. En cuanto a (ii). Una variable o su distribuci´n de probabilidades se o dicen discretas cuando esta ultima es absolutamente continua respecto de la ´ medida νS de recuento de un conjunto discreto S. 109 7.1 Cuando τ y µ son dos medidas en un mismo espacio de o medida (Ω. .6.3.6 Densidad de una medida respecto de otra medida. o bien de las medidas discretas y las correspondientes integrales respecto de medidas de recuento de conjuntos discretos. cuando se refieren a una u otra e medida. Se llama densidad de la distribuci´n de X a la densidad respecto de la o medida de Lebesgue. o 7. deja fuera a las distribuciones que no son absolutamente continuas a respecto de λ o de alguna νS . Densidad.1) es absolutamente continua respecto de µ. La Definici´n 3. responde a la comodidad de formular enunciados que aprovechan las propiedades particulares de la medida o la integral de Lebesgue. pero si ´sta se reemplaza por la integral e de Lebesgue.6. El Corolario 7. y generalizar en cierta medida. Ahora es posible rever. el Corolario 7.

si h es tambi´n una densidad (porque es una funci´n medible que e o cumple τ (A) = A hdµ para todo A medible).9. n Cap´ ıtulo 7: Medidas. tiene una importante aplicaci´n en el Cap´ o ıtulo 9. rec´ ıproco del Corolario 7.6.1. Caba˜a.3. tal o que para todo A medible. existe una funci´n medible g (que se denota dτ /dµ). La densidad es esencialmente unica. densidades. existe la densidad de τ con respecto a µ.1 (de Radon-Nikodym). entonces µ{g = h} = 0. es decir. integrales. . El siguiente resultado. Teorema 7. Cuando τ es una medida σ-finita absolutamente continua respecto de la medida σ-finita µ.1.110 Enrique M. τ (A) = A gdµ. ´ es decir. cuya demostraci´n o se incluye en §13.3.

y) = P{X ≤ x.Y (x.Y (−∞. que se llama distribuci´n conjunta a o de X.Y es no decreciente. Distribuciones conjuntas. independencia. B).Y de una o o pareja de variables aleatorias reales X. asocia a cada o rect´ngulo (a. Y ≤ y}. −∞) = 0.1 La funci´n de distribuci´n de probabilidades FX. y. y) = FY (y). es posible verificar (mediante el Teorema 3. (3) FX. as´ como cada una de ellas induce una distribuci´n de probabilidad en (R. 8. 111 .1 Se llama funci´n de distribuci´n de probabilidad de o o o la pareja de variables aleatorias X. d] la probabilidad a PX. que denotaremos PX. d]) = P({a < X ≤ b} ∩ {c < Y ≤ d}). Y satisface las propiedades: (1) FX. ı Dadas dos variables aleatorias X. para todo x. Y .Y : R × R → R+ o definida por FX. intersecciones tales como {a < X ≤ b} ∩ {c < Y ≤ d} se abreviar´n por medio de la notaci´n {a < X ≤ b. FX. Esta distribuci´n conjunta. b] × (c. descrita por la correspondiente funci´n o o de distribuci´n. y continua por la derecha como funci´n de cada o uno de sus argumentos. En lo sucesivo.Y . ∞) = FX (x).2. (2) FX.Y (x. a o Definici´n 8.Y ((a.8. b] × (c. Y . d].1.1) que la pareja o induce una probabilidad en la m´ ınima σ-´lgebra de subconjuntos B(2) de R×R a que contiene a los rect´ngulos (a.Y (x.1. c < Y ≤ d}. y) = FX. b] × (c.1 Distribuci´n conjunta de una pareja de vao riables aleatorias.Y (∞. Teorema 8. Y a la funci´n FX.

(ii) Diremos que X.2.1. Observemos que cuando el recorrido de una variable aleatoria discreta X es el conjunto {xi : i = 1. d) + FX.Y en R. b] × (c.Y (x. y la probabilidad o o a a<xi ≤b c<yj ≤d pi. (4) Para cualquier rect´ngulo semiabierto R = (a. independencia. A esta expresi´n la llamamos incremento doble de FX. un conjunto de puntos de R2 cuya intersecci´n con cualquier rect´ngulo contiene una cantidad finita de elemeno a tos.1) se las llama o densidades marginales. o la funci´n de distribuci´n FX. 2. c) − FX.2 (i) Diremos que una pareja X. se obo servar´ que la propiedad (3) del Teorema 8.Y se la llama funci´n de densidad de la distribuci´n o o o conjunta. Caba˜a. . . y el de una variable discreta Y es {yj : j = 1. 2. Y . (8.j de que (X.1) A las distribuciones de X y de Y se las llama distribuciones marginales de la distribuci´n conjunta de (X. Y ) pertenezca al rect´ngulo (a. c) − FX. . fY (y) = ∞ −∞ fX.}. de la siguiente o manera: Definici´n 8. con densio dades respectivas fX (x) = ∞ −∞ −∞ fX. y ′ )dy ′ .Y (x. Y ). 2 Las definiciones de distribuci´n discreta y distribuci´n absolutamente cono o tinua se suelen extender al caso de la distribuci´n de una pareja. o Demostraci´n. . Para el caso de una distribuci´n conjunta absolutamente continua. . d). d].Y (b. entonces las probabilidades pi.1 implica que cada una de las a variables por separado tiene distribuci´n absolutamente continua. d]. y) = xi ≤x yj ≤y pi.}. en particular.Y (x. Y es absolutamente continua cuando su funci´n de o distribuci´n FX. . y a las densidades (8. Y de variables aleatorias o o tiene distribuci´n de probabilidades discreta cuando su recorrido es un conjunto discreto. Se extiende el procedimiento utilizado para verificar el Teoo rema 3.1.j .Y (x. n Cap´ ıtulo 8: Distribuciones conjuntas.1. y) = x −∞ dx′ y A la funci´n fX. y)dx.112 Enrique M.Y (a. Y ) ∈ R} = FX. y. es decir.Y (b.Y puede representarse por medio de la integral (de Rieo mann) FX. y)dy.j = P{X = xi .Y (x′ . fX. b] × (c. .Y (a. Y = yj } bastan para determinar la distribuci´n de la pareja X. se cumple a P{(X.

Y ) pertenezca al rect´ngulo abierto (a. y)dx dy.2). Integral de Lebesgue en el plano. o cuando es una uni´n finita de regiones como estas. y).Y (x. de modo que la probabilidad de que la pareja (X.Y (x. x = b y los gr´ficos de un par de funciones c(x). b]. y)dx dy coincide con S fX. Esta consecuencia de la monoton´ de la probabilidad puede aprovecharse para ıa extender (8.1. Y ) ∈ S} = limn→∞ P{(X. b) × (c.1: Dominios de integraci´n. y)dx dy. Y ) pertenezca a (a. como es el caso. P{(X. y y = d(x) d x = a(y) y 113 x = b(y) y = c(x) x a b c x Figura 8. (Figura 8.2) S Cuando S es el l´ ımite de una sucesi´n creciente de uniones de rect´ngulos o a Sn . Y ) ∈ S} = fX. . y)dy.Introducci´n a la probabilidad. se cumple a P{(X. Es f´cil verificar que en este caso el borde del rect´ngulo tiene probabilia a dad nula. a a Se deduce de lo anterior que para un conjunto S que sea una uni´n de o rect´ngulos. por ejemplo. cuando S es la regi´n o del plano limitada por x = a.2. d] est´ dada por a b a dx d c fX. (8. d) y al rect´ngulo cerrado [a. parte superior).2) a regiones S para las que limn→∞ Sn fX. b] × (c. a parte inferior). Y ) ∈ Sn} = limn→∞ Sn fX. a d(x) continuas en [a. (Figura 8. Al menos o para regiones de este tipo vale entonces (8. cuando es una regi´n o an´loga con intercambio de los papeles que juegan la x y la y.Y (x.1. o 8.Y (x. d] coinciden. b] × [c. o La probabilidad de que (X.Y (x.

Y (x. b] × (c. se cumple P{U ∈ (a.1 La medida de Lebesgue en R2 es la medida λ definida por o λ(A) = ∞ ∞ Pm. si para cada rect´ngulo C = (a. .Y = x −∞ dx′ y −∞ fX.n =[m. si f satisface esas condiciones. la a probabilidad PX. 2 La medida de Lebesgue en (R2 . Rec´ ıprocamente. es la probabilidad Pm. d]} = (b − a)(d − c). 0 ≤ c < d ≤ 1. entonces coinciden sobre todo conjunto de Borel. Los comentarios que preceden muestran que la expresi´n para el c´lculo o a de la distribuci´n de probabilidad de una variable absolutamente continua a o partir de la integral de la densidad. n. b] × (c. n Cap´ ıtulo 8: Distribuciones conjuntas. Pm. B (2) ) puede definirse de manera similar a la que utilizamos en el Ejemplo 7.Y dλ.114 8. n)tr . U2 )tr en R2 con distribuci´n uniforme en [0. y ′ )dy ′ es la funci´n de distribuci´n conjunta de una pareja con distribuci´n PX.1. d].n . la funci´n o FX. 1] × [0.2 La integral de Lebesgue en R . es la integral respecto de la o Medida de Labesgue en R2 .n (A).n .2. m + 1] × [n.2. o Definici´n 8. Supongamos en primer lugar una variable aleatoria U = (U1 . Vamos a denotar Pm.Y (x′ . y)dy = 1. m=−∞ n=−∞ donde.n a la distribuci´n de probabilidad de U + (m. Dentro de este contexto.2. o Definici´n 8. toda densidad de distribuci´n de probabilidades debe ser no o negativa y debe satisfacer ∞ −∞ dx ∞ −∞ fX. Obviamente.1). n + 1] definida en el contexto previo. para cada m. Caba˜a.Y (C) coincide con la medida definida mediante la integral de Lebesgue 1C fX. En particular. como consecuencia del Teorema de Extensi´n de Probabildades de Kolmogorov o (3.2.n es la probabilidad uniforme en el cuadrado Cm. vale para cualquier S en la σ-´lgebra de a Borel B (2) . la restricci´n de λ a cada Cm. 1]. Enrique M.2 La integral de Lebesgue en R2 .Y dλ.Y (S) o o o = S fX. independencia. Esto significa que para 0 ≤ a < b ≤ o 1.

. o 8. y coeficiente de correlaci´n a o ρ(X. Y ) o es una nueva variable aleatoria y su esperanza se calcula en la forma ∞ ∞ E(g(X. Momentos mixtos centrales de X. Definici´n 8. Y son variables aleatoo rias con distribuci´n conjunta absolutamente continua.1 (Regla para el c´lculo de E(g(X. y X. Y )) = i.3. a (i) Si g es una funci´n de R2 en R . Una verificaci´n directa o de la parte (i) no ofrece dificultades especiales. 8. Y − E(Y ). Probar las desigualdades (E(X))2 ≤ E(|X|)2 ≤ E(X 2 ). y)dy < ∞. Y ) = Cov(X. E(|Y |2 ). y)dy cuando g ≥ 0 o cuando ∞ ∞ −∞ dx −∞ |g(x.3. (ii) Si g es una funci´n continua de R2 en R .3. E(|XY |) finitos.3. y X. Y ) Var(X)Var(Y ) . Ejercicios Ejercicio 8.Introducci´n a la probabilidad. Y a esperanzas de productos de potencias de ambas. Y son los momentos mixtos de X − E(X).j pi. Integral de Lebesgue en el plano.j |g(xi . entonces g(X. o entonces g(X. y)|fX.j pi. Este Teorema es consecuencia del Teorema 13. Un caso particular es la covariancia.Y (x.Y (x.1 Las variables X. yj ) cuando g ≥ 0 o cuando i. a Teorema 8. 115 8.3 C´lculo de esperanzas. Y son variables aleatorias discretas.1.3. Y )) = −∞ dx −∞ g(x.1 Llamamos momentos mixtos de una pareja de variables o aleatorias X. yj )| < ∞. y)fX.j g(xi . Y a Cov(X. Y ) es una nueva variable aleatoria discreta y su esperanza se calcula en la forma E(g(X. Y ))). Y tienen momentos absolutos de segundo orden E(|X|2 ). Y ) = E((X − E(X))(Y − E(Y ))).4.1 Momentos asociados a una pareja de variables. Se llama covariancia de las variables X. (E(XY ))2 ≤ E(X 2 )E(Y 2 )(Cauchy-Schwarz).

Y ) es absolutamente continua. Y = yj } se obtienen por producto de las probabilidades P{X = xi }. Caba˜a. En el caso en que (X. Probar que si las variables X1 . 2. Y son discretas.Y (x. de o modo que P{X ≤ x.8.}. (iii) Si X. est´n dos a dos o a n n no correlacionadas. El resultado es (ii). {Y ≤ y} son independientes. . independencia. Xn . n Cap´ ıtulo 8: Distribuciones conjuntas. Y = yj } = P{X = xi }P{Y = yj } de (iii) es consecuencia de la independencia de {X = xi }. . 2 .4. o fX.}. Los sucesos {X ≤ x}.Y (x. . . Ejercicio 8.3 Dos variables se dicen no correlacionadas cuando su coeficiente de correlaci´n es cero. Y con momentos de segundo orden finitos. entonces las probabilidades pi. Demostraci´n. y) = FX (x)FY (y). La igualdad P{X = xi . . . .1. Ejercicio 8. Y son independientes.1 Distribuci´n de variables aleatorias indeo pendientes. X2 . entonces FX.j = P{X = xi . 2. para cualesquiera X. (ii) Si la distribuci´n conjunta de (X. y esto demuestra (i). Y ) es absolutamente continua. P{Y = yj } correspondientes a cada variable. lo son X e Y por separado. y podemos derivar (i) con respecto a x y con respecto a y.3. Producto de probabilidades.4 8. Y ≤ y} = P{X ≤ x}P{Y ≤ y}. Independencia de variables aleatorias. {yj : j = 1. La definici´n de la independencia de variables aleatorias ha sido adelantada en o §6. {Y = yj }. con recorridos respectivos {xi : i = 1. Teorema 8. entonces Var( i=1 Xi ) = i=1 VarXi .116 Enrique M.4.2 Verificar que. y) = fX (x)fY (y). se cumple Cov(X. .1 (i) Si X. . Y ) = E(XY ) − E(X)E(Y ). . 8.3.

P2 ).4.1. Ejemplo 8. requiere a mostrar que existe una y una sola probabilidad P en la σ-´lgebra producto a (que es la m´ ınima que contiene al algebra de las uniones finitas de rect´ngulos ´ a A1 × A2 con A1 ∈ A1 . A2 ∈ A2 . el producto de dos medidas de Lebesgue λ(1) en R se puede obtener a partir de la serie λ(1) = ∞ n=−∞ Pn . .2 Producto de probabilidades. A1 × A2 . P1 ) y (Ω2 . • A1 × A2 es la m´nima σ-´lgebra que contiene los productos cartesianos ı a A1 × A2 con A1 ∈ A1 .4. A2 ∈ A 2 .n . como medida producto. A1 . Es inmediato verificar que esta definici´n de λ(2) como medida proa o ducto es equivalente a la Definici´n 8. y en particular de la medida de Lebesgue. P1 × P2 ) donde • Ω1 × Ω2 es el producto cartesiano de Ω1 y Ω2 .3 La medida de Lebesgue en R2 .4. Nota 1: Cuando decimos que P es el producto P1 × P2 . mediante la serie λ(2) = ∞ m=−∞ n=−∞ Pm. llamamos espacio de probabilidad producto de ambos a (Ω1 × Ω2 . A2 .1 Cuando X. y sus complementos) que en A1 × A2 vale P1 (A1 )P2 (A2 ). o 8. La definici´n de producto de probabilidades se extiende sin dificultad a medio das σ-finitas. Y son independientes.4. donde Pm. En particular. PX. 8.4. con Pn igual a la pro∞ babilidad uniforme en [n. Definici´n 8. n + 1]. o Las definiciones de producto.n definido o m´s arriba.Introducci´n a la probabilidad.n = Pm ×Pn es la distribuci´n uniforme en el cuadrado Cm. 117 8.2. a Nota 2: La coherencia de la definici´n de probabilidad producto requiere o establecer un teorema de existencia y unicidad.Y es la probabilidad producto de PX y PY . • P = P1 × P2 es la probabilidad que vale P (A1 × A2 ) = P1 (A1 )P2 (A2 ) para A1 ∈ A 1 . A2 ∈ A2 . Variables aleatorias independientes.1).2.1 (Producto de espacios de probabilidad.) o Dados los espacios de probabilidad (Ω1 . se extienden sin dificultad a Rd para cualquier d ∈ N. M´s precisamente. se sobreentiende que su dominio es la σ-´lgebra producto de los dominios de P1 y P2 . Esto es consecuencia del Teorema de Extensi´n de Probabilio dades de Kolmogorov (3.

. 1/2). Definir S0 = 0. independencia.5 Ejercicios. y sus funciones generatrices de probabilidades son gX y gY respectivamente. Y tienen densidad conjunta fX. Notaci´n: Cuando resulte claro del contexto cu´l es el espacio donde la o a medida de Lebesgue est´ definida.5. 2 + .i. √ (b) Hallar la densidad de R = X 2 + Y 2 . que c vale 2π 2 y deducir que ϕ(t) = √1 e−t /2 es una densidad en R y que X e Y tienen 2π densidad ϕ. + Xn ) y Var (X1 + . sin a indicar por medio de un super´ ındice cu´l es la dimensi´n.d. Ejercicio 8.5. A tales que X = R cos A. u 2 2 2 2 normal t´ ıpica (Ver Ejercicio 8.5.5. . Xn son variables independientes. . a o 8.2 Hallar la densidad de la suma y del producto de dos variables independientes con igual distribuci´n uniforme en (a): (0. (independientes e id´ne ticamente distribuidas) con recorrido contenido en N.5 Si X1 . y m es un n´mero natural. 1). calcular E(X1 + . .3). .5. . con distribuci´n o .3). se la llama normal t´ o ıpica o gaussiana (Ver §12).118 Enrique M.3 Si X.1 (b) Considerar ahora X1 . Ejercicio 8. + XN es gSN (t) = gN (gX1 (t)). entonces la funci´n generatriz de la suma. independiente de las anteriores. Verificar que la funci´n generatriz de SN o = X1 + . . . y) = ce−(x 2 +y 2 )/2 . . .4 Calcular E(X m ) si X tiene distribuci´n normal t´ o ıpica (Ver Ejercicio 8. (b): (−1/2.Y (x. 1 (a) Verificar integrando fX. . variables aleatorias i. .5.Y en R2 mediante coordenadas polares. . gX+Y es: o gX+Y (t) = gX (t)gY (t). y N otra variable aleatoria con valores enteros no negativos. X2 . Ejercicio 8. . (c) Hallar la densidad conjunta de R. . Y = R sin A. la denotaremos simplemente por λ. (a) Si X e Y son variables aleatorias independientes con recorrido contenido en N. Sn = X1 + . X2 . .5. + Xn . + Xn ). n Cap´ ıtulo 8: Distribuciones conjuntas. Caba˜a. o Ejercicio 8. Nota: A la distribuci´n con densidad ϕ. . + X 2 se conoce como χ2 (“Ji”-cuadrado con Nota: La distribuci´n de Y = X1 o n n n grados de libertad) Ejercicio 8.

y probar que X.7 (Problema de la aguja de Buffon). Y ) en b sin Y > X. 1) × (0. Otra soo luci´n al problema de la aguja de Buffon. Georges Louis Leclerc. integrando la densidad conjunta de (X. Se arroja al azar una aguja ıneas paralelas que distan de longitud 2b sobre un plano en el que se han trazado l´ 2a(a > b). ha merecido abundante discusi´n entre los probabilistas. 1). Y ) tiene distribuci´n uniforme en (0.5.Introducci´n a la probabilidad. su experimento consistente en arrojar baguettes por encima del hombro y observar si caen encima de alguna de un conjunto de l´ ıneas paralelas equidistantes marcadas en el pavimento. en la Costa de Oro francesa. Naci´ en Montbard.5. respectivamente uniforme en (0. Calcular la probabilidad de que la aguja corte a alguna l´ ınea. Supondremos que la distancia X del centro de la aguja a la l´ ınea m´s a pr´xima y el angulo agudo Y que forma la direcci´n de la aguja con la de las o ´ o l´ ıneas son variables independientes. o En el Ejercicio 8.Buffon. Y ). max(X. a) y uniforme en (0. N7. Y ) y max(X. o 8. A partir de esa . Y ) sean los lados de un tri´ngulo..6 Se supone que (X. Y son independientes. a 119 Ejercicio 8. o (a) Hallar la distribuci´n de X. si A ⊂ (0. N7. u 8.7 se ha planteado el siguiente problema. La interpretaci´n que se da a la expresi´n arrojar al azar es que la distancia o o X del centro de la aguja a la l´ ınea m´s pr´xima y el angulo agudo Y que a o ´ forma la direcci´n de la aguja con la de las l´ o ıneas son variables independientes. Y ) − min(X. conocido como Problema de la aguja de Buffon: Se arroja al azar una aguja de longitud 2b sobre un plano en el que se han trazado l´ ıneas paralelas que distan 2a (a > b). a) y uniforme en (0.Buffon. entonces P{(X. el 7 de sepo tiembre de 1707. π/2). Y ). esto es. a Ejercicio 8. Y ). Y ). (c) Calcular la probabilidad de que min(X. Llama la atenci´n que o o ese procedimiento ofrece una manera experimental de calcular el n´mero π.5. respectivamente uniforme en (0. Y ) − min(X. π/2). Comte de (1707 1788).6 Una aplicaci´n de la esperanza. Aunque el campo de la ciencia por el que m´s merece ser recora dado es el de las ciencias de la naturaleza. max(X. o (b) Hallar la distribuciones de min(X. y 1 − max(X. 1). 1)×(0.. la de Y . Y ) ∈ A} =´rea(A).

Por lo tanto.1) que la esperanza del n´mero de cortes de u una aguja es proporcional a su longitud. Por otra parte. a)×(0. como la longitud es 2πa. independencia. observamos que ´ste es u e o aditivo respecto de una partici´n de la aguja en segmentos: con esto queremos decir que si partimos la aguja en segmentos (es decir.120 Enrique M. o para la aguja de longitud 2b. que ni siquiera tienen por o n qu´ tener todos la misma direcci´n. se requiere un argumento que permita aplicar la misma f´rmula kℓ o para la esperanza del n´mero de cortes. ENn = kℓn → 2kπa. kℓ. la esperanza del n´mero de cortes de la aguja es la u suma de las esperanzas del n´mero de cortes de cada segmento. y) : 0 < x < b sin y. tenemos la ecuaci´n k ×2πa = 2. Para esa aguja. Sin a o embargo. interpretamos a la aguja como una uni´n de segmentos o peque˜as agujas. de modo que. u Para calcular la esperanza del n´mero de cortes. donde k es la constante de proporcionalidad. o incluso estar unidos) entonces el n´mero e o u de cortes de la aguja a las l´ ıneas es la suma del n´mero de cortes de cada u segmento. de la que deducimos k = 1/(πa).6. por el Teorema de Convergencia Dominada de Lebesgue. y por lo u tanto eso mismo vale la esperanza. y esto termina nuestra argumentaci´n. interpretaci´n. es decir. y converge al n´mero de cortes de la circuna u ferencia (que es 2). 2b/(πa). Finalmente. π/2). Como consecuencia. de modo que ENn → 2. Dado que la pareja X. el n´mero de cortes es (casi) seguramente 2. la probabilidad de cortar coincide o con el n´mero esperado de cortes. En particular. que tienda a la circunferencia C cuya longitud es 2πa. puede observarse que el el suceso “la aguja corta un l´ o ınea” equivale a X < b sin Y . n Cap´ ıtulo 8: Distribuciones conjuntas. 0 < y < π/2} (que vale 0 b sin ydy o = b) y el area del rect´ngulo (que vale πa/2). Caba˜a. se ıa deduce (haciendo uso del Lema 3. Y es uniforme en el rect´ngulo a (0. pero no para curvas. limn→∞ ℓn = 2πa. la esperanza (y la probabilidad de corte) vale(n) 2b × 1/(πa). Se observar´ que esta soluci´n no requiere calcular ninguna integral. tambi´n a una circunferencia. de longitudes ℓn . como hab´ ıamos encontrado antes. y ℓ es la longitud de la aguja. por la geometr´ del problema. o 2 (La idea de esta ingeniosa soluci´n al Problema de la Aguja de Buffon es o . cuando u e se acepta como v´lida para una poligonal. en la medida que la aditividad es obvia para poligonales. Basta considerar una sucesi´n de a o poligonales Cn . ´ a Una manera alternativa de resolver este ejercicio es la siguiente: observemos que la condici´n a > b implica que el n´mero de cortes de la aguja con las l´ o u ıneas s´lo puede ser 0 o 1. digamos. El n´mero Nn de cortes de la u poligonal Cn est´ acotado por 2. la probabilidad del suceso {X < b sin Y } es el cociente entre el π/2 a ´rea de la regi´n {((x. Dado que u segmentos iguales tienen esperanzas iguales. Para encontrar k vamos a elegir una aguja especial: un aro de di´metro a 2a.

. .Y es absolutamente continua. . .Introducci´n a la probabilidad.}. ..}. y P{Y = yj }. ∞ −∞ La densidad se obtiene derivando respecto a z: fX+Y (z) = ∞ −∞ fX (x)fY (z − x)dx = fX (z − y)fY (y)dy. La distribuci´n de la suma est´ dada por o a P{X + Y ≤ z} = xi +yj ≤z P{X = xi }P{Y = yj }. . la expresi´n se reduce a P{X + Y = n} = n P{X = i}P{Y = n − i}. la funci´n de diso tribuci´n de la suma FX+Y (z) = FX. de modo que FX+Y (z) = y. o discreta. o ´ 8. FY . yl . . i=0 . por simetr´ ıa. FX (z − y)dFY (y). .argentino Luis Santal´ (1911-2001). . Cuando X e Y son discretas. xk . En el caso particular en que las variables tienen a los naturales por recorrio do. . . Distribucion de la suma de variables independientes. sus distribuciones est´n determinadas por las probabilidades P{X = xi }. y) = fX (x)fY (y) y entonces FX. En el primer caso. FY en los casos en que FX. l. fX.) a n o 121 8. . Vamos a verificar c´mo puede calo cularse FX+Y a partir de FX .. i = a 1. y) : x + y ≤ z}) est´ determinada o a por las distribuciones marginales FX . . .7. {y1 . .Y ({(x. j = 1.7 Distribuci´n de la suma de variables indeo pendientes. . . . . FX+Y (z) = FY (z − x)dFX (x). k. . . . y) : x + y ≤ z}) = ∞ −∞ {(x. con recorridos respectivos {x1 . .y):x+y≤z} ∞ −∞ fX (x)fY (y)dx dy = fX (x)dx z−x −∞ fY (y)dy = ∞ −∞ ∞ −∞ fX (x)FY (z − x)dx. Cuando X e Y son variables aleatorias independientes. del matem´tico espa˜ol . . . .Y ({(x.Y (x..

y Nh = i=1 Xi . Ejercicio 8. pero no necesao riamente con el mismo par´metro. Si X1 . con distribuci´n exponencial. ¿Cu´l es la distribuci´n del n´mero Nh a o u de piezas defectuosas que es necesario desechar antes de obtener h buenas? Cuando h vale 1. u o designan las cantidades de piezas defectuosas que preceden a cada pieza buena. o Una l´ ınea de fabricaci´n produce sucesiva e independientemente piezas con o probabilidad p de no ser defectuosas. a (d) En este ultimo caso. n Para h = 3 utilizamos el resultado anterior: P{N3 = n} = i=0 n P{N2 = i}P{X3 = n − i} (n + 1)(n + 2) 3 p (1 − p)n . La distribuci´n de N2 o est´ dada por a n P{N2 = n} = i=0 n P{X1 = i}P{X2 = n − i} = i=0 (1 − p)i p(1 − p)n−i p = (n + 1)p2 (1 − p)n . Y )? a o (c) B´squense generalizaciones de los resultados precedentes. Ejercicio. dicho n´mero N1 tiene distribuci´n Geo(p). . o (a) ¿Cu´l es la distribuci´n de X + Y ? a o (b) ¿Cu´l es la distribuci´n de min(X. desde la anterior pieza buena fabricada. X2 . Y son independientes. distribuci´n binomial negativa. Caba˜a. . son variables independientes.122 Enrique M.1 Si X.8 Un ejemplo: Suma de variables geom´trie cas. independencia. Y son independientes. entonces cada Xi tiene distribuci´n o h Geo(p). P{N4 = n} = i=0 P{N3 = i}P{X4 = n − i} = C3 (n)p4 (1 − p)n . . . 2 = i=0 (i + 1)p2 (1 − p)i (1 − p)n−i p = n De la misma manera. con distribuci´n Exp(λ). calcular P{X > Y }. ´ 8.7. n Cap´ ıtulo 8: Distribuciones conjuntas. al caso en que u X.

(i+1)(i+2) n . ´ El mismo resultado podr´ haberse obtenido de manera directa. que equivale a (n + 1)(n + 2) .. se obtiene la f´rmula general para la densidad fk de o o k k−1 k la suma Sk = i=1 Ti de k variables independientes Exp(λ): fk (t) = λ t e−λt . . por medio ıa del siguiente razonamiento: Dado que Nh representa el n´mero de fracasos u hasta el h-´simo ´xito.9. y esta ultima igualdad se cumple trivialmente. el suceso {Nh = n} es la uni´n de los sucesos disjuntos e e o que consisten en que en los n + h − 1 primeros ensayos hay exactamente h − 1 ´xitos. p. la funo ci´n de densidad de cada una de ellas es f (t) = λe−λt 1{t≥0} . Por inducci´n en h y en n verificaremos que Ch (n) = (n+1)(n+2). . . el n + h -´simo ensayo es un ´xito. Para o h! ello. . en i=0 2 n i=0 Ch−1 (i). (n + h − 1) = h(n + 1)(n + 2) . . Tk son variables independientes con distribuci´n Exp(λ). . con Ch (n) = = 4. p) = h − 1} = n + h − 1 h−1 p (1 − p)n . .9 Otro ejemplo: Suma de variables exponenciales. basta observar que para cualesquiera h. y. . ´ A la distribuci´n de la variable Nh se la llama binomial negativa con o par´metros h. y. n. h−1 e y esta probabilidad debe ser multiplicada por la probabilidad p de ´xito en el ultimo ensayo. calculamos la densidad f3 de T1 + T2 + T3 mediante f3 (t) = ∞ −∞ f2 (x)f (t − x)dx = t 0 λ2 xe−λx λe−λ(t−x) dx = λ3 t2 −λt e . Ch (n) − Ch (n − 1) = Ch−1 (n). Distribuci´n Gamma y distrio buci´n de Poisson. La probabilidad de que e a e e en los n + h − 1 primeros ensayos haya exactamente h − 1 ´xitos es e P{Bin(n + h − 1. y la densidad de o la suma de T1 y T2 es f2 (t) = ∞ −∞ λe−λx 1{x≥0} λe−λ(t−x) 1{t−x≥0} dx = t 0 λ2 e−λt dx = λ2 te−λt . (k−1)! . . (n + h − 1).. para t ≥ 0. Suma de exponenciales.(n+h) .Introducci´n a la probabilidad. o Si T1 . . o 8. El resultado es Ch−1 (n). . adem´s. Distribuciones Γ y de Poisson. . 2! Por inducci´n completa. a 8. para h h 123 con C3 (n) = general. T2 . Una vez obtenida la densidad f2 . . . 5. P{Nh = n} = Ch−1 (n)p (1 − p)n . (n + h) − n(n + 1)(n + 2) .

se encuentra la funci´n de diso o tribuci´n de la sumaSk : o Fk (t) = t 0 fk (s)ds = t t 0 t 0 (λs)k−1 −λs λe ds (k − 1)! (λs)k−2 −λs λe ds (k − 2)! =− o En esta relaci´n de recurrencia puede reemplazarse Fk−1 (t) en funci´n de o Fk−2 (t). n Cap´ ıtulo 8: Distribuciones conjuntas. Sk es el tiempo total de funcionamiento del sistema con utilizaci´n de k repuestos.1 Supongamos que Th (h = 1. y as´ sucesivamente. De all´ se deduce que la distribuci´n de ı o la variable aleatoria H est´ dada por a P{H = h} = P{Sh < t ≤ Sh+1 } = P{Sh < t} − P{Sh+1 < t} = (λt)k −λt e . (k − 1)! por la relaci´n de recurrencia obtenida m´s arriba. y as´ sucesivamente hasta obtener una f´rmula para Fk (t) en funci´n ı o o de t.) son variables independientes. independencia. la primera pieza act´a en el intervalo (0. . definida tambi´n en el cuadro de o a e la p´gina 98. Este resultado muestra que Sk tiene la distribuci´n Γ(k.9.124 Enrique M. Esto muestra que H tiene o a la distribuci´n de Poisson con par´metro λt. T1 ). con distribuci´n Exp(λ). . k! (λt)k−1 −λt e + (k − 1)! (λs)k−1 −λs e = − (k − 1)! t 0 + 0 fk−1 (s)ds = Fk−1 (t) − (λt)k−1 −λt e . λ) definida en el cuadro o de la p´gina 98. y en T1 es reemplazada por la segunda que dura hasta u T1 + T2 . Si las variables Ti representan los tiempos de duraci´n de los sucesivos o repuestos de un componente de un sistema. ı ¿Cu´l es la probabilidad de que en el intervalo (0. Si el sistema comienza a funcionar en el instante 0. Ejercicio 8. 2. y el n´mero necesario o u H de reemplazos para que el sistema funcione durante un lapso t es aqu´l ene tero h tal que Sh < t pero Sh+1 ≥ t. a) se agoten las primeras n a piezas? ¿Cu´l es la probabilidad de que se agoten las primeras n piezas pero en el instante a a todav´ est´ funcionando la n + 1-´sima pieza? ıa e e . Caba˜a. a Ejercicios. a Por integraci´n del resultado anterior. que representan los tiempos de duraci´n de sucesivas piezas o o que son reemplazadas en un sistema en funcionamiento permanente tan pronto como la anterior falla. .

5 Una tarjeta de circuito impreso tiene un cierto n´mero de huecos u que se hacen usando un taladro num´rico controlado autom´ticamente.2 Calcular la distribuci´n de la suma de dos variables independio (b) por medio del v´ ınculo con las sumas parciales de variables exponenciales independientes (§8.9.9). (a) Calcular la probabilidad de que una tarjeta resulte aceptable. Esta descripci´n bien conocida o (§3. o (a) de manera directa. o ´ 8. la probabilidad de que el taladro no haga el hueco correspondiente es p.5. p).9. El control e a tiene un n´mero de fallas aleatorio l con distribuci´n de Poisson (λ). o bien a su complemento Ac . las realizaciones son independientes. Si el control u o falla.4. Si se hubiera contado en cambio el n´mero de veces que no ocurre A se hubiera obtenido la variable u n−B con distribuci´n Bin(n. La informaci´n completa de cu´ntas veces o o a .1) singulariza uno de los resultados posibles: A.9. u (c) Calcular la probabilidad directamente. entonces B = n 1Ai . 8.8 aprovechando la forma conocida de la funci´n generatriz de momentos factoriales de la distribuci´n Geo(p) o o que se indica en la tabla de la p´gina 98.3 Verificar el resultado del ejemplo en §8. 125 Ejercicio 8. y en cada una de ellas la probabilidad de que ocurra A es la misma.1 para deducir la distribuci´n o del n´mero de tarjetas aceptables. 1−p). Distribucion multinomial. (b) Aprovechar el resultado del Ejercicio 8.4 Calcular la esperanza y la variancia de la distribuci´n binomial negativa con par´metros h.Introducci´n a la probabilidad. Si Ai es el suceso A ocurre en el i-´simo intento.10. a Ejercicio 8.10 Ensayos repetidos. p.9. a o Ejercicio 8. e i=1 Las variables 1Ai son Ber(p) independientes. digamos p. La tarjeta se descarta cuando le falta al menos un hueco. entes con distribuci´n de Poisson. la cantidad B de veces que ocurre A tiene distribuci´n binomial con par´metros o a (n. cuando hay m´s de a dos resultados posibles: la distribuci´n o multinomial Cuando se realiza n veces un experimento que puede dar lugar a cierto resultado A. Ejercicio 8.

pero a ıa la redundancia obvia vuelve innecesario trabajar con variables en R2 . pk )tr . El c´lculo directo de P{M = m} donde m es un vector de Rk con coma ponentes enteras no negativas que suman n se hace observando que el suceso n {M = m} es la uni´n de los sucesos i=1 {Ui = ui } para los cuales cada ui o tiene alguno de los valores e1 . El vector M resulta entonces ser la suma de los n vectores independientes U1 . . que mk valgan ek . . Cuando el resultado de cada realizaci´n del experimento. aquella que se elimina. . y que necesariamente uno de ellos ocurre en cada realizaci´n del experio mento. a i=1 h=1 h . y se suele trabajar con o o el vector de k componentes a pesar de la redundancia. A2 . .. y n ui = m. cada una de las cuales o cuenta cu´ntas veces ocurri´ el correspondiente resultado. ek . independencia. . . . Por lo tanto. . El vector (aleatorio) M que cuenta h=1 cu´ntas veces ocurre cada resultado posible al cabo de las n repeticiones indea pendientes puede escribirse como suma de los vectores Ui ∈ Rk (i = 1.. . la informaci´n relevante es o ahora un vector de k componentes M = (M1 . . . Ak ocurre. . n Cap´ ıtulo 8: Distribuciones conjuntas. donde p = (p1 . Caba˜a. k.. . . . n) cada uno de los cuales tiene todas las componentes iguales a cero menos la que corresponde al resultado que ocurre en el h-´simo intento. . Ak son mutuamente excluyentes. i=1 Para que esta ultima condici´n se cumpla se requiere que m1 de los ui val´ o gan e1 . porque una cualo quiera de las componentes de M se obtiene restando las otras componentes del total n. que vale 1. no justifica la reducci´n en 1 de la dimensi´n. n − B). Suponemos tambi´n que las realizaciones son independientes. ocurre A y cu´ntas Ac requerir´ utilizar la variable vectorial (B. . . . p ∈ Rk .126 Enrique M. e o entonces las variables aleatorias Ui son independientes. . . Cada una de estas probabilidades vale ph cuando ui es eh . . Mk )tr (que convenimos en escribir como una columna. y que en e cada una de ellas las probabilidad de que ocurra Ah es ph . . se cumple P n {Ui = ui } = k pmh . . a Como en el caso binomial la informaci´n es redundante. M2 . . h = 1. Las probabilidades ph necesariamente cumplen k = 1. en vez de descrio birse de manera binaria (ocurre A o no ocurre A) se describe indicando cu´l a de k resultados posibles A1 . . . la probabilidad de cada una de las intersecciones n {Ui = ui } de sucesos independientes es el i=1 producto de las probabilidades de cada {Ui = ui }. a o Vamos a suponer que los resultados A1 . Dado que cada eh aparece mh veces. Un . A la distribuci´n de probabilidades de M se la llama distribuci´n multinoo o mial de par´metros n. . con distribuci´n de probabilidades P{Ui = eh } = ph . por eso la trasposici´n). pero la conveniencia de pasar de un vector en Rk a un vector en Rk−1 a expensas de tener que singularizar una de las componentes. que m2 valgan e2 . . resultado que no depende de cu´les son los ui .. . e Si eh es el vector de componentes nulas excepto la h-´sima que vale 1. .

Estad´ ısticos de orden. Como consecuencia. Definici´n de los estad´ o ısticos de orden. . De otra manera. . . que Los m1 vectores e1 n pueden ubicarse en m1 configuraciones diferentes. . VarM = nΣ. . . una funci´n biyectiva π : {1. observemos. 2. .. 127 Se deduce entonces que la probabilidad de la uni´n {M = m} es igual a la o cantidad de elecciones posibles de los vectores ui compatibles con la condici´n o de que mh de ellos valgan eh (h = 1. n} (es decir. 2. . n} → {1. En otras palabras. X2 . Consideremos una permutaci´n π de los n´meros o o u {1. se le llama muestra aleatoria o simple de la distribuci´n F . . 2.11.. Para ello. por ejemplo. . . Por cada una de ellas. donde la notaci´n diag aplicada a un vector o h=1 h indica la matriz cuadrada que tiene las componentes del vector en la diagonal y ceros fuera de ella. n}) o con la propiedad Xπ(1) ≤ Xπ(2) ≤ . . . A un conjunto X1 . etc.1 Los estad´ ısticos de orden de una muestra. y de esta manera se encuentra que el n´mero total de configuraciones es u n! (n − m1 )! (n − m1 − m2 )! × m1 !(n − m1 )! m2 !(n − m1 − m2 )! m3 (n − m1 − m2 − m3 )! (n − m1 − m2 − m3 )! (n − m1 − . . = m4 (n − m1 − m2 − m3 − m4 )! mk (0)! P{M = m} = k n! pmh h k h=1 mh ! h=1 k h=1 n! . EM = np. Luego hay n−m13 2 u m configuraciones posibles para ubicar los m3 vectores que tienen que vales e3 . . Xn de n variables independientes id´nticamente e distribuidas con distribuci´n de probabilidades F . − mk−1 )! . . π es la permutaci´n de los sub´ o ındices que ordena la muestra de manera creciente. . De los c´lculos precedentes resulta a tr tr tr Σ = EUi Ui − EUi EUi = diagp − pp . 8. mh ! En resumen. . k). . . Los momentos de primero y segundo orden de Ui son EUi = k ph eh = p. . o 8. h=1 EUi Uitr = k ph eh etr = diagp..Introducci´n a la probabilidad. . Llamemos Σ a la variancia de cada Ui . . tenemos que contar de cu´ntas maneras pueden elegirse los n resultados de manera que mh a de ellos sean eh . los m2 vectores e2 pueden ubicarse en n−m1 m2 configuraciones diferentes cor- −m respondientes a los n − m1 lugares a´n no ocupados. .11. ≤ Xπ(n) .11 8. .

con probabilidad 1. . x] es Bin(n. i Por lo tanto. x]. h−1 =n . donde π es una permutaci´n que ordena la muestra. pero.11. o 8. . . h P{X(h) ≤ x} = P{Bin(n. 2. x]). independencia. a´n cuando π no lo est´. 2. . . . n Cap´ ıtulo 8: Distribuciones conjuntas. Definici´n 8. cuando la funci´n de distribuci´n de F es o o continua. los estad´ a u ısticos de orden est´n bien a definidos. . pues su valor es el mismo. que la densidad f(h) de X(h) es: n f(h) (x) = i=h n [i(F (x))i−1 (1 − F (x))n−i − (F (x))i (n − i)(1 − F (x))n−i−1 ]f (x) i n−1 (F (x))h−1 (1 − F (x))n−h f (x) (h = 1. Calculemos en primer lugar la probabilidad del suceso X(h) ≤ x < X(h+1) que consiste en que exactamente h de las n variables de la muestra pertenecen a la semirrecta (−∞. . de modo que P{X(h) ≤ x < X(h+1) } = P{Bin(n. F (x)) ≥ h} = i=h n (F (x))i (1 − F (x))n−i . ı Cuando las n variables de la muestra son diferentes entre s´ como ocurre ı. El n´mero de variables en (−∞. o puede haber m´s de una.1 (Estad´ o ısticos de orden. X2 . . en general. . n). F (x)) u (con F (x) = F ((−∞. . n) para o los estad´sticos de orden. hay una sola permutaci´n que ordena la muestra. . Caba˜a. . o Se utiliza habitualmente la notaci´n X(h) = Xπ(h) ) (h = 1. 2. . obtenemos. para cada h = 1. Xn a la variable Xπ(h) . cualquiera sea u e la permutaci´n que se elija como π entre las que ordenan la muestra. . por ejemplo.128 Enrique M. . F (x)) = h} = De aqu´ resulta ı n n (F (x))h (1 − F (x))n−h . derivando la expresi´n o precedente.2 Distribuci´n de los estad´ o ısticos de orden. como es habitual). A´n en ese caso.) Llamamos estad´ ıstico de orden h de la muestra X1 . cuando F tiene densidad f . n. Vamos a obtener la distribuci´n de probabilidades del estad´ o ıstico de orden h.11.

calculamos F(h) (x + δ) − F(h) (x) = P{x < X(h) ≤ x + δ} observando que los sucesos A(x.1). Ejercicio 8.11. u o U(n+1) = 1.11. δ) ≤ lim n(n − 1)δ −1 (F (x + δ) − F (x))2 = 0. δ→0 δ→0 de modo que f(h) (x) = lim δ −1 PA(x. δ) − lim δ −1 PB(x. δ) = lim δ −1 PB(x. y la diferencia est´ cona a tenida en el suceso {hay al menos dos elementos de la muestra en (x. 1) vale 1. la integral n de esa funci´n en (0. a´n para h = 0 y h = n.11.11. tiene densidad n o n−1 h−1 n−h n h−1 x (1 − x) . con la convenci´n U(0) = 0.1 La distribuci´n del h-´simo estad´stico de orden U(h) de una o e ı muestra de tama˜o n de la distribuci´n uniforme en (0. calculamos la densidad f(h) del h-´simo estad´ e ıstico de orden en x mediante el l´ ımite cuando δ tiende a cero del cociente incremental F(h) (x+δ)−F(h) (x) .Introducci´n a la probabilidad. a Se deduce δ→0 lim δ −1 PA(x. h + 1. 1) de tama˜o n. h por n + 1. h−1 . o Reemplazar n. x + δ]} cuya probabilidad est´ acotada por n(n − 1)(F (x + δ) − F (x))2 . Consecuentemente. δ) δ→0 δ→0 = lim δ −1 n(F (x + δ) − F (x)) δ→0 n−1 (F (x))h−1 (1 − F (x + δ))n−h h−1 =n n−1 f (x)(F (x))h−1 (1 − F (x + δ))n−h . δ Para ello. si este l´ ımite existe. el segundo est´ contenido en el primero. 129 Ejemplo 8. Cuando F tiene densidad f . y deducir que la esperanza del estad´ ıstico de orden h de la muestra uniforme de tama˜o n vale n 1 n−1 h−1 EU(h) = n 0 n−1 h x (1 − x)n−h dx = h/(n + 1). Los espaciamientos U(h+1) − U(h) tienen todos la misma esperanza 1/(n + 1). para δ peque˜o.1 Obs´rvese que. Estad´ ısticos de orden. o n En efecto. 1).3 Otra derivaci´n de la densidad del h-´simo eso e tad´ ıstico de orden. δ) = {X(h−1) ≤ x < X(h) ≤ x + δ < X(h+1) } tienen probabilidades muy pr´ximas. δ) = {x < X(h) ≤ x + δ} y B(x.11. o 8. por ser n e xh−1 (1 − x)n−h la densidad del estad´ ıstico de orden h de una muestra uniforme en (0. h−1 8. la esperanza de U(h) vale h/(n + 1) (Ver Ejercicio 8.

11. 1) de tama˜o n.11. este a m´todo de c´lculo de f(h) resulta convenientemente mnemot´cnico. n Cap´ ıtulo 8: Distribuciones conjuntas. independencia. k ≤ n. mediante un procedimiento an´logo al de esta secci´n. Verificar en particular que.3 Calcular la covariancia de los estad´ ısticos de orden h y k de una muestra uniforme en (0.) (n+1)2 (n+2) Ejercicio 8. en definitiva. cuando n → ∞ y λ ∈ (0. El inter´s de este procedimiento alternativo. (h − 1)!(k − h − 1)!(n − k)! Ejercicio 8. para cada h. δ) surge de la enumeraci´n de los diversos casos o posibles y de un c´lculo combinatorio trivial. a o que la densidad conjunta de (X(h) .130 Enrique M. 1). La probabilidad de B(x. X(k) ) en (x. x < y) es n! f (x)f (y)(F (x))h−1 (F (y) − F (x))k−h−1 (1 − F (y))n−k . . aprovechando la densidad obtenida en el ejercicio anterior. Ejercicio 8. es que basa el c´lculo en la e a obtenci´n de la probabilidad de B(x. EU([λn]) tiende a λ y VarU([λn]) tiende a 0. obtener Cov(U(h) .11. (Se sugiere n calcular E(U(h) (1 − U(k) ) para h ≤ k. e a e Ejercicios. y) (h < k. Caba˜a.4 Designemos la parte entera de un n´mero real x mediante [x] u = max{n ∈ N : n ≤ x}. de modo que. y a partir del resultado de ese c´lculo. U(k) ) a = h(n−k+1) . δ) y en un pasaje al l´ o ımite muy sencillo.2 Verificar.

Esta definici´n no da por o resultado una probabilidad cuando Y no pertenece a su recorrido esencial. vale PX|{Y =yj } . Cuando Y es una variable discreta con recorrido esencial {Y1 . corresponde a a introducir primero la idea de esperanza condicional.9. PX|Y (A) est´ bien determinada. 9. . al subconjunto del recorrido que contiene s´lo los puntos de probabio lidad positiva) a partir de las distribuciones condicionales PX|{Y =yj } . cuando se cumple {Y = yj }. por ejemplo. Distribuciones y esperanzas condicionales. . 131 . . (9. y para cada A. . de la misma manera que las probabilidades de sucesos P(A) pueden obtenerse de las esperanzas E(1A ). resulta razonable definir distribuci´n condicional de X dado B a la probabilio dad PX|B que en cada suceso A vale PX|B (A) = P{X ∈ A|B}. o o Un punto de vista a la vez m´s intuitivo y menos restringido. de la que podremos obtener como consecuencia particular la probabilidad condicional. . Sobre un suceso de probabilidad 1. Yn . pero tal suceso tiene probabilidad nula. cuando Y tiene distribuci´n absolutamente continua.1) que. requiere una mayor elaboraci´n. a e Extender la definici´n de PX|Y a un caso general en el que Y no est´ o necesariamente concentrada en un conjunto discreto. . resulta igualmente razonable llamar distribuci´n condicional de X dado Y a la diso tribuci´n de probabilidades aleatoria o n PX|Y (A) = j=1 1{Y =yj } PX|{Y =yj } (A).} (llamamos recorrido esencial de una variable discreta con recorrido (numerable) R.1 Introducci´n. o Cuando B es un suceso de probabilidad no nula y X es una variable aleatoria. .

si el jugador antes de apostar conoce la cara Y obtenida en el primer intento. y el de la variable X en el instante a “2”. cuando ocurre el suceso {Y ∈ B} y 0 en caso contrario. Volvamos a considerar el modelo de un juego de azar. el jugador considerar´ intera cambiables las cantidades X1{Y ∈B} y g(y)1{Y ∈B} . pues s´lo gana si el segundo dado cae en 6. (6. la eventual dependencia entre ambas a variables har´ que la nueva apuesta sea ahora cierta funci´n del valor y que haya a o obtenido la variable Y . su apuesta depender´ a de cu´l sea este resultado. Supongamos que en una mesa de juego se arroja un dado (equilibrado) dos veces independientemente. 2 ´ 3. Sin m´s informaci´n adicional. a partir del cual el jugador conoce cu´l ha sido su premio X1{Y ∈B} . modifique o eventualmente su apuesta. Y son independientes. g(4) = 1/6. apostar´ 1/2.1. pero ahora supondremos que el premio es la variable aleatoria X. o Agreguemos ahora la informaci´n de cu´l es el valor de la variable Y . 6). Al valor g(y) lo llamamos esperanza condicional de Xdado {Y = y}. . funci´n del valor de Y . si o Y ∈ B. Antes de escribir las definiciones en forma resumida. consideremos un ejemplo. Para u la primera variante. tenemos 36 resultados posibles equia o probables. g(5) a = 1/3. 6)) son favorables. (6. apostar´ 1/6. g(y) no debe variar con el valor y de Y . y se denota por S a la suma de los puntos resultantes.132 Enrique M. cuando el jugador ya conoce Y . y a adem´s la constante E(X1{Y ∈B} ). interprete que el valor determin´ ıstico equivalente a X1{Y ∈B} es ahora una nueva cantidad. Vamos a suponer que la apuesta se hace en el instante “0”. 6). 5). g(6) = 1/2. Notemos por ultimo que cuando X. sin ninguna informaci´n sobre los resultados inciertos. en la que la apuesta se e hace en el instante “1”. (5. Como en 2. Si es 1. Consideraremos tambi´n una segunda variante de este juego. que.1.2 y en §2. Sin embargo. sino que debe valer E(X) para todo y. Caba˜a. apostar´ 1/3. es decir. Si es 5. en ausencia de informaci´n adicional sobre Y . El premio es X = 1{S≥10} . n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales 9. de los cuales seis ((4. la cantidad g(y) no cambia. pero a´n no conoce X. es decir. (5. que denotaremos por g(y). (6. pues estar´ seguro de perder. a e A esta funci´n compuesta de g con la variable Y . Y cuando Y ∈ B. apostar´ 0. considerada intercambiable a X. Evidentemente. Es tambi´n claro que. o la vamos a llamar esperanza condicional de X dada Y . o a resulta razonable pensar que el jugador.2 Una interpretaci´n intuitiva para la espeo ranza condicional. La apuesta equitativa o esperanza de X = 1{S≤10} es 1/6. se o conoce el valor de la variable Y en el instante“1”. Tenemos entonces g(1) = g(2) = g(3) = 0. por consiguiente. la apuesta ser´ 0. Por lo tanto. la cantidad determin´ ıstica que el jugador considera intercambiable por el premio es E(X1{Y ∈B} ). a o a y si es 6. como el ya analizado en §1. es tambi´n E(g(Y )1{Y ∈B} ). 4). si cambiae mos el suceso B sin que deje de contener al punto y.2. Si a o a a es 4. el conocimiento de Y no ´ debe alterar la apuesta en favor de X. para la segunda variante. con esta informaci´n adicional. 5). en el instante “1”. Esto implica que en el instante “0” considerar´ intercambiables las variables aleatorias X1{Y ∈B} y g(Y )1{Y ∈B} .

lleva cualquier a conjunto de Borel C de R en un conjunto de Borel g −1 (C). o ´ 9. De lo que precede recogemos la siguiente definici´n: o Definici´n 9. es decir. {B ∈ B}.1 (i) Dadas las variables aleatorias X. Y . no necesariamente (R. Para ese caso particular. para todo conjunto B de B. con la propiedad E(E(X|C)1C ) = E(X1C ). C) que denotamos E(X|C). 133 9. B) → (R. la parte (i) del a . (ii) Dadas la variable aleatoria X. admitiremos que g resulte ser una funci´n de Borel. AY ) en (R. podemos establecer que E(X|Y ) es una variable aleatoria g(Y ) de (Ω. o Vamos a formalizar la definici´n de esperanza condicional introducida en §9. Para asegurar que esta funci´n compuesta sea efectivamente una variao ble aleatoria. con la propiedades g : (R. para B ∈ B.3. Nota 1: La parte (i) de la definici´n precedente se extiende con los camo bios obvios al caso de variables X. satisface E(E(X|Y )1{Y ∈B} ) = E(X1{Y ∈B} ). Esto implica adem´s que la preimagen de C por la variable aleatoria g ◦ Y es un conjunto a −1 −1 Y (g (C)) de la σ-´lgebra AY generada por la variable Y . a Como resumen de lo que precede.3. Observemos que de esa introducci´n resulta que la espeo ranza condicional de X dada Y es una variable aleatoria que puede escribirse en la forma g ◦ Y. Nota 2: La definici´n introduce de manera paralela la esperanza dada una o variable aleatoria Y y la esperanza dada una σ-´lgebra C.2 o de manera intuitiva. en el espacio de probabilidad (Ω. B). A) y la sub-σ-´lgebra C ⊂ A. La medibilidad de g asegura que g(Y ) sea una variable aleatoria. La variable aleatoria a E(X|Y ) definida en (i) satisface las condiciones de E(X|C) en (ii).Introducci´n a la probabilidad. la m´ a ınima σ-´lgebra que contiene a los sucesos de la forma {Y ∈ B}. con valores en R o llamamos esperanza condicional de X dada Y a una nueva variable aleatoria g(Y ) que denotamos E(X|Y ). B) que para todo suceso {Y ∈ B}. Y con valores en espacios de probabilidad cualesquiera. llamamos esperanza condicional de X dada C a una a nueva variable aleatoria en (Ω. para todo conjunto C de C. es decir. cuando C es la σ-´lgebra AY generada por Y .3 Definici´n de la esperanza condicional. B) es medible. o −1 una funci´n para la cual la correspondencia C → g (C) entre subconjuntos o del recorrido y del dominio establecida por las preim´genes. Definicion de la esperanza condicional. E(g(Y )1{Y ∈B} ) (= E(E(X|Y )1{Y ∈B} )) = E(X1{Y ∈B} ).

las esperanzas condicionales E(X|Y ) de X dada Y y E(X|C) de X dada la σ-´lgebra C existen y son esencialmente a unicas. (i) Si E(|X|) < ∞. AY ) en (R.3.6. para cualquier variable aleatoria V de (Ω. extendemos la notaci´n E(X|Y ) que representa cualquiera de o las variables aleatorias de la clase de equivalencia (9. P{g1 (Y ) = g(Y )} = 0}. con esperanza finita.2) a la clase misma. Teorema 9. B). n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales enunciado agrega al contenido de la parte (ii) que la variable aleatoria E(X|Y ) AY -medible se escribe en la forma g(Y ). si Z1 y Z2 son dos variables aleatorias en (Ω. Caba˜a. tambi´n las satisface cualquier funci´n g1 tal que P{g1 (Y ) = o e o g(Y )} = 0. y del mismo modo llamaremos E(X|Y = y) a cualquiera de las funciones g1 (y) de la clase (9. de acuerdo al contexto. en el segundo caso. con esperanza finita. C) con la propiedad E(Z1 1C ) = E(Z2 1C ) = E(X1C ).1 (Existencia de las esperanzas condicionales). B). C) en (R. (9. En el segundo caso. para todo B en B. La ´ . Demostraci´n de la parte (i).1 muestra que es esencialmente unica.2) o bien a toda la clase conjuntamente. se cumple E(V X|Y ) = V E(X|Y ) (AY designa a la σ-´lgebra generada por Y ). la denotaremos g(y) = E(X|Y = y). Nota: A cualquiera de las funciones g en las condiciones de la definici´n o de E(X|Y ). las unicas otras funciones que las ´ satisfacen son precisamente las de la clase de equivalencia {g1 : R → R. en el primer caso. si g1 y g2 son dos fun´ a ciones de Borel con la propiedad E(g1 (Y )1{Y ∈B} ) = E(g2 (Y )1{Y ∈B} ) = E(X1{Y ∈B} ). entonces P{g1 (Y ) = g2 (Y )} = 0. A. o Existencia de la esperanza condicional de X dada C: Dadas la variable X ≥ 0 en (Ω. para a cualquier variable aleatoria V de (Ω. se cumple E(V X|C) = V E(X|C). M´s precisamente. Si g satisface las condiciones de la definici´n. (ii) En el primer caso.134 Enrique M. C) tal que para todo C ∈ C. entonces P{Z1 = Z2 } = 0. buscamos una a nueva variable Z = E(X|C) en (Ω. y por la parte (ii) del Teorema. para todo conjunto C de C. C Z dP = o a C X dP. La soluci´n est´ dada por la densidad de la medida C → C X dP respecto de P que el Teorema 7. P) y la σ-´lgebra C ∈ A.2) Por ese motivo.

Introducci´n a la probabilidad. s´lo resta verificar que para o cada C ∈ C. 2 Demostraci´n de la parte (ii). con esperanza finita. S´lo resta verificar que una variable aleatoria Z en AY se puede o expresar en la forma Z = g(Y ). para V de signo cualquiera. E(V E(X|C)1C ) = E(V X1C ). 2. C) → (R. En esta instancia se aplica la hip´tesis de finitud de la esperanza de V . . entonces se cumple h E(X|Y = yj ) = i=1 xi P{X = xi |Y = yj } para j = 1. porque el primero se reduce a ´ste: e Dada V : (Ω. o Basta considerar el segundo caso. que es absolutamente continua respecto de la distribuci´n PY de Y . . . xh }. . o ´ 9. con C = AY . . . Esto es cierto trivialmente cuando V es la indicatriz de un suceso A de C. y2 . σ-´lgebra generada por la variable a aleatoria Y . Definicion de la esperanza condicional. y. por la acotaci´n E(|X|) < ∞ o indicada en la hip´tesis. y se obtiene el resultado requerido por diferencia. yk }. B). la igualdad se extiende primero al caso en que V es una variable aleatoria simple. definimos en (R. con recorridos respectivos {x1 . porque en ese caso la igualdad se reduce a E(E(X|C)1A∩C ) = E(X1A∩C ) y se aplica la propiedad que caracteriza a la esperanza condicional E(X|C). . Finalmente. la igualdad anterior implica que P{Z = g(Y )} = 1. se calculan por separado las esperanzas condicionales de X + y de X − y se restan. . o En el caso general (X no necesariamente no negativa). . . B) la medida con signo B → EZ1{Y ∈B} . 135 medida cuya densidad calculamos es finita. k. x2 . Existencia de la esperanza condicional de X dada Y : Se aplica el caso anterior. o 2 Teorema 9.3. En virtud de la linealidad y del Teorema de Beppo Levi. . k h E(X|Y ) = j=1 i=1 xi P{X = xi |Y = yj }1{Y =yj } . Puesto que V E(X|C) es obviamente C-medible. {y1 . B Dado que Z y g(Y ) son AY -medibles. por lo tanto. La densidad g respecto de la distribuci´n de Y cumple o o entonces EZ1{Y ∈B} = g(y)dPY (y) = Eg(Y )1{Y ∈B} .2 Si X. Y son variables discretas. . tenemos que verificar que la esperanza condicional E(V X|C) vale V E(X|C). y luego a V ≥ 0. Para ello. se aplica la igualdad ya verificada a V + y a V − . .3.

Dado un conjunto de Borel B. ∞ −∞ xf (x. No resulta util en cambio para variables con distribuci´n ´ o absolutamente continua. y)dx ∞ −∞ (9. y)dx La ultima expresi´n obtenida es precisamente E(X1{Y ∈B} ). . j=1 h Reemplazando X = j=1 xi 1{X=xi } y calculando las esperanzas. n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales Demostraci´n. 2 j=1 Nota. y)dx. y)dx xf (x. porque en ese caso P{Y = y} es cero para cada y. Teorema 9. j=1 La propiedad que caracteriza a la esperanza condicional es que para cada m. x + δ)|Y ∈ (y.3 Si X. Caba˜a. k vale g(yj ). j = 1. . x + δ). . entonces se cumple E(X|Y = y) = con f(X|Y =y) (x) = ∞ −∞ xf(X|Y =y) (x)dx f (x. f (x. y) . E(X1{Y =ym } ) = E(1{Y =ym } k gj 1{Y =yj } ).3.3) Demostraci´n. ´ o Nota mnemot´cnica. y)dx. y + ε)} P{Y ∈ (y. encontramos gm = h xi P{X = xi |Y = ym }. lo que nos permite escribir E(X|Y ) = k gj 1{Y =yj } . f (x. . La expresi´n (9. y + ε)} 2 . 2. Se observar´ que la conclusi´n del teorema anterior equivale a decir a o que la esperanza condicional de X dado {Y = y} es la esperanza de X calcuo lada con la distribuci´n de probabilidad condicional dado el suceso {Y = y}. y + ε)} = P{X ∈ (x. La esperanza condicional de X dada Y es una variable aleo atoria que sobre cada uno de los sucesos {Y = yj }. Esta caracterizaci´n de la esperanza condicional es apropiada en el caso de o variables discretas.136 Enrique M. Y ∈ (y.3) se obtiene de e o P{X ∈ (x. tenemos que verificar la o identidad E(E(X|Y )1{Y ∈B} ) = E(X1{Y ∈B} ). El primer miembro vale fY (y)E(X|Y = y)dy = = ya que fY (y) = dy B −∞ ∞ −∞ B B ∞ fY (y)dy ∞ −∞ f (x. Llamamos gj a g(yj ). Y tienen distribuci´n absolutamente continua con deno sidad conjunta f .

E(X1{Y ∈C} ) o a vale E(X)E(1{Y ∈C} ) por la independencia. o E A fX|Y (x)dµ1 (x)1{Y ∈B} = E1{X∈A} 1{Y ∈B} .2 y 9. o .Y respecto de la medida µ en R2 producto de las medidas σ-finitas µ1 y µ2 (es decir.2.4 La distribuci´n condicional. por medio de P{X ∈ A} = E(1{X∈A} ). Tenemos que verificar que para cualesquiera A. 8. y este producto es E(E(X)1{Y ∈C} ) por ser EX una constante. x + δ)|Y ∈ (y. y + ε)} n por δfX|Y =y (x).3. y) y P{Y ∈ (y. cuando fX|Y est´ dada por (9. B de Borel. 137 aproximando. Y son independientes. P{X ∈ (x. x + δ). Y ) tiene densidad fX. Demostraci´n. B cualesquiera de Borel en R.Y (x. que vale fX.4.3. P{X ∈ (x. µ(A × B) = µ1 (A)µ2 (B) (ver §§8. Y ∈ (y.4 Si (X.3.4). E(X|Y ) = E(X).3)). a 2 Teorema 9.5 Si X. 2 9. y + ε)} por εfY (y). y + ε)} por δεfX. y) fX|Y =y (x) = (9. entonces la distribuci´n condicional de X dado Y = y tiene densidad fX|Y =y respecto de o µ1 . y esta ultima igualdad se cumple como consecuencia del Teorema de Fubini ´ (ver Teorema 9.6. o ´ 9.3 son un caso particular del siguiente: Teorema 9. 2 Los enunciados de los Teoremas 9. Para cada C en la σ-´lgebra del codominio de Y .Y (x. y).4) fY (y) donde fY es la densidad de Y respecto de µ2 .3. o Ya hemos notado que la distribuci´n de probabilidad de una variable aleao toria X puede describirse a partir de esperanzas.4. Demostraci´n. y)dµ(x.2). cuando δ y ε son peque˜os. es decir B A fX|Y =y (x)dµ1 (X) fY (y)dµ2 (y) = A×B fX. Esto sugiere la definici´n siguiente.4. La distribucion condicional. para A.Y (x.Introducci´n a la probabilidad.

o 2 Ejercicios Ejercicio 9. Por lo tanto.1 Se llama distribuci´n condicional de X dado {Y = y} o o a la probabilidad PX|{Y =y} en (R. Para cada x. que est´n determinadas por sus funciones de distribuci´n evala o uadas en Q. y) y F ∗ (x. y) de E(1{X≤x} |Y = y). Y ) tiene distribuci´n conjunta absolutameno te continua con densidad fX. Por lo tanto. B) con funci´n de distribuci´n o o FX|{Y =y} (x) = E(1{X≤x} |Y = y). y que su densidad tiene l´ ımite fX|{Y =y} cuando δ → 0. y) y F ∗ (x. La primera parte est´ demostrada en el contexto previo al enunciado del a Teorema. como funci´n de A. y densidad marginal fY continua. El segundo resultado del enunciado es consecuencia del Teorema 9.Y continua. si nos damos dos representantes F (x. Caba˜a. para y en el complee mento de C = x∈Q Cx . la distribuci´n de X o o dado Y = 1 en A coincide con la probabilidad condicional dado B de {X ∈ A}. La expresi´n que define FX|{Y =y} (x) es aplicable a todo x ∈ R. n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales Definici´n 9. Esta uni´n numerable de sucesos de probabilidad o nula. dos de ellas difieren a lo sumo para y en C y P{Y ∈ C} = 0. estos pueden diferir s´lo para o y ∈ Cx con P{Y ∈ Cx } = 0. Teorema 9. Mostrar que PX|{y−δ<Y <y+δ} es absolutamente continua. y) son id´nticas sobre el dominio Q de los x racionales.1 La distribuci´n condicional P{X ∈ A|Y = y} es una probao bilidad.4. y muestra la coherencia de la notaci´n que se utiliza.4. Notaci´n: Es habitual denotar la probabilidad condicional PX|{Y =y} (A) o por P{X ∈ A|Y = y}.2. sino a menos de una clase de equivalencia.3.1 Supongamos que (X. de acuerdo a lo indicado en la Nota que sigue al Teorema 9.138 Enrique M. excepto posiblemente para y en un conjunto C de o probabilidad P{Y ∈ C} nula. tiene probabilidad cero. de modo que concluimos que las distribuciones condicionales. las funciones F (x.4.1. pero o para determinar la distribuci´n de probabilidades PX|{Y =y} basta conocer o FX|{Y =y} (x) sobre el conjunto numerable de los racionales. es decir. Cuando Y es la funci´n indicatriz de un suceso B. son todas esencialmente la misma. FX|{Y =y} (x) no est´ totalmente determinada como funci´n de a o y. .3.

. o E(X|Y..Z a la σ-´lgebra generada por los sucesos {Y ∈ B. o 9. es 1{Y ∈B. C. “2” y “3”.Z∈C} ) = E(1{Y ∈B} E(X1{Z∈C} |Y )) = E(1{Y ∈B. Yn /Yn+1 tienen la distribuci´n conjunta de los estad´ ısticos de orden de la distribuci´n uniforme en [0.4 Dadas las variables i. an tn+1 < Yn < bn tn+1 }. .5 Esperanzas condicionales iteradas.. a la esperanza condicional de X dada la variable aleatoria Y.Z∈C} E(X|Y. Z. xm . . a la que. escribir la densidad conjunta fY1 .. AY.Z∈C} ) = E(X1{Y ∈B.. Z) es una variable aleatoria en (Ω. . .4.. .1 Dadas tres variables aleatorias X. C.i. . . . una vez que se conoce Y = y es 1{Y ∈B} E(X1{Z∈C} |Y = y). de Borel. Z)). < an < bn < 1. luego de conocer adem´s el valor de la vaa riable Z = z.} o e Y tiene distribuci´n condicional dado {X = xi } absolutamente continua para cada o i = 1. Ejercicio 9. 139 Ejercicio 9. llamamos espeo ranza condicional de X dadas Y. . . Z)1{Y ∈B. . Yn+1 . . Z) = g ◦ (Y. Z = z). . Z ∈ C} a B.. Y2 . Definici´n 9. Se deduce de esta interpretaci´n o heur´ ıstica que deben cumplirse las identidades E(X1{Y ∈B. E(E(X|Y. . Dados 0 < a1 < b1 < a2 < b2 < . Y . . . y supongamos que Y . Z. 1]. . o Deducir que los cocientes Y1 /Yn+1 . .Z∈C} ). tn+1 ) y la densidad condicional fY1 . Z con valores en R2 . o 9. con distribuci´n expoo a nencial de par´metro 1. Z y X se dan a conocer respectivamente en los instantes “1”. La apuesta equitativa en “0” es E(X1{Y ∈B. Z.4. entonces P{X = xi |y − δ < Y < y + δ} tiene l´ ımite que coincide con PX|{Y =y} ({xi }). . o o dentro del contexto de distribuciones condicionales.3 Si X. Ejercicio 9. . tn ).5. . funci´n de las variables Y.Z∈C} E(X|Y = y. Z).Z∈C} ). entonces PX|{Y =y} (A) = PX (A) (la distribuci´n condicional de X dado {Y = y} es la distribuci´n de X. a2 tn+1 < Y2 < b2 tn+1 . calcular la probabilidad condicional dado Yn+1 = tn+1 del suceso {a1 tn+1 < Y1 < b1 tn+1 . . . . ..Y1 . . m. que denotaremos tambi´n E(X|Y. . .5. . y en “2”. Consideremos el juego con premio X1{Y ∈B. . . y para cualesquiera e B.Introducci´n a la probabilidad. . Denotaremos AY.Z∈C} . Y son independientes. .d. suele llam´rsele la distribuci´n a o incondicional de X). .2 Mostrar que si X tiene distribuci´n con recorrido {x1 . Esperanzas condicionales iteradas. de Borel..Yn+1 (t1 ..Yn |Yn+1 =tn+1 (t1 .Z ). . en “1”.4.

Teorema 9. Esto es cierto porque. Y .5. que es m´s rica que AY . (d) Si tuvi´ramos que adivinar X. E(E(Y |X)).3. Por la unicidad (Teorema 9. C es un conjunto de D. (b) Hallar la distribuci´n (marginal ) de Y . Z)|Y = y). E(Var(X|Y )). Si la ficha es roja. σ-´lgebra a a generada por Y . cuando Y = 1? ¿cu´l cuando Y = 0? e a . VarY . Z. Y . y las restantes blancas. se cumple E(E(X|Y. E(E(X|Y )). o (c) Calcular EX.5. 2 Ejercicios. Var(E(X|Y )). n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales para cualesquiera conjuntos de Borel B. de o modo que E(E(X|D)1C ) = E(X1C ). Z. pero tambi´n que para cada y. i contiene i fichas rojas. debido a la inclusi´n C ⊂ D. E(Y |X=x). Var(X|Y =y). La caja No.Z . y de ella se extrae una ficha al azar. como resulta de aplicar la propiedad de la Definici´n 9. cuando X ≥ 0 o E|X| < ∞.1 con la distribuci´n de o o probabilidades condicional dado Y = y que es la aplicable luego de“1” y antes de “2”. EY . Z)|Y ) = E(X|Y ).1 (i) Dadas las variables X. El v´ ınculo con la observaci´n que precede. debe e cumplirse E(X1{Z∈C} |Y = y) = E(1{Z∈C} E(X|Y. E(X|Y =y).140 Enrique M.1). a Demostraci´n. nueve fichas. VarX. o Basta demostrar (ii). E(Var(Y |X)). y si es blanca. Var(E(Y |X)). definimos Y = 1. σ-´lgebra generada por Y . Y = 0. resulta E(E(E(X|D)|C)1C ) o = E(E(X|D)1C ) y. y entre ambas partes del enunciao do. se cumple E(E(X|D)|C) = E(X|C). Var(Y |X = x).1 Diez cajas numeradas del 0 al 9 contienen cada una. o (a) Hallar la distribuci´n conjunta de X. que resulta ser la No. ¿qu´ valor elegir´ e e ıamos a priori (sin conoe ıamos cer Y ) para maximizar la probabilidad de acierto? ¿qu´ valor elegir´ a posteriori (despu´s de conocer Y ). Ejercicio 9. C. y D = AY. basta verificar que para o cada conjunto C de C se cumple E(E(E(X|D)|C)1C ) = E(X1C ). de la definici´n de esperanza condicional. (ii) Dadas X no negativa o con esperanza finita y las σ-´lgebras C. se obtiene con C = AY . Lo que precede sugiere el enunciado del siguiente teorema. que contiene a (i) a partir de la observaci´n previa.3. X. D (C ⊂ a D ⊂ A). Caba˜a. Se elige al azar una caja.

5. Var(X|Y = y). ´ Ejercicio 9. con igual distribuci´n exponencial con media 6 minutos. e a Se supone que el tiempo de atenci´n de C tambi´n es una variable aleatoria con o e distribuci´n exponencial. con distribuci´n uniforme entre las 11 y las 12 horas. y < 1 0 en caso contrario.6 El tiempo T que demora en caer un sistema de procesamiento de datos tiene distribuci´n con densidad fT (t) = (t(hora−1 ) exp(−thora−1 )(0 < t < ∞). . (ii) Con la relaci´n b/a calculada en la parte anterior. X. o o Si ambos autobuses le sirven al pasajero. E(X|Y = y). est´ o a previsto que del terminal partan un autob´s a las 11 y otro a las 12. Si X < Y .Y (x.3 Un pasajero llega al terminal de autobuses en el instante T . que ser´ atendida en la primera taquilla que quede libre. (i) Hallar la relaci´n b/a para que el juego sea equitativo. pero con esperanza igual o a dos horas. (a y b son constantes positivas). . cuyos respectivos tiempos de atenci´n son variables aleatorias independientes con distribuci´n exponencial. y) = x + y si 0 < x. calcular la u esperanza del n´mero de trabajos que se pueden procesar completamente antes que caiga el sistema. 3). y el segundo jugador un punto al azar Y en (1.5 Se considera el siguiente juego de azar entre dos jugadores: El primer jugador elige al azar un punto X en el intervalo (0. Inmediatamente o despu´s llega la persona C. Calcular la probabilidad de que C no sea el ultimo en retirarse.Introducci´n a la probabilidad. junta fX. Y ) tiene densidad de distribuci´n cono (a) Hallar la densidad fX de la distribuci´n de X. X2 . (b) Hallar la densidad condicional fX|Y =y . y T. Calcular P{X ≤ 1/2}. cu´l es a la esperanza del tiempo que el pasajero permanecer´ en el terminal? a Ejercicio 9. pero ´stos salen u e con retardos X e Y . 141 Ejercicio 9. es decir para que o la ganancia esperada de cada jugador sea cero. De acuerdo a lo anunciado.4 A dos taquillas desocupadas llegan simult´neamente las personas a o A y B. independiente de las anteriores. o 9. Ejercicio 9. 2) con distribuci´n o uniforme.2 La pareja de variables (X. Suponemos que X e Y son variables aleatorias independientes. el segundo jugador paga b(X − Y ) al primero. Y son independientes.5. el primer jugador paga a(Y − X) al segundo. o independientes. calcular la variancia o de la ganancia del primer jugador. o Si se procesan sucesivamente trabajos con tiempos de procesamiento X1 . Ejercicio 9.5. o P{X + Y ≤ 1/2}. Esperanzas condicionales iteradas. . si X ≥ Y .5.5. y con esperanza igual a una hora.5. con igual funci´n de distribuci´n F que satisface F (1 hora) = 1. . tambi´n con distribuci´n e o uniforme.

5. Y )|Y = y)dPY (y).1 (Teorema de Fubini para la Integral de Lebesgue). y)dPX (x) dPY (y). entonces [0.5. (ii) Un resultado an´logo vale cuando se reemplaza el dominio por el plano a R = R × R: R× R g(x. Y )|Y = y) = g(x.7 Cu´nto vale la esperanza condicional de X dadas las σ-´lgebras a a triviales {∅. Estas observaciones permiten concluir el enunciado siguiente: Teorema 9.1(b) a la luz del Teorema 9.6 La esperanza de una funci´n de una pareja o de variables independientes. y) cuando PX. y) = ∞ ∞ dx −∞ −∞ g(x. Eg(X. y la segunda se obtiene intercambiando el papel de la X y la Y. la independencia implica que a la distribuci´n condicional de X dada Y = y coincide con la distribuci´n o o incondicional PX . . de modo que E(g(X. n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales Ejercicio 9. y)dx. Por una parte (ver§13.1]×[0. el Teorema 9.5.5. y)dy = ∞ ∞ dy −∞ −∞ g(x. g(x.Y = PX × PY . y).1.6.1. y)dPX (x) dPY (y) = o donde dPX (x)dPY (y) es una notaci´n para dPX. 9. 2 Corolario 9.1 permite calcular Eg(X. La primera expresi´n de la integral respecto de la medida o o producto como integral iterada est´ justificada en el contexto previo al enuna ciado. 1]×[0.142 Enrique M. Y ) vale g(x. y) = 1 1 dx 0 0 g(x. Y ) = E(E(g(X.1] 2 g(x. Adem´s.6. y)dx. Y .8 Rever el Ejercicio 8.5. 1] → R es no negativa o integrable respecto de la medida de Lebesgue en R2 . Caba˜a. y)dy = 1 1 dy 0 0 g(x. Ejercicio 9.1 Si X ∼ PX e Y ∼ PY son independientes. x)dPX (x)dPY (y) g(x. Vamos a aplicar el Teorema 9.Y (x. Ω} y 2Ω . Y )|Y )) mediante la integral E(g(X. Y ) = = g(x. (i) Si g : [0. y)dλ(x. Y ) de variables independientes X. y)dPX. y el Teorema de Fubini.5.Y (x.1 al c´lculo de la esperanza de una funci´n a o g(X. Por otra.4) Eg(X. y)dλ(x. y)dPX (x). Demostraci´n.

µ = µ1 × µ2 es la medida producto en R2 . o independiente de la precedente (ver 13. si el soporte de f est´ en el rect´ngulo [a. a a d c b a b d c f (x.m son probabilidades.n P1. Y ∼ Unif(0.n se aplica el Teorema 9. µ2 son medidas σ-finitas en R.1. Teorema de Fubini.n . donde P2.1. se puede escribir mediante una serie de la forma µ1 = m c1.6.m . o 9.m c2.n c1. an´logamente. 2 Nota: El Cap´ ıtulo 13 incluye una demostraci´n del Teorema de Fubini.n P2.m × P2. Y + n) m=−∞ n=−∞ a con X. El caso general se obtiene por un argumento similar al que demuestra la parte (ii) del Corolario precedente a partir de la parte (i) del mismo Corolario: Cuando µ1 es una medida σ-finita. .2 (Teorema de Fubini). h(t)dt = m=−∞ Eh(X + m).1). y) = R Eg(X + m. y a cada producto P1. 1]. y. La parte (i) resulta del Teorema 9.m × P2. µ2 son probabilidades. entonces R R f (x. y)dµ1 (x) dµ2 (y) = R R f (x. 1).5.m P1. 1).n son tambi´n probabilidades.Introducci´n a la probabilidad. y)dµ1 (x) dµ2 (y) = a f (x. y f : R2 → R es no negativa o integrable respecto de µ. Esto permite llegar sin dificultad al resultado del enunciado.1 con X e Y uniformes o en [0. µ2 = n c2. el presente Teorema coino cide con el Teorema 9. d].n . y)dλ(x.6. b] × [c. Demostraci´n. e Entonces µ = m. ∞ R con X ∼ Unif(0. Cuando µ1 . donde P1. 2 Teorema 9. De la misma manera.6.6. y. Cuando µ1 . y)dµ2 (y) dµ1 (x). La parte (ii) resulta de desarrollar las integrales en la forma ∞ ∞ 2 g(x. 143 Demostraci´n.6. y)dµ2 (y) dµ1 (x).

n Cap´ ıtulo 9: Distribuciones y esperanzas condicionales . Caba˜a.144 Enrique M.

. por ejemplo. . πP = i πi Pi. multiplicamos P x = j P·. suma o producto. ya que las esperanzas de los tiempos de llegada a estados de la cadena intervienen de manera crucial en el enunciado y en la demostraci´n del meno cionado teorema. es una extensi´n natural de la definici´n de una o o cadena finita. cuyo tratamiento ha sido necesario posponer hasta haber introducido la esperanza. o Un vector infinito x = x· = (xk : k ∈ N) es una sucesi´n. Una matriz infinita es una sucesi´n doble P = P·. . entonces tambi´n convenimos en e que πP es un vector fila. . E2 . La definici´n de una Cadena de Markov con un conjunto numerable de estados o E = {E1 . 145 . . En cambio. si o e convenimos en que π = π· es un vector fila.}. Tambi´n las notaciones matriciales se extienden a este caso. j ∈ N).1).· . El presente cap´ ıtulo es una continuaci´n natural del Cap´ o ıtulo 5. Est´ cena trado alrededor de un teorema de convergencia de las probabilidades de una cadena de Markov con un conjunto numerable de estados (Teorema 10.j : i. 10.2. que son tambi´n generalizaci´n natural de las mismas opee o raciones en el caso finito.1 Cadenas con una cantidad numerable de estados. ∗ Convergencia de probabilidades en una cadena de Markov. .j xj y convenimos en que la sucesi´n resultante es tambi´n un vector columna. . En . a saber. Omitimos detallar otras operaciones entre matrices infinitas.10.· = (Pi. Si convenimos en o decir que x es un vector columna. e utilizando matrices infinitas.

de M. la utilizaci´n de la i en (πi ) indica que se trata de un vector fila. 146 Cap´ Aunque no sean formalmente correctas.2. El siguiente enunciado contiene varios t´rminos cuyas definiciones se indican e luego del mismo: Teorema 10.2 Teorema de convergencia de probabilidades en una cadena de Markov numerable.1. El vector π (n) = (P{Xn = Ei } : i ∈ N) se calcula mediante la f´rmula formalmente id´ntica a la del caso finito o e π (n) = πP n . Una vez reservados los nombres i y j para los ´ ındices de fila y columna de la matriz. Podemos dentro de este contexto reescribir la Definici´n 5.j : i. .1 (Teorema de convergencia de probabilidades..Enrique M. Notaci´n: En lo sucesivo. Caba˜a. . es una cadena de Markov con probabilidades de transici´n P = ((Pi. . ocurre una de estas dos alternativas: a (a) la esperanza del tiempo de llegada o retorno Tj = min{n ≥ 1 : Xn = j} ∞ es infinita para todo j. 2. . para abreviar.j )) en vez de P·. versi´n numerable. . . Adem´s. si 1 es el vector columna de componentes todas iguales a 1..2. n ıtulo 10: Convergencia de probabilidades en una C. utilizaremos a menudo las notaciones ((Pi.1: o Definici´n 5. recurrente. . X1 . que o ı no depende de i. o bien . y en ese caso πj = 0 para todo j.· y (xj ) o (πi ) para los vectores (x· ). .j )) y espao cio de estados E (finito o numerable) que forman una unica clase de equiva´ (n) ∞ lencia. Xn . n.. . entonces P 1 = 1.2. Como en el caso finito. .) Si (Xn )n=1.j = πj . aperi´dica.. identificaremos cada estado con su ´ ındice.2. j ∈ N) a cualquier sucesi´n de variables aleatorias X0 . 10. . . .Llamamos cadena de Markov con eso o pacio de estados E = {Ei : i = 1. . supondremos a menudo que los o estados de una cadena son Ei = i.2.. que cumpla o o (5.. es decir. y la de la j en o (xj ) indica que es un vector columna.1) para cualquier n y cualquier sucesi´n de estados (Eih )h=0. (π· ). entonces existe el l´mite limn→∞ Pi.1.} y matriz (infinita) de probabilidades de transici´n o P = (Pi. .

10. h = 1. .j Pj. Nota: La relaci´n de la definici´n precedente es en efecto una relaci´n o o o de equivalencia.j ≥ 0 tal que Pi. o entonces limn→∞ P n = 1π ∞ . .1 Significado de las hip´tesis del enunciado.j (m) (n−m) . y nj.1). . n) y cada sumando es la probabilidad de cada uno de esos sucesos.j = P{Xn = j.i = ∞. .2. la expresi´n πj = o (ETj )−1 vale para ambas alternativas. llamemos fi. Xh = j. Xℓ = j para 0 < ℓ < m. n=1 Pi. o Definici´n 10. El valor de cada componente ∞ de π ∞ es πj = (ETj )−1 .j a la probabilidad de que la o cadena pase de i a j por primera vez en n pasos: fi. o 10.2 El estado i de la ca