P. 1
Probabilidad y a Element Ales

Probabilidad y a Element Ales

|Views: 1,523|Likes:

More info:

Published by: Felix Leonardo Moreira Queijo on Apr 20, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

02/07/2013

pdf

text

original

Sections

  • PROBABILIDAD
  • Espacios de Probabilidad
  • 1.1 Los axiomas
  • 1.2 Experimentos con resultados equiprobables
  • 1.3 Ejercicios
  • Probabilidad Condicional e Independencia
  • 2.1 Relaciones entre dos eventos
  • 2.2. MODELOS BASADOS EN PROBABILIDADES CONDICIONALES 15
  • 2.2 Modelos basados en probabilidades condicionales
  • 2.2.1 Un modelo para tiempos de espera
  • 2.3 Independencia de varios eventos
  • 2.4 El esquema de Bernouilli
  • 2.5 La aproximaci´on de Poisson y sus aplicaciones
  • 2.5.1 El proceso de Poisson espacial
  • 2.5.2 El proceso de Poisson temporal
  • 2.6 Ejercicios
  • Variables Aleatorias
  • 3.1 Distribuciones
  • 3.1.1 Distribuciones discretas
  • 3.1.2 Distribuciones continuas
  • 3.1.3 Mezclas
  • 3.2 Transformaciones de variables aleatorias
  • 3.2.1 Aplicaciones a simulaci´on
  • 3.3 Distribuci´on conjunta de varias variables
  • 3.4 Independencia de variables aleatorias
  • 3.5 Ejercicios
  • Valor Medio y Otros Par´ametros
  • 4.1 Valor medio
  • 4.1.1 Media de funciones de variables aleatorias
  • 4.1.2 Media de una suma
  • 4.1.3 Media de un producto
  • 4.1.4 Algunas desigualdades
  • 4.2 Media de las distribuciones m´as usuales
  • 4.3 Varianza y desviaci´on t´ıpica
  • 4.4 Varianzas de las distribuciones m´as usuales
  • 4.5 Otros par´ametros
  • 4.5.1 Cuantiles
  • 4.5.2 Par´ametros de posici´on
  • 4.5.3 Par´ametros de dispersi´on
  • 4.5.4 Asimetr´ıa
  • 4.5.5 Momentos
  • 4.6 Ejercicios
  • Transformaciones de Variables Aleatorias
  • 5.1 Suma de variables
  • 5.1.1 Suma de variables Gama
  • 5.1.2 Suma de normales
  • 5.1.3 Combinaciones lineales de variables Cauchy
  • 5.2 Otras funciones
  • 5.2.1 Distribuci´on del cociente
  • 5.2.2 Distribuciones del m´aximo y el m´ınimo
  • 5.3 Distribuci´on de transformaciones de variables
  • 5.3.1 Un m´etodo general
  • 5.3.2 Aplicaci´on: normales en coordenadas polares
  • 5.4 La distribuci´on normal bivariada
  • 5.5 Ejercicios
  • Distribuciones Condicionales y Predicci´on
  • 6.1 Distribuciones condicionales
  • 6.2 Predicci´on
  • 6.2.1 Predicci´on lineal
  • 6.2.2 Predicci´on general
  • 6.3 Ejercicios
  • Teoremas L´ımites
  • 7.1 Ley de Grandes N´umeros
  • 7.2 Teorema Central del L´ımite
  • 7.3 Aplicaciones del Teorema Central del L´ımite
  • 7.3.1 Aproximaci´on normal a la binomial
  • 7.3.2 Aproximaci´on normal a la Poisson
  • 7.3.3 Movimiento browniano
  • 7.3.4 Tama˜nos de piedras
  • 7.4 Convergencia en distribuci´on y en probabilidad
  • 7.4.1 Convergencia de funciones de variables aleatorias
  • 7.4.2 Relaciones entre los dos tipos de convergencia
  • 7.4.3 *Demostraci´on de la aproximaci´on normal a la Poisson
  • 7.5 Ejercicios
  • ESTADISTICA
  • Descripci´on de una Muestra
  • 8.1 Res´umenes
  • 8.1.1 Media y varianza muestrales
  • 8.1.2 Diagrama de tallo y hoja
  • 8.1.3 Cuantiles muestrales
  • 8.1.4 Diagrama de caja
  • 8.2 La forma de la distribuci´on
  • 8.2.1 Histograma
  • 8.2.2 Diagrama de cuantiles
  • 8.3 Ejercicios
  • Estimaci´on Puntual
  • 9.1 Introducci´on
  • 9.2 M´etodos de estimaci´on
  • 9.2.1 Estimaci´on de un par´ametro
  • 9.2.2 Transformaciones
  • 9.2.3 Evaluaci´on de estimadores
  • 9.2.4 Estimaci´on de varios par´ametros
  • 9.3 El modelo de medici´on con error
  • 9.3.1 Varianzas distintas
  • 9.3.2 Estimaci´on robusta
  • 9.3.3 Sobre los motivos del uso de la distribuci´on normal
  • 9.4 Ejercicios
  • Intervalos de Confianza
  • 10.1 Introducci´on
  • 10.2 El principio del pivote
  • 10.2.1 Media de la normal con varianza conocida
  • 10.2.2 Varianza de la normal con media conocida
  • 10.2.3 Intervalos para la exponencial
  • 10.3 Intervalos para la normal con µ y σ desconocidas
  • 10.4 Un m´etodo robusto
  • 10.5 Intervalos aproximados para la binomial
  • 10.6 Intervalos aproximados para la Poisson
  • 10.7 Comparaci´on de dos muestras
  • 10.7.1 Dos muestras independientes
  • 10.7.2 Varianzas distintas
  • 10.7.3 Muestras apareadas
  • 10.8 Intervalos de tolerancia
  • 10.9 Ejercicios
  • Tests de Hip´otesis
  • 11.1 Introducci´on
  • 11.2 Un m´etodo para la obtenci´on de tests
  • 11.2.1 *Relaci´on entre tests e intervalos de confianza
  • 11.3 Potencia y tama˜no de muestra
  • 11.3.1 Tests para la media de la normal
  • 11.3.2 Tests para la binomial
  • 11.4 Comparaci´on de dos muestras
  • 11.4.1 Muestras normales
  • 11.4.2 M´etodos robustos y no param´etricos
  • 11.4.3 Comparaci´on de dos binomiales
  • 11.5 Sobre el uso de los tests en la pr´actica
  • 11.6 Ejercicios
  • Ajuste de una Recta
  • 12.1 El m´etodo de m´ınimos cuadrados
  • 12.1.1 C´alculo num´erico de los coeficientes
  • 12.1.2 Recta por el origen
  • 12.1.3 Transformaciones
  • 12.2 El modelo lineal simple
  • 12.3 Distribuci´on de los estimadores
  • 12.4 Inferencia
  • 12.5 Intervalos de predicci´on
  • 12.6 Predictores aleatorios
  • 12.6.1 Interpretaci´on de los resultados
  • 12.6.2 Predictores con error
  • 12.7 Uso de los residuos
  • 12.7.1 Diagrama normal
  • 12.7.2 Gr´afico de residuos vs. predictores
  • 12.8 Ejercicios
  • INDICE ALFABETICO

Probabilidad y Estad´ıstica Elementales

para Estudiantes de Ciencias
Ricardo A. Maronna
Facultad de Ciencias Exactas
Universidad Nacional de La Plata
Prefacio
“Es magn´ıfico aprender con quien no sabe.”
Mario Benedetti: “Gracias por el Fuego”
Este libro es una introducci´on a las ideas b´asicas de la Teor´ıa de Probabilidad y la Es-
tad´ıstica, destinado a estudiantes de Ciencias Exactas, Inform´atica e Ingenier´ıa, con un
buen conocimiento de An´alisis de una variable y de
´
Algebra elemental, y algunas nociones
de An´alisis de varias variables. He procurado enfatizar la forma correcta de encarar los
problemas, ya que muchos a˜ nos de ense˜ nanza y de pr´actica me han convencido de la inu-
tilidad de las recetas, y de que lo ´ unico que realmente sirve es la correcta percepci´on de los
problemas y de las posibles v´ıas de acci´on.
La Teor´ıa de Probabilidad tiene la enga˜ nosa caracter´ıstica de que resultados intuiti-
vamente plausibles tienen demostraciones que requieren conocimientos avanzados de Matem´atica
(la llamada “Teor´ıa de la Medida”). En este libro he procurado seguir un camino interme-
dio, demostrando lo que se pueda probar a nivel elemental, e indicando los casos en que
esto no es posible.
Los ejercicios son una parte importante del curso: contienen ejemplos y material com-
plementario, y, especialmente, sirven para que el lector compruebe su comprensi´on de la
teor´ıa, y desarrolle su habilidad para pensar correctamente por su cuenta, lo que debiera
ser el objeto ´ ultimo de toda ense˜ nanza.
Este libro es el resultado de muchos a˜ nos de ense˜ nar Probabilidad y Estad´ıstica, en las
Universidades Nacionales de Buenos Aires y de La Plata, y en la E.S.L.A.I. (Escuela Supe-
rior Latinoamericana de Inform´atica), cuyos alumnos han contribuido con sus comentarios
–no siempre elogiosos– al mejoramiento de mis cursos.
Abreviaturas: El s´ımbolo “” se usar´a para indicar el fin de una demostraci´on. Los
n´ umeros entre corchetes (como “[8]”) indican las referencias bibliogr´aficas al final del libro.
Un asterisco (*) indica las secciones que se pueden omitir sin afectar la continuidad de la
lectura.
Dedico este libro a Susana Estela, Liliana Litvin y Rosa Wachenchauzer, que siempre
me han impulsado a dar un paso m´as adelante.
La Plata, Octubre de 1995.
i
ii
Indice
I PROBABILIDAD 1
1 Espacios de Probabilidad 3
1.1 Los axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Experimentos con resultados equiprobables . . . . . . . . . . . . . . . . . . 6
1.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Probabilidad Condicional e Independencia 13
2.1 Relaciones entre dos eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Modelos basados en probabilidades condicionales . . . . . . . . . . . . . . . 15
2.2.1 Un modelo para tiempos de espera . . . . . . . . . . . . . . . . . . . 16
2.3 Independencia de varios eventos . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 El esquema de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 La aproximaci´on de Poisson y sus aplicaciones . . . . . . . . . . . . . . . . . 21
2.5.1 El proceso de Poisson espacial . . . . . . . . . . . . . . . . . . . . . . 21
2.5.2 El proceso de Poisson temporal . . . . . . . . . . . . . . . . . . . . . 22
2.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Variables Aleatorias 27
3.1 Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.3 Mezclas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Aplicaciones a simulaci´on . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Distribuci´on conjunta de varias variables . . . . . . . . . . . . . . . . . . . . 37
3.4 Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4 Valor Medio y Otros Par´ametros 45
4.1 Valor medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.1 Media de funciones de variables aleatorias . . . . . . . . . . . . . . . 46
iii
iv INDICE
4.1.2 Media de una suma . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.3 Media de un producto . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.4 Algunas desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 Media de las distribuciones m´as usuales . . . . . . . . . . . . . . . . . . . . 49
4.3 Varianza y desviaci´on t´ıpica . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Varianzas de las distribuciones m´as usuales . . . . . . . . . . . . . . . . . . 54
4.5 Otros par´ametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.5.1 Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.5.2 Par´ametros de posici´on . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.5.3 Par´ametros de dispersi´on . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5.4 Asimetr´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.5.5 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Transformaciones de Variables Aleatorias 63
5.1 Suma de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.1 Suma de variables Gama . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.2 Suma de normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.3 Combinaciones lineales de variables Cauchy . . . . . . . . . . . . . . 65
5.2 Otras funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.1 Distribuci´on del cociente . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.2 Distribuciones del m´aximo y el m´ınimo . . . . . . . . . . . . . . . . 66
5.3 Distribuci´on de transformaciones de variables . . . . . . . . . . . . . . . . . 67
5.3.1 Un m´etodo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.3.2 Aplicaci´on: normales en coordenadas polares . . . . . . . . . . . . . 68
5.4 La distribuci´on normal bivariada . . . . . . . . . . . . . . . . . . . . . . . . 68
5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6 Distribuciones Condicionales y Predicci´ on 73
6.1 Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.2 Predicci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2.1 Predicci´on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2.2 Predicci´on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7 Teoremas L´ımites 83
7.1 Ley de Grandes N´ umeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2 Teorema Central del L´ımite . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3 Aplicaciones del Teorema Central del L´ımite . . . . . . . . . . . . . . . . . . 86
7.3.1 Aproximaci´on normal a la binomial . . . . . . . . . . . . . . . . . . . 86
7.3.2 Aproximaci´on normal a la Poisson . . . . . . . . . . . . . . . . . . . 87
7.3.3 Movimiento browniano . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.3.4 Tama˜ nos de piedras . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
INDICE v
7.4 Convergencia en distribuci´on y en probabilidad . . . . . . . . . . . . . . . . 88
7.4.1 Convergencia de funciones de variables aleatorias . . . . . . . . . . . 89
7.4.2 Relaciones entre los dos tipos de convergencia . . . . . . . . . . . . . 89
7.4.3 *Demostraci´on de la aproximaci´on normal a la Poisson . . . . . . . . 91
7.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
II ESTADISTICA 93
8 Descripci´ on de una Muestra 95
8.1 Res´ umenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.1.1 Media y varianza muestrales . . . . . . . . . . . . . . . . . . . . . . 95
8.1.2 Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . 96
8.1.3 Cuantiles muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.1.4 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2 La forma de la distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.2.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.2.2 Diagrama de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
9 Estimaci´ on Puntual 105
9.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
9.2 M´etodos de estimaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.2.1 Estimaci´on de un par´ametro . . . . . . . . . . . . . . . . . . . . . . 107
9.2.2 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.2.3 Evaluaci´on de estimadores . . . . . . . . . . . . . . . . . . . . . . . . 110
9.2.4 Estimaci´on de varios par´ametros . . . . . . . . . . . . . . . . . . . . 111
9.3 El modelo de medici´on con error . . . . . . . . . . . . . . . . . . . . . . . . 112
9.3.1 Varianzas distintas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
9.3.2 Estimaci´on robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
9.3.3 Sobre los motivos del uso de la distribuci´on normal . . . . . . . . . . 114
9.4 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
10 Intervalos de Confianza 117
10.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10.2 El principio del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
10.2.1 Media de la normal con varianza conocida . . . . . . . . . . . . . . . 119
10.2.2 Varianza de la normal con media conocida . . . . . . . . . . . . . . . 119
10.2.3 Intervalos para la exponencial . . . . . . . . . . . . . . . . . . . . . . 120
10.3 Intervalos para la normal con µ y σ desconocidas . . . . . . . . . . . . . . . 120
10.4 Un m´etodo robusto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10.5 Intervalos aproximados para la binomial . . . . . . . . . . . . . . . . . . . . 123
10.6 Intervalos aproximados para la Poisson . . . . . . . . . . . . . . . . . . . . . 125
vi INDICE
10.7 Comparaci´on de dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . 126
10.7.1 Dos muestras independientes . . . . . . . . . . . . . . . . . . . . . . 126
10.7.2 Varianzas distintas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.7.3 Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.8 Intervalos de tolerancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.9 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
11 Tests de Hip´ otesis 133
11.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
11.2 Un m´etodo para la obtenci´on de tests . . . . . . . . . . . . . . . . . . . . . 135
11.2.1 *Relaci´on entre tests e intervalos de confianza . . . . . . . . . . . . . 136
11.3 Potencia y tama˜ no de muestra . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.3.1 Tests para la media de la normal . . . . . . . . . . . . . . . . . . . . 137
11.3.2 Tests para la binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 138
11.4 Comparaci´on de dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.4.1 Muestras normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.4.2 M´etodos robustos y no param´etricos . . . . . . . . . . . . . . . . . . 140
11.4.3 Comparaci´on de dos binomiales . . . . . . . . . . . . . . . . . . . . . 141
11.5 Sobre el uso de los tests en la pr´actica . . . . . . . . . . . . . . . . . . . . . 141
11.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
12 Ajuste de una Recta 145
12.1 El m´etodo de m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . 145
12.1.1 C´alculo num´erico de los coeficientes . . . . . . . . . . . . . . . . . . 149
12.1.2 Recta por el origen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
12.1.3 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
12.2 El modelo lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
12.3 Distribuci´on de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 151
12.4 Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
12.5 Intervalos de predicci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
12.6 Predictores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
12.6.1 Interpretaci´on de los resultados . . . . . . . . . . . . . . . . . . . . . 156
12.6.2 Predictores con error . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.7 Uso de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.7.1 Diagrama normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.7.2 Gr´afico de residuos vs. predictores . . . . . . . . . . . . . . . . . . . 158
12.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
A TABLAS 165
BIBLIOGRAFIA 171
INDICE ALFABETICO 173
Parte I
PROBABILIDAD
1
Cap´ıtulo 1
Espacios de Probabilidad
1.1 Los axiomas
Consideremos el experimento que consiste en arrojar al aire una moneda, dejarla caer
al piso, y observar qu´e lado queda hacia arriba (podemos suponer que lo hacemos en
una amplia habitaci´on sin muebles, para asegurarnos que no quede de canto ni debajo
de un ropero). En principio, el resultado es perfectamente predecible: si conocemos con
suficiente precisi´on las velocidades iniciales de traslaci´on y rotaci´on, y las elasticidades de
los materiales del piso y de la moneda, el resultado queda determinado y se puede obtener
resolviendo un sistema de ecuaciones diferenciales.
Sin embargo, si alguien intentara realizar esta predicci´on, encontrar´ıa el inconveniente
de que muy peque˜ nas modificaciones en los valores iniciales modifican el resultado; de modo
que para disponer de un modelo matem´atico ´ util de esta situaci´on, habr´ıa que conocer los
valores iniciales con una precisi´on inalcanzable en la realidad.
Consideremos en cambio el experimento que consiste en arrojar la moneda una gran
cantidad de veces y registrar la proporci´on de veces que sali´o “cara”. Si tenemos la pacien-
cia de hacerlo, observaremos que de una realizaci´on a otra los valores registrados no suelen
cambiar mucho. Esa proporci´on ser´ıa entonces una caracter´ıstica intr´ınseca del experi-
mento, la que s´ı se podr´ıa prestar a ser modelada matem´aticamente, cosa que no suced´ıa
con los resultados de los tiros tomados individualmente.
Por ejemplo, mostramos a continuaci´on la proporci´on de “caras” en 10 repeticiones del
experimento consistente en arrojar la moneda 10000 veces:
0.4964 0.5018 0.4997 0.5070 0.4958 0.5012 0.4959 0.5094 0.5018 0.5048
(los tiros de la moneda han sido “simulados” en una computadora –Secci´on 3.2.1– ha-
ciendo innecesario el trabajo de conseguir la moneda y luego arrojarla 10000 veces).
Es de estas situaciones que se ocupa la Teor´ıa de Probabilidad, en las que se desea
un modelo matem´atico, no del resultado de una realizaci´on de un experimento, sino de la
proporci´ on de veces que se dar´ıan los resultados, en una larga serie de repeticiones (ideales)
3
4 CAP´ıTULO 1. ESPACIOS DE PROBABILIDAD
del mismo. A ´estos los llamaremos “experimentos aleatorios” (en un experimento “deter-
min´ıstico” una repetici´on en las mismas condiciones tendr´ıa que dar el mismo resultado).
N´otese sin embargo que no interesa aqu´ı discutir si una situaci´ on es realmente aleatoria o
determin´ıstica, o si existe realmente el azar. Se trata de elegir el modelo matem´atico m´as
adecuado para tratar una situaci´on. El ejemplo de la moneda es claramente determinista;
pero ser´ıa poco ´ util tratarlo como tal.
El concepto de probabilidad se refiere a la proporci´on de ocurrencias (o frecuencia re-
lativa) de un resultado, en una larga serie de repeticiones de un experimento aleatorio.
Pero ¿cu´ando es una serie “lo bastante larga”?. Podr´ıamos responder que lo es cuando
las frecuencias relativas var´ıan poco al realizar nuevas repeticiones. ¿Y cu´ando se puede
decir que var´ıan “poco”?. Una forma de precisar estas ideas para definir rigurosamente
el concepto de probabilidad, es la elegida por Richard von Mises, quien en 1921 parti´o de
la idea de una serie ilimitada de repeticiones del experimento, y defini´o a la probabilidad
como el l´ımite de las frecuencias relativas, cuando el n´ umero de repeticiones tiende a in-
finito. Este planteo, pese a lo natural que parece, encontr´o dificultades insalvables para
llegar a convertirse en una teor´ıa consistente. La formulaci´on que se utiliza actualmente
fu´e desarrollada en 1933 por el c´elebre matem´atico ruso A. Kolmogorov, quien defini´o la
probabilidad mediante un sistema de axiomas. La idea de partida –com´ un en el enfoque
axiom´atico de la Matem´atica– fue: si se pudiera definir la probabilidad como l´ımite de fre-
cuencias relativas: ¿qu´e propiedades tendr´ıa que cumplir?. Estas propiedades se convierten
precisamente en los axiomas de la definici´on de Kolmogorov. La Ley de Grandes Numeros
(Cap´ıtulo 7) mostrar´a que esta definici´on es coherente con la noci´on de probabilidad como
frecuencia relativa.
Todo lo expuesto se refiere al llamado concepto frecuentista de la probabilidad.
´
Esta
puede tambi´en ser concebida como medida de creencia, dando lugar a la llamada proba-
bilidad subjetiva. Pero este es un tema que no trataremos en este curso. Una exposici´on
sobre los distintos conceptos de azar y probabilidad se puede encontrar en [11].
Para exponer la definici´on de Kolmogorov, veamos primero algunos ejemplos de expe-
rimentos aleatorios:
a. Realizar un tiro de ruleta y registrar el resultado
b. Arrojar un dado tres veces seguidas y anotar los resultados ordenadamente
c. Registrar la cantidad de abonados de una central telef´onica que levantan el tubo
entre las 10 y las 10 hs. 15’
d. Registrar en dicha central el tiempo transcurrido desde las 10 hs. hasta que pide l´ınea
el primer abonado
e. Elegir una persona al azar de entre una poblaci´on, y medir su estatura y peso.
El espacio de probabilidad (o espacio muestral) asociado a un experimento aleatorio, es
el conjunto de los resultados posibles del mismo, o cualquier conjunto que los contenga.
Se lo denota tradicionalmente con la letra Ω (
´
Omega). En el ejemplo (a) tendr´ıamos
1.1. LOS AXIOMAS 5
Ω = {0, 1, 2, . . . , 36}; en el (b) Ω = {(a, b, c) : a, b, c ∈ {1, . . . , 6}}. En el (c) se puede tomar
como Ω el conjunto de los enteros no negativos: Z
+
= {0, 1, 2, ...}; y para (d) el de los
reales no negativos, Ω = R
+
= {x ∈ R, x ≥ 0}. Por ´ ultimo, para (e), el de los pares de
reales no negativos: Ω = R×R = {(a, b) : a, b ∈ R
+
}.
La elecci´on del Ω es cuesti´on de conveniencia. Por ejemplo, en (d) se podr´ıa alternati-
vamente tomar Ω = R; o bien, si la medici´on se hace con un reloj digital que mide hasta
el segundo, se podr´ıa considerar que las mediciones reales –en segundos– ser´an enteras,
y por lo tanto se podr´ıa tomar Ω = Z
+
.
Se llama eventos a los subconjuntos de Ω. En la pintoresca jerga probabil´ıstica, en el
ejemplo (a) el conjunto A = {2, 4, 6, ..., 36} es “el evento de que salga n´ umero par” ; el
B = {1, 4, 7, ..., 34} ser´ıa “el evento de que salga primera columna”. En (d), el conjunto
A = (3.5, ∞) = {t : 3.5 < t} (tiempo en minutos) es el evento “ning´ un abonado pide l´ınea
entre las 10 y las 10 horas 3.5 minutos”.
Las operaciones habituales con conjuntos tienen una traducci´on intuitiva en t´erminos
probabil´ısticos: A ∩ B es el evento “A y B ocurren simult´aneamente”; A ∪ B es “ocurre
al menos uno de los dos”; el complemento A

es el evento “no ocurre A”; la diferencia
A − B = A ∩ B

es “ocurre A pero no B”. Si A ∩ B = ∅, “A y B no pueden ocurrir
simult´aneamente”; si A ⊆ B, “siempre que ocurre A, ocurre B”.
Definici´ on 1.1 Una probabilidad (o medida de probabilidad) es una funci´ on P que a cada
evento A le hace corresponder un n´ umero real P(A) con las siguientes propiedades:
P1) 0 ≤ P(A) ≤ 1 para todo A ⊆ Ω
P2) P(Ω) = 1
P3) (aditividad) A∩ B = ∅ =⇒P(A∪ B) = P(A) + P(B)
P4) (continuidad) Sean A
1
⊆ A
2
⊆ . . . ⊆ A
n
⊆ A
n+1
⊆ . . . una sucesi´ on infinita de
eventos. Entonces
P

¸
n
A
n

= l´ım
n→∞
P(A
n
).
Para aclarar la notaci´on usada en el ´ ultimo axioma: si A
n
(n = 1, 2, . . .) es una sucesi´on
de eventos, se definen
¸
n
A
n
= {ω : ω ∈ A
n
para alg´ un n} y
¸
n
A
n
= {ω : ω ∈ A
n
para
todo n}.
La motivaci´on de los axiomas se puede comprender a partir de la idea intuitiva de
la probabilidad como “l´ımite de frecuencias relativas”. Supongamos un experimento (por
ejemplo, un tiro de ruleta) repetido N veces. Para cada evento A, sea f
N
(A) la cantidad de
veces que ocurre A en las N repeticiones (llamada frecuencia de A). Se verifica f´acilmente
que cumple:
0 ≤ f
N
(A) ≤ f
N
(Ω) = N,
A∩ B = ∅ =⇒f
N
(A ∪ B) = f
N
(A) +f
N
(B).
6 CAP´ıTULO 1. ESPACIOS DE PROBABILIDAD
Sea g
N
(A) = f
N
(A)/N (la proporci´on de veces que ocurre A, o frecuencia relativa).
Entonces g
N
como funci´on de A cumple P1, P2 y P3. Si se pudiera definir P(A) como
l´ım
N→∞
g
N
(A) , entonces P cumplir´ıa esos tres axiomas.
El axioma P4 no se puede deducir de los anteriores, y es necesario por “motivos
t´ecnicos”: muchos resultados importantes no se podr´ıan demostrar sin usarlo.
Es f´acil extender P3 a cualquier familia finita de eventos. Sean A
i
(i = 1, . . . n) eventos
disjuntos (o sea, i = j =⇒A
i
∩ A
j
= ∅). Entonces
P

n
¸
i=1
A
i

=
n
¸
i=1
P(A
i
). (1.1)
El lector puede demostrar esta propiedad, llamada aditividad finita, por inducci´on, teniendo
en cuenta que para cada n, los eventos A
n+1
y
¸
n
i=1
A
i
son disjuntos.
El mismo resultado vale para n = ∞ (sigma-aditividad). Sea A
i
(i = 1, 2, . . .) una
familia infinita de eventos disjuntos. Entonces:
P

¸
i
A
i

=

¸
i=1
P(A
i
). (1.2)
Para demostrarla, sean B
n
=
¸
n
i=1
A
i
y B =
¸
i
A
i
=
¸
n
B
n
. Entonces hay que probar
que P(B) = l´ım
n→∞
P(B
n
), lo que es consecuencia inmediata de P4, pues B
n
⊆ B
n+1
.
1.2 Experimentos con resultados equiprobables
“Mastropiero hab´ıa contratado a una gitana para que
le tirara las cartas, le leyera las manos y le lavara la
ropa; pero ella le le´ıa las cartas, le tiraba la ropa, y al
final . . . ¡se lavaba las manos!”
Les Luthiers, “Il sitio di Castiglia”
Las situaciones m´as antiguas consideradas en la Teor´ıa de Probabilidad, originadas en los
juegos de azar, corresponden al caso en que el espacio Ω es finito: Ω = {ω
1
, ..., ω
N
}, y todos
los elementos ω
i
tienen la misma probabilidad (son equiprobables). Por lo tanto P({ω
i
}) =
1/N para todo i. Un ejemplo ser´ıa un tiro de una ruleta o de un dado “equilibrados”.
Aplicaciones menos fr´ıvolas se encuentran en casi todas las situaciones en que se toman
muestras, en particular el control de calidad y el muestreo de poblaciones.
Si el evento A tiene M elementos, entonces la aditividad (1.1) implica
P(A) =
1
N
M =
card(A)
card(Ω)
,
(donde “card” es el cardinal –n´ umero de elementos– del conjunto) f´ormula conocida
tradicionalmente como “casos favorables sobre casos posibles”.
1.2. EXPERIMENTOS CON RESULTADOS EQUIPROBABLES 7
Por lo tanto, en esta situaci´on uno de los problemas es calcular el cardinal de un
conjunto (sin tener que enumerarlo). Usaremos cuatro resultados elementales que el lector
probablemente ya conoce.
Regla del producto: Dados dos conjuntos A y B, sea A × B = {(a, b) : a ∈ A, b ∈ B}
el producto cartesiano de A y B, o sea, el conjunto de todos los pares ordenados formados
por un elemento de A y otro de B. Entonces
card(A×B) = card(A) card(B). (1.3)
La demostraci´on es muy sencilla por inducci´on sobre card(A).
Permutaciones: La cantidad de formas distintas en que se pueden ordenar los n´ umeros
1, 2, . . . , n (permutaciones de n) es el factorial de n:
n! = 1 ×2 ×. . . ×n. (1.4)
La demostraci´on es muy simple por inducci´on.
Para completar, se define 0! = 1, con lo que la propiedad n! = n(n −1)! vale para todo
n ≥ 1.
Variaciones: Se llama variaciones de n en k (con k ≤ n) a la cantidad de subconjuntos
ordenados de k elementos, del conjunto {1, 2, . . . , n}; y se la indica con (n)
k
. Se verifica
enseguida que
(n)
k
= n(n −1) . . . (n −k + 1) =
n!
(n −k)!
. (1.5)
Combinaciones: Se llama combinaciones (o n´ umero combinatorio) de n en k a la can-
tidad de subconjuntos (sin ordenar) de k elementos, contenidos en un conjunto de n
(0 ≤ k ≤ n); se lo denota con (
n
k
). Entonces

n
k

=
n!
k!(n −k)!
. (1.6)
En efecto: cada subconjunto ordenado de k elementos se caracteriza por: (1) los k elemen-
tos, y (2) el orden en que est´an. Como estos dos factores se pueden combinar de todas las
maneras posibles, resulta por (1.3) y (1.4)
(n)
k
=

n
k

k!,
y de aqu´ı sale (1.6).
Muestreo con y sin reemplazo
Sea B un mazo de n barajas. Se quiere representar el experimento siguiente:
Barajar bien, y extraer sucesivamente m barajas.
8 CAP´ıTULO 1. ESPACIOS DE PROBABILIDAD
En este caso el espacio es el conjunto de las m-uplas formadas por m barajas distintas:
Ω = {(b
1
, ..., b
m
) : b
i
∈ B, b
i
= b
j
si i = j}. De la definici´on se deduce que card(Ω) = (n)
m
.
Se representa matem´aticamente la idea de que el mazo est´a bien barajado postulando que
los elementos de Ω son equiprobables. Esta es la definici´on del muestreo sin reemplazo de
m objetos de entre n.
Si no interesa el orden en que salen, sino solamente el conjunto {b
1
, ..., b
m
}, de la
definici´on se deduce f´acilmente que los (
n
m
) conjuntos posibles son equiprobables.
Consideremos en cambio el experimento descripto por el siguiente procedimiento:
Hacer m veces lo siguiente:
Barajar bien. Sacar una carta y registrarla. Reponerla.
En este caso Ω = {(b
1
, ..., b
m
), b
i
∈ B} = B × . . . × B. Por lo tanto, card(Ω) = n
m
. Se
representa el buen barajado postulando que los elementos de Ω son equiprobables. Esta es
la definici´on de muestreo con reemplazo.
Un ejemplo de esta situaci´on es: m tiros sucesivos de un dado equilibrado. Aqu´ı
B = {1, 2, ..., 6}.
Ejemplo 1.A: Repartos En una fiesta se reparten al azar c caramelos a n ni˜ nos. ¿Cu´al
es la probabilidad de que mi sobrinito se quede sin caramelo?. Es conveniente suponer que
tanto los caramelos como los ni˜ nos est´an numerados. Cada uno de los caramelos puede ser
dado a cualquiera de los n ni˜ nos; y por lo tanto los casos posibles son n
c
, y los favorables (o
m´as bien desfavorables para mi sobrino) son todas las maneras de distribuir los caramelos
entre los n−1 ni˜ nos restantes, o sea (n −1)
c
, y por lo tanto la probabilidad es (1 −1/n)
c
.
Si c = n, dicha probabilidad es pr´acticamente independiente de n, siendo aproximada-
mente igual a e
−1
≈ 0.37.
Ejemplo 1.B: Flor Un ejemplo de muestreo sin reemplazo y del uso de las ideas
elementales del An´alisis Combinatorio est´a dado por el siguiente problema: de un mazo de
baraja espa˜ nola se extraen tres al azar sin reemplazo. Calcular la probabilidad del evento
A que sean todas del mismo palo.
Aqu´ı no interesa el orden de las cartas, y por lo tanto los elementos de Ω son los
subconjuntos de 3 cartas de un conjunto de 40, lo que implica card(Ω) = (
40
3
). Cada
elemento de A est´a caracterizado por: (a) los n´ umeros de las 3 cartas, y (b) de qu´e palo
son. Usando (1.3) resulta card(A) = (
10
3
) 4; y por lo tanto P(A) ≈ 0.049.
Ejemplo 1.C: Control de calidad En una canasta hay N manzanas, de las cuales M
est´an machucadas. Elijo n al azar (sin reemplazo). ¿Cu´al es la probabilidad p de que me
toquen exactamente m machucadas? (con m ≤ n y m ≤ M).
El n´ umero de casos posibles es (
N
n
). Cada caso favorable se caracteriza por: un sub-
conjunto de m de entre las M machucadas, y uno de n − m de entre las N − M sanas.
Luego:
p =

M
m

N −M
n −m

N
n
. (1.7)
1.3. EJERCICIOS 9
Ejemplo 1.D: Si en el ejemplo anterior se extraen las manzanas en forma consecutiva
con reemplazo, es obvio que la probabilidad de que la k-´esima manzana sea machucada es
M/N. Veremos que lo mismo vale para el muestreo sin reemplazo. En efecto, los casos
posibles son todas las sucesiones de k manzanas, o sea (N)
k
; y los casos favorables son
todas las sucesiones de k manzanas en las que la k-´esima es machucada, o sea M(N−1)
k−1
;
el cociente es M/N.
Ejemplo 1.E: Cumplea˜ nos En una reuni´on hay n personas. ¿Cu´al es la probabilidad
p de que al menos dos tengan el mismo cumplea˜ nos?.
Para simplificar las cosas, supongamos: (a) que descartamos los a˜ nos bisiestos, de modo
que todos los a˜ nos tienen N = 365 d´ıas; (b) que las probabilidades de los nacimientos son las
mismas para todos los d´ıas del a˜ no; (c) que no hay relaci´on entre las personas (eliminando,
por ejemplo, un congreso de quintillizos); (d) que n ≤ N, pues si no, es p = 1. En estas
condiciones tenemos una muestra de tama˜ no n, con reemplazo, de {1, . . . , N}. La canti-
dad de casos posibles es entonces N
n
. Es m´as f´acil calcular 1 − p, que es la probabilidad
de que tengan todos cumplea˜ nos distintos (ejercicio 1.1). Los casos favorables quedan
caracterizados por: el conjunto de fechas –de los cuales hay (
N
n
)– y la forma de asignarlas
a las n personas – que son n!. En definitiva, queda
p = 1 −
N(N −1) . . . (N −n +1)
N
n
. (1.8)
1.3 Ejercicios
Secci´ on 1.1
1.1 Probar que P(A

) = 1 −P(A). Deducir que P(∅) = 0.
1.2 Probar que A ⊆ B =⇒ P(B −A) = P(B) −P(A). ¿Vale esta igualdad en general?.
Deducir que A ⊆ B =⇒P(A) ≤ P(B).
1.3 Probar que P(A∪B) = P(A) +P(B) −P(A∩ B) (¡haga el diagrama!). Deducir que
P(A∪ B) ≤ P(A) + P(B) (desigualdad de Bonferroni).
1.4 Sea {A
n
} una familia infinita de eventos tales que A
1
⊇ A
2
⊇ A
3
⊇ . . .. Probar que
P(
¸
n
A
n
) = l´ım
n→∞
P(A
n
). [Usar P4 y el ejercicio 1.1].
1.5 Un sistema de control est´a formado por 10 componentes. La falla de cualquiera de
ellos provoca la del sistema. Se sabe que la probabilidad de falla de cada componente
es ≤ 0.0002. Probar que la probabiidad de que el sistema funcione es ≥ 0.998.
1.6 Sobre una mesa hay tres cartas boca abajo: son un as, un dos y un tres, y hay que
acertar cu´al de ellas es el as. Usted elige una. El croupier le muestra una de las
otras dos, que resulta no ser el as, y le da una oportunidad de cambiar su elecci´on en
este instante. ¿Qu´e le conviene m´as: mantener su decisi´on o elegir la restante carta
desconocida? [construya un modelo para la opci´on de cambiar siempre de carta].
10 CAP´ıTULO 1. ESPACIOS DE PROBABILIDAD
Secci´ on 1.2
1.7 a. Una canasta roja contiene 5 botellas de champagne brut y 6 de vino com´ un de
mesa; una canasta blanca contiene 3 de champagne y 4 de vino com´ un. Si se le
ofrece extraer al azar una botella, ¿de cu´al canasta le conviene tomarla?.
b. Una canasta roja contiene 6 botellas de champagne de primera y 3 de vino de
cuarta; una blanca tiene 9 de champagne y 5 de dicho vino. ¿De cu´al le conviene
extraer?.
c. Los contenidos de las dos canastas blancas se unen, y lo mismo se hace con
los de las dos rojas. ¿De cu´al le conviene extraer ahora?. (El resultado es un
ejemplo de la llamada “Paradoja de Simpson”).
1.8 Calcular la probabilidad de obtener un boleto capic´ ua, en un colectivo que emite
boletos con 5 cifras.
1.9 Se arroja repetidamente un dado equilibrado. Calcular la probabilidad de obtener:
a. dos n´ umeros pares, tirando dos veces
b. al menos un as, tirando cuatro veces.
1.10 Se arrojan 5 dados equilibrados. Calcular la probabilidad de obtener
a. cinco n´ umeros iguales (“generala servida”)
b. cuatro iguales y uno distinto (“poker”)
c. tres de un n´ umero y dos de otro (“full”).
[conviene considerar a los dados como distinguibles].
1.11 En un programa de televisi´on se presentan 4 hombres y 4 mujeres. Cada hombre
elige a una mujer (ignorando lo que eligen los/las dem´as) y viceversa. Si un hombre
y una mujer se eligen mutuamente, se forma una pareja. Si las elecciones fueran
completamente al azar, ¿ cu´al ser´ıa la probabilidad de que se formen 4 parejas?.
1.12 Un se˜ nor tiene un llavero con n llaves. Ha olvidado cu´al es la de su casa, y las prueba
ordenadamente una por una. Calcular la probabilidad de que acierte en el k-´esimo
intento (1 ≤ k ≤ n).
1.13 En una pecera hay 7 peces rojos y 3 azules. Se extraen 5 al azar (sin reemplazo).
Calcular la probabilidad de obtener:
a. 3 rojos
b. 2 o m´as rojos.
1.14 En una caja de madera de s´andalo persa hay 20 bolillas, de las cuales exactamente
8 son de color fucsia. Se extraen sucesivamente 10 al azar, sin reposici´on. Calcular
la probabilidad de que
1.3. EJERCICIOS 11
a. la sexta sea fucsia
b. cinco sean fucsia
c. la segunda y la s´eptima sean ambas fucsia.
1.15 En el Ejemplo 1.A, con c = n, calcular la probabilidad de que alg´ un ni˜ no quede sin
caramelo.
1.16 En la situaci´on del Ejemplo 1.E:
a. Hallar el menor n tal la probabilidad p de (1.8) sea ≥ 0.5
b. Calcular la probabilidad de que haya exactamente dos personas con el mismo
cumplea˜ nos
c. Calcular la probabilidad de que entre n personas, al menos dos tengan el mismo
signo astrol´ogico.
1.17 Probar
n
k

=

n
n −k

y

n
k

=

n −1
k −1

+

n −1
k

.
1.18 Probar que si M ≤ N y m ≤ N:
k
¸
m=0

M
m

N −M
n −m

=

N
n

,
donde k = m´ın(n, M). [Sugerencia: hacerlo por inducci´on, comenzando por probarlo
para M = 1 y todo N y n].
12 CAP´ıTULO 1. ESPACIOS DE PROBABILIDAD
Cap´ıtulo 2
Probabilidad Condicional e
Independencia
2.1 Relaciones entre dos eventos
Definici´ on 2.1 Si A y B son eventos con P(B) > 0, la probabilidad condicional de A
dado B es
P(A|B) =
P(A∩ B)
P(B)
. (2.1)
Para comprender la motivaci´on de (2.1), consideremos el ejemplo de una poblaci´on Ω de
N personas, y en ella los subconjuntos A y B formados respectivamente por los que tienen
caries y por los consumidores habituales de caramelos. Si se desea investigar emp´ıricamente
la relaci´on entre caries y consumo de caramelos, una forma de hacerlo ser´ıa calcular la
proporci´on p de caries entre los golosos, o sea
p =
card(A∩ B)
card(B)
. (2.2)
Al mismo tiempo, si se considera el experimento de elegir al azar una persona de Ω, entonces
P(B) = card(B)/N, y P(A ∩ B) = card(A ∩ B)/N, y por lo tanto
p =
P(A∩ B)
P(B)
= P(A|B). (2.3)
Comparando (2.2) y (2.3) surge que P(A|B) se puede considerar como la probabilidad de
obtener un elemento de A, cuando uno se limita a elegir de entre los de B.
En t´erminos de frecuencias relativas (ver p´agina 5), el significado intuitivo ser´ıa: P(A|B)
es la proporci´on de veces que se observa A, en una larga serie de repeticiones del experi-
mento en la que registramos s´olo aquellas en que sucede B,
13
14 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
De la definici´on es inmediato que
P(A∩ B) = P(A|B) P(B). (2.4)
En el pensamiento cotidiano suele haber una cierta confusi´on entre P(A|B) y P(B|A).
Para aclararla, notemos que mientras la totalidad de los futbolistas profesionales tiene dos
piernas, s´olo una ´ınfima proporci´on de las personas que tienen dos piernas son futbolistas
profesionales. El Ejemplo 2.E mostrar´a un caso menos obvio.
Definici´ on 2.2 Los eventos A y B son independientes si
P(A∩ B) = P(A)P(B). (2.5)
Para comprender el origen de este concepto, veamos el ejemplo anterior: si el consumo de
caramelos produjera mayor propensi´on a las caries, deber´ıa ser la proporci´on de cariados
entre los golosos, mayor que la proporci´on en la poblaci´on total, o sea P(A|B) > P(A); si el
efecto fuera contrario, ser´ıa P(A|B) < P(B), y si no tuviera efecto, ser´ıa P(A) = P(A|B),
lo que equivale a (2.5).
Se dice que A y B tienen respectivamente asociaci´ on positiva (negativa) si P(A∩B) es
mayor (menor) que P(A)P(B).
Ejemplo 2.A: Se arroja dos veces un dado equilibrado. Sean A = {en el primer tiro
sale impar}, y B = {en el segundo sale 3}. Si se postula que los 36 resultados posibles son
equiprobables, entonces
P(A ∩ B) =
3
36
=
3
6
1
6
= P(A)P(B),
y por lo tanto A y B son independientes. El mismo razonamiento muestra que en cualquier
situaci´on de muestreo con reemplazo, eventos correspondientes a repeticiones distintas son
independientes.
Ejemplo 2.B: En una caja hay N bolillas, de las cuales M son blancas. Se extraen
al azar dos sin reemplazo. Sean A y B respectivamente los eventos de que la primera (la
segunda) sea blanca. De la definici´on de muestreo sin reemplazo se deduce que
P(A∩ B) =
M(M −1)
N(N −1)
y P(A) = P(B) =
M
N
. (2.6)
En efecto: card(Ω) = (N)
2
= N(N − 1); y por los mismos motivos es card(A ∩ B) =
M(M −1). El c´alculo de P(A) y P(B) es como en el Ejemplo 1.D.
Por lo tanto hay asociaci´on negativa entre A y B, pues (M − 1)/(N − 1) < M/N si
N > M ≥ 0. Esto es comprensible intuitivamente, pues si la primera bolilla extra´ıda es
blanca, quedan menos blancas para la segunda.
Sin embargo, n´otese que
P(A∩ B)
P(A)P(B)
=
M(N −1)
N(M −1)
,
2.2. MODELOS BASADOS EN PROBABILIDADES CONDICIONALES 15
que tiende a 1 cuando M y N → ∞. O sea, que para M y N “grandes”, A y B son
“aproximadamente independientes”; es decir, que en ese caso el muestreo sin reemplazo se
comporta aproximadamente como el muestreo con reemplazo, cosa que es f´acil de imaginar
intuitivamente (ver Ejercicio 2.15).
Proposici´ on 2.3 La independencia de A y B es equivalente a la de A y B

, a la de A

y
B , y a la de A

y B

.
Demostraci´ on: Comenzamos probando que la independencia de A y B implica la de A y
B

. En efecto, si A y B son independientes, entonces
P(A∩ B

) = P(A) −P(A∩ B) = P(A) −P(A)P(B) = P(A)P(B

).
Aplicando este razonamiento a los eventos A y B

, resulta que la independencia de A y
B

implica la de A y (B

)

= B, lo que prueba la implicaci´on opuesta. De la primera
equivalencia salen las otras dos.
2.2 Modelos basados en probabilidades condicionales
Ahora veremos algunas situaciones t´ıpicas donde las probabilidades condicionales o la in-
dependencia, en vez de ser deducidas del modelo, son postuladas para definirlo. Para ello
hace falta poder obtener la probabilidad de un evento, en funci´on de sus probabilidades
condicionales respecto de otros.
En la situaci´on m´as t´ıpica, sean B
1
, . . . , B
n
eventos disjuntos, con
¸
n
i=1
B
i
= Ω, y A
cualquier evento. Entonces
P(A) =
n
¸
i=1
P(A|B
i
) P(B
i
). (2.7)
Esta es la llamada f´ ormula de probabilidad compuesta. Para probarla, basta notar que
los eventos A ∩ B
i
(i = 1, . . . , n) son disjuntos, su uni´on es A, y sus probabilidades son
P(A|B
i
)P(B
i
) por (2.4).
En las mismas condiciones se cumple para todo k = 1, . . . , n:
P(B
k
|A) =
P(A|B
k
)P(B
k
)
¸
n
i=1
P(A|B
i
)P(B
i
)
. (2.8)
Este resultado, llamado f´ ormula de Bayes, se prueba usando (2.7) y (2.4).
A continuaci´on vemos algunas aplicaciones de estos resultados.
Ejemplo 2.C: Se tira dos veces un dado equilibrado. Sean A y B como en el Ejemplo
2.A. Si se postula que A y B son independientes, entonces se deduce que P(A∩ B) = 3/36
(en dicho Ejemplo se sigui´o el camino inverso).
16 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
Ejemplo 2.D: Se tienen dos cajas: la primera tiene 5 bolillas blancas y 3 negras, y la
segunda tiene 4 blancas y 8 negras. Se elige una caja al azar y de ella una bolilla al azar.
Se desea calcular la probabilidad de que la bolilla sea negra.
Antes de poder calcularla, hay que plantear un modelo para esta situaci´on. Aqu´ı Ω es
el conjnto de pares {(caja,bolilla)}, donde “caja” puede ser 1 ´o 2, y “bolilla” puede ser
blanca o negra. Definimos los eventos: A = “bolilla negra” = {(1,negra), (2,negra)}, B
1
=
“elegir caja 1”= {(1,blanca), (1,negra)} y B
2
= “elegir caja 2”. El enunciado del problema
equivale a postular:
P(B
1
) = P(B
2
) = 1/2,
P(A|B
1
) = 3/8 y P(A|B
2
) = 8/12.
Entonces el resultado se obtiene de (2.7):
P(A) =
3
8
1
2
+
8
12
1
2
=
25
48
.
La probabilidad condicional de que la caja sea la 1, dado que sali´o bolilla negra, es
–seg´ un (2.8)–
(3/8)(1/2)
25/48
=
9
25
.
El significado intuitivo de esta probabilidad es: si se repite el experimento muchas veces,
de todos los casos en que sale bolilla negra, una proporci´on 9/25 corresponde a la caja 1.
Ejemplo 2.E: Falsos positivos Un test para detectar cierta enfermedad tiene proba-
bilidad 0.005 de dar como enfermas a personas sanas (“falsos positivos”), y probabilidad
0.007 de dar como sanas a personas enfermas (“falsos negativos”). Los enfermos consti-
tuyen el 1% de la poblaci´on. Si se aplica el test a toda la poblaci´on, ¿qu´e proporci´on de
los positivos corresponder´a a sanos?.
Sean A, B
1
y B
2
los eventos “test positivo”, “sano” y “enfermo”. Entonces
P(A|B
1
) = 0.005, P(A

|B
2
) = 0.007, P(B
2
) = 0.01;
y la f´ormula de Bayes da
P(B
1
|A) =
0.005 ×0.99
0.005 ×0.99 + 0.993 ×0.01
= 0.333;
de modo que ¡el 33% de los positivos son sanos!. Aunque el resultado pueda ser sorpren-
dente, no es diferente del comentario sobre futbolistas en p´ag. 14.
2.2.1 Un modelo para tiempos de espera
Veremos a continuaci´on un modelo de gran importancia pr´actica obtenido en base a su-
posiciones muy sencillas. Se registra la cantidad de part´ıculas emitidas por una substancia
radiactiva, a partir del instante t = 0. Sea A(t
1
, t
2
) el evento “no se emite ninguna part´ıcula
en el intervalo de tiempo [t
1
, t
2
)”. Calcularemos la probabilidad de este evento, para el
caso en que la situaci´on se puede representar por las siguientes hip´otesis:
2.2. MODELOS BASADOS EN PROBABILIDADES CONDICIONALES 17
Invariancia: Las condiciones no cambian en el tiempo
Falta de memoria: Lo que sucede en [0, t) no influye en lo que sucede en [t, t

) para t

> t.
Dado que en realidad la intensidad de la desintegraci´on va decayendo en el tiempo, la
primera suposici´on implica que el per´ıodo de observaci´on es corto comparado con la vida
media de la substancia. La segunda implica que la desintegraci´ on de una part´ıcula no
influye en la desintegraci´on de otras, lo cual excluye las reacciones en cadena.
La traducci´on de estas dos suposiciones en t´erminos formales ser´ıa respectivamente:
S1) P{A(s, s +t)} no depende de s
S2) Si t
1
< t
2
, entonces A(0, t
1
) y A(t
1
, t
2
) son independientes.
Para abreviar, sea g(t) = P{A(s, s+t)} (no depende de s). Para calcular la forma de g,
notemos que si s y t son ≥ 0, entonces los eventos A(0, s) y A(s, s +t) son independientes,
y adem´as su intersecci´on es A(0, s +t). Por lo tanto:
g(s +t) = g(s) g(t) ∀ s, t ≥ 0. (2.9)
Adem´as g(0) = 1, pues A(0, 0) = Ω; y g es decreciente, pues A(0, t
1
) ⊇ A(0, t
2
) si t
1
≤ t
2
.
En estas condiciones, se puede demostrar que g es de la forma
g(t) = e
−ct
(2.10)
donde c es una constante positiva.
Para simplificar, damos una demostraci´on de (2.10) sencilla, pero no del todo rigurosa,
pues requiere la suposici´on extra –e innecesaria– de que g es diferenciable. Aplicando
(2.9) tenemos
g

(t) = l´ım
s→0
g(t +s) −g(t)
s
= l´ım
s→0
g(s)g(t) −g(t)
s
= −g(t) l´ım
s→0
1 −g(s)
s
= −cg(t), (2.11)
donde c = l´ım
s→0
(1−g(s))/s. De (2.11) sale la ecuaci´on diferencial g

= −cg, cuya soluci´on
con la condici´on g(0) = 1 es (2.10), como es bien sabido.
Una demostraci´on correcta, que no usa derivadas, puede verse al final de esta Secci´on.
La constante c depende de cada caso. Como se ver´a luego en (4.14), el significado
intuitivo de 1/c es “tiempo medio de espera entre dos part´ıculas”. Se la puede estimar
observando el experimento (Ejemplo 9.E).
Otra situaci´on que puede ser descripta mediante las suposiciones S1 y S2 es: observar
una central telef´onica, y registrar el instante en que se produce la primera llamada. Aqu´ı
S1 es aplicable si el intervalo de observaci´on es lo suficientemente breve como para que
la intensidad del tr´afico telef´onico no var´ıe mucho; S2 excluye la posibilidad de que una
llamada pueda provocar otras (como una cadena de chismes).
18 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
*Demostraci´ on general de (2.10)
Lema 2.4 Sea g una funci´ on mon´ otona (creciente o decreciente) que cumple (2.9), y
g(0) = 1. Entonces g es de la forma
g(t) = b
t
, (2.12)
para alguna constante b > 0.
Para demostrarlo, sea b = g(1). Entonces (2.9) implica por inducci´on que g(n+1) = bg(n)
para n natural, y por lo tanto vale (2.12) para t natural. Asimismo se obtiene que
b = g(1) = g(n(1/n)) = g(1/n)
n
,
y por lo tanto vale (2.12) para t de la forma t = 1/n. De aqu´ı sale
g(m/n) = g(1/n)
m
= b
m/n
,
lo cual verifica (2.12) para t ≥ 0 racional.
Para pasar de los racionales a los reales, supongamos g decreciente. Sean t ∈ R
+
y
{t
n
} una sucesi´on de racionales ≤ t que tienden a t; entonces g(t) ≤ g(t
n
) = b
t
n
. Por
la continuidad de la funci´on exponencial es g(t) ≤ l´ım
n→∞
b
tn
= b
t
. Del mismo modo se
prueba g(t) ≥ b
t
.
2.3 Independencia de varios eventos
Para fijar ideas, consideremos el experimento de arrojar tres veces un dado (agitando bien
el cubilete). Sean respectivamente A
1
, A
2
y A
3
los eventos “5 en el primer tiro”, “3 en el
segundo” y “6 en el tercero”. Buscamos una manera de expresar formalmente que “A
1
, A
2
y A
3
son independientes”, significando no s´olo que A
1
sea independiente de A
2
(etc.) sino
tambi´en que –por ejemplo– A
1
∪A

3
sea independiente de A
2
, etc., para as´ı representar
la idea de que el cubilete ha sido bien agitado. El concepto adecuado es:
Definici´ on 2.5 Los eventos A
1
, A
2
, A
3
son independientes si se cumplen las siguientes
ocho igualdades:
P(A
1
∩ A
2
∩ A
3
) = P(A
1
)P(A
2
)P(A
3
),
P(A

1
∩ A
2
∩ A
3
) = P(A

1
)P(A
2
)P(A
3
).
..............................
P(A

1
∩ A

2
∩ A

3
) = P(A

1
)P(A

2
)P(A

3
).
Veamos algunas propiedades de la indepencia de tres eventos.
Proposici´ on 2.6 Si A
1
, A
2
, A
3
son independientes, se cumple:
a. A
1
, A
2
son independientes (´ıdem A
1
, A
3
y A
2
, A
3
).
2.4. EL ESQUEMA DE BERNOUILLI 19
b. A
1
∩ A
2
es independiente de A
3
(y de A

3
).
c. A
1
∪ A
2
es independiente de A
3
(y de A

3
).
Demostraciones
(a): (N´otese que el hecho debe ser demostrado, pues la palabra ”independientes” se usa
primero en el sentido de la definici´on 2.5 –o sea, de a tres– y luego en el sentido de la
Definici´on 2.2, –o sea, de a dos).
Para demostrarla, tener en cuenta que
A
1
∩A
2
= (A
1
∩ A
2
∩A
3
) ∪(A
1
∩ A
2
∩ A

3
),
que son disjuntos. Aplicando la definici´on resulta
P(A
1
∩ A
2
) = P(A
1
)P(A
2
)[P(A
3
) +P(A

3
)] = P(A
1
)P(A
2
).
(b): Notar que (a) y la definici´on implican que
P{(A
1
∩ A
2
) ∩ A
3
} = P(A
1
)P(A
2
)P(A
3
) = P(A
1
∩ A
2
)P(A
3
).
(c): La Proposici´on 2.3 implica que basta probar la independencia de (A
1
∪ A
2
)

y A
3
. Pero (A
1
∪ A
2
)

= A

1
∩ A

2
, y el resto de la demostraci´on es como la de (b).
La independencia de a pares no implica independencia de a tres. Para verificarlo, en el
experimento de arrojar dos veces un dado equilibrado, sean A
1
, A
2
y A
3
respectivamente,
los eventos: “primer resultado par”, “segundo resultado par” y “suma de ambos resultados
par”. Entonces es f´acil verificar que los eventos son independientes tomados de a dos, pero
no lo son de a tres, pues
P(A
1
∩ A
2
∩ A

3
) = 0 = P(A
1
)P(A
2
)P(A

3
).
Pero si A
1
, A
2
, A
3
, adem´as de ser independientes de a pares, cumplen
P(A
1
∩ A
2
∩ A
3
) = P(A
1
)P(A
2
)P(A
3
),
entonces son independientes de a tres. La verificaci´on es elemental pero aburrida, por lo
que se omite.
La independencia de n eventos se define de la misma forma que para 3 eventos (ahora
son 2
n
igualdades a cumplir).
2.4 El esquema de Bernouilli
Veamos ahora una situaci´on muy frecuente en Probabilidad. Se arroja n veces un dado
(no necesariamente equilibrado). Sean los eventos
A
j
= {resultado del j-´esimo tiro= as}, (j = 1, . . . , n).
20 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
Se quiere representar las suposiciones de que las condiciones son las mismas en todos los
tiros, y que el cubilete est´a bien batido. Para ello se postula:
P(A
j
) = p para todo j = 1, . . . , n
y
A
1
, . . . , A
n
son independientes.
Este modelo de una sucesi´on de eventos independientes y con la misma probabilidad, como
los A
j
, sirve para representar repeticiones de un experimento con s´olo dos resultados, y se
llama esquema de Bernouilli. Cada repetici´on se denomina “intento”. La realizaci´on de
los eventos se suele llamar “´exitos”, y la no realizaci´on –o sea, los complementos A

j

“fracasos”. Ahora se calcular´a la probabilidad de obtener exactamente k ases en los n tiros.
Proposici´ on 2.7 Para k = 0, 1, . . . , n sea B
k
el evento de que se realicen exactamente k
de los eventos A
j
. Entonces
P(B
k
) =

n
k

p
k
(1 −p)
n−k
. (2.13)
Para probarlo, notemos que B
k
equivale a que haya alg´ un subconjunto de k intentos con
“´exitos”, y que los restantes n −k sean “fracasos”. M´as formalmente: sea C la familia de
todos los conjuntos C ⊆ {1, 2, . . . , n} con card(C) = k. Entonces
B
k
=
¸
C∈C

¸
¸
j∈C
A
j

¸
j∈C

A

j
¸

. (2.14)
Cada uno de los eventos dentro del par´entesis tiene, por la independencia, probabilidad
p
k
(1 −p)
n−k
. Estos eventos son disjuntos, y hay (
n
k
) de ellos.
A las probabilidades de (2.13) se las llama ”distribuci´on binomial”, y se las denotar´a
con b(k; n, p) (la palabra “distribuci´on” ser´a definida en el Cap´ıtulo siguiente).
Supongamos ahora que los tiros del dado contin´ uan indefinidamente. Entonces la pro-
babilidad de que el primer as salga en el k-´esimo tiro es la de que no salga as en ninguno
de los primeros k −1 tiros, y salga as en el k-´esimo, o sea
P(A

1
∩ . . . ∩A

k−1
∩ A
k
) = (1 −p)
k−1
p. (2.15)
La probabilidad de que el segundo as salga en el tiro k-´esimo es la de que salga as en el
k-´esimo, y exactamente un as en los (k −1) anteriores, o sea
b(1, k −1, p) p = (k −1) p
2
(1 −p)
k−2
. (2.16)
2.5. LA APROXIMACI
´
ON DE POISSON Y SUS APLICACIONES 21
2.5 La aproximaci´ on de Poisson y sus aplicaciones
Consideramos ahora una aproximaci´on a la distribuci´on binomial, para n “grande” y p
“chico”. Para representar esto consideramos una sucesi´on b(k; n, p
n
) donde n → ∞ y p
n
cumple np
n
→λ, donde λ es una constante > 0 (y por lo tanto p
n
→0). Se probar´a que
l´ım
n→∞
b(k; n, p
n
) = e
−λ
λ
k
k!
. (2.17)
Para ello desarrollamos el coeficiente seg´ un la definici´on, multiplicando y dividiendo
por n
k
:
b(k; n, p
n
) =
n(n −1) . . . (n −k + 1)
n
k
1
k!
(np
n
)
k
(1 −p
n
)
−k
(1 −p
n
)
n
. (2.18)
Cuando n →∞, el primer factor del segundo miembro tiende a 1, el segundo es constante,
el tercero tiende a λ
k
, el cuarto a 1, y el quinto a e
−λ
, pues
l´ım
n→∞
nln(1 −p
n
) = −l´ım
n→∞
np
n
= −λ.
Llamaremos p(k; λ) (k = 0, 1, 2, . . .) al segundo miembro de (2.17) (“coeficientes de
Poisson”).
Si se desea calcular aproximadamente b(k; n, p) donde n es “grande” y p “chico”, se
define λ = p/n, y entonces (2.17) implica que b(k; n, p) ≈ p(k, λ).
La importancia de los coeficientes de Poisson no radica tanto en su uso como aproxi-
maci´on num´erica, sino en su papel en modelos sencillos pero muy frecuentes en las aplica-
ciones, dos de los cuales veremos a continuaci´on.
2.5.1 El proceso de Poisson espacial
Supongamos un recipiente de volumen V con un l´ıquido en el que hay n bacterias, que
se consideran de tama˜ no puntual. Se supone que el l´ıquido est´a bien batido, y que las
bacterias no se atraen ni repelen entre s´ı. Estas dos suposiciones se pueden formalizar
respectivamente as´ı:
Homogeneidad espacial: Para cada una de las n bacterias, y cada regi´on D del recipiente,
la probabilidad de que la bacteria est´e en D depende s´olo del volumen de D (y no de su
forma o posici´on)
No interacci´ on: Los eventos “la j-´esima bacteria est´a en D” (j = 1, . . . , n) son independi-
entes.
Dada ahora una regi´on D con volumen v, se desea calcular la probabilidad del evento “en
D hay exactamente k bacterias”. Esta probabilidad depende s´olo de v, por la primera
suposici´on; la llamaremos g
k
(v). Sea h(v) la probabilidad de que una bacteria dada est´e
en D (depende s´olo de v). Si D
1
y D
2
son dos regiones disjuntas con vol´ umenes v
1
, v
2
22 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
respectivamente, tales que D = D
1
∪ D
2
, entonces v = v
1
+ v
2
, y como los eventos “la
bacteria est´a en D
1
” y “est´a en D
2
” son disjuntos, resulta
h(v) = h(v
1
+v
2
) = h(v
1
) +h(v
2
).
Adem´as h es creciente. El lector puede probar f´acilmente (ejercicio 2.18) que h(v) = av
donde a es una constante. Como h(V ) = 1, debe ser a = 1/V y por lo tanto h(v) = v/V que
es la proporci´on del volumen total correspondiente a D, como era de esperar intuitivamente.
Notemos ahora que estamos en la situaci´on de la binomial, con p = v/V , de modo que
g
k
(v) = b(k; n, v/V ). En la mayor´ıa de las situaciones pr´acticas, n es muy grande, y las
regiones que se consideran son peque˜ nas comparadas con el recipiente total; de manera
que se puede tomar n →∞ y V →∞, con n/V → c, donde c se puede interpretar como
“cantidad media de bacterias por unidad de volumen”. En estas circunstancias, por (2.17)
resulta para todos los efectos pr´acticos:
g
k
(v) = p(k; cv).
Por ejemplo, cuando se toma una muestra de sangre para hacer un recuento de gl´obulos
rojos, V y v son los vol´ umenes de sangre en el cuerpo y en la muestra, y n es la cantidad de
gl´obulos en el organismo, que es de varios millones (salvo en caso de una anemia galopante);
y por lo tanto se puede suponer que las probabilidades correspondientes a la cantidad de
gl´obulos en la muestra se expresan mediante los coeficientes de Poisson.
2.5.2 El proceso de Poisson temporal
Consideremos m´as en general la situaci´on de la Secci´on 2.2.1. En vez de la probabili-
dad de que en el intervalo [0, t) no se emita ninguna part´ıcula, calcularemos en general
la probabilidad de que se emitan exactamente k part´ıculas. Para ello, definimos para
k = 0, 1, . . . los eventos
A
k
(t
1
, t
2
)= {en el intervalo de tiempo [t
1
, t
2
) se emiten exactamente k part´ıculas}.
Calcularemos la forma de P{A
k
(t
1
, t
2
)}. Las suposiciones de invariancia y falta de
memoria de p´agina 16 se pueden ahora traducir respectivamente as´ı:
S1) P{A
k
(s, s +t)} no depende de s
S2) Para todo n, cualesquiera sean t
0
< t
1
< t
2
< . . . < t
n
y k
1
, k
2
, . . . , k
n
, los eventos
A
k1
(t
0
, t
1
), . . . , A
kn
(t
n−1
, t
n
) son independientes.
A las dos suposiciones anteriores hace falta agregar la de que “las part´ıculas se emiten de
a una”, que informalmente ser´ıa:
Sucesos aislados La probabilidad de que en un intervalo corto de tiempo se emita m´as de
una part´ıcula, es despreciable comparada con la de que se emita una o ninguna.
2.5. LA APROXIMACI
´
ON DE POISSON Y SUS APLICACIONES 23
Sea
g
k
(t) = P{A
k
(s, s +t)}
(depende s´olo de t por S1). La g
0
es la “g” de la Secci´on 2.2.1.
Para formalizar la tercera suposici´on, notemos que la probabilidad de dos o m´as part´ıculas
en [s, s +t) es 1 − g
0
(t) −g
1
(t). La idea de que esto es muy peque˜ no para t peque˜ no, se
expresa con el siguiente postulado:
S3) g
0
y g
1
son diferenciables en 0, y
l´ım
t→0
1 −g
0
(t) −g
1
(t)
t
= 0.
Teorema 2.8 Si valen S1, S2 y S3, entonces g
k
tiene la forma
g
k
(t) = e
−ct
(ct)
k
k!
= p(k, ct), (2.19)
donde c es una constante.
Esto son los coeficientes de Poisson definidos anteriormente, con λ = ct. El valor de c
depende de la situaci´on, y se lo puede estimar emp´ıricamente. Como se ver´a m´as adelante
en (4.16), su significado intuitivo es “cantidad media de part´ıculas por unidad de tiempo”,
y el de 1/c es “tiempo medio entre dos part´ıculas”.
El modelo descripto por S1, S2 y S3 se llama Proceso de Poisson temporal, y c es la
intensidad del proceso. Note que si t se mide en segundos, c se debe medir en segundos
−1
.
Se lo usa para modelizar “sucesos” (emisiones de part´ıculas, llegadas de clientes a una
cola, llamadas telef´onicas) que se producen en el tiempo en condiciones representables por
dichas suposiciones.
Demostraci´ on del Teorema: Dado t, se divide el intervalo [0, t) en n subintervalos
de longitud t/n: [t
i
, t
i+1
), con t
i
= (i −1)/n, i = 1, . . . , n. Sea C
n
el evento “en ninguno
de los n subintervalos se emite m´as de una part´ıcula”, o sea
C
n
=
n
¸
i=1
{A
0
(t
i
, t
i+1
) ∪ A
1
(t
i
, t
i+1
)}.
Probaremos que l´ım
n→∞
P(C
n
) = 1. Usando S2 y S1 se tiene
P(C
n
) = (g
0
(t/n) +g
1
(t/n))
n
.
Pongamos para abreviar: h(s) = (1−g
0
(s)−g
1
(s))/s. Entonces P(C
n
) = {1−(t/n)h(t/n)}
n
.
Cuando n →∞, t/n →0, y S3 implica que h(t/n) →0; y por lo tanto P(C
n
) →1.
Descompongamos ahora
g
k
(t) = P{A
k
(0, t)} = P{A
k
(0, t) ∩ C
n
} +P{A
k
(0, t) ∩C

n
}. (2.20)
Como l´ım
n→∞
P(C

n
) = 0, podemos desembarazarnos del ´ ultimo t´ermino de (2.20).
24 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
Para tratar el otro, notemos que estamos en una situaci´on an´aloga a la de la Proposici´on
2.7. El evento A
k
(0, t) ∩C
n
equivale a que hay k subintervalos con una part´ıcula, y n −k
con 0 part´ıculas. Descomponiendo como en (2.14), resulta
P{A
k
(0, t) ∩C
n
} =

n
k

g
1
(t/n)
k
g
0
(t/n)
n−k
. (2.21)
N´otese que de la definici´on surge que g
0
(0) = 1 y g
1
(0) = 0. Luego S3 implica
g

0
(0) = −g

1
(0). Sea c = g

1
(0). Entonces
l´ım
n→∞
ng
1
(t/n) = ct, l´ım
n→∞
n(1 −g
0
(t/n)) = −ct. (2.22)
Tomando ahora l´ımite en (2.21), repitiendo el razonamiento de (2.18) y utilizando (2.22),
se obtiene finalmente (2.19).
Los modelos de esta secci´on y de la 2.5.1 llegan a la misma f´ormula por caminos distintos;
pero son en verdad equivalentes, en el siguiente sentido. Si en el modelo espacial llamamos
A
k
(D) al evento “en la regi´on D hay k bacterias”, la suposici´on de homogeneidad espacial
es que P(A
k
(D)) depende s´olo del volumen de D; y se puede probar que si D
1
, . . . , D
m
son regiones disjuntas, entonces A
ki
(D
i
), i = 1, . . . , m son “independientes en el l´ımite”,
es decir que
l´ımP

m
¸
i=1
A
k
i
(D
i
)

=
m
¸
i=1
P(A
k
i
(D
i
))
cuando n y V tienden a infinito. De esta forma se cumplen los an´alogos de las suposiciones
S1 y S2 del modelo temporal, pero con regiones del espacio en vez de intervalos de la recta.
2.6 Ejercicios
2.1 Probar que, para cada B fijo con P(B) > 0, P(A|B) (como funci´on de A) es una
probabilidad; o sea, cumple P1, P2, P3 y P4 de la definici´on 1.1.
2.2 En una f´abrica de tornillos, las m´aquinas A, B y C producen respectivamente el 25%,
el 35% y el 40% del total. El 5% de los tornillos producidos por la A, el 2% de la B y
el 3% de la C, son defectuosos. Si de la producci´on total se elige un tornillo al azar,
¿cu´al es la probabilidad de que sea defectuoso?.
2.3 En una poblaci´on, el 4% de los varones y el 2% de las mujeres son dalt´onicos. Las
mujeres son el 53% de la poblaci´on. ¿Cu´al es la proporci´on de varones entre los
dalt´onicos?.
2.4 En la situaci´on del problema 2.2, ¿qu´e proporci´on de los tornillos defectuosos proviene
de la m´aquina A?.
2.5 Probar que Ω y ∅ son independientes de cualquier otro evento.
2.6. EJERCICIOS 25
2.6 De un mazo de baraja espa˜ nola se extrae una carta al azar. Los eventos “es un as”
y “es una carta de bastos” ¿son independientes?.
2.7 a. Si A ⊆ B ¿pueden A y B ser independientes?.
b. Si A ∩ B = ∅ ¿pueden A y B ser independientes?.
2.8 Se supone que las probabilidades de que un ni˜ no nazca var´on o mujer son iguales, y
que los sexos de hijos sucesivos son independientes. Consideramos s´olo familias tipo
(dos hijos).
a. Si una familia tipo elegida al azar tiene (al menos) una ni˜ na, ¿cu´al es la proba-
bilidad de que ´esta tenga una hermana?
b. Se elige al azar una ni˜ na de entre todas las hijas de familias tipo; ¿cu´al es la
probabilidad de que ´esta tenga una hermana?.
2.9 El dado A tiene 4 caras rojas y 2 blancas; el B tiene 2 rojas y 4 blancas. Se arroja
una vez una moneda equilibrada. Si sale cara se arroja repetidamente el dado A; si
sale ceca, el B.
a. Calcular la probabilidad de “rojo” en el tiro k-´esimo del dado
b. Si los 2 primeros tiros del dado dieron “rojo”, ¿cu´al es la probabilidad de ”rojo”
en el tercero?
c. Si los n primeros tiros dieron “rojo”, ¿cu´al es la probabilidad de que el dado sea
el A?.
2.10 Una caja contiene 6 caramelos de menta y 4 de lim´on. Se extrae uno al azar. Si es
de menta, se lo reemplaza por dos de lim´on, y viceversa. Luego se vuelve a extraer.
Calcular la probabilidad de que:
a. el segundo caramelo extra´ıdo sea de menta
b. el primero sea de menta, si el segundo es de lim´on.
2.11 Se arroja repetidamente un dado para el que la probabilidad de obtener as es p.
Calcular la probabilidad de que:
a. el as no salga jam´as
b. el m-´esimo as salga en el k-´esimo tiro.
2.12 Un borracho camina por la ´ unica calle de su pueblo. En cada esquina sigue otra
cuadra adelante o atr´as con probabilidad 1/2. Despu´es de caminar 6 cuadras, ¿cu´al
es la probabilidad de que se encuentre en el punto de partida?. [Este modelo se llama
“paseo al azar”].
2.13 (Para polemizar) Un jugador observa en una mesa de ruleta que sale ”colorado” 80
veces seguidas. Quiere decidir si en la pr´oxima jugada apuesta a colorado a o a negro.
¿C´omo proceder racionalmente?.
26 CAP´ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
2.14 a. Hallar para qu´e valor(es) de k se maximiza b(k; n, p) para n y p dados [ayuda:
determinar cu´ando es el cociente b(k −1; n, p)/b(k; n, p) mayor o menor que 1].
b. Se arroja 12 veces un dado equilibrado. ¿Cu´al es la cantidad de ases con mayor
probabilidad de aparecer?.
c. Encontrar k que maximice p(k; λ), procediendo como en el punto (a).
2.15 En (1.7), probar que si N →∞y M/N →p, entonces la probabilidad correspondiente
tiende a b(k; n, p) (“aproximaci´on del muestreo sin reemplazo por el muestreo con
reemplazo”).
2.16 En un bosque hay 100 elefantes: 50 son grises, 30 blancos y 20 rosados. Se eligen al
azar 9 elefantes, con reemplazo. Calcular la probabilidad de que resulten: 4 grises, 2
blancos y 3 rosados.
2.17 Comparar b(k; n, p) con su aproximaci´on de Poisson p(k, np) para n = 100,
p = 0.01, y k = 0, 1, 2.
2.18 Probar que si h es una funci´on mon´otona tal que h(s+t) = h(s)+h(t) ∀ s, t, entonces
h(t) = at para alguna constante a [notar que e
−h(t)
cumple (2.10)].
æ
Cap´ıtulo 3
Variables Aleatorias
3.1 Distribuciones
La idea intuitiva de una variable aleatoria es “un valor que depende del resultado de un
experimento aleatorio”. M´as formalmente tenemos:
Definici´ on 3.1 Una variable aleatoria con valores en un conjunto X es una funci´ on de
Ω →X.
El caso m´as usual es X = R, y mientras no se diga otra cosa, nos referiremos a variables
aleatorias con valores reales. En general se denotar´an las variables aleatorias con letras
may´ usculas: X, Y, . . ., y las min´ usculas corresponder´an a constantes (es decir, cantidades
no aleatorias). Para abreviar, escribiremos “variable” en vez de “variable aleatoria”.
Ejemplo 3.A: Se arroja un dado 2 veces, de modo que Ω = {(ω
1
, ω
2
)} con ω
1
, ω
2

{1, . . . , 6}. Ejemplos de variables definidas para este experimento son:
X = “n´ umero de veces que sali´o as” = card{i : ω
i
= 1}
Y = “suma de los resultados” = ω
1

2
Z = “resultado del segundo tiro” = ω
2
.
Definici´ on 3.2 La funci´on de distribuci´on (“FD”) de una variable X es la funci´ on F
X
de R →R definida por: F
X
(x) = P(ω : X(ω) ≤ x) (o abreviadamente, P(X ≤ x) ).
En general, lo que importa de una variable es su funci´on de distribuci´on, m´as que su
expresi´on expl´ıcita como funci´on definida en alg´ un Ω. El sub´ındice “X” de F
X
se omitir´a
si no hay ambig¨ uedad. Se escribir´a “X ∼ F” para indicar que la variable X tiene funci´on
de distribuci´on F.
Mostramos a continuaci´on algunas propiedades de la FD.
27
28 CAP´ıTULO 3. VARIABLES ALEATORIAS
Proposici´ on 3.3 Sea F la FD de X. Entonces:
a. a < b =⇒P(a < X ≤ b) = F(b) −F(a)
b. a < b =⇒F(a) ≤ F(b) (“F es no decreciente”)
c. l´ım
x→∞
F(x) = 1, l´ım
x→−∞
F(x) = 0
d. ∀x ∈ R : P(X = x) = l´ım
t→x+
F(t) −l´ım
t→x−
F(t) (el “salto” de F en x)
e. ∀x ∈ R : F(x) = l´ım
t→x+
F(t) (“continuidad por la derecha”).
Demostraci´ on:
a) Sean respectivamente A y B los eventos {X ≤ a} y {X ≤ b}. Entonces A ⊆ B, y
por el ejercicio 1.2 es P(a < X ≤ b) = P(B −A) = P(B) −P(A) = F(b) −F(a).
b) Por (a): F(b) −F(a) = P(B −A) ≥ 0.
c) Como F es mon´otona y acotada (pues 0 ≤ F ≤ 1), existe el l´ım
x→∞
F(x), el que
adem´as es igual al l´ım
n→∞
F(n) para n entero. Basta probar que este ´ ultimo l´ımite es
1. Para ello consideremos la sucesi´on de eventos A
n
= {X ≤ n}, los cuales cumplen
A
n
⊆ A
n+1
, y adem´as
¸
n
A
n
= Ω. Entonces por P4 de la Definici´on 1.1 es P(Ω) =
l´ım
n→∞
P(A
n
) = l´ım
n→∞
F(n).
El otro l´ımite se prueba usando los eventos {X ≤ −n} y el ejercicio 1.4.
d) Se razona igual que en la demostraci´on de (c), definiendo los eventos
A
n
= {x −1/n < X ≤ x +1/n},
que cumplen:
A
n
⊇ A
n+1
,
¸
n
A
n
= {X = x} y P(A
n
) = F(x +1/n) −F(x −1/n).
e) Se demuestra con el mismo m´etodo.
Ejemplo 3.B: Se arroja una vez un dado equilibrado. Se toma Ω = {1, . . . , 6}. Sea la
variable X el resultado. Para calcular la FD de X, notemos que si x < 1, es {X ≤ x} = ∅ y
por lo tanto F(x) = 0. Si 1 ≤ x < 2, es {X ≤ x} = {1}, de modo que F(x) = P({1}) = 1/6,
. . . ,etc. Finalmente si x ≥ 6, es {X ≤ x} = Ω lo que implica F(x) = 1. Por lo tanto F es
una ”escalera” con saltos en x = 1, 2, . . . , 6, todos de tama˜ no 1/6.
Si F es una funci´on que cumple las propiedades b, c y e anteriores, se dice que F es
una funci´ on de distribuci´ on. Se puede probar que toda funci´on con dichas propiedades es
la FD de alguna variable aleatoria.
Se dice que X e Y tienen la misma distribuci´ on si P(X ∈ A) = P(Y ∈ A) ∀ A ⊆ R; se
lo denota D(X) = D(Y ).
Dos variables X e Y definidas en el mismo Ω pueden tener la misma distribuci´on, y
sin embargo no ser iguales. Por ejemplo: se arroja una vez una moneda equilibrada; sean
X = 1 si sale cara, X = 0 si no; e Y = 1 − X. Entonces P(X = 1) = P(Y = 1) = 0.5, o
sea que ambas tienen la misma distribuci´on; pero P(X = Y ) = 0.
3.1. DISTRIBUCIONES 29
3.1.1 Distribuciones discretas
Definici´ on 3.4 La variable X tiene distribuci´on discreta si hay un conjunto C ⊆ R, finito
o infinito numerable, tal que P(X ∈ C) = 1.
Sea para x ∈ C: p
X
(x) = P(X = x). Entonces es f´acil verificar que si A ⊆ R:
P(X ∈ A) =
¸
x∈A∩C
p
X
(x). (3.1)
En particular,
¸
x∈C
p
X
(x) = 1. (3.2)
Tomando en (3.1): A = (−∞, t] resulta
P(X ∈ A) = P(X ≤ t) = F
X
(t) =
¸
x≤t
p
X
(x);
y por lo tanto F
X
es una escalera con saltos en los x ∈ C, de tama˜ no p
X
(x), como se vio
en el ejemplo 3.B.
La funci´on p
X
de C en [0, 1] es llamada funci´ on de frecuencia.
Una distribuci´on discreta est´a dada por un conjunto finito o infinito numerable C ⊆ R
y una funci´on p(x) ≥ 0 definida para x ∈ C, que cumpla (3.2).
Distribuciones discretas importantes (todas con C ⊆ Z
+
)
Distribuci´ on binomial con par´ametros n y p:
p(x) = b(x; n, p) =

n
x

p
x
(1 −p)
n−x
(x = 0, 1, . . . , n).
Aparece en (2.13), como la distribuci´on de la cantidad de “´exitos” en un esquema de
Bernouilli. Desde ahora se la abreviar´a como Bi(n, p). Dado que los p(x) corresponden a
la distribuci´on de una variable, autom´aticamente cumplen (3.2), o sea
n
¸
k=0
b(k; n, p) = 1. (3.3)
Una verificaci´on algebraica de (3.3) se puede obtener haciendo el desarrollo del binomio
1 = [p + (1 −p)]
n
(lo cual explica adem´as el nombre de “binomial”).
Si A es cualquier conjunto, se llama indicador de A –y se lo escribe I
A
o I(A)– a la
funci´on que vale 1 en A y 0 en A

. En An´alisis se la suele llamar ”funci´on caracter´ıstica”
de un conjunto; pero en Teor´ıa de Probabilidad este ´ ultimo nombre recibe otro uso, por lo
cual se prefiere el de “indicador”.
En particular, si A ⊆ Ω es un evento con probabilidad p, X = I
A
es una variable
discreta con P(X = 1) = p, P(X = 0) = 1 − p; o sea, con distribuci´on Bi(1, p). En el
30 CAP´ıTULO 3. VARIABLES ALEATORIAS
esquema de Bernouilli, si A
i
es el evento “´exito en el intento i-´esimo”y X es la cantidad
de ´exitos en n intentos, es
X =
n
¸
i=1
I
Ai
; (3.4)
y por lo tanto toda variable con distribuci´on binomial se puede expresar como suma de
indicadores.
Distribuci´ on de Poisson con par´ametro λ:
p(x) = e
−λ
λ
x
x!
(x ≥ 0).
Aparece en el proceso de Poisson temporal como la distribuci´on de la variable “cantidad de
sucesos en el intervalo [0, t)”. Se la indicar´a con Po(λ). Es f´acil verificar (3.2) recordando
la serie de Taylor para la funci´on exponencial.
Distribuci´ on geom´etrica con par´ametro p ∈ (0, 1):
p(x) = p(1 −p)
x−1
(x ≥ 1).
En (2.15), es la distribuci´on del n´ umero del intento en que se da por primera vez un ´exito
en el esquema de Bernouilli. Se la indicar´a con Ge(p). Es f´acil probar que cumple (3.2),
recordando que

¸
x=0
(1 −p)
x
= p
−1
. (3.5)
Distribuci´ on binomial negativa con par´ametros p ∈ [0, 1] y m ∈ Z
+
:
p(x) = p b(m−1, x −1, p) =

x −1
m−1

p
m
(1 −p)
x−m
(x ≥ m). (3.6)
Es la distribuci´on de n´ umero del intento correspondiente al m-´esimo ´exito en un esquema
de Bernouilli (ver (2.16) y ejercicio 2.11), de modo que la geom´etrica es el caso particular
m = 1.
Es necesario probar (3.2), pues podr´ıa ser que nunca hubiera m ´exitos. Para ello basta
con derivar m veces la identidad (3.5).
Distribuci´ on hipergeom´etrica con par´ametros N, M, n (M ≤ N, n ≤ N):
p(x) =

M
x

N −M
n −x

N
n
, (0 ≤ x ≤ m´ın(n, M)). (3.7)
Si se extraen n bolillas sin reemplazo de entre N bolillas, de las cuales exactamente M
son blancas, entonces esta es la distribuci´on de la cantidad de bolillas blancas extra´ıdas
(Ejemplo 1.C). Se la indicar´a con Hi(N, M, n). El nombre “hipergeom´etrica” tiene un
origen ajeno a la Teor´ıa de Probabilidad.
3.1. DISTRIBUCIONES 31
Para verificar (3.2) se puede razonar en forma “probabil´ıstica” como en el caso binomial:
dado que los p(x) corresponden a la distribuci´on de una variable aleatoria, la validez de
(3.2) est´a autom´aticamente garantizada. Si quiere una verificaci´on puramente algebraica,
resuelva el ejercicio 1.18.
Distribuci´ on uniforme discreta en el intervalo [n
1
, n
2
] (con n
1
≤ n
2
):
p(x) =
1
n
2
−n
1
+1
(n
1
≤ x ≤ n
2
).
Ejemplos simples son los juegos de azar ”honestos”: un tiro de un dado equilibrado
(n
1
= 1, n
2
= 6) o de ruleta (n
1
= 0, n
2
= 36). Un uso m´as interesante es la generaci´on
computacional de n´ umeros “pseudoaleatorios” (Secci´on 3.2.1).
3.1.2 Distribuciones continuas
Definici´ on 3.5 Una variable X tiene distribuci´on absolutamente continua si existe una
funci´ on f
X
: R →R
+
–llamada densidad de X– tal que
P(X ∈ A) =

A
f
X
(x) dx ∀ A ⊆ R. (3.8)
En particular, tomando A = (a, b] resulta para todo intervalo:
P(a < X ≤ b) =

b
a
f
X
(x) dx.
Si se hace a = −∞ queda
F
X
(x) =

x
−∞
f
X
(t) dt ∀ x; (3.9)
y por lo tanto


−∞
f
X
(x) dx = 1.
Aplicando en (3.9) el Teorema Fundamental del C´alculo Integral, se obtiene que para
una distribuci´on absolutamente continua, F
X
(x) es una funci´on continua para todo x, y su
derivada es f
X
(x) en todos los x donde f
X
es continua. De la continuidad de F
X
y de la
propiedad (d) de la Proposici´on 3.3, se deduce que para todo x, es P(X = x) = 0; y por lo
tanto P(X ≤ x) = P(X < x).
Como la expresi´on “absolutamente continua” es demasiado larga, se suele hablar sim-
plemente de “distribuciones continuas”. Sin embargo, hay que tener en cuenta que el hecho
de que F
X
sea una funci´ on continua, no implica que la distribuci´on de X sea absolutamente
continua: hay funciones mon´otonas y continuas, que sin embargo no son la primitiva de
ninguna funci´on [7, Vol. II, sec. I.11]. Por lo tanto, no es lo mismo una funci´on de
distribuci´on continua que una “distribuci´on (absolutamente) continua”.
32 CAP´ıTULO 3. VARIABLES ALEATORIAS
Se puede probar que (3.9) implica (3.8), pero la demostraci´on no es elemental.
Si f es cualquier funci´on que cumple f ≥ 0 y


−∞
f(x) dx = 1, se dice que f es una
densidad.
El n´ umero f
X
(x) no es la probabilidad de nada (podr´ıa incluso ser > 1). Sin embargo,
se le puede hallar una interpretaci´on intuitiva cuando f
X
es continua. En ese caso
P(x −δ < X < x +δ) = 2δf
X
(x) +o(δ),
donde “o” es un infinit´esimo de orden mayor que δ; de manera que f
X
(x) sirve para
aproximar la probabilidad de un “intervalito” alrededor de x.
El sub´ındice “X” se omitir´a de f
X
cuando no haya lugar a confusi´on.
Distribuciones continuas importantes
Distribuci´ on exponencial con par´ametro α > 0: tiene funci´on de distribuci´on
F(t) = 1 −e
−t/α
si t ≥ 0, F(t) = 0 si t < 0,
y por lo tanto su densidad es
f(t) =
1
α
e
−t/α
si t ≥ 0, f(t) = 0 si t < 0, (3.10)
o, m´ as compactamente: f(t) = α
−1
e
−t/α
I(t ≥ 0), donde I es el indicador. Se denotar´a a
esta distribuci´on con Ex(α).
En la Secci´on 2.2.1, sea la variable T el instante en que se emite la primera part´ıcula
despu´es del instante 0. Entonces all´ı se dedujo que P(T ≥ t) = e
−ct
, y por lo tanto
T ∼ Ex(1/c).
Distribuci´ on uniforme (o rectangular) en el intervalo [a, b]. Se define por su densidad:
f(x) =
1
b −a
si a ≤ x ≤ b; f(x) = 0 si no;
o, m´as compactamente, f(x) = (b −a)
−1
I(a ≤ x ≤ b). Se la indicar´a con Un(a, b). Cuando
se hable de “elegir un punto al azar” en un intervalo, se referir´a siempre a la uniforme si
no se dice otra cosa.
La aplicaci´on m´as importante se ver´a en generaci´on de n´ umeros aleatorios, en la Secci´on
3.2.1. Otra situaci´on donde se podr´ıa aplicar es: el tiempo de espera de un pasajero que
llega a la parada de un tranv´ıa del que sabe que pasa exactamente cada 10 minutos, pero
ignora el horario. Una representaci´on de esta ignorancia podr´ıa obtenerse suponiendo que
el tiempo de espera tiene distribuci´on uniforme en (0,10).
Distribuci´ on normal (o Gaussiana) Se define primero la densidad normal t´ıpica (o stan-
dard) como
ϕ(x) =
1


e
−x
2
/2
.
3.1. DISTRIBUCIONES 33
Obviamente es ϕ > 0. Para verificar que es una densidad, falta comprobar que


−∞
ϕ = 1.
(El lector no habituado a integrales dobles puede hacer un acto de f´e y seguir de largo).
Sea a =


−∞
e
−x
2
/2
dx. Hay que probar que a
2
= 2π. Para ello, notar que
a
2
=


−∞
e
−x
2
/2
dx


−∞
e
−y
2
/2
dy =


−∞


−∞
e
−(x
2
+y
2
)/2
dxdy;
y tomando, en la integral doble, coordenadas polares (r, φ) queda
a
2
=


0



0
e
−r
2
/2
r dr = 2π.
Desde ahora se indicar´an con ϕ y Φ la densidad normal t´ıpica y la correspondiente funci´on
de distribuci´on. La funci´on Φ no se puede calcular en forma expl´ıcita, pero en el Ap´endice
al final del libro hay una tabla de la misma.
Se define la distribuci´ on normal con par´ ametros µ ∈ R y σ
2
(con σ > 0) –y se la
escribe N(µ, σ
2
)– a la distribuci´on definida por la densidad
1
σ
ϕ

x −µ
σ

,
as´ı que la normal t´ıpica es N(0, 1).
Distribuci´ on de Weibull con par´ametros α > 0 y β > 0 : tiene funci´on de distribuci´on
F(t) = (1 −e
−(t/α)
β
) I(t ≥ 0). (3.11)
Se la denotar´a We(α, β). Es usada en Confiabilidad para modelizar tiempos de falla, y en
Hidrolog´ıa para distribuciones de valores extremos. Para β = 1 se tiene la exponencial.
Distribuci´ on Gama con par´ametros β y α. Primero definimos la funci´ on Gama:
Γ(s) =


0
u
s−1
e
−u
du, s > 0.
Es f´ acil verificar integrando por partes que Γ(s + 1) = sΓ(s). Como Γ(1) = 1, resulta
Γ(n) = (n −1)! para n natural, de modo que esta funci´on generaliza el factorial. Ahora se
define la densidad de la distribuci´on Gama:
f(t) =
1
αΓ(β)

t
α

β−1
e
−t/α
I(t ≥ 0). (3.12)
Se la indicar´a Ga(α, β). Contiene a la exponencial como el caso β = 1. Se usa para
modelizar tiempos de espera. En el proceso de Poisson con intensidad c, sea T el instante
en que se produce el m-´esimo suceso. Dado t > 0, sea N la cantidad de sucesos en el
intervalo [0, t]. Entonces T > t ⇐⇒N < m, y como N ∼ Po(ct), es
1 −F
T
(t) = P(T > t) =
m−1
¸
k=0
p(k; ct) = e
−ct
m−1
¸
k=0
(ct)
k
k!
,
34 CAP´ıTULO 3. VARIABLES ALEATORIAS
y derivando se obtiene la densidad de T:
f(t) = ce
−ct
(ct)
m−1
(m−1)!
, (3.13)
y por lo tanto
T ∼ Ga(1/c, m). (3.14)
En la Secci´on 10.2.2 se ver´a el papel de la distribuci´on Gama en Estad´ıstica.
3.1.3 Mezclas
Consideremos dos especies de peces. La longitud de los de la primera tiene distribuci´on
G
1
, y los de la segunda G
2
. Si nadan mezclados por el mar, en proporciones 10% y 90%,
entonces la distribuci´on de la longitud L de un pez capturado al azar de la poblaci´on
conjunta se obtiene por la regla de Probabilidad Compuesta. Sean A
1
y A
2
los eventos de
que el pez pertenezca a la especie 1 o la 2. Entonces
F
L
(t) = P(L ≤ t) = P(L ≤ t|A
1
) P(A
1
) +P(L ≤ t|A
2
) P(A
2
) = αG
1
(t) +(1 −α)G
2
(t),
con α = 0.1. Esto se llama mezcla de G
1
y G
2
. Si ambas son continuas, tambi´en lo es
su mezcla; lo mismo sucede si son discretas. Pero si son una discreta y otra continua, la
mezcla no es ninguna de las dos cosas.
Ejemplo 3.C: Datos censurados El tiempo de duraci´on de una l´ampara tiene funci´on
de distribuci´on G con densidad g. La l´ampara es reemplazada cuando se quema, o cuando
ha funcionado por h horas (lo que suceda primero). Sea T el tiempo hasta el reemplazo.
Entonces F
T
(t) = G(t) si t < h, y F
T
(t) = 1 si t ≥ h; de modo que F
T
es continua hasta
h, pero tiene un salto en h, de tama˜ no 1 −G(h). Esto se llama una distribuci´on censurada
por la derecha. Esta es una de mezcla de una distribuci´on continua con una discreta:
F
T
= pG
1
+(1−p)G
2
, donde p = G(h), G
1
es la distribuci´on con densidad g(x)I(x < h)/p,
y G
2
es la distribuci´on concentrada en h : G
2
(t) = I(t ≥ h). De manera que aqu´ı tenemos
un ejemplo concreto de una distribuci´on que no es ni continua ni discreta.
Aqu´ı los datos mayores que h no se sabe cu´anto valen, pero se sabe que est´ an. Hay
situaciones en que los valores fuera de un intervalo no llegan a dar se˜ nas de que existen
(ejercicio 3.7). Esas son distribuciones truncadas.
3.2 Transformaciones de variables aleatorias
Sean X una variable, h una funci´on de R en R, e Y = h(X). ¿C´omo calcular F
Y
conociendo
F
X
?.
Al menos en un caso hay una respuesta simple. Sea I un intervalo (finito o infinito,
puede ser I = R) tal que P(X ∈ I) = 1, y que h sea creciente y continua en I. Entonces
existe la inversa h
−1
, que es tambi´en creciente, y por lo tanto
F
Y
(y) = P(Y ≤ y) = P(h(X) ≤ y) = P(X ≤ h
−1
(y)) = F
X
(h
−1
(y)). (3.15)
3.2. TRANSFORMACIONES DE VARIABLES ALEATORIAS 35
Si X tiene distribuci´on continua, y si h es diferenciable, de (3.15) sale, derivando, que
f
Y
(y) = f
X
[h
−1
(y)]
dh
−1
(y)
dy
=
f
X
[h
−1
(y)]
h

[h
−1
(y)]
. (3.16)
Note que no es necesario que h sea creciente en todo R. Por ejemplo, si X ≥ 0 e Y = X
2
,
se puede aplicar (3.15) porque h es creciente en R
+
.
Si h es decreciente, el mismo razonamiento muestra que
f
Y
(y) =
f
X
[h
−1
(y)]
|h

[h
−1
(y)]|
. (3.17)
Por ejemplo, esto muestra que D(1 −U) = D(U) si U ∼ Un(0, 1).
De (3.15) sale f´acilmente que
X ∼ N(µ, σ
2
) ⇐⇒
X −µ
σ
∼ N(0, 1). (3.18)
Un caso particular importante de (3.15) es cuando h = F
X
, y F
X
es creciente y continua.
Entonces, Y = F
X
(X) toma valores en [0, 1], y (3.15) implica que para y ∈ (0, 1) es
F
Y
(y) = F
X
(F
−1
X
(y)) = y; y en consecuencia
F
X
(X) ∼ Un(0, 1). (3.19)
Si h no es mon´otona, pero es creciente o decreciente por trozos, se puede usar la idea
de (3.17), requiriendo cada caso un an´alisis particular y m´as paciencia. Por ejemplo, si
Y = |X|, y F
X
es continua, se puede obtener, para y ≥ 0:
F
Y
(y) = P(−y ≤ X ≤ y) = F
X
(y) −F
X
(−y);
y por lo tanto, f
Y
(y) = [f
X
(y) +f
X
(−y)] I(y ≥ 0).
Ejemplo 3.D: Sea U ∼ Un(0, 1), y sea Z la longitud de aquel de los segmentos
(0, U), (U, 1), que contiene al punto 0.5. Se trata de calcular D(Z).
Notemos que Z ∈ [0.5, 1], y que Z = h(U), donde
h(u) = m´ax(u, 1 −u) =

u si u ≥ 0.5
1 −u si u < 0.5.
Esta h no es mon´otona (graf´ıquela), pero se ve enseguida que para z ∈ [0.5, 1] es
P(Z ≤ z) = P(U ≤ z ∩ 1 −U ≤ z) = z −(1 −z) = 2z −1,
de modo que la densidad es f
Z
(z) = 2 I(0.5 ≤ z ≤ 1), o sea, Z ∼ Un(0.5, 1).
Otra manera de pensarlo ser´ıa as´ı: “si Z = m´ax(U, 1 − U), entonces Z es, o bien U,
o bien 1 − U; y como ambas son Un(0, 1), lo mismo debe suceder con Z”. ¡Pero esto no
coincide con lo obtenido anteriormente!. ¿D´onde est´a el error?.
36 CAP´ıTULO 3. VARIABLES ALEATORIAS
La falla de este razonamiento est´a en que Z es una de U o 1 − U, pero no “una
cualquiera”: se la elige seg´ un el valor de U. Si en cambio se eligiera a una de las dos al
azar sin fijarse en el valor de U, el resultado seguir´ıa siendo Un(0, 1) (ejercicio 3.4).
De (3.17) es f´acil probar que si X tiene densidad f, entonces cX ∼ |c|
−1
f(x/|c|), y
X + c ∼ f(x − c). Una familia de distribuciones f de la forma f(x) = c
−1
f
0
(x/c) para
c > 0 –donde f
0
es una densidad dada– se llama familia de escala, y c es un par´ ametro
de escala. Una familia de la forma f(x) = f
0
(x−c) es una familia de posici´ on o traslaci´ on.
La exponencial es una familia de escala, y la normal es de escala y posici´on.
Ejemplo 3.E: Weibull La Weibull se puede expresar como una familia de escala y
posici´on tomando logaritmos. En efecto, si X ∼ F = We(α, β), entonces Y = lnX tiene
FD: G(y) = F(e
y
) = H((y −µ)/σ) donde H(y) = 1 −e
−e
y
, µ = lnα y σ = 1/β.
Una distribuci´on que cumple
D(X −c) = D(c −X). (3.20)
se llama sim´etrica respecto de c. Es inmediato que si X tiene densidad f y FD F, (3.20)
es equivalente a
F(c +x) +F(c −x) = 1 y f(c +x) = f(c −x) ∀x. (3.21)
En particular, N(µ, σ
2
) es sim´etrica respecto de µ por ser ϕ una funci´on par, o sea, ϕ(x) =
ϕ(−x).
3.2.1 Aplicaciones a simulaci´ on
¿C´omo simular en una computadora situaciones donde interviene el azar?. Si bien la com-
putadora es (generalmente) un aparato determinista, se puede hacer que genere n´ umeros
“seudoaleatorios” –que no son aleatorios, pero lo parecen– que podemos tomar como va-
lores de variables con distribuci´on Un(0, 1). Abundante informaci´on sobre la generaci´on de
n´ umeros seudoaleatorios se puede encontrar en [15] y [12, Vol. 2]. Nuestro punto de partida
es que se cuenta con un generador de n´ umeros aleatorios: un algoritmo que produce una
sucesi´on de n´ umeros que se pueden considerar como aleatorios con distribuci´on uniforme
en el intervalo [0, 1]. En realidad, se trata de una distribuci´on discreta, pero pr´acticamente
indistinguible de Un(0, 1); ver el ejercicio 3.14.
Suponiendo entonces que contamos con una variable U ∼ Un(0, 1), la cuesti´on es c´omo
obtener de ella una variable con distribuci´on F dada cualquiera.
Una posibilidad es usar (3.19) al rev´es. Sea F una funci´on de distribuci´on continua y
creciente, y definamos X = F
−1
(U). Entonces P(X ≤ x) = P(U ≤ F(x)) = F(x), lo que
muestra que
U ∼ Un(0, 1) =⇒ F
−1
(U) ∼ F. (3.22)
De esta forma se pueden obtener variables con funci´on de distribuci´on F dada, si F es
continua y creciente. Por ejemplo, para generar la distribuci´on Ex(α), es
3.3. DISTRIBUCI
´
ON CONJUNTA DE VARIAS VARIABLES 37
F
−1
(u) = −ln(1 −u)α, y por lo tanto se puede definir
X = −ln(1 −U)α. (3.23)
Este m´etodo se puede extender te´oricamente para F cualquiera (ejercicio 3.20). Pero
no siempre es pr´actico calcular F
−1
, y en esos casos conviene usar m´etodos que usan
propiedades espec´ıficas de la F que interesa. Un procedimiento para la normal se ver´a en
la Secci´on 5.3.
Para distribuciones discretas, el lector puede f´acilmente encontrar un m´etodo general
(ejercicio 3.16). Pero tambi´en puede ser m´as eficiente usar caracter´ısticas particulares de
las distribuciones, como en los ejercicios 3.18 y 3.19.
3.3 Distribuci´ on conjunta de varias variables
Si X e Y son dos variables definidas en el mismo Ω, podemos considerarlas como un par de
variables, o como una funci´on que a cada ω ∈ Ω le asigna el punto del plano de coordenadas
(X(w), Y (w)), o sea, una variable aleatoria con valores en R
2
.
Definici´ on 3.6 La funci´on de distribuci´on conjunta de (X, Y ) es una funci´ on de R
2
→R:
F
X,Y
(x, y) = P(X ≤ x ∩ Y ≤ y).
O sea, F
X,Y
(x, y) = P((X, Y ) ∈ A) donde A es el “rect´angulo” (−∞, x] × (−∞, y]. El
subindice “X, Y ” se omitir´a cuando no haya lugar a confusi´on. As´ı como en el caso de una
variable, conociendo su funci´on de distribuci´on se puede calcular f´acilmente la probabilidad
de un intervalo (propiedad (a) de Prop. 3.3), el siguiente resultado da para dos variables
la probabilidad de cualquier rect´angulo a partir de F
X,Y
.
Proposici´ on 3.7 Si a < b y c < d, es
P(a < X ≤ b ∩ c < Y ≤ d) = F(b, d) −F(a, d) −F(b, c) +F(a, c). (3.24)
Demostraci´ on: Basta con descomponer el rect´angulo (a, b] ×(c, d] en “rect´angulos semi-
infinitos” como los que aparecen en la definici´on de F:
P(a < X ≤ b ∩ c < Y ≤ d) = P(X ≤ b ∩ c < Y ≤ d) −P(X ≤ a ∩ c < Y ≤ d);
y descomponiendo de la misma forma cada uno de los dos t´erminos, se llega al resultado.

Se dice que X, Y tienen la misma distribuci´ on conjunta que X

, Y

, si P((X, Y ) ∈ A) =
P((X

, Y

) ∈ A) ∀ A ⊆ R
2
. Se lo escribe D(X, Y ) = D(X

, Y

).
La distribuci´on conjunta de (X, Y ) es discreta si existe un conjunto C ⊆ R
2
finito
o infinito numerable, tal que P((X, Y ) ∈ C) = 1. En tal caso se usar´a la notaci´on
p
X,Y
(x, y) = P(X = x ∩ Y = y) para (x, y) ∈ C, y p
X,Y
ser´a llamada funci´ on de fre-
cuencia conjunta.
38 CAP´ıTULO 3. VARIABLES ALEATORIAS
De la definici´on sale
P((X, Y ) ∈ A) =
¸
(x,y)∈A∩C
p(x, y) ∀ A ⊆ R
2
, (3.25)
y en particular
p(x, y) ≥ 0 y
¸
(x,y)∈C
p(x, y) = 1. (3.26)
Ejemplo 3.F: Distribuci´ on multinomial Una poblaci´on se divide en m estratos, con
probabilidades p
1
, . . . , p
m
. Se toma una muestra de n individuos con reposici´on (ver ejer-
cicio 2.16). Sea N
i
, (i = 1, . . . , m) la cantidad de individuos muestreados del estrato i. La
distribuci´on conjunta de N
1
, . . . , N
m
–obviamente discreta– est´a dada por
P(N
1
= n
1
∩. . .∩N
m
= n
m
) =
n!
n
1
! . . . n
m
!
p
n
1
1
. . . p
nm
m
, 0 ≤ n
i
≤ n,
m
¸
i=1
n
i
= n, (3.27)
que se deduce como la Prop. 2.7. Esta es la distribuci´ on multinomial. Como
¸
i
N
i
= n,
cualquiera de las m variables puede ser expresada en funci´on de las restantes. La binomial
corresponde a m = 2.
La distribuci´on conjunta de (X, Y ) es continua si existe una funci´on f
X,Y
: R
2
→ R
+
–llamada densidad conjunta de X, Y – tal que para todo A ⊆ R
2
P((X, Y ) ∈ A) =

A
f(x, y) dxdy =

f(x, y) I
A
(x, y) dxdy. (3.28)
Tomando A = R
2
resulta


−∞


−∞
f(x, y) dxdy = 1. (3.29)
Tomando A = (−∞, x] ×(−∞, y] se obtiene
F
X,Y
(x, y) =

y
−∞

x
−∞
f
X,Y
(s, t) ds dt; (3.30)
y derivando se tiene
f(x, y) =

2
F(x, y)
∂x∂y
, (3.31)
en todos los (x, y) donde f es continua.
Ejemplo 3.G: Distribuci´ on uniforme bivariada Sea B cualquier regi´on del plano, con
´area b < ∞. Se define la distribuci´on uniforme en B mediante la densidad
f(x, y) =
1
b
I
B
(x, y). (3.32)
3.3. DISTRIBUCI
´
ON CONJUNTA DE VARIAS VARIABLES 39
Si bien los casos discreto y continuo son de lejos los m´as usuales, puede haber situaciones
mixtas, y otras m´as complicadas (ejercicio 5.12).
El tratamiento de distribuciones conjuntas de m variables es completamente an´alogo;
ahora las funciones de distribuci´on, de frecuencia o de densidad depender´an de m argu-
mentos.
En muchos modelos se trata no con conjuntos finitos sino con familias infinitas de vari-
ables, llamadas procesos estoc´ asticos. Por ejemplo, en el proceso de Poisson sea para
cada t la variable X
t
igual a la cantidad de sucesos hasta el instante t. La familia
{X
t
: t ∈ R} es un ejemplo de proceso estoc´ astico con tiempo continuo. Si en el paseo al
azar del ejercicio 2.12 llamamos X
n
a la posici´on del borracho despu´es de andar n cuadras,
esto es un ejemplo de proceso estoc´astico con tiempo discreto. Un ejemplo importante se
puede ver en la Secci´on 7.3.3.
Distribuciones marginales
Conociendo la distribuci´on conjunta de (X, Y ), se pueden calcular la distribuci´on de X y
la de Y , de la siguiente manera:
Proposici´ on 3.8
a. En general: F
X
(x) = l´ım
y→∞
F
X,Y
(x, y).
b. En el caso discreto: p
X
(x) =
¸
y
p
X,Y
(x, y).
c. En el caso continuo: f
X
(x) =


−∞
f
X,Y
(x, y) dy.
Demostraci´ on: El primer resultado se prueba igual que (c) de Prop. 3.3. El segundo es
trivial. El tercero se deduce calculando primero F
X
y luego derivando.
Las distribuciones de X y de Y se llaman marginales de D(X, Y ). Conocer las marginales
no implica conocer la distribuci´on conjunta, como se ver´a a continuaci´on.
Ejemplo 3.H: Se arrojan dos monedas equilibradas, distinguibles; la variable X es el
indicador de que salga cara en la primera moneda; idem Y en la segunda. Consideremos tres
casos: en el primero, los cantos de las monedas est´an soldados, con las dos “caras” hacia el
mismo lado; en el segundo, lo mismo pero las caras est´an opuestas; en el tercero, se arroja
cada moneda separadamente. Estos tres casos describen tres distribuciones conjuntas de
(X, Y ). El lector puede verificar que son distintas, pero tienen todas las mismas marginales:
P(X = 1) = P(X = 0) = P(Y = 1) = P(Y = 0) = 0.5.
La distribuci´on conjunta contiene m´as informaci´on que las marginales, pues contiene
informaci´on sobre la “dependencia” entre las variables.
El tratamiento de m variables X
1
, . . . , X
m
es an´alogo. Por ejemplo, en el caso continuo
con densidad conjunta f, la densidad marginal de X
1
es
f
X1
(x
1
) =


−∞
. . .


−∞
f(x
1
, x
2
, . . . , x
m
) dx
2
. . . dx
m
.
40 CAP´ıTULO 3. VARIABLES ALEATORIAS
3.4 Independencia de variables aleatorias
Definici´ on 3.9 Las variables X e Y son independientes si para todo A, B ⊆ R, los eventos
{X ∈ A} e {Y ∈ B} son independientes.
Tomando A = (−∞, x] y B = (−∞, y] se deduce que la independencia implica
F
X,Y
(x, y) = F
X
(x)F
Y
(y). (3.33)
La implicaci´on inversa es tambi´en v´alida, pero la demostraci´on no es elemental.
Usando (3.33) se verifica f´acilmente que la independencia de X e Y equivale en el caso
discreto a
p
X,Y
(x, y) = p
X
(x) p
Y
(y) si (x, y) ∈ C,
y en el continuo a
f
X,Y
(x, y) = f
X
(x)f
Y
(y).
La independencia de X e Y equivale a que existan funciones g y h tales que
p(x, y) = g(x)h(y) (caso discreto) (3.34)
f(x, y) = g(x)h(y) (caso continuo). (3.35)
En efecto, si (3.35) se cumple, integrando respecto de y se deduce que f
X
(x) = cg(x) donde
c es una constante; y lo mismo con f
Y
. Por lo tanto, para verificar independencia basta
comprobar que p(x, y) o f(x, y) se pueden factorizar como alguna funci´on de x por alguna
de y, siendo innecesario verificar que se trata de las funciones de frecuencia o de densidad
marginales. Este insignificante detalle puede ahorrar muchas cuentas.
Ejemplo 3.I: Tiempos de espera: Bernouilli En el esquema de Bernouilli sea S el
n´ umero del intento en que se produce el primer ´exito, y T la cantidad de intentos entre el
primer y el segundo ´exitos, de modo que U = S +T es el intento en que se da el segundo
´exito. Mostraremos que S y T son independientes. En efecto, el evento {S = s ∩ T = t}
equivale a {S = s ∩ U = s +t}, o sea, que haya ´exitos en los intentos s y s +t y fracasos
en los dem´as, es decir
P(S = s ∩ T = t) = p
2
(1 −p)
s+t−2
= p(1 −p)
s−1
p(1 −p)
t−1
,
que es una funci´on de s por una de t, y por lo tanto S y T son independientes. Adem´as
se deduce que T tiene la misma distribuci´on que S, o sea Ge(p); y en consecuencia los
tiempos de espera entre ´exitos sucesivos tienen la misma distribuci´on que el tiempo entre
el comienzo y el primer ´exito, lo que corresponde a la idea intuitiva de que el proceso no
tiene memoria. Como si eso fuera poco, resulta sin hacer ninguna cuenta que la suma de
dos geom´etricas independientes con el mismo par´ ametro es binomial negativa.
La noci´on de independencia se extiende en forma natural para cualquier conjunto finito
o infinito de variables.
3.4. INDEPENDENCIA DE VARIABLES ALEATORIAS 41
Definici´ on 3.10 Las variables X
1
, . . . , X
m
son independientes si para todo A
1
, . . . , A
m

R, los eventos {X
i
∈ A
i
}(i = 1, . . . , m) son independientes. Las variables X
i
, i = 1, 2, . . .
(sucesi´ on infinita) son independientes si para todo m, son X
1
, . . . , X
m
independientes.
Esto nos permite completar el concepto de un generador (idealizado) de n´ umeros aleato-
rios (Secci´on 3.2.1), como un algoritmo capaz de producir una sucesi´on infinita de variables
Un(0, 1) independientes.
Ejemplo 3.J: Tiempos de espera: Poisson Sean S y T los instantes correspondientes
al primero y al segundo suceso en un proceso de Poisson con intensidad c. Calcularemos
la distribuci´on conjunta de S y T.
Sea la variable X
t
la cantidad de part´ıculas emitidas hasta el instante t, de modo que
la cantidad de part´ıculas entre los instantes s y t es X
t
− X
s
para s < t. Entonces, la
condici´on (S2) de dicha secci´on equivale a que las variables X
ti+1
−X
ti
(i = 1, . . . , n −1)
son independientes.
Dados s < t, X
s
y Z = X
t
− X
s
son independientes con distribuciones Po(cs) y
Po(c(t −s)). Entonces
P(S > s ∩ T > t) = P(X
s
= 0 ∩ X
t
≤ 1)
= P(X
s
= 0 ∩ Z ≤ 1) = e
−cs
e
c(t−s)
(1 +c(t −s)). (3.36)
Como por el ejercicio 1.3 es
F
S,T
(s, t) = 1 −P(S > s ∪T > t) = F
S
(s) +F
T
(t) −1 + P(S > s ∩ T > t),
derivando (3.36) se obtiene la densidad conjunta de S, T: f
S,T
(s, t) = c
2
e
−ct
I(s < t).
Si dos variables son independientes, las funciones de ellas tambi´en lo son. Sean X
1
, X
2
independientes, u
1
, u
2
dos funciones de R → R, Y
i
= u
i
(X
i
) (i = 1, 2). Entonces Y
1
e Y
2
son independientes. Por ejemplo, X
2
1
y cos X
2
son independientes. Para probarlo, usamos
la definici´on: sean A
1
, A
2
⊆ R cualesquiera; y sean B
i
= {x : u
i
(x) ∈ A
i
}, (i = 1, 2).
Entonces
P(Y
1
∈ A
1
∩ Y
2
∈ A
2
) = P(X
1
∈ B
1
∩ X
2
∈ B
2
)
= P(X
1
∈ B
1
) P(X
2
∈ B
2
) = P(Y
1
∈ A
1
) P(Y
2
∈ A
2
).
M´as en general:
Proposici´ on 3.11 Sean las X
i
independientes (i = 1, . . . , n); sea m < n, y sean Y
1
=
u
1
(X
1
, . . . , X
m
), Y
2
= u
2
(X
m+1
, . . . , X
n
), donde u
1
y u
2
son funciones de m y de n − m
variables. Entonces, Y
1
e Y
2
son independientes.
Por ejemplo, X
1
+X
2
es independiente de X
3
X
4
. La demostraci´on de esta Proposici´on no
es elemental.
42 CAP´ıTULO 3. VARIABLES ALEATORIAS
3.5 Ejercicios
Secci´ on 3.1
3.1 Calcular la funci´on de distribuci´on de la geom´etrica.
3.2 Hallar la constante c tal que f(x) = c/(1 +x
2
) sea una densidad. Calcular la corres-
pondiente funci´on de distribuci´on (“distribuci´on de Cauchy”).
3.3 Calcular la funci´on de distribuci´on de Un(a, b).
3.4 Sea U ∼ Un(0, 1).
a. Sea Z la longitud de aqu´el de los intervalos (0, U) o (U, 1) que contenga al punto
0.2. Calcular D(Z).
b. Supongamos que en cambio se arroja un dado, y se elige un intervalo o el otro
seg´ un salga as o no. Hallar la distribuci´on de la longitud del intervalo elegido.
3.5 Verificar que I
A∩B
= I
A
I
B
= m´ın(I
A
, I
B
).
3.6 La poblaci´on de un pa´ıs est´a compuesta por 40% de pigmeos y 60% de watusis.
La estatura de los primeros (en cent´ımetros) tiene distribuci´on N(120, 20), y la de
los segundos, N(200, 30). Sea X la estatura de un individuo elegido al azar en la
poblaci´on. Calcular f
X
y hacer un gr´afico aproximado.
3.7 La longitud de los peces de una laguna (en cm.) tiene densidad f(x) = cx(20−x)I(0 <
x < 20) siendo c una constante. Un bi´ologo quiere estimar f y para ello captura
peces con una red, cuyas mallas dejan escapar los peces menores de 3 cm.. Hallar
la densidad que obtiene el bi´ologo (esto se llama una distribuci´ on truncada por la
izquierda).
Secci´ on 3.2
3.8 Si X ∼ N(0, 1), calcular la densidad de X
2
.
3.9 Si X ∼ N(µ, σ
2
), calcular la densidad de e
X
(distribuci´on lognormal con par´ametros
µ y σ).
3.10 Se corta una varilla de mimbre en un punto al azar. Calcular la probabilidad de que
la longitud del lado mayor sea el doble de la del menor.
3.11 Calcular la distribuci´on del primer d´ıgito en el desarrollo decimal de U, donde U ∼
Un(0, 1).
3.12 a. Mostrar que Γ(1/2) =

π.
b. Probar que si X ∼ N(0, 1) entonces X
2
tiene distribuci´on Ga(2, 1/2).
3.5. EJERCICIOS 43
3.13 Mostrar que la familia Un(a, b) es de escala y posici´on.
Secci´ on 3.2.1
3.14 Un algoritmo computacional produce un n´ umero que se puede considerar como una
variable alaetoria Z con distribuci´on uniforme discreta en [1, m] con m = 2
32
. Sea
U = Z/m. Probar que |F
U
(u) −G(u)| ≤ 1/m, donde G es la FD de Un(0, 1).
3.15 Defina algoritmos que a partir de una variable U ∼ Un(0, 1), generen variables con
distribuciones:
a. Un(a, b)
b. de Cauchy (ejercicio 3.2)
c. We(α, β).
3.16 Si F es la FD de una variable entera y U ∼ Un(0, 1), sea Y la variable definida por
Y = k si F(k −1) < U ≤ F(k) (k entero). Pruebe que Y ∼ F.
Utilice este resultado para simular un tiro de un dado equilibrado.
3.17 Verifique que, si U ∼ Un(0, 1), es D(U) = D(1 − U). ¿C´omo aprovechar esto para
simplificar el algoritmo dado en (3.23) para generar exponenciales?
3.18 Pruebe que si X tiene distribuci´on exponencial, entonces Y = [X] + 1 (donde “[.]”
es la parte entera) tiene distribuci´on geom´etrica. Obtenga de aqu´ı un algoritmo para
generar Ge(p) con par´ametro p ∈ (0, 1) dado.
3.19 Defina un algoritmo para generar una variable Bi(n, p) usando (3.4).
3.20 *[Optativo] Sea F una funci´on de distribuci´on cualquiera. Sea para u ∈ (0, 1) :
F

(u) = inf{x : F(x) ≥ u} (donde “inf” es el ´ınfimo, o sea, la mayor de las cotas
inferiores de un conjunto). Probar que si U ∼ Un(0, 1), entonces X = F

(U) tiene
funci´on de distribuci´on F. [Ayuda: recordar que F es continua por la derecha]. Para
verlo intuitivamente, haga el gr´afico de F

a partir del de F.
3.21 Haga el gr´afico de F

del ejercicio anterior para la funci´on de distribuci´on F de la
uniforme discreta en [1, 3].
Secci´ on 3.3
3.22 La distribuci´on conjunta de X e Y es uniforme en el rect´angulo [2, 4] × [3, 7]. ¿Son
X e Y independientes?. Calcular las marginales.
3.23 De un mazo de baraja espa˜ nola se extraen repetidamente cartas con reposici´on. Sean
U y V los n´ umeros de las extracciones en que salen el primer oro y la primera copa.
¿Son variables independientes?.
3.24 Los barrotes de una verja est´an separados por 20 cm. Se arroja contra ella una pelota
de di´ametro 10 cm. Calcular la probabilidad de que la pelota atraviese los barrotes
(suponiendo que estos sean muy altos y la verja sea muy extensa).
44 CAP´ıTULO 3. VARIABLES ALEATORIAS
3.25 Una caja contiene n bolillas numeradas de 1 a n. Se extraen dos bolillas sin reposici´on.
Sean respectivamente X e Y los resultados de la primera y la segunda bolilla. Calcular
la distribuci´on conjunta y las marginales.
3.26 En el ejercicio 3.11, calcular la distribuci´on conjunta de los primeros dos d´ıgitos.
¿Son independientes?.
3.27 En el esquema de Bernouilli, sea T
m
el n´ umero del intento correspondiente al m-´esimo
´exito.
a. Probar que si m < n, son T
m
y T
n
− T
m
independientes [recordar el Ejemplo
3.I].
b. Probar que si X es binomial negativa con par´ametros m y p y X
1
, . . . , X
m
son
Ge(p) independientes, es D(X) = D(
¸
m
i=1
X
i
).
Cap´ıtulo 4
Valor Medio y Otros
Par´ametros
En este cap´ıtulo se tratar´a de c´omo sintetizar las caracter´ısticas m´as importantes de una
distribuci´on en unos pocos n´ umeros.
4.1 Valor medio
El valor medio de una variable aleatoria (llamado tambi´en esperanza matem´ atica, valor
esperado, media) es esencialmente un promedio de los valores que toma, en el que cada
valor recibe un peso igual a su probabilidad.
Definici´ on 4.1 El valor medio EX de una variable X discreta con valores en el conjunto
C y funci´ on de frecuencia p es
EX =
¸
x∈C
xp(x),
si se cumple
¸
x∈C
|x|p(x) < ∞. El valor medio de una variable X con distribuci´ on
continua con densidad f es
EX =


−∞
xf(x)dx,
si se cumple


−∞
|x|f(x) dx < ∞.
Para una analog´ıa f´ısica, si los x son masas puntuales en la recta, cada una con peso p(x),
entonces el punto EX es el centro de gravedad de esas masas.
Si
¸
x
|x|p(x) o


−∞
|x|f(x)dx divergen, se dice que “EX no existe”. Si X es acotada
inferiormente (o sea, P(X ≥ c) = 1 para alg´ un c) y no existe EX, entonces se dice que
EX = ∞.
Sale directamente de la definici´on que si X = c constante, es EX = c.
45
46 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
Como el indicador I
A
es una variable discreta que toma los valores 1 y 0 con probabi-
lidades P(A) y 1 −P(A) respectivamente, se deduce de la definici´on que
E I
A
= P(A). (4.1)
Note que EX depende s´olo de la distribuci´on de X, de modo que se puede tambi´en
hablar de “media de una distribuci´on”.
La definici´on se extiende de manera obvia a mezclas de distribuciones continuas y
discretas (secci´on 3.1.3). Se puede definir EX en general, sin separar los casos discreto y
continuo. Pero eso requerir´ıa el concepto de “integral de Stieltjes”, que no ser´ıa adecuado
para el nivel elemental de este curso.
¿Por qu´e pedir no s´olo que la serie o la integral que definen EX converjan, sino que
adem´as lo hagan absolutamente?. Los motivos son b´asicamente “t´ecnicos”: si no fuera
as´ı, podr´ıan no valer las propiedades m´as importantes de la media, tal como E(X +Y ) =
EX + EY que se ver´a luego. En el caso discreto, hay un motivo m´as directo. Si una
serie converge, pero no absolutamente, el valor de la suma puede alterarse arbitrariamente
cambiando el orden de los t´erminos. Pero como la numeraci´on de los x es arbitraria, el
valor de EX no debiera depender de en qu´e orden se los numere.
Ya que no podemos dar una definici´on unificada de EX, se puede al menos comprobar
que las definiciones para los casos discreto y continuo son coherentes entre s´ı, en el sentido
de que la definici´on para el segundo se puede obtener como caso l´ımite del primero (ejercicio
4.23). Pero la mejor justificaci´on del concepto de valor medio se ver´a en el Cap´ıtulo 7 al ver
la Ley de Grandes N´ umeros, donde se mostrar´a la relaci´on entre EX y la media emp´ırica.
A continuaci´on damos algunas propiedades importantes de la media. La mayor´ıa de las
demostraciones exigir´an una irritante separaci´on entre los casos continuo y discreto.
4.1.1 Media de funciones de variables aleatorias
Sean u : R →R, Y = u(X). Si se quiere calcular EY por la definici´on, habr´ıa que obtener
primero D(Y ), lo que puede ser complicado. Pero hay una manera de hacerlo directamente:
Eu(X) =
¸
x
u(x)p(x) (caso discreto) (4.2)
=


−∞
u(x)f(x)dx (caso continuo), (4.3)
siempre que
¸
x
|u(x)| p(x) < ∞ o

|u(x)| f(x) dx < ∞,
respectivamente.
La probamos para X discreta. Los valores que toma Y ser´an y = u(x) con x ∈ C. Si u
es inyectiva, la demostraci´on es trivial:
EY =
¸
y
yP(Y = y) =
¸
x
u(x)P(u(X) = u(x)) =
¸
x
u(x)P(X = x).
4.1. VALOR MEDIO 47
Si u es una funci´on cualquiera, sea para cada y en la imagen de u, el conjunto A
y
=
{x ∈ C : u(x) = y}. Entonces, como los A
y
son disjuntos y
¸
y
A
y
= C, resulta
EY =
¸
y
yP(Y = y) =
¸
y
u(x)
¸
x∈Ay
P(X = x) =
¸
y
¸
x∈Ay
u(x)P(X = x) =
¸
x
u(x)p(x).
La demostraci´on para el caso continuo excede el nivel de este libro.
En particular, si EX existe y c es una constante, es
E(cX) = c EX. (4.4)
Lo mismo vale para funciones de dos o m´as variables. Sea u una funci´on de R
2
→ R.
Entonces
Eu(X, Y ) =
¸
x
¸
y
u(x, y) p(x, y) (caso discreto) (4.5)
=


−∞


−∞
u(x, y)f(x, y)dxdy (caso continuo), (4.6)
si
¸¸
|u(x, y)|p(x, y) < ∞ o

|u(x, y)|f(x, y)dxdy < ∞,
respectivamente.
La demostraci´on para el caso discreto es exactamente igual que la de la propiedad (4.3)
para una sola variable: que el problema sea uni- o bidimensional no desempe˜ na ning´ un
papel. Para el caso continuo, la demostraci´on no es elemental.
4.1.2 Media de una suma
Se probar´a que, si existen EX y EY , es
E(X +Y ) = EX + EY. (4.7)
Lo haremos en el caso continuo, aplicando (4.6) con u(x, y) = x + y. Notemos primero
que la existencia de EX y EY implica la de E(X + Y ). Para ello hay que verificar que

|x +y|f(x, y) dxdy es finita, lo que sale inmediatamente de |x +y| ≤ |x| +|y|.
Aplicando entonces (4.6), se obtiene
E(X +Y ) =


−∞


−∞
(x +y)f(x, y) dx

dy
=


−∞
x


−∞
f(x, y) dy

dx +


−∞
y


−∞
f(x, y) dx

dy.
Pero la integral interior del primer t´ermino es f
X
(x), y la otra es f
Y
(y) (Proposici´on 3.8),
por lo cual queda
E(X +Y ) =


−∞
xf
X
(x) dx +


−∞
yf
Y
(y) dy = EX +EY.
48 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
La demostraci´on para el caso discreto es an´aloga, con sumas en vez de integrales.
Combinando este resultado con (4.4) resulta
E(a X +b Y ) = a EX +b EY. (4.8)
Ejemplo 4.A: En el ejemplo 1.A, calculemos la media del n´ umero N de ni˜ nos que
se quedan sin caramelo. M´as f´acil que tratar de calcular D(N) es escribir N =
¸
n
i=1
I
Ai
,
donde A
i
es el evento “el ni˜ no i-´esimo se queda sin caramelo”, que tiene probabilidad
(1 −1/n)
c
; y por lo tanto EX = n(1 −1/n)
c
.
4.1.3 Media de un producto
A diferencia de la suma, no hay una f´ormula general para la media de un producto; pero
la hay en el caso de independencia: si X e Y son independientes, y sus medias existen, es
E(XY ) = EX EY . (4.9)
Se prueba tomando u(x, y) = xy, y procediendo como con la suma.
4.1.4 Algunas desigualdades
Propiedad de monoton´ıa
Es intuitivo que, si ambas medias existen,
X ≥ Y =⇒ EX ≥ EY. (4.10)
Lo probamos primero para Y = 0: X ≥ 0 =⇒EX ≥ 0. En efecto, si X es discreta, EX es
una suma todos cuyos t´erminos son ≥ 0. Si es continua, debe ser f
X
(x) = 0 para x < 0;
y por lo tanto EX =


0
xf
X
(x)dx ≥ 0. La demostraci´on de (4.10) se completa aplicando
este resultado a a X −Y que es ≥ 0 y teniendo en cuenta (4.8).
Desigualdad de Markov
Si X ≥ 0 y c > 0 es una constante, es
P(X ≥ c) ≤
EX
c
. (4.11)
Para probarla, llamemos A al evento (X ≥ c). Por (4.1), es P(A) = E I
A
. Notemos que
en A es X/c ≥ 1, y que por lo tanto:
I
A

X
c
I
A

X
c
.
Por (4.10) es entonces P(A) ≤ EX/c, como quer´ıase probar.
4.2. MEDIA DE LAS DISTRIBUCIONES M
´
AS USUALES 49
Variables positivas con media nula
Parece obvio que si un conjunto de n´ umeros no negativos tiene promedio nulo, deben ser
todos nulos. Esto vale m´as en general:
X ≥ 0, EX = 0 =⇒ P(X = 0) = 1. (4.12)
En efecto, si EX = 0, sale de (4.11) que para todo x > 0 es P(X ≥ x) = 0; y por lo tanto,
F
X
(x) = 1 y adem´as F
X
(−x) = 0. En consecuencia, (d) de la Prop. 3.3 implica
P(X = 0) = l´ım
x→0+
[F
X
(x) −F
X
(−x)] = 1.
4.2 Media de las distribuciones m´as usuales
A continuaci´on calcularemos la media de las distribuciones de uso m´as frecuente.
Binomial
Se mostrar´a que
X ∼ Bi(n, p) =⇒ EX = np. (4.13)
Ser´a ilustrativo hacerlo por dos m´etodos distintos. Primero, directamente por la definici´on:
EX =
n
¸
k=0
kb(k, n, p) = pn
n
¸
k=1
(n −1)!
(k −1)![(n −1) −(k −1)]!
p
k−1
(1 −p)
(n−1)−(k−1)
= pn
n
¸
k=1
b(k −1, n −1, p) = pn
n−1
¸
k=0
b(k, n −1, p) = pn,
pues la ´ ultima sumatoria vale 1 por (3.3) aplicada a n −1.
El otro m´etodo es considerar que si X ∼ Bi(n, p), entonces se puede expresar como en
(3.4): X =
¸
n
i=1
I
Ai
, donde los eventos A
1
, . . . , A
n
cumplen P(A
i
) = p. Entonces, usando
(4.7) y luego (4.1), queda EX =
¸
n
i=1
EI
Ai
= np.
Exponencial
Si X ∼ Ex(α), es
EX =


0
(x/α)e
−x/α
dx = α; (4.14)
de modo que en la secci´on 2.2.1 se puede considerar a 1/c como “tiempo medio de espera”.
50 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
Normal
Mostraremos que
X ∼ N(µ, σ
2
) =⇒ EX = µ, (4.15)
y por lo tanto el primer par´ametro de la normal es la media de la distribuci´on.
Lo probamos primero para µ = 0 y σ = 1. La verificaci´on de la existencia de la media
queda a cargo del lector (ejercicio 4.1). Para calcularla, basta recordar que X es sim´etrica
respecto de 0, o sea D(X) = D(−X); y por lo tanto EX = −EX, que implica EX = 0.
Para el caso general, basta tener en cuenta que por (3.18), X = σY +µ con Y ∼ N(0, 1).
La media de una distribuci´on sim´etrica no siempre existe; ver ejercicio 4.2.
Poisson
Si X ∼ Po(λ), es
EX =

¸
k=0
ke
−λ
λ
k
k!
= e
−λ
λ

¸
k=1
λ
k−1
(k −1)!
= e
−λ
λ

¸
k=0
λ
k
k!
= e
−λ
λe
λ
= λ. (4.16)
Geom´etrica
Si X ∼ Ge(p), es
EX = p

¸
k=1
k(1 −p)
k−1
.
Para calcular la serie, notemos que
k(1 −p)
k−1
= −
d
dp
(1 −p)
k
,
y

¸
k=1
(1 −p)
k
=
1
p
−1,
y recordemos que en las series de potencias se puede derivar t´ermino a t´ermino. Por lo
tanto

¸
k=1
k(1 −p)
k−1
= −
d((1/p) −1)
dp
=
1
p
2
,
y en consecuencia
EX = p
1
p
2
=
1
p
. (4.17)
Observemos que (4.17) implica que EX es una funci´on decreciente de p, lo cual es razonable
si se piensa en X como “tiempo de espera” (ver (2.15)): cuanto menor sea la probabilidad
del suceso que se espera, m´as tiempo habr´a que esperarlo.
4.3. VARIANZA Y DESVIACI
´
ON T´ıPICA 51
Hipergeom´etrica
Si X ∼ Hi(N, M, n) –ver (3.7)– entonces
EX = n
M
N
. (4.18)
El resultado es plausible, si se piensa en X como “cantidad de bolillas blancas extra´ıdas
sin reemplazo” (Ejemplo 1.C). Lo mismo que para la binomial, hay dos maneras de cal-
cular la media. La m´as simple es expresar a X como suma de indicadores, lo cual da
un procedimiento mucho m´as corto. O sea: X =
¸
n
i=1
I
Ai
, donde A
i
es el evento “bo-
lilla blanca en la i-´esima extracci´on” en un muestreo sin reemplazo de n bolillas. Como
E I
Ai
= P(A
i
) = M/N (ejemplo 1.D), se deduce que EX = nM/N.
La otra forma es puramente algebraica, a partir de la definici´on; y se la dejamos al
lector, si le interesa.
Notemos que la hipergeom´etrica tiene la misma media que la binomial Bi(n, p) con
p = M/N.
4.3 Varianza y desviaci´ on t´ıpica
Buscaremos ahora medir cu´anto se dispersan los valores de X. Una forma de pensarlo es
expresar cu´an alejados est´an dichos valores (en promedio) de la media.
Definici´ on 4.2 La varianza de una variable es (si existe)
var(X) = E{(X −EX)
2
}.
La desviaci´on t´ıpica (o standard) es σ(X) =

var(X).
N´otese que σ(X) se expresa en las mismas unidades que X.
Dado que |x| ≤ x
2
+ 1 ∀x, resulta que la existencia de EX
2
implica la de EX y por
ende la de var(X),
El coeficiente de variaci´ on de una variable X ≥ 0 se define como
cv(X) =
σ(X)
EX
.
Su rec´ıproca se conoce en Electr´onica como “relaci´on se˜ nal-ruido”.
Veamos algunas propiedades importantes de la varianza.
Transformaciones lineales
Para toda constante c
var(X +c) = var(X) (4.19)
y
var(cX) = c
2
var(X). (4.20)
52 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
La primera se prueba notando que si Y = X + c, es Y − EY = X − EX; la segunda es
inmediata. De ´esta sale que
σ(cX) = |c|σ(X).
Varianza nula
Otra propiedad ´ util es
var(X) = 0 ⇐⇒ P(X = c) = 1 para alguna constante c. (4.21)
Para probarlo, observemos que si P(X = c) = 1, es EX = c, y por lo tanto P(X−EX) = 0.
Al rev´es: si 0 = var(X) = E(X −EX)
2
, por (4.12) es P(X −EX = 0) = 1.
C´ alculo expl´ıcito
Para obtener expl´ıcitamente var(X), notemos que desarrollando el cuadrado en la definici´on
queda
var(X) = E{X
2
−2X(EX) + (EX)
2
} = E(X
2
) −2(EX)(EX) +(EX)
2
,
y en consecuencia
var(X) = E(X
2
) −(EX)
2
. (4.22)
Desigualdad de Chebychev
Si c > 0, es
P(|X −EX| ≥ c) ≤
var(X)
c
2
. (4.23)
Se prueba aplicando (4.11) a la variable (X −EX)
2
:
P(|X −EX| ≥ c) = P((X −EX)
2
≥ c
2
) ≤
E(X −EX)
2
c
2
.
Covarianza y correlaci´ on
Un elemento importante para describir la distribuci´on conjunta de dos variables es la
covarianza, que se define como
cov(X, Y ) = E{(X −EX)(Y −EY )}. (4.24)
En particular, var(X) = cov(X, X). Procediendo como en (4.22) se verifica f´acilmente que
cov(X, Y ) = E(XY ) −EX EY. (4.25)
De (4.9) es inmediato si X e Y son independientes, es cov(X, Y ) = 0. Pero la rec´ıproca
no es cierta (ejercicio 4.20). Si cov(X, Y ) = 0, se dice que X e Y son incorreladas o
incorrelacionadas.
4.3. VARIANZA Y DESVIACI
´
ON T´ıPICA 53
La correlaci´ on –o coeficiente de correlaci´on– de X, Y es
ρ = ρ(X, Y ) =
cov(X, Y )
σ(X)σ(Y )
.
Es una medida de dependencia lineal entre las variables, cuyo papel se ver´a en la secci´on
6.2.
Varianza de sumas de variables
Se prueba inmediatamente usando la definici´on de covarianza que
var(X +Y ) = E{(X −EX) + (Y −EY )}
2
= var(X) +var(Y ) +2 cov(X, Y ). (4.26)
Dado que
0 ≤ var

X
σ(X)
±
Y
σ(Y )

= 2 ±2ρ,
se deduce que
−1 ≤ ρ ≤ 1;
y por (4.21), ρ = ±1 cuando hay alguna combinaci´on lineal de X, Y que es constante con
probabilidad 1.
Del mismo modo se obtiene la varianza de cualquier combinaci´on lineal de variables:
var

n
¸
i=1
a
i
X
i

=
n
¸
i=1
a
2
i
var(X
i
) +2
n−1
¸
j=1
n
¸
i=j+1
a
i
a
j
cov(X
i
, X
j
). (4.27)
En particular, si X e Y son independientes, es
var(X ±Y ) = var(X) +var(Y ). (4.28)
Ejemplo 4.B: Media muestral Sean X
i
(i = 1, . . . , n) con la misma media µ y la
misma varianza σ
2
. Se define la media muestral de las X
i
como
¯
X =
1
n
n
¸
i=1
X
i
.
Es f´ acil probar que E
¯
X = µ, y que, si las X
i
son independientes, es
var(
¯
X) =
σ
2
n
. (4.29)
Ejemplo 4.C: El m´etodo de Monte Carlo Supongamos que se desee calcular la
integral de una funci´on: H =

b
a
h(x) dx, siendo h una funci´on tan complicada que los
54 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
m´etodos anal´ıticos o num´ericos usuales no pueden con ella. El siguiente m´etodo, llamado
m´etodo de Monte Carlo, brinda una aproximaci´on basada en la generaci´on de n´ umeros
pseudoaleatorios. Lo haremos para el caso a = 0, b = 1, al que se puede siempre reducir
el caso general.
Sean U
1
, . . . , U
n
variables independientes, todas Un(0, 1). La aproximaci´on ser´a
Y
n
=
1
n
n
¸
i=1
h(U
i
). (4.30)
De (4.3) sale que EY
n
= H. Como las h(U
i
) son independientes, resulta
var(Y
n
) =
v
n
,
donde
v = var(h(U
i
)) = Eh(U
i
)
2
−(Eh(U
i
))
2
=

1
0
h(x)
2
dx −H
2
=

1
0
(h(x) −H)
2
dx.
Dada una cota de error , la desigualdad de Chebychev implica que tomando n lo
bastante grande, se puede hacer P(|Y
n
− H| > ) tan peque˜ na como se quiera. En el
ejercicio 7.11 se ver´a una forma m´as eficiente de elegir el n.
Este m´etodo es realmente ´ util en el c´alculo de integrales de funciones de varias variables,
cuando el integrando y/o el recinto de integraci´on son complicados.
4.4 Varianzas de las distribuciones m´ as usuales
Indicadores
Como I
A
vale 1 ´o 0, es I
A
= I
2
A
, y (4.22) implica
var(I
A
) = E(I
2
A
) −(EI
A
)
2
= P(A)(1 −P(A)). (4.31)
Binomial
Tal como se hizo para probar (4.13), expresamos a X ∼ Bi(n, p), como X =
¸
n
i=1
X
i
, donde
X
i
= I
A
i
, siendo los eventos A
i
(i = 1, . . . , n) independientes, todos con probabilidad p.
La independencia de los eventos A
i
implica la de las variables X
i
, pues (por ejemplo) los
eventos {X
3
= 1} y {X
2
= 0} son independientes, ya que el primero es igual a A
3
y el
segundo a A

2
. Por lo tanto se deduce de (4.28) y (4.31) que
var(X) =
n
¸
i=1
var(X
i
) = np(1 −p). (4.32)
4.4. VARIANZAS DE LAS DISTRIBUCIONES M
´
AS USUALES 55
Normal
Mostraremos que var(X) = 1 si X ∼ N(0, 1). Ya hemos visto en (4.15) que EX = 0, y por
lo tanto, usando (4.3):
var(X) = EX
2
=


−∞
x
2
ϕ(x)dx.
Teniendo en cuenta que ϕ

(x) = −xϕ(x), e integrando por partes, resulta
var(X) =


−∞
x(xϕ(x))dx = −


−∞
xd(ϕ(x)) = −[xϕ(x)]

−∞
+


−∞
ϕ(x)dx = 0 +1.
Si Y ∼ N(µ, σ
2
), es Y = µ +σX con X ∼ N(0, 1) (ver (3.18)), y aplicando (4.19), (4.20) y
el resultado anterior, es
var(Y ) = σ
2
,
y por lo tanto el segundo par´ametro de la normal es la varianza.
Poisson
Se mostrar´a que
X ∼ Po(λ) =⇒var(X) = λ. (4.33)
Para ello hay que calcular EX
2
, lo que se har´a con el mismo truco que se us´o para (4.17):
EX
2
=

¸
k=1
k
2
e
−λ
λ
k
k!
= λe
−λ
g(λ),
donde
g(λ) =

¸
k=1

k−1
(k −1)!
=
d


¸
k=1
λ
k
(k −1)!
=
d

(λe
λ
) = e
λ
(1 +λ);
y por lo tanto EX
2
= λ(1 +λ), lo que combinado con (4.16) da el resultado.
Geom´etrica
Se probar´a que
var(X) =
1 −p
p
2
. (4.34)
Para ello se usar´a el mismo truco que en (4.17). Derivando dos veces la identidad

¸
k=1
(1 −p)
k−1
= p
−1
,
56 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
queda, tras algunas simplificaciones:
2
p
2
=

¸
k=1
(k +1)k (1 −p)
k−1
p
=

¸
k=1
k (1 −p)
k−1
p +

¸
k=1
k
2
(1 −p)
k−1
p = EX +EX
2
,
y como EX = 1/p, es EX
2
= 2/p
2
−1/p; y aplicando (4.22) se prueba el resultado.
Hipergeom´etrica
Se probar´a que
X ∼ Hi(N, M, n) =⇒var(X) = np(1 −p)

1 −
n −1
N −1

, (4.35)
donde p = M/N. Igual que para la media, expresamos X =
¸
n
i=1
X
i
, con X
i
= I
Ai
, donde
los A
i
son como en la deducci´on de (4.18). Como P(A
i
) = p, (4.31) implica var(X
i
) =
p(1 −p). Procediendo como en el Ejemplo 2.B, resulta que si i = j es
EX
i
X
j
= P(A
i
∩ A
j
) =
M(M −1)
N(N −1)
,
y por (4.25) es
cov(X
i
, X
j
) = −
p(1 −p)
N −1
.
Por lo tanto, aplicando (4.27) queda
var(X) = np(1 −p) −n(n −1)
p(1 −p)
N −1
,
de donde se obtiene el resultado.
Notemos que esta varianza se anula cuando n = N, cosa l´ogica, porque se muestrea
toda la poblaci´on; y que la diferencia entre la varianza de Hi(N, M, n) y la de Bi(n, p)
reside s´olo en el factor 1 −(n −1)/(N −1), que es pr´oxima a 1 cuando n es mucho menor
que N. Esto implica el resultado –sorprendente para muchos– de que si por ejemplo
n = 100, tanto da que N sea 10000 o un mill´on..
4.5 Otros par´ ametros
4.5.1 Cuantiles
Sea α ∈ (0, 1). Un cuantil-α de X es cualquier n´ umero x
α
tal que
P(X < x
α
) ≤ α y P(X > x
α
) ≤ 1 −α. (4.36)
4.5. OTROS PAR
´
AMETROS 57
Tambi´en se lo llama percentil de 100α% (o sea, el cuantil-0.30 es el percentil del 30%). El
cuantil siempre existe. Si F
X
es continua, x es un cuantil-α si y s´olo si
F
X
(x) = α. (4.37)
Notemos que si F
X
es discontinua, (4.37) no tiene siempre soluci´on; y por esto es mejor
tomar (4.36) como definici´on. Si F
X
es estrictamente creciente, los cuantiles son ´ unicos.
Pero si no, los valores que satisfacen (4.37) forman un intervalo. Si se desea una definici´on
un´ıvoca del cuantil, se podr´ıa tomarlo como el punto medio del intervalo; pero por el
momento ser´a m´as conveniente conservar esa ambig¨ uedad.
Los cuantiles correspondientes a α = 0.25, 0.50 y 0.75 son respectivamente el primer,
segundo y tercer cuartiles. El segundo cuartil es la mediana, que escribiremos med(X).
Una propiedad muy importante de los cuantiles es que si Y = h(X), donde la funci´on
h es creciente en la imagen de X, entonces y
α
= h(x
α
); por ejemplo, si X ≥ 0, y m es una
mediana de X, entonces m
2
es una mediana de X
2
(aqu´ı se v´e la conveniencia de haber
conservado la ambig¨ uedad, porque si se define el cuantil como el punto medio del intervalo,
lo anterior no es v´alido en general). Esta propiedad no es compartida por la media: por
ejemplo E(X
2
) = (EX)
2
.
Se verifica f´acilmente que si X es sim´etrica respecto de 0, es x
α
= −x
1−α
.
4.5.2 Par´ametros de posici´ on
Notemos primero que la media cumple, para toda constante c:
E(cX) = c EX y E(X +c) = EX +c. (4.38)
Todo par´ametro de una variable que cumpla (4.38) se llama par´ametro de posici´ on. La
media es sin duda el m´as famoso y el m´as usado de los par´ametros de posici´on, y el
motivo, adem´as de razones hist´oricas, es que es el ´ unico de estos par´ametros que cumple
(4.7) (”aditividad”), lo que lo hace muy sencillo de manejar. Sin embargo, hay otras
posibilidades,
La mediana es un par´ametro de posici´on: es f´acil verificar que cumple (4.38) (si no es
´ unica, (4.38) se toma en el sentido de que, si m es una mediana de X, entonces m +c es
una mediana de X +c).
Como “valor representativo”, la mediana puede ser mucho mejor que la media. Supon-
gamos por ejemplo un pa´ıs donde el 50% de los habitantes ganan menos de 100 piastras,
el 40% ganan entre 100 y 200 piastras, y el 10% ganan m´as de 10000. Entonces la media
del ingreso per capita es > 1000, pero la mediana es < 100. El motivo de esta diferencia
es que la media es muy sensible a valores extremos, cosa que no sucede con la mediana (en
la terminolog´ıa actual, ”la media no es robusta”).
Una forma de buscar un “valor representativo” ser´ıa buscar c tal que X −c fuera “lo
m´as peque˜ no posible”. Esto se puede tomar en distintos sentidos. Si se busca
E(X −c)
2
= m´ınimo, (4.39)
58 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
la soluci´on es c = EX como el lector puede f´acilmente verificar.
Si en cambio se busca
E|X −c| = m´ınimo, (4.40)
la soluci´on es c = med(X). Lo mostraremos para el caso en que X toma un conjunto finito
de valores x
i
con probabilidades p
i
. Notemos que la funci´on |x| es continua y tiene derivada
para x = 0, igual a la funci´on “signo”: d|x|/dx = sgn(x) = I(x > 0) −I(x < 0). La funci´on
a minimizar es h(c) =
¸
i
p
i
|x
i
−c|, que es continua, y por lo tanto para minimizarla basta
ver d´onde cambia de signo su derivada, la que existe salvo en los x
i
. Entonces
h

(c) =
¸
i
p
i
[I(c > x
i
) −I(c < x
i
)] = P(X < c) −P(X > c),
y esto se anula para c = med(X).
4.5.3 Par´ametros de dispersi´ on
La desviaci´on t´ıpica cumple para toda constante c
σ(cX) = |c|σ(X) y σ(X +c) = σ(X). (4.41)
Todo par´ametro que cumple (4.41) es un par´ametro de dispersi´ on.
La desviaci´on t´ıpica es el m´as usado de los par´ametros de dispersi´on, entre otras cosas
porque, como se vio en (4.26), hay formas relativamente manejables de calcular σ(X+Y ).
Sin embargo, hay otras alternativas. Por ejemplo, la desviaci´ on absoluta, definida como
da(X) = E|X −EX|
Se define la distancia intercuartiles como dic(X) = x
0.75
−x
0.25
. Se comprueba enseguida
que es un par´ametro de dispersi´on. Por supuesto, uno podr´ıa definir otros par´ametros de
dispersi´on de la misma manera, como por ejemplo x
0.9
−x
0.1
.
Otra medida de dispersi´on basada en cuantiles es la desviaci´ on mediana, definida como
dm(X) = med(|X −med(X)|).
N´otese que las distintas medidas de dispersi´on miden distintas cosas, y por lo tanto
no son comparables entre s´ı directamente. Por ejemplo, para X ∼ N(µ, σ
2
) se verifica
f´acilmente que
dic(X) = σ(Φ
−1
(0.75) −Φ
−1
(0.25)) = 2dm(X) ≈ 0.675 σ.
Por supuesto, una distribuci´on con una densidad en forma de “U”, o una como la
del ejercicio 3.6, no puede ser bien descripta por ninguna combinaci´on de par´ametros de
posici´on y dispersi´on.
4.6. EJERCICIOS 59
4.5.4 Asimetr´ıa
Otro concepto ´ util para describir una distribuci´on es el de asimetr´ıa. Se desea medir cu´anto
se aparta la forma de una distribuci´on de la simetr´ıa. El m´as famoso es el cl´asico coeficiente
de asimetr´ıa de Pearson, definido a principios de siglo como
γ(X) =
E(X −EX)
3
σ(X)
3
.
Es f´ acil ver que, si D(X) es sim´etrica, entonces γ = 0, aunque la rec´ıproca no es cierta; y
que γ(a + bX) = γ(X). Por otra parte, γ puede tomar cualquier valor entre −∞ y +∞.
No parece f´acil interpretar el significado de γ.
Una medida tal vez m´as interpretable est´a basada en cuantiles: la idea es que si la
distribuci´on fuera sim´etrica, y los cuantiles ´ unicos, deber´ıa ser x
0.75
−x
0.50
= x
0.50
−x
0.25
.
Para que resulte un par´ametro “adimensional” se divide por la distancia intercuartiles, y
queda como definici´on:
asm(X) =
x
0.75
−2x
0.50
+x
0.25
x
0.75
−x
0.25
. (4.42)
Es f´ acil verificar que si D(X) es sim´etrica, es asm(X) = 0, pero la rec´ıproca no vale.
Adem´as asm(X) ∈ [−1, 1]. Si a(X) > 0, es x
0.75
−x
0.50
> x
0.50
−x
0.25
. Esta idea hace a
este par´ametro m´as f´acilmente interpretrable.
4.5.5 Momentos
En general, se llama momento de orden k de X (o de D(X)) a EX
k
(si existe, natural-
mente), y momento centrado de orden k a E(X − EX)
k
, de modo que la varianza es el
momento centrado de orden 2. El papel de los momentos en Estad´ıstica se ver´a en el
Cap´ıtulo 9.
4.6 Ejercicios
4.1 Probar la existencia de E|X|
k
para X ∼ N(0, 1) y k > 0 [pruebe que |x|
k
< e
x
2
/2
para x fuera de un intervalo].
4.2 Determinar si existen las medias de las siguientes distribuciones:
a. de Cauchy (ver ejercicio 3.2)
b. la calculada en el ejercicio 3.10.
4.3 a. Sea T el n´ umero de intentos que necesita el se˜ nor del ejercicio 1.12 para abrir
la puerta. Calcule ET.
b. Supongamos que dicho se˜ nor est´a totalmente borracho y en cada intento vuelve
a elegir una llave al azar de entre las n. Calcule ET y compare con el resultado
anterior. Puede extraer conclusiones sobre los beneficios de la sobriedad.
60 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
4.4 Calcular la media y la varianza de las distribuciones:
a. Un(a, b) [h´agalo primero para a = 0, b = 1 y aproveche el ejercicio 3.13]
b. Ex(α)
c. lognormal (ejercicio 3.9).
4.5 Calcular EX
4
para X ∼ N(0, 1) [usar ϕ

(x) = −xϕ(x)].
4.6 Calcular E{1/(1 +X)} para X ∼ Po(λ).
4.7 Si X ∼ Ga(α, β): ¿Para qu´e valores de k existe E1/X
k
?.
4.8 Sea T el instante del m-´esimo suceso en un proceso de Poisson.
a. Calcular media y varianza de 1/T [usar (3.13].
b. Verificar que E(1/T) > 1/ET.
4.9 Probar que si X ≥ 0, es EX =


0
(1 − F(x)) dx si X es continua, y EX =
¸
x
(1 −F(x)) si es discreta con valores enteros.
4.10 Calcular media y varianza de la posici´on respecto del punto de partida del borracho
del ejercicio 2.12 despu´es de caminar n cuadras.
4.11 Calcular media y varianza de la binomial negativa, usando el ejercicio 3.27.
4.12 En una fiesta hay n matrimonios. Despu´es de una descomunal borrachera, cada
caballero se marcha con una dama elegida totalmente al azar. Calcular el valor
medio de la cantidad de se˜ nores que se despertar´an junto a su leg´ıtima esposa.
4.13 Se tienen 6 cajas, cada una con 10 pastillas; la caja i-´esima tiene i pastillas de menta
y 10 −i de an´ıs. De cada caja se extrae una pastilla al azar. Sea X la cantidad de
psstillas de menta extra´ıdas. Calcular EX y var(X).
4.14 Una lista contiene n elementos, cuyas probabilidades de ser requeridos son p
1
, . . . , p
n
.
Cuando se requiere uno, la lista es recorrida en un orden prefijado hasta que aparece
el buscado. Proponga un m´etodo de b´ usqueda que minimice la media de la cantidad
de elementos que deben ser consultados.
4.15 Se desea calcular la integral H =

1
0
x
2
dx por el m´etodo de Monte Carlo (4.30).
a. Hallar un n que asegure que los tres primeros d´ıgitos sean correctos, con proba-
bilidad > 0.999.
b. Si dispone de una computadora, vea lo que da el m´etodo. [contin´ ua en el ejercicio
7.11].
4.16 Calcular media y varianza de la estatura de un individuo elegido al azar de la
poblaci´on del ejercicio 3.6.
4.6. EJERCICIOS 61
4.17 En el ejemplo 3.C, sea G la exponencial con media 1000 horas, y sea h = 1500 horas.
Calcular la media del tiempo hasta el reemplazo.
4.18 En la situaci´on del ejercicio 3.7, comparar la media real de las longitudes con la media
que obtiene el bi´ologo.
4.19 X e Y son independientes, ambas Un(1, 2). Calcular E(X/Y ) y comparar con
EX/EY .
4.20 Sea Y = X
2
donde X es N(0, 1). Probar que X e Y son incorreladas pero no
independientes.
4.21 Calcular la covarianza de las variables del ejercicio 3.25.
4.22 Calcular mediana, distancia intercuartiles, desviaci´on absoluta, desviaci´on mediana
y asimetr´ıa (asm) de las distribuciones: (a) normal (b) exponencial (c) lognormal
(d) Weibull.
4.23 Sea X una variable con densidad f, y sea X
n
igual a X truncada al n-´esimo d´ıgito.
Probar que EX
n
→ EX cuando n → ∞ [tenga en cuenta que X
n
es discreta y X
continua].
62 CAP´ıTULO 4. VALOR MEDIO Y OTROS PAR
´
AMETROS
Cap´ıtulo 5
Transformaciones de Variables
Aleatorias
En la primera parte de este cap´ıtulo veremos c´omo calcular la distribuci´on de una variable
Z = u(X, Y ) –donde u es una funci´on de R
2
→R– conociendo D(X, Y ).
5.1 Suma de variables
Trataremos primero un caso simple pero importante, en el cual se pueden ver las ideas a
aplicar en otros casos: la distribuci´on de Z = X +Y . Haremos la consabida divisi´on entre
los casos discreto y continuo.
Caso discreto:
Sean X e Y variables con valores enteros. Entonces (tomando x, y, z enteros)
{Z = z} =
¸
x
{X = x ∩ Y = z −x}
y como los eventos de la uni´on son disjuntos, es
P(Z = z) =
¸
x
p
XY
(x, z −x). (5.1)
Si X e Y son independientes resulta
P(Z = z) =
¸
x
p
X
(x)p
Y
(z −x). (5.2)
63
64 CAP´ıTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS
Si X e Y son ≥ 0, (5.1) se reduce a
P(Z = z) =
z
¸
x=0
p
XY
(x, z −x), (5.3)
y lo mismo vale para (5.2).
Caso continuo:
Para calcular D(Z) comenzamos por su funci´on de distribuci´on:
F
Z
(z) = P(Z ≤ z) = EI(X +Y ≤ z) (5.4)
=


−∞


−∞
f
XY
(x, y) I(x +y ≤ z) dxdy =


−∞

z−x
−∞
f
XY
(x, y) dydx; (5.5)
y derivando respecto de z se tiene
f
Z
(z) =


−∞
f
XY
(x, z −x) dx. (5.6)
Si X e Y son independientes, queda
f
Z
(z) =


−∞
f
X
(x)f
Y
(z −x) dx. (5.7)
Si X e Y son ≥ 0, las integrales anteriores son entre 0 y z. N´otese la similitud entre
(5.2) y (5.7). Expresiones de esta forma se llaman convoluci´ on de dos sucesiones o de dos
funciones, y aparecen frecuentemente en An´alisis. Si en vez de la distribuci´on de Y +X se
desea la de Y −X, hay que reemplazar z −x por z +x en todas las f´ormulas anteriores.
5.1.1 Suma de variables Gama
Si X ∼ Ga(α, β) e Y ∼ Ga(α, γ) independientes, se mostrar´a que X +Y ∼ Ga(α, β +γ).
Sean f, g y h las densidades de X, Y y X +Y respectivamente. Entonces: es
f(x) = c
1
e
−x/α
x
β−1
I(x ≥ 0), g(y) = c
2
e
−y/α
y
γ−1
I(y ≥ 0),
donde c
1
y c
2
son constantes. Por (5.7) es para y ≥ 0
h(y) = c
1
c
2
e
−y/α


0
(y −x)
γ−1
x
β−1
I(y −x ≥ 0)dx;
y haciendo en la integral el cambio de variable t = x/y queda
h(y) = c
1
c
2
e
−y/α
y
β+γ−1

1
0
(1 −t)
γ−1
t
β−1
dt.
Pero esta ´ ultima integral es tambi´en una constante, de modo que h(y) es tambi´en de la
forma Gama.
5.1. SUMA DE VARIABLES 65
5.1.2 Suma de normales
Como aplicaci´on importante de (5.7), se probar´a que la suma de dos normales indepen-
dientes es normal. Sean X e Y independientes, normales, con varianzas respectivamente
σ
2
y τ
2
; obviamente nos podemos limitar al caso en que ambas tienen media 0. Si la
distribuci´on de Z = X+Y es normal, debe ser N(0, γ
2
) donde γ
2
= σ
2

2
. Luego, probar
la normalidad de Z equivale, seg´ un (5.7), a probar
c exp


z
2

2

=


−∞
exp
¸

1
2

x
2
σ
2
+
(z −x)
2
τ
2

dx,
donde, para simplificar la notaci´on, se pone “exp(t)” en vez de “e
t
”; y c es una constante:
c = 2πστ/(

2πγ). Multiplicando ambos miembros por exp(z
2
/2γ
2
), resulta que hay que
probar que la integral


−∞
exp


1
2
¸
z
2
(
1
τ
2

1
γ
2
) +x
2
(
1
τ
2
+
1
σ
2
) −
2xz
τ
2
¸
dx
es una constante (no depende de z). Para ello, basta verificar que el polinomio dentro del
corchete en la “exp” es
z
2
σ
2
τ
2
γ
2
+
x
2
γ
2
τ
2
σ
2
−2
xz
τ
2
=
1
τ
2


γ


σ

2
,
y por lo tanto haciendo en la integral el cambio de variable t = zσ/γ − xγ/σ, queda


−∞
exp(−t
2
/2τ
2
)dt, que no depende de z. Que es lo que quer´ıase demostrar.
En consecuencia, si X
1
, . . . , X
n
son N(0, 1) independientes, es
D(X
1
+. . . +X
n
) = D(

nX
1
). (5.8)
5.1.3 Combinaciones lineales de variables Cauchy
Sean X, Y independientes, ambas con distribuci´on de Cauchy; o sea, con densidad
f(x) =
1
π(1 +x
2
)
.
Sea Z = aX+bY donde a y b son constantes. Se probar´a que D(Z) es de la misma forma.
Usando (5.7), es
f
Z
(z) =
|a||b|
π
2


−∞
1
(a
2
+x
2
)(b
2
+ (z −x)
2
)
dx.
Desempolvando los m´etodos para integrar funciones racionales, se llega tras una cuenta
tediosa y prescindible a
f
Z
(z) =
1
πc
1
1 + (z/c)
2
,
66 CAP´ıTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS
donde c = |a| +|b|. O sea que D(aX +bY ) = D((|a| +|b|) X). Aplic´andolo a una suma de
independientes Cauchy, sale
D(X
1
+. . . +X
n
) = D(nX
1
). (5.9)
Note la diferencia con el caso normal (5.8).
5.2 Otras funciones
5.2.1 Distribuci´ on del cociente
Calcularemos la distribuci´on de Z = X/Y , suponiendo D(X, Y ) continua con densidad f.
Aplicando (3.28) tenemos:
F
Z
(z) = P(X ≤ zY ∩ Y > 0) +P(X ≥ zY ∩ Y < 0)
=


−∞


−∞
f(x, y) I(x ≤ zy ∩ y > 0) dxdy
+


−∞


−∞
f(x, y) I(x ≥ zy ∩ y < 0) dxdy
=


0

zy
−∞
f(x, y) dxdy +

0
−∞


zy
f(x, y) dxdy; (5.10)
y derivando respecto de z:
f
Z
(z) =


0
yf(zy, y) dy +

0
−∞
(−y)f(zy, y) dy =


−∞
|y| f(zy, y) dy. (5.11)
La distribuci´on del producto se deduce con el mismo m´etodo.
5.2.2 Distribuciones del m´aximo y el m´ınimo
Si Z = m´ax(X, Y ), es
F
Z
(z) = P(X ≤ z ∩ Y ≤ z) = F
X,Y
(z, z).
En particular, si X, Y son independientes, es F
Z
(z) = F
X
(z)F
Y
(z).
Cuando X e Y tienen la misma distribuci´on G, es tentador pensar, como en el Ejemplo
3.D, que “como Z es igual a X o a Y , su distribuci´om debiera ser G”. El error de este
razonamiento estriba en que cu´ al de las dos es, depende de sus valores.
Del mismo modo, sea Z = m´ın(X, Y ), y supongamos para simplificar que X, Y son
independientes con distribuciones continuas. Entonces
1 −F
Z
(z) = P(X > z ∩ Y > z) = (1 −F
X
(z))(1 −F
Y
(z));
y de aqu´ı se obtienen F
Z
y f
Z
. La distribuci´on conjunta del m´aximo y el m´ınimo se calcula
combinando ambas ideas (ejercicio 5.11).
5.3. DISTRIBUCI
´
ON DE TRANSFORMACIONES DE VARIABLES 67
5.3 Distribuci´ on de transformaciones de variables
5.3.1 Un m´etodo general
Ahora trataremos una situaci´on m´as semejante a la de la secci´on 3.2. Sean X
1
y X
2
dos
variables, g
1
y g
2
dos funciones de R
2
→ R, e Y
1
= g
1
(X
1
, X
2
), Y
2
= g
2
(X
1
, X
2
). Se
quiere calcular D(Y
1
, Y
2
) conociendo D(X
1
, X
2
). Para simplificar la notaci´on sean X =
(X
1
, X
2
), Y = (Y
1
, Y
2
), que podemos considerar como variables aleatorias con valores en
R
2
; y g(x
1
, x
2
) = (g
1
(x
1
, x
2
), g
2
(x
1
, x
2
)), funci´on de R
2
→R
2
; de manera que Y = g(X).
Hay un caso en el que existe un procedimiento general. Supongamos que X tiene
densidad conjunta f
X
, y que g es inyectiva y diferenciable en la imagen de X, de modo
que existe la inversa g
−1
. Para x = (x
1
, x
2
) ∈ R
2
, sea J(x) el jacobiano de g; o sea, el
determinante

∂g
1
/∂x
1
∂g
1
/∂x
2
∂g
2
/∂x
1
∂g
2
/∂x
2

.
Sea K(y) el jacobiano de g
−1
, que cumple K(y) = 1/J(g
−1
(y)). Se probar´a que la
densidad de Y es
f
Y
(y) = f
X
(g
−1
(y)) |K(y)|. (5.12)
Notemos que esta f´ormula es an´aloga a (3.16) para el caso univariado, con el jacobiano en
vez de la derivada.
Para demostrar (5.12), sea A ⊆ R
2
. Entonces por la propiedad (3.28) es
P(Y ∈ A) = P(g(X) ∈ A) =

f
X
(x) I
B
(x) dx,
donde B = {x : g(x) ∈ A} y dx = dx
1
dx
2
.
Teniendo en cuenta que I
B
(x) = I
A
(g(x)), y luego haciendo el “cambio de variable”
y = g(x), dx = |K(y)|dy, resulta
P(Y ∈ A) =

f
X
(x) I
A
(g(x)) dx =

f
X
(g
−1
(y)) |K(y)| I
A
(y) dy;
y por lo tanto el segundo miembro de (5.12) es la densidad de Y, pues verifica (3.28).
Ejemplo 5.A: Falta de memoria del proceso de Poisson En el Ejemplo 3.J, sea
U = T − S el tiempo de espera entre el primer y el segundo suceso. Mostraremos que
S y U son independientes, con la misma distribuci´on exponencial; de modo que –como
es de esperar intuitivamente– despu´es del primer suceso es “como si empezara todo de
nuevo”.
Para calcular su densidad, notemos que (S, U) es una transformaci´on lineal de (S, T),
cuyo jacobiano es 1, de manera que la aplicaci´on de (5.12) a la densidad de (S, T) da
f
S,U
(s, u) = c
2
e
−cs
e
−cu
,
y por lo tanto S y U son independientes con distribuci´on Ex(1/c).
En general, si llamamos T
k
al instante del suceso k-´esimo, se prueba de la misma manera
que (definiendo T
0
= 0) las variables T
k
−T
k−1
(k = 1, 2, . . .) son Ex(1/c) independientes.
68 CAP´ıTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS
5.3.2 Aplicaci´ on: normales en coordenadas polares
Sean X
1
, X
2
independientes, ambas N(0, 1). Sean (R, Θ) las coordenadas polares de
(X
1
, X
2
) (con Θ ∈ [0, 2π)). Se probar´a que R y Θ son independientes, que Θ ∼ Un[0, 2π),
y que R
2
∼ Ex(2).
Sea x = (x
1
, x
2
) con coordenadas polares (r, θ), o sea
r
2
= x
2
1
+x
2
2
, θ = arctan(x
2
/x
1
).
Como X
1
y X
2
son independientes, es
f
X
(x) = f
X1
(x
1
)f
X2
(x
2
) =
1

e
−x
2
1
/2
e
−x
2
2
/2
=
1

e
−r
2
/2
.
Sea Y = (R, Θ) = g(X) donde X = (X
1
, X
2
). Entonces la funci´on inversa X = g
−1
(Y)
est´a dada por: X
1
= R cos Θ, X
2
= RsenΘ, cuyo jacobiano es K(R, Θ) = R; y en
consecuencia
f
Y
(r, θ) =
1

e
−r
2
/2
r I(r ≥ 0) I(θ ∈ [0, 2π)).
Por lo tanto f
Y
(r, θ) es producto de una funci´on de r por una de θ, lo que implica que R
y Θ son independientes; la densidad de Θ es (2π)
−1
I(θ ∈ [0, 2π)), lo que implica que Θ es
uniforme; y la densidad de R es
f
R
(r) = re
−r
2
/2
I(r ≥ 0).
Aplicando (3.16) se deduce que si S = R
2
:
f
S
(s) =
f
R
(s
−1/2
)
2s
1/2
=
1
2
e
−s/2
,
y por lo tanto R
2
∼ Ex(2).
Aplicaci´ on a simulaci´ on
El resultado (5.3.2) se puede usar para generar variables normales sin necesidad de calcular
la inversa de la funci´on de distribuci´on. La idea es recorrer el camino inverso. Sean
U
1
, U
2
independientes, ambas Un(0, 1). Aplicamos a la primera una transformaci´on para
convertirla en Un(0, 2π), y a la segunda otra para convertirla en Ex(2), y eso da Θ y R
2
.
O sea, definimos Θ = 2πU
1
y R = (−2 lnU
2
)
1/2
, y luego X
1
= R cos Θ y X
2
= RsenΘ. Y
esto da dos variables independientes N(0, 1). Este es el m´etodo de Box-M¨ uller [15].
5.4 La distribuci´ on normal bivariada
En esta secci´on definiremos el an´alogo de la distribuci´on normal para dos variables. Primero
vamos a deducir la forma de la distribuci´on conjunta de transformaciones lineales de nor-
males independientes. Sean X
1
, X
2
∼ N(0, 1), independientes. Consideremos una tranfor-
maci´on lineal no singular:
Y
1
= a
1
X
1
+a
2
X
2
, Y
2
= b
1
X
1
+b
2
X
2
, (5.13)
5.4. LA DISTRIBUCI
´
ON NORMAL BIVARIADA 69
con
a
1
b
2
−a
2
b
1
= 0. (5.14)
Sean σ
2
1
, σ
2
2
las varianzas de Y
1
e Y
2
, c su covarianza, y ρ su correlaci´on. Entonces se deduce
de (5.13) que
EY
1
= EY
2
= 0, σ
2
1
= a
2
1
+a
2
2
, σ
2
2
= b
2
1
+b
2
2
, c = a
1
b
1
+a
2
b
2
. (5.15)
Vamos a mostrar que la densidad conjunta de (Y
1
, Y
2
) es
f(y
1
, y
2
) =
1
2πσ
1
σ
2

1 −ρ
2
exp
¸

1
2(1 −ρ
2
)

y
2
1
σ
2
1
+
y
2
2
σ
2
2
−2ρ
y
1
y
2
σ
1
σ
2

. (5.16)
Se calcular´a D(Y
1
, Y
2
) aplicando (5.12) con
g(x) = (a
1
x
1
+a
2
x
2
, b
1
x
1
+b
2
x
2
).
Notemos primero que el jacobiano es constante: J = a
1
b
2
−a
2
b
1
, que se supone = 0 por
(5.14). La funci´on inversa se calcula expl´ıcitamente resolviendo un sistema de dos por dos,
obteniendo:
g
−1
(y) =
1
J
(b
2
y
1
−a
2
y
2
, −b
1
y
1
+a
1
y
2
). (5.17)
Recordando que f
X
(x) = (2π)
−1
exp(−x
2
/2) –donde x =

x
2
1
+x
2
2
es la norma
eucl´ıdea– resulta
f
Y
(g
−1
(y)) =
1

exp


g
−1
(y)
2
2

.
De (5.17) y (5.15) se obtiene
g
−1
(Y)
2
=
1
J
2

2
2
y
2
1

2
1
y
2
2
−2y
1
y
2
c).
Es f´acil verificar que J
2
= σ
2
1
σ
2
2
(1−ρ
2
), y reemplazando esto en la f´ormula anterior, queda
probada (5.16).
Esto motiva la siguiente
Definici´ on 5.1 La distribuci´ on normal bivariada centrada en el origen, con varianzas σ
2
1
y σ
2
2
y correlaci´ on ρ, es la que tiene densidad (5.16). La normal bivariada con dichos
par´ ametros y medias µ
1
, µ
2
est´ a dada por la densidad f(y
1
−µ
1
, y
2
−µ
2
).
La caracterizaci´on m´as importante de esta distribuci´on est´a dada por el siguiente
Teorema 5.2 La distribuci´ on conjunta de (Y
1
, Y
2
) es normal bivariada si y s´ olo si ambas
son combinaciones lineales de dos variables independientes, X
1
, X
2
, ambas N(0, 1).
70 CAP´ıTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS
Demostraci´ on: El c´alculo que llev´o a (5.16) prueba el “si”. El “s´olo si” se prueba reco-
rriendo el camino inverso.
Las marginales de la normal bivariada son normales. Esto se podr´ıa deducir directa-
mente aplicando la Proposici´on 3.8 a (5.16), pero sale m´as f´acilmente teniendo en cuenta
que, por el Teorema 5.2, Y
1
es combinaci´on lineal de dos normales independientes, que es
normal como se vio en la Secci´on 5.1.2.
La implicaci´on inversa no es cierta: una distribuci´on puede tener marginales normales,
sin ser normal bivariada (ejercicio 5.17).
5.5 Ejercicios
Secci´ on 5.1
5.1 X e Y son independientes, con distribuciones Bi(m, p) y Bi(n, p). Calcular la dis-
tribuci´on de X +Y [¡no hace falta ninguna cuenta!].
5.2 Calcular la densidad de Z = X −Y donde X e Y son Ex(1), independientes (esta es
la distribuci´ on doble exponencial); y la de |Z|.
5.3 Sea Z = X +Y donde X e Y son independientes, con distribuciones Po(λ) y Po(µ).
Probar que Z ∼ Po(λ +µ).
5.4 X e Y son independientes; la primera tiene distribuci´on continua y la segunda dis-
creta. Mostrar que D(X +Y ) es continua y hallar su densidad.
Secci´ on 5.2
5.5 Probar que si X e Y son N(0, 1) independientes, entonces X/Y tiene distribuci´on de
Cauchy.
5.6 X e Y son independientes con densidades f y g, respectivamente. Calcular la densi-
dad de XY .
5.7 A partir del instante t = 0 se prueba un lote de 100 l´amparas. La duraci´on de cada
una es una variable con distribuci´on exponencial con media 1000 horas. Se las puede
suponer independientes. Sea T el instante en el que se quema la primera l´ampara.
Calcular ET.
5.8 Las variables X
i
(i = 1, . . . , n) son Un(0, 1) independientes. Sea Y = m´ax{X
1
, ..., X
n
}.
Calcular EY .
5.9 Un circuito contiene 10 transistores, cuyos tiempos de duraci´on (en horas) pueden
considerarse como variables independientes, todas con distribuci´on We(1000, 2). Para
que el circuito funcione hacen falta todos los transistores. Hallar la mediana de la
vida ´ util del circuito.
5.5. EJERCICIOS 71
5.10 Una parte de un sistema de control autom´atico est´a, para mayor seguridad, duplicada:
cada uno de los dos circuitos que la componen tiene una vida ´ util con distribuci´on
Ex(2000) (horas), que se pueden considerar independientes; basta cualquiera de los
dos para que el sistema funcione. Hallar la media de la duraci´on del sistema.
5.11 Para X, Y ∼ Un(0, 1) independientes, calcular la densidad conjunta de U = m´ın(X, Y )
y V = m´ax(X, Y ) [sugerencia: calcular P(u < U < V < v)].
5.12 Para las variables del ejercicio 5.11:
a. Calcular P(X = V )
b. Calcular la funci´on de distribuci´on conjunta de X, V . ¿Tiene densidad?.
Secci´ on 5.3
5.13 X e Y son independientes, ambas Ex(1). Sea Z = X +Y .
a. Calcular la densidad conjunta de (X, Z), y obtener de ella la marginal de Z.
b. Calcular D(Z/m´ın(X, Y )).
5.14 La variable bidimensional (X, Y ) tiene distribuci´on uniforme en el disco de centro
en el origen y radio 1. Sean (R, Θ) las coordenadas polares de (X, Y ). Calcular
la densidad conjunta de (R, Θ), y las respectivas marginales. ¿Son R y Θ indepen-
dientes? [se puede hacer directamente: basta con representar en el plano la regi´on
{(r, θ) : r ≤ r
0
, 0 ≤ θ ≤ θ
0
} y calcular su probabilidad].
5.15 Las coordenadas del vector velocidad de una mol´ecula de un gas se pueden considerar
como tres variables V
1
, V
2
, V
3
∼ N(0, σ
2
) independientes. Sean R, Θ, Ψ las coorde-
nadas esf´ericas de (V
1
, V
2
, V
3
) con R ≥ 0, Θ ∈ [0, 2π), Ψ ∈ [−π/2, π/2). Probar
que R, Θ, Ψ son independientes, y hallar la densidad de R (llamada distribuci´ on de
Rayleigh).
Secci´ on 5.4
5.16 Si D(X, Y ) es normal bivariada, X e Y son independientes si y s´olo si su correlaci´on
es nula. [Para el “si’, aplicar (3.35)].
5.17 *Sean f
1
y f
2
densidades normales bivariadas, ambas con medias 0 y varianzas 1,
y con coeficientes de correlaci´on 0.5 y -0.5 respectivamente. Sea f = (f
1
+ f
2
)/2.
Probar que las marginales de f son normales, pero f no es normal bivariada.
æ
72 CAP´ıTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS
Cap´ıtulo 6
Distribuciones Condicionales y
Predicci´ on
“En nueve casos de diez –dijo Holmes– puede de-
ducirse la estatura de un hombre por la largura de
sus pasos. Se trata de un c´ alculo bastante sencillo,
aunque no tiene objeto, Watson, el molestarle a usted
con n´ umeros.”
A. Conan Doyle, “ Estudio en Escarlata”
6.1 Distribuciones condicionales
Sean X e Y dos variables definidas en el mismo Ω. ¿ Qu´e informaci´on aporta X respecto
de Y ?. Por ejemplo: si disponemos de un modelo para la distribuci´on conjunta de la
temperatura m´axima de hoy con la de ma˜ nana, este an´alisis nos permitir´ıa usar la primera
para obtener una predicci´on de la segunda. El instrumento adecuado es el concepto de
distribuci´ on condicional.
Caso discreto
Si D(X) es discreta, sea C = {x : P(X = x) > 0}. Para cada x ∈ C la funci´on de
y: P(Y ≤ y|X = x) es una funci´on de distribuci´on, que define la llamada distribuci´ on
condicional de Y dado X = x, la que se denota D(Y |X = x). Note que para esta definici´on
s´olo hace falta que X sea discreta: la Y puede ser cualquiera.
Si adem´as la conjunta D(X, Y ) es discreta, la distribuci´on condicional est´a dada por la
funci´ on de frecuencia condicional p
Y |X
:
p
Y |X
(y; x) = P(Y = y|X = x) =
p
XY
(x, y)
p
X
(x)
. (6.1)
73
74 CAP´ıTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCI
´
ON
Para cada x ∈ C se cumple
p
Y |X
(y; x) ≥ 0 y
¸
y
p
Y |X
(y|x) = 1.
Ejemplo 6.A: Bernouilli Sean S e T los n´ umeros de los intentos correspondientes al
primer y al segundo ´exito en un esquema de Bernouilli con probabilidad p. Calcularemos
D(S|T). Ya se vio en (2.16) que P(T = t) = (t −1)p
2
(1 −p)
t−2
. La conjunta es:
P(S = s ∩ T = t) = (1 −p)
s−1
p (1 −p)
t−s−1
p I(t > s ≥ 0) = p
2
(1 −p)
t−2
I(t > s ≥ 0).
Por lo tanto
P(S = s|T = t) =
1
t −1
I(0 ≤ s ≤ t −1);
de modo que D(S|T = t) es uniforme entre 0 y t −1. Intuitivamente: saber que el segundo
´exito ocurri´o en el t-´esimo intento, no da ninguna informaci´on sobre cu´ando ocurri´o el
primero.
Caso continuo
Si X es continua, no se puede repetir exactamente el mismo camino que para el caso
discreto, ya que P(X = x) = 0 para todo x. Supongamos que D(X, Y ) es continua, y sea
C = {x : f
X
(x) > 0}. Para todo x ∈ C se define la densidad condicional de Y dado X = x
como
f
Y |X
(y; x) =
f
XY
(x, y)
f
X
(x)
. (6.2)
Para cada x ∈ C esta es una densidad (como funci´on de y) ya que

f
Y |X
(y|x)dy = 1 y
f ≥ 0; y define entonces una distribuci´on (la distribuci´ on condicional de Y dado X = x).
La correspondiente funci´on de distribuci´on es la funci´ on de distribuci´ on condicional:
F
Y |X
(y; x) =

y
−∞
f
Y |X
(t; x)dt.
La motivaci´on de (6.2) se encuentra condicionando, no respecto al evento {X = x} que
tiene probabilidad nula, sino al {x − δ ≤ X ≤ x + δ} donde δ → 0 (o sea, tomando un
“intervalito”). Entonces la distribuci´on de Y condicional a este evento es (definiendo para
simplificar la notaci´on, el intervalo J = [x −δ, x +δ]):
P(Y ≤ y|X ∈ J) =

J
du

y
−∞
f
XY
(u, v)dv

J
f
X
(u)du
.
Cuando δ →0, se cumple (al menos si f
XY
es continua) que
1

J
f
X
(u)du →f
X
(x),
6.1. DISTRIBUCIONES CONDICIONALES 75
y
1

J
du

y
−∞
f
XY
(u, v)dv →

y
−∞
f
XY
(x, v) dv.
Por lo tanto
P(Y ≤ y|X ∈ J) →F
Y |X
(y; x).
Ejemplo 6.B: Normal Si D(X, Y ) es normal bivariada, veremos que D(Y |X) es
normal. M´as exactamente,
D(Y |X = x) = N

µ
Y
+
(x −µ
X
)c
σ
2
X
, σ
2
Y
(1 −ρ
2
)

, (6.3)
donde µ
X
y µ
Y
son las medias, σ
2
X
y σ
2
Y
las varianzas, y c la covarianza de X e Y . Lo
probaremos para el caso µ
X
= µ
Y
= 0; de ´este sale f´acilmente el caso general.
Por (6.2) y (5.16) es
f
Y |X
(y; x) =
f
XY
(x, y)
f
X
(x)
=
1

2π(1 −ρ
2

Y
exp


1
2
q(x, y)

,
donde
q(x, y) =
1
1 −ρ
2

x
2
σ
2
X
+
y
2
σ
2
Y
−2ρ
xy
σ
X
σ
Y


x
2
σ
2
X
.
Y con un poco de paciencia, se verifica que
q(x, y) =
1
σ
2
Y
(1 −ρ
2
)

y −
ρσ
Y
σ
X
x

2
.
La media (cuando existe) de D(Y |X = x) se llama media condicional de Y dado X = x,
que para los casos discreto y continuo es, respectivamente
E(Y |X = x) =
¸
y
y p
Y |X
(y; x), (6.4)
E(Y |X = x) =


−∞
yf
Y |X
(y; x)dy =


−∞
y f
XY
(x, y) dy
f
X
(x)
; (6.5)
y tiene para cada x ∈ C las propiedades de la media dadas en la secci´on 4.1.
La varianza correspondiente a D(Y |X = x) es la varianza condicional, que se indicar´a
con var(Y |X = x). An´alogamente, la corespondiente mediana es la mediana condicional,
que se escribe med(Y |X = x).
Para la normal bivariada, sale de (6.3) que
E(Y |X = x) = µ
Y
+
(x −µ
X
)c
σ
2
X
76 CAP´ıTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCI
´
ON
y
var(Y |X = x) = σ
2
Y
(1 −ρ
2
).
En algunos textos se usa la expresi´on “variable condicional”, que es incorrecta, ya que la
variable es la misma, y s´olo cambia la manera de definir las probabilidades correspondientes
a su distribuci´on.
Si g(x) = E(Y |X = x), la variable g(X) se denotar´a “E(Y |X)”; de manera que la media
condicional se puede considerar ya sea como una funci´on num´erica o como una variable
aleatoria, seg´ un el caso. Lo mismo sucede con la varianza condicional:
var(Y |X) = E{[Y −E(Y |X)]
2
|X}. (6.6)
A partir de D(Y |X) y de D(X) se puede calcular D(Y ). Usando (6.1) o (6.2) para los
casos discreto y continuo, se obtiene
p
Y
(y) =
¸
x
p
Y |X
(y; x) p
X
(x), (6.7)
o
f
Y
(y) =


−∞
f
Y |X
(y; x) f
X
(x) dx, (6.8)
respectivamente.
Ejemplo 6.C: Accidentes Se supone que la cantidad de accidentes de auto en un mes
es una variable Po(λ), que la probabilidad de que un accidente resulte fatal es p, y que las
consecuencias de accidentes distintos son independientes; de modo que si X e Y son las
cantidades de accidentes en general y de accidentes fatales, es D(Y |X = x) = Bi(x, p), o
sea P(Y = y|X = x) = (
x
y
)p
y
(1 −p)
x−y
para y ≤ x. Calcularemos D(Y ) usando (6.7):
P(Y = y) =
¸
x≥y

x
y

p
y
(1 −p)
x−y
λ
x
x!
e
−λ
= e
−λ
(λp)
y
y!
¸
x≥y
((1 −p)λ)
x−y
(x −y)!
.
Haciendo en la sumatoria el cambio de ´ındice k = x −y resulta
¸
x≥y
((1 −p)λ)
x−y
(x −y)!
=

¸
k=0
((1 −p)λ)
k
k!
= e
(1−p)λ
;
y por lo tanto
P(Y = y) = e
−λp
(λp)
y
y!
,
o sea que Y ∼ Po(λp), resultado bastante razonable, si se piensa en λ y p como medias del
total de accidentes y de fatalidades por accidente.
Tambi´en la media y varianza de Y se pueden calcular a partir de las condicionales:
6.1. DISTRIBUCIONES CONDICIONALES 77
Proposici´ on 6.1
E{E(Y |X)} = EY, (6.9)
y
var(Y ) = E{var(Y |X)} +var{E(Y |X)}. (6.10)
Esta ´ ultima f´ormula se puede interpretar como una descomposici´on de la variabilidad
de Y como: la variabilidad de Y alrededor de su media condicional, m´as la variabilidad de
esta ´ ultima.
Demostraci´ on: Probamos (6.9) en el caso discreto. Teniendo en cuenta que E(Y |X)
es una funci´on de X, y usando (6.4) y (6.7) se tiene
E{E(Y |X)} =
¸
x
E(Y |X = x) p
X
(x) =
¸
y
y
¸
x
p
Y |X
(y; x)p
X
(x) =
¸
y
y p
Y
(y).
El caso continuo es an´alogo.
*La demostraci´on de (6.10) es algo m´as complicada, y puede omitirse en una primera
lectura. Para simplificar la notaci´on, sea Z = Y −E(Y |X). Entonces (6.9) implica EZ = 0.
De igual forma que (6.9), se prueba que para cualquier funci´on g:
Eg(X) Y = E[g(X) E(Y |X)], (6.11)
y por lo tanto
Eg(X)Z = 0. (6.12)
Para calcular var(Y ), sumamos y restamos E(Y |X) en su definici´on: var(Y ) =
E(Z +W)
2
, donde Z ya fue definida, y W = E(Y |X) −EY . Por lo tanto
var(Y ) = EZ
2
+ EW
2
+2EZW.
Aplicando (6.9) a Z
2
, el primer t´ermino es igual a E{E(Z
2
|X)} = E(var(Y |X). Usando
otra vez (6.9), el segundo es igual a var(E(Y |X)). Y como W es una funci´on de X, sale de
(6.12) que el ´ ultimo t´ermino es nulo.
Es tentador pensar que –por ejemplo– E(X +Y |X = 3) = EY + 3. Pero esto no es
cierto en general, como vemos con el caso Y = −X y EY = 0. Pero un resultado general
es v´alido para variables independientes:
Proposici´ on 6.2 Si X e Y son independientes y u es una funci´ on de dos variables, es
E{u(X, Y )|X = x} = Eu(x, Y ).
Podemos hacer la demostraci´on para el caso discreto, que es igual a la de (4.2). Sea
Z = u(X, Y ).
E(Z|X = x) =
¸
z
z P(Z = z|X = x)
=
¸
z
¸
y
zP(X = x ∩ Y = y|X = x) I(u(x, y) = z)
=
¸
y
u(x, y) P(Y = y) = Eu(x, Y ).
78 CAP´ıTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCI
´
ON
Corolario 6.3 En las mismas condiciones, D(u(X, Y )|X = x) = D(u(x, Y )).
Demostraci´ on: Dado z, sea la funci´on v(x, y) = I(u(x, y) ≤ z). Entonces por la Proposici´on
anterior,
P(u(X, Y ) ≤ z|X = x) = Ev(X, Y )|X = x) = Ev(x, Y ) = P(u(x, Y ) ≤ z).
Condicionamiento en varias variables
Todas las definiciones y resultados anteriores valen tambi´en cuando las variables son mul-
tidimensionales. Sean Y ∈ R
p
, X ∈ R
q
. Por ejemplo, la definici´on de densidad condicional
para el caso continuo es
f
Y|X
(y; x) =
f
XY
(x, y)
f
X
(x)
,
donde ahora x ∈ R
p
, y ∈ R
q
, y las densidades f
X
y f
X,Y
tienen p y p + q argumentos,
respectivamente.
6.2 Predicci´ on
Volvemos al problema inicial: conociendo la temperatura media de hoy, hacer una predicci´on
de la de ma¨ nana. Formalmente: se busca aproximar a Y con una funci´on de X. O sea, se
busca una funci´on g : R →R tal que Y −g(X) sea “lo m´as peque˜ na posible”. Este problema
se denomina en general “predicci´on”. Pero eso no implica un orden cronol´ogico entre las
variables. Por ejemplo: si tengo una serie de observaciones en la que faltan valores, puede
interesarme “predecir” (rellenar) los valores faltantes en funci´on de otros posteriores.
Una forma de plantear el problema es minimizar alguna medida del error. El criterio
m´as usual es el error medio cuadr´atico (e.m.c.):
e(g) = E(Y −g(X))
2
.
Se buscar´a entonces g tal que e(g) sea m´ınimo.
El e.m.c. no es el ´ unico criterio posible. Por ejemplo se podr´ıa tomar como medida
de error E|Y − g(X))| (“error absoluto”), o med(|Y −g(X)|) (“error mediano”). Pero el
e.m.c. permite, como se ver´a, resultados calculables expl´ıcitamente, y esto es la base de su
popularidad.
6.2.1 Predicci´ on lineal
Para comenzar con un caso m´as sencillo, trataremos el problema en que g se restringe a la
forma g(x) = a +bx. Entonces
e(g) = E(Y −a −bX)
2
, (6.13)
y hay que buscar las constantes a y b que minimicen (6.13).
6.2. PREDICCI
´
ON 79
Sean µ
X
y µ
Y
las medias de X e Y , σ
X
y σ
Y
las desviaciones, y c = cov(X, Y ).
Desarrollando el cuadrado en (6.13), e igualando a 0 las derivadas respecto de a y de b, se
obtiene la soluci´on
a = µ
Y
−b µ
X
, b =
c
σ
2
X
, (6.14)
y por lo tanto la g ´optima es
g(x) = µ
Y
+c
x −µ
X
σ
2
X
. (6.15)
Se define la recta de regresi´ on como {(x, y) : y = g(x), x ∈ R}. Pasa por (µ
X
, µ
Y
), y tiene
pendiente b. El m´ınimo e.m.c. es
e
m´ın
= E{Y −µ
Y
−b(X −µ
X
)}
2
= σ
2
Y
+b
2
σ
2
X
−2bc
= σ
2
Y

c
2
σ
2
X
= σ
2
Y
(1 −ρ
2
). (6.16)
Usando el coeficiente de correlaci´on ρ, la ecuaci´on de la recta de regresi´on se puede expresar
m´as sim´etricamente como
y −µ
Y
σ
Y
= ρ
x −µ
X
σ
X
. (6.17)
Como e
m´ın
> 0, (6.16) implica nuevamente que |ρ| ≤ 1, y adem´as permite una inter-
pretaci´on intuitiva de ρ como medida de “dependencia lineal”. En efecto, notemos que,
por definici´on, e
m´ın
es el e.m.c. de la mejor aproximaci´on de Y como funci´on lineal de
X; y que (4.39) implica que σ
2
es el e.m.c. correspondiente a la mejor aproximaci´on de
Y con una constante, o sea, con una funci´on lineal de X con pendiente nula. Entonces,
1 − ρ
2
= e
m´ın

2
Y
mide cu´anto disminuye el e.m.c. cuando se utiliza (linealmente) la X,
en vez no utilizarla. Por lo tanto ρ = 0 (X e Y incorreladas) significa que usar funciones
lineales de X para aproximar a Y , es lo mismo que nada. En cambio, ρ = ±1 implica
e
m´ın
= 0 y por la propiedad (4.12), esto implica que Y es igual (con probabilidad 1) a una
funci´on lineal de X, con pendiente del mismo signo que ρ.
Si en cambio se quiere aproximar a X como funci´on lineal de Y , se deduce de (6.17),
intercambiando X e Y , que la correspondiente recta de regresi´on es
x −µ
X
σ
X
= ρ
y −µ
Y
σ
Y
,
y por lo tanto ambas rectas pasan por (µ
X
, µ
Y
), pero no coinciden, salvo que ρ = ±1.
6.2.2 Predicci´ on general
Ahora buscamos minimizar el e.m.c. sin restricciones sobre g. Convendr´a tener en cuenta
que si C es un conjunto tal que P(X ∈ C) = 1, basta con definir la g en C (por ejemplo,
si X ≥ 0, basta con definir g en R
+
).
Ahora damos la soluci´on del problema general.
80 CAP´ıTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCI
´
ON
Teorema 6.4 Sea g(x) = E(Y |X = x) si x ∈ C. Entonces esta g minimiza el e.m.c.
Demostraci´ on: La hacemos para el caso discreto. Notemos que para cualquier g el e.m.c.
es
¸
x
¸
y
(y −g(x))
2
p
XY
(x, y) =
¸
x∈C
p
X
(x)
¸
y
(y −g(x))
2
p
Y |X
(y; x).
Para cada x, basta con minimizar la
¸
y
. La constante c que minimiza
¸
y
(y−c)
2
p
Y |X
(y; x)
es (por (4.39), o directamente derivando))
c =
¸
y
y p
Y |X
(y; x) = E(Y |X = x).
La demostraci´on para el caso continuo sigue el mismo esquema.
Para la normal bivariada, se deduce de (6.3) que E(Y |X = x) es una funci´on lineal de
x; y por lo tanto, aqu´ı la mejor aproximaci´on lineal coincide con la mejor en general.
Ejemplo 6.D: La “falacia de la regresi´ on” Sean X la estatura de un se˜ nor elegido
al azar de la poblaci´on de padres con hijos adultos; e Y la estatura de su hijo mayor.
Se puede suponer que no hay cambios de una generaci´on a otra, y por lo tanto µ
X
=
µ
Y
= µ y σ
X
= σ
Y
= σ. La estatura media de los hijos cuyos padres tienen estatura
x es h(x) = E(Y |X = x). Si se supone que D(X, Y ) es normal bivariada –suposici´on
bastante compatible con los datos existentes– entonces esta media est´a dada por la recta
de regresi´on: h(x) = µ +ρ(x −µ). Como h(x) = (1 −ρ)(µ −x) +x y ρ < 1, se deduce que
x > µ =⇒h(x) < x y x < µ =⇒h(x) > x.
De modo que hijos de hombres m´as altos que la media, son –en promedio– m´as bajos que
sus padres; y los hijos de petisos son en promedio m´as altos que sus padres. Esto se podr´ıa
interpretar como una tendencia de la poblaci´on a “emparejarse” (de aqu´ı la expresi´on
“regresi´on”: se “regresar´ıa” hacia la media). Sin embargo, ¡esto se obtuvo suponiendo
justamente que las dos generaciones tienen la misma distribuci´on!. En consecuencia este
fen´omeno no dice nada sobre la evoluci´on de la poblaci´on, sino que es una simple conse-
cuencia de que ρ < 1. Esta aparente paradoja se llama la falacia de la regresi´ on.
Otro ejemplo: sean X e Y los puntajes de un alumno en dos ex´amenes suucesivos.. Si
D(X, Y ) es aproximadamente normal bivariada, la funci´on de regresi´on lineal h(x) dar´a la
media de los puntajes en el segundo examen, correspondientes a los alumnos con puntaje
x en el primero. Si tienen correlaci´on positiva, siempre suceder´a que
x > µ
X
=⇒
h(x) −µ
Y
σ
Y
<
x −µ
X
σ
X
.
Es com´ un comparar los resultados de dos ex´amenes normaliz´ andolos, o sea, restando en
cada uno la media y dividiendo por la desviaci´on. Si se hace esto, se podr´ıa sacar la falsa
conclusi´on de que el desempe˜ no relativo de los alumnos con mejores resultados en el primer
examen, empeor´o en el segundo, y viceversa.
6.3. EJERCICIOS 81
6.3 Ejercicios
6.1 Mostrar que si Z ∼ Un(1, 5), la distribuci´on de Z condicional en el evento 2 ≤ Z ≤ 3
es Un(2, 3).
6.2 Probar: X e Y son independientes si y s´olo si D(Y |X) = D(Y ).
6.3 La distribuci´on conjunta de X e Y est´a dada por las siguientes probabilidades
X
Y 2 3 5
1 0.0 0.1 0.1
2 0.1 0.1 0.2
4 0.2 0.0 0.2
Calcular E(Y |X = x) y var(Y |X = x) para cada x; y verificar (6.9) y (6.10).
6.4 Un nombre est´a presente en una lista de n nombres con probabilidad p. Si est´a,
su posici´on en la lista est´a distribuida uniformemente. Un programa de computa-
dora busca secuencialmente en la lista. Calcule la media de la cantidad de nombres
examinados antes de que el programa se detenga.
6.5 Probar que, si X e Y son independientes, es E(Y |X) = EY , pero la rec´ıproca no es
cierta: por ejemplo si P(Y = ±X|X = x) = 0.5.
6.6 Mostrar que el m´ınimo de E|Y −g(X)| se obtiene para la mediana condicional g(x) =
med(Y |X = x) [usar (4.40)].
6.7 Se arroja un dado repetidamente; X es el n´ umero del tiro en el que sale el primer
as; Y es la cantidad de “dos” que salen antes del primer as. Probar que D(Y |X) es
binomial. Obtener de ah´ı E(Y |X) y EY .
6.8 Se arroja diez veces un dado equilibrado; sea N la cantidad de ases que salen. El
dado se arroja N veces m´as. Hallar la distribuci´on de la cantidad total de ases.
6.9 En el problema anterior, sea M la cantidad de ases en los primeros cuatro tiros.
Hallar D(N|M).
6.10 Sean U = m´ax(X, Y ), V = m´ın(X, Y ), donde X e Y son Un(0, 1) independientes.
Calcular E(U|V ) y med(U|V ).
6.11 Hallar D(X|X +Y ) donde X e Y son Po(λ) y Po(µ) independientes.
6.12 En una lata hay 12 galletitas dulces y una salada. Repetidamente, se extrae una
galletita al azar. Si la que sale es dulce, se la ingiere; y si no se la devuelve a la
lata. Sean X e Y la cantidad de galletitas ingeridas hasta la primera extracci´on de
la salada, y entre la primera y la segunda extracci´on de la salada. Calcular E(Y |X)
y EY .
82 CAP´ıTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCI
´
ON
6.13 Sea Y = X
c
, donde X ∼ Un(a, b) y c > 0. Calcular ρ
XY
, la recta de regresi´on de Y
en X, y el correspondiente e.m.c, para los casos
a. a = 1, b = 2, c = 0.5
b. a = 0, b = 1, c = 2.
6.14 Se arroja un dado 238 veces. Sean X e Y las cantidades de resultados pares e impares,
respectivamente. Calcular mentalmente ρ
XY
.
6.15 Sean Y
1
= a
1
+b
1
X
1
, Y
2
= a
2
+b
2
X
2
. Probar que |ρ
Y1,Y2
| = |ρ
X1,X2
|.
6.16 Sea Z = Y −g(X) donde g es la funci´on de regresi´on lineal. Probar que cov(X, Z) = 0.
6.17 En un proceso de Poisson, sean X
1
y X
2
la cantidad de part´ıculas despu´es de 5 y de
15 segundos respectivamente. Hallar el mejor predictor de X
1
en funci´on de X
2
.
æ
Cap´ıtulo 7
Teoremas L´ımites
“¡Oh!. Siempre llegar´ as a alguna parte’, dijo el Gato,
‘si caminas lo bastante’.”
Lewis Carroll, “Alicia en el Pa´ıs de las Maravillas”
En este cap´ıtulo veremos dos resultados muy importantes sobre el comportamiento del
promedio (o de la suma) de un gran n´ umero de variables independientes,
7.1 Ley de Grandes N´ umeros
Sea X
i
(i = 1, 2, . . .) una sucesi´on de variables independientes con la misma distribuci´on, y
por lo tanto con la misma media µ, y sea
¯
X
n
= S
n
/n, donde S
n
=
¸
n
i=1
X
i
. El problema
que trataremos es: ¿es cierto que “l´ım
n→∞
¯
X
n
= µ” en alg´ un sentido?.
Consideremos por ejemplo una sucesi´on de tiradas de un dado equilibrado. Sea X
i
= I
Ai
donde A
i
es el evento: “en el tiro i-´esimo sale as”. Entonces µ = P(A
i
) = 1/6; y
¯
X
n
es la
proporci´on de ases en los primeros n tiros. Ser´ıa entonces de esperar que
¯
X
n
se aproxime
a 1/6 cuando n es “grande”. Asimismo, si definimos en vez a X
i
como el resultado del tiro
i-´esimo, entonces µ = 3.5, y
¯
X
n
es el promedio de los primeros n resultados, del cual uno
esperar´ıa que se aproxime a 3.5 para n grande. Sin embargo, para sucesiones de resultados
tales como 4,5,4,5,4,5,. . . , esto no se cumplir´a en ninguno de los dos ejemplos, por lo que
dicho l´ımite no puede tomarse en su sentido habitual. Podr´ıa arg¨ uirse que al fin y al cabo
esa sucesi´on de resultados tiene probabilidad nula; pero lo mismo vale para cualquier otra
sucesi´on. Lo que se necesita es un concepto adecuado de l´ımite para variables aleatorias.
Definici´ on 7.1 La sucesi´ on de variables Z
n
tiende a la variable Z en probabilidad (abre-
viado “Z
n
p
→Z”) si para todo > 0 se cumple
l´ım
n→∞
P(|Z
n
−Z| > ) = 0.
83
84 CAP´ıTULO 7. TEOREMAS L´ıMITES
Teorema 7.2 (Ley d´ebil de grandes n´ umeros) Si las X
i
son independientes, todas
con media µ y varianza σ
2
< ∞, entonces
¯
X
p
→µ.
Demostraci´ on: Usando la desigualdad de Chebychev y (4.29) se obtiene
P(|
¯
X
n
−µ| > ) ≤
σ
2
n
2
,
que tiende a 0 para n →∞.
La existencia de la varianza no es necesaria para la validez del resultado, sino s´olo
para simplificar la demostraci´on. En cambio la existencia de EX
i
es imprescindible, lo que
puede verse en el caso en que las X
i
tienen distribuci´on de Cauchy, para la que la media
no existe (ejercicio 4.2). Se deduce de (5.9) que D(
¯
X
n
) = D(X
1
); y por lo tanto,
¯
X
n
no
puede tender a una constante.
Un resultado mucho m´as profundo, debido a Kolmogorov, es el que sigue:
Teorema 7.3 (Ley Fuerte de Grandes N´ umeros) Si existe µ = EX
i
, entonces
l´ım
n→∞
P(
¯
X
n
→µ) = 1.
Es decir, que el conjunto de sucesiones para las que
¯
X
n
no tiende a µ tiene probabilidad
0. La demostraci´on se puede encontrar en [7, Vol. II].
La Ley de Grandes N´ umeros es importante en relaci´on con el concepto de probabilidad.
En el primer ejemplo con el dado, dicha Ley implica que (de manera informal)
P{as} = l´ımite de frecuencias relativas. (7.1)
Al comienzo del curso se vio que el concepto intuitivo de probabilidad era el de ”l´ımite de
frecuencias relativas”, pero que no era posible tomar eso como una definici´on. Pero lo que
ahora vemos es que tomando como definici´on la de los axiomas de Kolmogorov, resulta que
se puede demostrar (7.1) (en vez de tomarlo como definici´on).
La Ley de Grandes N´ umeros y el uso del valor medio
“. . . y que al regresar, parece decir:
‘acordate hermano, vos sab´es,
no hay que jugar’. ”
“Por una cabeza”, de C. Gardel y A. Le Pera
En un juego de azar con banca, la ganancia neta del jugador en cada jugada (lo que
recibe de la banca menos lo que apost´o) es una variable aleatoria, que llamaremos X.
Seg´ un una terminolog´ıa tradicional, el juego es equitativo, favorable o desfavorable seg´ un
que EX sea respectivamente igual, mayor o menor que 0. En un juego en el qne el jugador
realiza una apuesta a, y con probabilidad p gana, recibiendo de la banca una suma s, y con
probabilidad 1−p pierde su apuesta, es EX = ps −a. Por ejemplo, en la ruleta apostando
7.2. TEOREMA CENTRAL DEL L´ıMITE 85
a pleno, es p = 1/37, y para a = 1 es s = 36, y por lo tanto EX = −1/37, o sea que el juego
es “desfavorable”. La Ley de Grandes N´ umeros implica que en un n´ umero “suficientemente
grande” de jugadas de un juego desfavorable, la ganancia neta del apostador es negativa, y
por lo tanto la de la banca es positiva. Lo inverso ocurrir´ıa con un juego “favorable”. Como
la banca se enfrenta a numerosos jugadores –que adem´as suelen jugar repetidamente–
est´a en una situaci´on en la que rige la Ley de Grandes N´ umeros, y por lo tanto que el juego
sea “desfavorable” le garantiza a la banca su rentabilidad a largo plazo.
Imaginemos ahora un juego de azar basado en una ruleta numerada, no del 0 al 36
como las habituales, sino del 1 al mill´on. El jugador apuesta un d´olar a un n´ umero; si
pierde, pierde su d´olar; si acierta, recibe dos millones. De acuerdo con la terminolog´ıa
anterior, el juego ser´ıa “favorable”, pues EX = 10
−6
× 2 × 10
6
− 1 = U.S.$ 1. De modo
que en una serie ”suficientemente larga” de repeticiones, el jugador tiene una ganancia
garantizada. Sin embargo, observemos que en cada jugada la probabilidad de ganar es s´olo
un millon´esimo, de manera que si por ejemplo el jugador tiene un capital inicial de 10000
d´olares y los juega de a uno, la probabilidad de que los pierda antes de llegar a ganar alguna
vez es > (1 −10
−6
)
10000
= 0.99. A´ un con un capital de medio mill´on, la probabilidad de
que se vuelva a su casa a dedo es 0.90. Estos jugadores fundidos estar´ıan poco dispuestos a
llamar al juego “favorable”. Al mismo tiempo, si hay un gran n´ umero de jugadores, la Ley
de Grandes N´ umeros implica que ¡la banca tambi´en se funde!. ¿Qui´en gana entonces en
este juego?. Unos poqu´ısimos jugadores que obtienen ganancias fabulosas. Estas grandes
ganancias de algunos, dif´ıcilmente consuelen a la mayor´ıa de perdidosos.
Los conceptos expuestos en este ejemplo imaginario tienen aplicaciones m´as concretas.
Supongamos que se quiere dise˜ nar una planta hidroel´ectrica para operar en un r´ıo cuyos
caudales anuales tienen una distribuci´on muy asim´etrica, tal que la media de los caudales
sea muy superior a la mediana. Si se dise˜ nan las turbinas como para aprovechar el caudal
medio, la planta estar´a la mayor´ıa de los a˜ nos operando muy por debajo de su capacidad,
y en unos pocos a˜ nos tendr´a much´ısima agua, cosa que no compensar´a a los anteriores
per´ıodos de escasez.
De todo esto se concluye que el concepto de valor medio es ´ util en situaciones en las
que tiene sentido que los valores grandes compensen a los peque˜ nos; pero si no, hay que
recurrir a otras ideas. El planteo matem´atico relevante para el ejemplo de los juegos de
azar es el llamado “problema de la ruina del jugador”. Ideas m´as elaboradas se aplican en
el dise˜ no de represas y el c´alculo de primas de seguros.
7.2 Teorema Central del L´ımite
Como antes, X
i
es una sucesi´on de variables independientes, con la misma distribuci´on,
todas con media µ y varianza σ
2
, y S
n
=
¸
n
i=1
X
i
. Buscaremos aproximar la distribuci´on
de S
n
para n grande. Cuando n → ∞, D(S
n
) no tiende a nada, cosa que uno puede
sospechar por ser var(S
n
) → ∞. Una idea es transformar la S
n
de manera que su dis-
tribuci´on converja a algo. Si la dividimos por n obtenemos
¯
X
n
, que como se vio tiende
a µ, o sea, algo que tiene un solo valor; de modo que dividir por n resulta demasiado.
86 CAP´ıTULO 7. TEOREMAS L´ıMITES
Habr´ıa que transformar a S
n
de forma que su distribuci´on tendiera a alguna distribuci´on
que no est´e concentrada en un solo valor. La idea salvadora es transformar a S
n
para que
queden media y varianza constantes. Sea S

n
la S
n
normalizada para que tenga media 0 y
varianza 1:
S

n
=
S
n
−ES
n

var(S
n
)
=
S
n
−nµ
σ

n
=
¯
X
n
−µ
σ/

n
.
Entonces se puede probar el:
Teorema 7.4 (Teorema Central del L´ımite) l´ım
n→∞
P(S

n
≤ s) = Φ(s) para todo
s ∈ R, donde Φ es la funci´ on de distribuci´ on de la N(0, 1).
Para la demostraci´on, ver [7, Vol. II].
Este Teorema tiene numerosas aplicaciones, en particular –como ya veremos– en
Estad´ıstica y en Mec´anica Estad´ıstica.
El Teorema Central trata de la convergencia de una sucesi´on de funciones de dis-
tribuci´ on, a diferencia de la Ley de Grandes N´ umeros que trata la convergencia de las
variables aleatorias. El concepto adecuado es ´este:
Definici´ on 7.5 La sucesi´ on de funciones de distribuci´ on F
n
converge d´ebilmente a la
funci´ on de distribuci´ on F –se escribe F
n
→ F– si l´ım
n→∞
F
n
(x) = F(x) para todos
los x donde F es continua.
Si Z
n
es una sucesi´on de variables –no necesariamente definidas en el mismo Ω– y Z
una variable, tales que F
Zn
→ F
Z
, se escribir´a D(Z
n
) → D(Z). En este caso se dice que
Z
n
converge a Z en distribuci´ on, y se abrevia “Z
n
d
→Z”. Como lo ´ unico que interviene de
Z es su distribuci´on, tambi´en se puede escribir “Z
n
d
→D(Z)”. Por ejemplo, S

n
d
→N(0, 1).
Este concepto no tiene nada que ver con la convergencia de las Z
n
como funciones de
Ω → R, sino s´olo de sus distribuciones. Por ejemplo, sea X una variable que toma los
valores ±1 con probabilidad 0.5, y sea Z
n
= (−1)
n
X. Obviamente las Z
n
no convergen
a nada, pero tienen todas la misma distribuci´on, igual a la de X, por lo que trivialmente
Z
n
d
→X.
¿Por qu´e conformarse en la definici´on con que la convergencia sea s´olo en los puntos de
continuidad de F, en vez de en todo x?. La respuesta es que m´as no se puede pedir, si se
quiere una definici´on “natural”. Por ejemplo, sean Z
n
= 1/n y Z = 0. Ser´ıa razonable que
este caso estuviera incluido en la definici´on de convergencia. Pero F
n
(x) = 1 si x ≥ 1/n, y
es = 0 si no; mientras que F(x) = 1 si x ≥ 0, y es = 0 si no. de modo que F
n
(x) →F(x)
para x = 0, pero en 0, donde F es discontiua, es l´ımF
n
(0) = 0 = F(0) = 1.
7.3 Aplicaciones del Teorema Central del L´ımite
7.3.1 Aproximaci´ on normal a la binomial
Sean X
i
= I
Ai
, donde los eventos A
i
son independientes y tienen probabilidad p. Entonces
µ = p, σ
2
= p(1−p), y S
n
es binomial: Bi(n, p). Por lo tanto el Teorema Central del L´ımite
7.3. APLICACIONES DEL TEOREMA CENTRAL DEL L´ıMITE 87
implica que D(S
n
) = Bi(n, p) ≈ N(np, np(1 − p)) para n “grande”, o sea que si F es la
funci´ on de distribuci´on de Bi(n, p) es F(x) ≈ Φ{(x−np)/

np(1 −p)}. Esta aproximaci´on
puede mejorarse utilizando la llamada “correcci´on por continuidad” [7, Vol. 1] que consiste
en agregarle 0.5 a x, o sea
F(x) ≈ Φ

x +0.5 −np

np(1 −p)

. (7.2)
7.3.2 Aproximaci´ on normal a la Poisson
La distribuci´on Po(λ) puede ser aproximada por la normal para λ grande. Sea X
λ
∼ Po(λ).
Recordemos que X
λ
tiene media y varianza iguales a λ. Entonces se cumple:
l´ım
λ→∞
D

X
λ
−λ

λ

= N(0, 1). (7.3)
Lo probamos primero cuando λ toma s´olo valores enteros. Sean Y
1
, Y
2
, . . . ∼ Po(1) inde-
pendientes. Entonces, del ejercicio 5.3 se obtiene
D(X
λ
) = D

λ
¸
i=1
Y
i

.
Las Y
i
tienen media y varianza iguales a 1. Aplicando el Teorema Central, se verifica (7.3)
cuando λ recorre los enteros.
Si bien parece obvio que el resultado vale en general, los detalles de la demostraci´on
para λ cualquiera requieren alg´ un cuidado; el lector los puede hallar al final de la Secci´on
7.4.
7.3.3 Movimiento browniano
Si se observan al microscopio part´ıculas en suspensi´on en un l´ıquido, se ve que realizan
incesantes movimientos completamente ca´oticos. El fen´omeno –descubierto en el siglo
pasado por el bot´anico ingl´es Robert Brown, y denominado movimiento browniano– fue
explicado por Einstein como una consecuencia de la agitaci´on de las mol´ecuulas del l´ıquido.
Damos a continuaci´on un enfoque muy simple del problema. Consideramos s´olo el caso
unidimensional. Sea la variable X
t
la posici´on de la part´ıcula en el instante t, suponiendo
X
0
= 0. Hacemos dos suposiciones:
a. La part´ıcula no tiene inercia
b. Las condiciones no cambian en el tiempo.
La primera suposici´on la representamos postulando que los incrementos de X
t
son inde-
pendientes, o sea,
t
1
< t
2
< . . . < t
n
=⇒(X
t2
−X
t1
), . . . , (X
tn
−X
tn−1
) son independientes. (7.4)
88 CAP´ıTULO 7. TEOREMAS L´ıMITES
La segunda, postulando que
D(X
t+s
−X
s
) = D(X
t
) ∀ s, t. (7.5)
Para calcular D(X
t
), aproximamos la situaci´on mediante un “paseo al azar” como en el
problema 2.12, suponiendo que la part´ıcula recibe impactos de las mol´eculas del l´ıquido a
intervalos de tiempo δ, y que con cada impacto se desplaza una distancia a la derecha
o a la izquierda, con probabilidad 1/2 cada una, y que lo que sucede en un impacto es
independiente de los dem´as.
Sean Z
1
, Z
2
, . . . una sucesi´on de variables independientes que valen ±1 con probabilidad
0.5. Entonces podemos expresar X
t
=
¸
n
i=1
Z
i
, donde n = [t/δ] (“[.]” es la parte entera).
En consecuencia EX
t
= 0 y var(X
t
) = [t/δ]
2
. Como los impactos son muy frecuentes y
los desplazamientos muy peque˜ nos, hacemos δ →0 y →0. Sea c = l´ım(
2
/δ). Entonces,
el Teorema Central implica que en el l´ımite:
D(X
t
) = N(0, ct). (7.6)
Las condiciones (7.4), (7.5) y (7.6) definen un proceso estoc´astico con tiempo continuo
llamado “movimiento browniano” o “proceso de Wiener”.
7.3.4 Tama˜ nos de piedras
Los fragmentos de rocas tienen distintos tama˜ nos, y es ´ util en Mineralog´ıa representar esta
variedad mediante una distribuci´on. Un modelo sencillo permite postular la lognormal
para estos casos. Consideremos una roca de masa M. En el primer paso, es partida al
azar en dos trozos, con masas respectivamente MU
1
y M(1−U
1
), donde U
1
∈ (0, 1) es una
variable aleatoria con distribuci´on F. Como la numeraci´on de los dos trozos es arbitraria,
se puede suponer que D(U
1
) = D(1 − U
1
). En el segundo paso, cada uno de estos dos
trozos es dividido a su vez en dos por el mismo proceso, y as´ı sucesivamente. En el n-´esimo
paso, quedan 2
n
trozos, con masas de la forma MW
1
W
2
. . . W
n
, donde las W
i
tienen todas
distribuci´on F (la W
1
puede ser U
1
o 1 −U
1
, etc.). Si se llama X a la masa de cualquier
part´ıcula, es log X = log M +
¸
n
i=1
Z
i
donde Z
i
= log W
i
. Si se supone que las W
i

y por lo tanto las Z
i
– son independientes, y que existe EZ
2
i
, y dado que las Z
i
tienen
todas la misma distribuci´on, para n grande el Teorema Central implica que D(log X) es
aproximadamente normal, y por lo tanto, que D(X) es aproximadamente lognormal (la
justificaci´on del “por lo tanto” se ver´a en la Proposici´on 7.7). Si bien nada garantiza que
las suposiciones del modelo se cumplan, el hecho es que la lognormal resulta en la pr´actica
una buena aproximaci´on para muchas distribuciones emp´ıricas de tama˜ nos de trozos de
minerales.
7.4 Convergencia en distribuci´ on y en probabilidad
Veremos en esta Secci´on algunas propiedades de los dos tipos de convergencia.
7.4. CONVERGENCIA EN DISTRIBUCI
´
ON Y EN PROBABILIDAD 89
7.4.1 Convergencia de funciones de variables aleatorias
Es de esperar que, por ejemplo, si Z
n
p
→ Z, entonces tambi´en Z
2
n
p
→ Z
2
. Esto se expresa
en el resultado que sigue.
Proposici´ on 7.6 Si Z
n
p
→Z y g es una funci´ on continua, entonces g(Z
n
)
p
→g(Z).
La demostraci´on es elemental, pero larga y aburrida; es muy f´acil para el caso particular
en que g es diferenciable con derivada acotada (ejercicio 7.2).
Tambi´en es de esperar que, por ejemplo, si Z
n
d
→Z, entonces tambi´en Z
2
n
d
→Z
2
. Esto
se verifica a contnuaci´on:
Proposici´ on 7.7 Si Z
n
d
→Z y g es una funci´ on continua, entonces g(Z
n
)
d
→g(Z).
La demostraci´on no es simple para g cualquiera, pero es muy f´acil para el caso en que g es
mon´otona, caso que queda a cargo del lector (ejercicio 7.10). En particular, en la Secci´on
7.3.4, esto implica que si log X es aproximadamente normal, entonces X es aproximada-
mente lognormal.
7.4.2 Relaciones entre los dos tipos de convergencia
Una relaci´on muy ´ util entre las convergencias en probabilidad y en distribuci´on es el siguien-
te resultado, que afirma que si dos variables est´an pr´oximas, sus distribuciones tambi´en lo
est´an (cosa que es de imaginar).
Proposici´ on 7.8 Sean F
n
y G
n
las funciones de distribuci´ on de U
n
y de V
n
. Si
U
n
−V
n
p
→0 y G
n
→G, entonces F
n
→G.
La demostraci´on es elemental pero algo trabajosa; se la puede encontrar en [7, Vol.II, Cap.
8].
El concepto de convergencia en probabilidad es, como era de esperar, m´as fuerte que el
de convergencia en distribuci´on, como se muestra a continuaci´ on.
Proposici´ on 7.9 Z
n
p
→Z =⇒Z
n
d
→Z.
Demostraci´ on: Basta aplicar la Proposici´on 7.8 con U
n
= Z
n
y V
n
= Z.
Hay un caso en que vale la rec´ıproca:
Proposici´ on 7.10 Si c es una constante, Z
n
d
→c =⇒Z
n
p
→c.
Demostraci´ on: Por hip´otesis, l´ımF
Zn
(z) = 0 ´o 1 seg´ un sea z < c ´o > c. Por lo tanto
P(|Z
n
−c| > ) ≤ 1 −F
Zn
(c +) +F
Zn
(c −) →0.
En muchas situaciones aparecen combinados ambos tipos de convergencia, particu-
larmente al buscar aproximaciones para las distribuciones de variables que aparecen en
Estad´ıstica. La proposici´on siguiente, que es bastante intuitiva, resulta muy ´ util.
90 CAP´ıTULO 7. TEOREMAS L´ıMITES
Proposici´ on 7.11 (Lema de Slutsky) Si X
n
d
→X e Y
n
p
→c donde c es una constante,
entonces
a. X
n
+Y
n
d
→X +c
b. X
n
Y
n
d
→cX.
Por ejemplo, si X
n
d
→N(0, 1) e Y
n
p
→2, entonces X
n
+Y
n
d
→N(2, 1).
Demostraci´ on: Para (a) se aplica la Proposici´on 7.8 con U
n
= X
n
+Y
n
y V
n
= X
n
+c.
Para (b) se toman U
n
= X
n
Y
n
y V
n
= X
n
c. Aqu´ı hay que verificar que U
n
− V
n
p
→ 0.
Para esto, dados > 0 y δ > 0, sea K tal que P(|X| > K) < . Entonces existe n
1
tal que n > n
1
implica P(|X
n
| > K) < δ. Asimismo, existe n
2
tal que n > n
2
implica
P(|Y
n
−c| > /K) < δ. Y como
P(|U
n
−V
n
| > δ) = P(|X
n
||Y
n
−c| > δ) ≤ P(|X
n
| > K) + P(|Y
n
−c| > δ/K),
queda probada la tesis.
En muchas situaciones hace falta la distribuci´on l´ımite de una funci´on de las variables
en consideraci´on. La aproximaci´on que mostraremos ahora es llamada m´etodo delta.
Proposici´ on 7.12 Sean a y c
n
constantes tales que c
n
→∞ y c
n
(Z
n
−a)
d
→Z. Sean: g
una funci´ on diferenciable, y b = g

(a). Entonces c
n
(g(Z
n
) −g(a))
d
→bZ.
O sea que en el l´ımite, es como si g fuera lineal.
Demostraci´ on: El desarrollo de Taylor de primer orden de g en a da g(z) − g(a) =
(z −a)(b +h(z)), donde h es una funci´on tal que l´ım
z→a
h(z) = 0. Las hip´otesis implican
que Z
n
−a
p
→0, y de aqu´ı se deduce f´acilmente que h(Z
n
)
p
→0. Por lo tanto
c
n
(g(Z
n
) −g(a)) = c
n
(Z
n
−a)b +c
n
(Z
n
−a)h(Z
n
).
Por el Lema de Slutsky, el primer t´ermino del segundo miembro tiende en distribuci´on a
bZ, y el segundo a 0.
En particular,

n(Z
n
−a)
d
→N(0, 1) =⇒

n(g(Z
n
) −g(a))
d
→N(0, b
2
),
o sea,
D(g(Z
n
)) ≈ N

g(a),
g

(a)
2
n

. (7.7)
Ejemplo 7.A: Otra aproximaci´ on para la Poisson Se mostrar´a que si X
λ
∼ Po(λ),
entonces

X
λ


λ
d
→ N(0, 1/4) cuando λ → ∞. Tomando en la Proposici´on 7.12:
Z
λ
= X
λ
/λ, a = 1, c
λ
=

λ y g(x) =

x, se obtiene b = 1/2; y teniendo en cuenta (7.3)
se completa la demostraci´on.
N´otese que con esta transformaci´on la varianza no depende del par´ametro λ. Una
situaci´on similar se tiene en el ejercicio 7.12.
7.5. EJERCICIOS 91
7.4.3 *Demostraci´ on de la aproximaci´ on normal a la Poisson
Completamos aqu´ı la demostraci´on general de (7.3). Sea λ cualquiera, n = [λ] su parte
entera, y δ = λ−n su parte fraccionaria. Sean X
n
y X
δ
independientes con distribuciones
de Poisson con par´ametros n y δ. Entonces X
λ
= X
n
+X
δ
∼ Po(λ). Por lo tanto
X
λ
−λ

λ
=
X
n
−n

n

n
λ
+
X
δ
−δ

λ
. (7.8)
Como E(X
δ
−δ)
2
= δ ∈ [0, 1), el ´ ultimo t´ermino tiende a 0 en probabilidad por la desigual-
dad de Markov (ejercicio 7.13). Adem´as

n/λ →1, y ya se vio que D((X
n
− n)/

n)) →
N(0, 1). Por lo tanto el Lema de Slutsky implica que (7.3) tiende a N(0, 1).
7.5 Ejercicios
7.1 Sea X
t
la cantidad de sucesos hasta el instante t en un proceso de Poisson con
intensidad c. Probar que X
t
/t
p
→c cuando t →∞.
7.2 Probar el Teorema 7.6 para el caso en que la derivada g

es continua y acotada
[Sugerencia: usar el Teorema del Valor Medio].
7.3 Se arroja n veces un dado equilibrado. Sea Z la suma de todos los puntos obtenidos.
a. Calcular aproximadamente P(680 ≤ Z ≤ 720) para n = 200.
b. Hallar aproximadammte el menor n tal que P(|Z/n −3.5| ≤ 0.1) ≥ 0.9.
7.4 La variable Y
n
toma los valores 0 y n
2
, con probabilidades 1 −1/n y 1/n respectiva-
mente. ¿Es cierto que E(l´ım
n→∞
Y
n
) = l´ım
n→∞
(EY
n
)?.
7.5 La duraci´on de cada l´ampara de un lote de N l´amparas es exponencial con media
= 1000 horas. Las duraciones de distintas l´amparas son independientes. En una
instalaci´on, cada vez que una l´ampara se quema, es inmediatamente reemplazada
por otra nueva. Sea T la duraci´on total del lote (o sea, el tiempo hasta quemarse la
´ ultima l´ampara). Calcular aproximadamente
a. P(T > 115000 horas) para N = 100
b. el menor N que asegure P(T > 500000) > 0.95
c. el mayor t tal que P(T > t) ≥ 0.95 si N = 100.
7.6 Se arroja 600 veces un dado equilibrado. Calcular la probabilidad de que la pro-
porci´on de ases est´e entre 1/6 y 1/5.
7.7 En una ciudad, la proporci´on de consumidores de una marca de gaseosas es p. Se
toma una muestra al azar de tama˜ no n (la ciudad es lo bastante grande como para
que se puedan considerar equivalentes al muestreo con o sin reemplazo). Sea R la
proporci´on de consumidores en la muestra.
92 CAP´ıTULO 7. TEOREMAS L´ıMITES
a. Si p = 0.2 y n = 200, calcular aproximadamente P(|R−p| ≤ 0.01).
b. Si p = 0.2 y n = 200, hallar el menor δ tal que P(|R−p| < δ) ≥ 0.9.
c. Si p = 0.2, hallar el menor n tal que P(|R−p| ≤ 0.01) ≥ 0.9.
d. En una situaci´on m´as realista, p es desconocido. Se desea elegir n tal que
P(|R − p| ≤ 0.01) ≥ 0.9. Se puede suponer (por los resultados de muestreos
anteriores) que 0.1 ≤ p ≤ 0.3. Hallar el menor n necesario.
7.8 Una excursi´on dispone de 100 plazas. La experiencia indica que cada reserva tiene
una probabilidad 0.10 de ser cancelada a ´ ultimo momento. No hay lista de espera. Se
supone que los pasajeros hacen sus reservas individualmente, en forma independiente.
Se desea que la probabilidad de que queden clientes indignados por haber hecho su
reserva y no poder viajar, sea ≤ 0.01. Calcular el n´ umero m´aximo de reservas que se
pueden aceptar.
7.9 Si X ∼ Po(100), hallar aproximadamente el δ tal que P(|X/100 −1| ≤ δ) = 0.99.
7.10 Probar que si Z
n
d
→ Z, y g es una funci´on continua y creciente, entonces g(Z
n
)
d

g(Z).
7.11 En el problema 4.15, usar el Teorema Central para obtener el n, y compararlo con el
que dar´ıa la desigualdad de Chebychev.
7.12 Si X ∼ Bi(n, p), mostrar que para n grande, la distribuci´on de arcsen(

X/n) se
puede aproximar por una normal cuya varianza no depende de p.
7.13 Probar que si E|Z
n
−Z|
α
→o para alg´ un α > 0, entonces Z
n
p
→Z [usar la desigualdad
de Markov].
æ
Parte II
ESTADISTICA
93
Cap´ıtulo 8
Descripci´ on de una Muestra
8.1 Res´ umenes
En Probabilidad hemos considerado hasta ahora el comportamiento de observaciones que
cumplen un modelo dado. En Estad´ıstica, en cambio, disponemos de conjuntos de observa-
ciones (“muestras”) correspondientes a un experimento considerado aleatorio, y debemos
extraer de ellas conclusiones sobre los modelos que podr´ıan cumplir.
La distribuci´ on muestral (o emp´ırica) correspondiente a una muestra x
1
, . . . , x
n
, es
la distribuci´on discreta concentrada en los puntos x
i
(i = 1, . . . , n), dando a cada uno
probabilidad 1/n. La correspondiente funci´ on de distribuci´ on emp´ırica es
F

(t) =
1
n
card{i : x
i
≤ t} =
1
n
n
¸
i=1
I(x
i
≤ t), (8.1)
o sea, una escalera con salto 1/n en cada x
i
.
En este cap´ıtulo se presentan algunos m´etodos sencillos para describir la informaci´on
contenida en F

. Veremos ahora c´omo sintetizar caracter´ısticas de la muestra en unos
pocos n´ umeros relevantes.
8.1.1 Media y varianza muestrales
Los res´ umenes m´as f´aciles de calcular son la media y varianza de la distribuci´on muestral,
que son
¯ x =
1
n
n
¸
i=1
x
i
, v
x
=
1
n
n
¸
i=1
(x
i
− ¯ x)
2
. (8.2)
Se prueba como en (4.22) que
v
x
=
1
n
n
¸
i=1
x
2
i
− ¯ x
2
. (8.3)
95
96 CAP´ıTULO 8. DESCRIPCI
´
ON DE UNA MUESTRA
Esta f´ormula es m´as f´acil que la anterior si s´olo se dispone de calculadora; pero puede ser
num´ericamente poco confiable, a´ un con una computadora, como puede comprobarse en el
ejercicio 8.2, que adem´as muestra una forma de evitar ese peligro.
Ejemplo 8.A: Duraci´ on de pilas Los siguientes datos son las duraciones (en horas)
de una muestra de pilas el´ectricas [16].
237 242 232 242 248 230 244 243 254
262 234 220 225 246 232 218 228 240
El lector puede verificar que la media y varianza muestrales son respectivamente 237 y 121.
La media y varianza muestrales tienen la propiedad de que si se las conoce para dos
muestras, tambi´en se las puede conocer para su uni´on (ejercicio 8.3). Pese a estas ventajas,
estos dos par´ametros pueden ser enga˜ nosos si se buscan “valores representativos”, como se
vio en el ejemplo de p´ag. 57.
8.1.2 Diagrama de tallo y hoja
Sean x
(1)
≤ . . . ≤ x
(n)
los x
i
ordenados (o estad´ısticos de orden). Los m´etodos m´as ´ utiles
para analizar una muestra est´an basados en los x
(i)
, cuyo c´alculo requiere obviamente
ordenar la muestra. Esto puede ser engorroso si n es grande y no se dispone de una
computadora. El siguiente m´etodo, inventado por J.W. Tukey y llamado diagrama de
tallo y hoja (“stem-and-leaf plot”) [9], est´a basado en la idea de que es m´as f´acil ordenar
varios conjuntos peque˜ nos que uno grande. Como es m´as f´acil explicarlo con un ejemplo,
lo haremos con los datos del Ejemplo 8.A. El lado izquierdo de la Tabla 8.1 muestra el
primer paso. Una r´apida mirada a los datos muestra que ´estos est´an entre 210 y 270. Los
n´ umeros de la primera columna (“tallo”) representan a 210,. . . ,260. El primer valor de la
muestra es 237, que tiene “tallo” 23 y “hoja” 7, y figura por lo tanto como “7” en la fila
del 23. El segundo es 242, que figura como “2” en la fila del 24, etc..
Tabla 8.1: Diagrama de tallo y hoja
21 8 1 1 21 8
22 0 5 8 4 3 22 0 5 8
23 7 2 0 4 2 10 6 23 0 2 2 4 7
24 2 2 8 4 3 6 0 16 6 24 0 2 2 3 4 6 8
25 4 17 1 25 4
26 2 18 1 26 2
En cada fila se ordenan las “hojas”. El lado derecho de la tabla muestra el resultado
final. La segunda columna indica la cantidad de hojas de cada tallo, y la primera da la
suma acumulada. Ahora es f´acil hallar cualquier x
(i)
gui´andose por la primera columna.
8.1. RES
´
UMENES 97
El criterio para elegir el tama˜ no de los “tallos” es que en cada uno la cantidad de valores
permita ordenarlos f´acilmente. No es necesario –aunque es conveniente– que los tallos
est´en igualmente espaciados. Como veremos en la secci´on 8.2.1, este diagrama brinda no
s´olo un ordenamiento de los datos, sino una forma de representarlos.
8.1.3 Cuantiles muestrales
Volvemos al objetivo de describir la muestra. Como se defini´o en la secci´on 4.5.1, el cuantil
α de F

es cualquier n´ umero x
α
tal que F

(t) ≤ α si t < x
α
, y F

(t) ≥ α si t > x
α
.
Como F

es una escalera, los cuantiles no quedan as´ı un´ıvocamente definidos. Para que
x
α
quede bien definido, y sea adem´as una funci´on creciente y continua de α, se introduce
una peque˜ na modificaci´on, definiendo
x

α
= (1 −h)x
(k)
+hx
(k+1)
para α ∈ [1/2n, 1 −1/2n], (8.4)
donde k y h son respectivamente la parte entera y la parte fraccionaria de u = nα +0.5; o
sea, k = [u] y h = u −[u].
Para justificar esta definici´on, recordemos que el gr´afico de F

es una sucesi´on de
escalones: en x
(k)
, F

salta de (k − 1)/n a k/n. Sea
˜
F la funci´on que se obtiene de F

uniendo con segmentos los puntos medios de las l´ıneas verticales de los escalones, o sea, una
sucesi´on de “rampas”. La primera rampa se prolonga hasta la ordenada 0 por la izquierda
y la ´ ultima por la derecha hasta 1. De modo que
˜
F(x
(k)
) =
1
2

k −1
n
+
k
n

=
2k −1
2n
, (8.5)
y es lineal entre los x
(k)
. Entonces
˜
F es continua y creciente, y x

α
de (8.4) es la ´ unica
soluci´on de
˜
F(x

α
) = α. (8.6)
Para α = 0.5 se tiene la mediana muestral. Si n es par, n = 2m con m entero, lo
que implica u = m + 0.5, y por lo tanto k = m = n/2 y h = 0.5, con lo que resulta
x

0.5
= (x
(k)
+ x
(k+1)
)/2, o sea, el promedio de las dos observaciones centrales. Si n es
impar: n = 2m−1, que implica u = m = (n + 1)/2, y por lo tanto k = m y h = 0, de lo
que resulta x
0.5
= x
(m)
, o sea, la observaci´on central. Para la muestra de pilas, la mediana
es (x
(9)
+x
(10)
)/2 = 236.5.
De igual forma se calculan los cuartiles muestrales (α = 0.25 y α = 0.75); aqu´ı hay
4 casos que considerar, que quedan a cargo del lector. Para las pilas, los cuartiles son
x
(5)
y x
(14)
. Con los cuartiles se puede medir la asimetr´ıa mediante (4.42). Un resumen
de 5 n´ umeros de la muestra consiste de: el m
´
inimo, los 3 cuartiles, y el m´aximo.
8.1.4 Diagrama de caja
El diagrama de caja (“box plot”) [9] es una representaci´on gr´afica del resumen de 5 n´ umeros,
que se obtiene marc´andolos sobre una recta y recuadrando los 3 cuartiles (Figura 8.1). Cada
98 CAP´ıTULO 8. DESCRIPCI
´
ON DE UNA MUESTRA
uno de los cuatro segmentos que se forman contiene aproximadamente la cuarta parte de
las observaciones; la “caja” contiene aproximadamente la mitad. El diagrama da entonces
una visi´on r´apida de c´omo est´an distribuidas las observaciones, y en particular una idea
del grado de asimetr´ıa. Tambi´en es ´ util para comparar dos o m´as muestras.
Ejemplo 8.B: Calor de fusi´ on del hielo Dos m´etodos, A y B, fueron utilizados para
determinar la cantidad de calor necesaria para llevar el hielo de −72
o
C a 0
o
C (en calor´ıas
por gramo de masa) [14]. Para simplificar, se ha restado 79 de todos los valores.
A : 0.98 1.04 1.02 1.04 1.03 1.03 1.04 0.97
1.05 1.03 1.02 1.00 1.02
B : 1.02 0.94 0.98 0.97 0.97 1.03 0.95 0.97
El lector puede comprobar que los respectivos res´ umenes de 5 valores son:
A : 0.97 1.015 1.03 1.04 1.05
B : 0.94 0.96 0.97 1.00 1.03
De aqu´ı se obtienen los diagrama de caja de las muestras de la Figura 8.1, en los que
se puede apreciar que difieren en posici´on, dispersi´on y asimetr´ıa.
A
B
.94 .96 .98 1.0 1.02 1.04
Figura 8.1: Fusi´on del hielo: diagramas de caja
Datos agrupados
En algunos casos –especialmente cuando n es muy grande– no se dispone de la muestra,
sino de los valores agrupados. Es decir, para m intervalos de extremos a
0
< . . . < a
m
se
conocen las frecuencias f
j
= card{x
i
∈ [a
j−1
, a
j
)}.
Si se quiere calcular ¯ x y v
x
con datos agrupados, no se dispone de toda la infor-
maci´on necesaria. Una buena aproximaci´on se obtiene suponiendo que los datos est´an
uniformemente distribuidos en cada intervalo. Sean p
j
= f
j
/n las frecuencias relativas,
8.2. LA FORMA DE LA DISTRIBUCI
´
ON 99
¯ x
j
= (a
j−1
+a
j
)/2 los puntos medios, y L
j
= a
j
− a
j−1
las longitudes de los intervalos.
Entonces se tiene la aproximaci´on
¯ x ≈
m
¸
j=1
p
j
¯ x
j
, v
x

m
¸
j=1
p
j
(¯ x
j
− ¯ x)
2
+
1
12
m
¸
j=1
p
j
L
2
j
. (8.7)
Es decir, la media se calcula como si todas las observaciones estuvieran en los puntos
medios de los intervalos; y la varianza tambi´en, m´as el ´ ultimo t´ermino que tiene en cuenta
las longitudes de los mismos, y que se suele llamar correcci´ on de Shepard. Para la deducci´on,
ver el ejercicio 8.10
Si los datos est´an agrupados, s´olo se pueden estimar algunos cuantiles. Sean q
j
=
F

(a
j
) =
¸
j
k=1
p
k
; entonces se puede estimar x

qj
= a
j
. Los cuantiles intermedios se
aproximan interpolando.
8.2 La forma de la distribuci´ on
Es importante tener una idea gr´afica de la forma de la distribuci´on muestral; en particular,
para orientarse en la elecci´on de un modelo. Veremos a continuaci´ on dos m´etodos simples.
8.2.1 Histograma
Un histograma de una muestra se obtiene eligiendo una partici´on en m intervalos de
extremos a
0
< . . . < a
m
, con longitudes L
j
= a
j
− a
j−1
; calculando las frecuencias
f
j
= card{x
i
∈ [a
j−1
, a
j
)} (o las frecuencias relativas p
j
= f
j
/n), y graficando la funci´on
igual a f
j
/L
j
(o p
j
/L
j
) en el intervalo [a
j−1
, a
j
) y a 0 fuera de los intervalos. O sea, un
conjunto de rect´angulos con ´area f
j
(o p
j
). Esto es una versi´on discreta de la densidad, en
la que ´areas miden frecuencias.
Por ejemplo, si para los datos del Ejemplo 8.A elegimos los intervalos de extremos 210,
230,240, 250 y 270, obtenemos el histograma de la Figura 8.2 (los extremos fueron elegidos
as´ı s´olo como ilustraci´on).
Si los datos vienen agrupados, los intervalos est´an ya determinados. Pero si no, lamentable-
mente no hay reglas simples para elegir su n´ umero y sus extremos. Si son muy angostos,
hay m´as detalle en la representaci´on, pero m´as variabilidad, y viceversa. Salvo que n sea
muy grande, se recomienda probar distintas variantes para distinguir lo real de lo ilusorio.
Si el lector mira el diagrama de tallo y hoja de Tabla 8.1 girando el libro 90
o
, notar´a
que ¡obtuvo gratis un histograma!. De modo que aqu´ı tenemos otro uso de dicho diagrama
(que s´olo es v´alido si las “hojas” est´an igualmente espaciadas).
8.2.2 Diagrama de cuantiles
A veces se desea comparar la forma de la distribuci´on muestral con la de una distribuci´on
o familia de distribuciones dada (por ejemplo, normal o exponencial). Un motivo puede ser
que la distribuci´on dada figure en las suposiciones de alg´ un m´etodo estad´ıstico que se va a
100 CAP´ıTULO 8. DESCRIPCI
´
ON DE UNA MUESTRA
210 230 240 250 270
Figura 8.2: Histograma de la duraci´on de pilas
aplicar, como se ver´a en los cap´ıtulos siguientes; y entonces se quiere ver en qu´e medida los
datos parecen estar de acuerdo con las suposiciones. Otro motivo puede ser simplemente
el disponer de una manera m´as sencilla de describir una distribuci´on muestral, diciendo,
por ejemplo “es aproximadamente normal, salvo que un poco asim´etrica”.
Sea G la distribuci´on dada. El diagrama de cuantiles consiste en graficar los cuantiles
muestrales con los correspondientes de G, o sea, x

α
contra G
−1
(α) para α ∈ (0, 1). Como
por (8.5) es
˜
F(x
(k)
) = α
k
donde
α
k
=
2k −1
2n
, (8.8)
el diagrama se hace graficando x
(k)
en la ordenada contra G
−1

k
) en la abscisa, para
k = 1, . . . , n. Si F

≈ G, el gr´afico debiera aproximarse a la recta identidad.
Frecuentemente, uno desea comparar la distribuci´on muestral con una familia de dis-
tribuciones. Consideremos por ejemplo la normal. Si G es la FD correspondiente a N(0, 1),
y F la de N(µ, σ
2
), es F
−1
(u) = σG
−1
(u) +µ para u ∈ (0, 1), y por lo tanto el gr´afico de
F
−1
contra G
−1
da una recta con pendiente σ y ordenada en el origen µ. En consecuen-
cia, si F

es aproximadamente normal, el diagrama de cuantiles de la muestra con N(0, 1)
dar´a aproximadamente una recta, con ordenada en el origen y pendiente aproximadamente
iguales a la media y la desviaci´on. Del gr´afico se podr´a inferir en qu´e aspectos difiere F

de
la normal. La misma idea vale para cualquier familia de escala y posici´on. Si se desea com-
parar con la familia exponencial, el gr´afico con G = Ex(1) debiera dar aproximadamente
una recta por el origen.
Ejemplo 8.C: Velocidad de la luz Los datos siguientes corresponden a 20 mediciones
(en segundos) del tiempo empleado por la luz para recorrer una distancia de 7442 m. [20]
(para simplificar, los datos de la tabla son el resultado de restar 24.8 a los datos originales,
8.2. LA FORMA DE LA DISTRIBUCI
´
ON 101
y luego multiplicar por 1000).
28 26 33 24 34 −44 27 16 40 −2
29 22 24 21 25 30 23 29 31 19
En el diagrama normal de cuantiles de la Figura 8.3 se ve que la muestra est´a bas-
tante bien descripta por la normal, salvo las dos observaciones menores que se apartan
notablemente.
x
(i)
-40
-20
0
20
40
-2 2 -1 1 0
×
×
×
×
×
×
×
××
×
×
×
×
××
×
×
×
×
×
Figura 8.3: Tiempos de pasaje de la luz: diagrama normal
Realizar estos diagramas a mano puede ser muy trabajoso para n grande. Pero se
puede realizar un diagrama simplificado, basado en la idea de que no es indispensable usar
todos los x
(i)
, y que la informaci´on m´as importante sobre diferencias entre la distribuci´on
muestral y la te´orica suele notarse en los extremos. La idea b´asica es comparar los cuan-
tiles α de ambas distribuciones, para α = 1/2, 1/4, 1/8 . . . y sus sim´etricos 3/4, 7/8, . . . .
M´as precisamente, definiremos un subconjunto de ´ındices “k” de {1, . . . , n}. El primero
corresponde a la mediana, y es igual a (n+1)/2 (que para n par representa el promedio de
las dos observaciones centrales). Dado un k, el pr´oximo es [(k +1)/2], hasta llegar a 1. Por
ejemplo, si n = 19, la secuencia es 10, 5, 3, 2, 1. Luego se toman los sim´etricos n −k +1;
y quedan en definitiva 1,2,3,5,10,15,17,18,19 (donde “10” corresponde a la mediana). Si
n = 20, la secuencia total es 1,2,3,5,10.5 ,15,17,18,19 (donde “10.5” representa el promedio
de x
(10)
y x
(11)
, o sea la mediana).
Para cada uno de estos valores de k se calcula el correspondiente α
k
de (8.8), y la
abscisa G
−1

k
), que se grafica contra la ordenada x
(k)
. Es m´as f´acil verlo con un ejemplo.
102 CAP´ıTULO 8. DESCRIPCI
´
ON DE UNA MUESTRA
Ejemplo 8.D: Resina sint´etica La Tabla 8.2 da las duraciones bajo tensi´on de 100
filamentos de Kevlar, una resina sint´etica [14], ya ordenadas.
Tabla 8.2: Duraci´on de filamentos de Kevlar (en horas)
0.18 3.1 4.2 6.0 7.5 8.2 8.5 10.30 10.6 24.2
29.6 31.7 41.9 44.1 49.5 50.1 59.7 61.70 64.4 69.7
70.0 77.8 80.5 82.3 83.5 84.2 87.1 87.30 93.2 103.4
104.6 105.5 108.8 112.6 116.8 118.0 122.3 123.50 124.4 125.4
129.5 130.4 131.6 132.8 133.8 137.0 140.2 140.90 148.5 149.2
152.2 152.8 157.7 160.0 163.6 166.9 170.5 174.90 177.7 179.2
183.6 183.8 194.3 195.1 195.3 202.6 220.0 221.30 227.2 251.0
266.5 267.9 269.2 270.4 272.5 285.9 292.6 295.10 301.1 304.3
316.8 329.8 334.1 346.2 351.2 353.3 369.3 372.30 381.3 393.5
451.3 461.5 574.2 656.3 663.0 669.8 739.7 759.60 894.7 974.9
Veremos si estos datos se pueden ajustar por una distribuci´on exponencial. La Tabla
8.3 muestra los c´alculos previos.
Tabla 8.3: Kevlar: valores auxiliares
k α
k
−ln(1 −α
k
) x
(k)
1 0.005 0.005 0.18
2 0.015 0.015 3.1
4 0.035 0.036 6.0
7 0.065 0.067 8.5
13 0.125 0.13 41.9
25 0.245 0.28 83.5
50.5 0.5 0.69 150.7
76 0.765 1.41 285.9
88 0.875 2.08 372.3
94 0.935 2.73 656.3
97 0.965 3.35 739.7
99 0.985 4.20 894.7
100 0.995 5.30 974.9
El “50.5” representa la mediana, promedio de x
(50)
y x
(51)
. Con este material se realiza
el gr´afico de la Figura 8.4, que muestra poca correspondencia entre ambas distribuciones:
si bien los valores menores siguen aproximadamente una recta por el origen, esto no sucede
si se incluyen los mayores.
La familia de distribuciones Weibull puede ser transformada en una de escala y posici´on
8.3. EJERCICIOS 103
0
200
400
600
800
1000
0 2 4 6
××××
×
×
×
×
×
×
×
×
×
Figura 8.4: Kevlar: diagrama exponencial
tomando logaritmos (Ejemplo 3.E). El lector podr´a verificar que la Weibull da un muy
buen ajuste a estos datos (ejercicio 8.8).
8.3 Ejercicios
8.1 Sean X
i
(i = 1, . . . , n) variables independientes con funci´on de distribuci´on F, y sea
F

la funci´on de distribuci´on emp´ırica correspondiente a la muestra X
1
, . . . , X
n
, o
sea F

(x) = n
−1
¸
n
i=1
I(X
i
≤ x). Probar que para cada x es EF

(x) = nF(x) y
var(F

(x)) = nF(x)(1 −F(x)).
8.2 Compare los resultados de calcular la varianza muestral de los n´ umeros: 1000001,
1000002, 1000003, de las dos formas (8.2) y (8.3) utilizando (o simulando) una cal-
culadora que retiene los primeros 7 d´ıgitos significativos. Rep´ıtalo despu´es de restar
1000000 a todos los datos.
8.3 Si de cada una de dos muestras conoce s´olo la media, la varianza y el n´ umero de
elementos, muestre c´omo calcular media y varianza de la uni´on.
8.4 Probar (8.6).
104 CAP´ıTULO 8. DESCRIPCI
´
ON DE UNA MUESTRA
8.5 Los siguientes valores son las duraciones (en horas) de una muestra de 15 l´amparas:
459 84 166 559 459 3425 1784 2250
4142 3425 1251 0765 0866 1605 1251
a. Hacer el diagrama de caja.
b. Hacer un gr´afico de cuantiles con la distribuci´on exponencial.
c. Idem con la normal.
8.6 Los datos siguientes son determinaciones del paralaje del sol –es decir, del ´angulo
bajo el cual se ver´ıa la Tierra desde el sol– en segundos de arco. Haga los diagramas
de tallo y hoja, de caja, y el diagrama normal de cuantiles. ¿Qu´e descripci´on har´ıa
de los resultados?.
8.65 8.35 8.71 8.31 8.36 8.58
7.80 7.71 8.30 9.71 8.50 8.28
9.87 8.86 5.76 8.44 8.23
8.7 a. Haga el diagrama de tallo y hoja de los datos del Ejemplo 8.D.
b. Mirando el histograma producido, ¿puede darse una idea de por qu´e fall´o el
ajuste a la exponencial?.
8.8 a. Usando los resultados del Ejercicio 3.13 (b), describa un m´etodo para comparar
una distribuci´on muestral con una Weibull.
b. Aplique dicho m´etodo a los datos del Ejemplo 8.D [en la Tabla 8.3 tiene hecha
parte del trabajo].
8.9 Los datos siguientes son longitudes dorsales (en mm.) de oct´opodos de distintas
especies [14]. Hacer un diagrama de cuantiles para comparar con la log-normal.
21 23 28 32 19 22 27 29
67 80 110 190 63 73 84 130
08 12 16 18 05 10 15 17
40 44 51 57 35 43 49 54
8.10 Sean a
0
< a
1
< . . . < a
m
, p
i
(i = 1, . . . , m) n´ umeros posiivos que suman 1, y f la
densidad dada por f =
¸
m
j=1
p
j
f
j
, donde f
j
es la densidad uniforme en [a
j−1
, a
j
].
Calcular la media y varianza de f y comparar con (8.7).
Cap´ıtulo 9
Estimaci´ on Puntual
9.1 Introducci´ on
Hasta ahora nos hemos ocupado de obtener propiedades de observaciones correspondien-
tes a variables con una distribuci´on dada. Ahora trataremos el problema inverso: se
tienen observaciones correspondientes a una distribuci´on desconocida, y se quiere obtener
informaci´on sobre ´esta. En las situaciones m´as manejables, se supone que la distribuci´on
pertenece a una familia con ciertos par´ametros que se desea estimar. Para entrar en tema,
comenzamos con un ejemplo.
Ejemplo 9.A: Control de calidad Se desea controlar un lote de N = 1000 latas de
conservas, de las cuales un n´ umero M desconocido son defectuosas (tienen botulismo).
Se elige al azar una muestra de n = 30 sin reemplazo. Examinadas estas, resultan 2
defectuosas. ¿Qu´e se puede decir de M?.
Esta es una situaci´on t´ıpica de inferencia estad´ıstica: de una muestra, obtener conclu-
siones sobre una poblaci´on. Sea en general X la cantidad de latas defectuosas en la muestra;
X es una variable aleatoria. La distribuci´on de X (en este caso la hipergeom´etrica) con-
tiene un par´ametro desconocido, M. En este caso, el par´ametro podr´ıa ser determinado
exactamente, examinando todas las latas; salvo que esto ser´ıa un tanto antiecon´omico. Se
busca una regla que a cada valor de X haga corresponder un n´ umero M

(X), tal que “en
alg´ un sentido” sea M

(X) ≈ M. Esto es un estimador puntual. Aqu´ı, M

es una funci´on
de {0, 1, . . . , n} en {0, 1, . . . , N}. Tambi´en, M

(X) es una variable aleatoria. Se suele usar
la misma notaci´on “M

” para ambas, y llamar a ambas “estimador”, lo que no produce
confusiones, aunque desde el punto de vista formal sea un “abuso de lenguaje”.
Una forma en la cual se puede precisar el sentido de “M

(X) ≈ M”, es a trav´es de
una medida del error. La m´as usada es el error medio cuadr´ atico: emc = E(M

−M)
2
. A
trav´es del emc se puede establecer si el estimador tiene la precisi´on deseada.
La intuici´on dice que debiera ser M

= NX/n. Pero ¿hay alguna manera sistem´atica
de obtener “buenos” estimadores?. A continuaci´on se muestran los dos m´etodos m´as im-
105
106 CAP´ıTULO 9. ESTIMACI
´
ON PUNTUAL
portantes.
El m´etodo de m´ axima verosimilitud
La distribuci´on de X depende del par´ametro desconocido M. Para ponerlo de manifiesto,
escribimos
P(X = x) = p(x, M) para x ∈ {0, 1, . . . , n},
donde –por ser D(X) = Hi(M, N, n)–, es
p(x, M) =

M
x

N −M
n −x

N
n
.
El m´etodo de m´ axima verosimilitud (en ingl´es: “maximum likelihood”) consiste en definir
para cada x la funci´on M

(x) como el valor de M que maximiza p(x, M), entre los va-
lores que puede tomar el par´ametro; en este caso, enteros entre 0 y N; es decir, el valor
del par´ametro que maximiza la probabilidad de que “haya sucedido lo que efectivamente
sucedi´o”. En este caso, como M toma s´olo valores enteros, para hallar el m´aximo buscamos
los M para los que p(x, M)/p(x, M − 1) > 1 (a semejanza de la resoluci´on del ejercicio
2.19).
Simplificando los factoriales, queda
p(x, M)
p(x, M −1)
=
M(N −M −n +x +1)
(N −M + 1)(M −x)
> 1
⇐⇒Mn < Nx +x ⇐⇒M <
(N +1)x
n
.
Sea u = (N + 1)x/n. Si 0 < x < n, entonces para cada x, p(x, M) alcanza su m´aximo en
M = [u] si u no es entero; y en M = u y M = u − 1 si u es entero. Si x = n, es siempre
p(x, M)/p(x, M − 1) > 1, o sea p(x, M) es creciente en M, y por lo tanto el m´aximo se
alcanza en M = N; si x = 0, p(x, M) es decreciente en M, y el m´aximo se alcanza en
M = 0. En consecuencia tenemos
M

(x) =
¸
(N +1)x
n

si x < n
= N si x = n;
(donde “[.]

es la parte entera), lo que est´a de acuerdo con la intuici´on. Este es el estimador
de maxima verosimilitud (EMV). N´otese que, por definici´on, el EMV toma siempre valores
admisibles del par´ametro (en este caso, enteros entre 0 y N). En el Ejemplo 9.A es M

= 66.
El m´etodo de los momentos
Notemos que la esperanza de X depende de M:
EX =
¸
x∈C
xp(x, M) =
nM
N
.
9.2. M
´
ETODOS DE ESTIMACI
´
ON 107
El m´etodo consiste en igualar EX con X y resolver la ecuaci´on resultante:
nM
N
= X ⇐⇒M =
NX
n
.
y se define el estimador como M

= NX/n. Esto da parecido al EMV, pero el valor que se
obtiene puede no ser entero. En el Ejemplo es M

= 66.67. En muchos casos el estimador
de momentos coincide con el EMV, pero en otros pueden ser totalmente distintos (ejercicio
9.3). En general el EMV tiene menor emc que el de momentos. En compensaci´on, este
´ ultimo es en algunos casos m´as f´acil de calcular.
9.2 M´etodos de estimaci´ on
9.2.1 Estimaci´ on de un par´ ametro
Ahora pasamos a una situaci´on m´as general. Se tienen n observaciones X
1
, . . . , X
n
, que son
variables independientes con la misma distribuci´on. Esto se llama una muestra de la dis-
tribuci´on, y se dice que las variables son “iid ” (independientes id´enticamente distribuidas).
La distribuci´on contiene un par´ametro desconocido θ que pertenece a un conjunto Θ. Sea
F(x, θ) la funci´on de distribuci´on.
Si la distribuci´on es discreta, queda descripta por la funci´on de frecuencia, que depende
de θ : P(X
i
= x) = p(x, θ) (i = 1, . . . , n) para x ∈ C, conjunto finito o numerable (que
puede depender de θ). Si es continua, queda descripta por la densidad (com´ un a todas las
X
i
) f(x, θ) = ∂F(x, θ)/∂x. Un estimador puntual de θ es una funci´on θ

= θ

(X
1
, . . . , X
n
)
con la que se desea aproximar a θ. Pasamos a definir en general los dos m´etodos de la
secci´on anterior.
M´etodo de m´axima verosimilitud
Se define la funci´ on de verosimilitud como la funci´on de frecuencia o de densidad conjunta
de las observaciones:
L(x
1
, . . . , x
n
; θ) =
n
¸
i=1
p(x
i
, θ) para x
i
∈ C (caso discreto)
=
n
¸
i=1
f(x
i
, θ) (caso continuo). (9.1)
El EMV es el valor de θ ∈ Θ (que depende de x
1
, . . . , x
n
) que maximiza L(x
1
, . . . , x
n
; θ):
θ

= θ

(x
1
, . . . , x
n
).
108 CAP´ıTULO 9. ESTIMACI
´
ON PUNTUAL
M´etodo de los momentos
La esperanza EX
i
es una funci´on de θ (no depende de i):
EX
i
=
¸
x
xp(x, θ) (caso discreto)
=


−∞
xf(x, θ) dx (caso continuo).
Sea m(θ) = EX . El m´etodo de momentos (en su versi´on m´as simple) consiste en plantear
una ecuaci´on, igualando la media “te´orica” m(θ) con la media emp´ırica
¯
X:
m(θ) =
¯
X =
1
n
n
¸
i=1
X
i
. (9.2)
La soluci´on, que depende de X
1
, . . . , X
n
, es el estimador de momentos. En el ejemplo 9.A
ten´ıamos n = 1.
Ejemplo 9.B: Exponencial Se prueba un lote de n l´amparas cuyos tiempos de duraci´on
X
i
, i = 1 . . . , n se suponen variables independientes con distribuci´on Ex(θ):
f(x, θ) =
1
θ
e
−x/θ
I(x ≥ 0).
Para el EMV de θ, la funci´on de verosimilitud es:
L(x
1
, . . . , x
n
; θ) =
1
θ
n
exp


1
θ
n
¸
i=1
x
i

I(x
1
≥ 0, . . . , x
n
≥ 0).
Haciendo ∂L/∂θ = 0 queda θ

(x
1
, . . . , x
n
) = ¯ x, o sea θ

=
¯
X.
Para el estimador de momentos: EX
i
= θ = m(θ). Por lo tanto se obtiene θ

=
¯
X otra
vez.
Un estimador de momentos, en forma m´as general, se puede definir igualando las medias
te´orica y emp´ırica, no de las X
i
sino de una alguna funci´on g de las mismas; o sea, de la
ecuaci´on
Eg(X) =
1
n
n
¸
i=1
g(X
i
). (9.3)
Si bien lo habitual es tomar g(x) = x, hay casos en que esa elecci´on no sirve, y es mejor
tomar, por ejemplo, g de la forma g(x) = x
k
, como se ver´a a continuaci´on.
Ejemplo 9.C: Varianza de la normal Si X
i
∼ N(0, σ
2
) y se desea estimar la varianza
θ = σ
2
aplicando (9.2), resulta EX
i
= 0, y por lo tanto la ecuaci´on no da nada. Una
alternativa es aplicar (9.2) a las X
2
i
, que da la ecuaci´on
EX
2
i
= θ =
1
n
n
¸
i=1
X
2
i
,
9.2. M
´
ETODOS DE ESTIMACI
´
ON 109
resultado razonable.
Las distintas elecciones de g no tienen por qu´e dar como resultado el mismo estimador
(ejercicio 9.9).
En la mayor´ıa de las situaciones, el conjunto C =
{x : f(x, θ) > 0} o C = {x : p(x, θ) > 0} no depende de θ. Por ejemplo, para la nor-
mal es C = R, y para Ex(θ) es C = R
+
∀θ > 0. Esto se llama el caso regular. En estos
casos, como las sumas suelen ser m´as tratables que los productos, una forma conveniente
de obtener el EMV es maximizar el logaritmo de L, lo que es equivalente a maximizar L
por ser el logaritmo una funci´on creciente. Derivando, queda la ecuaci´on
n
¸
i=1
ψ(x, θ) = 0, (9.4)
donde ψ(x, θ) = ∂ log f(x, θ)/∂θ o ∂ log p(x, θ)/∂θ.
Ejemplo 9.D: Media de la normal Si X
i
∼ N(µ, σ
2
) y se busca el EMV de µ, se
verifica enseguida que ψ(x, µ) = (x −µ)/σ
2
; y por lo tanto (9.4) da µ

=
¯
X.
Ejemplo 9.E: Estimaci´ on en el proceso de Poisson Para estimar la intensidad c de un
proceso de Poisson, hay dos formas de observarlo. La primera es hacerlo hasta un instante
t prefijado, y registrar la cantidad N de sucesos, que es Po(ct); o sea que tenemos una
muestra de tama˜ no 1 de la Poisson. Tomando logaritmo y derivando, se deduce enseguida
que el EMV de c es c

t
= N/t.
La segunda forma es fijar un n, y observar el proceso hasta el instante T en que se
produce el n-´esimo suceso; la densidad de T es de la forma (3.13). Es inmediato que
ψ(t, c) = n/c − t, y por lo tanto el EMV es ˆ c
n
= n/T. De modo que si –por ejemplo–
se registran 20 sucesos en 10 segundos, el estimador de c es 20/10 sin importar de cu´al de
las dos formas se realiz´o la medici´on. Sin embargo, las propiedades estad´ısticas de ambos
estimadores no son las mismas (ejercicio 9.16).
Si el caso no es regular, puede ser necesario analizar el m´aximo directamente, como en
el ejemplo que sigue.
Ejemplo 9.F: Uniforme Si X
i
∼ Un(0, θ), es f(x, θ) = (1/θ) I(0 ≤ x ≤ θ), y el
conjunto donde f > 0 es [0, θ], por lo que no estamos en el caso regular. La funci´on de
verosimilitud es
L(x
1
, . . . , x
n
; θ) =
1
θ
n
I

¸
i
(0 ≤ x
i
≤ θ)

=
1
θ
n
I(0 ≤ m´ın
i
x
i
≤ m´ax
i
x
i
≤ θ).
Si θ < m´ax
i
x
i
es L = 0, de modo que all´ı no puede estar el m´aximo. Para θ > m´ax
i
x
i
es
L = θ
−n
, que es decreciente, y por lo tanto el m´aximo se encuentra en θ = m´ax
i
x
i
. Se ha
deducido entonces que el EMV es θ

= m´ax
i
X
i
.
110 CAP´ıTULO 9. ESTIMACI
´
ON PUNTUAL
9.2.2 Transformaciones
Transformaciones del par´ametro
Parecer´ıa razonable que si el EMV de un par´ametro θ es θ

, el EMV de θ
3
deba ser (θ

)
3
.
Para verificarlo, recordemos que el EMV θ

maximiza L(x
1
, . . . , x
n
; θ). Si expresamos todo
en funci´on de τ = θ
3
, resulta que tenemos que maximizar L(x
1
, . . . , x
n
; τ
1/3
), para lo cual
debe ser τ
1/3
= θ

, y por lo tanto τ = θ
3
. Lo mismo vale reemplazando el cubo por
cualquier funci´on inyectiva del par´ametro. El lector puede probar que la misma propiedad
vale para el estimador de momentos (ejercicio 9.7).
Transformaciones de las observaciones
Comenzamos con un ejemplo. Supongamos las X
i
lognormales, con par´ametros µ y σ,
´esta ´ ultima conocida. El lector ya habr´a calculado la densidad de las X
i
en el ejercicio 3.9:
xϕ((lnx −µ)/σ). Para calcular el EMV µ

de µ, el mismo proceso que el del Ejemplo 9.D
da que ´este es el promedio de lnX
i
. Si en vez de las X
i
observ´aramos Y
i
= lnX
i
, dado que
estas son N(µ, σ
2
), es inmediato que el EMV basado en las Y
i
es el promedio
¯
Y de ´estas,
que coincide con µ

.
En general, si en vez de las X
i
observamos Y
i
= h(X
i
) donde h es una funci´on inyectiva,
el EMV no se altera, en el sentido de que si θ

y
ˆ
θ son los EMV basados en la distribuci´on
de las X
i
y en la de las Y
i
, entonces
θ

(x
1
, . . . , x
n
) =
ˆ
θ(y
1
, . . . , y
n
) con y
i
= h(x
i
). (9.5)
La demostraci´on queda a cargo del lector (ejercicio 9.8).
En cambio no sucede lo mismo para el estimador de momentos, como verificar´a el lector
en el ejercicio 9.9.
9.2.3 Evaluaci´ on de estimadores
El emc se puede descomponer como
emc = E{(θ

−Eθ

) + (Eθ

−θ)}
2
= var(θ

) + b(θ

)
2
,
donde b(θ

) = Eθ

−θ es el llamado sesgo del estimador. De modo que el primer t´ermino
describe la “variabilidad” del estimador, y el segundo el “error sistem´atico”. O sea, Eθ

describe “alrededor de qu´e valor fluct´ ua θ

”, y var(θ

) mide cu´ anto fluct´ ua. En general,
var(θ

) y b(θ

) dependen de θ. Si b ≡ 0 se dice que el estimador es insesgado.
Como ilustraci´on, sean las X
i
una muestra de una distribuci´on con media µ y varianza
σ
2
. Evaluaremos la media y la varianza muestrales,
¯
X y V
X
, como estimadores de µ y σ
2
,
respectivamente. Como E
¯
X = µ,
¯
X es un estimador insesgado de µ. En cuanto a V
X
,
teniendo en cuenta que por (4.22) es
EX
2
i
= σ
2

2
y E
¯
X
2
=
σ
2
n

2
,
9.2. M
´
ETODOS DE ESTIMACI
´
ON 111
se obtiene
EV
X
= σ
2

1 −
1
n

. (9.6)
De aqu´ı se deduce que un estimador insesgado de σ
2
se puede obtener como
S
2
=
n
n −1
V
X
=
1
n −1
n
¸
i=1
(X
i

¯
X)
2
. (9.7)
Lamentablemente, esto no implica que S sea un estimador insesgado de σ (ejercicio 9.12).
Se dice que θ

es un estimador consistente del par´ametro θ si θ

p
→θ cuando el tama˜ no
de muestra n →∞. Esta es una propiedad deseable, porque significa que se puede estimar
al par´ametro con tanta precisi´on como se quiera, si se toman suficientes observaciones. Por
la desigualdad de Markov (4.11)
P(|θ

−θ| > ) ≤
emc

2
,
y por lo tanto, para que θ

sea consistente basta que su emc → 0 para n → ∞, lo que
equivale a que su sesgo y su varianza tiendan a 0.
Un problema importante es hallar para cada situaci´on estimadores que sean “´optimos”
en alg´ un sentido; por ejemplo, que tengan m´ınimo emc. Pero este objetivo supera el nivel
de este curso; ver [2]. Se puede mostrar que los EMV mostrados en este Cap´ıtulo son
´optimos bajo ciertas condiciones.
9.2.4 Estimaci´ on de varios par´ ametros
Consideremos una distribuci´on que depende de dos par´ametros: θ
1
y θ
2
. El EMV se define
igual que antes. Ahora la funci´on de verosimilitud es L = L(x
1
, . . . , x
n
; θ
1
, θ
2
), y los
estimadores son el par (θ

1
, θ

2
) (que depende de x
1
, . . . , x
n
) que maximiza L.
Para el estimador de momentos, sean
m
1

1
, θ
2
) = EX
i
, m
2

1
, θ
2
) = EX
2
i
. (9.8)
Entonces los estimadores de momentos θ

1
, θ

2
son la soluci´on del sistema de ecuaciones:
m
1

1
, θ
2
) =
¯
X, m
2

1
, θ
2
) =
1
n
n
¸
i=1
X
2
i
. (9.9)
N´otese que es equivalente usar en la segunda ecuaci´on la varianza, en vez del segundo
momento. Es decir, si v(θ
1
, θ
2
) es la varianza de X
i
:
v(θ
1
, θ
2
) = m
2

1
, θ
2
) −m
1

1
, θ
2
)
2
,
y V
X
es la varianza muestral de las X
i
, entonces el sistema
m
1

1
, θ
2
) =
¯
X, v(θ
1
, θ
2
) = V
X
112 CAP´ıTULO 9. ESTIMACI
´
ON PUNTUAL
es equivalente a (9.9).
En la siguiente Secci
´
ion se ver´a un ejemplo importante de estimaci´on de dos par´ametros.
En las situaciones anteriores tanto el EMV como el de momentos se han obtenido en
forma expl´ıcita. Pero no tiene por qu´e suceder esto en general (ejercicio 9.5.b).
9.3 El modelo de medici´ on con error
Se realizan n mediciones X
i
(i = 1, . . . , n) de una magnitud f´ısica cuyo valor verdadero
desconocido es µ. Debido al error de medici´on, se considera a las X
i
como variables
aleatorias. Si se supone que las mediciones se hacen todas en las mismas condiciones, y
que no se influyen, se puede postular que son iid. Si adem´as se considera que no hay
error sistem´atico, se puede postular que D(X
i
) es sim´etrica respecto de µ. A falta de m´as
informaci´on, esto es todo lo que se puede suponer sobre D(X
i
).
Una suposici´on muy usada es que las X
i
son N(µ, σ
2
), donde σ mide la dispersi´on del
error. Aqu´ı es θ
1
= µ, θ
2
= σ, ambos desconocidos. La funci´on de verosimilitud es
L(x
1
, . . . , x
n
; µ, σ) =
1
(2π)
n/2
σ
n
exp


1

2
n
¸
i=1
(x
i
−µ)
2

.
Como estamos en el caso regular por ser f > 0, derivamos log L respecto de los par´ametros,
lo que da las ecuaciones
n
¸
i=1
(x
i
−µ) = 0, nσ
2
=
n
¸
i=1
(x
i
−µ)
2
.
Por lo tanto, los EMV son la media y la desviaci´on muestrales:
µ

=
¯
X, σ

=

1
n
n
¸
i=1
(X
i

¯
X)
2

1/2
. (9.10)
Para el m´etodo de momentos, dado que
EX
i
= m
1
(µ, σ) = µ y var(X
i
) = v(µ, σ) = σ
2
,
los estimadores coinciden con los EMV.
En realidad, el motivo m´as importante para usar la normal como modelo para errores de
observaci´on, es que bajo dicha suposici´on los estimadores “buenos” de posici´on y dispersi´on
son los de (9.10), que son los m´as f´aciles de calcular. En 1820 Gauss prob´o que si para
una familia de distribuciones, el EMV de posici´on es
¯
X, entonces esa familia es la normal.
Pero esto fue con el tiempo tomado como una demostraci´ on de que los errores de medici´on
ten´ıan que ser normales, cosa que dif´ıcilmente estuviera en la intenci´on de Gauss, y que
se constituy´o durante un siglo y medio en una especie de superstici´on cient´ıfica. Dec´ıa
un estad´ıstico que “los cient´ıficos experimentales creen en la distribuci´on normal porque
9.3. EL MODELO DE MEDICI
´
ON CON ERROR 113
suponen que est´a demostrada matem´aticamente, y los matem´aticos creen en ella porque
suponen que es un hecho emp´ırico”. Pero en verdad se trata de una cuesti´on de necesidad.
Al generalizarse el uso de la computadora, se hace posible concebir estimadores que no
sean calculables a mano, y esto ha permitido aceptar otros modelos m´as generales como
distribuciones de los datos. Sobre esta actitud muy frecuente en la Estad´ıstica, de adaptar
las hip´otesis a las posibilidades de c´alculo, v´ease la Secci´on 9.3.3.
9.3.1 Varianzas distintas
En algunos casos se sabe que las mediciones no tienen igual precisi´on. Esto se puede
representar con la suposici´on de que X
i
∼ N(µ, σ
2
i
) donde las σ
i
son posiblemente distintas.
Para ver las consecuencias de esto, consideremos el caso m´as sencillo, en el que todas las
σ
i
son conocidas. La funci´on de verosimilitud es
L = (2π)
−n/2
n
¸
i=1

w
i
exp


1
2
n
¸
i=1
w
i
(x
i
−µ)
2

,
donde w
i
= 1/σ
2
. De aqu´ı se deduce que para obtener el EMV de µ hay que minimizar
¸
n
i=1
w
i
(x
i
−µ)
2
, y derivando resulta
µ

=
¸
n
i=1
w
i
x
i
¸
n
i=1
w
i
. (9.11)
Esto se llama promedio ponderado (o pesado) de las x
i
, con pesos w
i
, donde las obser-
vaciones con mayor precisi´on (o sea, menor varianza) reciben mayor peso. Las ventajas de
esto sobre un promedio simple se pueden apreciar en el ejercicio 9.13.
El lector puede verificar que el mismo resultado se obtiene si las varianzas son conocidas
a menos de una constante de proporcionalidad: σ
2
i
= γk
i
, con k
1
, . . . , k
n
conocidas y γ
desconocida.
9.3.2 Estimaci´ on robusta
Si F fuera exactamente normal,
¯
X ser´ıa el estimador conveniente. Pero si F es s´olo a-
proximadamente normal, el comportamiento de
¯
X puede ser desastroso. Una indicaci´on
de este hecho se puede ver teniendo en cuenta que, si una sola observaci´on tiene un error
grande, la media puede dar cualquier disparate (ejercicio 9.10). La incertidumbre en la
especificaci´on de F hace que sea m´as conveniente usar m´etodos que funcionen “bien” a´ un
cuando el modelo no sea conocido exactamente; en particular, cuando hay algunos datos
“at´ıpicos”. Estos son los llamados m´etodos robustos.
Un m´etodo robusto sencillo es la media podada: sean X
(1)
≤ . . . X
(n)
las observaciones
ordenadas, y sea 0 ≤ α < 1/2. Entonces se define la media α-podada como
¯
X
α
=
1
n −2m
n−m
¸
i=m+1
X
(i)
, (9.12)
114 CAP´ıTULO 9. ESTIMACI
´
ON PUNTUAL
donde m = [nα]; o sea, se toma la media descartando las mayores y menores m observa-
ciones. Una buena elecci´on es α = 0.25. El caso l´ımite α = 0.5 es la mediana.
En el Ejemplo 8.C, la media muestral es 21.8 y la media podada es
¯
X
0.25
= 25.7; la
diferencia se debe a que ´esta no toma en cuenta a las dos observaciones menores, que
sobresal´ıan en la Figura 8.3.
9.3.3 Sobre los motivos del uso de la distribuci´ on normal
El Mul´a Nasruddin es un personaje protagonista de numerosos y antiqu´ısimos cuentos
en el Cercano Oriente. Si bien la siguiente historia [18] es anterior en varios siglos al
surgimiento de la Estad´ıstica, es una buena ilustraci´on de la forma de pensar frecuente en
´esta, consistente en adaptar los modelos a lo que uno puede analizar.
Alguien vio a Nasruddin buscando algo por el suelo.
¿Qu´e has perdido, Mul´a? –le pregunt´o.
–Mi llave– contest´o.
As´ı es que ambos se arrodillaron para seguir buscando.
Despu´es de un rato el otro hombre pregunt´o:
–¿D´onde se te cay´o exactamente?.
–En mi casa –dijo.
–¿Entonces por qu´e la buscas aqu´ı?.
–Hay m´as luz aqu´ı que dentro de mi casa.
9.4 Ejercicios
9.1 Hallar los estimadores de MV y de momentos para muestras de las siguientes dis-
tribuciones: (a) Po(λ), (b) Ex(θ), (c) N(0, θ).
9.2 En los casos anteriores, calcular sesgo y varianza de los estimadores [para (c) usar el
ejercicio 4.5].
9.3 En la situaci´on del Ejemplo 9.F:
a. Calcular el estimador de momentos
b. Comparar los emc del estimador de MV y del de momentos
c. ¿Por qu´e constante hay que multiplicar al EMV para minimizar su emc?.
9.4 Hallar los estimadores de MV y de momentos de α y β para la densidad doble expo-
nencial f(x) = (1/2β) exp(−|x −α|/β) (x ∈ R). [usar 4.40].
9.5 a. Hallar los estimadores de momentos para los par´ametros de las distribuciones:
(i) Gama, (ii) binomial negativa.
b. ¿Es posible obtener una expresi´on expl´ıcita para los EMV en estos dos casos?.
9.4. EJERCICIOS 115
9.6 La distribuci´on de Pareto —muy usada en Econom´ıa— tiene densidad f(x) =
(x/β)
−(α+1)
(α/β) I(x ≥ β), con α y β positivos.
a. Hallar los estimadores de MV y de momentos de α y β.
b. Dado que P(X
i
≥ β) = 1, los estimadores debieran cumplir β

≤ X
i
∀i.
¿Cumplen esto el EMV y el de momentos?.
9.7 Sean h una inyecci´on de Θ → R, τ = h(θ), θ

y
ˆ
θ los estimadores de m´axima
verosimilitud y de momentos de θ. Probar que los estimadores de MV y de mo-
mentos de τ son respectivamente h(θ

) y h(
ˆ
θ).
9.8 Probar (9.5) para los casos discreto y continuo, suponiendo en este ´ ultimo que h es
diferenciable.
9.9 a. Se tiene una observaci´on Y , siendo Y = X
2
, donde X ∼ Bi(n, p) con n conocido
y p desconocido. Calcule el EMV de p basado en Y , y comp´arelo con el basado
en X.
b. Haga lo mismo para el estimador de momentos.
9.10 a. Calcule
¯
X y S para la muestra: 1, 2, . . . , 10.
b. Supongamos que por un error de tipeo, el “10” es trascripto como “100”. ¿C´omo
se modifican
¯
X y S?.
c. Haga lo mismo para la media podada
¯
X
0.25
.
9.11 Verificar la consistencia de los estimadores de: (a) ejercicio 9.1 (b) Ejemplo 9.F.
9.12 Calcular el sesgo de S como estimador de σ para muestras de tama˜ no 2 de N(µ, σ
2
)
[aprovechar que aqu´ı S depende s´olo de X
1
−X
2
].
9.13 Se tienen tres observaciones normales con la misma media θ y desviaciones 1, 3 y 5.
Calcular la varianza del EMV de θ, y compararla con la del promedio simple
¯
X.
9.14 Mostrar: si X ∼ Bi(n, p) con n conocido, entonces p

= X/n es un estimador
insesgado de p, pero (p

)
2
no es un estimador insesgado de p
2
.
9.15 Si θ

1
y θ

2
son estimadores insesgados del par´ametro θ, con varianzas v
1
y v
2
: hallar
entre las combinaciones lineales de θ

1
y θ

2
el estimador insesgado de m´ınima varianza.
9.16 De los dos estimadores del Ejemplo 9.E, mostrar (con auxilio del ejercicio 4.8):
a. que el primero es insesgado pero el segundo no
b. que ambos estimadores son consistentes: l´ım
t→∞
c

t
= l´ım
n→∞
ˆ c
n
= c en proba-
bilidad.
æ
116 CAP´ıTULO 9. ESTIMACI
´
ON PUNTUAL
Cap´ıtulo 10
Intervalos de Confianza
10.1 Introducci´ on
En el Ejemplo 9.A, una pregunta razonable ser´ıa: ¿entre qu´e valores se puede acotar el
n´ umero M de latas defectuosas en el lote, usando la informaci´on dada por X, el n´ umero
de defectuosas en la muestra?. En particular ¿se puede aseverar que M es menor que
determinado valor?. Obviamente, no se puede tener una respuesta determinista, pues la
´ unica afirmaci´on segura es que 0 ≤ M ≤ N, que no resulta muy pr´actica. Por lo tanto, si
buscamos un intervalo para M cuyos extremos dependen de X –que es aleatoria– s´olo
podemos aspirar a que contenga a M con una probabilidad de –por ejemplo– 0.95. Este es
el concepto de un intervalo de confianza: un intervalo que depende de las observaciones, que
contiene al valor verdadero (desconicido) del par´ametro con una probabilidad dada. Para
formalizar esta idea, consideramos en general la situaci´on de una muestra X = (X
1
, . . . , X
n
)
cuya distribuci´on depende del par´ametro θ. Indicamos con P
θ
las probabilidades cuando
el valor verdadero del par´ametro es θ.
Definici´ on 10.1 Un intervalo de confianza (IC) de nivel β es un intervalo que depende de
X: I = I(X), tal que
P
θ
(θ ∈ I(X)) = β ∀ θ. (10.1)
Una cota superior (resp. inferior) de confianza para θ, de nivel β, es una variable θ
(β)
(X)
(resp. θ
(β)
(X)) tal que P
θ
(θ ≤ θ
(β)
) = β (resp. P
θ

(β)
≤ θ) = β).
Como veremos luego, en el caso discreto no siempre se puede obtener igualdad en (10.1).
Por este motivo se define m´as generalmente un intervalo de nivel β mediante la condici´on:
P
θ
(θ ∈ I(X)) ≥ β ∀ θ. Al m´ın
θ
P
θ
(θ ∈ I(X)) se lo llama nivel de confianza.
Un intervalo se llama unilateral o bilateral seg´ un que uno o los dos extremos dependan
de X. Los intervalos unilaterales son entonces de la forma (−∞, θ
(β)
] o [θ
(β)
, ∞). Un
intervalo bilateral se obtiene a partir de una cota superior y una inferior. En efecto, sea
117
118 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
I = [θ
(1−α1)
, θ
(1−α2)
]. Entonces
P
θ
(θ ∈ I) = 1 −P
θ
(θ < θ
(1−α
1
)
) −P
θ
(θ > θ
(1−α2)
) = 1 −(α
1

2
);
y si se quiere que esto sea igual a β hay que tomar α
1

2
= α donde α = 1 −β. Desde
ahora se tomar´a siempre
α
1
= α
2
= α/2. (10.2)
La conveniencia de esta elecci´on se muestra en la Secci´on 10.3. En adelante se omitir´a el
sub´ındice θ de P cuando cuando no sea indispensable.
Es importante tener claro el significado del IC. En la afirmaci´on “P(θ ∈ I(X)) = 0.90”,
lo aleatorio dentro de la “P” no es θ, sino los extremos del intervalo. Esto parece obvio,
hasta que uno lo tiene que aplicar. En el Ejemplo 9.A, supongamos que el muestreo da
X = 2, y de all´ı sale el intervalo de confianza de nivel 0.90: I = [4, 145]. ¿Se puede entonces
afirmar que “el n´ umero de latas defectuosas en el lote est´a entre 4 y 145 con probabilidad
0.90”?. En verdad, el M verdadero est´a ya establecido; se lo podr´ıa determinar exactamente
si se decidiera examinar todo el lote, de modo que no hay en ´el nada aleatorio. La manera
l´ogica de interpretar el intervalo es: “la afirmaci´on ‘4 ≤ M ≤ 145’ se obtuvo con un m´etodo
que acierta 90 de cada 100 veces; aunque lamentablemente no sabemos si en ´esta acert´o o
no”.
En general, cualquier conjunto I que cumpla (10.1) –aunque no sea un intervalo– se
llama regi´ on de confianza.
Para ver las ideas principales para la obtenci´on de IC, tomamos un ejemplo simple.
Sean las X
i
∼ N(µ, 1) iid. Para obtener un intervalo de nivel 0.90 para µ, recordemos que
el EMV de µ es
¯
X ∼ N(µ, 1/n), y por lo tanto

n(
¯
X −µ) ∼ N(0, 1). Sea z tal que
P(−z ≤

n(
¯
X −µ) ≤ z) = Φ(z) −Φ(−z) = 0.9.
Despejando µ de las desigualdades dentro de la probabilidad, se obtiene
P(
¯
X −
z

n
≤ µ ≤
¯
X +
z

n
) = 0.9,
y por lo tanto el intervalo es I(X) = [
¯
X − z/

n,
¯
X + z/

n] (abreviado “
¯
X ± z/

n”),
donde z sale de 0.9 = Φ(z) −Φ(−z) = 2Φ(z) −1, o sea z = Φ
−1
(0.95) = 1.645.
Aqu´ı se pueden apreciar los pasos para la obtenci´on del intervalo: (1) disponer de un
estimador del par´ametro, (2) obtener su distribuci´on, (3) realizar una transformaci´on del
estimador para llevarlo a una distribuci´on que no dependa del par´ametro, (4) poner cotas
para este estimador transformado, y despejar el par´ametro de all´ı. Para no repetir el mismo
mecanismo en todos los casos, desarrollaremos esta idea en general.
10.2 El principio del pivote
Mostraremos un principio general para obtener intervalos de confianza de nivel β para un
par´ametro θ. Un pivote es una funci´on T(X, θ) cuya distribuci´on no depende de θ (ni de
10.2. EL PRINCIPIO DEL PIVOTE 119
ning´ un otro par´ametro desconocido, cuando hay varios par´ametros). M´as exactamente:
para cada t, P
θ
(T(X, θ) ≤ t) no depende de θ. En el ejemplo anterior era T =
¯
X − µ (o
cualquier funci´on de T).
Sea G la funci´on de distribuci´on de T (no depende de θ). Dado z, sea θ
z
= θ
z
(X)
soluci´on de la ecuaci´on T(X, θ
z
) = z. Si T(X, θ) es funci´on decreciente de θ,
T(X, θ) ≥ z ⇐⇒ θ ≤ θ
z
. Por lo tanto P(θ ≤ θ
z
) = 1 −G(z), y en consecuencia eligiendo
z tal que 1 − G(z) = β se obtiene una cota superior: θ
(β)
= θ
z
. De la misma manera,
tomando z tal que G(z) = β se obtiene una cota inferior. Si el pivote es funci´on creciente
de θ, se reemplaza β por 1 −β.
A continuaci´on veremos la aplicaci´on de este principio a las distribuciones m´as usuales.
Desde ahora se usar´a la notaci´on α = 1 −β.
10.2.1 Media de la normal con varianza conocida
Sean X
i
∼ N(µ, σ
2
) con σ conocida. Como el estimador
¯
X ∼ N(µ, σ
2
/n) cumple

n(
¯
X − µ)/σ ∼ N(0, 1), el pivote obvio es T =

n(
¯
X − µ)/σ, que es decreciente en
µ. Desde ahora denotaremos z
γ
= Φ
−1
(γ), el cuantil γ de N(0, 1). La ecuaci´on T = z da
µ =
¯
X − zσ/

n; tomando z = z
α
= −z
β
(resp. z = z
β
) resulta la cota superior (resp.
inferior):
µ
(β)
=
¯
X +σ
z
β

n
, µ
(β)
=
¯
X −σ
z
β

n
.
De aqu´ı sale el intervalo bilateral:
¯
X ±σz
1−α/2
/

n cuya longitud es funci´on creciente de
σ y decreciente de n: intuitivamente, la precisi´on en la determinaci´on del par´ametro debe
aumentar con la cantidad de datos y disminuir con la mayor variabilidad.
Es importante tener claro si lo que uno necesita es un intervalo uni- o bilateral. En
efecto, una cota superior de nivel β es de la forma
¯
X+z
1−α
σ/

n, mientras que los extremos
de un intervalo bilateral son
¯
X ± z
1−α/2
σ/

n. Como z
1−α/2
> z
1−α
, usar un intervalo
bilateral cuando se necesita uno unilateral, implica un desperdicio de precisi´on.
10.2.2 Varianza de la normal con media conocida
Otro ejemplo: las X
i
son N(µ, σ
2
) con µ conocida y σ desconocida, y se buscan intervalos
de confianza para la varianza θ = σ
2
. El EMV es θ

=
¸
n
i=1
(X
i
−µ)
2
/n. Aqu´ı un pivote
es obviamente θ

/θ = n
−1
¸
n
i=1
((X
i
− µ)/σ)
2
, cuya distribuci´on no depende de σ pues
(X
i
−µ)/σ ∼ N(0, 1). Para obtener los intervalos hace falta la distribuci´on del pivote.
Definici´ on 10.2 Se llama distribuci´ on chi-cuadrado con m grados de libertad (abreviada
χ
2
m
) a la distribuci´ on de
¸
m
i=1
Y
2
i
, donde las Y
i
son N(0, 1) independientes.
Esta distribuci´on es un caso particular de la Gama: en el ejercicio 3.12 se vio que χ
2
1
=
Ga(2, 1/2), y como la suma de variables Gama iid es tambi´en Gama (secci´on 5.1.1), se
tiene
χ
2
m
= Ga(2, m/2). (10.3)
120 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
Al cuantil β de χ
2
m
se lo escribir´a χ
2
m,β
. Los cuantiles m´as usados se hallan en la Tabla
A.3 al final del libro.
Ponemos entonces U =
¸
n
i=1
(X
i
−µ)
2
= nθ

, siendo D(U/θ) = χ
2
n
. Ser´a m´as c´omodo
usar como pivote a T = U/θ.
´
Este es decreciente en θ; y la ecuaci´on T = z da simplemente
θ = U/z. Por lo tanto las cotas son
θ
(β)
=
U
χ
2
m,β
, θ
(β)
=
U
χ
2
m,α
.
Obviamente las cotas para σ se deducen como ra´ıces cuadradas de las anteriores.
Una propiedad importante de esta distribuci´on es que si U ∼ χ
2
m
y V ∼ χ
2
n
son inde-
pendientes, entonces
U +V ∼ χ
2
m+n
. (10.4)
La demostraci´on es muy sencilla (ejercicio 10.7).
10.2.3 Intervalos para la exponencial
Si X
i
∼ Ex(θ), el EMV es θ

=
¯
X = U/n donde U =
¸
n
i=1
X
i
(como habr´a deducido el
lector en el ejercicio 9.1). Un pivote natural es T = U/θ, pues X
i
/θ ∼ Ex(1).
Para obtener la distribuci´on de T basta tener en cuenta que Ex(1) = Ga(1, 1) y por lo
tanto T ∼ Ga(1, n), lo que implica 2T ∼ Ga(2, n) = χ
2
2n
. De aqu´ı salen las cotas como en
la secci´on anterior:
θ
(β)
=
2U
χ
2
2n,β
, θ
(β)
=
2U
χ
2
2n,α
.
Ejemplo 10.A: L´ amparas Si los datos del ejercicio 8.5 se suponen Ex(θ), el EMV da
θ

= 1425, con U = 21375. Para calcular una cota inferior de nivel 0.95, obtenemos de la
tabla A.3: χ
2
30,0.95
= 43.77, y de aqu´ı la cota 976.7.
10.3 Intervalos para la normal con µ y σ desconocidas
Ahora se trata de hallar intervalos para los par´ametros de N(µ, σ
2
), suponiendo ambos
desconocidos. Comenzamos por θ = σ
2
que es m´as f´acil. Aqu´ı el EMV es θ

= U/n donde
U =
¸
n
i=1
(X
i

¯
X)
2
. Tomamos como pivote a U/θ. Su distribuci´on no va a coincidir con
la del caso de µ conocido, porque en aqu´ella figuraban X
i
−µ, y en esta figuran X
i

¯
X; de
modo que los n sumandos X
i

¯
X no son independientes, pues suman 0. Pero el resultado
que sigue muestra que la diferencia no es grande.
Teorema 10.3 La distribuci´ on de U/σ
2
es χ
2
n−1
.
La demostraci´on se omite. Se puede hacer a nivel elemental pero dar´ıa trabajo.
Esto da una idea del por qu´e de la expresi´on “grados de libertad”. Las n variables
Y
i
= X
i

¯
X (i = 1, . . . , n) cumplen la restricci´on
¸
n
i=1
Y
i
= 0. Luego, el n´ umero de
10.3. INTERVALOS PARA LA NORMAL CON µ Y σ DESCONOCIDAS 121
“grados de libertad” que les corresponde es el n´ umero n de sumandos menos el n´ umero de
restricciones que cumplen, que es 1. M´as adelante veremos otros ejemplos similares.
Entonces, los intervalos para θ se obtienen igual que con µ conocido, pero los cuantiles
son los de χ
2
n−1
. Eso da intervalos algo m´as largos que para µ conocida (ejercicio 10.2).
Esa menor precisi´on es la consecuencia de nuestra ignorancia de µ.
Ejemplo 10.B: Duraci´ on de pilas (cont.) Si la duraci´on de las pilas del Ejemplo 8.A
se supone N(µ, σ
2
): para obtener un intervalo de confianza bilateral de nivel 0.95 para σ
se calculan
¯
X = 237 y U = 2163. Como χ
2
17,.025
= 7.564 y χ
2
17,.975
= 30.19, los extremos
del intervalo son 8.47 y 16.9.
Ahora tratamos los intervalos de confianza para µ. El EMV de µ sigue siendo
¯
X ∼
N(µ, σ
2
/n). Un pivote podr´ıa ser T = (
¯
X−µ)/(σ/

n) ∼ N(0, 1); pero el inconveniente es
que σ es desconocida. La idea salvadora es reemplazar a σ por un estimador. Se usar´a el
estimador insesgado S
2
de σ
2
como en (9.7). Se define entonces el pivote
T =
¯
X −µ
S/

n
. (10.5)
Este es el llamado “estad´ıstico de Student” (un “estad´ıstico” es cualquier funci´on de
los datos y de los par´ametros). La distribuci´on de T no depende de µ ni de σ. Para verlo,
sean Y
i
= (X
i
−µ)/σ que son N(0, 1) iid. Entonces,
T =
¯
Y
{
¸
n
i=1
(Y
i

¯
Y )
2
/(n −1)}
1/2
;
y por lo tanto T depende s´olo de las Y
i
, cuya distribuci´on no depende de los par´ametros.
Necesitamos la distribuci´on de T. Obviamente, no va a ser N(0, 1). Para tratarla, hacen
falta algunas ideas previas.
Teorema 10.4
¯
X y S son independientes.
La demostraci´on se omite.
Definici´ on 10.5 Sean Y y Z independientes, con Y ∼ N(0, 1) y Z ∼ χ
2
m
. Sea T =
Y/

Z/m. Entonces D(T) se llama distribucion t de Student con m grados de libertad, y
se la abrevia t
m
.
Al cuantil β de t
m
se lo escribir´a t
m,β
. Es f´acil deducir que la t
m
es sim´etrica respecto
de 0, y esto implica que t
m,β
= −t
m,1−β
. Los cuantiles m´as usados se hallan en la Tabla
A.4. Se puede probar que la densidad de t
m
es
f(t) =
Γ((m+ 1)/2)

mπ Γ(m/2)

1 +
t
2
m

−(m+1)/2
(10.6)
(ejercicio 10.9); y por lo tanto tiene forma de “campana” como la normal, pero tiende a 0
m´as lentamente.
122 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
Los intervalos de confianza para µ se deducen entonces con el mismo razonamiento que
se us´o para σ conocida. La cota superior resulta
¯
X+t
m,β
S/

n, y el intervalo bilateral de
nivel β resulta
¯
X ±t
m,1−α/2
S/

n.
Cuando m → ∞, la Ley de Grandes N´ umeros implica que el denominador de T en
la Definici´on 10.5 tiende a 1 en probabilidad, y por lo tanto t
m
tiende a N(0, 1) por el
Lema de Slutsky. Esto coincide con la idea intuitiva de que cuando n es grande, hay poca
diferencia entre σ conocida y σ desconocida. Por este motivo, en la tabla A.4, los valores
para n = ∞ coinciden con los de N(0, 1).
En general se puede probar que t
m,β
> z
β
para todo m y β, y el lector lo puede
comprobar en el ejercicio 10.2; es decir, que los intervalos de confianza para σ desconocida
son m´as largos que cuando σ es conocida; ese es el castigo por nuestra ignorancia de σ.
Para los datos del Ejemplo 8.A, tenemos S = 11.3; un intervalo bilateral de nivel 0.95
para µ se obtiene como 237 ±11.3 ×2.11/4.12 = [231.3, 242.6].
“Student” era el seud´onimo del ingeniero irland´es W. Gosset. Su idea de definir el
“estad´ıstico de Student” parece obvia una vez que se ha adquirido el concepto de pivote;
pero fue un m´erito importante en una ´epoca en que la teor´ıa estad´ıstica actual estaba a´ un
naciendo.
*Justificaci´ on de (10.2)
En general, podemos formar un intervalo bilateral de nivel 1−α como I = [θ
(1−α1)
, θ
(1−α2)
],
con α
1

2
= α. ¿C´omo elegir α
1
y α
2
de forma que el intervalo sea en alg´ un sentido, lo m´as
peque˜ no posible?. Consideremos primero el caso de los intervalos para la media de la normal
con varianza conocida. Aqu´ı el intervalo es de la forma [
¯
X −z
1−α1
σ/

n,
¯
X −z
α2
σ/

n],
y resulta natural tratar de minimizar su longitud, que es proporcional a z
1−α1
−z
α2
. Sean
b = z
1−α1
y a = z
α2
, que deben cumplir Φ(b) − Φ(a) = 1 − (α
1
+ α
2
) = β. Entonces el
problema equivale a minimizar b − a con la condici´on Φ(b) − Φ(a) = β. Es f´acil probar
que debe ser a = −b. Se lo puede hacer por el m´etodo de los multiplicadores de Lagrange.
Minimizar b−a con la condici´on Φ(b)−Φ(a)−β = 0, es equivalente a minimizar la funci´on
G(a, b, λ) = (b −a) +λ(Φ(b) −Φ(a) −β). Derivando G respecto de a y de b queda:
∂G/∂a = −1 −λϕ(a) = 0, ∂G/∂b = 1 +λϕ(b) = 0,
donde ϕ = Φ

es la densidad de N(0, 1). Como no puede ser λ = 0 (pues quedar´ıa
1=0), debe ser ϕ(a) = ϕ(b). Como no puede ser a = b, y ϕ(x) es una funci´on par y
decreciente para x > 0, debe ser a = −b. Poniendo α = 1 − β, se obtiene por (3.21)
1 − α = Φ(b) − Φ(−b) = 2Φ(b) − 1, lo que implica Φ(b) = 1 − α/2, y por lo tanto
b = Φ
−1
(1 −α/2).
La ´ unica propiedad de la normal que se utiiz´o, es que su densidad es par y decreciente
en x > 0, cosa que tambi´en se cumple para la distribuci´on de Student por (10.6), y por lo
tanto el mismo resultado vale para intervalos con σ desconocida.
Si se trata de intervalos para la varianza de la normal, ´estos son de la forma [U/b, U/a]
con χ
2
m
(b)−χ
2
m
(a) = 1−α. Aqu´ı resulta natural minimizar la proporci´ on entre los extremos
10.4. UN M
´
ETODO ROBUSTO 123
del intervalo, o sea b/a. No hay como en el caso anterior una soluci´on expl´ıcita, pero se
verifica num´ericamente que b = χ
2
n,1−α/2
, a = χ
2
n,α/2
est´a pr´oxima al ´optimo.
10.4 Un m´etodo robusto
Como se vio en el ejercicio 9.10, una sola observaci´on at´ıpica puede alterar gravemente a
¯
X y S, y por lo tanto tambi´en a los intervalos obtenidos a partir de ellas. Las observaciones
at´ıpicas suelen “inflar” a S, produciendo intervalos demasiado poco precisos. Esto se puede
evitar usando un pivote basado en un estimador robusto como la media podada (9.12). Se
prueba en [19] que si D(X
i
) es sim´etrica respecto de µ,
¯
X
α
es aproximadamente normal
para n grande, con media µ y una varianza que se puede estimar con
S
2
α
=
1
(n −m)
2

m(X
(m)

¯
X
α
)
2
+
n−m
¸
i=m+1
(X
(i)

¯
X
α
)
2
+m(X
(n−m+1)

¯
X
α
)
2

. (10.7)
De aqu´ı se obtiene un pivote aproximado
¯
X
α
−µ
S
α
≈ N(0, 1), (10.8)
del que resultan intervalos aproximados de la forma
¯
X
α
±zS
α
, con z obtenido de la normal.
Para los datos del Ejemplo 8.C, es
¯
X = 21.8 y S = 17.6, y por lo tanto el estimador
de σ(
¯
X) es S/

n = 3.94; mientras que la media podada es
¯
X
.25
= 25.7, y el estimador de
su desviaci´on es S
.25
= 1.61, o sea que la longitud de los intervalos se reduce a menos de
la mitad. Los respectivos intervalos bilaterales de nivel 0.95 son [14.1,29,5] y [22.5,28.9].
Aqu´ı se aprecia otra vez la influencia de las dos observaciones menores.
10.5 Intervalos aproximados para la binomial
Consideremos en general la situaci´on de varias observaciones independientes X
i
∼ Bi(n
i
, p),
i = 1, . . . , N con la misma p desconocida y los n
i
conocidos (no necesariamente iguales).
Entonces el EMV es p

= X/n con X =
¸
i
X
i
y n =
¸
i
n
i
, por lo cual podemos reducir
la situaci´on a la de una sola observaci´on X ∼ Bi(n, p) con n conocido y p desconocido.
Se busca un intervalo de confianza para p. Hay un m´etodo exacto pero trabajoso, que no
trataremos aqu´ı [2]. Podemos dar un m´etodo aproximado para n grande. Est´a basado en
que la distribuci´on de X, por el Teorema Central del L´ımite, es aproximadamente normal.
Definimos
T(X, p) =
X −np

np(1 −p)
, (10.9)
que es aproximadamente N(0, 1), y en consecuencia T es un “pivote aproximado”. Para
obtener intervalos de confianza aplicamos el procedimiento conocido. En primer lugar, el
lector puede comprobar que T(X, p) es funci´on decreciente de p (ejercicio 10.10). Dado z,
124 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
para obtener p de la ecuaci´on T(X, p) = z se elevan ambos miembros al cuadrado y queda
una ecuaci´on de segundo grado en p, cuya soluci´on es –como puede verificar el lector–
p =
1
1 +c

p

+
c
2
±

c

c
4
+p

(1 −p

)

, (10.10)
donde c = z
2
/n y p

= X/n. De aqu´ı se pueden obtener cotas superiores o inferiores
tomando respectivamente la ra´ız positiva o la negativa.
Un m´etodo m´as simple es reemplazar en la definici´on de T, la varianza desconocida
p(1 − p) que figura en el denominador, por su EMV p

(1 − p

); o sea,definir un nuevo
pivote aproximado:
T =
X −np

np

(1 −p

)
. (10.11)
Como por la Ley de Grandes N´ umeros, p

p
→ p cuando n → ∞, del Lema de Slutsky se
deduce que tambi´en la distribuci´on de T tiende a N(0, 1). La situaci´on es ahora semejante
a la de la Secci´on 10.2.1. De aqu´ı es f´acil despejar p, y resultan las cotas superior e inferior
de la forma
p

±z
β

p

(1 −p

)
n
. (10.12)
Si bien los intervalos obtenidos de (10.10) son m´as complicados que los de (10.12),
tienen dos ventajas: (a) los primeros est´an siempre contenidos en [0, 1], cosa que no sucede
necesariamente con los segundos, y (b) su nivel de confianza se aproxima m´as al β deseado.
En la subsecci´on que sigue se puede ver c´omo mejorar estas aproximaciones.
Si X es hipergeom´etrica Hi(N, M, n) y se desea estimar M, hay tablas para obtener
intervalos exactos. Pero si N es grande, se puede aproximar por la binomial Bi(n, M/N)
y aplicar los m´etodos precedentes.
Mejoras a la aproximaci´ on
Las anteriores aproximaciones se pueden mejorar considerablemente utilizando la correcci´on
por continuidad (7.2). Se muestra en [4] que mejor que (10.10) son las cotas superior p
(β)
e inferior p
(β)
dadas por
p
(β)
(X) =
1
1 +c

p

+
+
c
2
+

c

c
4
+p

+
(1 −p

+
)

(X < n) (10.13)
p
(β)
(X) =
1
1 +c

p


+
c
2


c

c
4
+p


(1 −p


)

(X > 0), (10.14)
donde
p

+
=
X +0.5
n
, p


=
X −0.5
n
y c = z
2
β
/n, (10.15)
y por
p
(β)
(n) = 1, p
(β)
(0) = 0. (10.16)
10.6. INTERVALOS APROXIMADOS PARA LA POISSON 125
En cuanto a (10.12), su nivel de confianza real es bastante pobre, pero se lo puede
mejorar usando la correci´on por continuidad y una modificaci´on de c (ver [4]). Las cotas
se definen ahora mediante (10.16) y
p
(β)
(X) = p

+
+c

p

+
(1 −p

+
) (X < n) (10.17)
p
(β)
(X) = p


−c

p


(1 −p


) (X > 0), (10.18)
donde p

+
y p


son las de (10.15), y c

= z
β
/

n −z
2
β
.
Cuando n ≥ 50 y X ≥ 15, todos estos m´etodos dan resultados aceptablemente pareci-
dos. Si no, se recomienda usar (10.13) y (10.14).
10.6 Intervalos aproximados para la Poisson
Si X
i
∼ Po(λ) (i = 1, . . . , n), el EMV de λ es –como ya habr´a probado el lector en el
ejercicio 9.1– λ

= X/n, donde X =
¸
n
i=1
X
i
. Para obtener intervalos aproximados se
usa (7.3), definiendo
T(X, λ) =
X −nλ


, (10.19)
que es aproximadamente N(0, 1), y por lo tanto un pivote aproximado. Se verifica f´acilmente
que T es decreciente en λ. La ecuaci´on T(X, λ) = z se resuelve elevando ambos miembros
al cuadrado y convirti´endola en una ecuaci´on de segundo grado, con soluci´on
λ = λ

+
c
2
2
±c

λ

+
c
2
4
, (10.20)
donde c = z/

n. De aqu´ı salen las cotas superior e inferior.
Un procedimiento m´as simple se tiene reemplazando en (10.19) la varianza desconocida
λ en el denominador, por su EMV, definiendo entonces
T(X, λ) =
X −nλ



, (10.21)
que es tambi´en aproximadamente N(0, 1) por el Lema de Slutsky. Este T es obviamente
decreciente en λ, y la ecuaci´on T(X, λ) = z tiene como soluci´on λ = λ

−z

λ

/n, y por
lo tanto las cotas superior o inferior de nivel β son
λ = λ

±c

λ

, (10.22)
con c = z
β
/

n. Si bien este procedimiento es m´as simple que el anterior, su nivel de
confianza es menos aproximado; y adem´as no garantiza que la cota inferior sea positiva.
Los resultados de ambos procedimientos son pr´acticamente iguales para X ≥ 30.
126 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
Un m´etodo m´as sencillo que (10.20) y m´as aproximado que (10.22) se puede ver en el
ejercicio 10.13.
Ejemplo 10.C: Estimaci´ on en el proceso de Poisson (cont.) En el Ejemplo 9.E, si
bien los estimadores coinciden, los intervalos de confianza no. En el primer caso se tiene una
muestra de tama˜ no 1 de una Poisson con par´ametro λ = ct, a la que se aplica lo expuesto
m´as arriba. En el segundo, (3.14) implica que 2cT ∼ Ga(2, n) = χ
2
2n
, y por lo tanto los
intervalos se obtienen como en la Secci´on 10.2.3: c
(β)
= χ
2
2n,α
/2T, c
(β)
= χ
2
2n,β
/2T.
Sin embargo, los intervalos difieren poco cuando N y T son grandes (ejercicio 10.6).
Los mismos resultados se obtendr´ıan tomando como observaciones los tiempos T
j
del
j-´esimo suceso y recordando que T
j
−T
j−1
son una muestra de Ex(1/c) (Secci´on 5.A).
10.7 Comparaci´ on de dos muestras
En numerosas situaciones experimentales se desea comparar dos muestras obtenidas bajo
condiciones diferentes, y determinar si hay entre ellas diferencias sistem´aticas (o sea, no
debidas a la pura variabilidad), y en caso afirmativo, describir las diferencias. Lo veremos
con un caso concreto.
Ejemplo 10.D: Creatinina La creatinina es un elemento importante en el estudio
del funcionamiento de los ri˜ nones. La Tabla 10.1 muestra los resultados de un estudio
realizado en el hospital de la ciudad de San Luis: para cada sujeto de una muestra de 22
hombres y 28 mujeres se dan los valores (cantidad de creatinina por unidad de volumen por
hora) obtenidos por dos m´etodos de an´alisis: el usual (B) y uno m´as econ´omico (A), con
los objetivos de comparar ambos m´etodos, y determinar las diferencias entre los valores
de hombres y mujeres. Comenzaremos por el segundo problema, para el que damos a
continuaci´on un planteo general.
10.7.1 Dos muestras independientes
Se tienen dos muestras independientes: X
i
(i = 1, . . . , n
1
) e Y
i
(i = 1, . . . , n
2
). Tanto las
X
i
como las Y
i
son iid con distribuciones F
1
y F
2
, sobre las que en principio no se sabe
nada. Un planteo simplificado del problema es suponer que la diferencia –si la hay–
es aditiva, es decir que D(Y
i
) = D(X
i
+ ∆), de manera que el par´ametro desconocido
∆ representa el “corrimiento” de las Y respecto de las X. Esta suposici´on implica que
F
2
(x) = F
1
(x −∆) ∀x, y –si existen– que EY
i
= EX
i
+ ∆.
Para facilitar el an´alisis se suele usar una segunda simplificaci´on: las F son normales con
medias µ
1
y µ
2
y la misma varianza. Entonces nuestro planteo queda: obtener intervalos
de confianza para ∆ = µ
2
− µ
1
, siendo F
j
= N(µ
j
, σ
2
) (j = 1, 2), donde µ
1
, µ
2
y σ son
desconocidos.
Para usar la metodolog´ıa habitual, calculamos los EMV de los par´ametros. La densidad
conjunta es (poniendo n = n
1
+n
2
):
L(x
1
, . . . , x
n1
, y
1
, . . . , y
n2
; µ
1
, µ
2
, σ) =
10.7. COMPARACI
´
ON DE DOS MUESTRAS 127
Tabla 10.1: Creatinina
Hombres Mujeres
No. A B No. A B No. A B No. A B
1 7.92 8.04 12 5.02 4.25 1 6.35 6.62 15 4.91 4.17
2 8.03 7.71 13 6.15 6.88 2 5.86 5.71 16 6.44 6.96
3 6.87 6.54 14 8.50 9.12 3 4.22 4.29 17 7.42 7.21
4 7.00 6.96 15 10.88 11.37 4 4.93 5.08 18 7.24 6.71
5 7.28 7.62 16 6.99 6.42 5 3.97 3.71 19 5.04 4.63
6 6.94 6.96 17 7.96 7.29 6 4.37 4.79 20 9.22 9.92
7 8.32 8.25 18 4.86 3.83 7 3.80 4.21 21 3.84 3.29
8 7.58 7.46 19 5.82 6.96 8 3.60 3.42 22 3.62 7.58
9 7.88 8.17 20 8.64 7.87 9 4.79 4.92 23 3.34 4.71
10 7.83 7.83 21 7.17 6.62 10 4.99 4.92 24 3.85 3.13
11 10.26 9.79 22 15.45 11.00 11 5.60 6.29 25 5.22 6.46
12 4.43 5.08 26 2.86 3.33
13 4.05 4.50 27 5.18 4.58
14 3.87 4.08 28 5.01 4.25
1


n
σ
n
exp


1

2

n1
¸
i=1
(x
i
−µ
1
)
2
+
n2
¸
i=1
(y
i
−µ
2
)
2
¸
.
De aqu´ı se deducen f´acilmente los EMV:
µ

1
=
¯
X, µ

2
=
¯
Y , σ
∗2
=
U
n
, (10.23)
donde U = U
1
+U
2
, con
U
1
=
n
1
¸
i=1
(X
i

¯
X)
2
, U
2
=
n
2
¸
i=1
(Y
i

¯
Y )
2
. (10.24)
Por lo tanto, el EMV de ∆ es ∆

=
¯
Y −
¯
X. Como las X
i
son independientes de las Y
i
, es
var(∆

) = var(
¯
X) +var(
¯
Y ) =
σ
2
n
1
+
σ
2
n
2
=
n
n
1
n
2
σ
2
,
y por lo tanto ∆

∼ N(∆, σ
2
n/(n
1
n
2
)). Igual que para el caso de una muestra, el pivote
m´as obvio es (cualquier funci´on de) (∆

−∆)/σ

. Para ver exactamente cu´al es la mejor
forma para el pivote, notemos dos resultados:
a) De acuerdo con el Teorema 10.3 son U
1

2
∼ χ
2
n1−1
y U
2

2
∼ χ
2
n2−1
. Por lo tanto,
(10.4) implica que (U
1
+U
2
)/σ
2
∼ χ
2
n−2
, y en consecuencia un estimador insesgado de la
varianza σ
2
puede obtenerse definiendo
S
2
=
U
n −2
.
128 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
b) Notemos que U
1
es obviamente independiente de
¯
Y , y es independiente de
¯
X por
el Teorema 10.4. An´alogamente, U
2
es independiente de
¯
X y de
¯
Y . Por lo tanto, S es
independiente de ∆

(Proposici´on 3.11). En consecuencia,

n
1
n
2
/n(∆

−∆)/σ ∼ N(0, 1),
y ∆

es independiente de U/σ
2
que es χ
2
n−2
. Por lo tanto el pivote natural es
T =

n
1
n
2
n


−∆
S
∼ t
n−2
. (10.25)
El m´etodo para obtener de aqu´ı los intervalos de confianza es igual que para el caso de una
muestra.
Aqu´ı se ve nuevamente el sentido de “grados de libertad”: la U de (10.23) tiene n
sumandos, pero ´estos cumplen dos restricciones, pues
¸
n1
i=1
(X
i

¯
X) =
¸
n2
i=1
(Y
i

¯
Y ) = 0,
y por lo tanto el n´ umero de grados de libertad es n −2.
Ejemplo 10.D (cont.) Analizamos la diferencia entre los resultados del m´etodo B
para hombres y mujeres. Se busca un intervalo de confianza para la diferencia de medias
suponiendo normalidad. Las medias correspondientes a hombres y mujeres para B son
respectivamente 7.59 y 5.16, y por lo tanto ∆

= 2.43; y las respectivas S son 1.76 y
1.56, lo bastante parecidas como para que se pueda aceptar la suposici´ on de igualdad de
varianzas. El estimador de la σ com´ un da S = 1.65. El n´ umero de grados de libertad es
22+28-2=48. El intervalo de nivel 0.95 para ∆ es entonces 2.43 ±0.47.
10.7.2 Varianzas distintas
Si las varianzas σ
2
1
y σ
2
2
de las X y de las Y son distintas, el comportamiento de estos inter-
valos puede ser poco confiable, especialmente si n
1
y n
2
difieren mucho; pues el verdadero
nivel de confianza puede ser bastante menor al que uno desea, o bien puede ser mayor, pero
con intervalos demasiado largos. La magnitud de este efecto es peque˜ na si n
1
≈ n
2
, pero
puede ser importante si difieren mucho. Una soluci´on para este problema es el llamado
m´etodo de Welch [1]. Se basa en que ∆

= (
¯
X −
¯
Y ) ∼ N(∆, v) con
v = var(
¯
X −
¯
Y ) =
σ
2
1
n
1
+
σ
2
2
n
2
.
Como v no se conoce, se la estima en forma insesgada mediante
v

=
S
2
1
n
1
+
S
2
2
n
2
,
con S
2
j
= U
j
/(n
j
−1), j = 1, 2, con U
j
definido en (10.24). Entonces
T =


−∆

v

es un pivote aproximado. Su distribuci´on no es exactamente una t, pero se la puede
aproximar con una t
k
con grados de libertad
k =
(v

)
2
S
4
1
/(n
3
1
−n
2
1
) +S
4
2
/(n
3
2
−n
2
2
)
.
10.7. COMPARACI
´
ON DE DOS MUESTRAS 129
Este k no ser´a en general un n´ umero entero. lo que no es problema si se dispone de
una computadora; pero si se trabaja con una tabla habr´a que interpolar o tomar el entero
m´as pr´oximo.
Ejemplo 10.E: Peso at´ omico del carb´ on Los siguientes datos son 10 determinaciones
del peso at´omico del carb´on obtenidas por un m´etodo, y 5 obtenidas por otro; los llamare-
mos 1 y 2. Para simplificar, se ha restado 12 de los valores originales y se ha multiplicado
por 1000 (de modo que el primer valor, por ejemplo, es en realidad 12.0129).
1 : 12.9 7.2 6.4 5.4 1.6 −14.7 −5.1 −1.5 7.7 6.1
2 : 31.8 24.6 6.9 0.6 7.5
Las respectivas medias son 2.6 y 14.3, con diferencia -11.7; y las desviaciones son 7.92
y 13.2, que hacen sospechar que las varianzas verdaderas son distintas. La aplicaci´on del
m´etodo de Welch da v

= 41.3 y k = 5.48. Para un intervalo bilateral de nivel 0.90
se necesita t
5.48,.95
, que interpolando se aproxima por 1.98; el intervalo resulta entonces
−11.7 ± 12.7. El m´etodo basado en igualdad de varianzas da S = 9.87 con 13 grados de
libertad, y el correspondiente intervalo es −11.7 ±9.57, algo m´as angosto.
10.7.3 Muestras apareadas
Ahora consideramos en el Ejemplo 10.D las diferencias entre los m´etodos A y B. En la
tabla 10.1 se tienen para cada individuo mediciones de la misma magnitud, realizadas por
dos m´etodos distintos. Si se desea obtener intervalos para la diferencia de las respectivas
medias, hay que tener en cuenta que ahora las dos mediciones son realizadas en el mismo
individuo, y por lo tanto no se las puede tratar como muestras independientes, como era el
caso de comparar hombres con mujeres. Esto se llama un modelo de muestras apareadas.
Sean X
i
, Y
i
los resultados de los m´etodos A y B en el individuo i. Un planteo simplifi-
cado es suponer que el efecto de la diferencia de m´etodos es aditivo: Z
i
= Y
i
−X
i
tienen la
misma distribuci´on F para todo i, y por lo tanto ∆ = EZ
i
representa el “efecto medio” de
la diferencia de m´etodos. Observe que no hace falta que las X
i
ni las Y
i
sean id´enticamente
distribuidas.
Un planteo simplificado es que F = N(∆, σ
2
). Los intervalos de confianza para ∆ se
obtienen a partir de las Z
i
con la metodolog´ıa ya conocida.
Ejemplo 10.D (cont.) Para comparar la diferencia entre A y B en hombres, el lector
puede verificar que las diferencias tienen media -0.291 y S = 1.08, con 21 grados de libertad;
el intervalo bilateral de nivel 0.90 es −0.291 ±1.721 ×1.08/4.58.
Advertencias
Note que tanto para muestras apareadas como independientes, el estimador de ∆ es el
mismo: ∆

=
¯
Y −
¯
X, pero el estimador de su desviaci´on es totalmente distinto. Ser´ıa
un error lamentable tratar un modelo de muestras apareadas como si fuera de muestras
independientes, pues estar´ıamos desperdiciando la informaci´on dada por el apareamiento.
130 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
La consecuencia m´as usual es la de que los intervalos resultar´ıan demasiado grandes, pues
las diferencias para cada individuo pueden ser peque˜ nas comparadas con las dispersiones
de las X y las Y (ver al final del Ejemplo 11.B).
Si se tienen dos muestras independientes con n
1
= n
2
, una barbaridad inversa ser´ıa
tratarlas como apareadas. Aqu´ı el nivel de confianza ser´ıa correcto, pero los intervalos
resultar´ıan demasiado grandes, pues se estar´ıa trabajando como si hubiera s´olo n/2 obser-
vaciones en vez de n (Ejercicio 10.16).
10.8 Intervalos de tolerancia
Se tienen observaciones X
i
(i = 1, . . . , n) con distribuci´on F, y se desea un intervalo [a, b]
tal que si X
0
es otra observaci´on con distribuci´on F, independiente de las X
i
, sea P(X
0

[a, b]) = 1 − α dado. Esto es un intervalo de tolerancia o de predicci´ on. El problema es
trivial si F es exactamente conocida: se toman los cuantiles α/2 y 1 −α/2 de F. Veamos
c´omo se procede en el caso m´as usual en que la F contiene par´ametros desconocidos.
Supongamos F = N(µ, σ
2
). Como los cuantiles de F son de la forma µ + cσ para
alguna constante c, buscaremos un intervalo de la forma
¯
X±cS; o sea, buscamos c tal que
si X
0
es N(µ, σ
2
) independiente de las X
i
, sea P(|X
0

¯
X| ≤ cS) = 1 − α. Notemos que
X
0

¯
X ∼ N(0, σ
2
(1 +1/n)) y que S es independiente de
¯
X y de X
0
. Por lo tanto
X
0

¯
X
S

1 + 1/n
∼ t
n−1
,
y en consecuencia hay que tomar c =

1 +1/nt
n−1,1−α/2
. Aunque superficialmente esto
se parece al intervalo de confianza para la media, se trata de objetivos totalmente distintos.
En particular, la longitud de los intervalos de confianza tiende a 0 cuando n → ∞, cosa
que obviamente no sucede con los de tolerancia.
El mismo m´etodo puede ser imitado para otras distribuciones.
Si no se puede suponer nada sobre F, la idea intuitiva es reemplazar los cuantiles
desconocidos de F por los cuantiles muestrales. Sean X
(1)
< . . . X
(n)
los estad´ısticos de
orden. Entonces el intervalo [X
(k)
, X
(n−k)
] contiene n−2k observaciones, y resulta natural
tomar k tal que n −2k ≈ nβ, o sea k ≈ nα/2. M´as precisamente, se puede probar que si
F es continua:
k = [(n +1)α/2] =⇒P(X
0
∈ [X
(k)
, X
(n−k)
]) ≥ β. (10.26)
La demostraci´on es elemental, pero requiere algo de trabajo.
Estos intervalos, cuya validez no depende de suponer ninguna distribuci´on, se llaman
no param´etricos.
10.9 Ejercicios
10.1 La tabla 10.2 contiene 24 determinaciones de la temperatura de fusi´on del plomo, en
o
C [16]. Suponiendo normalidad, calcular
10.9. EJERCICIOS 131
Tabla 10.2: Temperatura de fusi´on del plomo
330.0 328.6 342.4 334.0 337.5 341.0
343.3 329.5 322.0 331.0 340.4 326.5
327.3 340.0 331.0 332.3 345.0 342.0
329.7 325.8 322.6 333.0 341.0 340.0
a. Un intervalo de confianza bilateral de nivel 0.95 para la desviaci´on t´ıpica
b. Una cota inferior del mismo nivel para la media.
10.2 a. Para muestras de tama˜ no 10 de una normal, comparar las longitudes de los
intervalos bilaterales de confianza de nivel 0.95 para σ, con µ conocida y con µ
desconocida.
b. Lo mismo, para los intervalos para µ, con σ conocida y desconocida.
10.3 Una caja contiene 10000 tornillos, de los que una proporci´on p desconocida son
defectuosos.
a. Se extraen 50 al azar, y se encuentra que 4 de ellos son defectuosos. Con nivel
de confianza 0.95, dar un intervalo bilateral y una cota inferior para p.
b. Idem, si se extraen 100 tornillos y hay 16 defectuosos.
10.4 Para los datos del Ejemplo 10.A, dar un intervalo bilateral de nivel 0.99 para la vida
media de las l´amparas.
10.5 La superficie de una hoja es dividida en cuadr´ıculas. La cantidad de hongos en cada
una se puede considerar Po(λ). Se inspeccionan 20 cuadr´ıculas tomadas al azar, con
un total de 3 hongos. Dar un intervalo de confianza bilateral de nivel 0.99 para λ,
usando (10.20) y (10.22).
10.6 La emisi´on de part´ıculas alfa se puede considerar que sigue un proceso de Poisson
con intensidad c part´ıculas por segundo.
a. Se observa una substancia radiactiva durante 10 segundos, registr´andose 4 emi-
siones. Dar un intervalo bilateral para c de nivel 0.95.
b. Se observa la misma substancia hasta que se emita la cuarta part´ıcula, lo que
sucede a los 10 segundos. Dar un intervalo bilateral para c de nivel 0.95.
c. Calcular los intervalos en los dos casos anteriores, suponiendo que se registran
40 emisiones en 100 segundos.
10.7 a. Probar que si X ∼ χ
2
m
e Y ∼ χ
2
n
son independientes, es X + Y ∼ χ
2
m+n
[¡no
hace falta ninguna cuenta!].
b. Calcular la media y varianza de χ
2
m
.
132 CAP´ıTULO 10. INTERVALOS DE CONFIANZA
c. Deducir, usando el Teorema Central del L´ımite, que para m grande se puede
aproximar la χ
2
m
por una normal.
10.8 Para los datos del ejercicio 8.6, calcular para el valor verdadero del paralaje, el
intervalo de confianza bilateral de nivel 0.95, basado en Student; y compararlo con
el intervalo basado en la media podada
¯
X
.25
. Explicar las diferencias.
10.9 Probar (10.6) [usar (10.3), (5.11), y bastante paciencia].
10.10 a. Probar que (a − p)/

p(1 −p) es una funci´on decreciente de p ∈ (0, 1) si
a ∈ [0, 1].
b. Verificar que para el pivote (10.9), las soluciones de la ecuaci´on T(X, p) = z son
de la forma (10.10).
10.11 Probar que todas las cotas de la secci´on 10.5 cumplen p
(β)
(X) = 1 −p
(β)
(n −X).
10.12 Verificar el Teorema 10.3 para n = 2.
10.13 Usar el resultado del ejemplo 7.A para hallar intervalos aproximados para el par´ametro
de la Poisson, basados en

X.
10.14 Usar el resultado del Ejercicio 7.12 para definir un pivote aproximado para la bino-
mial, y extraer de all´ı intervalos de confianza para p. Aplicarlo al Ejercicio 10.3.
10.15 En el dise˜ no de un experimento para comparar dos tratamientos mediante muestras
independientes, el presupuesto alcanza para un total de 20 observaciones. ¿C´omo
asignarlas a las dos muestras de manera de minimizar la varianza del estimador ∆

de la diferencia de medias (suponiendo ambas muestras con la misma varianza)?.
10.16 Se tienen dos muestras independientes de igual tama˜ no: X
i
∼ N(µ
1
, σ
2
) e Y
i

N(µ
2
, σ
2
), i = 1, . . . , n, con σ conocida. Calcular la longitud del intervalo de confianza
para ∆ = µ
2
− µ
1
usando el procedimiento correcto; y comparar con la que se
obtendr´ıa si se las tratara como muestras apareadas, o sea, usando Z
i
= Y
i
− X
i
.
Hacerlo en particular para n = 10 y β = 0.9.
Cap´ıtulo 11
Tests de Hip´ otesis
“Y yo me la llev´e al r´ıo
creyendo que era mozuela,
pero ten´ıa marido”
F. Garc´ıa Lorca: “La casada infiel”
11.1 Introducci´ on
Para presentar los conceptos, retomamos el Ejemplo 9.A. Un posible comprador declara
que el lote es aceptable para ´el si la proporci´on p = M/N de latas defectuosas es ≤ 0.02.
Para determinar si es aceptable, la ´ unica forma segura ser´ıa examinar todas las latas, cosa
poco conveniente. Por lo tanto, comprador y vendedor acuerdan en tomar una muestra de
n latas elegidas al azar, examinarlas, y basar la decisi´on en la cantidad X de defectuosas
de la muestra. Esta es la situaci´on t´ıpica de un test estad´ıstico. Observamos una variable
aleatoria X cuya distribuci´on depende de un par´ametro p desconocido; basados en X
debemos decidir si p pertenece al conjunto [0, 0.02] o a su complemento (0.02, 1]. El
procedimiento podr´ıa pensarse como una funci´on que a cada valor de X ∈ {0, 1, . . . n} le
hace corresponder uno de los dos valores “s´ı” o “no” (o 0 y 1).
Como X es una variable aleatoria, la decisi´on puede ser correcta o no seg´ un la muestra
que salga (por ejemplo, es perfectamente posible que p > 0.02 y sin embargo todas las
latas de la muestra sean buenas). Por lo tanto, toda especificaci´on que se haga sobre el
procedimiento, tendr´a que estar expresada en t´erminos de probabilidades. Al vendedor
le importa controlar la probabilidad de que un lote bueno sea rechazado, estipulando por
ejemplo:
p ≤ 0.02 =⇒P{rechazar el lote} ≤ 0.05; (11.1)
al comprador le importa controlar la probabilidad de que le den por bueno un lote malo,
estipulando por ejemplo:
p > 0.02 =⇒P{aceptar el lote} ≤ 0.03. (11.2)
133
134 CAP´ıTULO 11. TESTS DE HIP
´
OTESIS
¿Son ambos requerimientos compatibles?. Supongamos que el procedimiento sea: para un
cierto x
0
∈ {0, 1, . . . , n}, aceptar el lote si X ≤ x
0
, y rechazarlo si no. Para simplificar
las cuentas, suponemos a N lo bastante grande como para que se pueda considerar a
X ∼ Bi(n, p). Entonces
P{aceptar el lote} = P(X ≤ x
0
) =
¸
x≤x0

n
x

p
x
(1 −p)
n−x
.
Llamemos a esto g(p). Entonces (11.1) equivale a exigir que g(p) ≥ 0.95 si p ≤ 0.02, y
(11.2) equivale a que g(p) ≤ 0.03 si p > 0.02. Pero g(p) es un polinomio en p, y por lo
tanto es una funci´on continua, por lo que no puede saltar de 0.95 a 0.03. En consecuencia,
hay que buscar otro enfoque del problema.
El enfoque m´as com´ un requiere abandonar la simetr´ıa entre los requerimientos de com-
prador y vendedor. Supongamos que ´este consigue imponer su criterio, o sea, (11.1).
Entonces el comprador deber´a conformarse con una versi´on m´as d´ebil de (11.2), a saber:
si p > 0.02, que P{rechazar el lote} sea lo mayor posible (respetando (11.1)).
Con esto, el conjunto [0, 0.02] ha quedado “privilegiado”, en el sentido de que si p pertenece
a ´el, la probabilidad de decidir equivocadamente est´a acotada. Este conjunto se llama
hip´ otesis nula.
Con esta base, planteamos la situaci´on general. Se observa una muestra X =
(X
1
, . . . , X
n
) de variables aleatorias cuya distribuci´on conjunta depende de un par´ametro
desconocido θ perteneciente a un conjunto Θ.
Definici´ on 11.1 Sean H
0
⊆ Θ y α ∈ (0, 1). Un test de nivel α de la hip´ otesis nula H
0
es una funci´ on ξ de R
n
(o del conjunto de valores posibles de X) en el conjunto {0, 1} (o
{“aceptar” y “rechazar”}), tal que m´ax
θ∈H
0
P(ξ(X) = 1) = α.
Un test queda definido por el conjunto de resultados donde se acepta H
0
: {x : ξ(x) = 0},
llamado regi´ on de aceptaci´ on. La probabilidad de rechazar, P(ξ(X) = 1), depende de θ.
La llamaremos β(θ), la funci´ on de potencia (o simplemente potencia) del test. El nivel del
test es entonces el m´ax
θ∈H0
β(θ). En control de calidad, a la funci´on 1 −β(θ) se la llama
“caracter´ıstica operativa”. El objetivo del test es decidir si θ est´a en H
0
o en otro conjunto
H
1
–llamado hip´ otesis alternativa o simplemente “alternativa”– que en la mayor´ıa de
los casos es el complemento de H
0
. Esto es un test de H
0
contra H
1
. En el ejemplo
es H
1
= (0.02, 1] = H

0
. Los θ ∈ H
1
se suelen tambi´en llamar alternativas. Adem´as de
cumplir β(θ) ≤ α para θ ∈ H
0
, se requiere que β(θ) sea lo m´as grande posible –o al menos
“aceptablemente grande”– para θ ∈ H
1
.
La decisi´on de rechazar H
0
cuando es cierta se llama tradicionalmente error de tipo I;
y la de aceptar H
0
cuando es falsa se llama error de tipo II. Tests como el del ejemplo,
cuya alternativa es de la forma θ > θ
0
para alg´ un θ
0
dado, se llaman unilaterales; los tests
con H
0
= {θ = θ
0
} y H
1
= {θ = θ
0
} se llaman bilaterales.
11.2. UN M
´
ETODO PARA LA OBTENCI
´
ON DE TESTS 135
11.2 Un m´etodo para la obtenci´ on de tests
Si se dispone de un pivote, el siguiente procedimiento permite obtener test uni- y bilaterales.
Proposici´ on 11.2 Sea T = T(X, θ) un pivote decreciente en θ, y sea t
β
su cuantil β (no
depende de θ). Dados θ
0
y α:
a. El test con regi´ on de aceptaci´ on T(X, θ
0
) ≤ t
1−α
es un test de nivel α de H
0
=
{θ ≤ θ
0
} (o de H
0
= {θ = θ
0
}) contra H
1
= {θ > θ
0
}.
b. El test con regi´ on de aceptaci´ on T(X, θ
0
) ∈ [t
α/2
, t
1−α/2
] es un test de nivel 1 −α de
H
0
= {θ = θ
0
} contra H
1
= {θ = θ
0
}.
Demostraci´ on: Indicaremos con P
θ
las probabilidades cuando el par´ametro verdadero es
θ. Para verificar el caso unilateral, basta ver que
θ ∈ H
0
⇐⇒θ ≤ θ
0
=⇒T(X, θ) ≥ T(X, θ
0
)
por ser T decreciente, y por lo tanto
θ ∈ H
0
=⇒P
θ
(ξ = 1) = P
θ
(T(X, θ
0
) > t
1−α
) ≤ P
θ
(T(X, θ) > t
1−α
) = α.
Y como P
θ0
(ξ = 1) = α, queda probado que el nivel es α. La demostraci´on para el test
bilateral es an´aloga.
El valor del pivote que se calcula suele llamarse “estad´ıstico del test”.
Aplicando este m´etodo a N(µ, σ
2
) con σ desconocida, el test de {µ ≤ µ
0
} contra {µ >
µ
0
} rechaza cuando
¯
X > µ
0
+t
n−1,1−α
S

n
,
o sea, cuando la media muestral es mayor que µ
0
m´as un cierto margen, como es razonable.
Ejemplo 11.A: Duraci´ on de pilas (cont.) En las condiciones del Ejemplo 10.B,
supongamos que un comprador decide adquirir el lote de pilas si el vendedor demuestra
que su vida media es > 235 hs., con probabilidad 0.01 de adquirir un lote malo; o sea que
H
0
= {µ ≤ 235} y α = 0.01. Aqu´ı tenemos
¯
X = 237 y S = 11.3, y el estad´ıstico del test
es T = 0.773 < t
17,.95
= 1.74, por lo que el vendedor se queda sin negocio.
Aqu´ı se puede apreciar la importancia de c´omo se define H
0
. Porque si se hubiera
establecido que el lote se vende salvo que el comprador pueda mostrar que µ < 235, la
venta se hubiera realizado, como puede verificar el lector.
El lector puede deducir f´acilmente los tests para la varianza de la normal y para el
par´ametro de la exponencial.
Para la binomial, el pivote (10.9) da tests con nivel aproximado. El test unilateral de
H
0
= {p ≤ p
0
} contra H
1
= {p > p
0
} rechaza cuando
p

> p
0
+z
1−α

p
0
(1 −p
0
)
n
, (11.3)
136 CAP´ıTULO 11. TESTS DE HIP
´
OTESIS
lo que es intuitivamente razonable. N´otese que usar aqu´ı el pivote (10.11) que daba inter-
valos de confianza m´as sencillos, dar´ıa tests m´as complicados.
La aproximaci´on del nivel se puede mejorar mediante la correcci´on por continuidad,
reemplazando en (11.3) a p

por p

+
definida en (10.15), y por p


para el test opuesto. En
el caso bilateral, la regi´on de aceptaci´on es
p
0
−z
1−α/2

p
0
(1 −p
0
)
n
≤ p


< p

+
≤ p
0
+z
1−α/2

p
0
(1 −p
0
)
n
. (11.4)
Para la Poisson, el test bilateral de H
0
= {λ = λ
0
} basado en el pivote (10.19) rechaza
cuando |λ

−λ
0
| > z
1−α/2

λ
0
/n. En cambio, usar (10.21) dar´ıa un test m´as complicado.
Si bien los tests deducidos mediante este m´etodo son intuitivamente aceptables, el nivel
de este curso no nos permite abordar el problema de la obtenci´on de tests que maximicen
la potencia. Se puede mostrar que, bajo ciertas condiciones, todos los tests presentados en
este Cap´ıtulo la maximizan.
El valor p
En realidad, en gran parte de las aplicaciones de los tests no se ha decidido de antemano
un nivel. Se usa en cambio el valor p o “nivel emp´ırico” definido como el menor α para el
que el test rechazar´ıa la hip´otesis nula. De manera que si G es la distribuci´on del pivote T
(Proposici´on 11.2), y t es el valor observado, el valor p es 1−G(t) para un test de la forma
H
1
= {θ > θ
0
}, y p = G(t) para la opuesta. En el caso bilateral, si D(T) es sim´etrica como
la normal o Student, es p = P(|T| > t) = 2(1 − G(t)) (¡ el doble del unilateral!); para el
caso no sim´etrico ver el ejercicio 11.2.
Por ejemplo, si un test unilateral para la hip´otesis nula µ ≤ 3 da un “estad´ıstico t”
igual a 1.4 con 10 grados de libertad, y observamos en la tabla que el cuantil 0.90 de la
t
10
es 1.37, se dice que el test dio un valor p de 0.10, o que result´o “significativo al 10%”.
Una interpretaci´on de este resultado ser´ıa: “si µ ≤ 3, entonces la probabilidad de obtener
un “t” mayor o igual que el que se obtuvo, es ≤ 0.10”. Cuanto m´as peque˜ no el p, m´as
evidencia a favor de la alternativa. Pero un p = 0.10 no significa que haya probabilidad
0.10 de que valga la alternativa: ´esta es cierta o falsa.
11.2.1 *Relaci´ on entre tests e intervalos de confianza
Se mostrar´a una relaci´on general entre tests e intervalos de confianza, que no depende de
la existencia de un pivote, y que permite obtener tests a partir de intervalos o viceversa.
Proposici´ on 11.3
a. Si I es una regi´ on de confianza de nivel β para θ, entonces para cada θ
0
, el test con
regi´ on de aceptaci´ on {x : I(x) θ
0
} es un test de nivel α = 1−β de H
0
= {θ = θ
0
}.
b. Inversamente, si para cada θ
0
se tiene un test de nivel α de H
0
= {θ = θ
0
} con
regi´ on de aceptaci´ on A(θ
0
), sea I(x) = {θ
0
: x ∈ A(θ
0
)}. Entonces I es una regi´ on
de confianza de nivel β = 1 −α.
11.3. POTENCIA Y TAMA
˜
NO DE MUESTRA 137
Demostraci´ on: (a) El nivel del test est´a dado por
θ ∈ H
0
⇐⇒θ = θ
0
=⇒P(θ
0
/ ∈ I) = 1 −β,
por ser I una regi´on de nivel β.
(b) Es como la de (a) en sentido inverso.
Esta Proposici´on establece una compatibilidad entre tests y regiones de confianza. El
test de (a) acepta que θ = θ
0
si θ pertenece a la regi´on de confianza; la regi´on de confianza
de (b) est´a formada por los valores del par´ametro que no son rechazados por el test. El
motivo de usar aqu´ı regiones y no intervalos de confianza, es que para (a) no hace falta
postular que la regi´on sea un intervalo, y en (b) no se puede deducir sin m´as hip´otesis que
la regi´on lo sea.
Si se aplica (a) al intervalo de confianza bilateral I obtenido de un pivote T, el test
resultante coincide con el deducido de la Proposici´on 11.2 (b). En efecto, de la Secci´on 10.2
sale que I = [θ
(1−α/2)
, θ
(1−α/2)
] donde T(X, θ
(1−α/2)
) = t
α/2
y T(X, θ
(1−α/2)
) = t
1−α/2
,
donde t
β
es el cuantil β de T. Teniendo en cuenta que T es decreciente en θ, la regi´on de
aceptaci´on est´a dada por I θ
0
⇐⇒ t
α/2
≤ T(X, θ
0
) ≤ t
1−α/2
, que coincide con la de la
Proposici´on 11.2 (b). Por lo tanto no obtenemos de aqu´ı ning´ un procedimiento nuevo.
11.3 Potencia y tama˜ no de muestra
El criterio m´as l´ogico para la elecci´on del tama˜ no de muestra de un test es buscar el
menor n tal que la potencia para una alternativa elegida, supere un valor dado. Esto
requiere calcular la funci´on de potencia β(θ). En algunos casos sencillos, esto se puede
hacer expl´ıcitamente.
11.3.1 Tests para la media de la normal
Suponemos primero σ conocida. El test unilateral de nivel α de µ ≤ µ
0
contra µ > µ
0
rechaza H
0
cuando
¯
X > µ
0
+z
1−α
σ/

n. Sean P
µ
las probabilidades cuando µ es la media
verdadera. Teniendo en cuenta que T =

n(
¯
X −µ)/σ ∼ N(0, 1), y restando µ en ambos
lados de la desigualdad, queda
β(µ) = P
µ

¯
X > µ
0
+z
1−α
σ

n

= P
µ

T >

n
µ
0
−µ
σ
+z
1−α

= 1 −Φ(

n
µ
0
−µ
σ
+z
1−α
) = Φ(

nγ −z
1−α
), (11.5)
con γ =

n(µ − µ
0
)/σ. En consecuencia β(µ) es una funci´on creciente de µ, n y α, y
decreciente de σ. Es decir, la probabilidad de detectar que µ > µ
0
es mayor cuando µ
crece, y cuando crece el tama˜ no de muestra; y es menor cuando hay m´ as variabilidad, y
cuando se quiere disminuir el error de tipo I.
Si se desea una potencia β
1
para un cierto µ
1
, sale de (11.5) que debe ser


1
−z
1−α
= z
β1
,
138 CAP´ıTULO 11. TESTS DE HIP
´
OTESIS
donde γ
1
= (µ
1
−µ
0
)/σ; y de aqu´ı se despeja n, que es obviamente una funci´on creciente
de β
1
.
El test bilateral de µ = µ
0
contra µ = µ
0
rechaza H
0
cuando |(
¯
X −µ
0
)/σ| > z
1−α/2
.
Procediendo como antes se obtiene
1 −β(µ) = P
µ

0
−z
1−α/2
σ

n

¯
X ≤ µ
0
+z
1−α/2
σ

n
)
= Φ(z
1−α/2


nγ) −Φ(−z
1−α/2


nγ),
con γ = (µ −µ
0
)/σ; y como Φ(x) + Φ(−x) = 1, es:
β(µ) = Φ(

nγ −z
1−α/2
) +Φ(−

nγ −z
1−α/2
). (11.6)
Esto es una funci´on par de γ, como es de esperar. El lector puede verificar que es tambi´en
creciente en |γ| y en α (ejercicio 11.13).
Si se busca n tal que β(µ
1
) = β
1
dado, hay que deducir n de la ecuaci´on
β
1
= Φ(


1
−z
1−α/2
) + Φ(−


1
−z
1−α/2
)
con γ
1
= |µ
1
− µ
0
|/σ. No se lo puede despejar en forma expl´ıcita como antes, pero
una soluci´on aproximada se encuentra teniendo en cuenta que el segundo t´ermino del
segundo miembro ser´a en general mucho menor que el primero, y por lo tanto β
1

Φ(


1
−z
1−α/2
), de donde se obtiene n ligeramente sobreestimado.
Si σ es desconocida, aparecen dos dificultades. La primera es que en las cuentas an-
teriores, al reemplazar σ por S, ya se hace imposible hallar resultados expl´ıcitos; pero
las potencias y tama˜ nos de muestra se encuentran tabulados en libros sobre an´alisis de
experimentos, como [17]. La segunda es que hace falta alguna cota sobre σ.
´
Esta se puede
obtener muchas veces a partir de experiencia previa. Si no, se puede tomar una muestra
preliminar, usarla para estimar σ, y de all´ı calcular el n adecuado.
11.3.2 Tests para la binomial
El test aproximado de H
0
= {p ≤ p
0
} contra H
1
= {p > p
0
} rechaza H
0
cuando
X −np
0

np
0
(1 −p
0
)
> z
1−α
.
Recordando que T = (X −np)/

np(1 −p) ≈ N(0, 1), se obtiene
β(p) = P
p

T >
z
1−α

p
0
(1 −p
0
) +

n(p
0
−p)

p(1 −p)

≈ Φ

−z
1−α

p
0
(1 −p
0
) +

n(p −p
0
)

p(1 −p)

.
11.4. COMPARACI
´
ON DE DOS MUESTRAS 139
Dado p
1
, haciendo β(p
1
) = β
1
se tiene

n =
z
β1
r
1
+z
1−α
r
0

,
donde
r
0
=

p
0
(1 −p
0
), r
1
=

p
1
(1 −p
1
), ∆ = p
1
−p
0
.
El mismo procedimiento sirve para el test bilateral.
11.4 Comparaci´ on de dos muestras
11.4.1 Muestras normales
En la situaci´on de muestras apareadas de la secci´on 10.7.3, se desea testear ∆ = 0 contra
∆ > 0. Si se supone normalidad, se recurre al test “t” ya conocido.
Tabla 11.1: Aglutinaci´on de plaquetas
Antes Despu´es Diferencia
25 27 2
25 29 4
27 37 10
44 56 12
30 46 16
67 82 15
53 57 4
53 80 27
52 61 9
60 59 -1
28 43 15
Ejemplo 11.B: Consecuencias de fumar La tabla 11.1 [14] muestra para cada uno de
11 individuos, la proporci´on (como porcentaje) de plaquetas sangu´ıneas aglutinadas antes
y despu´es de fumar un cigarrillo. Las plaquetas tienen un rol importante en la formaci´on
de co´agulos. Si bien hay m´etodos espec´ıficos para analizar datos de proporciones, tratamos
este ejemplo suponiendo normalidad. Para el test bilateral: las diferencias tienen media


= 10.3, con S = 7.98, lo que da T = 4.27 y p = 0.00082, mostrando un claro efecto
nocivo del cigarrillo.
Si aqu´ı cometi´eramos la burrada de tratar “antes” y “despu´es” como muestras in-
dependientes, obtendr´ıamos el mismo ∆

, pero con S = 17, lo que da un estad´ıstico
T = 1.42 y p = 0.086, con lo que la diferencia ser´ıa significativa s´olo al 8%. (ve´anse las
“Advertencias” al final de la Secci´on 10.7.3).
140 CAP´ıTULO 11. TESTS DE HIP
´
OTESIS
En la situaci´on de muestras independientes normales de secci´on 10.7.1, los tests sobre
∆ se deducen del pivote (10.25).
Si en el Ejemplo 10.D se quiere testear si hay diferencias entre los resultados de hombres
y mujeres con el m´etodo B, el lector puede verificar que el estad´ıstico da 5.16 > t
48,.995
, o
sea que la diferencia es altamente significativa.
11.4.2 M´etodos robustos y no param´etricos
Consideremos un ejemplo imaginario de muestras apareadas, donde las diferencias Z
i
=
Y
i
−X
i
con n = 11 son
0.753 0.377 0.0618 0.306 0.155 1.75 0.383 0.764 1.28 0.847 30.0
Aqu´ı parecer´ıa haber evidencia de diferencia sistem´atica, pues todas las Z
i
son positivas,
e inclusive una es notablemente alta. Pero si calculamos el estad´ıstico, obtenemos
¯
Z =
3.33 y S = 8.86, lo que da un miserable t = 1.25 con 10 grados de libertad, con un valor
p unilateral de 0.12. ¿C´omo es esto posible?. Si repetimos los c´alculos sin la ´ ultima
observaci´on resulta
¯
Z = 0.668 y S = 0.529, que dan t = 3.99 con p = 0.0016, de modo que
–parad´ojicamente– la supresi´on de una observaci´on muy grande aumenta la evidencia a
favor de ∆ > 0. El motivo es que ese valor, si bien incrementa
¯
Z, tambi´en incrementa S,
y en definitiva disminuye el t. Por supuesto, el efecto ser´ıa mucho peor con -30 en vez de
30, pues se invertir´ıa el signo del efecto.
Una consecuencia de este ejemplo salta a la vista: jam´ as aceptar el resultado de un
procedimiento estad´ıstico sin examinar los datos.
Una posible v´ıa de acci´on es tratar de detectar los datos “at´ıpicos”, y corregirlos o
eliminarlos. Esto se puede hacer con distintos m´etodos, uno de los cuales es el diagrama
de cuantiles del cap´ıtulo 8. En este caso, el valor 30 salta a la vista, pero en situaciones
m´as complejas puede hacer falta un an´alisis m´as cuidadoso. Este enfoque es mucho mejor
que no hacer nada; pero tiene el inconveniente de que requiere decisiones subjetivas. Un
enfoque m´as sistem´atico es buscar procedimientos que no sean afectados por los valores
at´ıpicos. Esto es especialmente importante cuando grandes masas de datos son analizadas
rutinariamente en una computadora, sin una mente humana que las inspeccione.
Recordemos que la suposici´on de normalidad se hace para justificar el uso de las me-
dias y varianzas, que junto con la ventaja de su simplicidad tienen el defecto de su sen-
sibilidad a valores extremos (ejercicio 9.10). Una posibilidad es reemplazar las medias
por medias podadas, y utilizar el “pivote aproximado” (10.8). En este caso tenemos
¯
Z
.25
= 0.673 y S
.25
= 0.27, que dan T = 2.49, que corresponde a un p = 0.016 con la
normal, dando abundante evidencia acerca de µ > 0.
Los tests “robustos” como ´este, tienen un nivel s´olo aproximado. Existen tests llamados
no param´etricos cuyo nivel no depende de F = D(Z
i
) [16, Cap. 9]. El m´as simple est´a
basado en la idea de que si las Y son sistem´aticamente mayores que las X, debiera haber
m´as diferencias positivas que negativas. Sea entonces U =
¸
n
i=1
I(Z
i
> 0), que es Bi(n, p)
con p = P(Z
i
> 0). Supongamos F continua. Entonces la hip´otesis nula de que no hay
efectos equivale a p = 0.5, y la alternativa unilateral de que las Y son mayores que las X
11.5. SOBRE EL USO DE LOS TESTS EN LA PR
´
ACTICA 141
equivale a p > 0.5, de manera que el test se reduce a un test unilateral de la binomial, ya
visto. Este es el test del signo. En el ejemplo, se tiene U = 11, que da para el test (11.3)
un estad´ıstico igual a 3.32 con un valor p de 0.0005: nuevamente, suficiente evidencia de
que µ > 0. El procedimiento para el caso bilateral es an´alogo.
Como todas las observaciones tienen en la pr´actica una precisi´on finita, hay una probabi-
lidad positiva de que haya Z
i
= 0. Para tener en cuenta este caso, sea M =
¸
n
i=1
I(Z
i
= 0).
Entonces se puede probar que
D(U|M = m) = Bi(n −m, p), (11.7)
de modo que en general se hace el test como si las Z
i
nulas no existieran. En el ejemplo
anterior, si a las 11 anteriores agreg´aramos dos nulas, el resultado ser´ıa el mismo.
11.4.3 Comparaci´ on de dos binomiales
Consideremos la situaci´on en que se observan X
1
∼ Bi(n
1
, p
1
) y X
2
∼ Bi(n
2
, p
2
) indepen-
dientes, con n
1
y n
2
conocidos, y se desea testear H
0
= {p
1
= p
2
} contra H
1
= {p
1
> p
2
}
(o {p
1
= p
2
}). Los muy elementales m´etodos mostrados hasta ahora no permiten de-
ducir el test adecuado, de modo que lo daremos por decreto. Los EMV son obviamente
p

j
= X
j
/n
j
(j = 1, 2), por lo cual el EMV de la diferencia δ = p
1
−p
2
es δ

= p

1
−p

2
. La
idea clave es que para obtener el test, conviene calcular la distribuci´on de δ

bajo H
0
. Sea
p
0
el valor com´ un de p
1
y p
2
bajo H
0
. Entonces v = var(δ

) = p
0
(1 −p
0
)n/n
1
n
2
, donde
n = n
1
+n
2
. Es f´acil deducir que bajo H
0
, el EMV de p
0
es p

0
= X/n, con X = X
1
+X
2
;
y por lo tanto el EMV de v es v

= p

0
(1 − p

0
)n/n
1
n
2
. En definitiva, se usa el pivote
aproximado T = (δ

−δ)/

v

, que bajo H
0
= {δ = 0} es aproximadamente N(0, 1); y en
consecuencia, el test unilateral rechaza cuando p

1
−p

2
> z
1−α

v

.
11.5 Sobre el uso de los tests en la pr´ actica
“Est´ as buscando direcciones
en libros para cocinar,
est´ as mezclando el dulce con la sal”
Charly Garc´ıa: “Superh´eroes”
Como el lector habr´a comprobado, aprender la teor´ıa elemental de los tests y el uso de los
correspondientes m´etodos no requiere m´as que un poco de paciencia. Pero su aplicaci´on
suele estar plagada de errores conceptuales, por falta de claridad en “qu´e significa lo que
se est´a haciendo”, resultando a veces una aplicaci´on mec´anica de recetas sin sentido. Es
entonces oportuno advertir al lector de algunos de estos puntos conceptuales. Para fijar
ideas, consideremos un test unilateral de comparaci´on de dos medias.
a) El que un test acepte H
0
no debe interpretarse como una demostraci´on de su validez,
sino como que “no hay suficiente evidencia como para rechazarla”. De manera que
142 CAP´ıTULO 11. TESTS DE HIP
´
OTESIS
si n es demasiado peque˜ no –y por lo tanto la potencia muy baja– es muy probable
que el test acepte casi cualquier cosa. La contradicci´on del final del Ejemplo 11.A
muestra simplemente que n es demasiado chico como para decidir si µ es mayor o
menor que 235.
b) Que el test rechace H
0
con un valor p muy peque˜ no –o sea, con un t muy grande– no
significa que las dos medias sean muy diferentes: s´olo indica que hay mucha evidencia
de que hay alguna diferencia. Si n es muy grande, aunque ∆ sea peque˜ na, el valor del
estad´ıstico puede ser grande. Se puede hacer la siguiente comparaci´on: un observador
debe decidir si dos personas son iguales f´ısicamente. Si las mira desde 200 metros
(sin largavista) s´olo puede decir que no tiene suficientes elementos para decidir si son
distintos; y nadie podr´ıa tomar esto como una demostraci´on de que son iguales. Por
otra parte, si los mira desde muy cerca, siempre podr´a encontrar diferencias, aunque
se trate de dos gemelos (por ejemplo, las impresiones digitales).
Por lo tanto, si uno quiere tener una idea del tama˜ no de la diferencia, no debiera
quedarse con el test, sino que debiera observar el estimador puntual y el intervalo de
confianza correspondientes. Una buena norma general ser´ıa: si un test detecta que
dos cosas son diferentes, hay que poder describir en qu´e difieren.
c) Al elegir un test, es necesario recordar que no basta con tener en cuenta el error de
tipo I. Por ejemplo, un test que rechaza la hip´otesis nula si el pr´oximo premio mayor
de la Loter´ıa Nacional termina en 00, tiene un nivel de 0.01; pero es obviamente un
test idiota, porque la potencia es ¡tambi´en de 0.01!.
d) Para elegir cu´al es la hip´otesis nula y cu´al la alternativa, hay dos criterios para tener
presentes. El primero es tomar en cuenta el hecho de que la hip´ otesis nula no es
rechazada si no hay suficiente evidencia en su contra. Por lo tanto, si se contraponen
una teor´ıa establecida y otra novedosa, debiera tomarse la primera como H
0
. El
segundo es “t´ecnico”: el “=” debe estar en H
0
; es decir, H
0
puede ser de la forma
θ = θ
0
o θ ≤ θ
0
, pero no θ = θ
0
, o θ > θ
0
(en lenguaje matem´atico, H
0
debe
ser un “conjunto cerrado”). La raz´on es que si se procede de la forma indicada, se
puede obtener una potencia alta para θ lo bastante lejos de θ
0
y/o n lo bastante
grande; pero si en cambio se quiere testear H
0
= {θ = θ
0
} contra θ = θ
0
con nivel
α, inevitablemente la potencia resulta tambi´en α cualquiera sea n. Ambos criterios
no siempre son compatibles –como veremos en el Ejemplo 12.C– y entonces debe
primar el “t´ecnico”.
11.6 Ejercicios
11.1 Con los datos del ejercicio 10.1, testear al nivel 0.05 las siguientes hip´otesis nulas:
a. µ = 1 contra µ = 1
b. µ ≤ 1 contra µ > 1
11.6. EJERCICIOS 143
c. σ = 0.8 contra σ = 0.8
d. σ ≥ 0.8 contra σ < 0.8.
11.2 Para un test bilateral basado en un pivote T con funci´on de distribuci´on G (Proposi-
ci´on 11.2), probar que si t es el valor observado de T, el valor p es 2m´ın(G(t), 1−G(t)).
11.3 Una de las m´as c´elebres “Leyes de Murphy” [3] establece que “si se deja caer al suelo
una tostada untada con dulce, la probabilidad de que caiga del lado del dulce es mayor
que la de que caiga del lado del pan”. Para verificarla, se realiz´o un experimento en la
University of Southwestern Louisana, en el que se dejaron caer 1000 tostadas untadas
con mermelada de grosellas, de las cuales cayeron 540 del lado del dulce. ¿Qu´e se
podr´ıa concluir?.
11.4 Muestre que el test bilateral de H
0
= {p = p
0
} en la binomial, obtenido aplicando la
Proposici´on 11.3 a los intervalos dados por (10.13)-(10.14)-(10.16) tiene la regi´on de
aceptaci´on dada por (11.4) m´as la condici´on 0 < X < n [usar el ejercicio 10.10].
11.5 Los fabricantes “A” y “B” producen el mismo tipo de cable de cobre. Los valores de
la resistencia a la tensi´on de dos muestras de cable (en libras) son:
A: 5110 5090 5120 5115 5105 5050 5075 5085
B: 5130 5050 5040 5045 5065 5120 5050.
Suponiendo normalidad, testear la igualdad de las resistencias medias de los cables
producidos por ambos fabricantes, con nivel 0.10.
11.6 Un lote de n l´amparas se considera aceptable si su vida media es ≥ 1000 horas. Se
desea que, si el lote es bueno, la probabilidad de rechazarlo sea ≤ 0.01. Se supone
que la distribuci´on de las duraciones es exponencial. ¿Qu´e condici´on debe cumplir la
muestra para que el lote sea considerado aceptable?
11.7 En la situaci´on del Ejercicio 10.6, ¿es el resultado compatible con la suposici´on de
que c = 0.6?.
11.8 Otra famosa ley de Murphy es: “la probabilidad de un suceso es funci´on creciente
del da˜ no que causa”. Para verificar esto, en la University of Southwestern Louisana
se dejaron caer 1000 tostadas untadas con mermelada de grosellas silvestres: 400 en
la cancha de basket de la Universidad, y 600 sobre una valiosa alfombra persa. De
las primeras, cayeron 220 del lado del dulce; y de las segundas, 350. ¿Qu´e conclusi´on
puede sacar?.
11.9 Se desea testear H
0
= {µ = 0} contra la alternativa {µ = 0} para muestras de
tama˜ no n de N(µ, σ
2
), al nivel 0.05. Hallar el menor n tal que la potencia sea ≥ 0.8
si µ ≥ 3, suponiendo conocida σ = 5.
11.10 En la situaci´on del ejercicio 10.15, ¿c´omo asignar las observaciones de manera de
maximizar la potencia de los tests para ∆?.
144 CAP´ıTULO 11. TESTS DE HIP
´
OTESIS
11.11 Probar (11.7).
11.12 En la situaci´on del ejercicio 11.3 el comit´e de investigaciones de la University of
Southwestern Louisiana decreta que, para que el experimento sea considerado con-
cluyente, debera cumplir con: (a) si la Ley de Murphy es falsa, la probabilidad de
que el test la confirme debe ser ≤ 0.01; (b) si la Ley es cierta, y la probabilidad de
caer del lado del dulce es > 0.6, entonces la probabilidad de confirmarla debe ser
≥ 0.95. ¿Cu´antas tostadas hay que arrojar para que se cumplan estas condiciones?
11.13 Verificar que (11.6) es funci´on creciente de |γ| de α.
æ
Cap´ıtulo 12
Ajuste de una Recta
Una situaci´on frecuente en la investigaci´on cient´ıfica y tecnol´ogica es aproximar una mag-
nitud como funci´on de otra u otras. La m´as simple es ajustar una relaci´on lineal en-
tre dos magnitudes, x (“predictor”) e y (“respuesta”). Es decir, se tienen datos (x
i
, y
i
)
(i = 1, . . . , n) y se desea encontrar coeficientes β
0
, β
1
tales que
y
i
≈ β
0

1
x
i
. (12.1)
Esto es semejante a la situaci´on de la Secci´on 6.2.1, pero mientras que all´ı se part´ıa de una
distribuci´on conjunta, aqu´ı se parte de datos emp´ıricos. Mostramos algunos casos t´ıpicos.
Ejemplo 12.A: Temperatura y consumo de vapor Los datos de la tabla 12.1 [6] dan
para cada mes la temperatura promedio x –en grados cent´ıgrados– y la cantidad y de
vapor –en libras– utilizada en un proceso qu´ımico durante el mes (los datos no est´an en
orden cronol´ogico sino ordenados por las x). Se desea una predicci´on aproximada de y en
funci´ on de x.
La figura 12.1 muestra una relaci´on descendiente y aproximadamente lineal, aunque
con mucha variabilidad.
Ejemplo 12.B: Dispersi´ on de un aerosol En un estudio sobre aerosoles [5] se realiz´o
para cada medici´on una emisi´on de un aerosol y se registr´o despu´es de un tiempo x –la
“edad” del aerosol– su dispersi´on medida como la inversa de la cantidad de part´ıculas por
unidad de volumen, con el objetivo de tener una descripci´on de la evoluci´on temporal del
fen´omeno. Los datos se muestran en la tabla 12.2 y la figura 12.2.
12.1 El m´etodo de m´ınimos cuadrados
Para ajustar una relaci´on de la forma (12.1), una idea sensata es buscar los coeficientes
de forma que las diferencias y
i
−(β
0

1
x
i
) entre observaci´on y predicci´on sean “peque˜ nas”.
Como en la Secci´on 6.2.1, el criterio ser´a buscar los coeficientes tales que
145
146 CAP´ıTULO 12. AJUSTE DE UNA RECTA
Tabla 12.1: Temperatura (x) y uso de vapor (y)
x y x y
-2.17 11.88 14.50 8.47
-1.89 11.08 14.89 6.40
-1.72 12.19 15.17 10.09
-1.28 11.13 16.33 9.27
-0.67 12.51 21.11 6.83
0.78 10.36 21.11 8.11
1.83 10.98 21.50 7.82
3.94 9.57 21.83 8.73
7.00 8.86 22.28 7.68
8.00 8.24 23.56 6.36
8.22 10.94 23.61 8.88
9.17 9.58 24.83 8.50
14.17 9.14
Tabla 12.2: Dispersi´on de aerosol
Edad x (minutos): 8 22 35 40 57 73 78 87 98
Dispersi´on y: 6.16 9.88 14.35 24.06 30.34 32.17 42.18 43.23 48.76
¸
n
i=1
(y
i
− β
0
− β
1
x
i
)
2
sea m´ınima. Este es el m´etodo de m´ınimos cuadrados, que desde
su creaci´on por el astr´onomo y matem´atico franc´es Lagrange en el Siglo XVII, ha sido sin
duda el m´as usado de los m´etodos estad´ısticos. El motivo de su popularidad es –ya lo
adivina el lector– que es el ´ unico capaz de proporcionar resultados expl´ıcitos. Para hallar
ls soluci´on de
n
¸
i=1
(y
i
−β
0
−β
1
x
i
)
2
= m´ın, (12.2)
derivamos (12.2) respecto de β
0
y β
1
, obteniendo las ecuaciones normales:
n
¸
i=1
(y
i
−β
0
−β
1
x
i
) = 0, (12.3)
n
¸
i=1
(y
i
−β
0
−β
1
x
i
)x
i
= 0. (12.4)
Pero esto es semejante a (6.14), y el lector puede verificar enseguida que la soluci´on es
β
1
=
S
xy
S
x
, β
0
= ¯ y −β
1
¯ x, (12.5)
12.1. EL M
´
ETODO DE M´ıNIMOS CUADRADOS 147
x
0 10 20 30
y
6
8
10
12
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
Figura 12.1: Uso de vapor vs. temperatura
donde
¯ x =
1
n
n
¸
i=1
x
i
, ¯ y =
1
n
n
¸
i=1
y
i
, (12.6)
S
x
=
n
¸
i=1
(x
i
− ¯ x)
2
, (12.7)
S
xy
=
n
¸
i=1
(x
i
− ¯ x)y
i
=
n
¸
i=1
x
i
(y
i
− ¯ y) =
n
¸
i=1
(x
i
− ¯ x)(y
i
− ¯ x), (12.8)
teniendo en cuenta para ´esto ´ ultimo que
n
¸
i=1
(x
i
− ¯ x) = 0. (12.9)
Es inmediato que la recta pasa por (¯ x, ¯ y).
Sean
ˆ y
i
= β
0

1
x
i
, r
i
= y
i
− ˆ y
i
(12.10)
los “valores ajustados” y los “residuos”. Entonces las ecuaciones normales se pueden es-
cribir como
n
¸
i=1
r
i
= 0,
n
¸
i=1
x
i
r
i
= 0. (12.11)
148 CAP´ıTULO 12. AJUSTE DE UNA RECTA
y
0
10
20
30
40
50
x
0 20 40 60 80 100
×
×
×
×
×
×
×
×
×
Figura 12.2: Aerosol: dispersi´on vs. edad
Una medida del error del ajuste est´a dada por la suma de los cuadrados de los residuos:
S
r
=
n
¸
i=1
r
2
i
. (12.12)
Usando (12.11) resulta
S
r
=
n
¸
i=1
r
i
(y
i
− ˆ y
i
) =
n
¸
i=1
r
i
(y
i
− ¯ y),
y usando la definici´on de β
1
y la segunda igualdad de (12.8) queda
S
r
=
n
¸
i=1
(y
i
− ¯ y −β
1
x
i
)(y
i
− ¯ y) = S
y

S
2
xy
S
x
, (12.13)
donde S
y
=
¸
n
i=1
(y
i
− ¯ y)
2
. De (12.13) es obvio que S
r
≤ S
y
. Al valor 1 − S
r
/S
y
se lo
llama coeficiente de determinaci´ on, y se lo suele designar con R
2
. Mide “qu´e proporci´on
de la variabilidad de las y es explicada por las x” (comparar con (6.16)).
En el ejemplo 12.A, se tiene
¯ x = 11.44, ¯ y = 9.344, S
x
= 2208, S
y
= 71.75, S
xy
= −324.2;
de donde sale β
0
= 11.02, β
1
= −0.1468, y S
r
= 71.90, R
2
= 0.967. Observe que R
2
es alto,
y sin embargo se ve en la figura que los datos no est´an pr´oximos a una recta. Lo que ocurre
es que R
2
depende no s´olo de S
r
–que mide cu´an dispersas est´an las y alrededor de la
recta– sino tambi´en de S
x
, que mide cu´an dispersas est´an las x respecto de su promedio.
12.1. EL M
´
ETODO DE M´ıNIMOS CUADRADOS 149
12.1.1 C´ alculo num´erico de los coeficientes
Para calcular los coeficientes de (12.5) y medir el error, hacen falta las medias ¯ x, ¯ y y las
sumas S
x
, S
xy
y S
r
. Para obtener ´estas ´ ultimas, lo m´as natural es aplicar directamente
las definiciones (12.7), (12.8) y (12.12), lo que es adecuado si se dispone de computadora.
Pero si se debe usar una calculadora, hay un procedimiento que requiere menos operaciones.
Sean
A
x
=
n
¸
i=1
x
2
i
, A
y
=
n
¸
i=1
y
2
i
, A
xy
=
n
¸
i=1
x
i
y
i
.
Entonces se deduce enseguida que
S
x
= A
x
−n¯ x
2
, S
xy
= A
xy
−n¯ x¯ y, S
y
= A
y
−n¯ y
2
.
Y S
r
se puede calcular mediante (12.13). Este procedimiento tiene los mismos peligros
mostrados en el ejercicio 8.2. Para evitarlos, el remedio es el mismo: restar a las x
i
y a las
y
i
sendas constantes para que queden parejamente repartidas alrededor del 0.
12.1.2 Recta por el origen
En el Ejemplo 12.B, cuando x = 0, el aerosol est´a a´ un comprimido, por lo que la canti-
dad de part´ıculas por unidad de volumen es muy alta, y en consecuencia la dispersi´on es
pr´acticamente nula, lo que es corroborado por la figura 12.2. Esto justifica plantear (12.1)
con β
0
= 0, o sea, ajustar una recta que pasa por el origen, de la forma y
i
≈ βx
i
. En este
caso el lector puede verificar f´acilmente que el estimador de m´ınimos cuadrados definido
por
¸
n
i=1
r
2
i
= m´ın, donde r
i
= y
i
− βx
i
, cumple la ecuaci´on normal
¸
n
i=1
r
i
x
i
= 0, con
soluci´on
β =
¸
n
i=1
x
i
y
i
¸
n
i=1
x
2
i
. (12.14)
Se podr´ıa pensar que si y
i
≈ βx
i
, debiera ser β ≈ y
i
/x
i
, y por lo tanto se podr´ıa
obtener la pendiente β como un promedio de las pendientes y
i
/x
i
. En verdad, el β de
(12.14) es un promedio ponderado de las pendientes (ver (12.14)) con pesos w
i
= x
2
i
, ya
que x
i
y
i
= (y
i
/x
i
)x
2
i
. Es decir, que las x m´as alejadas del origen tienen mayor peso.
An´alogamente, para una recta general, (12.5) y la ´ ultima igualdad de (12.8) muestran que
la pendiente β
1
es un promedio ponderado de las pendientes (y
i
− ¯ y)/(x
i
− ¯ x), con pesos
(x
i
− ¯ x)
2
.
12.1.3 Transformaciones
Algunos modelos no son de la forma (12.1), pero pueden ser llevados a ella. Por ejemplo,
si y ≈ ax
b
y se quiere estimar a y b, una forma de hacerlo es tomar logaritmos, obteniendo
y

≈ a

+ bx

con y

= log y, a

= log a, x

= log x. Lo mismo sucede con modelos de la
forma y ≈ ab
x
(ejercicios 12.10 y 12.8).
150 CAP´ıTULO 12. AJUSTE DE UNA RECTA
Note que para conservar la simplicidad del c´alculo, lo que importa es que los coeficientes
–no los predictores– figuren en forma lineal. Por ejemplo, y ≈ β
0
+ β
1
x
5
no ofrece
problema; pero s´ı y ≈ β +β
2
x (pese a que aqu´ı la x figura linealmente).
El ajuste de polinomios (por ejemplo y ≈ β
0

1
x+β
2
x
2
) excede el nivel de este libro.
12.2 El modelo lineal simple
Para tratar la variabilidad de los coeficientes obtenidos, hace falta un modelo estad´ıstico
para las observaciones. El modelo es
Y
i
= β
0

1
x
i
+U
i
, (12.15)
donde β
0
y β
1
son par´ametros desconocidos, las x
i
(i = 1, . . . , n) son fijas (o sea, no son
aleatorias), conocidas sin error, y las U
i
son variables aleatorias iid. Este es el llamado
modelo lineal simple.
Adem´as se supone:
U
i
∼ N(0, σ
2
) (12.16)
con σ desconocida.
Calcularemos los EMV de los par´ametros (distinguiremos los estimadores β

de los
par´ametros desconocidos β). Como Y
i
∼ N(η
i
, σ
2
) donde
η
i
= EY
i
= β
0

1
x
i
,
y las Y
i
son independientes porque las U
i
lo son, la densidad conjunta de las Y
i
es
L(y
1
, . . . , y
n
; β
0
, β
1
, σ) =
1
(2π)
n/2
σ
n
exp


1

2
n
¸
i=1
(y
i
−η
i
)
2

,
y para maximizar esto hay que minimizar
n lnσ +
1
σ
2
n
¸
i=1
(y
i
−β
0
−β
1
x
i
)
2
. (12.17)
Se verifica enseguida que los β

que minimizan esta expresi´on son los mismos de (12.2).
De modo que la funci´on que cumple la suposici´on de normalidad (12.16) no es otra que la
de justificar el uso del m´etodo de m´ınimos cuadrados, que es el m´ as simple de calcular.
Para obtener el EMV de σ, se deriva (12.17) respecto de σ, y resulta
σ

=

S
r
n
. (12.18)
12.3. DISTRIBUCI
´
ON DE LOS ESTIMADORES 151
12.3 Distribuci´ on de los estimadores
Para obtener inferencias sobre los estimadores, se necesita su distribuci´on. Teniendo en
cuenta que EU
i
= 0 y (12.9), se deduce que las medias de los β

j
son


1
=
¸
n
i=1
(x
i
− ¯ x)η
i
S
x
= β
1
,


0
=
1
n
n
¸
i=1

0

1
x
i
) −β
1
¯ x = β
0
;
o sea que los estimadores son insesgados.
Por ser las U
i
incorreladas, sale directamente de (12.5) que
var(β

1
) =
σ
2
S
x
. (12.19)
Para calcular la varianza de β

0
, lo escribimos expl´ıcitamente como combinaci´on lineal de
las Y
i
:
β

0
=
n
¸
i=1

1
n
− ¯ x
x
i
− ¯ x
S
x

Y
i
; (12.20)
y de aqu´ı se obtiene
var(β

0
) = σ
2

1
n
+
¯ x
2
S
x

. (12.21)
La interpretaci´on de (12.19) es que la varianza del estimador de la pendiente es tanto
menor cuanto m´as desparramadas est´en las x
i
. La de (12.21) es: como la recta pasa por
(¯ x,
¯
Y ), cuanto m´as alejada est´e ¯ x del 0, con menos precisi´on se puede estimar la ordenada
en el origen.
Usando (12.20) y (12.5), y teniendo en cuenta que cov(Y
i
, Y
j
) = 0 para i = j, se prueba
que
cov(β

0
, β

1
) = −σ
2
¯ x
S
x
. (12.22)
Por ´ ultimo, los β

j
son normales por ser combinaciones lineales de las Y
i
, que son
normales independientes.
12.4 Inferencia
Ahora veremos c´omo obtener intervalos de confianza y tests para los par´ametros. Por
(12.11), los n sumandos de S
r
no son independientes, pues cumplen dos restricciones.
Como el lector puede sospechar, se cumple un resultado an´alogo a los Teoremas 10.3 y
10.4:
Teorema 12.1 S
r

2
∼ χ
2
n−2
, y es independiente de (β

0
, β

1
).
152 CAP´ıTULO 12. AJUSTE DE UNA RECTA
De aqu´ı sale que ES
r
= σ
2
(n − 2), y por lo tanto un estimador insesgado de σ
2
se
obtiene como
S
2
=
S
r
n −2
. (12.23)
El Teorema permite obtener intervalos de confianza para σ, como en la Secci´on 10.3, pero
ahora con n −2 grados de libertad.
Las varianzas de β

0
y β

1
y la covarianza se estiman reemplazando en (12.21), (12.19)
y (12.22) a σ por S. Sean v

0
, v

1
y c

los respectivos estimadores. Entonces de la indepen-
dencia dada en el Teorema resulta que
β

j
−β
j

v

j
∼ t
n−2
(j = 1, 2),
lo que permite obtener intervalos de confianza y tests para los par´ametros, en la forma ya
conocida.
En el modelo Y
i
= βx
i
+U
i
de recta por el origen, el estimador (12.14) tiene varianza
σ
2
/
¸
n
i=1
x
2
i
. El resultado an´alogo al Teorema 12.1 es que S
r

2
∼ χ
2
n−1
(aqu´ı los r
i
cumplen una sola condici´on), y es independiente de β

. En consecuencia,
β

−β
S
r

n
¸
i=1
x
2
i
∼ t
n−1
.
Ejemplo 12.C: Galileo y la estrella nueva En 1572, el astr´onomo dan´es Tycho
Brahe observ´o un astro nuevo y muy brillante, cuyo brillo fue decreciendo hasta finalmente
extinguirse 18 meses m´as tarde. Tycho verific´o que el nuevo astro permanec´ıa fijo respecto
a las estrellas, y varios astr´onomos hicieron observaciones de su posici´on desde distintos
puntos de Europa.
En el lenguaje actual, se trataba de una nova, producto de la desintegraci´on de una
estrella. Pero en aquel tiempo primaba todav´ıa la doctrina de Arist´oteles, seg´ un la cual
las estrellas eran inmutables, es decir, no pod´ıan aparecer ni desaparecer; de modo que
determinar si el nuevo astro era una estrella ten´ıa serias implicaciones. Dicha doctrina
establec´ıa adem´as que las estrellas estaban a una distancia infinita. En 1632, Galileo
polemiz´o con otros astr´onomos con el fin de probar que en efecto se trataba de una estrella.
Damos aqu´ı una parte de las observaciones [8], que constan de dos ´angulos, “altura del
polo” x (que depende de la latitud del punto de observaci´on) y “altura m´ınima de la
estrella” y (ambas en grados). La ´ ultima columna de la tabla se usar´a en la Secci´on 12.7.1.
La figura 12.3 muestra los datos.
Se puede mostrar que estos ´angulos cumplen una relaci´on de la forma y = β
0
+ β
1
x
donde β
1
≥ 1 depende de la distancia a la estrella, y es igual a 1 si la distancia es infinita.
Esta relaci´on no se cumple exactamente con los datos observados, debido a los errores de
medici´on. Para mostrar que se trataba de una estrella, Galileo deb´ıa probar que β
1
= 1.
En aquel tiempo no exist´ıan Probabilidad ni Estad´ıstica, y el an´alisis que hizo Galileo nos
parecer´ıa hoy innecesariamente complicado. Veamos c´omo se podr´ıa plantear el problema
12.5. INTERVALOS DE PREDICCI
´
ON 153
Tabla 12.3: Alturas del polo (x) y de la estrella (y)
N´ um. alt. polo alt. estrella residuo
1 55.97 27.75 -0.04
2 52.40 24.36 0.10
3 51.90 23.55 -0.22
4 51.30 23.05 -0.13
5 51.17 22.67 -0.38
6 49.40 22.00 0.70
7 48.37 20.16 -0.12
8 48.37 20.25 -0.03
9 39.50 11.50 -0.02
10 55.97 27.95 0.16
actualmente. El modelo es Y
i
= β
0
+ β
1
x
i
+ U
i
, y se trata de determinar si los datos
apoyan la afirmaci´on β
1
= 1. Aqu´ı se plantea la situaci´on del punto (d) de la Secci´on 11.5:
como Galileo quiere demostrar que la doctrina establecida (β
1
> 1) es falsa, ´esta debiera
constituir la hip´otesis nula; pero como esto es t´ecnicamente imposible, se debe proceder al
rev´es, testeando H
0
: β
1
= 1 contra la alternativa β
1
> 1. Con esto, Galileo s´olo podr´ıa
aspirar a mostrar que los datos no contradicen su afirmaci´on.
Un ajuste por m´ınimos cuadrados da β

0
= −27.49, β

1
= 0.9876, S = 0.3063. La
desviaci´on estimada de la pendiente es 0.0218, lo que da un estad´ıstico t=-0.567, mostrando
un excelente ajuste con H
0
.
Combinaciones lineales
En general, sea γ = aβ
0
+bβ
1
cualquier combinaci´on lineal de los par´ametros. Si se desean
intervalos de confianza o tests para γ, se siguen los mismos pasos que antes. El EMV de γ
es γ

= aβ

0
+bβ

1
, cuya varianza v
γ
se obtiene aplicando (4.27); se la estima reemplazando
a σ por S, o sea v

γ
= a
2
v

0
+b
2
v

1
+2abc

.
Como γ

depende s´olo de (β

0
, β

1
), y v

depende s´olo de S, se deduce del Teorema 12.1
que
γ

−γ

v

γ
∼ t
n−2
. (12.24)
12.5 Intervalos de predicci´ on
Sea x
0
cualquiera, y η
0
= β
0
+ β
1
x
0
, la media de la “Y ” correspondiente a x
0
. El EMV
de η
0
es obviamente η

0
= β

0


1
x
0
. Se deduce enseguida que Eη

0
= η
0
. Su varianza se
154 CAP´ıTULO 12. AJUSTE DE UNA RECTA
x
40 45 50 55
y
10
15
20
25
×
×
×
×
×
×
××
×
×
Figura 12.3: Altura de la estrella vs. altura del polo
obtiene usando (12.21), (12.19) y (12.22):
var(η

0
) = σ
2

1
n
+
(x
0
− ¯ x)
2
S
x

. (12.25)
Note que esta varianza aumenta con la distancia de x
0
a ¯ x. La explicaci´on es que, como la
recta pasa por (¯ x,
¯
Y ), el efecto del error en la pendiente se hace m´as notorio cuanto m´as
lejos est´e x
0
de ¯ x. Usando (12.24) se obtienen intervalos de confianza para η
0
.
Sean x
0
cualquiera e Y
0
= β
0
+ β
1
x
0
+ U
0
, donde U
0
es independiente de los dem´as
U
i
, y supongamos que se conoce x
0
pero no Y
0
. Se desea un intervalo que contenga a Y
0
con probabilidad dada (recordar la Secci´on 10.8); se lo llama “intervalo de predicci´on”. El
m´etodo para obtenerlo es igual al de dicha secci´on: (Y
0
− η

0
) tiene media 0, y varianza
σ
2
+var(η

0
), y por lo tanto el intervalo es
η

0
±S t
n−2,1−α/2

1 +
1
n
+
(x
0
− ¯ x)
2
S
x

1/2
.
En el Ejemplo 12.A, para x
0
= 12, es η

0
= 9.262, el intervalo de confianza bilateral de
nivel 0.95 para η
0
es 9.262 ±0.4248; y el de predicci´on es 9.262 ±2.163.
12.6 Predictores aleatorios
Mientras que en los ejemplos 12.B y 12.C las x est´an predeterminadas (han sido elegidas
antes de medir las y), en el 12.A ambas est´an fuera del control del experimentador, y
por lo tanto deben ser consideradas como aleatorias. Estos datos, en que los predictores
12.6. PREDICTORES ALEATORIOS 155
no son controlados sino aleatorios, se llaman datos observacionales. Como veremos a
continuaci´on, el tratamiento estad´ıstico es esencialmente el mismo, aunque la interpretaci´on
de los resultados puede ser muy diferente.
En esta situaci´on, se observan pares independientes (X
i
, Y
i
), i = 1, . . . , n de variables
aleatorias, que cumplen el modelo
Y
i
= β
0

1
X
i
+U
i
. (12.26)
Supongamos que
X
i
y U
i
son independientes (12.27)
y que las U
i
tienen todas la misma distribuci´on. De aqu´ı resulta E(Y
i
|X
i
) = β
0

1
X
i
si
EU
i
= 0 (ejercicio 12.5).
Si adem´as se postula (12.16), es f´acil calcular la funci´on de verosimilitud. Supongamos
para simplificar que D(X
i
) es continua, con densidad g
i
. Como (X
i
, Y
i
) es una trans-
formaci´on lineal de (X
i
, U
i
), su densidad conjunta se obtiene f´acilmente aplicando (5.12),
lo que da (X
i
, Y
i
) ∼ f(x, y) = g
i
(x)h(y − β
0
− β
1
x) donde h es la densidad de U
i
. En
consecuencia la funci´on de verosimilitud es
L(x
1
, y
1
, . . . , x
n
, y
n
; β
0
, β
1
, σ) =
1
(2π)
n/2
σ
n
exp


1

2
n
¸
i=1
(y
i
−β
0
−β
1
x
i
)
2

n
¸
i=1
g
i
(x
i
);
y de esto se deduce que los EMV son los mismos que para x
i
fijas: los de m´ınimos cuadrados.
Notemos que n
−1
S
x
, n
−1
S
y
y n
−1
S
xy
son las varianzas muestrales de las X y de las Y ,
y la covarianza muestral. Por lo tanto, los estimadores son la versi´on muestral de (6.14).
Sea
ρ

=
S
xy

S
x
S
y
el coeficiente de correlaci´ on muestral. Entonces se prueba f´acilmente que R
2
= ρ
∗2
.
Las distribuciones de los estimadores dependen ahora de las distribuciones de las X
i
.
Puede probarse que siguen siendo insesgados, y que su distribuci´on condicional en las X
i
es normal, pero que en general su distribuci´on no ser´a normal (ejercicio 12.6). En cambio
–afortunadamente– las distribuciones de S
r
y de los estad´ısticos t no dependen de la de
los predictores:
Proposici´ on 12.2 Bajo el modelo (12.26) con (12.27) y (12.16), la distribuci´on del es-
tad´ıstico t de (12.24) es t
n−2
, y la de S
r

2
es χ
2
n−2
.
Demostraci´ on: El estad´ıstico t es una funci´on de las X
i
y de las U
i
: T = t(X, U) con
X = (X
1
, . . . , X
n
) y U = (U
1
, . . . , U
n
), que son vectores aleatorios independientes. Para
cada x ∈ R
n
fijo, la distribuci´on de t(x, U) es una t
n−2
. El Corolario 6.3 implica que esta
es la distribuci´on condicional D(T|X = x). Y por (6.8), esta es D(T).
El mismo razonamiento vale para S
r
.
Lo mismo se cumple obviamente para el modelo de recta por el origen.
156 CAP´ıTULO 12. AJUSTE DE UNA RECTA
12.6.1 Interpretaci´ on de los resultados
Si bien las mismas f´ormulas valen para x
i
fijas o aleatorias, las implicancias son distintas.
En el primer caso, se puede decir que si se hace que x aumente en ∆, entonces y aumentar´a
en media β
1
∆. Pero este razonamiento no se puede extender al caso de x
i
aleatorias. Para
verlo, consideremos el siguiente ejemplo.
Ejemplo 12.D: Nacimientos y cig¨ ue˜ nas La tabla 12.4 [5] da para la ciudad alemana
de Oldenburg los n´ umeros de cig¨ ue˜ nas (x) y de habitantes (en miles) (y) al final de cada
a˜ no.
Tabla 12.4: Cig¨ ue˜ nas y habitantes
a˜ no: 1930 1931 1932 1933 1934 1935 1936
cig¨ ue˜ nas x: 130 148 175 185 247 253 255
habitantes (miles) y: 55 55 63 66 68 72 75
y
50
60
70
x
100 200 300
× ×
×
×
×
×
×
Figura 12.4: Habitantes vs. cig¨ ue˜ nas
La figura 12.4 muestra una clara relaci´on entre x e y. Si hacemos un ajuste lineal para
predecir el n´ umero de habitantes en funci´on del de cig¨ ue˜ nas, se obtienen β

0
= 36.9 y β

1
=
0.14, con una correlaci´on bastante alta: ρ

= 0.81.
En vista de tan buen ajuste, y dado que la pendiente es 0.14 miles de habitantes/cig¨ ue˜ na:
¿se puede concluir que la importaci´on de 10 cig¨ ue˜ nas implicar´ıa un aumento medio de la
poblaci´on de 1400 habitantes?. La idea parece absurda, m´axime que nosotros ya sabemos
12.7. USO DE LOS RESIDUOS 157
que dichas aves nada tienen que ver con el nacimiento de los ni˜ nos (puesto que ´estos nacen
de un repollo). Para completar el rid´ıculo, nada impedir´ıa usar los datos al rev´es, para
concluir que un aumento del n´ umero de habitantes acarrea un aumento del de cig¨ ue˜ nas.
Esto muestra que con datos observacionales, correlaci´ on no implica causalidad.
¿Cu´al puede ser entonces la explicaci´on de la correlaci´on?. Notemos que tanto las x
como las y aumentan con el tiempo, y eso es simplemente la causa. O sea: si dos variables
est´ an muy correlacionadas, la causa puede ser una tercera variable que influye en ambas.
Esto no impide que las x sean buenos predictores de las y, mientras la situaci´on contin´ ue
evolucionando de la misma manera. Pero si se quiere saber qu´e ocurre al alterar las variables
del sistema, la ´ unica forma de saberlo es alterarlas y ver qu´e pasa.
12.6.2 Predictores con error
Hasta ahora se ha supuesto que los predictores –tanto controlados como aleatorios– eran
medidos sin error. Naturalmente, esta suposici´on es extremadamente optimista. En el
ejemplo 12.C, la altura del polo x depend´ıa s´olo del lugar de observaci´on, y por lo tanto
era elegida antes de medir la y, de modo que se la puede tomar como controlada. Pero x
est´a tan sujeto a errores de observaci´on como y.
Puede probarse que el efecto de los errores en las x es que β

1
est´a sesgada hacia el 0
(o sea, se subestima |β

1
|). El tama˜ no de este sesgo depende de la relaci´on entre el error
de medici´on de las x y la dispersi´on de ´estas. M´as precisamente, si en vez de x
i
se observa
x
i
+Z
i
con EZ
i
= 0 y var(Z
i
) = v
Z
, entonces el sesgo depende de v
Z
/S
x
.
Si este valor es lo bastante alto como para producir inconvenientes, hay que reemplazar
a m´ınimos cuadrados por otro m´etodo. El m´as simple es el siguiente, propuesto por A.
Wald: se ordenan los datos en orden creciente de las x
i
. Sean m = [n/3], ¯ x
1
, ¯ y
1
las medias
de las x y de las y de las m primeras observaciones; ¯ x
2
, ¯ y
2
las de las m ´ ultimas. Entonces
la recta que pasa por (¯ x
1
, ¯ y
1
) e (¯ x
2
, ¯ y
2
) da un estimador libre de sesgo.
Para m´as detalles de este problema, conocido como “error en las variables”, ver [6, 21].
12.7 Uso de los residuos
Los residuos son un instrumento ´ util para detectar la falta de correspondencia entre el
modelo y los datos.
12.7.1 Diagrama normal
Cuando se ha elegido un modelo adecuado, un diagrama normal de cuantiles de los residuos,
como en la Secci´on 8.2.2, puede ayudar a detectar observaciones at´ıpicas. Para el Ejemplo
12.C, la ´ ultima columna da los residuos. La figura 12.5 muestra un residuo notoriamente
grande, que corresponde a la observaci´on 6, la que podr´ıa tratarse de una medici´on at´ıpica.
Si se la saca, se obtiene β

0
= −27.77, β

1
= 0.9917 y S = 0.1714. Los coeficientes no han
cambiado sustancialmente, pero el estimador de σ ha bajado a menos de la mitad. La σ
158 CAP´ıTULO 12. AJUSTE DE UNA RECTA
estimada de β

1
es ahora 0.01222 con t = −0.6766, lo que afortunadamente no cambia las
conclusiones anteriores.
-1 1 0
r
(i)
0
-0.4
0.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
×
×
× ×
× ×
×
×
×
×
Figura 12.5: Nova: diagrama normal de residuos
12.7.2 Gr´ afico de residuos vs. predictores
Graficar r
i
vs. x
i
es muy ´ util para los casos en que no se sabe cu´al es el modelo correcto
(o sea, las m´as de las veces). Los residuos son “lo que queda de las y despu´es de quitarles
la influencia de las x”. Si el modelo fuera correcto, los r
i
no debieran mostrar ninguna
dependencia de las x
i
; en cambio, si el gr´afico muestra alguna estructura, quiere decir que
no estamos quitando de las y toda la influencia de las x.
Entonces, cuando el modelo no es conocido, y no teniendo otra informaci´on sobre los
datos, puede comenzarse por ajustar una recta, y luego examinar el gr´afico de r
i
vs. x
i
,
el que puede mostrar la necesidad de una transformaci´on de las y y/o las x para llevarlos
a una forma lineal. Hallar la trasformaci´on adecuada (si la hay) tiene bastante de arte, y
puede requerir varios ensayos.
Ejemplo 12.E: Otolitos Los otolitos son formaciones calc´areas que hay en el o´ıdo de
los peces. Cuando un pez es comido por un predador, lo ´ unico que queda del primero en el
est´omago o las heces del segundo, son los otolitos, lo que los hace un elemento importante en
el estudio de la alimentaci´on de seres marinos. Para aprovecharlos es necesario poder inferir
12.7. USO DE LOS RESIDUOS 159
el tama˜ no de la v´ıctima a partir del tama˜ no del otolito. La tabla 12.5 da las longitudes
de los otolitos (x) y los pesos (y) de varios ejemplares de un pez ant´artico llamado “pez
linterna”. La figura 12.6 muestra los datos, que exhiben una relaci´on aproximadamente
lineal con cierta curvatura.
Tabla 12.5: Otolitos
long. otol. peso pez long. otol. peso pez
5.12 235 5.68 342
5.15 238 5.80 368
5.33 270 5.87 385
5.42 287 5.92 396
5.47 295 6.01 418
5.50 301 6.15 452
5.57 316 6.30 495
5.61 325 6.42 530
5.63 330 6.50 557
x
i
5 6
y
i
300
400
500
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
Figura 12.6: Peso del pez vs. longitud del otolito
La figura 12.7 muestra el gr´afico de residuos vs. predictores correspondiente a la re-
gresi´on lineal de y en x. Hay una clara estructura, lo que indica que todav´ıa se puede
mejorar la aproximaci´on de y en funci´on de x. Intentamos una regresi´on lineal de log y en
160 CAP´ıTULO 12. AJUSTE DE UNA RECTA
log x. El gr´afico de residuos vs. predictores se ve en la figura 12.8. Si bien la forma es un
tanto extra˜ na, no se ve mucha dependencia. Los coeficientes son -0.207 y 3.631.
x
i
5 6
r
i
0
-10
10
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
Figura 12.7: Residuos vs. longitud de otolitos
Este tipo de gr´aficos es tambi´en ´ util para detectar observaciones at´ıpicas que afectan
mucho los coeficientes (ejercicio 12.12).
12.8 Ejercicios
12.1 Probar que
¸
n
i=1
ˆ y
i
r
i
= 0.
12.2 Los siguientes datos son las estaturas x en cm. y los pesos y en kg. de una muestra
de estudiantes. Hallar un intervalo de predicci´on de nivel 0.90 para los pesos de las
estudiantes con estatura 170 cm.
x 169.6 166.8 157.1 181.1 158.4 165.6 166.7 156.50 168.1 165.3
y 71.2 58.2 56.0 64.5 53.0 52.4 56.8 49.20 55.6 77.8
12.3 En el ejemplo 12.B, calcular intervalos de confianza de nivel 0.95 para (a) la pendiente
(b) la varianza del error (c) la media de la dispersi´on correspondiente a 50 minutos.
12.4 En el modelo de recta por el origen, deducir la f´ormula para los intervalos de predicci´on.
Aplicarla al ejemplo 12.B para x
0
= 50 minutos.
12.8. EJERCICIOS 161
log(x
i
)
0.7 0.8
r
i
0
.002
-.002
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
Figura 12.8: Residuos vs. log-longitud de otolitos
12.5 Probar que si Y = g(X) + U con X y U independientes y EU = 0, y g cualquier
funci´on, es E(Y |X) = g(X).
12.6 Probar que bajo el modelo (12.26) con (12.27) y (12.16):
a. Para j = 0, 1 es D(β

j
|X = x) = N(β
j
, v
j
), donde v
0
y v
1
son los segundos
miembros de (12.21) y (12.19) respectivamente
b. Por lo tanto, Eβ

j
= β
j
, j = 0, 1
c. Si X
i
∼ N(0, 1), es D(β

1

2
) = t
n−1
.
12.7 La tabla 12.6 [13] muestra para cada a˜ no el n` umero de aparatos de radio vendidos
en Gran Breta˜ na (en miles) y la cantidad estimada de deficientes mentales por 10000
habitantes.
a. Grafique los datos. Calcule su correlaci´on.
b. ¿Se puede concluir que las radios inglesas provocan deficiencia mental?.
c. ¿Hay alguna otra explicaci´on para la correlaci´on observada?.
12.8 En una reacci´on qu´ımica, la proporci´on V de volumen de nitr´ogeno liberada hasta el
instante t sigue la relaci´on V = α
t
. Estimar α con los datos de la tabla 12.7.
162 CAP´ıTULO 12. AJUSTE DE UNA RECTA
Tabla 12.6: Radios y deficiencia mental
A˜ no Radios Deficientes
1924 1350 8
1925 1960 8
1926 3270 9
1927 2483 10
1928 2730 11
1929 3091 11
1930 3647 12
1931 4620 16
1932 5497 18
1933 6260 19
1934 7012 20
1935 7618 21
1936 8131 22
1937 8593 23
Tabla 12.7: Reacci´on vol de nitrogeno
tiempo volumen tiempo volumen
0.200 0.133 2.250 0.776
0.570 0.323 2.630 0.826
0.920 0.468 3.050 0.862
1.220 0.555 3.600 0.906
1.550 0.637 4.770 0.959
1.900 0.716 5.850 0.983
12.9 Obtener el EMV en el modelo de recta por el origen con varianzas distintas: Y
i
=
βx
i
+U
i
con U
i
∼ N(0, σ
2
i
) donde σ
2
i
= γk
i
con γ desconocida y k
i
conocidas (“cuadra-
dos m´ınimos ponderados”). Hacerlo en particular para (a) k
i
= |x
i
| y (b) k
i
= x
2
i
.
12.10 La presi´on de disociaci´on p para una reacci´on del nitrato de bario depende de la
temperatura absoluta t seg´ un la relaci´on p = exp(a +b/t). Con los datos de la tabla
12.8 [14] estimar a y b y sus errores standard. Examinar los residuos.
12.11 La tabla 12.9 da una serie de mediciones realizadas en los Alpes a distintas al-
turas: temperatura de ebullici´on del agua en
0
C (x) y presi´on atmosf´erica en mm.
de mercurio (y).
a. Ajuste una recta y haga el gr´afico de residuos vs. predictores ¿Nota algo en
particular?.
12.8. EJERCICIOS 163
Tabla 12.8: Nitrato de bario
Temp. Presi´on Temp. Presi´on
748 0.48 1025 710
770 0.92 1030 1040
795 1.64 1048 1230
844 7.87 1082 2360
874 19.0 1112 3980
927 80.0 1133 5230
958 168.0 1135 5810
1000 490.0 1150 7240
b. Rep´ıtalo usando log y en vez de y. ¿Queda mejor?.
c. Haga el diagrama normal de los residuos. ¿Hay alguna observaci´on sospechosa?.
Tabla 12.9: Temperatura y punto de ebullici´on
x y x y
90.28 519.75 94.06 600.25
90.17 519.75 95.33 628.50
92.17 560.00 95.89 664.25
92.44 566.75 98.61 712.25
93.00 578.75 98.11 694.00
93.28 583.75 99.28 726.00
93.83 597.25 99.94 749.50
93.94 599.75 100.11 751.50
94.11 600.50
12.12 Los datos de la tabla 12.10 son los caudales medios de un r´ıo, medidos en dos puntos
diferentes (x corresponde a aguas arriba de y).
a. Ajustar una recta para predecir y en funci´on de x, y graficar residuos vs. pre-
dictores. ¿Se observa algo llamativo?.
b. Repetir el an´alisis sin la ´ ultima observaci´on. ¿Qu´e se ve ahora?.
164 CAP´ıTULO 12. AJUSTE DE UNA RECTA
Tabla 12.10: Caudales
x y x y
17.60 15.70 32.60 24.90
20.90 18.00 33.40 26.10
21.60 19.90 35.10 27.60
26.00 23.40 37.00 26.10
27.10 19.70 38.70 31.30
27.60 23.10 77.60 44.90
27.80 23.80
Ap´endice A
TABLAS
Aproximaciones para los cuantiles
Las siguientes aproximaciones permiten calcular las funciones de distribuci´on y los cuantiles
de χ
2
y t, y los cuantiles de N(0, 1). Para quien trabaja con una calculadora, son ´ utiles
para situaciones fuera del alcance de las tablas; paa quien dispone de una computadora,
permiten prescindir de tablas.
Normal
La siguiente aproximaci´on para los cuantiles z
β
de N(0, 1) [10, Cap. 10] tiene un error
menor que 1.3 ×10
−4
para 10
−7
< α < 0.5:
z
1−α

{(4y + 100)y + 205}y
2
{(2y + 56)y +192}y + 131

1/2
,
donde y = −ln(2α) (¡logaritmo natural!).
Chi-cuadrado
Si Z ∼ χ
2
m
, las variables
X =

2Z −

2m−1,
X =

Z
m

1/3

1 −
2
9m

¸

9m
2
,
son aproximadamente N(0, 1) para m grande. Esto se puede usar para aproximar la funci´on
de distribuci´on. La segunda aproximaci´on –llamada de Wilson-Hilferty– es mucho m´as
165
166 AP
´
ENDICE A. TABLAS
precisa que la primera. Despejando Z en funci´on de X se tienen aproximaciones para los
cuantiles de la χ
2
en funci´on de los de la N(0, 1):
χ
2
m,β

1
2

z
β
+

2m−1

2
,
χ
2
m,β
≈ m

z
β

2
9m
+ 1 −
2
9m

3
.
Student
Los cuantiles de t
m
se pueden aproximar para m grande con la f´ormula de Peiser:
t
m,β
≈ z
β

1 +
1 +z
2
β
4m

.
Para aproximar la funci´on de distribuci´on: si T ∼ t
m
, entonces
X = T

1 −1/4m
1 +T
2
/2m

1/2
es aproximadamente N(0, 1).
167
Tabla A.1: Funci´on de distribuci´on normal Φ(z)
z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
.0 .500 .503 .507 .511 .515 .519 .523 .527 .531 .535
.1 .539 .543 .547 .551 .555 .559 .563 .567 .571 .575
.2 .579 .583 .587 .590 .594 .598 .602 .606 .610 .614
.3 .617 .621 .625 .629 .633 .636 .640 .644 .648 .651
.4 .655 .659 .662 .666 .670 .673 .677 .680 .684 .687
.5 .691 .694 .698 .701 .705 .708 .712 .715 .719 .722
.6 .725 .729 .732 .735 .738 .742 .745 .748 .751 .754
.7 .758 .761 .764 .767 .770 .773 .776 .779 .782 .785
.8 .788 .791 .793 .796 .799 .802 .805 .807 .810 .813
.9 .815 .818 .821 .823 .826 .828 .831 .833 .836 .838
1.0 .841 .843 .846 .848 .850 .853 .855 .857 .859 .862
1.1 .864 .866 .868 .870 .872 .874 .876 .878 .880 .882
1.2 .884 .886 .888 .890 .892 .894 .896 .897 .899 .901
1.3 .903 .904 .906 .908 .909 .911 .913 .914 .916 .917
1.4 .919 .920 .922 .923 .925 .926 .927 .929 .930 .931
1.5 .933 .934 .935 .936 .938 .939 .940 .941 .942 .944
1.6 .945 .946 .947 .948 .949 .950 .951 .952 .953 .954
1.7 .955 .956 .957 .958 .959 .959 .960 .961 .962 .963
1.8 .964 .964 .965 .966 .967 .967 .968 .969 .969 .970
1.9 .971 .971 .972 .973 .973 .974 .975 .975 .976 .976
2.0 .977 .977 .978 .978 .979 .979 .980 .980 .981 .981
2.1 .982 .982 .982 .983 .983 .984 .984 .984 .985 .985
2.2 .986 .986 .986 .987 .987 .987 .988 .988 .988 .988
2.3 .989 .989 .989 .990 .990 .990 .990 .991 .991 .991
2.4 .991 .992 .992 .992 .992 .992 .993 .993 .993 .993
2.5 .993 .993 .994 .994 .994 .994 .994 .994 .995 .995
2.6 .995 .995 .995 .995 .995 .995 .996 .996 .996 .996
2.7 .996 .996 .996 .996 .996 .997 .997 .997 .997 .997
2.8 .997 .997 .997 .997 .997 .997 .997 .997 .998 .998
2.9 .998 .998 .998 .998 .998 .998 .998 .998 .999 .999
168 AP
´
ENDICE A. TABLAS
Tabla A.2: Cuantiles z
β
de la N(0, 1)
β z
β
β z
β
β z
β
β z
β
β z
β
β z
β
0.50 0.000 0.60 0.253 0.70 0.524 0.80 0.841 0.90 1.282 0.991 2.366
0.51 0.025 0.61 0.279 0.71 0.553 0.81 0.878 0.91 1.341 0.992 2.409
0.52 0.050 0.62 0.305 0.72 0.582 0.82 0.915 0.92 1.405 0.993 2.458
0.53 0.075 0.63 0.331 0.73 0.612 0.83 0.954 0.93 1.476 0.994 2.513
0.54 0.100 0.64 0.358 0.74 0.643 0.84 0.994 0.94 1.555 0.995 2.576
0.55 0.125 0.65 0.385 0.75 0.674 0.85 1.036 0.95 1.645 0.996 2.652
0.56 0.151 0.66 0.412 0.76 0.706 0.86 1.080 0.96 1.751 0.997 2.748
0.57 0.176 0.67 0.439 0.77 0.739 0.87 1.126 0.97 1.881 0.998 2.879
0.58 0.202 0.68 0.467 0.78 0.772 0.88 1.175 0.98 2.054 0.999 3.091
0.59 0.227 0.69 0.495 0.79 0.806 0.89 1.227 0.99 2.327 0.9995 3.291
169
Tabla A.3: Cuantiles χ
2
m,β
de la chi-cuadrado
β
m .005 .010 .025 .050 .100 .900 .950 .975 .990 .995
1 .00004 .00016 .00098 .004 .016 2.706 3.843 5.025 6.636 7.881
2 .010 .020 .050 .102 .210 4.605 5.991 7.377 9.210 10.60
3 .071 .114 .215 .351 .584 6.251 7.814 9.348 11.34 12.83
4 .206 .297 .484 .710 1.063 7.779 9.487 11.14 13.27 14.86
5 .411 .554 .831 1.145 1.610 9.236 11.07 12.83 15.08 16.74
6 .675 .872 1.237 1.635 2.204 10.64 12.59 14.44 16.81 18.54
7 .989 1.239 1.689 2.167 2.833 12.01 14.06 16.01 18.47 20.28
8 1.344 1.646 2.179 2.732 3.489 13.36 15.50 17.53 20.09 21.95
9 1.735 2.087 2.700 3.325 4.168 14.68 16.91 19.02 21.66 23.58
10 2.155 2.558 3.247 3.940 4.865 15.98 18.30 20.48 23.20 25.18
11 2.603 3.053 3.815 4.574 5.577 17.27 19.67 21.91 24.72 26.75
12 3.073 3.570 4.404 5.226 6.303 18.54 21.02 23.33 26.21 28.29
13 3.565 4.106 5.008 5.892 7.041 19.81 22.36 24.73 27.69 29.81
14 4.074 4.660 5.629 6.571 7.789 21.06 23.68 26.11 29.14 31.31
15 4.601 5.229 6.261 7.260 8.546 22.30 24.99 27.48 30.57 32.79
16 5.142 5.812 6.907 7.961 9.312 23.54 26.29 28.84 32.00 34.26
17 5.697 6.408 7.564 8.672 10.12 24.80 27.59 30.19 33.41 35.72
18 6.264 7.014 8.231 9.390 10.86 25.98 28.86 31.52 34.80 37.15
19 6.844 7.633 8.907 10.12 11.73 27.19 30.14 32.85 36.19 38.58
20 7.433 8.259 9.590 10.85 12.44 28.41 31.41 34.16 37.56 39.99
22 8.641 9.542 10.98 12.33 14.04 30.81 33.91 36.77 40.28 42.79
25 10.51 11.52 13.11 14.61 16.47 34.38 37.64 40.64 44.31 46.92
30 13.78 14.95 16.79 18.49 20.59 40.25 43.77 46.97 50.89 53.66
170 AP
´
ENDICE A. TABLAS
Tabla A.4: Cuantiles t
m,β
de la distribuci´on de Student
β
β .80 .90 .95 .975 .99 .995
1 1.376 3.077 6.314 12.70 31.82 63.65
2 1.060 1.885 2.919 4.302 6.964 9.925
3 .978 1.637 2.353 3.182 4.540 5.841
4 .940 1.533 2.131 2.776 3.747 4.604
5 .919 1.475 2.015 2.570 3.364 4.031
6 .905 1.439 1.943 2.446 3.142 3.707
7 .895 1.414 1.894 2.364 2.997 3.499
8 .888 1.396 1.859 2.306 2.896 3.355
9 .883 1.383 1.833 2.262 2.821 3.250
10 .879 1.372 1.812 2.228 2.763 3.169
11 .875 1.363 1.795 2.201 2.718 3.105
12 .872 1.356 1.782 2.178 2.681 3.054
13 .870 1.350 1.771 2.160 2.650 3.012
14 .868 1.345 1.761 2.144 2.624 2.976
15 .866 1.340 1.753 2.131 2.602 2.946
16 .864 1.336 1.745 2.119 2.583 2.920
18 .862 1.330 1.734 2.100 2.552 2.878
20 .859 1.325 1.724 2.085 2.528 2.845
22 .858 1.321 1.717 2.073 2.508 2.818
25 .856 1.316 1.708 2.059 2.484 2.787
30 .853 1.310 1.697 2.042 2.457 2.750
∞ .842 1.282 1.645 1.960 2.326 2.576
Bibliograf´ıa
[1] Best, D. y Rayner, J. (1987), “Welch’s Approximate Solution for the Behrens-Fisher
Problem”, Technometrics, vol. 29, pp. 205-210.
[2] Bickel, P. y Doksum, K. (1976), “Mathematical Statistics”, Holden-Day.
[3] Bloch, A. (1987), “Ley de Murphy y Otras Razones Porque las Cosas Salen Mal”,
Editorial Diana.
[4] Blyth, C. (1986), “Approximate Binomial Confidence Limits”, Journal of the Ameri-
can Statistical Association, vol. 81, pp. 843-855.
[5] Box, G., Hunter, W. y Hunter, J. (1978) “Statistics for Experimenters”, John Wiley
and Sons.
[6] Draper, N. y Smith, H. (1981) Applied Regession Analysis, 2
a
Edici´on, John Wiley
and Sons.
[7] Feller, W. (1980), “Introducci´ on a la Teor´ıa de Probabilidad y sus Aplicaciones”,
Limusa.
[8] Hald, A. (1986), “Galileo’s Statistical Analysis of Astronomical Observations”, Inter-
national Statistical Review, vol. 54, pp. 211-220.
[9] Hoaglin, D., Mosteller, F. y Tukey, J. (1983), “Understanding Robust and Exploratory
Data Analysis”, John Wiley and Sons.
[10] Hoaglin, D., Mosteller, F. y Tukey, J. (1985), “Exploring Data Tables, Trends, and
Shapes”, John Wiley and Sons.
[11] Jacovkis, P.M. (1995), “Computaci´on, Azar y Determinismo”, Ciencia Hoy, vol. 5,
No. 28, pp. 44-50.
[12] Knuth,D. (1969), “The Art of Computer Programming”, Addison-Wesley.
[13] Montgomery, D. y Peck, E. (1982), Linear Regression Analysis, John Wiley and Sons.
[14] Rice, J.A. (1995), “Mathematical Statistics and Data Analysis”, Duxbury Press.
171
172 BIBLIOGRAF´ıA
[15] Ripley, B.D. (1987) “Stochastic Simulation”, John Wiley and Sons.
[16] Ross, S. (1987) , “Introduction to Probability and Statistics for Engineers and Scien-
tists”, John Wiley and Sons.
[17] Scheff´e, H. (1967) “The Analysis of Variance”, John Wiley and Sons.
[18] Shah, I. (1993) “Las Andanzas del Incomparable Mulah Nasruddin”, Editorial Paid´os.
[19] Staudte, R y Scheater, S. (1990) “Robust Estimation and Testing”, John Wiley and
Sons.
[20] Stigler, S. (1977), “Do Robust Estimators Deal with Real Data?”, The Annals of
Statatistics, vol. 5, pp. 1055-1098.
[21] Weisberg, S. (1980), “Applied Linear Regression”, John Wiley and Sons.
æ
INDICE ALFABETICO
aditividad finita 6
agrupados (datos) 98
alternativa 134
aproximaci´on
a los cuantiles de la normal 165
normal a la distribuci´on:
binomial 86,92
chi-cuadrado 132, 165
de Poisson 87, 90
de Student 166
de Poisson a la binomial 21
asimetr´ıa 59
asociaci´on de eventos 14
censura 34
cociente de variables 66
normales 70
coeficiente
de determinaci´on 148
de variaci´on 51
combinaciones 7
comparaci´on
de dos binomiales 141
de muestras apareadas 129
de muestras independientes 127, 128
conjunto cerrado 142
consistencia 111
convergencia
d´ebil 86
en probabilidad 83
en distribuci´on 86
convoluci´on 64
coordenadas polares 68
correcci´on
por continuidad 87
de Shepard 99
correlaci´on 53, 79
muestral 156
covarianza 52
cuantiles 56
muestrales 97
cuartiles 57
cumplea˜ nos 9
densidad 31
conjunta 38
desigualdad
de Bonferronni 9
de Chebychev 52
de Markov 48
desviaci´on
absoluta 58
mediana 58
t´ıpica 51
diagrama
de cuantiles 100, 101
de caja 97
de residuos 157
de tallo y hoja 96
distancia intercuartiles 58
distribuci´on
binomial 20, 29, 49, 54
binomial negativa 30, 40, 44
de Cauchy 42, 43, 65, 70
chi-cuadrado 119
doble exponencial 70
exponencial 32, 49, 108
Gama 33
173
174 INDICE ALFABETICO
geom´etrica 30, 43, 50, 55
hipergeom´etrica 30, 56, 106
lognormal 42, 88
multinomial 38
normal 32, 50, 55, 112
normal bivariada 75
de Pareto 115
de Poisson 30, 50, 55
de Rayleigh 71
de Student 121
uniforme 32, 109
uniforme bivariada 38
uniforme discreta 31
de Weibull 33, 36, 43, 103
distribuci´on
discreta 29
(absolutamente) continua 31
condicional 73
conjunta 37, 38
marginal 39
de la normal 71
muestral 95
ecuaciones normales 146, 149
error en predictores 157
error medio cuadr´atico
de predicci´on 78
de un estimador 105, 110
errores de tipo I y II 134
espacio de probabilidad 4
esperanza matem´atica 45
esquema de Bernouilli 20
estad´ıstico
de orden 96
de Student 121
de un test 135
estimaci´on de par´ametros
de la exponencial 108
de la hipergeom’etrica 106
de la Poisson 109
de la uniforme 109
estimador 105, 107 (ver “m´etodo”)
insesgado 110
de m´ınima varianza 66
robusto 113
eventos 5
falacia de la regresi´on 80
falsos positivos 16
falta de memoria
en tiempos de espera 17
en el esquema de Bernouilli 40
en el proceso de Poisson 67
familia de escala/posici´on 36
frecuencia relativa 6
funci´on
de frecuencia 29, 37
de distribuci´on 27, 37
condicional 74
de verosimilitud 107
Galileo 152
Gauss 112
generador 36, 41
Gosset 122
hip´otesis nula 134, 142
histograma 99
iid 107
incorreladas 52
independencia
de eventos 14, 18, 19
de variables 40, 41
indicador 29
inferencia 105
intervalos de confianza 117
de longitud m´ınima 122
para la binomial 123
para la exponencial 120
para la media de la normal 121
para la Poisson 125, 132
para el proceso de Poisson 125
robustos 123
para la varianza de la normal 120,
121
intervalos de predicci´on 153
INDICE ALFABETICO 175
intervalos de tolerancia 130
jacobiano 67
juego favorable 85
Kolmogorov 4
Lagrange 146
leyes de grandes n´ umeros 84
m´aximo de variables 35, 66
media 45
condicional 75
de un producto 48
muestral 53
podada 113
mediana 57
condicional 75, 81
muestral 97
medici´on con error 112
m´etodo
de Box- M¨ uller 68
delta 90
de m´axima verosimilitud 106, 107,
111
de m´ınimos cuadrados 146
ponderados 162
de los momentos 107, 111
de Monte Carlo 53
mezclas 34
modelo lineal 150
momento 59
monoton´ıa de la media 48
movimiento browniano 87
muestra 107
muestreo con y sin reemplazo 7, 26
Nasruddin 114
nivel
de confianza 117
de un test 134
n´ umeros seudoaleatorios 36
paradoja de Simpson 10
par´ametros
de posici´on 57
de dispersi´on 58
part´ıculas 16, 22
paseo al azar 25
permutaciones 7
pivote 118
potencia 134, 137
predicci´on 79, 80
probabilidad 5
condicional 13
proceso de Poisson
espacial 21
temporal 22, 82, 109, 125
proceso estoc´astico 39
promedio ponderado 113
recta de regresi´on 79
regi´on
de aceptaci´on 134
de confianza 118
residuos 147
resumen de 5 n´ umeros 97
robustez de un par´ametro 57
sesgo 110
sigma-aditividad 6
simetr´ıa 36
simulaci´on 36
Slutsky 90
suma de variables 63
binomiales 70
chi-cuadrado 120
Gama 64
geom´etricas 40
normales 65
Poisson 70
tama˜ no de muestra 137
Teorema Central del L´ımite 86
test uni- o bilateral 134
relaci´on con intervalos de confianza
136
no param´etrico 140
176 INDICE ALFABETICO
robusto 140
del signo 141
tiempo de espera 16
en el esquema de Bernouilli 40, 74
en el proceso de Poisson 34, 41
transformaciones
de dos variables 67
de los par´ametros 110
de una variable 34
truncamiento 42
Tukey 96
valor p 136
valor medio 45
variable aleatoria 27
variaciones 7
varianza 51
condicional 75
muestral 95
de una suma 53
von Mises 4
Welch 129
Wiener 88
Wilson-Hilferty 165
INDICE ALFABETICO 177
æ

Prefacio
“Es magn´fico aprender con quien no sabe.” ı Mario Benedetti: “Gracias por el Fuego” Este libro es una introducci´n a las ideas b´sicas de la Teor´ de Probabilidad y la Eso a ıa tad´ ıstica, destinado a estudiantes de Ciencias Exactas, Inform´tica e Ingenier´ con un a ıa, ´ buen conocimiento de An´lisis de una variable y de Algebra elemental, y algunas nociones a de An´lisis de varias variables. He procurado enfatizar la forma correcta de encarar los a problemas, ya que muchos a˜os de ense˜anza y de pr´ctica me han convencido de la inun n a tilidad de las recetas, y de que lo unico que realmente sirve es la correcta percepci´n de los ´ o problemas y de las posibles v´ de acci´n. ıas o La Teor´a de Probabilidad tiene la enga˜osa caracter´stica de que resultados intuitiı n ı vamente plausibles tienen demostraciones que requieren conocimientos avanzados de Matem´tica a (la llamada “Teor´a de la Medida”). En este libro he procurado seguir un camino intermeı dio, demostrando lo que se pueda probar a nivel elemental, e indicando los casos en que esto no es posible. Los ejercicios son una parte importante del curso: contienen ejemplos y material complementario, y, especialmente, sirven para que el lector compruebe su comprensi´n de la o teor´a, y desarrolle su habilidad para pensar correctamente por su cuenta, lo que debiera ı ser el objeto ultimo de toda ense˜anza. ´ n Este libro es el resultado de muchos a˜os de ense˜ar Probabilidad y Estad´ n n ıstica, en las Universidades Nacionales de Buenos Aires y de La Plata, y en la E.S.L.A.I. (Escuela Superior Latinoamericana de Inform´tica), cuyos alumnos han contribuido con sus comentarios a –no siempre elogiosos– al mejoramiento de mis cursos. Abreviaturas: El s´mbolo “ ” se usar´ para indicar el fin de una demostraci´n. Los ı a o n´meros entre corchetes (como “[8]”) indican las referencias bibliogr´ficas al final del libro. u a Un asterisco (*) indica las secciones que se pueden omitir sin afectar la continuidad de la lectura. Dedico este libro a Susana Estela, Liliana Litvin y Rosa Wachenchauzer, que siempre me han impulsado a dar un paso m´s adelante. a La Plata, Octubre de 1995.

i

ii

. . . . . . . .Indice I PROBABILIDAD 1 3 3 6 9 13 13 15 16 18 19 21 21 22 24 27 27 29 31 34 34 36 37 40 42 45 45 46 1 Espacios de Probabilidad 1. . 3. . . . .1 Media de funciones de variables aleatorias . . . . . . . . . . .1 Distribuciones discretas . .3 Mezclas . . . . . . . . . . .1. . . . . . . 2. . . . . . . . . . 3 Variables Aleatorias 3. . . 2. . . 1. . . . . . . . . . . . . . . . . . . . . . .2 Transformaciones de variables aleatorias 3. . . . 3.2 Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Los axiomas . . . . . . . . . . . . . . . . 4. . . . . . .2. .1. . . . . . . . . . . . . . . .5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . 2 Probabilidad Condicional e Independencia 2. . .1 Relaciones entre dos eventos . . . . . . . . .1 Distribuciones . . . . . . . . .4 El esquema de Bernouilli . . . . . .2. . . . . . . . . . .1 Valor medio .1. . . . . . . . . . . . . . . o 2. . .5 La aproximaci´n de Poisson y sus aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . 4 Valor Medio y Otros Par´metros a 4. . . . . . 3. . . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Aplicaciones a simulaci´n . . . . . .3 Distribuci´n conjunta de varias variables o 3. . . . . . . .3 Independencia de varios eventos . . .5.1 El proceso de Poisson espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . . . . o 3. . . . .2 El proceso de Poisson temporal . . . . . . . . . 3. . . . . . . . . . iii . . .6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . .5. . . . . . . . . . . . . 2. . .3 Ejercicios . . . . . . . . . . 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Modelos basados en probabilidades condicionales 2. . . . . . . . . .4 Independencia de variables aleatorias . . .2 Experimentos con resultados equiprobables . .1 Un modelo para tiempos de espera . . . . . . . 3.

. . . . . . . . . . . .2. . INDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.2. Media de las distribuciones m´s usuales . . . . . . . . . . . . . .2 Distribuciones del m´ximo y el m´nimo . . . . . . . . . . . . o 5. . . . . . . . . . . . . . . . . . 5. Ejercicios . . . o 7. . .2 Media de una suma . . . . . . .3. . . . .4 Tama˜os de piedras . . . .3 4. . . . . . . . . . . . . . . . . . . . . . . . .5.iv 4.1. .1 Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . .2 Teorema Central del L´ ımite . . . . . . .5 Momentos . . . . . . . Predicci´n o . o 6. . . . . . .1 Distribuciones condicionales . . . . . . . . . . o 5. . . . . . . . . . . . . . .1 Suma de variables . . . . . . . . . . . .3. . . . . . . . . . . . . . . . . . . . . .2 Par´metros de posici´n . . . . . . n . . . . . . . . . . . . .2 Aproximaci´n normal a la Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Asimetr´ . . . . . . . . . . . . . . . . . . . . . . . . e 5. . . . . . . . . . . . . 7. . . . . . . . . . . . . . . . . . . . . .6 5 Transformaciones de Variables Aleatorias 5. . . . .3 Media de un producto . . . . . . . . . . . . . . . . .3 Movimiento browniano . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . . . . . . . . . . .1 Distribuci´n del cociente . . . . . . . .1 Un m´todo general . . . . . . .2 4. . . . .3 Ejercicios . 47 48 48 49 51 54 56 56 57 58 59 59 59 63 63 64 65 65 66 66 66 67 67 68 68 70 73 73 78 78 79 81 83 83 85 86 86 87 87 88 4. 5. . . . . . . . . . . . . . . . . . .1. . . . . . . . . 5. . . . . . . . . . . . . . . . . . . . o ı Varianzas de las distribuciones m´s usuales a Otros par´metros . . 7. . . . . . . . .2 Predicci´n general . . . . . . . . . a o 4. . . . . . . . . . . . o 5. . . . . . . . . . . . . . . .2. . .5. . . 7. . .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.4 Algunas desigualdades . . . . . . . .3. . . . .3 Par´metros de dispersi´n . . . . . . .1 Predicci´n lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Suma de variables Gama . . . . . . .1. . . . . . . . . . . . . . . . . .1 Ley de Grandes N´meros .3 Distribuci´n de transformaciones de variables . . . . . . . . . . . . . . . . . . . . . . . .5. . . . . . . . . . . . . . . . . . . . . 4. .4 La distribuci´n normal bivariada .2 Predicci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Varianza y desviaci´n t´pica . 5. . . . . . . . . . . . . . .5. . . . . . . .1. . . . . . . . . . . . . a ı 5. . . . . . . . . .5 Ejercicios . . . . . . . . . . . . . . . . . . . . .2. . . . .3 Aplicaciones del Teorema Central del L´ ımite . . . . . . . 4. . . . . . . . . o 7. . 6 Distribuciones Condicionales y 6. . . . . . . . . . o 6. . . . . . . . . .2 Otras funciones .3 Combinaciones lineales de variables Cauchy . . . . . . . . . . . . . . . . . . . . . . 6. . . . . . . . . . . . . . . . . . . . . a o 4. . . . . .1. . . . . . . . . . . . . . . . . . . .5 4. . . ıa 4. . . .2 Suma de normales . . . . .2 Aplicaci´n: normales en coordenadas polares o 5. . . . . . . . . . o 6.3. . . . u 7. . . . . . . . . . . . . . . . . . . . . . . 5. . . . . . . . . a 4. . . . . . . . . 7 Teoremas L´ ımites 7. . 4. . . . . . . . . . .4 4. . . . . .1 Aproximaci´n normal a la binomial . . . . . . . . . . .

. . . . . . . 7. . . . . .1 Introducci´n . . 9 Estimaci´n Puntual o 9. . . . . . . . . . . . . e 10. . . . . . .3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . 99 . . . . . . o 9. . . . . . . e o 9. . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . . 10. . . . . . . . . . . . . . . . . . . . . 97 . . .2 Varianza de la normal con media conocida 10. . . . . . . . . . 95 .4 Diagrama de caja . . . . . . . . . . . . . .6 Intervalos aproximados para la Poisson . . .3 Sobre los motivos del uso de la distribuci´n normal o 9. .2. . . . . . . . . 99 . . . . . . . . . . .4 Convergencia en distribuci´n y en probabilidad . . . . .4. . . . . . . . .2 Diagrama de cuantiles . . . . . . . . . . . . .2 M´todos de estimaci´n . . . . . . . . . . . . . . . . . . . .1 Estimaci´n de un par´metro . . . . v 88 89 89 91 91 II ESTADISTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 95 . . . . . . . . . . . . . . . . . . . . . .1. .3 Intervalos para la normal con µ y σ desconocidas 10. . . . . 10. . . . . . . . . . . . .1. . . . o a 9. . . . . . .1 Res´menes . 8. .3 Cuantiles muestrales . . . . . . . . . . . .1. . . . . . . . . .3 El modelo de medici´n con error . . . . . . . . . 7. . . . . 8.3 *Demostraci´n de la aproximaci´n normal a la Poisson o o 7. . . . . . . . .2 Diagrama de tallo y hoja . . . . o 9. . . . . . .4 Estimaci´n de varios par´metros . . . . . . . . . . . . . .3 Evaluaci´n de estimadores . . . . . . . . . . . . . . . . . .INDICE 7. .2 Relaciones entre los dos tipos de convergencia . .1 Histograma . . . . . . . . . . o a 9. . . . . . . . . . . .4 Ejercicios . .5 Intervalos aproximados para la binomial . . . . . . . . . . . . .5 Ejercicios . . . o 8. . . . . . . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . .2.3. . 95 . . . . . . . . 9. . . .1 Media de la normal con varianza conocida 10. . . . . . . . . . . o 9. . . . . . . . . . . . . . . .2 La forma de la distribuci´n . 10.2 Transformaciones . 10 Intervalos de Confianza 10. . . . . . .4. . . . . . . . . . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . 96 . . .4 Un m´todo robusto . .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 . o 9. 103 . .2. . . . . . . . . . . . . . . . . . . . . . . . .1 Varianzas distintas . . . . . . . . . . . . . . . . . . . . .4. . . . . . . . . . . . . . o 10. . . . . 8. . . 8. . . . . . . 99 . . .2 El principio del pivote . . . . 8. . . . 105 105 107 107 110 110 111 112 113 113 114 114 117 117 118 119 119 120 120 123 123 125 8 Descripci´n de una Muestra o 8. . . . . . . . . . . .2. . . . . . . . . .2. . . . . . . . . u 8. . . . . . . . . . . . . . . . . . . . . .2 Estimaci´n robusta . . . .1 Convergencia de funciones de variables aleatorias . . . . . 9. . . .1 Media y varianza muestrales 8. . . . . . . . . . . . . . . . . . o 7. . . . . . .3 Intervalos para la exponencial . . . .2. . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . . . .

.9 Ejercicios . . .3 Potencia y tama˜o de muestra . . . . . . . . . . . . . .1 C´lculo num´rico de los coeficientes a e 12. . . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . . predictores . . . 12. . . . . . . . . . . . . 12. . . . . . .1 Interpretaci´n de los resultados . . . . . . . . . . . . . . . . . . . . .4. .1 Muestras normales . .2 Un m´todo para la obtenci´n de tests . . . . . . . . . . . . . . . . . . . . .1 *Relaci´n entre tests e intervalos de confianza o 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 Ejercicios . .5 Sobre el uso de los tests en la pr´ctica . . . . . . . . . .7. . . a 11. . . . . . . . . . . . . 12. 12. . . . . . . .7. . . . . . . . . . . . 10. . . 10. . . . . . . . . . . . 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Comparaci´n de dos muestras . . . . . . . . . .1 Dos muestras independientes 10. . . . . . . . . . . . . . o 12. . . . . . . . . . o 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Tests para la binomial . . . . . . . . . .6. . .1 Tests para la media de la normal .2 Predictores con error . . . . . . . . . . . . . . . . . . . . . .7 Uso de los residuos . . . . o 11. . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . . . . . .3 Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . INDICE . .vi 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Recta por el origen . . . . . . . . .3 Transformaciones . . . . . . . . .7. . . . A TABLAS BIBLIOGRAFIA INDICE ALFABETICO . . . .4. . . e o 11. . . . 12 Ajuste de una Recta 12. . . . . . . . . . . .4 Inferencia .8 Ejercicios . . . . o 12. . . . . . . . . . . . . . . . . . 11. . . . . . . . . . 12. . 12. o 11. . . . . . . . . . . . . . . . . . . . . . . 12. .2. .7. . . . . . . . . . . . . . . . . . . . . . . . . . 10. . . .7. . . . . . . .1 El m´todo de m´ e ınimos cuadrados . . . . . . . . . . . . 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4. . . . . . . . . . . . . o 10. . .3. . . . .1. . . . . . . . . . . . . . . . . . . . 126 126 128 129 130 130 133 133 135 136 137 137 138 139 139 140 141 141 142 145 145 149 149 149 150 151 151 153 154 156 157 157 157 158 160 165 171 173 11 Tests de Hip´tesis o 11. . . . . . . . . . . . . . . . . . .7 Comparaci´n de dos muestras . . . . . . .2 Gr´fico de residuos vs. . . .5 Intervalos de predicci´n . e e 11.6 Predictores aleatorios . . .2 El modelo lineal simple . . . . . . .1 Diagrama normal . . . . . . . . o 12. . . . . . . . n 11. . . . . . . . . . . . . . . . . . . . .8 Intervalos de tolerancia .2 M´todos robustos y no param´tricos . . . . . . .1 Introducci´n . . . . . . . . . . 11. . 12. . . . . . . . . . . . . . . . . . . a 12. .2 Varianzas distintas . . . . . . . . . . . . .3 Distribuci´n de los estimadores . . . . . . . . . . . . . . . .3 Comparaci´n de dos binomiales . . . . . . . . . . . . . . . . . . . . . . . . . .6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . .

Parte I PROBABILIDAD 1 .

.

Cap´ ıtulo 1 Espacios de Probabilidad 1. Si tenemos la pacieno o cia de hacerlo.5048 (los tiros de la moneda han sido “simulados” en una computadora –Secci´n 3. en una larga serie de repeticiones (ideales) o ıan 3 .1– hao ciendo innecesario el trabajo de conseguir la moneda y luego arrojarla 10000 veces). y observar qu´ lado queda hacia arriba (podemos suponer que lo hacemos en e una amplia habitaci´n sin muebles. o Consideremos en cambio el experimento que consiste en arrojar la moneda una gran cantidad de veces y registrar la proporci´n de veces que sali´ “cara”.2. dejarla caer al piso. no del resultado de una realizaci´n de un experimento.5094 0.1 Los axiomas Consideremos el experimento que consiste en arrojar al aire una moneda. encontrar´a el inconveniente o ı de que muy peque˜as modificaciones en los valores iniciales modifican el resultado.5070 0. en las que se desea ı un modelo matem´tico. si alguien intentara realizar esta predicci´n. mostramos a continuaci´n la proporci´n de “caras” en 10 repeticiones del o o experimento consistente en arrojar la moneda 10000 veces: 0.5012 0. el resultado queda determinado y se puede obtener resolviendo un sistema de ecuaciones diferenciales.5018 0. para asegurarnos que no quede de canto ni debajo o de un ropero). observaremos que de una realizaci´n a otra los valores registrados no suelen o cambiar mucho.4958 0. el resultado es perfectamente predecible: si conocemos con suficiente precisi´n las velocidades iniciales de traslaci´n y rotaci´n. Es de estas situaciones que se ocupa la Teor´a de Probabilidad. En principio.5018 0. habr´ que conocer los a ´ o ıa valores iniciales con una precisi´n inalcanzable en la realidad. de modo n que para disponer de un modelo matem´tico util de esta situaci´n. y las elasticidades de o o o los materiales del piso y de la moneda. cosa que no suced´a ı ıa a ı con los resultados de los tiros tomados individualmente.4959 0.4997 0.4964 0. sino de la a o proporci´n de veces que se dar´ los resultados. Esa proporci´n ser´ entonces una caracter´ o ıa ıstica intr´nseca del experiı mento. Por ejemplo. Sin embargo. la que s´ se podr´ prestar a ser modelada matem´ticamente.

´ Todo lo expuesto se refiere al llamado concepto frecuentista de la probabilidad. El ejemplo de la moneda es claramente determinista. ı ´ El concepto de probabilidad se refiere a la proporci´n de ocurrencias (o frecuencia reo lativa) de un resultado. Registrar la cantidad de abonados de una central telef´nica que levantan el tubo o entre las 10 y las 10 hs. y defini´ a la probabilidad o como el l´mite de las frecuencias relativas. hasta que pide l´ ınea el primer abonado e. Una exposici´n o sobre los distintos conceptos de azar y probabilidad se puede encontrar en [11]. Esta puede tambi´n ser concebida como medida de creencia. o ıa N´tese sin embargo que no interesa aqu´ discutir si una situaci´n es realmente aleatoria o o ı o determin´stica. En el ejemplo (a) tendr´ ıamos . o si existe realmente el azar. en una larga serie de repeticiones de un experimento aleatorio. Estas propiedades se convierten e ıa precisamente en los axiomas de la definici´n de Kolmogorov. o pero ser´a poco util tratarlo como tal. quien defini´ la e e a o probabilidad mediante un sistema de axiomas. o cualquier conjunto que los contenga. ESPACIOS DE PROBABILIDAD ı del mismo. es la elegida por Richard von Mises. Kolmogorov. pese a lo natural que parece.4 CAP´TULO 1. A ´stos los llamaremos “experimentos aleatorios” (en un experimento “detere min´ ıstico” una repetici´n en las mismas condiciones tendr´ que dar el mismo resultado). y medir su estatura y peso. Este planteo. Pero ¿cu´ndo es una serie “lo bastante larga”?. es el conjunto de los resultados posibles del mismo. Registrar en dicha central el tiempo transcurrido desde las 10 hs. Realizar un tiro de ruleta y registrar el resultado b. cuando el n´mero de repeticiones tiende a inı u finito. Una forma de precisar estas ideas para definir rigurosamente ıan el concepto de probabilidad. quien en 1921 parti´ de o la idea de una serie ilimitada de repeticiones del experimento. Arrojar un dado tres veces seguidas y anotar los resultados ordenadamente c. o El espacio de probabilidad (o espacio muestral) asociado a un experimento aleatorio. veamos primero algunos ejemplos de expeo rimentos aleatorios: a. ¿Y cu´ndo se puede ı a decir que var´ “poco”?. La idea de partida –com´n en el enfoque u ımite de freaxiom´tico de la Matem´tica– fue: si se pudiera definir la probabilidad como l´ a a cuencias relativas: ¿qu´ propiedades tendr´ que cumplir?. ´ Se lo denota tradicionalmente con la letra (Omega). Se trata de elegir el modelo matem´tico m´s ı a a adecuado para tratar una situaci´n. encontr´ dificultades insalvables para o llegar a convertirse en una teor´ consistente. Pero este es un tema que no trataremos en este curso. La Ley de Grandes Numeros o (Cap´ ıtulo 7) mostrar´ que esta definici´n es coherente con la noci´n de probabilidad como a o o frecuencia relativa. Elegir una persona al azar de entre una poblaci´n. 15’ d. Para exponer la definici´n de Kolmogorov. Podr´ a ıamos responder que lo es cuando las frecuencias relativas var´an poco al realizar nuevas repeticiones. dando lugar a la llamada probae bilidad subjetiva. La formulaci´n que se utiliza actualmente ıa o fu´ desarrollada en 1933 por el c´lebre matem´tico ruso A.

⊆ An ⊆ An+1 ⊆ . LOS AXIOMAS 5 = {0. x ≥ 0}. Entonces P n An = l´ n→∞ P(An ).. se definen n An = {ω : ω ∈ An para alg´n n} y n An = {ω : ω ∈ An para u todo n}. A ∩ B = ∅ =⇒ fN (A ∪ B) = fN (A) + fN (B).5. el conjunto ı A = (3. b. . En el (c) se puede tomar como el conjunto de los enteros no negativos: Z+ = {0. 1. 36} es “el evento de que salga n´mero par” .. 34} ser´a “el evento de que salga primera columna”. 6}}. . a Definici´n 1. 7.5 < t} (tiempo en minutos) es el evento “ning´n abonado pide l´ u ınea entre las 10 y las 10 horas 3. . ocurre B”. Supongamos un experimento (por ejemplo. . sea fN (A) la cantidad de veces que ocurre A en las N repeticiones (llamada frecuencia de A). b ∈ R+ }..1. En la pintoresca jerga probabil´ ıstica. Por ejemplo. Si A ∩ B = ∅. para (e). . ım Para aclarar la notaci´n usada en el ultimo axioma: si An (n = 1. se podr´ considerar que las mediciones reales –en segundos– ser´n enteras. La elecci´n del es cuesti´n de conveniencia.1 Una probabilidad (o medida de probabilidad) es una funci´n P que a cada o o evento A le hace corresponder un n´mero real P(A) con las siguientes propiedades: u P1) 0 ≤ P(A) ≤ 1 para todo A ⊆ P2) P( ) = 1 P3) (aditividad) A ∩ B = ∅ =⇒ P(A ∪ B) = P(A) + P(B) P4) (continuidad) Sean A1 ⊆ A2 ⊆ . ıa a y por lo tanto se podr´a tomar = Z+ . . c ∈ {1. Las operaciones habituales con conjuntos tienen una traducci´n intuitiva en t´rminos o e probabil´ ısticos: A ∩ B es el evento “A y B ocurren simult´neamente”. “A y B no pueden ocurrir simult´neamente”. . . En (d). . Se verifica f´cilmente a que cumple: 0 ≤ fN (A) ≤ fN ( ) = N. en el ejemplo (a) el conjunto A = {2. .5 minutos”. A ∪ B es “ocurre a al menos uno de los dos”. ∞) = {t : 3. y para (d) el de los reales no negativos. un tiro de ruleta) repetido N veces. . o bien. 6. Para cada evento A.. 2. 4. . una sucesi´n infinita de o eventos. 4. el de los pares de ´ reales no negativos: = R × R = {(a.. el u B = {1. . 2. .) es una sucesi´n o ´ o de eventos.. 2. si A ⊆ B.. en el (b) = {(a. ı Se llama eventos a los subconjuntos de . el complemento A es el evento “no ocurre A”. la diferencia A − B = A ∩ B es “ocurre A pero no B”. . b. . si la medici´n se hace con un reloj digital que mide hasta o el segundo. . 36}. . Por ultimo. 1. en (d) se podr´ alternatio o ıa vamente tomar = R. = R+ = {x ∈ R. b) : a.}.1.. “siempre que ocurre A. . La motivaci´n de los axiomas se puede comprender a partir de la idea intuitiva de o la probabilidad como “l´ ımite de frecuencias relativas”. c) : a.

. ¡se lavaba las manos!” Les Luthiers.6 CAP´TULO 1. los eventos An+1 y i=1 Ai son disjuntos. le tiraba la ropa. y todos los elementos ωi tienen la misma probabilidad (son equiprobables). Si el evento A tiene M elementos. entonces la aditividad (1.) una familia infinita de eventos disjuntos.2) n Para demostrarla. por inducci´n. ESPACIOS DE PROBABILIDAD ı Sea gN (A) = fN (A)/N (la proporci´n de veces que ocurre A. Entonces n n P i=1 Ai = i=1 P(Ai ). ım 1. Sean Ai (i = 1. . pues Bn ⊆ Bn+1 . e ıan Es f´cil extender P3 a cualquier familia finita de eventos. n) eventos a disjuntos (o sea. o frecuencia relativa). Si se pudiera definir P(A) como o l´mN →∞ gN (A) .1) El lector puede demostrar esta propiedad. entonces P cumplir´ esos tres axiomas. sean Bn = i=1 Ai y B = i Ai = n Bn . ı Aplicaciones menos fr´ ıvolas se encuentran en casi todas las situaciones en que se toman muestras. i = j =⇒ Ai ∩ Aj = ∅). corresponden al caso en que el espacio es finito: = {ω1 . en particular el control de calidad y el muestreo de poblaciones. . y es necesario por “motivos t´cnicos”: muchos resultados importantes no se podr´ demostrar sin usarlo. Sea Ai (i = 1. ωN }. pero ella le le´ las cartas. . . originadas en los a ı juegos de azar. (1. o Entonces gN como funci´n de A cumple P1.. . le leyera las manos y le lavara la ropa. El mismo resultado vale para n = ∞ (sigma-aditividad). Un ejemplo ser´a un tiro de una ruleta o de un dado “equilibrados”. y al ıa final . (1. . . Entonces: ∞ P i Ai = i=1 P(Ai ). ı ıa El axioma P4 no se puede deducir de los anteriores. Por lo tanto P({ωi }) = 1/N para todo i. “Il sitio di Castiglia” Las situaciones m´s antiguas consideradas en la Teor´a de Probabilidad.1) implica P(A) = card(A) 1 M= . P2 y P3.2 Experimentos con resultados equiprobables “Mastropiero hab´a contratado a una gitana para que ı le tirara las cartas. N card( ) (donde “card” es el cardinal –n´mero de elementos– del conjunto) f´rmula conocida u o tradicionalmente como “casos favorables sobre casos posibles”. Entonces hay que probar que P(B) = l´ n→∞ P(Bn ). teniendo o n en cuenta que para cada n. 2.. . llamada aditividad finita.. . lo que es consecuencia inmediata de P4.

3) Variaciones: Se llama variaciones de n en k (con k ≤ n) a la cantidad de subconjuntos ordenados de k elementos. y (2) el orden en que est´n. EXPERIMENTOS CON RESULTADOS EQUIPROBABLES 7 Por lo tanto. se define 0! = 1. Se verifica enseguida que n! . b ∈ B} el producto cartesiano de A y B. . el conjunto de todos los pares ordenados formados por un elemento de A y otro de B. y extraer sucesivamente m barajas. Como estos dos factores se pueden combinar de todas las a maneras posibles. con lo que la propiedad n! = n(n − 1)! vale para todo n ≥ 1. Entonces k n k = n! . .1.6) En efecto: cada subconjunto ordenado de k elementos se caracteriza por: (1) los k elementos. . . o o u Permutaciones: La cantidad de formas distintas en que se pueden ordenar los n´meros 1. . k!(n − k)! La demostraci´n es muy simple por inducci´n. .6). n}. o o Para completar. . Se quiere representar el experimento siguiente: Barajar bien.5) (n)k = n(n − 1) . b) : a ∈ A. . se lo denota con (n ). . o sea. (1. 2. en esta situaci´n uno de los problemas es calcular el cardinal de un o conjunto (sin tener que enumerarlo). resulta por (1. . y de aqu´ sale (1. La demostraci´n es muy sencilla por inducci´n sobre card(A). contenidos en un conjunto de n (0 ≤ k ≤ n). ı Muestreo con y sin reemplazo Sea B un mazo de n barajas. y se la indica con (n)k .4) n (n)k = k k!. . . sea A × B = {(a. 2.2.4) (1. Regla del producto: Dados dos conjuntos A y B. × n. (1. Usaremos cuatro resultados elementales que el lector probablemente ya conoce. (n − k + 1) = (n − k)! Combinaciones: Se llama combinaciones (o n´mero combinatorio) de n en k a la canu tidad de subconjuntos (sin ordenar) de k elementos.3) y (1. del conjunto {1. n (permutaciones de n) es el factorial de n: n! = 1 × 2 × . (1. Entonces card(A × B) = card(A) card(B). .

C: Control de calidad En una canasta hay N manzanas.A: Repartos En una fiesta se reparten al azar c caramelos a n ni˜os. bm ). Reponerla. 3 Ejemplo 1..8 CAP´TULO 1.. 6}. o sea (n − 1)c . Ejemplo 1. . siendo aproximadaa mente igual a e−1 ≈ 0... Es conveniente suponer que tanto los caramelos como los ni˜os est´n numerados. ¿Cu´l es la probabilidad p de que me a a toquen exactamente m machucadas? (con m ≤ n y m ≤ M).. y por lo tanto los elementos de ı son los subconjuntos de 3 cartas de un conjunto de 40.. . dicha probabilidad es pr´cticamente independiente de n. bi ∈ B} = B × . × B. Esta es la definici´n del muestreo sin reemplazo de o m objetos de entre n. 2. .049.. Aqu´ no interesa el orden de las cartas. y los favorables (o n m´s bien desfavorables para mi sobrino) son todas las maneras de distribuir los caramelos a entre los n − 1 ni˜os restantes. Cada 3 elemento de A est´ caracterizado por: (a) los n´meros de las 3 cartas. Cada caso favorable se caracteriza por: un subu n conjunto de m de entre las M machucadas. y por lo tanto P(A) ≈ 0. y por lo tanto la probabilidad es (1 − 1/n)c . Se representa el buen barajado postulando que los elementos de son equiprobables.B: Flor Un ejemplo de muestreo sin reemplazo y del uso de las ideas elementales del An´lisis Combinatorio est´ dado por el siguiente problema: de un mazo de a a baraja espa˜ola se extraen tres al azar sin reemplazo. n Si c = n.7) p= N n .3) resulta card(A) = (10 ) 4. o Un ejemplo de esta situaci´n es: m tiros sucesivos de un dado equilibrado. y (b) de qu´ palo a u e son.37. y por lo tanto los casos posibles son nc . ¿Cu´l n a es la probabilidad de que mi sobrinito se quede sin caramelo?. El n´mero de casos posibles es (N ). Usando (1. Sacar una carta y registrarla. . o Se representa matem´ticamente la idea de que el mazo est´ bien barajado postulando que a a los elementos de son equiprobables. Esta es la definici´n de muestreo con reemplazo. Si no interesa el orden en que salen. de la definici´n se deduce f´cilmente que los (n ) conjuntos posibles son equiprobables. Luego: M N −M m n−m . bm ) : bi ∈ B. card( ) = nm . (1. de las cuales M est´n machucadas. y uno de n − m de entre las N − M sanas.. . .. Aqu´ o ı B = {1. Calcular la probabilidad del evento n A que sean todas del mismo palo. Cada uno de los caramelos puede ser n a dado a cualquiera de los n ni˜os. lo que implica card( ) = (40 ). De la definici´n se deduce que card( ) = (n)m . En este caso = {(b1 . o a m Consideremos en cambio el experimento descripto por el siguiente procedimiento: Hacer m veces lo siguiente: Barajar bien. Elijo n al azar (sin reemplazo). sino solamente el conjunto {b1 .... bi = bj si i = j}. Ejemplo 1. Por lo tanto. ESPACIOS DE PROBABILIDAD ı En este caso el espacio es el conjunto de las m-uplas formadas por m barajas distintas: = {(b1 . bm }.

Ejemplo 1. o sea (N )k .8) 1. . es p = 1. (d) que n ≤ N . y le da una oportunidad de cambiar su elecci´n en o este instante. 1.1 o 1.1). de {1.3.3 Ejercicios Secci´n 1. un dos y un tres. ım 1. EJERCICIOS 9 Ejemplo 1. En estas condiciones tenemos una muestra de tama˜o n. En efecto. ıas n o por ejemplo. e el cociente es M/N .D: Si en el ejemplo anterior se extraen las manzanas en forma consecutiva con reemplazo. y los casos favorables son todas las sucesiones de k manzanas en las que la k-´sima es machucada. es obvio que la probabilidad de que la k-´sima manzana sea machucada es e M/N . de modo n que todos los a˜os tienen N = 365 d´ (b) que las probabilidades de los nacimientos son las n ıas. .1. supongamos: (a) que descartamos los a˜os bisiestos. El croupier le muestra una de las a otras dos. un congreso de quintillizos). que es la probabilidad a a de que tengan todos cumplea˜os distintos (ejercicio 1. La cantin dad de casos posibles es entonces N n . Veremos que lo mismo vale para el muestreo sin reemplazo.4 Sea {An } una familia infinita de eventos tales que A1 ⊇ A2 ⊇ A3 ⊇ . o sea M (N −1)k−1 .998. que resulta no ser el as. . queda p=1− N (N − 1) .1 Probar que P(A ) = 1 − P(A).5 Un sistema de control est´ formado por 10 componentes.1]. ¿Vale esta igualdad en general?.2 Probar que A ⊆ B =⇒ P(B − A) = P(B) − P(A). y hay que acertar cu´l de ellas es el as. . . La falla de cualquiera de a ellos provoca la del sistema. (c) que no hay relaci´n entre las personas (eliminando. N }. En definitiva. 1. Probar que la probabiidad de que el sistema funcione es ≥ 0. Nn (1. mismas para todos los d´ del a˜o. Es m´s f´cil calcular 1 − p. ¿Cu´l es la probabilidad n o a p de que al menos dos tengan el mismo cumplea˜os?. .E: Cumplea˜os En una reuni´n hay n personas.3 Probar que P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (¡haga el diagrama!).. 1. n Para simplificar las cosas. Se sabe que la probabilidad de falla de cada componente es ≤ 0. con reemplazo. Probar que P( n An ) = l´ n→∞ P(An ). 1. . Deducir que A ⊆ B =⇒ P(A) ≤ P(B). pues si no.0002. los casos posibles son todas las sucesiones de k manzanas. Deducir que P(A ∪ B) ≤ P(A) + P(B) (desigualdad de Bonferroni). (N − n + 1) . Los casos favorables quedan n caracterizados por: el conjunto de fechas –de los cuales hay (N )– y la forma de asignarlas n a las n personas – que son n!. o . Usted elige una. [Usar P4 y el ejercicio 1. . ¿Qu´ le conviene m´s: mantener su decisi´n o elegir la restante carta e a o desconocida? [construya un modelo para la opci´n de cambiar siempre de carta]. Deducir que P(∅) = 0.6 Sobre una mesa hay tres cartas boca abajo: son un as.

sin reposici´n. ¿ cu´l ser´a la probabilidad de que se formen 4 parejas?. Calcular o la probabilidad de que . al menos un as. Los contenidos de las dos canastas blancas se unen. 1. 1. (El resultado es un a ejemplo de la llamada “Paradoja de Simpson”). de las cuales exactamente a 8 son de color fucsia. 3 rojos b. cuatro iguales y uno distinto (“poker”) c. Si se le u ofrece extraer al azar una botella. 1. Si las elecciones fueran completamente al azar. Una canasta roja contiene 6 botellas de champagne de primera y 3 de vino de cuarta. Si un hombre a y una mujer se eligen mutuamente.13 En una pecera hay 7 peces rojos y 3 azules. ESPACIOS DE PROBABILIDAD ı a. una blanca tiene 9 de champagne y 5 de dicho vino.11 En un programa de televisi´n se presentan 4 hombres y 4 mujeres. Calcular la probabilidad de que acierte en el k-´simo e intento (1 ≤ k ≤ n). tirando dos veces u b. en un colectivo que emite u boletos con 5 cifras.7 CAP´TULO 1.10 Secci´n 1. ¿De cu´l le conviene a extraer?. c. cinco n´meros iguales (“generala servida”) u b. tirando cuatro veces. se forma una pareja. u [conviene considerar a los dados como distinguibles]. tres de un n´mero y dos de otro (“full”). 1. y las prueba n a ordenadamente una por una. y lo mismo se hace con los de las dos rojas. 2 o m´s rojos.14 En una caja de madera de s´ndalo persa hay 20 bolillas. Calcular la probabilidad de obtener a. a ı 1. Una canasta roja contiene 5 botellas de champagne brut y 6 de vino com´n de u mesa.12 Un se˜or tiene un llavero con n llaves. a b. ¿De cu´l le conviene extraer ahora?. dos n´meros pares. Cada hombre o elige a una mujer (ignorando lo que eligen los/las dem´s) y viceversa.10 Se arrojan 5 dados equilibrados. Se extraen 5 al azar (sin reemplazo).2 o 1. una canasta blanca contiene 3 de champagne y 4 de vino com´n. Ha olvidado cu´l es la de su casa.9 Se arroja repetidamente un dado equilibrado. Calcular la probabilidad de obtener: a. ¿de cu´l canasta le conviene tomarla?.8 Calcular la probabilidad de obtener un boleto capic´a. Se extraen sucesivamente 10 al azar. a 1. 1. Calcular la probabilidad de obtener: a.

17 Probar n k = nn k − k m=0 y n k −1 = n−1 k + n−1 .3. calcular la probabilidad de que alg´n ni˜o quede sin u n caramelo. cinco sean fucsia c. [Sugerencia: hacerlo por inducci´n.15 En el Ejemplo 1. Calcular la probabilidad de que haya exactamente dos personas con el mismo cumplea˜os n c.5 b. al menos dos tengan el mismo signo astrol´gico. o 1. 1. EJERCICIOS a. k 1. Calcular la probabilidad de que entre n personas.8) sea ≥ 0. M ).E: o a.16 En la situaci´n del Ejemplo 1.A. la segunda y la s´ptima sean ambas fucsia. . la sexta sea fucsia b.1. con c = n. e 11 1. comenzando por probarlo ı o para M = 1 y todo N y n]. Hallar el menor n tal la probabilidad p de (1. n donde k = m´n(n.18 Probar que si M ≤ N y m ≤ N : M m N −M n−m = N .

ESPACIOS DE PROBABILIDAD ı .12 CAP´TULO 1.

Cap´ ıtulo 2

Probabilidad Condicional e Independencia
2.1 Relaciones entre dos eventos

Definici´n 2.1 Si A y B son eventos con P(B) > 0, la probabilidad condicional de A o dado B es P(A ∩ B) . (2.1) P(A|B) = P(B) Para comprender la motivaci´n de (2.1), consideremos el ejemplo de una poblaci´n de o o N personas, y en ella los subconjuntos A y B formados respectivamente por los que tienen caries y por los consumidores habituales de caramelos. Si se desea investigar emp´ ıricamente la relaci´n entre caries y consumo de caramelos, una forma de hacerlo ser´ calcular la o ıa proporci´n p de caries entre los golosos, o sea o p= card(A ∩ B) . card(B) (2.2)

Al mismo tiempo, si se considera el experimento de elegir al azar una persona de , entonces P(B) = card(B)/N , y P(A ∩ B) = card(A ∩ B)/N , y por lo tanto p= P(A ∩ B) = P(A|B). P(B) (2.3)

Comparando (2.2) y (2.3) surge que P(A|B) se puede considerar como la probabilidad de obtener un elemento de A, cuando uno se limita a elegir de entre los de B. En t´rminos de frecuencias relativas (ver p´gina 5), el significado intuitivo ser´ P(A|B) e a ıa: es la proporci´n de veces que se observa A, en una larga serie de repeticiones del experio mento en la que registramos s´lo aquellas en que sucede B, o 13

14

CAP´ ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA De la definici´n es inmediato que o P(A ∩ B) = P(A|B) P(B). (2.4)

En el pensamiento cotidiano suele haber una cierta confusi´n entre P(A|B) y P(B|A). o Para aclararla, notemos que mientras la totalidad de los futbolistas profesionales tiene dos piernas, s´lo una ´ o ınfima proporci´n de las personas que tienen dos piernas son futbolistas o profesionales. El Ejemplo 2.E mostrar´ un caso menos obvio. a Definici´n 2.2 Los eventos A y B son independientes si o P(A ∩ B) = P(A)P(B). (2.5)

Para comprender el origen de este concepto, veamos el ejemplo anterior: si el consumo de caramelos produjera mayor propensi´n a las caries, deber´ ser la proporci´n de cariados o ıa o entre los golosos, mayor que la proporci´n en la poblaci´n total, o sea P(A|B) > P(A); si el o o ıa efecto fuera contrario, ser´a P(A|B) < P(B), y si no tuviera efecto, ser´ P(A) = P(A|B), ı lo que equivale a (2.5). Se dice que A y B tienen respectivamente asociaci´n positiva (negativa) si P(A ∩ B) es o mayor (menor) que P(A)P(B). Ejemplo 2.A: Se arroja dos veces un dado equilibrado. Sean A = {en el primer tiro sale impar}, y B = {en el segundo sale 3}. Si se postula que los 36 resultados posibles son equiprobables, entonces P(A ∩ B) = 3 1 3 = = P(A)P(B), 36 6 6

y por lo tanto A y B son independientes. El mismo razonamiento muestra que en cualquier situaci´n de muestreo con reemplazo, eventos correspondientes a repeticiones distintas son o independientes. Ejemplo 2.B: En una caja hay N bolillas, de las cuales M son blancas. Se extraen al azar dos sin reemplazo. Sean A y B respectivamente los eventos de que la primera (la segunda) sea blanca. De la definici´n de muestreo sin reemplazo se deduce que o P(A ∩ B) = M (M − 1) M y P(A) = P(B) = . N (N − 1) N (2.6)

En efecto: card( ) = (N )2 = N(N − 1); y por los mismos motivos es card(A ∩ B) = M (M − 1). El c´lculo de P(A) y P(B) es como en el Ejemplo 1.D. a Por lo tanto hay asociaci´n negativa entre A y B, pues (M − 1)/(N − 1) < M/N si o N > M ≥ 0. Esto es comprensible intuitivamente, pues si la primera bolilla extra´da es ı blanca, quedan menos blancas para la segunda. Sin embargo, n´tese que o M (N − 1) P(A ∩ B) = , P(A)P(B) N (M − 1)

2.2. MODELOS BASADOS EN PROBABILIDADES CONDICIONALES

15

que tiende a 1 cuando M y N → ∞. O sea, que para M y N “grandes”, A y B son “aproximadamente independientes”; es decir, que en ese caso el muestreo sin reemplazo se comporta aproximadamente como el muestreo con reemplazo, cosa que es f´cil de imaginar a intuitivamente (ver Ejercicio 2.15). Proposici´n 2.3 La independencia de A y B es equivalente a la de A y B , a la de A y o B , y a la de A y B . Demostraci´n: Comenzamos probando que la independencia de A y B implica la de A y o B . En efecto, si A y B son independientes, entonces P(A ∩ B ) = P(A) − P(A ∩ B) = P(A) − P(A)P(B) = P(A)P(B ). Aplicando este razonamiento a los eventos A y B , resulta que la independencia de A y B implica la de A y (B ) = B, lo que prueba la implicaci´n opuesta. De la primera o equivalencia salen las otras dos.

2.2

Modelos basados en probabilidades condicionales

Ahora veremos algunas situaciones t´picas donde las probabilidades condicionales o la inı dependencia, en vez de ser deducidas del modelo, son postuladas para definirlo. Para ello hace falta poder obtener la probabilidad de un evento, en funci´n de sus probabilidades o condicionales respecto de otros. n En la situaci´n m´s t´pica, sean B1 , . . . , Bn eventos disjuntos, con i=1 Bi = , y A o a ı cualquier evento. Entonces
n

P(A) =
i=1

P(A|Bi ) P(Bi ).

(2.7)

Esta es la llamada f´rmula de probabilidad compuesta. Para probarla, basta notar que o los eventos A ∩ Bi (i = 1, . . . , n) son disjuntos, su uni´n es A, y sus probabilidades son o P(A|Bi )P(Bi ) por (2.4). En las mismas condiciones se cumple para todo k = 1, . . . , n: P(Bk |A) = P(A|Bk )P(Bk ) . n i=1 P(A|Bi )P(Bi ) (2.8)

Este resultado, llamado f´rmula de Bayes, se prueba usando (2.7) y (2.4). o A continuaci´n vemos algunas aplicaciones de estos resultados. o Ejemplo 2.C: Se tira dos veces un dado equilibrado. Sean A y B como en el Ejemplo 2.A. Si se postula que A y B son independientes, entonces se deduce que P(A ∩ B) = 3/36 (en dicho Ejemplo se sigui´ el camino inverso). o

99 + 0. a partir del instante t = 0. P(A |B2 ) = 0. de todos los casos en que sale bolilla negra.blanca).negra)} y B2 = “elegir caja 2”.007. “sano” y “enfermo”. t2 ) el evento “no se emite ninguna part´cula ı en el intervalo de tiempo [t1 .333. (2. Los enfermos constituyen el 1% de la poblaci´n. P(A|B1 ) = 3/8 y P(A|B2 ) = 8/12. PROBABILIDAD CONDICIONAL E INDEPENDENCIA Ejemplo 2. Se desea calcular la probabilidad de que la bolilla sea negra.bolilla)}.1 Un modelo para tiempos de espera Veremos a continuaci´n un modelo de gran importancia pr´ctica obtenido en base a suo a posiciones muy sencillas. dado que sali´ bolilla negra. 25/48 25 El significado intuitivo de esta probabilidad es: si se repite el experimento muchas veces. a Sean A. Entonces P(A|B1 ) = 0.005.005 × 0. t2 )”.01. El enunciado del problema equivale a postular: P(B1 ) = P(B2 ) = 1/2. para el caso en que la situaci´n se puede representar por las siguientes hip´tesis: o o .005 de dar como enfermas a personas sanas (“falsos positivos”). Se registra la cantidad de part´ ıculas emitidas por una substancia radiactiva. B1 = “elegir caja 1”= {(1. Definimos los eventos: A = “bolilla negra” = {(1. donde “caja” puede ser 1 ´ 2. a 2. 0. Aqu´ es o ı el conjnto de pares {(caja.2.16 CAP´ ıTULO 2.8)– u 9 (3/8)(1/2) = . 14. (1.negra)}. es o –seg´n (2. Sea A(t1 . y la f´rmula de Bayes da o P(B1 |A) = 0.007 de dar como sanas a personas enfermas (“falsos negativos”). 8 2 12 2 48 La probabilidad condicional de que la caja sea la 1.01 de modo que ¡el 33% de los positivos son sanos!. hay que plantear un modelo para esta situaci´n.D: Se tienen dos cajas: la primera tiene 5 bolillas blancas y 3 negras. una proporci´n 9/25 corresponde a la caja 1.993 × 0. Calcularemos la probabilidad de este evento.005 × 0. y “bolilla” puede ser o blanca o negra. ¿qu´ proporci´n de o o e o los positivos corresponder´ a sanos?. no es diferente del comentario sobre futbolistas en p´g. y la segunda tiene 4 blancas y 8 negras.negra). y probabilidad 0. Antes de poder calcularla.99 = 0. Se elige una caja al azar y de ella una bolilla al azar. Entonces el resultado se obtiene de (2.7): P(A) = 3 1 8 1 25 + = .E: Falsos positivos Un test para detectar cierta enfermedad tiene probabilidad 0. Aunque el resultado pueda ser sorprendente. P(B2 ) = 0. B1 y B2 los eventos “test positivo”. o Ejemplo 2. Si se aplica el test a toda la poblaci´n.

damos una demostraci´n de (2. Como se ver´ luego en (4. o o La constante c depende de cada caso. notemos que si s y t son ≥ 0.14). Aqu´ o ı S1 es aplicable si el intervalo de observaci´n es lo suficientemente breve como para que o la intensidad del tr´fico telef´nico no var´e mucho. que no usa derivadas. La segunda implica que la desintegraci´n de una part´ o ıcula no influye en la desintegraci´n de otras. Se la puede estimar observando el experimento (Ejemplo 9. t2 ) si t1 ≤ t2 . t1 ) y A(t1 .9) tenemos g (t) = l´ s→0 ım g(t + s) − g(t) g(s)g(t) − g(t) = l´ms→0 ı s s 1 − g(s) = −g(t) l´ s→0 ım = −cg(t). o Una demostraci´n correcta. Otra situaci´n que puede ser descripta mediante las suposiciones S1 y S2 es: observar o una central telef´nica. entonces los eventos A(0. y g es decreciente.11) donde c = l´ms→0 (1−g(s))/s.E). s + t)} no depende de s S2) Si t1 < t2 .10). Por lo tanto: a o g(s + t) = g(s) g(t) ∀ s.9) Adem´s g(0) = 1.2. MODELOS BASADOS EN PROBABILIDADES CONDICIONALES Invariancia: Las condiciones no cambian en el tiempo 17 Falta de memoria: Lo que sucede en [0. a En estas condiciones. pues A(0. o La traducci´n de estas dos suposiciones en t´rminos formales ser´ respectivamente: o e ıa S1) P{A(s. Dado que en realidad la intensidad de la desintegraci´n va decayendo en el tiempo. Para calcular la forma de g. . t1 ) ⊇ A(0. t ) para t > t. el significado a intuitivo de 1/c es “tiempo medio de espera entre dos part´ ıculas”. (2. t2 ) son independientes. sea g(t) = P{A(s. S2 excluye la posibilidad de que una a o ı llamada pueda provocar otras (como una cadena de chismes). s (2. pero no del todo rigurosa. s) y A(s. y registrar el instante en que se produce la primera llamada. De (2. 0) = .10) sencilla. la o primera suposici´n implica que el per´ o ıodo de observaci´n es corto comparado con la vida o media de la substancia.2. Para abreviar. o pues requiere la suposici´n extra –e innecesaria– de que g es diferenciable. t ≥ 0. entonces A(0. puede verse al final de esta Secci´n. como es bien sabido.10) donde c es una constante positiva. cuya soluci´n ı o o con la condici´n g(0) = 1 es (2. pues A(0. s + t) son independientes. lo cual excluye las reacciones en cadena. s + t)} (no depende de s). se puede demostrar que g es de la forma g(t) = e−ct (2. Aplicando o (2.11) sale la ecuaci´n diferencial g = −cg. y adem´s su intersecci´n es A(0. t) no influye en lo que sucede en [t. s + t). Para simplificar.

y por lo tanto vale (2..9) implica por inducci´n que g(n + 1) = bg(n) o para n natural.. A2 . “3 en el segundo” y “6 en el tercero”... A3 son independientes.. .18 CAP´ ıTULO 2.. Proposici´n 2. A2 y A3 los eventos “5 en el primer tiro”.. Veamos algunas propiedades de la indepencia de tres eventos. (2.. . El concepto adecuado es: Definici´n 2. De aqu´ sale ı g(m/n) = g(1/n)m = bm/n . A1 .4 Sea g una funci´n mon´tona (creciente o decreciente) que cumple (2. para alguna constante b > 0.. Sean t ∈ R+ y {tn } una sucesi´n de racionales ≤ t que tienden a t. y por lo tanto vale (2.. entonces g(t) ≤ g(tn ) = btn .. A2 y A3 son independientes”. Buscamos una manera de expresar formalmente que “A1 .) sino o tambi´n que –por ejemplo– A1 ∪ A3 sea independiente de A2 .9). A2 son independientes (´ ıdem A1 . sea b = g(1).3 Independencia de varios eventos Para fijar ideas. A3 son independientes si se cumplen las siguientes o ocho igualdades: P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 )... PROBABILIDAD CONDICIONAL E INDEPENDENCIA *Demostraci´n general de (2.12) para t ≥ 0 racional. Asimismo se obtiene que b = g(1) = g(n(1/n)) = g(1/n)n .12) para t natural.. Para demostrarlo.. se cumple: o a. supongamos g decreciente.. Entonces g es de la forma g(t) = bt .. Entonces (2. y o o g(0) = 1.12) para t de la forma t = 1/n.12) 2.. lo cual verifica (2. etc.. Para pasar de los racionales a los reales. Sean respectivamente A1 .. P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ). P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ). A3 y A2 .. Del mismo modo se o ım prueba g(t) ≥ bt .. para as´ representar e ı la idea de que el cubilete ha sido bien agitado... A3 ). consideremos el experimento de arrojar tres veces un dado (agitando bien el cubilete). Por o la continuidad de la funci´n exponencial es g(t) ≤ l´ n→∞ btn = bt .6 Si A1 .5 Los eventos A1 ... significando no s´lo que A1 sea independiente de A2 (etc.. A2 .10) o Lema 2....

pues P(A1 ∩ A2 ∩ A3 ) = 0 = P(A1 )P(A2 )P(A3 ). (j = 1.3 implica que basta probar la independencia de (A1 ∪ A2 ) y A3 o . A2 y A3 respectivamente. tener en cuenta que A1 ∩ A2 = (A1 ∩ A2 ∩ A3 ) ∪ (A1 ∩ A2 ∩ A3 ). en el experimento de arrojar dos veces un dado equilibrado. . 2. o Para demostrarla. e . . . que son disjuntos. A1 ∩ A2 es independiente de A3 (y de A3 ).4 El esquema de Bernouilli Veamos ahora una situaci´n muy frecuente en Probabilidad. (c): La Proposici´n 2. 19 Demostraciones (a): (N´tese que el hecho debe ser demostrado. entonces son independientes de a tres. y el resto de la demostraci´n es como la de (b). Entonces es f´cil verificar que los eventos son independientes tomados de a dos. “segundo resultado par” y “suma de ambos resultados par”. A1 ∪ A2 es independiente de A3 (y de A3 ). adem´s de ser independientes de a pares. –o sea. cumplen a P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ).2. La independencia de n eventos se define de la misma forma que para 3 eventos (ahora son 2n igualdades a cumplir). (b): Notar que (a) y la definici´n implican que o P{(A1 ∩ A2 ) ∩ A3 } = P(A1 )P(A2 )P(A3 ) = P(A1 ∩ A2 )P(A3 ). por lo o que se omite. de a dos). los eventos: “primer resultado par”. n).2. . pues la palabra ”independientes” se usa o primero en el sentido de la definici´n 2. Aplicando la definici´n resulta o P(A1 ∩ A2 ) = P(A1 )P(A2 )[P(A3 ) + P(A3 )] = P(A1 )P(A2 ). Sean los eventos Aj = {resultado del j-´simo tiro= as}. c. EL ESQUEMA DE BERNOUILLI b. o La independencia de a pares no implica independencia de a tres. Para verificarlo. sean A1 . de a tres– y luego en el sentido de la o Definici´n 2.5 –o sea. Pero si A1 .4. Se arroja n veces un dado o (no necesariamente equilibrado). A3 . A2 . La verificaci´n es elemental pero aburrida. pero a no lo son de a tres. Pero (A1 ∪ A2 ) = A1 ∩ A2 .

20

CAP´ ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Se quiere representar las suposiciones de que las condiciones son las mismas en todos los tiros, y que el cubilete est´ bien batido. Para ello se postula: a P(Aj ) = p para todo j = 1, . . . , n y A1 , . . . , An son independientes. Este modelo de una sucesi´n de eventos independientes y con la misma probabilidad, como o los Aj , sirve para representar repeticiones de un experimento con s´lo dos resultados, y se o llama esquema de Bernouilli. Cada repetici´n se denomina “intento”. La realizaci´n de o o los eventos se suele llamar “´xitos”, y la no realizaci´n –o sea, los complementos Aj – e o “fracasos”. Ahora se calcular´ la probabilidad de obtener exactamente k ases en los n tiros. a Proposici´n 2.7 Para k = 0, 1, . . . , n sea Bk el evento de que se realicen exactamente k o de los eventos Aj . Entonces P(Bk ) = n pk (1 − p)n−k . k (2.13)

Para probarlo, notemos que Bk equivale a que haya alg´n subconjunto de k intentos con u “´xitos”, y que los restantes n − k sean “fracasos”. M´s formalmente: sea C la familia de e a todos los conjuntos C ⊆ {1, 2, . . . , n} con card(C) = k. Entonces Bk =
C∈C

 

j∈C

Aj ∩

j∈C

Aj  .

(2.14)

Cada uno de los eventos dentro del par´ntesis tiene, por la independencia, probabilidad e pk (1 − p)n−k . Estos eventos son disjuntos, y hay (n ) de ellos. k A las probabilidades de (2.13) se las llama ”distribuci´n binomial”, y se las denotar´ o a con b(k; n, p) (la palabra “distribuci´n” ser´ definida en el Cap´tulo siguiente). o a ı Supongamos ahora que los tiros del dado contin´an indefinidamente. Entonces la prou babilidad de que el primer as salga en el k-´simo tiro es la de que no salga as en ninguno e de los primeros k − 1 tiros, y salga as en el k-´simo, o sea e P(A1 ∩ . . . ∩ Ak−1 ∩ Ak ) = (1 − p)k−1 p. (2.15)

La probabilidad de que el segundo as salga en el tiro k-´simo es la de que salga as en el e k-´simo, y exactamente un as en los (k − 1) anteriores, o sea e b(1, k − 1, p) p = (k − 1) p2 (1 − p)k−2 . (2.16)

´ 2.5. LA APROXIMACION DE POISSON Y SUS APLICACIONES

21

2.5

La aproximaci´n de Poisson y sus aplicaciones o

Consideramos ahora una aproximaci´n a la distribuci´n binomial, para n “grande” y p o o “chico”. Para representar esto consideramos una sucesi´n b(k; n, pn ) donde n → ∞ y pn o cumple npn → λ, donde λ es una constante > 0 (y por lo tanto pn → 0). Se probar´ que a l´mn→∞ b(k; n, pn ) = e−λ ı λk . k! (2.17)

Para ello desarrollamos el coeficiente seg´n la definici´n, multiplicando y dividiendo u o por nk : b(k; n, pn ) = n(n − 1) . . . (n − k + 1) 1 (npn )k (1 − pn )−k (1 − pn )n . nk k! (2.18)

Cuando n → ∞, el primer factor del segundo miembro tiende a 1, el segundo es constante, el tercero tiende a λk , el cuarto a 1, y el quinto a e−λ , pues l´ n→∞ n ln(1 − pn ) = −l´ n→∞ npn = −λ. ım ım Llamaremos p(k; λ) (k = 0, 1, 2, . . .) al segundo miembro de (2.17) (“coeficientes de Poisson”). Si se desea calcular aproximadamente b(k; n, p) donde n es “grande” y p “chico”, se define λ = p/n, y entonces (2.17) implica que b(k; n, p) ≈ p(k, λ). La importancia de los coeficientes de Poisson no radica tanto en su uso como aproximaci´n num´rica, sino en su papel en modelos sencillos pero muy frecuentes en las aplicao e ciones, dos de los cuales veremos a continuaci´n. o

2.5.1

El proceso de Poisson espacial

Supongamos un recipiente de volumen V con un l´ ıquido en el que hay n bacterias, que se consideran de tama˜o puntual. Se supone que el l´ n ıquido est´ bien batido, y que las a bacterias no se atraen ni repelen entre s´. Estas dos suposiciones se pueden formalizar ı respectivamente as´: ı Homogeneidad espacial: Para cada una de las n bacterias, y cada regi´n D del recipiente, o la probabilidad de que la bacteria est´ en D depende s´lo del volumen de D (y no de su e o forma o posici´n) o No interacci´n: Los eventos “la j-´sima bacteria est´ en D” (j = 1, . . . , n) son independio e a entes. Dada ahora una regi´n D con volumen v, se desea calcular la probabilidad del evento “en o D hay exactamente k bacterias”. Esta probabilidad depende s´lo de v, por la primera o suposici´n; la llamaremos gk (v). Sea h(v) la probabilidad de que una bacteria dada est´ o e en D (depende s´lo de v). Si D1 y D2 son dos regiones disjuntas con vol´menes v1 , v2 o u

22

CAP´ ıTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

respectivamente, tales que D = D1 ∪ D2 , entonces v = v1 + v2 , y como los eventos “la bacteria est´ en D1 ” y “est´ en D2 ” son disjuntos, resulta a a h(v) = h(v1 + v2 ) = h(v1 ) + h(v2 ). Adem´s h es creciente. El lector puede probar f´cilmente (ejercicio 2.18) que h(v) = av a a donde a es una constante. Como h(V ) = 1, debe ser a = 1/V y por lo tanto h(v) = v/V que es la proporci´n del volumen total correspondiente a D, como era de esperar intuitivamente. o Notemos ahora que estamos en la situaci´n de la binomial, con p = v/V , de modo que o gk (v) = b(k; n, v/V ). En la mayor´ de las situaciones pr´cticas, n es muy grande, y las ıa a regiones que se consideran son peque˜as comparadas con el recipiente total; de manera n que se puede tomar n → ∞ y V → ∞, con n/V → c, donde c se puede interpretar como “cantidad media de bacterias por unidad de volumen”. En estas circunstancias, por (2.17) resulta para todos los efectos pr´cticos: a gk (v) = p(k; cv). Por ejemplo, cuando se toma una muestra de sangre para hacer un recuento de gl´bulos o rojos, V y v son los vol´menes de sangre en el cuerpo y en la muestra, y n es la cantidad de u gl´bulos en el organismo, que es de varios millones (salvo en caso de una anemia galopante); o y por lo tanto se puede suponer que las probabilidades correspondientes a la cantidad de gl´bulos en la muestra se expresan mediante los coeficientes de Poisson. o

2.5.2

El proceso de Poisson temporal

Consideremos m´s en general la situaci´n de la Secci´n 2.2.1. En vez de la probabilia o o dad de que en el intervalo [0, t) no se emita ninguna part´cula, calcularemos en general ı la probabilidad de que se emitan exactamente k part´ ıculas. Para ello, definimos para k = 0, 1, . . . los eventos Ak (t1 , t2 )= {en el intervalo de tiempo [t1 , t2 ) se emiten exactamente k part´ ıculas}. Calcularemos la forma de P{Ak (t1 , t2 )}. Las suposiciones de invariancia y falta de memoria de p´gina 16 se pueden ahora traducir respectivamente as´: a ı S1) P{Ak (s, s + t)} no depende de s S2) Para todo n, cualesquiera sean t0 < t1 < t2 < . . . < tn y k1 , k2 , . . . , kn , los eventos Ak1 (t0 , t1 ), . . . , Akn (tn−1 , tn ) son independientes. A las dos suposiciones anteriores hace falta agregar la de que “las part´ ıculas se emiten de a una”, que informalmente ser´a: ı Sucesos aislados La probabilidad de que en un intervalo corto de tiempo se emita m´s de a una part´ ıcula, es despreciable comparada con la de que se emita una o ninguna.

Entonces P(Cn ) = {1−(t/n)h(t/n)}n . Como l´mn→∞ P(Cn ) = 0. i = 1. LA APROXIMACION DE POISSON Y SUS APLICACIONES Sea gk (t) = P{Ak (s. t/n → 0. ti+1 ). . ı y el de 1/c es “tiempo medio entre dos part´culas”. ı ´ e (2. Usando S2 y S1 se tiene ı P(Cn ) = (g0 (t/n) + g1 (t/n))n . y por lo tanto P(Cn ) → 1. t) en n subintervalos o de longitud t/n: [ti . . . Esto son los coeficientes de Poisson definidos anteriormente. S2 y S3. Pongamos para abreviar: h(s) = (1−g0 (s)−g1 (s))/s. s + t) es 1 − g0 (t) − g1 (t). o o Para formalizar la tercera suposici´n. y S3 implica que h(t/n) → 0. t Teorema 2. y l´ t→0 ım 1 − g0 (t) − g1 (t) = 0. con λ = ct. Descompongamos ahora gk (t) = P{Ak (0. notemos que la probabilidad de dos o m´s part´ o a ıculas en [s. Se lo usa para modelizar “sucesos” (emisiones de part´ ıculas.5. S2 y S3 se llama Proceso de Poisson temporal. entonces gk tiene la forma gk (t) = e−ct donde c es una constante. c se debe medir en segundos−1 . se n n expresa con el siguiente postulado: S3) g0 y g1 son diferenciables en 0. t) ∩ Cn } + P{Ak (0. ı El modelo descripto por S1. Como se ver´ m´s adelante o ı a a en (4.2.19) Cn = i=1 {A0 (ti . Demostraci´n del Teorema: Dado t. Sea Cn el evento “en ninguno de los n subintervalos se emite m´s de una part´cula”. ti+1 ) ∪ A1 (ti . s + t)} 23 (depende s´lo de t por S1).1. El valor de c depende de la situaci´n. con ti = (i − 1)/n. Cuando n → ∞. llegadas de clientes a una cola. La g0 es la “g” de la Secci´n 2. La idea de que esto es muy peque˜o para t peque˜o. t)} = P{Ak (0. n. su significado intuitivo es “cantidad media de part´culas por unidad de tiempo”. llamadas telef´nicas) que se producen en el tiempo en condiciones representables por o dichas suposiciones. Probaremos que l´mn→∞ P(Cn ) = 1. ct). podemos desembarazarnos del ultimo t´rmino de (2.20) . ti+1 )}. y se lo puede estimar emp´ricamente. Note que si t se mide en segundos.16). y c es la intensidad del proceso. k! (2.20).8 Si valen S1. . o sea a ı n (ct)k = p(k.´ 2. t) ∩ Cn }. se divide el intervalo [0.

ı se obtiene finalmente (2. repitiendo el razonamiento de (2. ¿Cu´l es la proporci´n de varones entre los o a o dalt´nicos?. P3 y P4 de la definici´n 1. . P(A|B) (como funci´n de A) es una o probabilidad.14). . y se puede probar que si D1 . . .1 llegan a la misma f´rmula por caminos distintos. para cada B fijo con P(B) > 0. Dm o son regiones disjuntas. a 2. son defectuosos. De esta forma se cumplen los an´logos de las suposiciones a S1 y S2 del modelo temporal. . o 2. B y C producen respectivamente el 25%.21). y n − k con 0 part´ ıculas. o o pero son en verdad equivalentes. pero con regiones del espacio en vez de intervalos de la recta. cumple P1. . el 4% de los varones y el 2% de las mujeres son dalt´nicos. o sea. Los modelos de esta secci´n y de la 2. Entonces l´mn→∞ ng1 (t/n) = ct. t) ∩ Cn } = k g1 (t/n)k g0 (t/n)n−k .22).21) Luego S3 implica (2. ı ı Tomando ahora l´mite en (2. notemos que estamos en una situaci´n an´loga a la de la Proposici´n o a o 2. ı es decir que m m l´m P ı i=1 Aki (Di ) = i=1 P(Aki (Di )) cuando n y V tienden a infinito.19). .22) N´tese que de la definici´n surge que g0 (0) = 1 y g1 (0) = 0. o ¿cu´l es la probabilidad de que sea defectuoso?. Las o o mujeres son el 53% de la poblaci´n. El evento Ak (0. entonces Aki (Di ).5 Probar que y ∅ son independientes de cualquier otro evento. Descomponiendo como en (2. el 2% de la B y el 3% de la C. P2. Si en el modelo espacial llamamos Ak (D) al evento “en la regi´n D hay k bacterias”.1. m son “independientes en el l´mite”. a 2. las m´quinas A. l´mn→∞ n(1 − g0 (t/n)) = −ct.1 Probar que. t) ∩ Cn equivale a que hay k subintervalos con una part´ ıcula. o 2. i = 1. resulta n P{Ak (0.2. la suposici´n de homogeneidad espacial o o es que P(Ak (D)) depende s´lo del volumen de D. Si de la producci´n total se elige un tornillo al azar.3 En una poblaci´n.7. o o g0 (0) = −g1 (0). El 5% de los tornillos producidos por la A.5. . a a el 35% y el 40% del total.2 En una f´brica de tornillos. 2. (2.6 Ejercicios 2.24 CAP´ ıTULO 2.4 En la situaci´n del problema 2. . PROBABILIDAD CONDICIONAL E INDEPENDENCIA Para tratar el otro. ¿qu´ proporci´n de los tornillos defectuosos proviene o e o de la m´quina A?. en el siguiente sentido. Sea c = g1 (0).18) y utilizando (2.

el m-´simo as salga en el k-´simo tiro. Quiere decidir si en la pr´xima jugada apuesta a colorado a o a negro. Se arroja una vez una moneda equilibrada. Si los 2 primeros tiros del dado dieron “rojo”. el primero sea de menta. el B tiene 2 rojas y 4 blancas. o ¿C´mo proceder racionalmente?.8 Se supone que las probabilidades de que un ni˜o nazca var´n o mujer son iguales. y n o que los sexos de hijos sucesivos son independientes.11 Se arroja repetidamente un dado para el que la probabilidad de obtener as es p. Los eventos “es un as” n y “es una carta de bastos” ¿son independientes?. Se elige al azar una ni˜a de entre todas las hijas de familias tipo. Si sale cara se arroja repetidamente el dado A. 2. ¿cu´l es la probabilidad de ”rojo” a en el tercero? c. y viceversa. Consideramos s´lo familias tipo o (dos hijos).12 Un borracho camina por la unica calle de su pueblo. ¿cu´l a e a es la probabilidad de que se encuentre en el punto de partida?. ¿cu´l es la probabilidad de que el dado sea a el A?. Si una familia tipo elegida al azar tiene (al menos) una ni˜a. o a. el B. e e 2.6 De un mazo de baraja espa˜ola se extrae una carta al azar. o Calcular la probabilidad de que: a. Despu´s de caminar 6 cuadras. el segundo caramelo extra´ sea de menta ıdo b. 2. Luego se vuelve a extraer.9 El dado A tiene 4 caras rojas y 2 blancas. se lo reemplaza por dos de lim´n. Calcular la probabilidad de que: a. ¿cu´l es la n a probabilidad de que ´sta tenga una hermana?.6. e 2. a. 2.10 Una caja contiene 6 caramelos de menta y 4 de lim´n. 2. Si A ∩ B = ∅ ¿pueden A y B ser independientes?. el as no salga jam´s a b. Si es o de menta. Calcular la probabilidad de “rojo” en el tiro k-´simo del dado e b. . EJERCICIOS 25 2. ¿cu´l es la proban a bilidad de que ´sta tenga una hermana? e b. o 2. [Este modelo se llama “paseo al azar”]. Se extrae uno al azar. si el segundo es de lim´n. Si los n primeros tiros dieron “rojo”.13 (Para polemizar) Un jugador observa en una mesa de ruleta que sale ”colorado” 80 veces seguidas. si sale ceca.7 b. a. Si A ⊆ B ¿pueden A y B ser independientes?.2. En cada esquina sigue otra ´ cuadra adelante o atr´s con probabilidad 1/2.

p) con su aproximaci´n de Poisson p(k. Se eligen al azar 9 elefantes. y k = 0. p) (“aproximaci´n del muestreo sin reemplazo por el muestreo con o reemplazo”). c. n. p) para n y p dados [ayuda: e determinar cu´ndo es el cociente b(k − 1. con reemplazo. 2. n. PROBABILIDAD CONDICIONAL E INDEPENDENCIA a. t. p = 0. np) para n = 100. entonces la probabilidad correspondiente tiende a b(k.16 En un bosque hay 100 elefantes: 50 son grises.15 En (1. 1. 2. Encontrar k que maximice p(k. probar que si N → ∞ y M/N → p. o 2. p)/b(k. æ . entonces o o h(t) = at para alguna constante a [notar que e−h(t) cumple (2. Hallar para qu´ valor(es) de k se maximiza b(k. 30 blancos y 20 rosados. procediendo como en el punto (a).10)]. n.14 CAP´ ıTULO 2.17 Comparar b(k.7).18 Probar que si h es una funci´n mon´tona tal que h(s+t) = h(s)+h(t) ∀ s. λ). p) mayor o menor que 1]. n. Calcular la probabilidad de que resulten: 4 grises. a b.01. Se arroja 12 veces un dado equilibrado. 2. 2 blancos y 3 rosados.26 2. ¿Cu´l es la cantidad de ases con mayor a probabilidad de aparecer?. 2. n.

Definici´n 3.1 Una variable aleatoria con valores en un conjunto X es una funci´n de o o → X. m´s que su o o a expresi´n expl´ o ıcita como funci´n definida en alg´n .. En general se denotar´n las variables aleatorias con letras a may´sculas: X. .2 La funci´n de distribuci´n (“FD”) de una variable X es la funci´n FX o o o o de R → R definida por: FX (x) = P(ω : X(ω) ≤ x) (o abreviadamente. Para abreviar. . El caso m´s usual es X = R. .A: Se arroja un dado 2 veces. nos referiremos a variables a aleatorias con valores reales. ω2 ∈ {1. Ejemplo 3. y las min´sculas corresponder´n a constantes (es decir. cantidades u u a no aleatorias). lo que importa de una variable es su funci´n de distribuci´n. o Mostramos a continuaci´n algunas propiedades de la FD. de modo que = {(ω1 . Ejemplos de variables definidas para este experimento son: X = “n´mero de veces que sali´ as” = card{i : ωi = 1} u o Y = “suma de los resultados” = ω1 + ω2 Z = “resultado del segundo tiro” = ω2 . M´s formalmente tenemos: a Definici´n 3. En general. El sub´ndice “X” de FX se omitir´ o u ı a si no hay ambig¨edad. . escribiremos “variable” en vez de “variable aleatoria”.Cap´ ıtulo 3 Variables Aleatorias 3. o 27 . . .1 Distribuciones La idea intuitiva de una variable aleatoria es “un valor que depende del resultado de un experimento aleatorio”. y mientras no se diga otra cosa. ω2 )} con ω1 . Se escribir´ “X ∼ F ” para indicar que la variable X tiene funci´n u a o de distribuci´n F . 6}. . Y. P(X ≤ x) ).

Se puede probar que toda funci´n con dichas propiedades es o o o la FD de alguna variable aleatoria. definiendo los eventos o An = {x − 1/n < X ≤ x + 1/n}. . o . c) Como F es mon´tona y acotada (pues 0 ≤ F ≤ 1). . 2. Se dice que X e Y tienen la misma distribuci´n si P(X ∈ A) = P(Y ∈ A) ∀ A ⊆ R.B: Se arroja una vez un dado equilibrado. 6}. todos de tama˜o 1/6. An = {X = x} y P(An ) = F (x + 1/n) − F (x − 1/n). . ım Demostraci´n: o a) Sean respectivamente A y B los eventos {X ≤ a} y {X ≤ b}. el que o ım adem´s es igual al l´ n→∞ F (n) para n entero. se o lo denota D(X) = D(Y ). Entonces: o a. 6. .5. . es {X ≤ x} = lo que implica F (x) = 1. o sea que ambas tienen la misma distribuci´n.2 es P(a < X ≤ b) = P(B − A) = P(B) − P(A) = F (b) − F (a).4. ı El otro l´ ımite se prueba usando los eventos {X ≤ −n} y el ejercicio 1. es {X ≤ x} = {1}. ∀x ∈ R : P(X = x) = l´mt→x+ F (t) − l´mt→x− F (t) (el “salto” de F en x) ı ı e. existe el l´ x→∞ F (x). . Entonces P(X = 1) = P(Y = 1) = 0. y adem´s n An = . . Entonces por P4 de la Definici´n 1. de modo que F (x) = P({1}) = 1/6. . b) Por (a): F (b) − F (a) = P(B − A) ≥ 0. Se toma = {1. . ∀x ∈ R : F (x) = l´ t→x+ F (t) (“continuidad por la derecha”). Basta probar que este ultimo l´ a ım ´ ımite es 1. Para ello consideremos la sucesi´n de eventos An = {X ≤ n}. n Si F es una funci´n que cumple las propiedades b. Para calcular la FD de X. l´ x→−∞ F (x) = 0 ım ım d. los cuales cumplen o An ⊆ An+1 . y o sin embargo no ser iguales. pero P(X = Y ) = 0. es {X ≤ x} = ∅ y por lo tanto F (x) = 0. e Ejemplo 3. d) Se razona igual que en la demostraci´n de (c). y por el ejercicio 1. Por lo tanto F es una ”escalera” con saltos en x = 1. Finalmente si x ≥ 6.3 Sea F la FD de X. . sean X = 1 si sale cara. . Dos variables X e Y definidas en el mismo pueden tener la misma distribuci´n. notemos que si x < 1. que cumplen: An ⊇ An+1 . se dice que F es o una funci´n de distribuci´n. a < b =⇒ F (a) ≤ F (b) (“F es no decreciente”) c. l´ x→∞ F (x) = 1.1 es P( ) = a o ı l´mn→∞ P(An ) = l´mn→∞ F (n). . a < b =⇒ P(a < X ≤ b) = F (b) − F (a) b. e Y = 1 − X. Si 1 ≤ x < 2. VARIABLES ALEATORIAS Proposici´n 3. n e) Se demuestra con el mismo m´todo. c y e anteriores. Sea la variable X el resultado. X = 0 si no.28 CAP´ ıTULO 3.etc. Por ejemplo: se arroja una vez una moneda equilibrada. Entonces A ⊆ B.

Desde ahora se la abreviar´ como Bi(n. p) = 1.1) (3.1): A = (−∞. . como la distribuci´n de la cantidad de “´xitos” en un esquema de o e Bernouilli. t] resulta P(X ∈ A) = P(X ≤ t) = FX (t) = pX (x). pX (x) = 1. o sea o a n b(k. a Si A es cualquier conjunto. si A ⊆ es un evento con probabilidad p. Dado que los p(x) corresponden a a la distribuci´n de una variable. Entonces es f´cil verificar que si A ⊆ R: a P(X ∈ A) = En particular.2).2). finito o o o infinito numerable.3.4 La variable X tiene distribuci´n discreta si hay un conjunto C ⊆ R.2) Tomando en (3. Sea para x ∈ C: pX (x) = P(X = x). En el o . En particular. DISTRIBUCIONES 29 3. por lo ıa ´ cual se prefiere el de “indicador”. p) = n px (1 − p)n−x (x = 0. k=0 (3. En An´lisis se la suele llamar ”funci´n caracter´stica” o a o ı de un conjunto. n). de tama˜o pX (x).13). o o Una distribuci´n discreta est´ dada por un conjunto finito o infinito numerable C ⊆ R o a y una funci´n p(x) ≥ 0 definida para x ∈ C. La funci´n pX de C en [0.3) se puede obtener haciendo el desarrollo del binomio o 1 = [p + (1 − p)]n (lo cual explica adem´s el nombre de “binomial”). o Distribuci´n binomial con par´metros n y p: o a Distribuciones discretas importantes (todas con C ⊆ Z+ ) p(x) = b(x.1. P(X = 0) = 1 − p. x≤t y por lo tanto FX es una escalera con saltos en los x ∈ C. que cumpla (3.1. 1. .3) Una verificaci´n algebraica de (3. p). . n.1 Distribuciones discretas Definici´n 3. x Aparece en (2. se llama indicador de A –y se lo escribe IA o I(A)– a la funci´n que vale 1 en A y 0 en A . p). con distribuci´n Bi(1. pero en Teor´ de Probabilidad este ultimo nombre recibe otro uso. . 1] es llamada funci´n de frecuencia.B. X = IA es una variable discreta con P(X = 1) = p. o sea. x∈A∩C (3. x∈C pX (x). como se vio n en el ejemplo 3. autom´ticamente cumplen (3. n. tal que P(X ∈ C) = 1.

Se la indicar´ con Po(λ).2). n ≤ N): o e a p(x) = M x N −M n−x .16) y ejercicio 2.7) Si se extraen n bolillas sin reemplazo de entre N bolillas. Para ello basta ıa e con derivar m veces la identidad (3.4) y por lo tanto toda variable con distribuci´n binomial se puede expresar como suma de o indicadores. Se la indicar´ con Hi(N.2). p) = m − 1 pm (1 − p)x−m −1 (x ≥ m).15).C). M )). 1): o e a p(x) = p(1 − p)x−1 (x ≥ 1). n). si Ai es el evento “´xito en el intento i-´simo”y X es la cantidad e e de ´xitos en n intentos. de las cuales exactamente M son blancas. M. (3. de modo que la geom´trica es el caso particular e m = 1. es la distribuci´n del n´mero del intento en que se da por primera vez un ´xito o u e en el esquema de Bernouilli. N n (3. 1] y m ∈ Z+ : o a x p(x) = p b(m − 1. (0 ≤ x ≤ m´ ın(n. x! Aparece en el proceso de Poisson temporal como la distribuci´n de la variable “cantidad de o sucesos en el intervalo [0. t)”. Es f´cil verificar (3. El nombre “hipergeom´trica” tiene un a e origen ajeno a la Teor´ de Probabilidad. Es f´cil probar que cumple (3.30 CAP´ ıTULO 3. o Distribuci´n geom´trica con par´metro p ∈ (0.2) recordando a a la serie de Taylor para la funci´n exponencial. pues podr´ ser que nunca hubiera m ´xitos. En (2. (3. x − 1.6) Es la distribuci´n de n´mero del intento correspondiente al m-´simo ´xito en un esquema o u e e de Bernouilli (ver (2. ıa .11). es e n X= i=1 IAi . Distribuci´n de Poisson con par´metro λ: o a p(x) = e−λ λx (x ≥ 0).5) Distribuci´n binomial negativa con par´metros p ∈ [0. Distribuci´n hipergeom´trica con par´metros N. entonces esta es la distribuci´n de la cantidad de bolillas blancas extra´ o ıdas (Ejemplo 1. a a recordando que ∞ x=0 (1 − p)x = p−1 . M. Se la indicar´ con Ge(p). Es necesario probar (3.5). n (M ≤ N. VARIABLES ALEATORIAS esquema de Bernouilli. (3.

Un uso m´s interesante es la generaci´n a o computacional de n´meros “pseudoaleatorios” (Secci´n 3. que sin embargo no son la primitiva de o ninguna funci´n [7. n2 − n1 + 1 Ejemplos simples son los juegos de azar ”honestos”: un tiro de un dado equilibrado (n1 = 1.2) se puede razonar en forma “probabil´ ıstica” como en el caso binomial: dado que los p(x) corresponden a la distribuci´n de una variable aleatoria.9) fX (x) dx = 1. no implica que la distribuci´n de X sea absolutamente o o continua: hay funciones mon´tonas y continuas. a a o resuelva el ejercicio 1. u o 3.1. y su o o derivada es fX (x) en todos los x donde fX es continua. a FX (x) = −∞ ∞ fX (t) dt ∀ x. Si quiere una verificaci´n puramente algebraica.2) est´ autom´ticamente garantizada. y por lo o tanto P(X ≤ x) = P(X < x). −∞ Aplicando en (3. Distribuci´n uniforme discreta en el intervalo [n1 . (3. Sin embargo.5 Una variable X tiene distribuci´n absolutamente continua si existe una o o funci´n fX : R → R+ –llamada densidad de X– tal que o P(X ∈ A) = A fX (x) dx ∀ A ⊆ R. n2 = 36). Vol. II. DISTRIBUCIONES 31 Para verificar (3. o o .9) el Teorema Fundamental del C´lculo Integral.3.18. se deduce que para todo x. se suele hablar simo plemente de “distribuciones continuas”. sec. I. no es lo mismo una funci´n de o o distribuci´n continua que una “distribuci´n (absolutamente) continua”. n2 ] (con n1 ≤ n2 ): o p(x) = 1 (n1 ≤ x ≤ n2 ). se obtiene que para a una distribuci´n absolutamente continua. hay que tener en cuenta que el hecho de que FX sea una funci´n continua.3.11]. la validez de o (3. b] resulta para todo intervalo: b P(a < X ≤ b) = Si se hace a = −∞ queda y por lo tanto x fX (x) dx.2 Distribuciones continuas Definici´n 3.1.2.1). (3.8) En particular. FX (x) es una funci´n continua para todo x. tomando A = (a. De la continuidad de FX y de la propiedad (d) de la Proposici´n 3. es P(X = x) = 0. Como la expresi´n “absolutamente continua” es demasiado larga. Por lo tanto. n2 = 6) o de ruleta (n1 = 0.

32

CAP´ ıTULO 3. VARIABLES ALEATORIAS

Se puede probar que (3.9) implica (3.8), pero la demostraci´n no es elemental. o ∞ Si f es cualquier funci´n que cumple f ≥ 0 y −∞ f(x) dx = 1, se dice que f es una o densidad. El n´mero fX (x) no es la probabilidad de nada (podr´a incluso ser > 1). Sin embargo, u ı se le puede hallar una interpretaci´n intuitiva cuando fX es continua. En ese caso o P(x − δ < X < x + δ) = 2δfX (x) + o(δ), donde “o” es un infinit´simo de orden mayor que δ; de manera que fX (x) sirve para e aproximar la probabilidad de un “intervalito” alrededor de x. El sub´ndice “X” se omitir´ de fX cuando no haya lugar a confusi´n. ı a o

Distribuciones continuas importantes
Distribuci´n exponencial con par´metro α > 0: tiene funci´n de distribuci´n o a o o F (t) = 1 − e−t/α si t ≥ 0, y por lo tanto su densidad es f (t) = 1 −t/α e si t ≥ 0, α f (t) = 0 si t < 0, (3.10) F (t) = 0 si t < 0,

Distribuci´n uniforme (o rectangular) en el intervalo [a, b]. Se define por su densidad: o f(x) = 1 si a ≤ x ≤ b; f (x) = 0 si no; b−a

o, m´s compactamente: f(t) = α−1 e−t/α I(t ≥ 0), donde I es el indicador. Se denotar´ a a a esta distribuci´n con Ex(α). o En la Secci´n 2.2.1, sea la variable T el instante en que se emite la primera part´cula o ı despu´s del instante 0. Entonces all´ se dedujo que P(T ≥ t) = e−ct , y por lo tanto e ı T ∼ Ex(1/c).

o, m´s compactamente, f (x) = (b − a)−1 I(a ≤ x ≤ b). Se la indicar´ con Un(a, b). Cuando a a se hable de “elegir un punto al azar” en un intervalo, se referir´ siempre a la uniforme si a no se dice otra cosa. La aplicaci´n m´s importante se ver´ en generaci´n de n´meros aleatorios, en la Secci´n o a a o u o 3.2.1. Otra situaci´n donde se podr´ aplicar es: el tiempo de espera de un pasajero que o ıa llega a la parada de un tranv´ del que sabe que pasa exactamente cada 10 minutos, pero ıa ignora el horario. Una representaci´n de esta ignorancia podr´ obtenerse suponiendo que o ıa el tiempo de espera tiene distribuci´n uniforme en (0,10). o Distribuci´n normal (o Gaussiana) Se define primero la densidad normal t´pica (o stano ı dard) como 2 1 ϕ(x) = √ e−x /2 . 2π

3.1. DISTRIBUCIONES

33

Obviamente es ϕ > 0. Para verificar que es una densidad, falta comprobar que −∞ ϕ = 1. (El lector no habituado a integrales dobles puede hacer un acto de f´ y seguir de largo). e 2 ∞ Sea a = −∞ e−x /2 dx. Hay que probar que a2 = 2π. Para ello, notar que

a2 =
−∞

e−x

2

∞ /2

dx
−∞

e−y

2

∞ /2

dy =
−∞ −∞

e−(x

2

+y2 )/2

dx dy;

y tomando, en la integral doble, coordenadas polares (r, φ) queda
2π ∞

a2 =
0


0

e−r

2

/2

r dr = 2π.

Desde ahora se indicar´n con ϕ y Φ la densidad normal t´pica y la correspondiente funci´n a ı o de distribuci´n. La funci´n Φ no se puede calcular en forma expl´ o o ıcita, pero en el Ap´ndice e al final del libro hay una tabla de la misma. Se define la distribuci´n normal con par´metros µ ∈ R y σ2 (con σ > 0) –y se la o a escribe N(µ, σ2 )– a la distribuci´n definida por la densidad o 1 ϕ σ as´ que la normal t´ ı ıpica es N(0, 1). Distribuci´n de Weibull con par´metros α > 0 y β > 0 : tiene funci´n de distribuci´n o a o o F (t) = (1 − e−(t/α) ) I(t ≥ 0).
β

x−µ σ

,

(3.11)

Se la denotar´ We(α, β). Es usada en Confiabilidad para modelizar tiempos de falla, y en a Hidrolog´ para distribuciones de valores extremos. Para β = 1 se tiene la exponencial. ıa Distribuci´n Gama con par´metros β y α. Primero definimos la funci´n Gama: o a o

Γ(s) =
0

us−1 e−u du,

s > 0.

Es f´cil verificar integrando por partes que Γ(s + 1) = sΓ(s). Como Γ(1) = 1, resulta a Γ(n) = (n − 1)! para n natural, de modo que esta funci´n generaliza el factorial. Ahora se o define la densidad de la distribuci´n Gama: o f (t) = 1 αΓ(β) t α
β−1

e−t/α I(t ≥ 0).

(3.12)

Se la indicar´ Ga(α, β). Contiene a la exponencial como el caso β = 1. Se usa para a modelizar tiempos de espera. En el proceso de Poisson con intensidad c, sea T el instante en que se produce el m-´simo suceso. Dado t > 0, sea N la cantidad de sucesos en el e intervalo [0, t]. Entonces T > t ⇐⇒ N < m, y como N ∼ Po(ct), es
m−1 m−1

1 − FT (t) = P(T > t) =

p(k; ct) = e−ct
k=0 k=0

(ct)k , k!

34 y derivando se obtiene la densidad de T :

CAP´ ıTULO 3. VARIABLES ALEATORIAS

f(t) = ce−ct y por lo tanto

(ct)m−1 , (m − 1)!

(3.13)

En la Secci´n 10.2.2 se ver´ el papel de la distribuci´n Gama en Estad´ o a o ıstica.

T ∼ Ga(1/c, m).

(3.14)

3.1.3

Mezclas

Consideremos dos especies de peces. La longitud de los de la primera tiene distribuci´n o G1 , y los de la segunda G2 . Si nadan mezclados por el mar, en proporciones 10% y 90%, entonces la distribuci´n de la longitud L de un pez capturado al azar de la poblaci´n o o conjunta se obtiene por la regla de Probabilidad Compuesta. Sean A1 y A2 los eventos de que el pez pertenezca a la especie 1 o la 2. Entonces FL (t) = P(L ≤ t) = P(L ≤ t|A1 ) P(A1 ) + P(L ≤ t|A2 ) P(A2 ) = αG1 (t) + (1 − α)G2 (t), con α = 0.1. Esto se llama mezcla de G1 y G2 . Si ambas son continuas, tambi´n lo es e su mezcla; lo mismo sucede si son discretas. Pero si son una discreta y otra continua, la mezcla no es ninguna de las dos cosas. Ejemplo 3.C: Datos censurados El tiempo de duraci´n de una l´mpara tiene funci´n o a o de distribuci´n G con densidad g. La l´mpara es reemplazada cuando se quema, o cuando o a ha funcionado por h horas (lo que suceda primero). Sea T el tiempo hasta el reemplazo. Entonces FT (t) = G(t) si t < h, y FT (t) = 1 si t ≥ h; de modo que FT es continua hasta h, pero tiene un salto en h, de tama˜o 1 − G(h). Esto se llama una distribuci´n censurada n o por la derecha. Esta es una de mezcla de una distribuci´n continua con una discreta: o FT = pG1 + (1 − p)G2 , donde p = G(h), G1 es la distribuci´n con densidad g(x)I(x < h)/p, o y G2 es la distribuci´n concentrada en h : G2 (t) = I(t ≥ h). De manera que aqu´ tenemos o ı un ejemplo concreto de una distribuci´n que no es ni continua ni discreta. o Aqu´ los datos mayores que h no se sabe cu´nto valen, pero se sabe que est´n. Hay ı a a situaciones en que los valores fuera de un intervalo no llegan a dar se˜as de que existen n (ejercicio 3.7). Esas son distribuciones truncadas.

3.2

Transformaciones de variables aleatorias

Sean X una variable, h una funci´n de R en R, e Y = h(X). ¿C´mo calcular FY conociendo o o FX ?. Al menos en un caso hay una respuesta simple. Sea I un intervalo (finito o infinito, puede ser I = R) tal que P(X ∈ I) = 1, y que h sea creciente y continua en I. Entonces existe la inversa h−1 , que es tambi´n creciente, y por lo tanto e FY (y) = P(Y ≤ y) = P(h(X) ≤ y) = P(X ≤ h−1 (y)) = FX (h−1 (y)). (3.15)

pero es creciente o decreciente por trozos.15) implica que para y ∈ (0.5 si u < 0. pero se ve enseguida que para z ∈ [0. y en consecuencia FX (X) ∼ Un(0. se puede obtener. y FX es continua. 1 − u) = a u 1−u si u ≥ 0. si X ≥ 0 e Y = X 2 . ¿D´nde est´ el error?. y (3. entonces Z es. |h [h−1 (y)]| (3. 1) es −1 FY (y) = FX (FX (y)) = y. de modo que la densidad es fZ (z) = 2 I(0. dy h [h−1 (y)] 35 (3. σ2 ) ⇐⇒ X −µ ∼ N(0. que contiene al punto 0.15) sale. lo mismo debe suceder con Z”. Si h es decreciente.19) Si h no es mon´tona. Notemos que Z ∈ [0.17).5. Otra manera de pensarlo ser´ as´: “si Z = m´x(U. 1 − U). o a . σ (3. 1).5 ≤ z ≤ 1). ıa ı a o bien 1 − U . fY (y) = [fX (y) + fX (−y)] I(y ≥ 0). ¡Pero esto no coincide con lo obtenido anteriormente!. de (3. 1). Por ejemplo. para y ≥ 0: FY (y) = P(−y ≤ X ≤ y) = FX (y) − FX (−y). Y = FX (X) toma valores en [0. 1). U ). Z ∼ Un(0.16) Note que no es necesario que h sea creciente en todo R. Entonces. y como ambas son Un(0. 1] es o ı P(Z ≤ z) = P(U ≤ z ∩ 1 − U ≤ z) = z − (1 − z) = 2z − 1. 1]. el mismo razonamiento muestra que fY (y) = fX [h−1 (y)] . 1). donde h(u) = m´x(u. Esta h no es mon´tona (graf´quela).15) sale f´cilmente que a X ∼ N(µ. 1). Ejemplo 3. Se trata de calcular D(Z).17) Por ejemplo. 1].5.15) porque h es creciente en R+ .15) es cuando h = FX . derivando. y por lo tanto. esto muestra que D(1 − U) = D(U ) si U ∼ Un(0. De (3. y sea Z la longitud de aquel de los segmentos (0. requiriendo cada caso un an´lisis particular y m´s paciencia. TRANSFORMACIONES DE VARIABLES ALEATORIAS Si X tiene distribuci´n continua.5.5.2. (U. si a a Y = |X|. 1). y FX es creciente y continua.18) Un caso particular importante de (3.3. Por ejemplo. se puede usar la idea o de (3.5. se puede aplicar (3. o bien U . o sea.D: Sea U ∼ Un(0. y que Z = h(U ). y si h es diferenciable. 1). (3. que o fY (y) = fX [h−1 (y)] dh−1 (y) fX [h−1 (y)] = .

Por ejemplo. 1). 3.21) En particular. 2]. β). es o . se puede hacer que genere n´meros u “seudoaleatorios” –que no son aleatorios. Entonces P(X ≤ x) = P(U ≤ F (x)) = F (x). y c es un par´metro a de escala. Abundante informaci´n sobre la generaci´n de o o o n´meros seudoaleatorios se puede encontrar en [15] y [12. Suponiendo entonces que contamos con una variable U ∼ Un(0. o Una posibilidad es usar (3. pero pr´cticamente o a indistinguible de Un(0. Sea F una funci´n de distribuci´n continua y e o o creciente.20) e es equivalente a F (c + x) + F (c − x) = 1 y f (c + x) = f (c − x) ∀x. (3. Si en cambio se eligiera a una de las dos al u azar sin fijarse en el valor de U . Vol. 1) (ejercicio 3.E: Weibull La Weibull se puede expresar como una familia de escala y posici´n tomando logaritmos.14. Es inmediato que si X tiene densidad f y FD F . y la normal es de escala y posici´n. En efecto. la cuesti´n es c´mo o o obtener de ella una variable con distribuci´n F dada cualquiera. ϕ(x) = e o ϕ(−x).2. VARIABLES ALEATORIAS La falla de este razonamiento est´ en que Z es una de U o 1 − U . si F es o o continua y creciente. Si bien la como putadora es (generalmente) un aparato determinista. Una distribuci´n que cumple o D(X − c) = D(c − X). o Ejemplo 3. 1]. En realidad.19) al rev´s.17) es f´cil probar que si X tiene densidad f . si X ∼ F = We(α. se trata de una distribuci´n discreta.1 Aplicaciones a simulaci´n o ¿C´mo simular en una computadora situaciones donde interviene el azar?. (3. y definamos X = F −1 (U). lo que muestra que U ∼ Un(0. N(µ.22) De esta forma se pueden obtener variables con funci´n de distribuci´n F dada. 1) =⇒ F −1 (U) ∼ F. y a X + c ∼ f (x − c). o sea. (3. 1). pero no “una a cualquiera”: se la elige seg´n el valor de U . ıa De (3. o o La exponencial es una familia de escala.4). el resultado seguir´ siendo Un(0. (3. pero lo parecen– que podemos tomar como valores de variables con distribuci´n Un(0. Una familia de la forma f (x) = f0 (x − c) es una familia de posici´n o traslaci´n. σ2 ) es sim´trica respecto de µ por ser ϕ una funci´n par. para generar la distribuci´n Ex(α). entonces cX ∼ |c|−1 f (x/|c|). entonces Y = ln X tiene o y FD: G(y) = F (ey ) = H((y − µ)/σ) donde H(y) = 1 − e−e .36 CAP´ ıTULO 3. ver el ejercicio 3.20) se llama sim´trica respecto de c. Una familia de distribuciones f de la forma f (x) = c−1 f0 (x/c) para c > 0 –donde f0 es una densidad dada– se llama familia de escala. Nuestro punto de partida u es que se cuenta con un generador de n´meros aleatorios: un algoritmo que produce una u sucesi´n de n´meros que se pueden considerar como aleatorios con distribuci´n uniforme o u o en el intervalo [0. 1). µ = ln α y σ = 1/β.

Y ” se omitir´ cuando no haya lugar a confusi´n. Y ) ∈ A) ∀ A ⊆ R2 . conociendo su funci´n de distribuci´n se puede calcular f´cilmente la probabilidad o o a de un intervalo (propiedad (a) de Prop. Y ) ∈ A) = o P((X . Y ) ∈ C) = 1. Pero e o no siempre es pr´ctico calcular F −1 . tal que P((X. x] × (−∞.Y (x.´ 3.3. y) = P((X.24) Demostraci´n: Basta con descomponer el rect´ngulo (a. Definici´n 3.6 La funci´n de distribuci´n conjunta de (X. a Proposici´n 3. Pero tambi´n puede ser m´s eficiente usar caracter´ e a ısticas particulares de las distribuciones.Y (x. podemos considerarlas como un par de variables. (3. 37 (3. o Para distribuciones discretas. y pX. As´ como en el caso de una a o ı variable.Y (x.16).18 y 3. Y ). Y (w)). o como una funci´n que a cada ω ∈ le asigna el punto del plano de coordenadas o (X(w).7 Si a < b y c < d. y por lo tanto se puede definir X = − ln(1 − U )α. 3. En tal caso se usar´ la notaci´n a o pX. y) = P(X ≤ x ∩ Y ≤ y). Se lo escribe D(X. d] en “rect´ngulos semio a a infinitos” como los que aparecen en la definici´n de F : o P(a < X ≤ b ∩ c < Y ≤ d) = P(X ≤ b ∩ c < Y ≤ d) − P(X ≤ a ∩ c < Y ≤ d). y]. es o P(a < X ≤ b ∩ c < Y ≤ d) = F (b. se llega al resultado. y) = P(X = x ∩ Y = y) para (x.Y . y en esos casos conviene usar m´todos que usan a e propiedades espec´ ıficas de la F que interesa. DISTRIBUCION CONJUNTA DE VARIAS VARIABLES F −1 (u) = − ln(1 − u)α.23) Este m´todo se puede extender te´ricamente para F cualquiera (ejercicio 3. y descomponiendo de la misma forma cada uno de los dos t´rminos. . El a subindice “X. Y tienen la misma distribuci´n conjunta que X . Y ) es una funci´n de R2 → R: o o o o FX. 3. Y ) es discreta si existe un conjunto C ⊆ R2 finito o o infinito numerable. o sea.3). y) ∈ C. Un procedimiento para la normal se ver´ en a la Secci´n 5. Y ) = D(X . c). La distribuci´n conjunta de (X.19. c) + F (a. el siguiente resultado da para dos variables la probabilidad de cualquier rect´ngulo a partir de FX.Y ser´ llamada funci´n de frea o cuencia conjunta. b] × (c. O sea. si P((X.3 Distribuci´n conjunta de varias variables o Si X e Y son dos variables definidas en el mismo . e Se dice que X.3. como en los ejercicios 3. d) − F (b. el lector puede f´cilmente encontrar un m´todo general a e (ejercicio 3. d) − F (a. Y ) ∈ A) donde A es el “rect´ngulo” (−∞. Y . FX. una variable aleatoria con valores en R2 .20).

Y ) ∈ A) = y en particular p(x. o cualquiera de las m variables puede ser expresada en funci´n de las restantes. . pnm . . y) ≥ 0 y CAP´ ıTULO 3.31) Ejemplo 3. y) dx dy = A ∞ −∞ ∞ f (x. Esta es la distribuci´n multinomial. Nm –obviamente discreta– est´ dada por o a P(N1 = n1 ∩.29) Tomando A = (−∞. .Y : R2 → R+ o o –llamada densidad conjunta de X. (i = 1. Y ) ∈ A) = Tomando A = R2 resulta f (x. . ∂x ∂y (3. Y ) es continua si existe una funci´n fX. y) IA (x. . y) dx dy. . . Sea Ni . con o o probabilidades p1 . (3. b (3. (3. m) la cantidad de individuos muestreados del estrato i.32) . . y) = 1.16).y)∈C (3.25) p(x. −∞ (3. y) ∀ A ⊆ R2 . . y). x] × (−∞.F: Distribuci´n multinomial Una poblaci´n se divide en m estratos. La distribuci´n conjunta de N1 . . VARIABLES ALEATORIAS (x.38 De la definici´n sale o P((X.∩ Nm = nm ) = n! pn1 . . . Se toma una muestra de n individuos con reposici´n (ver ejero cicio 2. La distribuci´n conjunta de (X. y) donde f es continua. y) = en todos los (x. ∂ 2 F (x. Y – tal que para todo A ⊆ R2 P((X.30) y derivando se tiene f (x. 2. Se define la distribuci´n uniforme en B mediante la densidad o f(x. (x.28) f (x. .y)∈A∩C p(x. nm ! 1 m 0 ≤ ni ≤ n. (3. Como i Ni = n.27) i=1 que se deduce como la Prop.26) Ejemplo 3.G: Distribuci´n uniforme bivariada Sea B cualquier regi´n del plano. y) = 1 IB (x. con o o a ´rea b < ∞. . . m n1 ! . y) dxdy = 1. . t) ds dt.Y (s. (3. ni = n. La binomial o corresponde a m = 2. .Y (x. y) = −∞ −∞ fX. y] se obtiene y x FX. . y) . pm .7.

12 llamamos Xn a la posici´n del borracho despu´s de andar n cuadras. pues contiene o a o informaci´n sobre la “dependencia” entre las variables. xm ) dx2 . en el segundo. . a ahora las funciones de distribuci´n. . los cantos de las monedas est´n soldados. dxm . El lector puede verificar que son distintas. Por ejemplo. En el caso continuo: fX (x) = y pX. en el proceso de Poisson sea para a cada t la variable Xt igual a la cantidad de sucesos hasta el instante t.3. la densidad marginal de X1 es ∞ ∞ fX1 (x1 ) = −∞ . de la siguiente manera: Proposici´n 3. x2 .´ 3.Y (x. llamadas procesos estoc´sticos. Y ). Las distribuciones de X y de Y se llaman marginales de D(X. en el caso continuo a con densidad conjunta f. Por ejemplo. distinguibles. Y ). o El tratamiento de m variables X1 . .Y (x.3. La distribuci´n conjunta contiene m´s informaci´n que las marginales.. en el tercero. .3. Estos tres casos describen tres distribuciones conjuntas de (X. En muchos modelos se trata no con conjuntos finitos sino con familias infinitas de variables. . y otras m´s complicadas (ejercicio 5. con las dos “caras” hacia el a mismo lado. pero tienen todas las mismas marginales: P(X = 1) = P(X = 0) = P(Y = 1) = P(Y = 0) = 0. o e esto es un ejemplo de proceso estoc´stico con tiempo discreto. se arroja a cada moneda separadamente. Conocer las marginales no implica conocer la distribuci´n conjunta. −∞ f (x1 .. . y).Y (x. y) dy.H: Se arrojan dos monedas equilibradas. y). Consideremos tres casos: en el primero. ∞ −∞ Demostraci´n: El primer resultado se prueba igual que (c) de Prop. . Y ). . o Distribuciones marginales Conociendo la distribuci´n conjunta de (X. Xm es an´logo. . puede haber situaciones a mixtas. DISTRIBUCION CONJUNTA DE VARIAS VARIABLES 39 Si bien los casos discreto y continuo son de lejos los m´s usuales.8 o a. . se pueden calcular la distribuci´n de X y o o la de Y . Si en el paseo al a azar del ejercicio 2. . a El tratamiento de distribuciones conjuntas de m variables es completamente an´logo. El segundo es o trivial. 3. como se ver´ a continuaci´n.3. o a o Ejemplo 3. La familia {Xt : t ∈ R} es un ejemplo de proceso estoc´stico con tiempo continuo. la variable X es el indicador de que salga cara en la primera moneda.12). Un ejemplo importante se a puede ver en la Secci´n 7. fX. de frecuencia o de densidad depender´n de m arguo a mentos.5. En el caso discreto: pX (x) = c. En general: FX (x) = l´ y→∞ FX. idem Y en la segunda. lo mismo pero las caras est´n opuestas. El tercero se deduce calculando primero FX y luego derivando. ım b.

y) = g(x)h(y) (caso discreto) f (x. Ejemplo 3. Tomando A = (−∞. y T la cantidad de intentos entre el u e primer y el segundo ´xitos. y) ∈ C.35) se cumple.33) La implicaci´n inversa es tambi´n v´lida.9 Las variables X e Y son independientes si para todo A. (3. En efecto. Este insignificante detalle puede ahorrar muchas cuentas.35) En efecto. y) = g(x)h(y) (caso continuo). y) se pueden factorizar como alguna funci´n de x por alguna o de y. es decir a P(S = s ∩ T = t) = p2 (1 − p)s+t−2 = p(1 − p)s−1 p(1 − p)t−1 . o sea. lo que corresponde a la idea intuitiva de que el proceso no e tiene memoria. VARIABLES ALEATORIAS 3. siendo innecesario verificar que se trata de las funciones de frecuencia o de densidad marginales. B ⊆ R.40 CAP´ ıTULO 3. y) o f (x.Y (x.I: Tiempos de espera: Bernouilli En el esquema de Bernouilli sea S el n´mero del intento en que se produce el primer ´xito.34) (3. La independencia de X e Y equivale a que existan funciones g y h tales que p(x. que haya ´xitos en los intentos s y s + t y fracasos e en los dem´s. Como si eso fuera poco.33) se verifica f´cilmente que la independencia de X e Y equivale en el caso a discreto a pX. que es una funci´n de s por una de t. Adem´s o a se deduce que T tiene la misma distribuci´n que S. y] se deduce que la independencia implica FX. e a La noci´n de independencia se extiende en forma natural para cualquier conjunto finito o o infinito de variables.Y (x. Mostraremos que S y T son independientes.4 Independencia de variables aleatorias Definici´n 3. Por lo tanto. o e a o Usando (3. resulta sin hacer ninguna cuenta que la suma de dos geom´tricas independientes con el mismo par´metro es binomial negativa. (3. para verificar independencia basta comprobar que p(x. y por lo tanto S y T son independientes. integrando respecto de y se deduce que fX (x) = cg(x) donde c es una constante. si (3. y lo mismo con fY . de modo que U = S + T es el intento en que se da el segundo e ´xito. o sea Ge(p). y) = fX (x)fY (y). el evento {S = s ∩ T = t} e equivale a {S = s ∩ U = s + t}. y en el continuo a fX. pero la demostraci´n no es elemental. .Y (x. x] y B = (−∞. y en consecuencia los o tiempos de espera entre ´xitos sucesivos tienen la misma distribuci´n que el tiempo entre e o el comienzo y el primer ´xito. los eventos o {X ∈ A} e {Y ∈ B} son independientes. y) = pX (x) pY (y) si (x. y) = FX (x)FY (y).

Para probarlo. . . Y1 e Y2 son independientes. X2 e independientes. Yi = ui (Xi ) (i = 1. (i = 1. . . 1) independientes. . . . los eventos {Xi ∈ Ai }(i = 1.3. . usamos la definici´n: sean A1 . . . . M´s en general: a Proposici´n 3. o Esto nos permite completar el concepto de un generador (idealizado) de n´meros aleatou rios (Secci´n 3. Si dos variables son independientes. T : fS. las funciones de ellas tambi´n lo son. t) = c2 e−ct I(s < t). Dados s < t. derivando (3. u1 . (sucesi´n infinita) son independientes si para todo m.36) . Como por el ejercicio 1. INDEPENDENCIA DE VARIABLES ALEATORIAS 41 Definici´n 3. . La demostraci´n de esta Proposici´n no o o es elemental. .J: Tiempos de espera: Poisson Sean S y T los instantes correspondientes al primero y al segundo suceso en un proceso de Poisson con intensidad c. Entonces. Entonces Y1 e Y2 2 son independientes. . son X1 . o Sea la variable Xt la cantidad de part´culas emitidas hasta el instante t.3 es FS. .10 Las variables X1 . Xm ). y sean Bi = {x : ui (x) ∈ Ai }. . Por ejemplo. Entonces P(S > s ∩ T > t) = P(Xs = 0 ∩ Xt ≤ 1) = P(Xs = 0 ∩ Z ≤ 1) = e−cs ec(t−s) (1 + c(t − s)). . . Las variables Xi .4. . u2 dos funciones de R → R. . .11 Sean las Xi independientes (i = 1. de modo que ı la cantidad de part´ ıculas entre los instantes s y t es Xt − Xs para s < t. . Xm independientes. n). . . . X1 + X2 es independiente de X3 X4 . 2). . Am ⊆ o R. 2). . . A2 ⊆ R cualesquiera. sea m < n. 2. donde u1 y u2 son funciones de m y de n − m variables. como un algoritmo capaz de producir una sucesi´n infinita de variables o o Un(0. . . o Entonces P(Y1 ∈ A1 ∩ Y2 ∈ A2 ) = P(X1 ∈ B1 ∩ X2 ∈ B2 ) = P(X1 ∈ B1 ) P(X2 ∈ B2 ) = P(Y1 ∈ A1 ) P(Y2 ∈ A2 ). Entonces. . Xm son independientes si para todo A1 . Xs y Z = Xt − Xs son independientes con distribuciones Po(cs) y Po(c(t − s)).36) se obtiene la densidad conjunta de S. m) son independientes. .T (s. . (3.T (s. y sean Y1 = o u1 (X1 . Y2 = u2 (Xm+1 . Sean X1 . t) = 1 − P(S > s ∪ T > t) = FS (s) + FT (t) − 1 + P(S > s ∩ T > t).2. Calcularemos la distribuci´n conjunta de S y T . Ejemplo 3. . Por ejemplo. . n − 1) o o son independientes. i = 1.1). la condici´n (S2) de dicha secci´n equivale a que las variables Xti+1 − Xti (i = 1. X1 y cos X2 son independientes. Xn ).

1) entonces X 2 tiene distribuci´n Ga(2. o a 3. Un bi´logo quiere estimar f y para ello captura o peces con una red.10 Se corta una varilla de mimbre en un punto al azar. b. IB ). Supongamos que en cambio se arroja un dado.6 La poblaci´n de un pa´ est´ compuesta por 40% de pigmeos y 60% de watusis.1 Calcular la funci´n de distribuci´n de la geom´trica. donde U ∼ Un(0. 1). Sea Z la longitud de aqu´l de los intervalos (0. b). o ıs a La estatura de los primeros (en cent´ ımetros) tiene distribuci´n N(120. o o e 3. σ2 ). Secci´n 3. U ) o (U.2.5 Ejercicios Secci´n 3. b. a.8 Si X ∼ N(0. Calcular D(Z). y la de o los segundos. 1) que contenga al punto e 0. 3. 30). Calcular la probabilidad de que la longitud del lado mayor sea el doble de la del menor.2 Hallar la constante c tal que f (x) = c/(1 + x2 ) sea una densidad. Calcular la correspondiente funci´n de distribuci´n (“distribuci´n de Cauchy”). 20). calcular la densidad de eX (distribuci´n lognormal con par´metros o a µ y σ). N(200.) tiene densidad f (x) = cx(20−x)I(0 < x < 20) siendo c una constante. 3. o o o 3.. Probar que si X ∼ N(0. Hallar la distribuci´n de la longitud del intervalo elegido. VARIABLES ALEATORIAS 3. cuyas mallas dejan escapar los peces menores de 3 cm. u o ın 3. 3. √ 3. y se elige un intervalo o el otro seg´n salga as o no. o . Hallar la densidad que obtiene el bi´logo (esto se llama una distribuci´n truncada por la o o izquierda). Calcular fX y hacer un gr´fico aproximado.2 o 3. Mostrar que Γ(1/2) = π.3 Calcular la funci´n de distribuci´n de Un(a.42 CAP´ ıTULO 3. 1/2).11 Calcular la distribuci´n del primer d´ o ıgito en el desarrollo decimal de U.7 La longitud de los peces de una laguna (en cm. 1).9 Si X ∼ N(µ.4 Sea U ∼ Un(0.1 o 3. o o 3. Sea X la estatura de un individuo elegido al azar en la poblaci´n. 1). calcular la densidad de X 2 .5 Verificar que IA∩B = IA IB = m´ (IA . 3.12 a.

generen variables con distribuciones: a. Sean U y V los n´meros de las extracciones en que salen el primer oro y la primera copa. a 3. donde G es la FD de Un(0. EJERCICIOS 3.22 La distribuci´n conjunta de X e Y es uniforme en el rect´ngulo [2. o Secci´n 3.14 Un algoritmo computacional produce un n´mero que se puede considerar como una u variable alaetoria Z con distribuci´n uniforme discreta en [1. sea Y la variable definida por Y = k si F (k − 1) < U ≤ F (k) (k entero). 4] × [3. 3. b) b. Calcular la probabilidad de que la pelota atraviese los barrotes a (suponiendo que estos sean muy altos y la verja sea muy extensa). 1) : o o F ∗ (u) = inf{x : F (x) ≥ u} (donde “inf” es el ´ ınfimo. Se arroja contra ella una pelota a de di´metro 10 cm. Un(a.17 Verifique que. Probar que |FU (u) − G(u)| ≤ 1/m. 1).1 o 43 3. entonces Y = [X] + 1 (donde “[. b) es de escala y posici´n. n o 3. 7]. ¿C´mo aprovechar esto para o simplificar el algoritmo dado en (3.23 De un mazo de baraja espa˜ola se extraen repetidamente cartas con reposici´n. haga el gr´fico de F ∗ a partir del de F . 3. ¿Son o a X e Y independientes?. de Cauchy (ejercicio 3. si U ∼ Un(0. entonces X = F ∗ (U ) tiene funci´n de distribuci´n F . Para o o verlo intuitivamente. es D(U ) = D(1 − U ).2) c.3 o 3. 3. 1) dado. We(α.4). 1). p) usando (3.3. Calcular las marginales. Obtenga de aqu´ un algoritmo para o e ı generar Ge(p) con par´metro p ∈ (0. [Ayuda: recordar que F es continua por la derecha]. Secci´n 3. 1). m] con m = 232 . .20 *[Optativo] Sea F una funci´n de distribuci´n cualquiera. Sea para u ∈ (0. 3]. 1).18 Pruebe que si X tiene distribuci´n exponencial. u ¿Son variables independientes?. Probar que si U ∼ Un(0. 1).23) para generar exponenciales? 3.19 Defina un algoritmo para generar una variable Bi(n. Pruebe que Y ∼ F . 3. Sea o U = Z/m. 3.24 Los barrotes de una verja est´n separados por 20 cm.15 Defina algoritmos que a partir de una variable U ∼ Un(0.21 Haga el gr´fico de F ∗ del ejercicio anterior para la funci´n de distribuci´n F de la a o o uniforme discreta en [1.5.13 Mostrar que la familia Un(a.2. Utilice este resultado para simular un tiro de un dado equilibrado. β).16 Si F es la FD de una variable entera y U ∼ Un(0. la mayor de las cotas inferiores de un conjunto). o sea.]” o es la parte entera) tiene distribuci´n geom´trica. a 3.

b. o Sean respectivamente X e Y los resultados de la primera y la segunda bolilla. sea Tm el n´mero del intento correspondiente al m-´simo u e ´xito. es D(X) = D( m Xi ).11. o 3. VARIABLES ALEATORIAS 3. calcular la distribuci´n conjunta de los primeros dos d´ o ıgitos. . . Probar que si m < n. Xm son a Ge(p) independientes. son Tm y Tn − Tm independientes [recordar el Ejemplo 3.44 CAP´ ıTULO 3.27 En el esquema de Bernouilli. Se extraen dos bolillas sin reposici´n. 3. Calcular la distribuci´n conjunta y las marginales.25 Una caja contiene n bolillas numeradas de 1 a n. e a. . i=1 .26 En el ejercicio 3. .I]. ¿Son independientes?. Probar que si X es binomial negativa con par´metros m y p y X1 .

1 El valor medio E X de una variable X discreta con valores en el conjunto o C y funci´n de frecuencia p es o EX = xp(x). Definici´n 4. Para una analog´ f´ ıa ısica. x∈C si se cumple o x∈C |x|p(x) < ∞. en el que cada valor recibe un peso igual a su probabilidad. se dice que “EX no existe”. si se cumple ∞ −∞ |x|f (x) dx < ∞. entonces se dice que u EX = ∞. cada una con peso p(x). Si X es acotada inferiormente (o sea. entonces el punto EX es el centro de gravedad de esas masas.1 Valor medio El valor medio de una variable aleatoria (llamado tambi´n esperanza matem´tica. El valor medio de una variable X con distribuci´n continua con densidad f es ∞ EX = −∞ xf (x)dx.Cap´ ıtulo 4 Valor Medio y Otros Par´metros a En este cap´ ıtulo se tratar´ de c´mo sintetizar las caracter´ a o ısticas m´s importantes de una a distribuci´n en unos pocos n´meros. si los x son masas puntuales en la recta. media) es esencialmente un promedio de los valores que toma. ∞ Si x |x|p(x) o −∞ |x|f(x)dx divergen. o u 4. valor e a esperado. P(X ≥ c) = 1 para alg´n c) y no existe EX. o 45 . Sale directamente de la definici´n que si X = c constante. es EX = c.

1. Pero la mejor justificaci´n del concepto de valor medio se ver´ en el Cap´ o a ıtulo 7 al ver la Ley de Grandes N´meros. sino que e o adem´s lo hagan absolutamente?. lo que puede ser complicado. a o 4. sin separar los casos discreto y o continuo. tal como E(X + Y ) = ı. se puede al menos comprobar o que las definiciones para los casos discreto y continuo son coherentes entre s´. e Ya que no podemos dar una definici´n unificada de EX. VALOR MEDIO Y OTROS PARAMETROS ı Como el indicador IA es una variable discreta que toma los valores 1 y 0 con probabilidades P(A) y 1 − P(A) respectivamente. La mayor´a de las o ı demostraciones exigir´n una irritante separaci´n entre los casos continuo y discreto. hay un motivo m´s directo. ı a E X + E Y que se ver´ luego. Y = u(X). Pero hay una manera de hacerlo directamente: E u(X) = x ∞ u(x)p(x) u(x)f (x)dx −∞ (caso discreto) (caso continuo). Si una a a serie converge.3). ¿Por qu´ pedir no s´lo que la serie o la integral que definen EX converjan. A continuaci´n damos algunas propiedades importantes de la media.1 Media de funciones de variables aleatorias Sean u : R → R.1. (4. Los motivos son b´sicamente “t´cnicos”: si no fuera a a e as´ podr´an no valer las propiedades m´s importantes de la media. (4. o La definici´n se extiende de manera obvia a mezclas de distribuciones continuas y o discretas (secci´n 3. Se puede definir EX en general. En el caso discreto. que no ser´a adecuado ıa ı para el nivel elemental de este curso. pero no absolutamente. . habr´ que obtener o ıa primero D(Y ). La probamos para X discreta.3) = siempre que x |u(x)| p(x) < ∞ o |u(x)| f(x) dx < ∞. de modo que se puede tambi´n o o e hablar de “media de una distribuci´n”. respectivamente. Pero como la numeraci´n de los x es arbitraria. la demostraci´n es trivial: o EY = y yP(Y = y) = x u(x)P(u(X) = u(x)) = x u(x)P(X = x). se deduce de la definici´n que o E IA = P(A). Si u a es inyectiva. el e o valor de EX no debiera depender de en qu´ orden se los numere.23). donde se mostrar´ la relaci´n entre EX y la media emp´ u a o ırica. Pero eso requerir´ el concepto de “integral de Stieltjes”.46 ´ CAP´TULO 4. en el sentido ı de que la definici´n para el segundo se puede obtener como caso l´ o ımite del primero (ejercicio 4.1) Note que EX depende s´lo de la distribuci´n de X. Si se quiere calcular E Y por la definici´n.2) (4. el valor de la suma puede alterarse arbitrariamente cambiando el orden de los t´rminos. Los valores que toma Y ser´n y = u(x) con x ∈ C.

y)|p(x. el conjunto Ay = o {x ∈ C : u(x) = y}. y)|f (x.o bidimensional no desempe˜a ning´n n u papel.8). Y ) = x ∞ y ∞ u(x. o En particular. es E(cX) = c EX.7) Se probar´ que. (4. Aplicando entonces (4. es a Lo haremos en el caso continuo. si EX existe y c es una constante. VALOR MEDIO 47 Si u es una funci´n cualquiera.1.6) = si |u(x. a o Entonces Eu(X. aplicando (4. lo que sale inmediatamente de |x + y| ≤ |x| + |y|. La demostraci´n para el caso discreto es exactamente igual que la de la propiedad (4. y)dxdy −∞ −∞ (caso discreto) (caso continuo). y) < ∞ o |u(x. o 4. (4. y) u(x.4. se obtiene ∞ ∞ E(X + Y ) = −∞ ∞ (x + y)f (x.3) o para una sola variable: que el problema sea uni. respectivamente. y) dx dy −∞ ∞ ∞ ∞ = −∞ x −∞ f (x. y la otra es fY (y) (Proposici´n 3.1. La demostraci´n para el caso continuo excede el nivel de este libro. y) p(x. Para ello hay que verificar que |x + y|f (x. resulta EY = y yP(Y = y) = y u(x) x∈Ay P(X = x) = y x∈Ay u(x)P(X = x) = x u(x)p(x). sea para cada y en la imagen de u.5) (4. como los Ay son disjuntos y y Ay = C. Pero la integral interior del primer t´rmino es fX (x). y) dy dx + −∞ y −∞ f(x. si existen E X y E Y . .6) con u(x. e o por lo cual queda ∞ ∞ E(X + Y ) = −∞ xfX (x) dx + −∞ yfY (y) dy = E X + E Y.4) Lo mismo vale para funciones de dos o m´s variables. y)dxdy < ∞. (4. y) dxdy es finita. Para el caso continuo. la demostraci´n no es elemental.6).2 Media de una suma E(X + Y ) = E X + E Y. Notemos primero que la existencia de E X y E Y implica la de E(X + Y ). Entonces. y) dx dy. y)f (x. Sea u una funci´n de R2 → R. y) = x + y.

y procediendo como con la suma.8). es P(A) = E IA .11) Para probarla. si ambas medias existen.10) es entonces P(A) ≤ EX/c.48 ´ CAP´TULO 4. e ∞ o y por lo tanto EX = 0 xfX (x)dx ≥ 0.10) Lo probamos primero para Y = 0: X ≥ 0 =⇒ EX ≥ 0. que tiene probabilidad n e (1 − 1/n)c .1.A. calculemos la media del n´mero N de ni˜os que u n se quedan sin caramelo. 4.A: En el ejemplo 1. La demostraci´n de (4. Si es continua. y que por lo tanto: IA ≤ X X IA ≤ . no hay una f´rmula general para la media de un producto. como quer´ase probar. c c Por (4. y por lo tanto EX = n(1 − 1/n)c . llamemos A al evento (X ≥ c). ı . Notemos que en A es X/c ≥ 1.10) se completa aplicando este resultado a a X − Y que es ≥ 0 y teniendo en cuenta (4. es P(X ≥ c) ≤ EX . Por (4. debe ser fX (x) = 0 para x < 0. a a i=1 donde Ai es el evento “el ni˜o i-´simo se queda sin caramelo”.1).8) Ejemplo 4.4 Algunas desigualdades Propiedad de monoton´ ıa Es intuitivo que. VALOR MEDIO Y OTROS PARAMETROS ı La demostraci´n para el caso discreto es an´loga. y) = xy.1. con sumas en vez de integrales. c (4.4) resulta E(a X + b Y ) = a E X + b E Y.9) 4.3 Media de un producto A diferencia de la suma. (4. (4. es E(XY ) = EX E Y . (4. pero o la hay en el caso de independencia: si X e Y son independientes. si X es discreta. X ≥ Y =⇒ EX ≥ E Y. Se prueba tomando u(x. En efecto. M´s f´cil que tratar de calcular D(N ) es escribir N = n IAi . o a Combinando este resultado con (4. Desigualdad de Markov Si X ≥ 0 y c > 0 es una constante. EX es una suma todos cuyos t´rminos son ≥ 0. y sus medias existen.

pues la ultima sumatoria vale 1 por (3. si EX = 0. EX = 0 =⇒ P(X = 0) = 1.1). n − 1. p). n n (4. (4. directamente por la definici´n: a e EX = k=0 n kb(k. ım 4. usando n (4. En consecuencia. Esto vale m´s en general: a X ≥ 0. . es EX = 0 ∞ (x/α)e−x/α dx = α. . MEDIA DE LAS DISTRIBUCIONES MAS USUALES Variables positivas con media nula 49 Parece obvio que si un conjunto de n´meros no negativos tiene promedio nulo. FX (x) = 1 y adem´s FX (−x) = 0. Primero. p) = pn b(k. Entonces. deben ser u todos nulos. donde los eventos A1 . (d) de la Prop. ´ El otro m´todo es considerar que si X ∼ Bi(n.12) En efecto.2 Media de las distribuciones m´s usuales a A continuaci´n calcularemos la media de las distribuciones de uso m´s frecuente.2.´ 4. entonces se puede expresar como en e n (3. y por lo tanto. .1 se puede considerar a 1/c como “tiempo medio de espera”. p) = pn. p) = pn (n − 1)! pk−1 (1 − p)(n−1)−(k−1) (k − 1)![(n − 1) − (k − 1)]! k=1 n−1 k=0 = pn k=1 b(k − 1. An cumplen P(Ai ) = p. Exponencial Si X ∼ Ex(α). 3.4): X = i=1 IAi .3) aplicada a n − 1.2. o . sale de (4. n − 1.3 implica a P(X = 0) = l´ x→0+ [FX (x) − FX (−x)] = 1. n. . o a Binomial Se mostrar´ que a X ∼ Bi(n.11) que para todo x > 0 es P(X ≥ x) = 0.13) o Ser´ ilustrativo hacerlo por dos m´todos distintos. p) =⇒ EX = np. queda EX = i=1 E IAi = np. (4.14) de modo que en la secci´n 2.7) y luego (4.

2.50 ´ CAP´TULO 4. y por lo tanto EX = −EX. notemos que k(1 − p)k−1 = − y ∞ d (1 − p)k .15)): cuanto menor sea la probabilidad del suceso que se espera. o sea D(X) = D(−X). p2 p (4. 1). La verificaci´n de la existencia de la media o queda a cargo del lector (ejercicio 4.15) y por lo tanto el primer par´metro de la normal es la media de la distribuci´n. m´s tiempo habr´ que esperarlo.16) Geom´trica e Si X ∼ Ge(p). X = σY + µ con Y ∼ N(0. lo cual es razonable o si se piensa en X como “tiempo de espera” (ver (2. La media de una distribuci´n sim´trica no siempre existe. es ∞ EX = k=0 ke−λ λk λk−1 λk = e−λ λ = e−λ λ = e−λ λeλ = λ. Para calcular la serie.17) implica que EX es una funci´n decreciente de p.18). basta recordar que X es sim´trica e respecto de 0. es EX = p k=1 ∞ k(1 − p)k−1 . p k=1 (1 − p)k = y recordemos que en las series de potencias se puede derivar t´rmino a t´rmino.1).17) Observemos que (4. ver ejercicio 4. σ 2 ) =⇒ EX = µ. a o Lo probamos primero para µ = 0 y σ = 1. basta tener en cuenta que por (3. o e Poisson Si X ∼ Po(λ). dp 1 − 1. Por lo e e tanto ∞ d((1/p) − 1) 1 k(1 − p)k−1 = − = 2. (4. dp p k=1 y en consecuencia EX = p 1 1 = . k! (k − 1)! k! k=1 k=0 ∞ ∞ (4. VALOR MEDIO Y OTROS PARAMETROS ı Normal Mostraremos que X ∼ N(µ. que implica EX = 0. Para calcularla. Para el caso general. a a .

La otra forma es puramente algebraica. resulta que la existencia de EX 2 implica la de EX y por ende la de var(X).7)– entonces EX = n M . M. Notemos que la hipergeom´trica tiene la misma media que la binomial Bi(n. 4. O sea: X = n IAi .2 La varianza de una variable es (si existe) o var(X) = E{(X − EX)2 }. (4. a partir de la definici´n. N´tese que σ(X) se expresa en las mismas unidades que X. Lo mismo que para la binomial.3 Varianza y desviaci´n t´ o ıpica Buscaremos ahora medir cu´nto se dispersan los valores de X. o ı La desviaci´n t´pica (o standard) es σ(X) = var(X). n) –ver (3. p) con e p = M/N . si se piensa en X como “cantidad de bolillas blancas extra´ ıdas sin reemplazo” (Ejemplo 1. y se la dejamos al o lector.´ 4.3.18) El resultado es plausible. donde Ai es el evento “boa i=1 lilla blanca en la i-´sima extracci´n” en un muestreo sin reemplazo de n bolillas. El coeficiente de variaci´n de una variable X ≥ 0 se define como o cv(X) = σ(X) . N (4. EX Su rec´ ıproca se conoce en Electr´nica como “relaci´n se˜al-ruido”.19) (4. lo cual da a un procedimiento mucho m´s corto. a a Definici´n 4. se deduce que EX = nM/N .C). Una forma de pensarlo es a expresar cu´n alejados est´n dichos valores (en promedio) de la media. La m´s simple es expresar a X como suma de indicadores. o o n Veamos algunas propiedades importantes de la varianza.D). si le interesa. Como e o E IAi = P(Ai ) = M/N (ejemplo 1. VARIANZA Y DESVIACION T´ ıPICA 51 Hipergeom´trica e Si X ∼ Hi(N. o Dado que |x| ≤ x2 + 1 ∀ x. hay dos maneras de calcular la media.20) . Transformaciones lineales Para toda constante c var(X + c) = var(X) y var(cX) = c2 var(X).

Varianza nula Otra propiedad util es ´ var(X) = 0 ⇐⇒ P(X = c) = 1 para alguna constante c.11) a la variable (X − EX)2 : P(|X − EX| ≥ c) ≤ P(|X − EX| ≥ c) = P((X − EX)2 ≥ c2 ) ≤ E(X − EX)2 . VALOR MEDIO Y OTROS PARAMETROS ı La primera se prueba notando que si Y = X + c.24) En particular. Pero la rec´ ıproca no es cierta (ejercicio 4. . Al rev´s: si 0 = var(X) = E(X − EX)2 .22) Desigualdad de Chebychev Si c > 0. Procediendo como en (4. cov(X. por (4. es Y − E Y = X − EX.20). y por lo tanto P(X −EX) = 0. observemos que si P(X = c) = 1.21) Para probarlo.25) De (4. y en consecuencia var(X) = E(X 2 ) − (EX)2 . c2 Se prueba aplicando (4.9) es inmediato si X e Y son independientes. que se define como cov(X. Y ) = E{(X − EX)(Y − E Y )}. Y ) = 0. e C´lculo expl´ a ıcito Para obtener expl´citamente var(X). X). c2 (4. (4.12) es P(X − EX = 0) = 1. Y ) = E(XY ) − EX E Y. var(X) = cov(X.22) se verifica f´cilmente que a (4. Si cov(X. es cov(X. la segunda es inmediata. notemos que desarrollando el cuadrado en la definici´n ı o queda var(X) = E{X 2 − 2X(EX) + (EX)2 } = E(X 2 ) − 2(EX)(EX) + (EX)2 . De ´sta sale que e σ(cX) = |c|σ(X). Y ) = 0. es var(X) .52 ´ CAP´TULO 4. se dice que X e Y son incorreladas o incorrelacionadas. (4. es EX = c. (4.23) Covarianza y correlaci´n o Un elemento importante para describir la distribuci´n conjunta de dos variables es la o covarianza.

Y es o o ρ = ρ(X. cuyo papel se ver´ en la secci´n a o 6. i=1 ¯ Es f´cil probar que EX = µ. . Del mismo modo se obtiene la varianza de cualquier combinaci´n lineal de variables: o n n n−1 n (4. si X e Y son independientes.´ 4. . Se define la media muestral de las Xi como 1 ¯ X= n n Xi . si las Xi son independientes. Xj ). Varianza de sumas de variables Se prueba inmediatamente usando la definici´n de covarianza que o var(X + Y ) = E{(X − EX) + (Y − E Y )}2 = var(X) + var(Y ) + 2 cov(X. . Y que es constante con o probabilidad 1.21). n) con la misma media µ y la misma varianza σ 2 . y que. (4. Dado que 0 ≤ var se deduce que −1 ≤ ρ ≤ 1. ρ = ±1 cuando hay alguna combinaci´n lineal de X. Y ). (4.28) Ejemplo 4. siendo h una funci´n tan complicada que los o o . .3. n (4.29) Ejemplo 4. VARIANZA Y DESVIACION T´ ıPICA La correlaci´n –o coeficiente de correlaci´n– de X.C: El m´todo de Monte Carlo Supongamos que se desee calcular la e b integral de una funci´n: H = a h(x) dx.B: Media muestral Sean Xi (i = 1.27) En particular. σ(X)σ(Y ) 53 Es una medida de dependencia lineal entre las variables. y por (4. Y ) = cov(X. es var(X ± Y ) = var(X) + var(Y ).26) X Y ± σ(X) σ(Y ) = 2 ± 2ρ.2. Y ) . var i=1 ai Xi = i=1 a2 var(Xi ) i +2 j=1 i=j+1 ai aj cov(Xi . es a ¯ var(X) = σ2 .

A (4. Lo haremos para el caso a = 0. VALOR MEDIO Y OTROS PARAMETROS ı m´todos anal´ e ıticos o num´ricos usuales no pueden con ella. Dada una cota de error .54 ´ CAP´TULO 4. n h(x)2 dx − H 2 = 1 0 (h(x) − H)2 dx. se puede hacer P(|Yn − H| > ) tan peque˜a como se quiera. Un variables independientes. es IA = I2 . 1). siendo los eventos Ai (i = 1.30) De (4. Como las h(Ui ) son independientes.32) . y (4. la desigualdad de Chebychev implica que tomando n lo bastante grande. Sean U1 . al que se puede siempre reducir el caso general. La aproximaci´n ser´ o a 1 Yn = n n h(Ui ). . e ´ a cuando el integrando y/o el recinto de integraci´n son complicados.13).4 Varianzas de las distribuciones m´s usuales a Indicadores Como IA vale 1 ´ 0. p). todos con probabilidad p. o 4. ya que el primero es igual a A3 y el segundo a A2 . n) independientes. pues (por ejemplo) los eventos {X3 = 1} y {X2 = 0} son independientes. . . .22) implica o A var(IA ) = E(I2 ) − (E IA )2 = P(A)(1 − P(A)). .31) que n var(X) = i=1 var(Xi ) = np(1 − p).11 se ver´ una forma m´s eficiente de elegir el n. En el n ejercicio 7. (4. expresamos a X ∼ Bi(n. resulta var(Yn ) = donde v = var(h(Ui )) = Eh(Ui )2 − (Eh(Ui ))2 = 1 0 v . llamado e e m´todo de Monte Carlo.3) sale que E Yn = H. como X = n Xi . El siguiente m´todo. . donde i=1 Xi = IAi . b = 1. todas Un(0. i=1 (4.31) Binomial Tal como se hizo para probar (4.28) y (4. a a Este m´todo es realmente util en el c´lculo de integrales de funciones de varias variables. La independencia de los eventos Ai implica la de las variables Xi . . Por lo tanto se deduce de (4. . brinda una aproximaci´n basada en la generaci´n de n´meros e o o u pseudoaleatorios.

e integrando por partes. dλ ∞ ∞ y por lo tanto EX 2 = λ(1 + λ). a Poisson Se mostrar´ que a Para ello hay que calcular EX 2 . k! donde g(λ) = = kλk−1 d λk = (k − 1)! dλ k=1 (k − 1)! k=1 d (λeλ ) = eλ (1 + λ). (4. Geom´trica e Se probar´ que a var(X) = 1−p . y por lo tanto.17): a o ∞ X ∼ Po(λ) =⇒ var(X) = λ. (4.16) da el resultado. y aplicando (4. p2 (4. y por lo tanto el segundo par´metro de la normal es la varianza.15) que EX = 0.4. σ2 ).18)). es var(Y ) = σ2 . Derivando dos veces la identidad a ∞ k=1 (1 − p)k−1 = p−1 . es Y = µ + σX con X ∼ N(0.33) EX 2 = k=1 k2 e−λ λk = λe−λ g(λ). 1) (ver (3. −∞ Si Y ∼ N(µ. lo que se har´ con el mismo truco que se us´ para (4.20) y el resultado anterior. Ya hemos visto en (4. 1).34) Para ello se usar´ el mismo truco que en (4. .17). lo que combinado con (4. Teniendo en cuenta que ϕ (x) = −xϕ(x). VARIANZAS DE LAS DISTRIBUCIONES MAS USUALES 55 Normal Mostraremos que var(X) = 1 si X ∼ N(0.19). usando (4.´ 4.3): ∞ var(X) = E X 2 = −∞ x2 ϕ(x)dx. resulta ∞ ∞ var(X) = −∞ x(xϕ(x))dx = − −∞ xd(ϕ(x)) = −[xϕ(x)]∞ + −∞ ∞ ϕ(x)dx = 0 + 1.

con Xi = IAi . Hipergeom´trica e Se probar´ que a X ∼ Hi(N. Igual que para la media.18). aplicando (4.25) es cov(Xi . (4.31) implica var(Xi ) = o p(1 − p). resulta que si i = j es EXi Xj = P(Ai ∩ Aj ) = y por (4. expresamos X = n Xi . cosa l´gica. M. N −1 M (M − 1) .5. Como P(Ai ) = p. Procediendo como en el Ejemplo 2. Xj ) = − Por lo tanto. tras algunas simplificaciones: 2 p2 ∞ = = k=1 ∞ (k + 1)k (1 − p)k−1 p ∞ k=1 k (1 − p)k−1 p + k=1 k2 (1 − p)k−1 p = EX + EX 2 . porque se muestrea o toda la poblaci´n. y como EX = 1/p. y que la diferencia entre la varianza de Hi(N. Notemos que esta varianza se anula cuando n = N .22) se prueba el resultado. (4. Un cuantil-α de X es cualquier n´mero xα tal que u . tanto da que N sea 10000 o un mill´n. n) =⇒ var(X) = np(1 − p) 1 − n−1 N −1 . que es pr´xima a 1 cuando n es mucho menor o o que N . M.5 4. N (N − 1) var(X) = np(1 − p) − n(n − 1) de donde se obtiene el resultado. y aplicando (4. p) o reside s´lo en el factor 1 − (n − 1)/(N − 1).36) Sea α ∈ (0. o 4. n) y la de Bi(n. N −1 p(1 − p) .56 ´ CAP´TULO 4. es EX 2 = 2/p2 − 1/p. donde i=1 los Ai son como en la deducci´n de (4.27) queda p(1 − p) . 1). (4..1 Otros par´metros a Cuantiles P(X < xα ) ≤ α y P(X > xα ) ≤ 1 − α.B.35) donde p = M/N . Esto implica el resultado –sorprendente para muchos– de que si por ejemplo n = 100. VALOR MEDIO Y OTROS PARAMETROS ı queda.

5. (4. x es un cuantil-α si y s´lo si o FX (x) = α.38) se llama par´metro de posici´n. para toda constante c: E(cX) = c EX y E(X + c) = EX + c. entonces yα = h(xα ). 0. ı el 40% ganan entre 100 y 200 piastras.39) . El e cuantil siempre existe. el cuantil-0. entonces m2 es una mediana de X 2 (aqu´ se v´ la conveniencia de haber ı e conservado la ambig¨edad. ı (4. hay otras posibilidades. Una propiedad muy importante de los cuantiles es que si Y = h(X).36) como definici´n. ”la media no es robusta”).30 es el percentil del 30%). Se verifica f´cilmente que si X es sim´trica respecto de 0. segundo y tercer cuartiles. lo que lo hace muy sencillo de manejar. Si FX es estrictamente creciente. a e 4. Si se busca a n E(X − c)2 = m´nimo. los cuantiles son unicos. y el a a a o motivo.37) forman un intervalo. Como “valor representativo”. Si FX es continua. donde la funci´n o h es creciente en la imagen de X. si X ≥ 0. u lo anterior no es v´lido en general). Sin embargo.38) Todo par´metro de una variable que cumpla (4. y el 10% ganan m´s de 10000. que escribiremos med(X). La a a o media es sin duda el m´s famoso y el m´s usado de los par´metros de posici´n. se podr´a tomarlo como el punto medio del intervalo. la mediana puede ser mucho mejor que la media. pero la mediana es < 100. La mediana es un par´metro de posici´n: es f´cil verificar que cumple (4. (4. los valores que satisfacen (4. Esto se puede tomar en distintos sentidos. o ´ Pero si no. es xα = −x1−α . ıa Una forma de buscar un “valor representativo” ser´ buscar c tal que X − c fuera “lo ıa m´s peque˜o posible”. y por esto es mejor o tomar (4.5.2 Par´metros de posici´n a o Notemos primero que la media cumple. (4. (4. porque si se define el cuantil como el punto medio del intervalo. Esta propiedad no es compartida por la media: por a ejemplo E(X 2 ) = (EX)2 . Si se desea una definici´n o un´ ıvoca del cuantil.38) (si no es a o a unica. El motivo de esta diferencia es que la media es muy sensible a valores extremos. entonces m + c es ´ una mediana de X + c).25. OTROS PARAMETROS 57 Tambi´n se lo llama percentil de 100α% (o sea. es que es el unico de estos par´metros que cumple a o ´ a (4. Entonces la media a del ingreso per capita es > 1000. pero por el ı momento ser´ m´s conveniente conservar esa ambig¨edad. a a u Los cuantiles correspondientes a α = 0. por ejemplo.38) se toma en el sentido de que. cosa que no sucede con la mediana (en la terminolog´ actual.50 y 0. si m es una mediana de X.37) Notemos que si FX es discontinua. y m es una mediana de X. adem´s de razones hist´ricas.75 son respectivamente el primer. Supongamos por ejemplo un pa´s donde el 50% de los habitantes ganan menos de 100 piastras.7) (”aditividad”).´ 4. El segundo cuartil es la mediana.37) no tiene siempre soluci´n.

como se vio en (4.75) − Φ−1 (0. Por supuesto.3 Par´metros de dispersi´n a o La desviaci´n t´pica cumple para toda constante c o ı σ(cX) = |c|σ(X) y σ(X + c) = σ(X).9 − x0. definida como o da(X) = E|X − EX| Se define la distancia intercuartiles como dic(X) = x0. la que existe salvo en los xi . a a o La desviaci´n t´ o ıpica es el m´s usado de los par´metros de dispersi´n.1 .26). Sin embargo. o Otra medida de dispersi´n basada en cuantiles es la desviaci´n mediana. y esto se anula para c = med(X).58 ´ CAP´TULO 4.6. que es continua. VALOR MEDIO Y OTROS PARAMETROS ı la soluci´n es c = E X como el lector puede f´cilmente verificar. uno podr´a definir otros par´metros de a o ı a dispersi´n de la misma manera.75 − x0. Entonces o h (c) = i pi [I(c > xi ) − I(c < xi )] = P(X < c) − P(X > c). Por supuesto.675 σ. la desviaci´n absoluta. no puede ser bien descripta por ninguna combinaci´n de par´metros de o a posici´n y dispersi´n. hay formas relativamente manejables de calcular σ(X + Y ). para X ∼ N(µ.40) la soluci´n es c = med(X). o una como la o del ejercicio 3. o a Si en cambio se busca E|X − c| = m´ ınimo. y por lo tanto para minimizarla basta ver d´nde cambia de signo su derivada.25 . Por ejemplo. una distribuci´n con una densidad en forma de “U”.25)) = 2dm(X) ≈ 0. N´tese que las distintas medidas de dispersi´n miden distintas cosas.41) es un par´metro de dispersi´n. Notemos que la funci´n |x| es continua y tiene derivada o para x = 0. o o . y por lo tanto o o no son comparables entre s´ directamente. Por ejemplo. La funci´n o o a minimizar es h(c) = i pi |xi − c|. Lo mostraremos para el caso en que X toma un conjunto finito o de valores xi con probabilidades pi . 4.41) Todo par´metro que cumple (4. igual a la funci´n “signo”: d|x|/dx = sgn(x) = I(x > 0) − I(x < 0).5. Se comprueba enseguida que es un par´metro de dispersi´n. como por ejemplo x0. (4. entre otras cosas a a o porque. definida como o o dm(X) = med(|X − med(X)|). (4. σ2 ) se verifica ı f´cilmente que a dic(X) = σ(Φ−1 (0. hay otras alternativas.

4. Por otra parte. y los cuantiles unicos. si D(X) es sim´trica. Sea T el n´mero de intentos que necesita el se˜or del ejercicio 1.50 = x0.75 − x0. y momento centrado de orden k a E(X − EX)k . de Cauchy (ver ejercicio 3.2) b.25 asm(X) = .5 Momentos En general. Se desea medir cu´nto ´ o ı a se aparta la forma de una distribuci´n de la simetr´ El m´s famoso es el cl´sico coeficiente o ıa. aunque la rec´proca no es cierta.6 Ejercicios 2 4.1 Probar la existencia de E|X|k para X ∼ N(0. γ puede tomar cualquier valor entre −∞ y +∞. y a queda como definici´n: o x0.4 Asimetr´ ıa Otro concepto util para describir una distribuci´n es el de asimetr´a. deber´ ser x0.5. pero la rec´proca no vale.50 − x0. y a e ı que γ(a + bX) = γ(X). .6. de modo que la varianza es el momento centrado de orden 2.75 − 2x0. Calcule ET y compare con el resultado anterior. naturalmente).3 /2 a. definido a principios de siglo como ı γ(X) = E(X − EX)3 .25 . Supongamos que dicho se˜or est´ totalmente borracho y en cada intento vuelve n a a elegir una llave al azar de entre las n.12 para abrir u n la puerta.25 .5. a a a 4. 1) y k > 0 [pruebe que |x|k < ex para x fuera de un intervalo]. es x0.50 − x0. Puede extraer conclusiones sobre los beneficios de la sobriedad. a Una medida tal vez m´s interpretable est´ basada en cuantiles: la idea es que si la a a distribuci´n fuera sim´trica. (4. 4. a e ı Adem´s asm(X) ∈ [−1.42) x0. se llama momento de orden k de X (o de D(X)) a EX k (si existe. Si a(X) > 0. entonces γ = 0. la calculada en el ejercicio 3. es asm(X) = 0. Calcule ET . a a de asimetr´a de Pearson. 4. No parece f´cil interpretar el significado de γ.10. EJERCICIOS 59 4. El papel de los momentos en Estad´stica se ver´ en el ı a Cap´ ıtulo 9. o e ´ ıa Para que resulte un par´metro “adimensional” se divide por la distancia intercuartiles. σ(X)3 Es f´cil ver que.25 Es f´cil verificar que si D(X) es sim´trica. b.50 + x0. 1].2 Determinar si existen las medias de las siguientes distribuciones: a. 4. Esta idea hace a a este par´metro m´s f´cilmente interpretrable.50 > x0.75 − x0.75 − x0.

b) [h´galo primero para a = 0.999.9).7 Si X ∼ Ga(α. b = 1 y aproveche el ejercicio 3. n a ı 4.6 Calcular E{1/(1 + X)} para X ∼ Po(λ). psstillas de menta extra´ ıdas. β): ¿Para qu´ valores de k existe E1/X k ?. cada e caballero se marcha con una dama elegida totalmente al azar. 4. [contin´a en el ejercicio e u 7. Cuando se requiere uno. vea lo que da el m´todo. Ex(α) c.5 Calcular EX 4 para X ∼ N(0. 1) [usar ϕ (x) = −xϕ(x)].8 Sea T el instante del m-´simo suceso en un proceso de Poisson. o . Calcular EX y var(X).30).60 ´ CAP´TULO 4. e 4.15 Se desea calcular la integral H = 1 0 ∞ x2 dx por el m´todo de Monte Carlo (4. b. 4. Sea X la cantidad de ıs. 4. cuyas probabilidades de ser requeridos son p1 . con probaı bilidad > 0. la caja i-´sima tiene i pastillas de menta e y 10 − i de an´ De cada caja se extrae una pastilla al azar. Calcular el valor medio de la cantidad de se˜ores que se despertar´n junto a su leg´tima esposa. 4. y EX = x (1 − F (x)) si es discreta con valores enteros. b. pn . lognormal (ejercicio 3.11 Calcular media y varianza de la binomial negativa. Si dispone de una computadora.13]. cada una con 10 pastillas. Verificar que E(1/T ) > 1/ET . 4. la lista es recorrida en un orden prefijado hasta que aparece el buscado. e a.12 En una fiesta hay n matrimonios. e 4. . . e a. 4.4 Calcular la media y la varianza de las distribuciones: a. 4. 4. Hallar un n que asegure que los tres primeros d´gitos sean correctos.27.16 Calcular media y varianza de la estatura de un individuo elegido al azar de la poblaci´n del ejercicio 3. 4. .13] a b. VALOR MEDIO Y OTROS PARAMETROS ı 4.11]. .10 Calcular media y varianza de la posici´n respecto del punto de partida del borracho o del ejercicio 2. Un(a. es EX = 0 (1 − F (x)) dx si X es continua. Calcular media y varianza de 1/T [usar (3.6.14 Una lista contiene n elementos.13 Se tienen 6 cajas. Despu´s de una descomunal borrachera.9 Probar que si X ≥ 0.12 despu´s de caminar n cuadras. Proponga un m´todo de b´squeda que minimice la media de la cantidad e u de elementos que deben ser consultados. usando el ejercicio 3.

EX/E Y .17 En el ejemplo 3. 4.18 En la situaci´n del ejercicio 3. comparar la media real de las longitudes con la media o que obtiene el bi´logo. ambas Un(1.25.23 Sea X una variable con densidad f . desviaci´n absoluta. 1). o 4. 4. y sea h = 1500 horas. Probar que X e Y son incorreladas pero no independientes. Calcular E(X/Y ) y comparar con 4.19 X e Y son independientes.20 Sea Y = X 2 donde X es N(0. e ı Probar que EXn → EX cuando n → ∞ [tenga en cuenta que Xn es discreta y X continua]. 2). desviaci´n mediana o o y asimetr´a (asm) de las distribuciones: (a) normal (b) exponencial (c) lognormal ı (d) Weibull. Calcular la media del tiempo hasta el reemplazo. y sea Xn igual a X truncada al n-´simo d´gito.7.C.4. .6. 4. 4. EJERCICIOS 61 4. sea G la exponencial con media 1000 horas. distancia intercuartiles.21 Calcular la covarianza de las variables del ejercicio 3.22 Calcular mediana.

62 ´ CAP´TULO 4. VALOR MEDIO Y OTROS PARAMETROS ı .

1) Si X e Y son independientes resulta P(Z = z) = x pX (x)pY (z − x).Cap´ ıtulo 5 Transformaciones de Variables Aleatorias En la primera parte de este cap´ ıtulo veremos c´mo calcular la distribuci´n de una variable o o Z = u(X. z enteros) {Z = z} = {X = x ∩ Y = z − x} x y como los eventos de la uni´n son disjuntos. Haremos la consabida divisi´n entre o o los casos discreto y continuo. es o P(Z = z) = x pXY (x. Entonces (tomando x. Caso discreto: Sean X e Y variables con valores enteros.1 Suma de variables Trataremos primero un caso simple pero importante. en el cual se pueden ver las ideas a aplicar en otros casos: la distribuci´n de Z = X + Y .2) . Y ) –donde u es una funci´n de R2 → R– conociendo D(X. z − x). (5. y. 63 (5. o 5. Y ).

β + γ). las integrales anteriores son entre 0 y z. hay que reemplazar z − x por z + x en todas las f´rmulas anteriores. se mostrar´ que X + Y ∼ Ga(α. o 5. y) I(x + y ≤ z) dxdy = ∞ fXY (x. β) e Y ∼ Ga(α. a Sean f. Si en vez de la distribuci´n de Y + X se a o desea la de Y − X.4) ∞ −∞ z−x = −∞ −∞ fXY (x. Por (5. Entonces: es f (x) = c1 e−x/α xβ−1 I(x ≥ 0).5) −∞ y derivando respecto de z se tiene fZ (z) = −∞ fXY (x. (5. TRANSFORMACIONES DE VARIABLES ALEATORIAS Si X e Y son ≥ 0. y aparecen frecuentemente en An´lisis. 1 y haciendo en la integral el cambio de variable t = x/y queda h(y) = c1 c2 e−y/α y β+γ−1 0 (1 − t)γ−1 tβ−1 dt. Y y X + Y respectivamente.7) Si X e Y son ≥ 0.2) y (5.6) Si X e Y son independientes. N´tese la similitud entre o (5.7) es para y ≥ 0 (y − x)γ−1 xβ−1 I(y − x ≥ 0)dx. (5. y) dydx.3) y lo mismo vale para (5. h(y) = c1 c2 e−y/α 0 ∞ g(y) = c2 e−y/α y γ−1 I(y ≥ 0). Caso continuo: Para calcular D(Z) comenzamos por su funci´n de distribuci´n: o o FZ (z) = P(Z ≤ z) = E I(X + Y ≤ z) ∞ ∞ (5. de modo que h(y) es tambi´n de la ´ e e forma Gama.1 Suma de variables Gama Si X ∼ Ga(α. . queda ∞ fZ (z) = −∞ fX (x)fY (z − x) dx. Pero esta ultima integral es tambi´n una constante. z − x) dx.7). (5. (5. z − x).1. g y h las densidades de X. (5. Expresiones de esta forma se llaman convoluci´n de dos sucesiones o de dos o funciones. γ) independientes.1) se reduce a P(Z = z) = z x=0 pXY (x. donde c1 y c2 son constantes.2).64 CAP´ ıTULO 5.

Multiplicando ambos miembros por exp(z 2 /2γ2 ). queda ∞ exp(−t2 /2τ 2 )dt. es fZ (z) = |a||b| π2 ∞ −∞ 1 dx. SUMA DE VARIABLES 65 5. Xn son N(0. debe ser N(0.1.8) 5. . a probar u c exp − z2 2γ 2 ∞ = −∞ exp − 1 2 x2 (z − x)2 + 2 σ τ2 dx. 1) independientes. o sea. (a2 + x2 )(b2 + (z − x)2 ) Desempolvando los m´todos para integrar funciones racionales. que no depende de z. . Para ello. π(1 + x2 ) Sean X.7). ı −∞ En consecuencia. . donde. + Xn ) = D( nX1 ). . Luego. para√ simplificar la notaci´n. a Usando (5. basta verificar que el polinomio dentro del corchete en la “exp” es z 2 σ 2 x2 γ2 xz 1 + −2 2 = 2 τ 2 γ 2 τ 2σ 2 τ τ zσ xγ − γ σ 2 . . se pone “exp(t)” en vez de “et ”. obviamente nos podemos limitar al caso en que ambas tienen media 0. ambas con distribuci´n de Cauchy. y por lo tanto haciendo en la integral el cambio de variable t = zσ/γ − xγ/σ. γ 2 ) donde γ 2 = σ 2 + τ 2 . probar o la normalidad de Z equivale. se probar´ que la suma de dos normales indepeno a dientes es normal.7). si X1 . se llega tras una cuenta e tediosa y prescindible a 1 1 fZ (z) = . Si la distribuci´n de Z = X + Y es normal. normales.1.1. con densidad o f (x) = Sea Z = aX + bY donde a y b son constantes.5.2 Suma de normales Como aplicaci´n importante de (5. Que es lo que quer´ase demostrar.7). es √ D(X1 + . Y independientes.3 Combinaciones lineales de variables Cauchy 1 . πc 1 + (z/c)2 . con varianzas respectivamente σ2 y τ 2 . Sean X e Y independientes. resulta que hay que probar que la integral ∞ −∞ exp − 1 1 1 2xz 1 2 1 z ( 2 − 2 ) + x2 ( 2 + 2 ) − 2 2 τ γ τ σ τ dx es una constante (no depende de z). y c es una constante: o c = 2πστ /( 2πγ). Se probar´ que D(Z) es de la misma forma. seg´n (5. (5. .

y) I(x ≤ zy ∩ y > 0) dx dy f (x. Y son independientes. y) dx dy. sale D(X1 + . Aplic´ndolo a una suma de a independientes Cauchy. es tentador pensar. z). o Aplicando (3. y) dy. su distribuci´m debiera ser G”. que “como Z es igual a X o a Y . El error de este o razonamiento estriba en que cu´l de las dos es. y de aqu´ se obtienen FZ y fZ . Cuando X e Y tienen la misma distribuci´n G. Y ) continua con densidad f . Y ). . y) dx dy + −∞ zy f (x. (5.2.28) tenemos: FZ (z) = P(X ≤ zY ∩ Y > 0) + P(X ≥ zY ∩ Y < 0) ∞ ∞ = −∞ ∞ −∞ ∞ −∞ zy −∞ f (x. Y son ı independientes con distribuciones continuas. Y ). Note la diferencia con el caso normal (5.10) y derivando respecto de z: ∞ 0 ∞ fZ (z) = 0 yf(zy.2 5.11). y) dy + −∞ (−y)f(zy. suponiendo D(X. es En particular. y) dy = −∞ |y| f(zy.2 Distribuciones del m´ximo y el m´ a ınimo FZ (z) = P(X ≤ z ∩ Y ≤ z) = FX.Y (z. TRANSFORMACIONES DE VARIABLES ALEATORIAS donde c = |a| + |b|. y) I(x ≥ zy ∩ y < 0) dx dy 0 ∞ + −∞ ∞ = 0 f (x. a Si Z = m´x(X. o e 5. .66 CAP´ ıTULO 5. (5.1 Otras funciones Distribuci´n del cociente o Calcularemos la distribuci´n de Z = X/Y . . La distribuci´n conjunta del m´ximo y el m´ ı o a ınimo se calcula combinando ambas ideas (ejercicio 5. depende de sus valores. (5.9) 5. es FZ (z) = FX (z)FY (z). sea Z = m´n(X. a Del mismo modo. y supongamos para simplificar que X. si X. Entonces 1 − FZ (z) = P(X > z ∩ Y > z) = (1 − FX (z))(1 − FY (z)).8).D.2. como en el Ejemplo o 3. + Xn ) = D(nX1 ).11) La distribuci´n del producto se deduce con el mismo m´todo. O sea que D(aX + bY ) = D((|a| + |b|) X).

y g(x1 .´ 5. que podemos considerar como variables aleatorias con valores en R2 . Para simplificar la notaci´n sean X = o (X1 . x2 )). ∂g2 /∂x1 ∂g2 /∂x2 Sea K(y) el jacobiano de g−1 . Mostraremos que S y U son independientes. Y2 = g2 (X1 . Sean X1 y X2 dos o a o variables.16) para el caso univariado. y por lo tanto S y U son independientes con distribuci´n Ex(1/c). Ejemplo 5.3. Para demostrar (5. Para x = (x1 .A: Falta de memoria del proceso de Poisson En el Ejemplo 3. x2 ). Y = (Y1 . pues verifica (3. con la misma distribuci´n exponencial. (5. x2 ) ∈ R2 . sea U = T − S el tiempo de espera entre el primer y el segundo suceso. resulta P(Y ∈ A) = fX (x) IA (g(x)) dx = fX (g−1 (y)) |K(y)| IA (y) dy. dx = |K(y)|dy. o sea.28) es P(Y ∈ A) = P(g(X) ∈ A) = fX (x) IB (x) dx. .1 Distribuci´n de transformaciones de variables o Un m´todo general e Ahora trataremos una situaci´n m´s semejante a la de la secci´n 3.J.) son Ex(1/c) independientes.12). con el jacobiano en o a vez de la derivada. y luego haciendo el “cambio de variable” y = g(x). o cuyo jacobiano es 1.28). de manera que Y = g(X). . DISTRIBUCION DE TRANSFORMACIONES DE VARIABLES 67 5. X2 ). X2 ). Se probar´ que la a densidad de Y es fY (y) = fX (g−1 (y)) |K(y)|. g1 y g2 dos funciones de R2 → R.12) a la densidad de (S. Teniendo en cuenta que IB (x) = IA (g(x)). que cumple K(y) = 1/J(g−1 (y)). de modo que –como o es de esperar intuitivamente– despu´s del primer suceso es “como si empezara todo de e nuevo”.3. Y2 ). X2 ). . el determinante ∂g1 /∂x1 ∂g1 /∂x2 . Para calcular su densidad. sea A ⊆ R2 . y por lo tanto el segundo miembro de (5. de modo que existe la inversa g−1 . T ) da o fS. sea J(x) el jacobiano de g. y que g es inyectiva y diferenciable en la imagen de X. X2 ). . Se quiere calcular D(Y1 . Supongamos que X tiene densidad conjunta fX .12) Notemos que esta f´rmula es an´loga a (3. si llamamos Tk al instante del suceso k-´simo. donde B = {x : g(x) ∈ A} y dx = dx1 dx2 . 2. Y2 ) conociendo D(X1 . T ). Entonces por la propiedad (3. e Y1 = g1 (X1 . se prueba de la misma manera e que (definiendo T0 = 0) las variables Tk − Tk−1 (k = 1. x2 ) = (g1 (x1 . u) = c2 e−cs e−cu .3 5. U) es una transformaci´n lineal de (S. de manera que la aplicaci´n de (5. notemos que (S. funci´n de R2 → R2 . g2 (x1 . o Hay un caso en el que existe un procedimiento general.2. o En general.12) es la densidad de Y.U (s.

2π 2π Sea Y = (R. TRANSFORMACIONES DE VARIABLES ALEATORIAS 5. lo que implica que R o y Θ son independientes. 2π)).13) . 2 θ = arctan(x2 /x1 ).2) se puede usar para generar variables normales sin necesidad de calcular la inversa de la funci´n de distribuci´n. 2π). Sean (R. 1). lo que implica que Θ es uniforme. 1 2 Como X1 y X2 son independientes. Y2 = b1 X1 + b2 X2 . y en a consecuencia 1 −r2 /2 fY (r. Aplicamos a la primera una transformaci´n para o convertirla en Un(0. Este es el m´todo de Box-M¨ller [15]. la densidad de Θ es (2π)−1 I(θ ∈ [0. X2 ∼ N(0. Se probar´ que R y Θ son independientes. Θ) = R. y eso da Θ y R2 . X2 ). 2π)). 2π). e u 5.3. independientes. (5. Θ) = g(X) donde X = (X1 . X2 ) (con Θ ∈ [0.16) se deduce que si S = R2 : fS (s) = y por lo tanto R2 ∼ Ex(2). Y esto da dos variables independientes N(0. ambas N(0.4 La distribuci´n normal bivariada o En esta secci´n definiremos el an´logo de la distribuci´n normal para dos variables. Sean o o U1 .2 Aplicaci´n: normales en coordenadas polares o Sean X1 . 1). Θ) las coordenadas polares de (X1 . X2 independientes.3. fR (s−1/2 ) 1 = e−s/2 . /2 I(r ≥ 0). Entonces la funci´n inversa X = g−1 (Y) o est´ dada por: X1 = R cos Θ. U2 independientes. 1/2 2s 2 Aplicaci´n a simulaci´n o o El resultado (5. 1). 2π)). es 1 −r 2 /2 1 −x2 /2 −x2 /2 e 1 e 2 = e . X2 = R sen Θ. ambas Un(0. y la densidad de R es fX (x) = fX1 (x1 )fX2 (x2 ) = fR (r) = re−r Aplicando (3. Consideremos una tranformaci´n lineal no singular: o Y1 = a1 X1 + a2 X2 . θ) = e r I(r ≥ 0) I(θ ∈ [0. O sea.68 CAP´ ıTULO 5. y a la segunda otra para convertirla en Ex(2). 2π Por lo tanto fY (r. Sean X1 . La idea es recorrer el camino inverso. y luego X1 = R cos Θ y X2 = R sen Θ. 1). θ) es producto de una funci´n de r por una de θ. θ). Primero o a o vamos a deducir la forma de la distribuci´n conjunta de transformaciones lineales de noro males independientes. a y que R2 ∼ Ex(2). definimos Θ = 2πU1 y R = (−2 ln U2 )1/2 . o sea r2 = x2 + x2 . que Θ ∼ Un[0. x2 ) con coordenadas polares (r. cuyo jacobiano es K(R. Sea x = (x1 .

y ρ su correlaci´n. Entonces se deduce o de (5. σ1 = a2 + a2 .16) Se calcular´ D(Y1 . Y2 ) es f (y1 .16). 2π 2 De (5.17) J Recordando que fX (x) = (2π)−1 exp(− x 2 /2) –donde x = eucl´dea– resulta ı 1 g−1 (y) 2 fY (g−1 (y)) = exp − .15) Vamos a mostrar que la densidad conjunta de (Y1 . LA DISTRIBUCION NORMAL BIVARIADA con a1 b2 − a2 b1 = 0. (5.1 La distribuci´n normal bivariada centrada en el origen.2 La distribuci´n conjunta de (Y1 .16). y2 − µ2 ). Notemos primero que el jacobiano es constante: J = a1 b2 − a2 b1 . y reemplazando esto en la f´rmula anterior. σ2 = b2 + b2 . 69 (5.4.15) se obtiene g−1 (Y) 2 x2 + x2 es la norma 1 2 = 1 2 2 2 2 (σ y + σ1 y2 − 2y1 y2 c).12) con a g(x) = (a1 x1 + a2 x2 . c su covarianza. La funci´n inversa se calcula expl´citamente resolviendo un sistema de dos por dos. y2 ) = 1 2πσ1 σ2 1 − ρ2 exp − 1 2(1 − ρ2 ) 2 y1 y2 y y + 2 − 2ρ 1 2 2 2 σ1 σ2 σ1 σ2 . X1 . (5. es la que tiene densidad (5. La normal bivariada con dichos o par´metros y medias µ1 . b1 x1 + b2 x2 ). con varianzas σ1 o o 2 y σ2 y correlaci´n ρ. queda a o probada (5.14) 2 2 Sean σ1 . σ2 las varianzas de Y1 e Y2 . 1). c = a1 b1 + a2 b2 . J2 2 1 2 2 Es f´cil verificar que J 2 = σ1 σ2 (1 − ρ2 ). X2 .´ 5. Esto motiva la siguiente 2 Definici´n 5. que se supone = 0 por (5.14).13) que 2 2 EY1 = EY2 = 0. ambas N(0. Y2 ) es normal bivariada si y s´lo si ambas o o son combinaciones lineales de dos variables independientes. o ı obteniendo: 1 g−1 (y) = (b2 y1 − a2 y2 . µ2 est´ dada por la densidad f (y1 − µ1 . .17) y (5. −b1 y1 + a1 y2 ). a a La caracterizaci´n m´s importante de esta distribuci´n est´ dada por el siguiente o a o a Teorema 5. Y2 ) aplicando (5. 1 2 1 2 (5.

p). Las marginales de la normal bivariada son normales. Xn }. 5. La duraci´n de cada a o una es una variable con distribuci´n exponencial con media 1000 horas. Se las puede o suponer independientes. independientes (esta es la distribuci´n doble exponencial). o 5. todas con distribuci´n We(1000. 5.. por el Teorema 5. 5.5 Ejercicios Secci´n 5. a Calcular E T . Para o que el circuito funcione hacen falta todos los transistores. que es o normal como se vio en la Secci´n 5. Hallar la mediana de la vida util del circuito. . pero sale m´s f´cilmente teniendo en cuenta o a a que.1.8 Las variables Xi (i = 1. respectivamente. o La implicaci´n inversa no es cierta: una distribuci´n puede tener marginales normales. entonces X/Y tiene distribuci´n de o Cauchy. Sea Y = m´x{X1 . Mostrar que D(X + Y ) es continua y hallar su densidad. 5.4 X e Y son independientes. la primera tiene distribuci´n continua y la segunda diso creta. 1) independientes.2 o .. Sea T el instante en el que se quema la primera l´mpara. Calcular la densidad de XY . a Calcular E Y . Esto se podr´ deducir directaıa mente aplicando la Proposici´n 3.1 X e Y son independientes.70 CAP´ ıTULO 5.5 Probar que si X e Y son N(0. con distribuciones Po(λ) y Po(µ).6 X e Y son independientes con densidades f y g. El “s´lo si” se prueba recoo a o o rriendo el camino inverso.9 Un circuito contiene 10 transistores.16) prueba el “si”.1 o 5.8 a (5. cuyos tiempos de duraci´n (en horas) pueden o considerarse como variables independientes. o o sin ser normal bivariada (ejercicio 5.2 Calcular la densidad de Z = X − Y donde X e Y son Ex(1). con distribuciones Bi(m. . 5. y la de |Z|. TRANSFORMACIONES DE VARIABLES ALEATORIAS Demostraci´n: El c´lculo que llev´ a (5.3 Sea Z = X + Y donde X e Y son independientes. Calcular la distribuci´n de X + Y [¡no hace falta ninguna cuenta!].. o 5. n) son Un(0. . ´ Secci´n 5. 5. Probar que Z ∼ Po(λ + µ). . p) y Bi(n.2. .7 A partir del instante t = 0 se prueba un lote de 100 l´mparas. Y1 es combinaci´n lineal de dos normales independientes. 2). 1) independientes.16). 5.17).2.

V3 ) con R ≥ 0. Sean (R. Y ) tiene distribuci´n uniforme en el disco de centro o en el origen y radio 1.11: a. Y ) [sugerencia: calcular P(u < U < V < v)]. ambas Ex(1). Sea f = (f1 + f2 )/2. a.5 respectivamente. Ψ ∈ [−π/2. o Probar que las marginales de f son normales. Probar e que R. Calcular P(X = V ) b. para mayor seguridad. 5. V2 . aplicar (3. X e Y son independientes si y s´lo si su correlaci´n o o es nula.4 o 5. pero f no es normal bivariada.14 La variable bidimensional (X. Sea Z = X + Y . Calcular la densidad conjunta de (X.15 Las coordenadas del vector velocidad de una mol´cula de un gas se pueden considerar e como tres variables V1 . duplicada: a a cada uno de los dos circuitos que la componen tiene una vida util con distribuci´n ´ o Ex(2000) (horas). EJERCICIOS 71 5. Y ∼ Un(0. Ψ son independientes. o 5. 1) independientes. calcular la densidad conjunta de U = m´ ın(X. y hallar la densidad de R (llamada distribuci´n de o Rayleigh). V2 . Sean R. o o Secci´n 5.10 Una parte de un sistema de control autom´tico est´. Hallar la media de la duraci´n del sistema. Θ. 5. Θ). Calcular la funci´n de distribuci´n conjunta de X. ¿Tiene densidad?.16 Si D(X.5 y -0. æ . Secci´n 5. V3 ∼ N(0. θ) : r ≤ r0 .13 X e Y son independientes. 2π). Y ) y V = m´x(X.3 o 5. σ 2 ) independientes. Ψ las coordenadas esf´ricas de (V1 . a 5. 5. Θ. y las respectivas marginales. 0 ≤ θ ≤ θ0 } y calcular su probabilidad]. ambas con medias 0 y varianzas 1. que se pueden considerar independientes.35)]. Y ). ¿Son R y Θ independientes? [se puede hacer directamente: basta con representar en el plano la regi´n o {(r. Y ) es normal bivariada.5. y con coeficientes de correlaci´n 0. b. Y )). y obtener de ella la marginal de Z. V .11 Para X.17 *Sean f1 y f2 densidades normales bivariadas.5. Θ ∈ [0. π/2). Θ) las coordenadas polares de (X. Calcular la densidad conjunta de (R. Calcular D(Z/m´ ın(X. basta cualquiera de los dos para que el sistema funcione. [Para el “si’. Z).12 Para las variables del ejercicio 5.

72 CAP´ ıTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS .

Cap´ ıtulo 6 Distribuciones Condicionales y Predicci´n o “En nueve casos de diez –dijo Holmes– puede deducirse la estatura de un hombre por la largura de sus pasos. Note que para esta definici´n o s´lo hace falta que X sea discreta: la Y puede ser cualquiera. pX (x) (6. Watson. o Si adem´s la conjunta D(X. Por ejemplo: si disponemos de un modelo para la distribuci´n conjunta de la o temperatura m´xima de hoy con la de ma˜ana. y) . ¿ Qu´ informaci´n aporta X respecto e o de Y ?. Se trata de un c´lculo bastante sencillo. Conan Doyle. El instrumento adecuado es el concepto de o distribuci´n condicional. que define la llamada distribuci´n o o o condicional de Y dado X = x. Y ) es discreta. Para cada x ∈ C la funci´n de o y: P(Y ≤ y|X = x) es una funci´n de distribuci´n. x) = P(Y = y|X = x) = 73 pXY (x. la que se denota D(Y |X = x). sea C = {x : P(X = x) > 0}. este an´lisis nos permitir´ usar la primera a n a ıa para obtener una predicci´n de la segunda. el molestarle a usted con n´meros.1) . a aunque no tiene objeto.1 Distribuciones condicionales Sean X e Y dos variables definidas en el mismo . la distribuci´n condicional est´ dada por la a o a funci´n de frecuencia condicional pY |X : o pY |X (y.” u A. “ Estudio en Escarlata” 6. o Caso discreto Si D(X) es discreta.

se cumple (al menos si fXY es continua) que 1 2δ J fX (u)du → fX (x).2) se encuentra condicionando. Ya se vio en (2. Y ) es continua. y define entonces una distribuci´n (la distribuci´n condicional de Y dado X = x). tomando un “intervalito”). no se puede repetir exactamente el mismo camino que para el caso discreto. P(S = s|T = t) = Por lo tanto Caso continuo Si X es continua. o o La correspondiente funci´n de distribuci´n es la funci´n de distribuci´n condicional: o o o o y FY |X (y. Calcularemos e D(S|T ). Supongamos que D(X. f (u)du J X Cuando δ → 0. no respecto al evento {X = x} que o tiene probabilidad nula. y Ejemplo 6. y sea C = {x : fX (x) > 0}. no da ninguna informaci´n sobre cu´ndo ocurri´ el e o e o a o primero. y) fY |X (y. ya que P(X = x) = 0 para todo x. sino al {x − δ ≤ X ≤ x + δ} donde δ → 0 (o sea. Para todo x ∈ C se define la densidad condicional de Y dado X = x como f (x. La motivaci´n de (6. DISTRIBUCIONES CONDICIONALES Y PREDICCION ı Para cada x ∈ C se cumple pY |X (y. t−1 de modo que D(S|T = t) es uniforme entre 0 y t − 1. x) = −∞ fY |X (t.16) que P(T = t) = (t − 1)p2 (1 − p)t−2 . (6. x) ≥ 0 y pY |X (y|x) = 1. Entonces la distribuci´n de Y condicional a este evento es (definiendo para o simplificar la notaci´n. x + δ]): o P(Y ≤ y|X ∈ J) = J du y −∞ fXY (u. v)dv . x)dt.2) fX (x) Para cada x ∈ C esta es una densidad (como funci´n de y) ya que fY |X (y|x)dy = 1 y o f ≥ 0. el intervalo J = [x − δ.74 ´ CAP´TULO 6.A: Bernouilli Sean S e T los n´meros de los intentos correspondientes al u primer y al segundo ´xito en un esquema de Bernouilli con probabilidad p. x) = XY . 1 I(0 ≤ s ≤ t − 1). . Intuitivamente: saber que el segundo ´xito ocurri´ en el t-´simo intento. La conjunta es: P(S = s ∩ T = t) = (1 − p)s−1 p (1 − p)t−s−1 p I(t > s ≥ 0) = p2 (1 − p)t−2 I(t > s ≥ 0).

σX y σY las varianzas. x). a du J −∞ 75 y y fXY (u. 2 σX (6. Lo probaremos para el caso µX = µY = 0. o La varianza correspondiente a D(Y |X = x) es la varianza condicional.16) es fY |X (y. Y ) es normal bivariada.5) y tiene para cada x ∈ C las propiedades de la media dadas en la secci´n 4.3) D(Y |X = x) = N µY + 2 2 donde µX y µY son las medias.4) E(Y |X = x) = yfY |X (y. sale de (6. σX q(x. que para los casos discreto y continuo es. Ejemplo 6. la corespondiente mediana es la mediana condicional. y ∞ −∞ (6. a que se escribe med(Y |X = x). M´s exactamente. x) = donde fXY (x.B: Normal normal. −∞ Si D(X. 2 2π(1 − ρ2 )σY − x2 2 . de ´ste sale f´cilmente el caso general.6. x). respectivamente E(Y |X = x) = ∞ y pY |X (y. e a Por (6. (6. y) = fX (x) 1 1 − ρ2 1 1 exp − q(x. y) = 1 ρσY x 2 (1 − ρ2 ) y − σ σY X 2 . v) dv.1. An´logamente.3) que E(Y |X = x) = µY + (x − µX )c 2 σX . x)dy = −∞ y fXY (x. y) = x2 y2 xy + 2 − 2ρ 2 σX σY σX σY Y con un poco de paciencia.1. La media (cuando existe) de D(Y |X = x) se llama media condicional de Y dado X = x. se verifica que q(x. veremos que D(Y |X) es (x − µX )c 2 . que se indicar´ a con var(Y |X = x). DISTRIBUCIONES CONDICIONALES y 1 2δ Por lo tanto P(Y ≤ y|X ∈ J) → FY |X (y. σY (1 − ρ2 ) . y) dy fX (x) . y c la covarianza de X e Y . y) . v)dv → fXY (x.2) y (5. Para la normal bivariada.

1) o (6. que es incorrecta. Tambi´n la media y varianza de Y se pueden calcular a partir de las condicionales: e .76 y ´ CAP´TULO 6. resultado bastante razonable. DISTRIBUCIONES CONDICIONALES Y PREDICCION ı 2 var(Y |X = x) = σY (1 − ρ2 ).C: Accidentes Se supone que la cantidad de accidentes de auto en un mes es una variable Po(λ). y! y por lo tanto P(Y = y) = e−λp o sea que Y ∼ Po(λp). Calcularemos D(Y ) usando (6. que la probabilidad de que un accidente resulte fatal es p. o sea P(Y = y|X = x) = (x )py (1 − p)x−y para y ≤ x. (6. k! (λp)y . (x − y)! Haciendo en la sumatoria el cambio de ´ndice k = x − y resulta ı ((1 − p)λ)x−y = (x − y)! ∞ x≥y k=0 ((1 − p)λ)k = e(1−p)λ .7): y P(Y = y) = x≥y x y x py (1 − p)x−y λ e−λ = e−λ (λp) y x! y! x≥y ((1 − p)λ)x−y . de manera que la media a condicional se puede considerar ya sea como una funci´n num´rica o como una variable o e aleatoria. Ejemplo 6. o Si g(x) = E(Y |X = x).6) A partir de D(Y |X) y de D(X) se puede calcular D(Y ). ya que la o variable es la misma. si se piensa en λ y p como medias del total de accidentes y de fatalidades por accidente. es D(Y |X = x) = Bi(x. p). y s´lo cambia la manera de definir las probabilidades correspondientes o a su distribuci´n. seg´n el caso. −∞ (6. x) fX (x) dx. Usando (6.8) respectivamente. x) pX (x). se obtiene pY (y) = x pY |X (y. la variable g(X) se denotar´ “E(Y |X)”.2) para los casos discreto y continuo. Lo mismo sucede con la varianza condicional: u var(Y |X) = E{[Y − E(Y |X)]2 |X}. de modo que si X e Y son las cantidades de accidentes en general y de accidentes fatales. En algunos textos se usa la expresi´n “variable condicional”. ∞ (6.7) o fY (y) = fY |X (y. y que las consecuencias de accidentes distintos son independientes.

y W = E(Y |X) − EY . El caso continuo es an´logo.2 Si X e Y son independientes y u es una funci´n de dos variables.9) (6.1.4) y (6. y) P(Y = y) = Eu(x.7) se tiene o E{E(Y |X)} = x E(Y |X = x) pX (x) = y y x pY |X (y. . o De igual forma que (6. Teniendo en cuenta que E(Y |X) o es una funci´n de X.9) implica EZ = 0. y) = z) = z y = y u(x. sumamos y restamos E(Y |X) en su definici´n: var(Y ) = o E(Z + W )2 . Aplicando (6. 77 (6. Para simplificar la notaci´n. x)pX (x) = y y pY (y). Entonces (6.6. sale de o (6. Y ). ´ Demostraci´n: Probamos (6. que es igual a la de (4. Podemos hacer la demostraci´n para el caso discreto. DISTRIBUCIONES CONDICIONALES Proposici´n 6. Y )|X = x} = Eu(x. es o o E{u(X.11) z P(Z = z|X = x) zP(X = x ∩ Y = y|X = x) I(u(x. Sea o Z = u(X. y por lo tanto E g(X)Z = 0.12) que el ultimo t´rmino es nulo.9) en el caso discreto. sea Z = Y −E(Y |X). Pero esto no es cierto en general. como vemos con el caso Y = −X y E Y = 0.1 o y E{E(Y |X)} = E Y. (6. y usando (6. Usando e otra vez (6. Y ). Y como W es una funci´n de X. el segundo es igual a var(E(Y |X)).2). se prueba que para cualquier funci´n g: o E g(X) Y = E [g(X) E(Y |X)].10) es algo m´s complicada.10) Esta ultima f´rmula se puede interpretar como una descomposici´n de la variabilidad ´ o o de Y como: la variabilidad de Y alrededor de su media condicional. m´s la variabilidad de a esta ultima. y puede omitirse en una primera o a lectura. Y ). ´ e Es tentador pensar que –por ejemplo– E(X + Y |X = 3) = EY + 3. E(Z|X = x) = z (6. Por lo tanto var(Y ) = EZ 2 + EW 2 + 2EZW. Pero un resultado general es v´lido para variables independientes: a Proposici´n 6.9).9) a Z 2 . el primer t´rmino es igual a E{E(Z 2 |X)} = E(var(Y |X). a *La demostraci´n de (6.9). donde Z ya fue definida. var(Y ) = E{var(Y |X)} + var{E(Y |X)}.12) Para calcular var(Y ).

78 ´ CAP´TULO 6. y esto es la base de su popularidad. x) = . puede interesarme “predecir” (rellenar) los valores faltantes en funci´n de otros posteriores. Entonces por la Proposici´n o o o anterior. y) fY|X (y. 6. a ı El e. Condicionamiento en varias variables Todas las definiciones y resultados anteriores valen tambi´n cuando las variables son mule tidimensionales.2.1 Predicci´n lineal o Para comenzar con un caso m´s sencillo.m. Entonces e(g) = E(Y − a − bX)2 . Y )|X = x) = D(u(x. Y )|X = x) = Ev(x. o med(|Y − g(X)|) (“error mediano”).m. P(u(X. Sean Y ∈ Rp . Pero el e. hacer una predicci´n o de la de ma¨ana. como se ver´. Formalmente: se busca aproximar a Y con una funci´n de X. Y )). Pero eso no implica un orden cronol´gico entre las o o variables. sea la funci´n v(x. O sea. Y ) = P(u(x. Se buscar´ entonces g tal que e(g) sea m´nimo. no es el unico criterio posible. Por ejemplo se podr´ tomar como medida ´ ıa de error E|Y − g(X))| (“error absoluto”). X ∈ Rq . o Una forma de plantear el problema es minimizar alguna medida del error.13) . Y ) ≤ z). y) = I(u(x. la definici´n de densidad condicional o para el caso continuo es fXY (x. El criterio m´s usual es el error medio cuadr´tico (e.c. resultados calculables expl´ a ıcitamente. permite. Por ejemplo. trataremos el problema en que g se restringe a la a forma g(x) = a + bx.): a a e(g) = E(Y − g(X))2 . Y ) ≤ z|X = x) = E v(X. se n o busca una funci´n g : R → R tal que Y −g(X) sea “lo m´s peque˜a posible”. 6. (6. y hay que buscar las constantes a y b que minimicen (6. y ∈ Rq . Por ejemplo: si tengo una serie de observaciones en la que faltan valores. Demostraci´n: Dado z. D(u(X. y las densidades fX y fX. y) ≤ z). Este problema o a n se denomina en general “predicci´n”. fX (x) donde ahora x ∈ Rp . respectivamente.c.c.3 En las mismas condiciones.2 Predicci´n o Volvemos al problema inicial: conociendo la temperatura media de hoy.m.13).Y tienen p y p + q argumentos. DISTRIBUCIONES CONDICIONALES Y PREDICCION ı Corolario 6.

c. (6. esto implica que Y es igual (con probabilidad 1) a una ın funci´n lineal de X.2.15) Se define la recta de regresi´n como {(x. En efecto.13).17) σY σX Como em´n > 0.m. µY ). correspondiente a la mejor aproximaci´n de o Y con una constante. σX y por lo tanto la g ´ptima es o g(x) = µY + c x − µX . σX y σY las desviaciones. o sea. es lo mismo que nada. es em´ ın 2 2 = E{Y − µY − b(X − µX )}2 = σY + b2 σX − 2bc 2 = σY − c2 2 2 2 = σY (1 − ρ ). y adem´s permite una intera ı pretaci´n intuitiva de ρ como medida de “dependencia lineal”.m. o Si en cambio se quiere aproximar a X como funci´n lineal de Y .17). y que (4.2. basta con definir la g en C (por ejemplo. e igualando a 0 las derivadas respecto de a y de b.c. cuando se utiliza (linealmente) la X.16) Usando el coeficiente de correlaci´n ρ. Convendr´ tener en cuenta que si C es un conjunto tal que P(X ∈ C) = 1.c. la ecuaci´n de la recta de regresi´n se puede expresar o o o m´s sim´tricamente como a e x − µX y − µY =ρ . basta con definir g en R+ ).´ 6. b = 2 . de la mejor aproximaci´n de Y como funci´n lineal de o o o ın X. y) : y = g(x). PREDICCION 79 Sean µX y µY las medias de X e Y .m. El m´ ınimo e. 6. pero no coinciden. o intercambiando X e Y . µY ). σX (6. sin restricciones sobre g. em´ es el e.14) a = µY − b µX . y c = cov(X. a ın en vez no utilizarla. Y ). y tiene o pendiente b. con pendiente del mismo signo que ρ. Por lo tanto ρ = 0 (X e Y incorreladas) significa que usar funciones lineales de X para aproximar a Y . En cambio. x ∈ R}. notemos que. se deduce de (6. o . Ahora damos la soluci´n del problema general.m.12).39) implica que σ2 es el e. σX σY y por lo tanto ambas rectas pasan por (µX . con una funci´n lineal de X con pendiente nula. Entonces.c. 2 σX (6.c. ρ = ±1 implica em´ = 0 y por la propiedad (4. si X ≥ 0. o 2 1 − ρ2 = em´ /σY mide cu´nto disminuye el e. o por definici´n. (6.2 Predicci´n general o a Ahora buscamos minimizar el e. Desarrollando el cuadrado en (6. Pasa por (µX .16) implica nuevamente que |ρ| ≤ 1. se obtiene la soluci´n o c (6. salvo que ρ = ±1. que la correspondiente recta de regresi´n es o x − µX y − µY =ρ .m.

y viceversa. Sin embargo. ¡esto se obtuvo suponiendo o ıa” justamente que las dos generaciones tienen la misma distribuci´n!. o Otro ejemplo: sean X e Y los puntajes de un alumno en dos ex´menes suucesivos. Esta aparente paradoja se llama la falacia de la regresi´n.c.m.m. Si a D(X. σY σX Es com´n comparar los resultados de dos ex´menes normaliz´ndolos. Como h(x) = (1 − ρ)(µ − x) + x y ρ < 1. y por lo tanto µX = o µY = µ y σX = σY = σ. o sea. correspondientes a los alumnos con puntaje x en el primero. Si se supone que D(X. DISTRIBUCIONES CONDICIONALES Y PREDICCION ı Teorema 6.c. Si se hace esto. Esto se podr´a a ı interpretar como una tendencia de la poblaci´n a “emparejarse” (de aqu´ la expresi´n o ı o “regresi´n”: se “regresar´ hacia la media). ı o o n Ejemplo 6. Entonces esta g minimiza el e. se deduce que o x > µ =⇒ h(x) < x y x < µ =⇒ h(x) > x. y por lo tanto. Si tienen correlaci´n positiva. x). y) = pX (x) (y − g(x))2 pY |X (y. Y ) es normal bivariada –suposici´n o bastante compatible con los datos existentes– entonces esta media est´ dada por la recta a de regresi´n: h(x) = µ + ρ(x − µ). sino que es una simple conseo o o cuencia de que ρ < 1. x) = E(Y |X = x). la funci´n de regresi´n lineal h(x) dar´ la o o a media de los puntajes en el segundo examen. Demostraci´n: La hacemos para el caso discreto. x y x∈C y Para cada x. siempre suceder´ que o a x > µX =⇒ x − µX h(x) − µY < . En consecuencia este o fen´meno no dice nada sobre la evoluci´n de la poblaci´n. La demostraci´n para el caso continuo sigue el mismo esquema. se podr´ sacar la falsa o ıa conclusi´n de que el desempe˜o relativo de los alumnos con mejores resultados en el primer o n examen. se deduce de (6. y los hijos de petisos son en promedio m´s altos que sus padres.39). restando en u a a cada uno la media y dividiendo por la desviaci´n. son –en promedio– m´s bajos que a a sus padres. La constante c que minimiza es (por (4. o . x) y pY |X (y. o Para la normal bivariada.3) que E(Y |X = x) es una funci´n lineal de o x. o directamente derivando)) c= y 2 y (y−c) pY |X (y. Notemos que para cualquier g el e. La estatura media de los hijos cuyos padres tienen estatura x es h(x) = E(Y |X = x). empeor´ en el segundo. De modo que hijos de hombres m´s altos que la media. basta con minimizar la y . e Y la estatura de su hijo mayor. aqu´ la mejor aproximaci´n lineal coincide con la mejor en general.4 Sea g(x) = E(Y |X = x) si x ∈ C.. o es (y − g(x))2 pXY (x. Y ) es aproximadamente normal bivariada.80 ´ CAP´TULO 6.D: La “falacia de la regresi´n” Sean X la estatura de un se˜or elegido al azar de la poblaci´n de padres con hijos adultos. o Se puede suponer que no hay cambios de una generaci´n a otra.

2 0.3.1 0. 6. sea N la cantidad de ases que salen.9) y (6.1 0.3 La distribuci´n conjunta de X e Y est´ dada por las siguientes probabilidades o a Y 1 2 4 X 2 3 5 0. Si est´. Hallar D(N |M ). Y ). Calcule la media de la cantidad de nombres examinados antes de que el programa se detenga.3 Ejercicios 6.5 Probar que. El dado se arroja N veces m´s. 6. V = m´ a ın(X.40)].0 0. es E(Y |X) = EY .7 Se arroja un dado repetidamente.10 Sean U = m´x(X. si X e Y son independientes. Repetidamente. Calcular E(U |V ) y med(U |V ). 6. se extrae una galletita al azar. donde X e Y son Un(0.12 En una lata hay 12 galletitas dulces y una salada. sea M la cantidad de ases en los primeros cuatro tiros. Hallar la distribuci´n de la cantidad total de ases. Sean X e Y la cantidad de galletitas ingeridas hasta la primera extracci´n de o la salada. 3). Y ). Un programa de computao a dora busca secuencialmente en la lista. pero la rec´ ıproca no es cierta: por ejemplo si P(Y = ±X|X = x) = 0.4 Un nombre est´ presente en una lista de n nombres con probabilidad p. 6.2 Calcular E(Y |X = x) y var(Y |X = x) para cada x.1 Mostrar que si Z ∼ Un(1. a o 6.2 0.10).6 Mostrar que el m´ ınimo de E|Y − g(X)| se obtiene para la mediana condicional g(x) = med(Y |X = x) [usar (4. a a su posici´n en la lista est´ distribuida uniformemente. y si no se la devuelve a la lata. o 6.9 En el problema anterior. 6. X es el n´mero del tiro en el que sale el primer u as. la distribuci´n de Z condicional en el evento 2 ≤ Z ≤ 3 o es Un(2. 6.1 0.6. Y es la cantidad de “dos” que salen antes del primer as. Si la que sale es dulce. y verificar (6. EJERCICIOS 81 6. 1) independientes.2 Probar: X e Y son independientes si y s´lo si D(Y |X) = D(Y ).11 Hallar D(X|X + Y ) donde X e Y son Po(λ) y Po(µ) independientes. 5).1 0.8 Se arroja diez veces un dado equilibrado. 6.0 0. . 6. y entre la primera y la segunda extracci´n de la salada. Calcular E(Y |X) o y EY . Obtener de ah´ E(Y |X) y E Y . se la ingiere. ı 6.5. Probar que D(Y |X) es binomial.

Z) = 0. a = 0.16 Sea Z = Y −g(X) donde g es la funci´n de regresi´n lineal.c. Probar que |ρY1 .Y2 | = |ρX1 . 6. Calcular mentalmente ρXY . para los casos a.15 Sean Y1 = a1 + b1 X1 . b = 1. Y2 = a2 + b2 X2 . y el correspondiente e. Hallar el mejor predictor de X1 en funci´n de X2 . respectivamente. b = 2. c = 0. Sean X e Y las cantidades de resultados pares e impares.5 b. o æ .82 ´ CAP´TULO 6. Calcular ρXY . 6.X2 |.m. la recta de regresi´n de Y o en X. b) y c > 0. 6.17 En un proceso de Poisson.13 Sea Y = X c . DISTRIBUCIONES CONDICIONALES Y PREDICCION ı 6. o o 6. Probar que cov(X. c = 2. a = 1. donde X ∼ Un(a. sean X1 y X2 la cantidad de part´ ıculas despu´s de 5 y de e 15 segundos respectivamente.14 Se arroja un dado 238 veces.

Sea Xi = IAi o ¯ donde Ai es el evento: “en el tiro i-´simo sale as”. Lo que se necesita es un concepto adecuado de l´ o ımite para variables aleatorias. Podr´ arg¨irse que al fin y al cabo ıa u esa sucesi´n de resultados tiene probabilidad nula. pero lo mismo vale para cualquier otra o sucesi´n. y sea Xn = Sn /n. por lo que a dicho l´ ımite no puede tomarse en su sentido habitual. Definici´n 7.) una sucesi´n de variables independientes con la misma distribuci´n. a ‘si caminas lo bastante’.4. . esto no se cumplir´ en ninguno de los dos ejemplos.. y Xn es la e ¯ proporci´n de ases en los primeros n tiros. ım 83 . El problema i=1 ¯ que trataremos es: ¿es cierto que “l´mn→∞ Xn = µ” en alg´n sentido?. donde Sn = n Xi . . dijo el Gato. para sucesiones de resultados ı tales como 4. .5. y o o ¯ por lo tanto con la misma media µ.5. 2.1 Ley de Grandes N´ meros u Sea Xi (i = 1. .1 La sucesi´n de variables Zn tiende a la variable Z en probabilidad (abreo o p viado “Zn → Z”) si para todo > 0 se cumple l´ n→∞ P(|Zn − Z| > ) = 0.5. Sin embargo. del cual uno e esperar´a que se aproxime a 3.4. si definimos en vez a Xi como el resultado del tiro ¯ i-´simo. . Siempre llegar´s a alguna parte’. y Xn es el promedio de los primeros n resultados. “Alicia en el Pa´ de las Maravillas” ıs En este cap´tulo veremos dos resultados muy importantes sobre el comportamiento del ı promedio (o de la suma) de un gran n´mero de variables independientes.” Lewis Carroll. Ser´a entonces de esperar que Xn se aproxime o ı a 1/6 cuando n es “grande”. entonces µ = 3. u 7.5. Entonces µ = P(Ai ) = 1/6.5 para n grande. Asimismo. . ı u Consideremos por ejemplo una sucesi´n de tiradas de un dado equilibrado.Cap´ ıtulo 7 Teoremas L´ ımites “¡Oh!.

parece decir: ‘acordate hermano. Demostraci´n: Usando la desigualdad de Chebychev y (4. Se deduce de (5. ım ¯ Es decir. e no hay que jugar’. o La Ley de Grandes N´meros es importante en relaci´n con el concepto de probabilidad.2 (Ley d´bil de grandes n´meros) Si las Xi son independientes.1) Al comienzo del curso se vio que el concepto intuitivo de probabilidad era el de ”l´mite de ı frecuencias relativas”. TEOREMAS L´ ı ıMITES Teorema 7. el juego es equitativo. Por ejemplo. todas e u ¯ p con media µ y varianza σ2 < ∞. o La Ley de Grandes N´ meros y el uso del valor medio u “. En cambio la existencia de EXi es imprescindible. Pero lo que o ahora vemos es que tomando como definici´n la de los axiomas de Kolmogorov. favorable o desfavorable seg´n u ı u que EX sea respectivamente igual. que llamaremos X. y con probabilidad p gana. (7. dicha Ley implica que (de manera informal) P{as} = l´ ımite de frecuencias relativas. Vol. . Gardel y A. Un resultado mucho m´s profundo. La existencia de la varianza no es necesaria para la validez del resultado. En un juego en el qne el jugador realiza una apuesta a.9) que D(Xn ) = D(X1 ). la ganancia neta del jugador en cada jugada (lo que recibe de la banca menos lo que apost´) es una variable aleatoria. para la que la media o ¯ ¯ no existe (ejercicio 4.84 CAP´TULO 7.29) se obtiene o ¯ P(|Xn − µ| > ) ≤ σ2 . pero que no era posible tomar eso como una definici´n. entonces X → µ.1) (en vez de tomarlo como definici´n). II]. es EX = ps − a. en la ruleta apostando . La demostraci´n se puede encontrar en [7. n2 que tiende a 0 para n → ∞. Le Pera En un juego de azar con banca. mayor o menor que 0. resulta que o se puede demostrar (7. vos sab´s. ” “Por una cabeza”. o Seg´n una terminolog´a tradicional.3 (Ley Fuerte de Grandes N´meros) Si existe µ = EXi . recibiendo de la banca una suma s. lo que o puede verse en el caso en que las Xi tienen distribuci´n de Cauchy. es el que sigue: a Teorema 7. .2). que el conjunto de sucesiones para las que Xn no tiende a µ tiene probabilidad 0. y por lo tanto. de C. debido a Kolmogorov. u o En el primer ejemplo con el dado. y con probabilidad 1 − p pierde su apuesta. y que al regresar. sino s´lo o para simplificar la demostraci´n. Xn no puede tender a una constante. entonces u ¯ l´ n→∞ P(Xn → µ) = 1.

a ıa n y en unos pocos a˜os tendr´ much´ n a ısima agua.2 Teorema Central del L´ ımite Como antes. y por lo tanto la de la banca es positiva. si o o u pierde. El jugador apuesta un d´lar a un n´mero. n a 7. D(Sn ) no tiende a nada. Estos jugadores fundidos estar´ poco dispuestos a ıan llamar al juego “favorable”. Si se dise˜an las turbinas como para aprovechar el caudal n medio.2. no del 0 al 36 como las habituales.7. que como se vio tiende o a µ. Si la dividimos por n obtenemos Xn . Como ıa la banca se enfrenta a numerosos jugadores –que adem´s suelen jugar repetidamente– a est´ en una situaci´n en la que rige la Ley de Grandes N´meros. tal que la media de los caudales o e sea muy superior a la mediana. la planta estar´ la mayor´ de los a˜os operando muy por debajo de su capacidad. o sea que el juego es “desfavorable”. y por lo tanto EX = −1/37.90. Ideas m´s elaboradas se aplican en a el dise˜o de represas y el c´lculo de primas de seguros. la probabilidad de que los pierda antes de llegar a ganar alguna o vez es > (1 − 10−6 )10000 = 0. Sin embargo. de manera que si por ejemplo el jugador tiene un capital inicial de 10000 e d´lares y los juega de a uno. o o todas con media µ y varianza σ2 . es p = 1/37. Estas grandes ı ganancias de algunos. Una idea es transformar la Sn de manera que su dis¯ tribuci´n converja a algo. con la misma distribuci´n. ı ı Los conceptos expuestos en este ejemplo imaginario tienen aplicaciones m´s concretas. si hay un gran n´mero de jugadores. observemos que en cada jugada la probabilidad de ganar es s´lo o un millon´simo. De acuerdo con la terminolog´a o ı anterior.S. Al mismo tiempo. algo que tiene un solo valor. cosa que no compensar´ a los anteriores a per´ ıodos de escasez. TEOREMA CENTRAL DEL L´MITE ı 85 a pleno. y para a = 1 es s = 36. A´n con un capital de medio mill´n.99. pero si no. Xi es una sucesi´n de variables independientes. cosa que uno puede sospechar por ser var(Sn ) → ∞. Buscaremos aproximar la distribuci´n o i=1 de Sn para n grande. Cuando n → ∞. De modo ıa que en una serie ”suficientemente larga” de repeticiones. pues EX = 10−6 × 2 × 106 − 1 = U. ¿Qui´n gana entonces en u e e este juego?. Unos poqu´simos jugadores que obtienen ganancias fabulosas. sino del 1 al mill´n. el jugador tiene una ganancia garantizada.$ 1. de modo que dividir por n resulta demasiado. El planteo matem´tico relevante para el ejemplo de los juegos de a azar es el llamado “problema de la ruina del jugador”. recibe dos millones. a Supongamos que se quiere dise˜ar una planta hidroel´ctrica para operar en un r´o cuyos n e ı caudales anuales tienen una distribuci´n muy asim´trica. si acierta. De todo esto se concluye que el concepto de valor medio es util en situaciones en las ´ que tiene sentido que los valores grandes compensen a los peque˜os. Lo inverso ocurrir´ con un juego “favorable”. . La Ley de Grandes N´meros implica que en un n´mero “suficientemente u u grande” de jugadas de un juego desfavorable. o sea. hay que n recurrir a otras ideas. pierde su d´lar. la probabilidad de u o que se vuelva a su casa a dedo es 0. la ganancia neta del apostador es negativa. la Ley u de Grandes N´meros implica que ¡la banca tambi´n se funde!. el juego ser´ “favorable”. Imaginemos ahora un juego de azar basado en una ruleta numerada. dif´cilmente consuelen a la mayor´a de perdidosos. y por lo tanto que el juego a o u sea “desfavorable” le garantiza a la banca su rentabilidad a largo plazo. y Sn = n Xi .

o o Para la demostraci´n. II]. en vez de en todo x?. y Sn es binomial: Bi(n. Como lo unico que interviene de o ´ d ∗ d o e Z es su distribuci´n. El Teorema Central trata de la convergencia de una sucesi´n de funciones de diso tribuci´n. ¿Por qu´ conformarse en la definici´n con que la convergencia sea s´lo en los puntos de e o o continuidad de F . y sea Zn = (−1)n X. y es = 0 si no.4 (Teorema Central del L´ ımite) l´ n→∞ P(Sn ≤ s) = Φ(s) para todo ım s ∈ R.86 CAP´TULO 7. Entonces µ = p. donde F es discontiua. donde los eventos Ai son independientes y tienen probabilidad p. Si Zn es una sucesi´n de variables –no necesariamente definidas en el mismo – y Z o una variable.5 La sucesi´n de funciones de distribuci´n Fn converge d´bilmente a la o o o e funci´n de distribuci´n F –se escribe Fn → F – si l´ n→∞ Fn (x) = F (x) para todos o o ım los x donde F es continua. y se abrevia “Zn → Z”.5. por lo que trivialmente o d Zn → X. a diferencia de la Ley de Grandes N´meros que trata la convergencia de las o u variables aleatorias. sean Zn = 1/n y Z = 0. sino s´lo de sus distribuciones. Sn → N(0. pero tienen todas la misma distribuci´n. Por lo tanto el Teorema Central del L´mite ı . es l´ Fn (0) = 0 = F (0) = 1. donde Φ es la funci´n de distribuci´n de la N(0. 1). tales que FZn → FZ . Este concepto no tiene nada que ver con la convergencia de las Zn como funciones de → R. si se a quiere una definici´n “natural”. de modo que Fn (x) → F (x) para x = 0. Por ejemplo. tambi´n se puede escribir “Zn → D(Z)”. Vol. = = Sn = σ n σ/ n var(Sn ) Entonces se puede probar el: ∗ Teorema 7. σ 2 = p(1− p). Por ejemplo. Sea Sn la Sn normalizada para que tenga media 0 y varianza 1: ¯ Sn − nµ Sn − ESn Xn − µ ∗ √ √ . sea X una variable que toma los o valores ±1 con probabilidad 0. Por ejemplo. Ser´ razonable que o ıa este caso estuviera incluido en la definici´n de convergencia. La respuesta es que m´s no se puede pedir. TEOREMAS L´ ı ıMITES Habr´ que transformar a Sn de forma que su distribuci´n tendiera a alguna distribuci´n ıa o o que no est´ concentrada en un solo valor.3. en particular –como ya veremos– en Estad´stica y en Mec´nica Estad´ ı a ıstica.1 Aplicaciones del Teorema Central del L´ ımite Aproximaci´n normal a la binomial o Sean Xi = IAi . p). ım 7. y o es = 0 si no. Pero Fn (x) = 1 si x ≥ 1/n. se escribir´ D(Zn ) → D(Z). mientras que F (x) = 1 si x ≥ 0. ver [7. o Este Teorema tiene numerosas aplicaciones. En este caso se dice que a d Zn converge a Z en distribuci´n. 1).3 7. La idea salvadora es transformar a Sn para que e ∗ queden media y varianza constantes. Obviamente las Zn no convergen a nada. El concepto adecuado es ´ste: e Definici´n 7. igual a la de X. pero en 0.

.4. p) es F (x) ≈ Φ{(x − np)/ np(1 − p)}. t1 < t2 < .5 a x. 1] que consiste o en agregarle 0. np(1 − p)) para n “grande”.2) np(1 − p) 7. p) ≈ N(np. 7. < tn =⇒ (Xt2 − Xt1 ). y denominado movimiento browniano– fue a e explicado por Einstein como una consecuencia de la agitaci´n de las mol´cuulas del l´quido. i=1 Las Yi tienen media y varianza iguales a 1. suponiendo X0 = 0. Vol.3) Lo probamos primero cuando λ toma s´lo valores enteros.3 se obtiene λ D(Xλ ) = D Yi . . La part´cula no tiene inercia ı b. Si bien parece obvio que el resultado vale en general. (7. .2 Aproximaci´n normal a la Poisson o La distribuci´n Po(λ) puede ser aproximada por la normal para λ grande. o sea que si F es la o funci´n de distribuci´n de Bi(n. . Sea Xλ ∼ Po(λ). La primera suposici´n la representamos postulando que los incrementos de Xt son indeo pendientes. Consideramos s´lo el caso o o unidimensional. los detalles de la demostraci´n o para λ cualquiera requieren alg´n cuidado. se ve que realizan incesantes movimientos completamente ca´ticos. o sea.3 Movimiento browniano Si se observan al microscopio part´culas en suspensi´n en un l´ ı o ıquido. Hacemos dos suposiciones: a.5 − np F (x) ≈ Φ .7. . el lector los puede hallar al final de la Secci´n u o 7. (7. Entonces. Aplicando el Teorema Central. 1). Esta aproximaci´n o o puede mejorarse utilizando la llamada “correcci´n por continuidad” [7. (Xtn − Xtn−1 ) son independientes. o e ı Damos a continuaci´n un enfoque muy simple del problema. . o sea x + 0.3) cuando λ recorre los enteros. . Entonces se cumple: l´mλ→∞ D ı Xλ − λ √ λ = N(0. ∼ Po(1) indeo pendientes.3. . APLICACIONES DEL TEOREMA CENTRAL DEL L´ ıMITE 87 implica que D(Sn ) = Bi(n. se verifica (7. Sea la variable Xt la posici´n de la part´ o ıcula en el instante t. . del ejercicio 5.4) .3. El fen´meno –descubierto en el siglo o o pasado por el bot´nico ingl´s Robert Brown.3. Sean Y1 . (7. Las condiciones no cambian en el tiempo. Y2 . o Recordemos que Xλ tiene media y varianza iguales a λ.

Sea c = l´ 2 /δ). que D(X) es aproximadamente lognormal (la justificaci´n del “por lo tanto” se ver´ en la Proposici´n 7. con probabilidad 1/2 cada una. (7. o . . n ım( el Teorema Central implica que en el l´mite: ı D(Xt ) = N(0. Un modelo sencillo permite postular la lognormal o para estos casos. y es util en Mineralog´a representar esta n ´ ı variedad mediante una distribuci´n.4 Convergencia en distribuci´n y en probabilidad o Veremos en esta Secci´n algunas propiedades de los dos tipos de convergencia. Wn . postulando que CAP´TULO 7. t. (7. Como la numeraci´n de los dos trozos es arbitraria. y que existe EZi .4 Tama˜ os de piedras n Los fragmentos de rocas tienen distintos tama˜os. Si bien nada garantiza que o a o las suposiciones del modelo se cumplan. y que lo que sucede en un impacto es independiente de los dem´s. etc. En el n-´simo ı e paso. y dado que las Zi tienen todas la misma distribuci´n. 7. Si se supone que las Wi – i=1 2 y por lo tanto las Zi – son independientes.5. 7. para n grande el Teorema Central implica que D(log X) es o aproximadamente normal. el hecho es que la lognormal resulta en la pr´ctica a una buena aproximaci´n para muchas distribuciones emp´ricas de tama˜os de trozos de o ı n minerales.88 La segunda. .6) Las condiciones (7. cada uno de estos dos trozos es dividido a su vez en dos por el mismo proceso. (7.7). y que con cada impacto se desplaza una distancia a la derecha o a la izquierda. es partida al azar en dos trozos. En el segundo paso.]” es la parte entera). una sucesi´n de variables independientes que valen ±1 con probabilidad o n 0. En el primer paso. Como los impactos son muy frecuentes y los desplazamientos muy peque˜os. . hacemos δ → 0 y → 0.4). donde U1 ∈ (0.12. En consecuencia EXt = 0 y var(Xt ) = [t/δ] 2 . Consideremos una roca de masa M .). Entonces. a Sean Z1 .5) y (7. Si se llama X a la masa de cualquier o part´ ıcula. con masas respectivamente M U1 y M (1 − U1 ). . 1) es una variable aleatoria con distribuci´n F . Z2 . aproximamos la situaci´n mediante un “paseo al azar” como en el o problema 2. es log X = log M + n Zi donde Zi = log Wi .3. donde las Wi tienen todas distribuci´n F (la W1 puede ser U1 o 1 − U1 . quedan 2n trozos. con masas de la forma M W1 W2 .5) Para calcular D(Xt ). TEOREMAS L´ ı ıMITES D(Xt+s − Xs ) = D(Xt ) ∀ s. y as´ sucesivamente. suponiendo que la part´ ıcula recibe impactos de las mol´culas del l´ e ıquido a intervalos de tiempo δ. o o se puede suponer que D(U1 ) = D(1 − U1 ). Entonces podemos expresar Xt = i=1 Zi . ct). y por lo tanto.6) definen un proceso estoc´stico con tiempo continuo a llamado “movimiento browniano” o “proceso de Wiener”. . donde n = [t/δ] (“[.

II. o o Hay un caso en que vale la rec´ ıproca: Proposici´n 7.4.10). m´s fuerte que el a de convergencia en distribuci´n. esto implica que si log X es aproximadamente normal. por ejemplo. por ejemplo. que afirma que si dos variables est´n pr´ximas. Zn → c =⇒ Zn → c. l´m FZn (z) = 0 ´ 1 seg´n sea z < c ´ > c.8 Sean Fn y Gn las funciones de distribuci´n de Un y de Vn . entonces g(Zn ) → g(Z). pero es muy f´cil para el caso en que g es o a mon´tona. entonces X es aproximadamente lognormal. o 8].4.7 Si Zn → Z y g es una funci´n continua. entonces g(Zn ) → g(Z). Esto se expresa e en el resultado que sigue. o o p Un − Vn → 0 y Gn → G. d 2 d Tambi´n es de esperar que.1 Convergencia de funciones de variables aleatorias p p 2 Es de esperar que. o Demostraci´n: Por hip´tesis. entonces tambi´n Zn → Z 2 .´ 7. o o La demostraci´n no es simple para g cualquiera. si Zn → Z. en la Secci´n o o 7. o Demostraci´n: Basta aplicar la Proposici´n 7. o o Proposici´n 7. La proposici´n siguiente.8 con Un = Zn y Vn = Z. Cap. es muy f´cil para el caso particular o a en que g es diferenciable con derivada acotada (ejercicio 7. ı o ´ d p p d .2 Relaciones entre los dos tipos de convergencia Una relaci´n muy util entre las convergencias en probabilidad y en distribuci´n es el siguieno ´ o te resultado.2).10 Si c es una constante. se la puede encontrar en [7. entonces Fn → G. caso que queda a cargo del lector (ejercicio 7. a Proposici´n 7. Si La demostraci´n es elemental pero algo trabajosa. Proposici´n 7. Vol. pero larga y aburrida.6 Si Zn → Z y g es una funci´n continua. CONVERGENCIA EN DISTRIBUCION Y EN PROBABILIDAD 89 7. o o La demostraci´n es elemental. Esto e e se verifica a contnuaci´n: o Proposici´n 7. Por lo tanto o o ı o u o P(|Zn − c| > ) ≤ 1 − FZn (c + ) + FZn (c − ) → 0. En particular. como era de esperar. particularmente al buscar aproximaciones para las distribuciones de variables que aparecen en Estad´stica. si Zn → Z. resulta muy util. El concepto de convergencia en probabilidad es. sus distribuciones tambi´n lo a o e est´n (cosa que es de imaginar).4. entonces tambi´n Zn → Z 2 . como se muestra a continuaci´n.3. En muchas situaciones aparecen combinados ambos tipos de convergencia.4. que es bastante intuitiva. d d p p 7.9 Zn → Z =⇒ Zn → Z.

Entonces cn (g(Zn ) − g(a)) → bZ.12: N(0. Asimismo. queda probada la tesis. Xn Yn → cX. o o e Proposici´n 7. sea K tal que P(|X| > K) < . ı Demostraci´n: El desarrollo de Taylor de primer orden de g en a da g(z) − g(a) = o (z − a)(b + h(z)). Demostraci´n: Para (a) se aplica la Proposici´n 7. 1) e Yn → 2. o √ Zλ = Xλ /λ. dados > 0 y δ > 0. g (a)2 n .8 con Un = Xn + Yn y Vn = Xn +c. y b = g (a). √ √ d d n(Zn − a) → N(0. Xn + Yn → X + c b. Tomando en la Proposici´n 7.3) se completa la demostraci´n. 1). Sean: g o d una funci´n diferenciable. 1) =⇒ n(g(Zn ) − g(a)) → N(0. es como si g fuera lineal.7) d d p d d d Ejemplo 7. Por lo tanto ı a cn (g(Zn ) − g(a)) = cn (Zn − a)b + cn (Zn − a)h(Zn ).A: Otra aproximaci´n para la Poisson Se mostrar´ que si Xλ ∼ Po(λ). Una o o a situaci´n similar se tiene en el ejercicio 7. el primer t´rmino del segundo miembro tiende en distribuci´n a e o bZ. Las hip´tesis implican o ı o p p que Zn − a → 0. Y como P(|Un − Vn | > δ) = P(|Xn ||Yn − c| > δ) ≤ P(|Xn | > K) + P(|Yn − c| > δ/K). ı Para esto. o entonces a.12 Sean a y cn constantes tales que cn → ∞ y cn (Zn − a) → Z. o a √ d √ entonces Xλ − λ → √ 1/4) cuando λ → ∞. o . En particular. o O sea que en el l´mite.12. entonces Xn + Yn → N(2. La aproximaci´n que mostraremos ahora es llamada m´todo delta. o sea. En muchas situaciones hace falta la distribuci´n l´mite de una funci´n de las variables o ı o en consideraci´n.90 CAP´TULO 7. (7. Entonces existe n1 tal que n > n1 implica P(|Xn | > K) < δ. D(g(Zn )) ≈ N g(a). donde h es una funci´n tal que l´mz→a h(z) = 0. y de aqu´ se deduce f´cilmente que h(Zn ) → 0. TEOREMAS L´ ı ıMITES d p Proposici´n 7. existe n2 tal que n > n2 implica P(|Yn − c| > /K) < δ. Aqu´ hay que verificar que Un − Vn → 0. se obtiene b = 1/2. b2 ). y el segundo a 0. o N´tese que con esta transformaci´n la varianza no depende del par´metro λ. Por el Lema de Slutsky. si Xn → N(0. cλ = λ y g(x) = x.11 (Lema de Slutsky) Si Xn → X e Yn → c donde c es una constante. o o p Para (b) se toman Un = Xn Yn y Vn = Xn c. y teniendo en cuenta (7. a = 1. Por ejemplo.

2 Probar el Teorema 7. con probabilidades 1 − 1/n y 1/n respectivamente. cada vez que una l´mpara se quema. 1).6 Se arroja 600 veces un dado equilibrado. n = [λ] su parte ı o entera. Adem´s n/λ → 1. Sea Z la suma de todos los puntos obtenidos. 7. ım ı 7. Sea λ cualquiera. Calcular la probabilidad de que la proporci´n de ases est´ entre 1/6 y 1/5. y ya se vio que D((Xn − n)/ n)) → a N(0.4. o e 7.9.3) tiende a N(0. 7.1) ≥ 0. Sea T la duraci´n total del lote (o sea.95 c. 1). Calcular aproximadamente P(680 ≤ Z ≤ 720) para n = 200. Hallar aproximadammte el menor n tal que P(|Z/n − 3. Se o toma una muestra al azar de tama˜o n (la ciudad es lo bastante grande como para n que se puedan considerar equivalentes al muestreo con o sin reemplazo). Calcular aproximadamente ´ a a. ¿Es cierto que E(l´ n→∞ Yn ) = l´mn→∞ (E Yn )?.4 La variable Yn toma los valores 0 y n2 . .5 Ejercicios 7.95 si N = 100.3 *Demostraci´n de la aproximaci´n normal a la Poisson o o Completamos aqu´ la demostraci´n general de (7. 7. Las duraciones de distintas l´mparas son independientes.5| ≤ 0. 7. Probar que Xt /t → c cuando t → ∞. Entonces Xλ = Xn + Xδ ∼ Po(λ). el ultimo t´rmino tiende a 0 en probabilidad por la desigual´ e √ dad de Markov (ejercicio 7. o a.8) Como E(Xδ − δ)2 = δ ∈ [0. el tiempo hasta quemarse la o ultima l´mpara). y δ = λ − n su parte fraccionaria.7. Por lo tanto el Lema de Slutsky implica que (7. b.6 para el caso en que la derivada g es continua y acotada [Sugerencia: usar el Teorema del Valor Medio]. P(T > 115000 horas) para N = 100 b. 1).1 Sea Xt la cantidad de sucesos hasta el instante t en un proceso de Poisson con p intensidad c. el mayor t tal que P(T > t) ≥ 0. el menor N que asegure P(T > 500000) > 0. Por lo tanto a Xλ − λ Xn − n √ = √ n λ n Xδ − δ + √ . es inmediatamente reemplazada o a por otra nueva. Sea R la proporci´n de consumidores en la muestra.13). la proporci´n de consumidores de una marca de gaseosas es p.5.7 En una ciudad. Sean Xn y Xδ independientes con distribuciones de Poisson con par´metros n y δ. En una a instalaci´n. λ λ (7.3). 7.5 La duraci´n de cada l´mpara de un lote de N l´mparas es exponencial con media o a a = 1000 horas. EJERCICIOS 91 7.3 Se arroja n veces un dado equilibrado.

Si p = 0. b.10 de ser cancelada a ultimo momento.01) ≥ 0. d.3. 7. Hallar el menor n necesario. mostrar que para n grande. usar el Teorema Central para obtener el n.99.92 CAP´TULO 7.01) ≥ 0. La experiencia indica que cada reserva tiene o una probabilidad 0. Se ´ supone que los pasajeros hacen sus reservas individualmente.13 Probar que si E|Zn −Z|α → o para alg´n α > 0.9. 7. Si p = 0. Si p = 0.11 En el problema 4.01). hallar aproximadamente el δ tal que P(|X/100 − 1| ≤ δ) = 0. p es desconocido. hallar el menor δ tal que P(|R − p| < δ) ≥ 0.15. y compararlo con el que dar´ la desigualdad de Chebychev. sea ≤ 0. entonces Zn → Z [usar la desigualdad u de Markov].8 Una excursi´n dispone de 100 plazas.12 Si X ∼ Bi(n. 7.2 y n = 200. ıa 7. Calcular el n´mero m´ximo de reservas que se pueden aceptar. Se puede suponer (por los resultados de muestreos anteriores) que 0. TEOREMAS L´ ı ıMITES a. Se desea elegir n tal que o a P(|R − p| ≤ 0. p).1 ≤ p ≤ 0. la distribuci´n de arcsen( X/n) se o puede aproximar por una normal cuya varianza no depende de p.9.10 Probar que si Zn → Z. y g es una funci´n continua y creciente. entonces g(Zn ) → o g(Z). en forma independiente.2 y n = 200.9 Si X ∼ Po(100). hallar el menor n tal que P(|R − p| ≤ 0. c.9.01. 7. 7. æ p d d .2. Se desea que la probabilidad de que queden clientes indignados por haber hecho su u a reserva y no poder viajar. calcular aproximadamente P(|R − p| ≤ 0. En una situaci´n m´s realista. No hay lista de espera.

Parte II ESTADISTICA 93 .

.

y debemos extraer de ellas conclusiones sobre los modelos que podr´ cumplir. ¯ (8. disponemos de conjuntos de observaciones (“muestras”) correspondientes a un experimento considerado aleatorio.3) 95 .1) o sea. Veremos ahora c´mo sintetizar caracter´sticas de la muestra en unos o ı pocos n´meros relevantes. n).1 Res´ menes u En Probabilidad hemos considerado hasta ahora el comportamiento de observaciones que cumplen un modelo dado. vx = (xi − x)2 . una escalera con salto 1/n en cada xi .1. . .2) n i=1 n i=1 Se prueba como en (4. u a a o que son n n 1 1 x= ¯ xi . .Cap´ ıtulo 8 Descripci´n de una Muestra o 8. La correspondiente funci´n de distribuci´n emp´rica es o o ı F ∗ (t) = 1 1 card{i : xi ≤ t} = n n n i=1 I(xi ≤ t). . . . En este cap´ ıtulo se presentan algunos m´todos sencillos para describir la informaci´n e o contenida en F ∗ . . u 8. En Estad´ ıstica. ıan La distribuci´n muestral (o emp´ o ırica) correspondiente a una muestra x1 . xn . .22) que vx = 1 n n i=1 x2 − x2 . (8. en cambio. ¯ i (8.1 Media y varianza muestrales Los res´menes m´s f´ciles de calcular son la media y varianza de la distribuci´n muestral. dando a cada uno o probabilidad 1/n. es la distribuci´n discreta concentrada en los puntos xi (i = 1.

96 ´ CAP´TULO 8. cuyo c´lculo requiere obviamente a a ordenar la muestra.W. Esto puede ser engorroso si n es grande y no se dispone de una computadora. Una r´pida mirada a los datos muestra que ´stos est´n entre 210 y 270. Como es m´s f´cil explicarlo con un ejemplo.. que tiene “tallo” 23 y “hoja” 7. Tabla 8. que adem´s muestra una forma de evitar ese peligro. Pese a estas ventajas.1. DESCRIPCION DE UNA MUESTRA ı Esta f´rmula es m´s f´cil que la anterior si s´lo se dispone de calculadora. El segundo es 242. ≤ x(n) los xi ordenados (o estad´sticos de orden). Ahora es f´cil hallar cualquier x(i) gui´ndose por la primera columna.A. como puede comprobarse en el e u ejercicio 8. a´n con una computadora.2. El primer valor de la u muestra es 237. est´ basado en la idea de que es m´s f´cil ordenar a a a varios conjuntos peque˜os que uno grande. a 8.2 Diagrama de tallo y hoja Sean x(1) ≤ . y figura por lo tanto como “7” en la fila del 23. Tukey y llamado diagrama de e tallo y hoja (“stem-and-leaf plot”) [9]. e o estos dos par´metros pueden ser enga˜osos si se buscan “valores representativos”. tambi´n se las puede conocer para su uni´n (ejercicio 8. etc. El lado izquierdo de la Tabla 8. La segunda columna indica la cantidad de hojas de cada tallo. que figura como “2” en la fila del 24.. Los a e a n´meros de la primera columna (“tallo”) representan a 210. . inventado por J. a Ejemplo 8. . 57. .3).260. como se a n vio en el ejemplo de p´g. El lado derecho de la tabla muestra el resultado final. El siguiente m´todo. n a a lo haremos con los datos del Ejemplo 8. . La media y varianza muestrales tienen la propiedad de que si se las conoce para dos muestras. Los m´todos m´s utiles ı e a ´ para analizar una muestra est´n basados en los x(i) . y la primera da la suma acumulada.1 muestra el primer paso. e 237 242 232 242 248 230 244 243 262 234 220 225 246 232 218 228 254 240 El lector puede verificar que la media y varianza muestrales son respectivamente 237 y 121. a a . . pero puede ser o a a o num´ricamente poco confiable.A: Duraci´n de pilas Los siguientes datos son las duraciones (en horas) o de una muestra de pilas el´ctricas [16].1: Diagrama de tallo y hoja 21 22 23 24 25 26 8 0 7 2 4 2 1 4 10 16 17 18 1 3 6 6 1 1 21 22 23 24 25 26 8 0 0 0 4 2 5 2 2 8 0 8 4 4 2 3 6 0 5 2 2 8 2 2 4 3 7 4 6 8 En cada fila se ordenan las “hojas”.

5. la observaci´n central. u a 8. y sea adem´s una funci´n creciente y continua de α.75). F ∗ salta de (k − 1)/n a k/n.4) donde k y h son respectivamente la parte entera y la parte fraccionaria de u = nα + 0.4) es la unica ´ α soluci´n de o ˜ α F (x∗ ) = α. Cada a . Si n es 0. se introduce a o una peque˜a modificaci´n. Un resumen ı ´ de 5 n´meros de la muestra consiste de: el minimo.5. los cuantiles no quedan as´ un´ ı ıvocamente definidos. n = 2m con m entero. De igual forma se calculan los cuartiles muestrales (α = 0. Como veremos en la secci´n 8. de lo que resulta x0. y por lo tanto k = m = n/2 y h = 0.5. 2n (8. u Como F ∗ es una escalera. Como se defini´ en la secci´n 4. De modo que ´ 1 ˜ F (x(k) ) = 2 k−1 k + n n = 2k − 1 . la mediana o es (x(9) + x(10) )/2 = 236. los 3 cuartiles.5 impar: n = 2m − 1.6) Para α = 0.´ 8. (8. Para que xα quede bien definido. Para justificar esta definici´n.5) ˜ y es lineal entre los x(k) .4 Diagrama de caja El diagrama de caja (“box plot”) [9] es una representaci´n gr´fica del resumen de 5 n´meros. que implica u = m = (n + 1)/2. y x∗ de (8. Entonces F es continua y creciente. Para la muestra de pilas. Para las pilas.2.3 Cuantiles muestrales Volvemos al objetivo de describir la muestra.1. RESUMENES 97 El criterio para elegir el tama˜o de los “tallos” es que en cada uno la cantidad de valores n permita ordenarlos f´cilmente. sino una forma de representarlos. o sea. y F ∗ (t) ≥ α si t > xα . el cuantil o o α de F ∗ es cualquier n´mero xα tal que F ∗ (t) ≤ α si t < xα . (8. k = [u] y h = u − [u]. o sea. o sea. el promedio de las dos observaciones centrales.5.1. y por lo tanto k = m y h = 0. No es necesario –aunque es conveniente– que los tallos a est´n igualmente espaciados. los cuartiles son x(5) y x(14) .5 se tiene la mediana muestral. lo que implica u = m + 0. o a u que se obtiene marc´ndolos sobre una recta y recuadrando los 3 cuartiles (Figura 8. o sea. definiendo n o x∗ = (1 − h)x(k) + hx(k+1) α para α ∈ [1/2n. 1 − 1/2n].1).5. Si n es par.1. Con los cuartiles se puede medir la asimetr´a mediante (4.5 = x(m) . recordemos que el gr´fico de F ∗ es una sucesi´n de o a o ˜ escalones: en x(k) .1. aqu´ hay ı 4 casos que considerar. una sucesi´n de “rampas”. La primera rampa se prolonga hasta la ordenada 0 por la izquierda o y la ultima por la derecha hasta 1.1. que quedan a cargo del lector. o 8. y el m´ximo. Sea F la funci´n que se obtiene de F ∗ o uniendo con segmentos los puntos medios de las l´ ıneas verticales de los escalones. con lo que resulta x∗ = (x(k) + x(k+1) )/2.42). este diagrama brinda no e o s´lo un ordenamiento de los datos.25 y α = 0.

02 1.94 0. en los que ı se puede apreciar que difieren en posici´n.03 De aqu´ se obtienen los diagrama de caja de las muestras de la Figura 8. Tambi´n es util para comparar dos o m´s muestras.05 1.94 .03 0. A y B. para m intervalos de extremos a0 < . la “caja” contiene aproximadamente la mitad. aj )}. DESCRIPCION DE UNA MUESTRA ı uno de los cuatro segmentos que se forman contiene aproximadamente la cuarta parte de las observaciones.03 1.97 El lector puede comprobar que los respectivos res´menes de 5 valores son: u A : 0. Si se quiere calcular x y vx con datos agrupados.03 1. El diagrama da entonces una visi´n r´pida de c´mo est´n distribuidas las observaciones.05 B : 0.04 1.1. y en particular una idea o a o a del grado de asimetr´a.98 1.97 1. . Es decir.04 Figura 8. A : 0. o o ı A B . Sean pj = fj /n las frecuencias relativas.97 1.98 ´ CAP´TULO 8. se ha restado 79 de todos los valores.96 . < am se conocen las frecuencias fj = card{xi ∈ [aj−1 . fueron utilizados para o e determinar la cantidad de calor necesaria para llevar el hielo de −72 o C a 0 o C (en calor´ ıas por gramo de masa) [14].96 0.04 1. no se dispone de toda la infor¯ maci´n necesaria.97 1.015 1.04 1.03 1. . Una buena aproximaci´n se obtiene suponiendo que los datos est´n o o a uniformemente distribuidos en cada intervalo.02 1.00 1.02 B : 1.04 0.97 1.97 0. ı e ´ a Ejemplo 8.95 0.98 0.02 1. .94 0.03 1. sino de los valores agrupados.0 1. dispersi´n y asimetr´a.B: Calor de fusi´n del hielo Dos m´todos.98 1.00 1.1: Fusi´n del hielo: diagramas de caja o Datos agrupados En algunos casos –especialmente cuando n es muy grande– no se dispone de la muestra. Para simplificar.02 0.

De modo que aqu´ tenemos otro uso de dicho diagrama ı (que s´lo es v´lido si las “hojas” est´n igualmente espaciadas). a o para orientarse en la elecci´n de un modelo. entonces se puede estimar x∗j = aj . 230. Para la deducci´n. los intervalos est´n ya determinados. Salvo que n sea a o a muy grande.2. en particular. se recomienda probar distintas variantes para distinguir lo real de lo ilusorio. o o e 8.2. si para los datos del Ejemplo 8.2 (los extremos fueron elegidos as´ s´lo como ilustraci´n). aj ) y a 0 fuera de los intervalos. o a a 8. 8. y Lj = aj − aj−1 las longitudes de los intervalos. m´s el ultimo t´rmino que tiene en cuenta e a ´ e las longitudes de los mismos. Un motivo puede ser que la distribuci´n dada figure en las suposiciones de alg´n m´todo estad´ o u e ıstico que se va a . ¯ Entonces se tiene la aproximaci´n o m m x≈ ¯ pj xj . lamentablea mente no hay reglas simples para elegir su n´mero y sus extremos. Los cuantiles intermedios se q k=1 aproximan interpolando.1 girando el libro 90o . Esto es una versi´n discreta de la densidad. y que se suele llamar correcci´n de Shepard.7) Es decir. ¯ j=1 vx ≈ j=1 pj (¯j − x)2 + x ¯ 1 12 m pj L2 . con longitudes Lj = aj − aj−1 . normal o exponencial). a Por ejemplo.2 La forma de la distribuci´n o Es importante tener una idea gr´fica de la forma de la distribuci´n muestral. s´lo se pueden estimar algunos cuantiles. Veremos a continuaci´n dos m´todos simples.10 Si los datos est´n agrupados. un o conjunto de rect´ngulos con ´rea fj (o pj ). obtenemos el histograma de la Figura 8. pero m´s variabilidad. Sean qj = a o j F ∗ (aj ) = pk .A elegimos los intervalos de extremos 210.2 Diagrama de cuantiles A veces se desea comparar la forma de la distribuci´n muestral con la de una distribuci´n o o o familia de distribuciones dada (por ejemplo. Si son muy angostos. . 250 y 270. j j=1 (8. o o ver el ejercicio 8. notar´ a que ¡obtuvo gratis un histograma!. Si el lector mira el diagrama de tallo y hoja de Tabla 8.´ 8. < am . aj )} (o las frecuencias relativas pj = fj /n). calculando las frecuencias fj = card{xi ∈ [aj−1 .2. Pero si no. u hay m´s detalle en la representaci´n. la media se calcula como si todas las observaciones estuvieran en los puntos medios de los intervalos. y viceversa.240.1 Histograma Un histograma de una muestra se obtiene eligiendo una partici´n en m intervalos de o extremos a0 < . ı o o Si los datos vienen agrupados. en a a la que ´reas miden frecuencias. y graficando la funci´n o igual a fj /Lj (o pj /Lj ) en el intervalo [aj−1 . . O sea. y la varianza tambi´n. LA FORMA DE LA DISTRIBUCION 99 xj = (aj−1 + aj )/2 los puntos medios.

8) 2n el diagrama se hace graficando x(k) en la ordenada contra G−1 (αk ) en la abscisa. .100 ´ CAP´TULO 8. y entonces se quiere ver en qu´ medida los e datos parecen estar de acuerdo con las suposiciones.8 a los datos originales. . 1).5) es F (x(k) ) = αk donde 2k − 1 αk = . . 1) dar´ aproximadamente una recta. a Frecuentemente. DESCRIPCION DE UNA MUESTRA ı 210 230 240 250 270 Figura 8. uno desea comparar la distribuci´n muestral con una familia de diso tribuciones. Si F ∗ ≈ G. e Sea G la distribuci´n dada. . a o por ejemplo “es aproximadamente normal. Como α ˜ por (8. Del gr´fico se podr´ inferir en qu´ aspectos difiere F ∗ de o a a e la normal. y F la de N(µ. Si G es la FD correspondiente a N(0.C: Velocidad de la luz Los datos siguientes corresponden a 20 mediciones (en segundos) del tiempo empleado por la luz para recorrer una distancia de 7442 m. diciendo. 1). n. con ordenada en el origen y pendiente aproximadamente a iguales a la media y la desviaci´n. [20] (para simplificar. σ2 ). el gr´fico debiera aproximarse a la recta identidad. los datos de la tabla son el resultado de restar 24. 1). La misma idea vale para cualquier familia de escala y posici´n. En consecuencia. Ejemplo 8. salvo que un poco asim´trica”. Consideremos por ejemplo la normal. y por lo tanto el gr´fico de a F −1 contra G−1 da una recta con pendiente σ y ordenada en el origen µ. para k = 1. (8. x∗ contra G−1 (α) para α ∈ (0.2: Histograma de la duraci´n de pilas o aplicar. es F −1 (u) = σG−1 (u) + µ para u ∈ (0. Otro motivo puede ser simplemente el disponer de una manera m´s sencilla de describir una distribuci´n muestral. o sea. como se ver´ en los cap´ a ıtulos siguientes. el diagrama de cuantiles de la muestra con N(0. el gr´fico con G = Ex(1) debiera dar aproximadamente a una recta por el origen. El diagrama de cuantiles consiste en graficar los cuantiles o muestrales con los correspondientes de G. . Si se desea como parar con la familia exponencial. si F ∗ es aproximadamente normal.

.5. n}.18. y la abscisa G−1 (αk ).5 . LA FORMA DE LA DISTRIBUCION y luego multiplicar por 1000). 40 20 x(i) 0 -20 -40 × × × ×× × × × ×× × ×× × ×× × × × × -2 -1 0 1 2 Figura 8. La idea b´sica es comparar los cuano a tiles α de ambas distribuciones.2. 2. 28 26 33 24 34 −44 27 16 40 −2 29 22 24 21 25 30 23 29 31 19 101 En el diagrama normal de cuantiles de la Figura 8.3.5. . El primero corresponde a la mediana. la secuencia total es 1. 3. y sus sim´tricos 3/4. . la secuencia es 10. definiremos un subconjunto de ´ a ındices “k” de {1. .8). Pero se puede realizar un diagrama simplificado. .17. e M´s precisamente.15. . 7/8. 1. Luego se toman los sim´tricos n − k + 1. y que la informaci´n m´s importante sobre diferencias entre la distribuci´n o a o muestral y la te´rica suele notarse en los extremos. a a . 5.19 (donde “10” corresponde a la mediana). Dado un k. el pr´ximo es [(k + 1)/2]. si n = 19. 1/8 . . Es m´s f´cil verlo con un ejemplo.18. que se grafica contra la ordenada x(k) .5” representa el promedio de x(10) y x(11) . Para cada uno de estos valores de k se calcula el correspondiente αk de (8.17. . .3 se ve que la muestra est´ basa tante bien descripta por la normal. hasta llegar a 1.19 (donde “10.2. Si n = 20.´ 8.3: Tiempos de pasaje de la luz: diagrama normal Realizar estos diagramas a mano puede ser muy trabajoso para n grande. y es igual a (n + 1)/2 (que para n par representa el promedio de las dos observaciones centrales).10.10.3. e y quedan en definitiva 1. o sea la mediana). 1/4.15. basado en la idea de que no es indispensable usar todos los x(i) . salvo las dos observaciones menores que se apartan notablemente. . para α = 1/2.2. Por o ejemplo.

3: Kevlar: valores auxiliares k 1 2 4 7 13 25 50.6 266. promedio de x(50) y x(51) .5 4.3 7.7 894.965 0.9 80.3 269.9 83.4 149.2 656.3 656.3 140.2 118.2 183.005 0.5 316.5 59.5 49.6 132.5 41.3 272.50 140.30 295.30 61.5 974.7 103.8 8.2 251.8 131.4 152.6 285. Con este material se realiza el gr´fico de la Figura 8. que muestra poca correspondencia entre ambas distribuciones: a si bien los valores menores siguen aproximadamente una recta por el origen.005 0.125 0. a Tabla 8.8 461.3 739.015 0.9 El “50.8 451.0 137.18 29.2 da las duraciones bajo tensi´n de 100 e o filamentos de Kevlar.3 739. e Tabla 8.5 0.9 329.067 0.1 6.3 3.30 x(k) 0.4 346.8 183.08 2.065 0.4 125.8 160.935 0.0 8. La Tabla o 8.69 1.2 170.1 381.60 10.2: Duraci´n de filamentos de Kevlar (en horas) o 0.41 2.102 ´ CAP´TULO 8.3 393.0 44.8 267.6 195.5” representa la mediana.0 195.9 202. esto no sucede si se incluyen los mayores.7 10.2 41.7 194.1 574.28 0.7 77.8 105.2 179.2 6.0 304.30 123.5 108.0 166.0 104.2 69.035 0.985 0.2 301.5 351.7 24.9 372.8 133.5 76 88 94 97 99 100 αk 0.0 8.D: Resina sint´tica La Tabla 8.3 112.35 4.5 152.6 129.2 50.1 122.13 0.5 116.245 0.7 87.1 82.20 5.4 93. DESCRIPCION DE UNA MUESTRA ı Ejemplo 8.1 31.5 130.5 150.0 292.10 372.036 0.7 227.5 83. una resina sint´tica [14].4.015 0.9 Veremos si estos datos se pueden ajustar por una distribuci´n exponencial.995 − ln(1 − αk ) 0.5 220.1 84.5 177.2 124.73 3.765 0.3 894.2 663.90 221.6 369.6 70.70 87.7 974. La familia de distribuciones Weibull puede ser transformada en una de escala y posici´n o .18 3. ya ordenadas.9 353.90 174.1 270.2 334.30 759.8 163.3 669.6 157.875 0.6 64.3 muestra los c´lculos previos.4 148.7 285.

8.6).8). Rep´talo despu´s de restar ı e 1000000 a todos los datos. EJERCICIOS 103 1000 × × 800 × × 600 400 × × 200 × × × × × × 0 0 2 4 6 Figura 8. .3) utilizando (o simulando) una calculadora que retiene los primeros 7 d´ ıgitos significativos. u 1000002. . 8.1 Sean Xi (i = 1.3 Ejercicios 8. El lector podr´ verificar que la Weibull da un muy a buen ajuste a estos datos (ejercicio 8. o n sea F ∗ (x) = n−1 i=1 I(Xi ≤ x). y sea o o F ∗ la funci´n de distribuci´n emp´ o o ırica correspondiente a la muestra X1 . Probar que para cada x es E F ∗ (x) = nF (x) y ∗ var(F (x)) = nF (x)(1 − F (x)).E). 8.3 Si de cada una de dos muestras conoce s´lo la media.4 Probar (8. de las dos formas (8. . . .4: Kevlar: diagrama exponencial tomando logaritmos (Ejemplo 3. la varianza y el n´mero de o u elementos. . 1000003. .2) y (8. n) variables independientes con funci´n de distribuci´n F . . Xn .8. o o 8.3.2 Compare los resultados de calcular la varianza muestral de los n´meros: 1000001. muestre c´mo calcular media y varianza de la uni´n. .

71 8. a o c. < am .5 Los siguientes valores son las duraciones (en horas) de una muestra de 15 l´mparas: a 459 84 166 559 459 3425 1784 2250 4142 3425 1251 0765 0866 1605 1251 a. 8.65 8. ¿puede darse una idea de por qu´ fall´ el e o ajuste a la exponencial?.80 7.9 Los datos siguientes son longitudes dorsales (en mm.D.58 7. 8. Hacer el diagrama de caja.23 8. Aplique dicho m´todo a los datos del Ejemplo 8.D [en la Tabla 8. . j=1 Calcular la media y varianza de f y comparar con (8. 21 67 08 40 23 28 32 19 80 110 190 63 12 16 18 05 44 51 57 35 22 27 29 73 84 130 10 15 17 43 49 54 8. Hacer un diagrama de cuantiles para comparar con la log-normal.) de oct´podos de distintas o especies [14]. de caja. Hacer un gr´fico de cuantiles con la distribuci´n exponencial.87 8. .8 a.86 5. b. . . y el diagrama normal de cuantiles.13 (b). aj ]. pi (i = 1. describa un m´todo para comparar e una distribuci´n muestral con una Weibull. .35 8.76 8. y f la u densidad dada por f = m pj fj .7 a.71 8. ¿Qu´ descripci´n har´a e o ı de los resultados?.71 8.36 8. Haga el diagrama de tallo y hoja de los datos del Ejemplo 8. donde fj es la densidad uniforme en [aj−1 .3 tiene hecha e parte del trabajo].31 8. m) n´meros posiivos que suman 1.50 8. Haga los diagramas ıa de tallo y hoja. . Idem con la normal. 8. b. del ´ngulo a bajo el cual se ver´ la Tierra desde el sol– en segundos de arco.30 9.28 9. DESCRIPCION DE UNA MUESTRA ı 8.7).104 ´ CAP´TULO 8.10 Sean a0 < a1 < . . Mirando el histograma producido. o b.6 Los datos siguientes son determinaciones del paralaje del sol –es decir.44 8. Usando los resultados del Ejercicio 3. 8.

es a trav´s de e una medida del error.1 Introducci´n o Hasta ahora nos hemos ocupado de obtener propiedades de observaciones correspondientes a variables con una distribuci´n dada. salvo que esto ser´ un tanto antiecon´mico.A: Control de calidad Se desea controlar un lote de N = 1000 latas de conservas. 1. . n} en {0. 1. y se quiere obtener o informaci´n sobre ´sta. y llamar a ambas “estimador”. examinando todas las latas. el par´metro podr´ ser determinado a a ıa exactamente. aunque desde el punto de vista formal sea un “abuso de lenguaje”. ¿Qu´ se puede decir de M ?. resultan 2 defectuosas. e Esta es una situaci´n t´ o ıpica de inferencia estad´ ıstica: de una muestra. M ∗ (X) es una variable aleatoria. Ejemplo 9. En las situaciones m´s manejables. tal que “en u alg´n sentido” sea M ∗ (X) ≈ M . se supone que la distribuci´n o e a o pertenece a una familia con ciertos par´metros que se desea estimar. o X es una variable aleatoria. u Se elige al azar una muestra de n = 30 sin reemplazo. . . A continuaci´n se muestran los dos m´todos m´s imo e a 105 . . . Una forma en la cual se puede precisar el sentido de “M ∗ (X) ≈ M ”. e o La intuici´n dice que debiera ser M ∗ = N X/n. Ahora trataremos el problema inverso: se o tienen observaciones correspondientes a una distribuci´n desconocida. obtener conclusiones sobre una poblaci´n. Se ıa o busca una regla que a cada valor de X haga corresponder un n´mero M ∗ (X). A a a trav´s del emc se puede establecer si el estimador tiene la precisi´n deseada. . La distribuci´n de X (en este caso la hipergeom´trica) cono e tiene un par´metro desconocido. N }. Pero ¿hay alguna manera sistem´tica o a de obtener “buenos” estimadores?. de las cuales un n´mero M desconocido son defectuosas (tienen botulismo).Cap´ ıtulo 9 Estimaci´n Puntual o 9. Aqu´ M ∗ es una funci´n u ı. Sea en general X la cantidad de latas defectuosas en la muestra. La m´s usada es el error medio cuadr´tico: emc = E(M ∗ − M )2 . En este caso. Se suele usar e la misma notaci´n “M ∗ ” para ambas. Esto es un estimador puntual. . o de {0. lo que no produce o confusiones. M . a comenzamos con un ejemplo. Para entrar en tema. Tambi´n. Examinadas estas. .

M ) = M x N −M n−x . n Sea u = (N + 1)x/n. p(x. M − 1) > 1. Simplificando los factoriales. entonces para cada x. el valor a del par´metro que maximiza la probabilidad de que “haya sucedido lo que efectivamente a sucedi´”. . M ) es decreciente en M . N . Si x = n. En el Ejemplo 9. N n El m´todo de m´xima verosimilitud (en ingl´s: “maximum likelihood”) consiste en definir e a e para cada x la funci´n M ∗ (x) como el valor de M que maximiza p(x. ´ CAP´TULO 9. y en M = u y M = u − 1 si u es entero. Para ponerlo de manifiesto.] es la parte entera). M − 1) > 1 (a semejanza de la resoluci´n del ejercicio o 2. M ) para x ∈ {0. es siempre p(x. M ) es creciente en M . para hallar el m´ximo buscamos o o a los M para los que p(x. o a escribimos P(X = x) = p(x. como M toma s´lo valores enteros. . es p(x. Este es el estimador a o de maxima verosimilitud (EMV). es decir. p(x. p(x.106 portantes. M )/p(x. enteros entre 0 y N . si x = 0. lo que est´ de acuerdo con la intuici´n.19). Si 0 < x < n. n)–. M ). donde –por ser D(X) = Hi(M. En este caso. o sea p(x. M )/p(x. . En consecuencia tenemos (N + 1)x M ∗ (x) = si x < n n = N si x = n.A es M ∗ = 66. y el m´ximo se alcanza en a M = 0. a El m´todo de los momentos e Notemos que la esperanza de X depende de M: EX = x∈C x p(x. N. por definici´n. queda M (N − M − n + x + 1) >1 (N − M + 1)(M − x) (N + 1)x ⇐⇒ M n < N x + x ⇐⇒ M < . entre los vao lores que puede tomar el par´metro. M ) alcanza su m´ximo en a M = [u] si u no es entero. n}. y por lo tanto el m´ximo se a alcanza en M = N. el EMV toma siempre valores o o admisibles del par´metro (en este caso. 1. . ESTIMACION PUNTUAL ı El m´todo de m´xima verosimilitud e a La distribuci´n de X depende del par´metro desconocido M . M ) p(x. M ) = nM . M − 1) = (donde “[. enteros entre 0 y N ). en este caso. N´tese que.

2. . pero el valor que se obtiene puede no ser entero. . xn ). Xn ) o e con la que se desea aproximar a θ. Pasamos a definir en general los dos m´todos de la secci´n anterior. Esto se llama una muestra de la diso tribuci´n. . θ) = ∂F (x.3).´ ´ 9.2. este o ultimo es en algunos casos m´s f´cil de calcular. o o Si la distribuci´n es discreta. conjunto finito o numerable (que puede depender de θ). .1 M´todos de estimaci´n e o Estimaci´n de un par´metro o a Ahora pasamos a una situaci´n m´s general.2 9. . n) para x ∈ C. . METODOS DE ESTIMACION El m´todo consiste en igualar EX con X y resolver la ecuaci´n resultante: e o nM NX = X ⇐⇒ M = . En compensaci´n. xn ) que maximiza L(x1 . En el Ejemplo es M ∗ = 66. . . Sea o a F (x. xn . . θ): θ∗ = θ∗ (x1 . . El EMV es el valor de θ ∈ Θ (que depende de x1 . θ) (i = 1. . θ) la funci´n de distribuci´n. . pero en otros pueden ser totalmente distintos (ejercicio 9. . Si es continua. En muchos casos el estimador de momentos coincide con el EMV. . . Se tienen n observaciones X1 . . . y se dice que las variables son “iid ” (independientes id´nticamente distribuidas). que son o a variables independientes con la misma distribuci´n. Esto da parecido al EMV. . . o e La distribuci´n contiene un par´metro desconocido θ que pertenece a un conjunto Θ. . Xn . Un estimador puntual de θ es una funci´n θ ∗ = θ ∗ (X1 . θ) (caso continuo). θ) para xi ∈ C (caso discreto) (9. o M´todo de m´xima verosimilitud e a Se define la funci´n de verosimilitud como la funci´n de frecuencia o de densidad conjunta o o de las observaciones: n L(x1 . . N n 107 y se define el estimador como M ∗ = N X/n. xn . θ)/∂x. . . .1) = i=1 f (xi . . que depende o o de θ : P(Xi = x) = p(x. En general el EMV tiene menor emc que el de momentos. . θ) = i=1 n p(xi .67. queda descripta por la funci´n de frecuencia. . . ´ a a 9. queda descripta por la densidad (com´n a todas las u Xi ) f (x. .

hay casos en que esa elecci´n no sirve. Un estimador de momentos. . . o sea. θ) dx (caso continuo). de la o ecuaci´n o n 1 E g(X) = g(Xi ). en forma m´s general. n se suponen variables independientes con distribuci´n Ex(θ): o f (x. . a o Ejemplo 9. .2) La soluci´n. i=1 . Xn .2). θ n Para el EMV de θ. o sea θ ∗ = X. El m´todo de momentos (en su versi´n m´s simple) consiste en plantear e o a ¯ una ecuaci´n. la funci´n de verosimilitud es: o L(x1 . Una o 2 alternativa es aplicar (9. ESTIMACION PUNTUAL ı M´todo de los momentos e La esperanza EXi es una funci´n de θ (no depende de i): o EXi = x ∞ x p(x. g de la forma g(x) = xk . igualando la media “te´rica” m(θ) con la media emp´rica X: o o ı 1 ¯ m(θ) = X = n n Xi . ¯ Haciendo ∂L/∂θ = 0 queda θ ∗ (x1 . xn ) = x. . σ 2 ) y se desea estimar la varianza θ = σ 2 aplicando (9. es el estimador de momentos. i = 1 . no de las Xi sino de una alguna funci´n g de las mismas. . xn ≥ 0). . θ) = 1 −x/θ e I(x ≥ 0). se puede definir igualando las medias a te´rica y emp´ o ırica. ¯ ¯ Para el estimador de momentos: EXi = θ = m(θ). xn . i=1 (9.2) a las Xi . resulta EXi = 0. −∞ = Sea m(θ) = EX . . que da la ecuaci´n o 2 EXi = θ = 1 n n Xi2 . . θ) = 1 1 exp − θn θ xi i=1 I(x1 ≥ 0. . θ) (caso discreto) xf (x. ı Ejemplo 9. como se ver´ a continuaci´n. que depende de X1 . . . . .108 ´ CAP´TULO 9. . por ejemplo. .B: Exponencial Se prueba un lote de n l´mparas cuyos tiempos de duraci´n a o Xi . (9.A o ten´amos n = 1. . Por lo tanto se obtiene θ ∗ = X otra vez.C: Varianza de la normal Si Xi ∼ N(0. . y es mejor o tomar. En el ejemplo 9. y por lo tanto la ecuaci´n no da nada. .3) n i=1 Si bien lo habitual es tomar g(x) = x.

el conjunto C = {x : f (x. las propiedades estad´ o o ısticas de ambos estimadores no son las mismas (ejercicio 9. el estimador de c es 20/10 sin importar de cu´l de a las dos formas se realiz´ la medici´n. se ¯ verifica enseguida que ψ(x. xn . lo que es equivalente a maximizar L por ser el logaritmo una funci´n creciente.´ ´ 9. o sea que tenemos una muestra de tama˜o 1 de la Poisson. θ) = 1 I θn (0 ≤ xi ≤ θ) = 1 I(0 ≤ m´ i xi ≤ m´xi xi ≤ θ). La funci´n de o verosimilitud es L(x1 . Por ejemplo. y por lo tanto el EMV es cn = n/T . θ)/∂θ. para la normal es C = R.9). Se ha a a deducido entonces que el EMV es θ ∗ = m´xi Xi . como las sumas suelen ser m´s tratables que los productos. σ2 ) y se busca el EMV de µ.4) da µ∗ = X. Ejemplo 9. por lo que no estamos en el caso regular. θ) > 0} no depende de θ.16). se deduce enseguida n que el EMV de c es c∗ = N/t. que es decreciente. i=1 (9. y por lo tanto el m´ximo se encuentra en θ = m´xi xi . De modo que si –por ejemplo– ˆ se registran 20 sucesos en 10 segundos. Ejemplo 9. θ)/∂θ o ∂ log p(x. Es inmediato que e ψ(t. una forma conveniente a de obtener el EMV es maximizar el logaritmo de L.13). Para θ > m´xi xi es a ı a a L = θ −n . Si el caso no es regular. es f(x. .F: Uniforme Si Xi ∼ Un(0. . Ejemplo 9.4) donde ψ(x. la densidad de T es de la forma (3. y registrar la cantidad N de sucesos. t La segunda forma es fijar un n.D: Media de la normal Si Xi ∼ N(µ. . de modo que all´ no puede estar el m´ximo. θ) = ∂ log f (x. En la mayor´ ıa de las situaciones. θ) = (1/θ) I(0 ≤ x ≤ θ). y para Ex(θ) es C = R+ ∀ θ > 0. y observar el proceso hasta el instante T en que se produce el n-´simo suceso. Derivando. θ). y por lo tanto (9. METODOS DE ESTIMACION resultado razonable. θ) = 0. puede ser necesario analizar el m´ximo directamente. c) = n/c − t. como en a el ejemplo que sigue. Sin embargo. En estos casos. hay dos formas de observarlo. 109 Las distintas elecciones de g no tienen por qu´ dar como resultado el mismo estimador e (ejercicio 9. Esto se llama el caso regular. a . µ) = (x − µ)/σ2 . θ) > 0} o C = {x : p(x. θ]. queda la ecuaci´n o o n ψ(x. y el conjunto donde f > 0 es [0. La primera es hacerlo hasta un instante t prefijado. ın a θn i Si θ < m´xi xi es L = 0.2.E: Estimaci´n en el proceso de Poisson Para estimar la intensidad c de un o proceso de Poisson. Tomando logaritmo y derivando. . que es Po(ct).

. ı a Para verificarlo. . el EMV de θ3 deba ser (θ∗ )3 . y el segundo el “error sistem´tico”. Supongamos las Xi lognormales. . xn . entonces ˆ θ ∗ (x1 . σ2 ). teniendo en cuenta que por (4. τ 1/3 ). con par´metros µ y σ. O sea.7). n . Si b ≡ 0 se dice que el estimador es insesgado.D da que ´ste es el promedio de ln Xi . . El lector ya habr´ calculado la densidad de las Xi en el ejercicio 3.9. . En general. o En cambio no sucede lo mismo para el estimador de momentos. en el sentido de que si θ ∗ y θ son los EMV basados en la distribuci´n o de las Xi y en la de las Yi . X y VX . xn . xn ) = θ(y1 . . (9. . X es un estimador insesgado de µ. es inmediato que el EMV basado en las Yi es el promedio Y de ´stas. como estimadores de µ y σ 2 . .5) La demostraci´n queda a cargo del lector (ejercicio 9. Si en vez de las Xi observ´ramos Yi = ln Xi . o ˆ el EMV no se altera. a ´sta ultima conocida. y por lo tanto τ = θ 3 . De modo que el primer t´rmino e describe la “variabilidad” del estimador. Evaluaremos la media y la varianza muestrales. Si expresamos todo en funci´n de τ = θ3 . θ). ESTIMACION PUNTUAL ı 9.110 ´ CAP´TULO 9. . ¯ ¯ respectivamente. . . En general. Para calcular el EMV µ∗ de µ. recordemos que el EMV θ ∗ maximiza L(x1 . .2. para lo cual o debe ser τ 1/3 = θ ∗ . El lector puede probar que la misma propiedad o a vale para el estimador de momentos (ejercicio 9. sean las Xi una muestra de una distribuci´n con media µ y varianza o o ¯ σ2 . . E θ ∗ a describe “alrededor de qu´ valor fluct´a θ ∗ ”.22) es 2 ¯ EXi = σ2 + µ2 y EX 2 = σ2 + µ2 .2 Transformaciones Transformaciones del par´metro a Parecer´a razonable que si el EMV de un par´metro θ es θ ∗ . y var(θ ∗ ) mide cu´nto fluct´a. El emc se puede descomponer como donde b(θ∗ ) = E θ ∗ − θ es el llamado sesgo del estimador. .8). En cuanto a VX .3 Evaluaci´n de estimadores o emc = E{(θ∗ − Eθ ∗ ) + (Eθ ∗ − θ)}2 = var(θ ∗ ) + b(θ∗ )2 . Como EX = µ. .9: e ´ a xϕ((ln x − µ)/σ). como verificar´ el lector a en el ejercicio 9. el mismo proceso que el del Ejemplo 9. Lo mismo vale reemplazando el cubo por cualquier funci´n inyectiva del par´metro. si en vez de las Xi observamos Yi = h(Xi ) donde h es una funci´n inyectiva. 9. . resulta que tenemos que maximizar L(x1 . e u a u var(θ ∗ ) y b(θ ∗ ) dependen de θ. e ∗ que coincide con µ . dado que e a ¯ estas son N(µ. yn ) con yi = h(xi ).2. Como ilustraci´n. Transformaciones de las observaciones Comenzamos con un ejemplo.

6) De aqu´ se deduce que un estimador insesgado de σ2 se puede obtener como ı n 1 S = VX = n−1 n−1 2 i=1 ¯ (Xi − X)2 . v(θ1 . . θ2 ) (que depende de x1 .4 Estimaci´n de varios par´metros o a Consideremos una distribuci´n que depende de dos par´metros: θ1 y θ2 . θ2 ) = n n 2 Xi . θ2 ) = EXi . 2 m2 (θ1 . Pero este objetivo supera el nivel u ı de este curso. (9. . xn ) que maximiza L. lo que equivale a que su sesgo y su varianza tiendan a 0. . θ2 son la soluci´n del sistema de ecuaciones: o ¯ m1 (θ1 . θ2 ) = EXi . xn . esto no implica que S sea un estimador insesgado de σ (ejercicio 9.12). en vez del segundo o o momento. .7) Lamentablemente. θ2 ) = X. θ2 ) = X. θ1 . porque significa que se puede estimar al par´metro con tanta precisi´n como se quiera.2. Ahora la funci´n de verosimilitud es L = L(x1 . si se toman suficientes observaciones. El EMV se define o a igual que antes. i=1 (9.11) P(|θ ∗ − θ| > ) ≤ emc 2 .8) ∗ ∗ Entonces los estimadores de momentos θ1 . θ2 ) − m1 (θ1 . por ejemplo. 1 m2 (θ1 . (9. Para el estimador de momentos. p Se dice que θ∗ es un estimador consistente del par´metro θ si θ ∗ → θ cuando el tama˜o a n de muestra n → ∞. y por lo tanto. . . entonces el sistema ¯ m1 (θ1 . Esta es una propiedad deseable.2. (9. Se puede mostrar que los EMV mostrados en este Cap´tulo son ı o ´ptimos bajo ciertas condiciones. θ2 )2 . ver [2]. que tengan m´nimo emc. Un problema importante es hallar para cada situaci´n estimadores que sean “´ptimos” o o en alg´n sentido. sean m1 (θ1 . θ2 ) = VX . .´ ´ 9. METODOS DE ESTIMACION se obtiene E VX = σ 2 1 − 111 1 n n . para que θ ∗ sea consistente basta que su emc → 0 para n → ∞. Es decir. si v(θ1 .9) N´tese que es equivalente usar en la segunda ecuaci´n la varianza. . Por a o la desigualdad de Markov (4. θ2 ) es la varianza de Xi : v(θ1 . y los o ∗ ∗ estimadores son el par (θ1 . θ2 ). y VX es la varianza muestral de las Xi . θ2 ) = m2 (θ1 . 9.

Si adem´s se considera que no hay a error sistem´tico. A falta de m´s a e a informaci´n. Dec´a ı un estad´ ıstico que “los cient´ficos experimentales creen en la distribuci´n normal porque ı o . En la siguiente Secci´ se ver´ un ejemplo importante de estimaci´n de dos par´metros. σ 2 ). (9. y que ı ı o se constituy´ durante un siglo y medio en una especie de superstici´n cient´ o o ıfica.112 ´ CAP´TULO 9. Aqu´ es θ1 = µ. a lo que da las ecuaciones n i=1 n (xi − µ) = 0. se puede postular que D(Xi ) es sim´trica respecto de µ. donde σ mide la dispersi´n del o o error. los estimadores coinciden con los EMV. . Debido al error de medici´n. o Pero esto fue con el tiempo tomado como una demostraci´n de que los errores de medici´n o o ten´an que ser normales. . En 1820 Gauss prob´ que si para a a o ¯ una familia de distribuciones.b). cosa que dif´cilmente estuviera en la intenci´n de Gauss. Como estamos en el caso regular por ser f > 0. n) de una magnitud f´ ısica cuyo valor verdadero desconocido es µ. es que bajo dicha suposici´n los estimadores “buenos” de posici´n y dispersi´n o o o o son los de (9. nσ = i=1 2 (xi − µ)2 . σ) = σ2 . σ) = µ y var(Xi ) = v(µ.9). el motivo m´s importante para usar la normal como modelo para errores de a observaci´n. se considera a las Xi como variables o aleatorias. los EMV son la media y la desviaci´n muestrales: o ¯ µ = X. ı e 9. Pero no tiene por qu´ suceder esto en general (ejercicio 9. θ2 = σ. . y que no se influyen. o Una suposici´n muy usada es que las Xi son N(µ. esto es todo lo que se puede suponer sobre D(Xi ). dado que e EXi = m1 (µ.10) Para el m´todo de momentos. ESTIMACION PUNTUAL ı es equivalente a (9. σ) = 1 (2π)n/2 σn exp − 1 2σ2 n i=1 (xi − µ)2 . La funci´n de verosimilitud es ı o L(x1 . En realidad. se puede postular que son iid. . . que son los m´s f´ciles de calcular. ambos desconocidos. . . el EMV de posici´n es X. entonces esa familia es la normal. . Por lo tanto. ion a o a En las situaciones anteriores tanto el EMV como el de momentos se han obtenido en forma expl´cita. xn . ∗ σ = ∗ 1 n n i=1 1/2 ¯ (Xi − X) 2 .3 El modelo de medici´n con error o Se realizan n mediciones Xi (i = 1. derivamos log L respecto de los par´metros.10).5. µ. Si se supone que las mediciones se hacen todas en las mismas condiciones.

menor varianza) reciben mayor peso. el comportamiento de X puede ser desastroso. si una sola observaci´n tiene un error o grande. Estos son los llamados m´todos robustos. . EL MODELO DE MEDICION CON ERROR 113 suponen que est´ demostrada matem´ticamente. Pero en verdad se trata de una cuesti´n de necesidad.13. X ser´ el estimador conveniente. ı e Un m´todo robusto sencillo es la media podada: sean X(1) ≤ . kn conocidas y γ desconocida. y sea 0 ≤ α < 1/2. o Para ver las consecuencias de esto. Pero si F es s´lo aıa o ¯ proximadamente normal. .3. Esto se puede o 2 representar con la suposici´n de que Xi ∼ N(µ. de adaptar las hip´tesis a las posibilidades de c´lculo. y derivando resulta i=1 µ∗ = n i=1 wi xi . . con k1 . y los matem´ticos creen en ella porque a a a suponen que es un hecho emp´rico”.12) .´ 9. con pesos wi . La funci´n de verosimilitud es o n L = (2π)−n/2 i=1 √ wi exp − 1 2 n i=1 wi (xi − µ)2 .11) Esto se llama promedio ponderado (o pesado) de las xi .3. ı o Al generalizarse el uso de la computadora. donde las observaciones con mayor precisi´n (o sea. De aqu´ se deduce que para obtener el EMV de µ hay que minimizar n wi (xi − µ)2 . La incertidumbre en la especificaci´n de F hace que sea m´s conveniente usar m´todos que funcionen “bien” a´n o a e u cuando el modelo no sea conocido exactamente. ı donde wi = 1/σ 2 . n i=1 wi (9. se hace posible concebir estimadores que no sean calculables a mano. en el que todas las a σi son conocidas. consideremos el caso m´s sencillo. Sobre esta actitud muy frecuente en la Estad´ ıstica. Una indicaci´n o de este hecho se puede ver teniendo en cuenta que. .3.2 Estimaci´n robusta o ¯ Si F fuera exactamente normal. El lector puede verificar que el mismo resultado se obtiene si las varianzas son conocidas 2 a menos de una constante de proporcionalidad: σi = γki . .3. y esto ha permitido aceptar otros modelos m´s generales como a distribuciones de los datos. σi ) donde las σi son posiblemente distintas.1 Varianzas distintas En algunos casos se sabe que las mediciones no tienen igual precisi´n. n − 2m i=m+1 n−m (9. en particular.3. v´ase la Secci´n 9. Las ventajas de o esto sobre un promedio simple se pueden apreciar en el ejercicio 9. . o a e o 9. Entonces se define la media α-podada como ¯ Xα = 1 X(i) .10). 9. cuando hay algunos datos “at´picos”. X(n) las observaciones e ordenadas. la media puede dar cualquier disparate (ejercicio 9.

[usar 4. e a o –Mi llave– contest´. Comparar los emc del estimador de MV y del de momentos c. a ı 9.3 Sobre los motivos del uso de la distribuci´n normal o El Mul´ Nasruddin es un personaje protagonista de numerosos y antiqu´ a ısimos cuentos en el Cercano Oriente. es una buena ilustraci´n de la forma de pensar frecuente en o ´sta.4 Ejercicios 9. –¿Entonces por qu´ la buscas aqu´ e ı?. Una buena elecci´n es α = 0. Mul´? –le pregunt´.5 es la mediana. (c) N(0. Hallar los estimadores de momentos para los par´metros de las distribuciones: a (i) Gama.7. e Alguien vio a Nasruddin buscando algo por el suelo. Calcular el estimador de momentos b. ¯ En el Ejemplo 8.5 a. ¿Qu´ has perdido. b. –Hay m´s luz aqu´ que dentro de mi casa. o sea. (ii) binomial negativa.3 En la situaci´n del Ejemplo 9. consistente en adaptar los modelos a lo que uno puede analizar. 9.4 Hallar los estimadores de MV y de momentos de α y β para la densidad doble exponencial f (x) = (1/2β) exp(−|x − α|/β) (x ∈ R).40]. θ). (b) Ex(θ). la diferencia se debe a que ´sta no toma en cuenta a las dos observaciones menores. ¿Es posible obtener una expresi´n expl´ o ıcita para los EMV en estos dos casos?. 9. ı Despu´s de un rato el otro hombre pregunt´: e o –¿D´nde se te cay´ exactamente?.2 En los casos anteriores. ESTIMACION PUNTUAL ı donde m = [nα]. o As´ es que ambos se arrodillaron para seguir buscando.3. ¿Por qu´ constante hay que multiplicar al EMV para minimizar su emc?.1 Hallar los estimadores de MV y de momentos para muestras de las siguientes distribuciones: (a) Po(λ).3. . Si bien la siguiente historia [18] es anterior en varios siglos al surgimiento de la Estad´ ıstica.F: o a. la media muestral es 21.25 = 25. El caso l´ o ımite α = 0. calcular sesgo y varianza de los estimadores [para (c) usar el ejercicio 4. 9.114 ´ CAP´TULO 9.C.5]. o o –En mi casa –dijo. e 9.8 y la media podada es X0.25. ı 9. se toma la media descartando las mayores y menores m observaciones. que e sobresal´an en la Figura 8.

con α y β positivos. 2. Dado que P(Xi ≥ β) = 1. y comp´relo con el basado a en X. 9. Haga lo mismo para el estimador de momentos.F. 9.9. EJERCICIOS 115 9. los estimadores debieran cumplir β ∗ ≤ Xi ∀ i. ∗ ∗ 9. . pero (p∗ )2 no es un estimador insesgado de p2 . 9. b. y compararla con la del promedio simple X. que el primero es insesgado pero el segundo no ım ˆ b.4.11 Verificar la consistencia de los estimadores de: (a) ejercicio 9. ¯ c. . .25 . ¿Cumplen esto el EMV y el de momentos?. siendo Y = X 2 . ˆ 9. que ambos estimadores son consistentes: l´ t→∞ c∗ = l´ n→∞ cn = c en probaım t bilidad. 9.12 Calcular el sesgo de S como estimador de σ para muestras de tama˜o 2 de N(µ. ¿C´mo o ¯ se modifican X y S?.7 Sean h una inyecci´n de Θ → R.10 ¯ a. Probar que los estimadores de MV y de moˆ mentos de τ son respectivamente h(θ ∗ ) y h(θ). p) con n conocido.8 Probar (9.9 a. b.1 (b) Ejemplo 9.14 Mostrar: si X ∼ Bi(n. Se tiene una observaci´n Y . 9. ı o 9. Calcule X y S para la muestra: 1.E.6 La distribuci´n de Pareto —muy usada en Econom´a— tiene densidad f(x) = o ı (x/β)−(α+1) (α/β) I(x ≥ β).15 Si θ1 y θ2 son estimadores insesgados del par´metro θ. Supongamos que por un error de tipeo. a. 10. æ .8): a. p) con n conocido o y p desconocido. donde X ∼ Bi(n. 9. el “10” es trascripto como “100”. con varianzas v1 y v2 : hallar a ∗ ∗ entre las combinaciones lineales de θ1 y θ2 el estimador insesgado de m´ ınima varianza. suponiendo en este ultimo que h es ´ diferenciable. σ2 ) n [aprovechar que aqu´ S depende s´lo de X1 − X2 ]. mostrar (con auxilio del ejercicio 4.13 Se tienen tres observaciones normales con la misma media θ y desviaciones 1. τ = h(θ).16 De los dos estimadores del Ejemplo 9. Hallar los estimadores de MV y de momentos de α y β. b. . 3 y 5. ¯ Calcular la varianza del EMV de θ. θ ∗ y θ los estimadores de m´xima o a verosimilitud y de momentos de θ. 9.5) para los casos discreto y continuo. entonces p∗ = X/n es un estimador insesgado de p. Calcule el EMV de p basado en Y . Haga lo mismo para la media podada X0.

ESTIMACION PUNTUAL ı .116 ´ CAP´TULO 9.

Al m´ θ Pθ (θ ∈ I(X)) se lo llama nivel de confianza.1). . θ (β) ] o [θ(β) . no se puede tener una respuesta determinista.Cap´ ıtulo 10 Intervalos de Confianza 10. θ(β) (X)) tal que Pθ (θ ≤ θ (β) ) = β (resp. Este es el concepto de un intervalo de confianza: un intervalo que depende de las observaciones. de nivel β. tal que Pθ (θ ∈ I(X)) = β ∀ θ. en el caso discreto no siempre se puede obtener igualdad en (10. ın Un intervalo se llama unilateral o bilateral seg´n que uno o los dos extremos dependan u de X. Xn ) o cuya distribuci´n depende del par´metro θ. una pregunta razonable ser´ ¿entre qu´ valores se puede acotar el ıa: e n´mero M de latas defectuosas en el lote.1) Una cota superior (resp. inferior) de confianza para θ. que no resulta muy pr´ctica. Por este motivo se define m´s generalmente un intervalo de nivel β mediante la condici´n: a o Pθ (θ ∈ I(X)) ≥ β ∀ θ. Pθ (θ(β) ≤ θ) = β). que contiene al valor verdadero (desconicido) del par´metro con una probabilidad dada. Como veremos luego. es una variable θ (β) (X) (resp. (10.1 Un intervalo de confianza (IC) de nivel β es un intervalo que depende de o X: I = I(X). Indicamos con Pθ las probabilidades cuando o a el valor verdadero del par´metro es θ. consideramos en general la situaci´n de una muestra X = (X1 . Un intervalo bilateral se obtiene a partir de una cota superior y una inferior.95. a Definici´n 10. . Obviamente. . el n´mero u o u de defectuosas en la muestra?. ∞). . pues la unica afirmaci´n segura es que 0 ≤ M ≤ N . Por lo tanto. En efecto. sea 117 .1 Introducci´n o En el Ejemplo 9. usando la informaci´n dada por X.A. si ´ o a buscamos un intervalo para M cuyos extremos dependen de X –que es aleatoria– s´lo o podemos aspirar a que contenga a M con una probabilidad de –por ejemplo– 0. En particular ¿se puede aseverar que M es menor que determinado valor?. Para a formalizar esta idea. Los intervalos unilaterales son entonces de la forma (−∞.

y si se quiere que esto sea igual a β hay que tomar α1 + α2 = α donde α = 1 − β. se obtiene z z ¯ ¯ P(X − √ ≤ µ ≤ X + √ ) = 0.118 I = [θ(1−α1 ) .90”. donde z sale de 0.90 para µ. mecanismo en todos los casos.9. 10.1) –aunque no sea un intervalo– se llama regi´n de confianza. y despejar el par´metro de all´ Para no repetir el mismo a ı. supongamos que el muestreo da X = 2. o sea z = Φ−1 (0. θ) cuya distribuci´n no depende de θ (ni de a o o . Desde ahora se tomar´ siempre a α1 = α2 = α/2. INTERVALOS DE CONFIANZA ı Pθ (θ ∈ I) = 1 − Pθ (θ < θ(1−α1 ) ) − Pθ (θ > θ (1−α2 ) ) = 1 − (α1 + α2 ). Aqu´ se pueden apreciar los pasos para la obtenci´n del intervalo: (1) disponer de un ı o estimador del par´metro. 1). hasta que uno lo tiene que aplicar.3. ı Es importante tener claro el significado del IC. n n √ ¯ √ √ ¯ ¯ y por lo tanto el intervalo es I(X) = [X − z/ n.2) La conveniencia de esta elecci´n se muestra en la Secci´n 10. (3) realizar una transformaci´n del a o o estimador para llevarlo a una distribuci´n que no dependa del par´metro. y de all´ sale el intervalo de confianza de nivel 0.2 El principio del pivote Mostraremos un principio general para obtener intervalos de confianza de nivel β para un par´metro θ. se lo podr´ determinar exactamente a ıa si se decidiera examinar todo el lote.9. y por lo tanto n(X − µ) ∼ N(0.645.9 = Φ(z) − Φ(−z) = 2Φ(z) − 1. recordemos que √ ¯ ¯ el EMV de µ es X ∼ N(µ. X + z/ n] (abreviado “X ± z/ n ”). Para obtener un intervalo de nivel 0. En general. o Sean las Xi ∼ N(µ. Despejando µ de las desigualdades dentro de la probabilidad. θ (1−α2 ) ]. Sea z tal que √ ¯ P(−z ≤ n(X − µ) ≤ z) = Φ(z) − Φ(−z) = 0. o Para ver las ideas principales para la obtenci´n de IC. aunque lamentablemente no sabemos si en ´sta acert´ o e o no”.90”?. cualquier conjunto I que cumpla (10. o lo aleatorio dentro de la “P” no es θ. (4) poner cotas o a para este estimador transformado. Esto parece obvio. Un pivote es una funci´n T (X. 1) iid. (2) obtener su distribuci´n. ¿Se puede entonces ı afirmar que “el n´mero de latas defectuosas en el lote est´ entre 4 y 145 con probabilidad u a 0. 1/n). Entonces CAP´TULO 10. (10. La manera e l´gica de interpretar el intervalo es: “la afirmaci´n ‘4 ≤ M ≤ 145’ se obtuvo con un m´todo o o e que acierta 90 de cada 100 veces. 145]. el M verdadero est´ ya establecido. tomamos un ejemplo simple.90: I = [4.95) = 1. En la afirmaci´n “P(θ ∈ I(X)) = 0.A. En verdad. desarrollaremos esta idea en general. En el Ejemplo 9. de modo que no hay en ´l nada aleatorio. sino los extremos del intervalo. En adelante se omitir´ el o o a sub´ndice θ de P cuando cuando no sea indispensable.

De la misma manera. o Definici´n 10.3) m . 1). 1). inferior): zβ zβ ¯ ¯ µ(β) = X + σ √ . Por lo tanto P(θ ≤ θz ) = 1 − G(z). o Sea G la funci´n de distribuci´n de T (no depende de θ). o T (X. tomando z tal que G(z) = β se obtiene una cota inferior. se e o tiene χ2 = Ga(2. EL PRINCIPIO DEL PIVOTE 119 ning´n otro par´metro desconocido. cuya distribuci´n no depende de σ pues o i=1 (Xi − µ)/σ ∼ N(0.1). Como el √ ¯ n(X − µ)/σ ∼ N(0. y se buscan intervalos de confianza para la varianza θ = σ2 . Como z1−α/2 > z1−α .1 Media de la normal con varianza conocida 2 ¯ Sean estimador X ∼ N(µ. mientras que los extremos √ ¯ de un intervalo bilateral son X ± z1−α/2 σ/ n.12 se vio que χ2 = o 1 Ga(2. 1/2). µ(β) = X − σ √ . σ 2 ) con µ conocida y σ desconocida. M´s exactamente: u a a a ¯ para cada t. En ¯ efecto.2 Se llama distribuci´n chi-cuadrado con m grados de libertad (abreviada o o χ2 ) a la distribuci´n de m Yi2 .2 Varianza de la normal con media conocida Otro ejemplo: las Xi son N(µ. se reemplaza β por 1 − β. usar un intervalo bilateral cuando se necesita uno unilateral. la precisi´n en la determinaci´n del par´metro debe o o a aumentar con la cantidad de datos y disminuir con la mayor variabilidad. o o Si T (X. Si el pivote es funci´n creciente o de θ. 1) independientes. una cota superior de nivel β es de la forma X +z1−α σ/ n. A continuaci´n veremos la aplicaci´n de este principio a las distribuciones m´s usuales. el pivote obvio es T = n(X − µ)/σ. El EMV es θ ∗ = n (Xi − µ)2 /n. Es importante tener claro si lo que uno necesita es un √ intervalo uni. cuando hay varios par´metros). En el ejemplo anterior era T = X − µ (o cualquier funci´n de T ). o m i=1 Esta distribuci´n es un caso particular de la Gama: en el ejercicio 3. el cuantil γ de N(0. θ) ≥ z ⇐⇒ θ ≤ θz . z = zβ ) resulta la cota superior (resp. donde las Yi son N(0. o 10. σ ) con σ conocida.2. Pθ (T (X. Dado z. sea θz = θz (X) o o soluci´n de la ecuaci´n T (X. (10. o o a Desde ahora se usar´ la notaci´n α = 1 − β. Para obtener los intervalos hace falta la distribuci´n del pivote.o bilateral. que es decreciente en µ. θ) ≤ t) no depende de θ.2. La ecuaci´n T = z da o √ ¯ µ = X − zσ/ n. θ) es funci´n decreciente de θ. m/2).10. a o 10. σ 2 /n) cumple √ ¯Xi ∼ N(µ. y en consecuencia eligiendo z tal que 1 − G(z) = β se obtiene una cota superior: θ (β) = θz . n n √ ¯ o De aqu´ sale el intervalo bilateral: X ± σz1−α/2 / n cuya longitud es funci´n creciente de ı σ y decreciente de n: intuitivamente. tomando z = zα = −zβ (resp.2. implica un desperdicio de precisi´n. θz ) = z. y como la suma de variables Gama iid es tambi´n Gama (secci´n 5. 1).1. Aqu´ un pivote ı i=1 es obviamente θ∗ /θ = n−1 n ((Xi − µ)/σ)2 . Desde ahora denotaremos zγ = Φ−1 (γ).

.3 Intervalos para la exponencial ¯ Si Xi ∼ Ex(θ). (10.7. n).3 La distribuci´n de U/σ2 es χ2 . Ponemos entonces U = n (Xi − µ)2 = nθ ∗ . 1) y por lo o tanto T ∼ Ga(1. θ(β) = 2 . porque en aqu´lla figuraban Xi − µ. . Teorema 10. o 10. el EMV es θ ∗ = X = U/n donde U = n Xi (como habr´ deducido el a i=1 lector en el ejercicio 9. lo que implica 2T ∼ Ga(2. suponiendo ambos a desconocidos. y la ecuaci´n T = z da simplemente o θ = U/z. ıces Una propiedad importante de esta distribuci´n es que si U ∼ χ2 y V ∼ χ2 son indeo m n pendientes. y en esta figuran Xi − X. Para obtener la distribuci´n de T basta tener en cuenta que Ex(1) = Ga(1. Obviamente las cotas para σ se deducen como ra´ cuadradas de las anteriores. . χ2n. 10.3 Intervalos para la normal con µ y σ desconocidas Ahora se trata de hallar intervalos para los par´metros de N(µ. con U = 21375. Tomamos como pivote a U/θ.3 al final del libro.77.120 CAP´TULO 10. el EMV da a θ∗ = 1425. Pero el resultado que sigue muestra que la diferencia no es grande. y de aqu´ la cota 976. Un pivote natural es T = U/θ. .7).4) m+n La demostraci´n es muy sencilla (ejercicio 10. Las n variables e o n ¯ Yi = Xi − X (i = 1. obtenemos de la tabla A. entonces U + V ∼ χ2 . pues suman 0. Para calcular una cota inferior de nivel 0. Luego.95 = 43. INTERVALOS DE CONFIANZA ı Al cuantil β de χ2 se lo escribir´ χ2 .5 se suponen Ex(θ).β .1). n) = χ2 . siendo D(U/θ) = χ2 . pues Xi /θ ∼ Ex(1). De aqu´ salen las cotas como en ı 2n la secci´n anterior: o 2U 2U θ(β) = 2 . o ı Esto da una idea del por qu´ de la expresi´n “grados de libertad”. n) cumplen la restricci´n i=1 Yi = 0. Aqu´ el EMV es θ∗ = U/n donde a a ı n ¯ U = i=1 (Xi − X)2 . θ(β) = U χ2 m. Se puede hacer a nivel elemental pero dar´a trabajo.β a m A. Ser´ m´s c´modo a a o n i=1 ´ usar como pivote a T = U/θ.A: L´mparas Si los datos del ejercicio 8.95.α . Comenzamos por θ = σ2 que es m´s f´cil. Por lo tanto las cotas son θ(β) = U χ2 m. de e ¯ modo que los n sumandos Xi − X no son independientes. el n´mero de o u . Los cuantiles m´s usados se hallan en la Tabla a m.α Ejemplo 10. o n−1 La demostraci´n se omite. Su distribuci´n no va a coincidir con o ¯ la del caso de µ conocido. Este es decreciente en θ. σ2 ).3: χ2 ı 30.β χ2n.0.2.

3. 1). a o sean Yi = (Xi − µ)/σ que son N(0. no va a ser N(0. ¯ Teorema 10. pero el inconveniente es ı que σ es desconocida. y por lo tanto tiene forma de “campana” como la normal.95 para σ 2 ¯ se calculan X = 237 y U = 2163. La demostraci´n se omite.7).19.9). los intervalos para θ se obtienen igual que con µ conocido.564 y χ17. pero los cuantiles son los de χ2 . Los cuantiles m´s usados se hallan en la Tabla A.β . a .975 = 30.5 Sean Y y Z independientes. a Entonces.B: Duraci´n de pilas (cont.A o o se supone N(µ. o Definici´n 10. que es 1. o Ejemplo 10.6) (ejercicio 10. Para tratarla. Eso da intervalos algo m´s largos que para µ conocida (ejercicio 10. Como χ2 17. Entonces D(T ) se llama distribucion t de Student con m grados de libertad. hacen o falta algunas ideas previas. o o a Necesitamos la distribuci´n de T . 1) y Z ∼ χ2 ..47 y 16. S/ n (10. Se define entonces el pivote T= ¯ X −µ √ . σ 2 /n). cuya distribuci´n no depende de los par´metros. a n−1 Esa menor precisi´n es la consecuencia de nuestra ignorancia de µ. pero tiende a 0 m´s lentamente. La distribuci´n de T no depende de µ ni de σ.) Si la duraci´n de las pilas del Ejemplo 8.4. T = { n i=1 (Yi ¯ Y . Se puede probar que la densidad de tm es Γ((m + 1)/2) f (t) = √ mπ Γ(m/2) 1+ t2 m −(m+1)/2 (10. 1). los extremos del intervalo son 8. Al cuantil β de tm se lo escribir´ tm.. ¯ Ahora tratamos los intervalos de confianza para µ. Obviamente. El EMV de µ sigue siendo X ∼ √ ¯ N(µ. y se la abrevia tm . ¯ − Y )2 /(n − 1)}1/2 y por lo tanto T depende s´lo de las Yi .β = −tm. Para verlo. Un pivote podr´a ser T = (X − µ)/(σ/ n) ∼ N(0.5) Este es el llamado “estad´ ıstico de Student” (un “estad´ ıstico” es cualquier funci´n de o los datos y de los par´metros).1−β . La idea salvadora es reemplazar a σ por un estimador. σ2 ): para obtener un intervalo de confianza bilateral de nivel 0.2). 1) iid. Se usar´ el a estimador insesgado S 2 de σ2 como en (9. Es f´cil deducir que la tm es sim´trica respecto a a e a de 0.4 X y S son independientes. M´s adelante veremos otros ejemplos similares.025 = 7. INTERVALOS PARA LA NORMAL CON µ Y σ DESCONOCIDAS 121 “grados de libertad” que les corresponde es el n´mero n de sumandos menos el n´mero de u u restricciones que cumplen. Entonces.10. y esto implica que tm.9. con Y ∼ N(0. Sea T = o m Y/ Z/m.

1−α/2 S/ n. hay poca diferencia entre σ conocida y σ desconocida. Como no puede ser λ = 0 (pues quedar´a ı 1=0). ´stos son de la forma [U/b. debe ser a = −b. que los intervalos de confianza para σ desconocida son m´s largos que cuando σ es conocida. la Ley de Grandes N´meros implica que el denominador de T en u la Definici´n 10.95 para µ se obtiene como 237 ± 11. donde ϕ = Φ es la densidad de N(0. Es f´cil probar o a que debe ser a = −b.3 × 2. 1). y el lector lo puede comprobar en el ejercicio 10. Como no puede ser a = b. ese es el castigo por nuestra ignorancia de σ. un intervalo bilateral de nivel 0.4. en la tabla A. La cota√ o superior resulta X + tm. ı y resulta natural tratar de minimizar su longitud. “Student” era el seud´nimo del ingeniero irland´s W. 1). U/a] e con χ2 (b)−χ2 (a) = 1−α.5 tiende a 1 en probabilidad. INTERVALOS DE CONFIANZA ı Los intervalos de confianza para µ se deducen entonces con el mismo razonamiento que √ ¯ se us´ para σ conocida. podemos formar un intervalo bilateral de nivel 1−α como I = [θ(1−α1 ) . ¿C´mo elegir α1 y α2 de forma que el intervalo sea en alg´n sentido. que es proporcional a z1−α1 − zα2 .β > zβ para todo m y β. Entonces el problema equivale a minimizar b − a con la condici´n Φ(b) − Φ(a) = β. Derivando G respecto de a y de b queda: ∂G/∂a = −1 − λϕ(a) = 0. lo m´s o u a peque˜o posible?. ı pero fue un m´rito importante en una ´poca en que la teor´ estad´ e e ıa ıstica actual estaba a´n u naciendo.3. Poniendo α = 1 − β. Esto coincide con la idea intuitiva de que cuando n es grande. a Para los datos del Ejemplo 8. X − zα2 σ/ n].6).12 = [231. con α1 +α2 = α. *Justificaci´n de (10. Se lo puede hacer por el m´todo de los multiplicadores de Lagrange. lo que implica Φ(b) = 1 − α/2. ∂G/∂b = 1 + λϕ(b) = 0. es decir.β S/ n. Aqu´ el intervalo es de la forma [X − z1−α1 σ/ n. es equivalente a minimizar la funci´n o o G(a.21) 1 − α = Φ(b) − Φ(−b) = 2Φ(b) − 1.2. Por este motivo. tenemos S = 11. θ(1−α2 ) ].2) o En general.A. 1) por el o Lema de Slutsky. los valores para n = ∞ coinciden con los de N(0. y por lo tanto b = Φ−1 (1 − α/2). Si se trata de intervalos para la varianza de la normal. debe ser ϕ(a) = ϕ(b). Su idea de definir el o e “estad´stico de Student” parece obvia una vez que se ha adquirido el concepto de pivote. La unica propiedad de la normal que se utiiz´. Gosset. Consideremos primero el caso de los intervalos para la media de la normal n √ ¯ √ ¯ con varianza conocida. y el intervalo bilateral de ¯ nivel β resulta X ± tm. λ) = (b − a) + λ(Φ(b) − Φ(a) − β). que deben cumplir Φ(b) − Φ(a) = 1 − (α1 + α2 ) = β. Aqu´ resulta natural minimizar la proporci´n entre los extremos ı o m m . cosa que tambi´n se cumple para la distribuci´n de Student por (10. e Minimizar b − a con la condici´n Φ(b) − Φ(a) − β = 0. Cuando m → ∞. b. y por lo tanto tm tiende a N(0. En general se puede probar que tm. es que su densidad es par y decreciente ´ o en x > 0. 242.11/4.3. y ϕ(x) es una funci´n par y o decreciente para x > 0. y por lo e o tanto el mismo resultado vale para intervalos con σ desconocida.122 CAP´TULO 10.6]. se obtiene por (3. Sean b = z1−α1 y a = zα2 .

1). .25 = 1.28. el lector puede comprobar que T (X.95 son [14. No hay como en el caso anterior una soluci´n expl´ o ıcita. una sola observaci´n at´ o ıpica puede alterar gravemente a ¯ X y S. que no e trataremos aqu´ [2]. Xα es aproximadamente normal e para n grande. produciendo intervalos demasiado poco precisos.α/2 10. 1). Est´ basado en ı e a que la distribuci´n de X.´ 10. Hay un m´todo exacto pero trabajoso. Entonces el EMV es p∗ = X/n con X = i Xi y n = i ni . y el estimador de su desviaci´n es S. a o o n. . mientras que la media podada es X.7) De aqu´ se obtiene un pivote aproximado ı ¯ Xα − µ ≈ N(0. por el Teorema Central del L´ o ımite. o sea que la longitud de los intervalos se reduce a menos de o la mitad.12).61. o o Se busca un intervalo de confianza para p.4 Un m´todo robusto e Como se vio en el ejercicio 9. o . Podemos dar un m´todo aproximado para n grande. Se ¯ prueba en [19] que si D(Xi ) es sim´trica respecto de µ. pero se verifica num´ricamente que b = χ2 e . a = χ2 est´ pr´xima al ´ptimo. Dado z.94.1. .9]. o sea b/a. Para obtener intervalos de confianza aplicamos el procedimiento conocido. . o i = 1. p) con n conocido y p desconocido. y por lo tanto el estimador Para los datos del Ejemplo 8. Sα (10. (10.C. p) es funci´n decreciente de p (ejercicio 10.8 y S = 17.8) ¯ del que resultan intervalos aproximados de la forma Xα ±zSα .6. por lo cual podemos reducir la situaci´n a la de una sola observaci´n X ∼ Bi(n.25 = 25. Las observaciones e at´ ıpicas suelen “inflar” a S. Aqu´ se aprecia otra vez la influencia de las dos observaciones menores. ¯ = 21. En primer lugar. y por lo tanto tambi´n a los intervalos obtenidos a partir de ellas. (10.29. es X √ ¯ ¯ de σ(X) es S/ n = 3. es aproximadamente normal.5] y [22. con media µ y una varianza que se puede estimar con 2 Sα = 1 (n − m)2 n−m ¯ m(X(m) − Xα )2 + i=m+1 ¯ ¯ (X(i) − Xα )2 + m(X(n−m+1) − Xα )2 .10). Los respectivos intervalos bilaterales de nivel 0. ı 10. Esto se puede evitar usando un pivote basado en un estimador robusto como la media podada (9. UN METODO ROBUSTO 123 del intervalo. N con la misma p desconocida y los ni conocidos (no necesariamente iguales).1−α/2 n. y en consecuencia T es un “pivote aproximado”.5 Intervalos aproximados para la binomial Consideremos en general la situaci´n de varias observaciones independientes Xi ∼ Bi(ni .5. p) = . Definimos X − np T (X. p).4.9) np(1 − p) que es aproximadamente N(0.10.7. con z obtenido de la normal.

De aqu´ se pueden obtener cotas superiores o inferiores ı tomando respectivamente la ra´z positiva o la negativa. cosa que no sucede a necesariamente con los segundos. n) y se desea estimar M .16) p(β) (n) = 1. n p∗ = − X − 0. INTERVALOS DE CONFIANZA ı para obtener p de la ecuaci´n T (X. La situaci´n es ahora semejante e o o a la de la Secci´n 10.10) son m´s complicados que los de (10. (10. a tienen dos ventajas: (a) los primeros est´n siempre contenidos en [0. y (b) su nivel de confianza se aproxima m´s al β deseado.10) son las cotas superior p(β) e inferior p(β) dadas por p(β) (X) = 1 1+c 1 1+c p∗ = + y por p∗ + + p∗ + − c √ + c 2 c √ − c 2 c ∗ + p∗ (1 − p+ ) + 4 c + p∗ (1 − p∗ ) − − 4 (X < n) (10. e Mejoras a la aproximaci´n o donde c = z 2 /n y p∗ = X/n. (10.2.5 . . n p(β) (0) = 0. o o Si X es hipergeom´trica Hi(N.12) p∗ ± zβ n Si bien los intervalos obtenidos de (10.15) (10. (10.124 CAP´TULO 10.2). o sea. De aqu´ es f´cil despejar p.12).5 2 y c = zβ /n.14) X + 0. cuya soluci´n es –como puede verificar el lector– o o p= c √ 1 p∗ + ± c 1+c 2 c + p∗ (1 − p∗ ) . M/N ) y aplicar los m´todos precedentes. Pero si N es grande. del Lema de Slutsky se u deduce que tambi´n la distribuci´n de T tiende a N(0. M. 1). ı Un m´todo m´s simple es reemplazar en la definici´n de T . Se muestra en [4] que mejor que (10. se puede aproximar por la binomial Bi(n. y resultan las cotas superior e inferior o ı a de la forma p∗ (1 − p∗ ) .11) np∗ (1 − p∗ ) p Las anteriores aproximaciones se pueden mejorar considerablemente utilizando la correcci´n o por continuidad (7. por su EMV p∗ (1 − p∗ ). hay tablas para obtener e intervalos exactos.1.13) p(β) (X) = donde (X > 0). 4 (10. la varianza desconocida e a o p(1 − p) que figura en el denominador.10) Como por la Ley de Grandes N´meros.definir un nuevo pivote aproximado: X − np T = . a En la subsecci´n que sigue se puede ver c´mo mejorar estas aproximaciones. p∗ → p cuando n → ∞. 1]. (10. p) = z se elevan ambos miembros al cuadrado y queda o una ecuaci´n de segundo grado en p.

su nivel de confianza real es bastante pobre. definiendo X − nλ T (X. y por lo tanto un pivote aproximado.1– λ∗ = X/n. pero se lo puede mejorar usando la correci´n por continuidad y una modificaci´n de c (ver [4]). Si no.19) nλ que es aproximadamente N(0. λ) = √ .14).12).10. INTERVALOS APROXIMADOS PARA LA POISSON 125 En cuanto a (10. Este T es obviamente e decreciente en λ. Las cotas o o se definen ahora mediante (10. definiendo entonces X − nλ T (X. .20) √ donde c = z/ n. Si bien este procedimiento es m´s simple que el anterior. todos estos m´todos dan resultados aceptablemente parecie dos.21) que es tambi´n aproximadamente N(0. λ) = z tiene como soluci´n λ = λ∗ − z λ∗ /n. . con soluci´n e o o λ = λ∗ + c2 c2 ± c λ∗ + .3). Para obtener intervalos aproximados se i=1 usa (7. n). + − Cuando n ≥ 50 y X ≥ 15. 2 4 (10. . λ) = z se resuelve elevando ambos miembros o al cuadrado y convirti´ndola en una ecuaci´n de segundo grado. (10. y c = zβ / n − zβ . De aqu´ salen las cotas superior e inferior.18) 2 donde p∗ y p∗ son las de (10. La ecuaci´n T (X. y por o o lo tanto las cotas superior o inferior de nivel β son √ λ = λ∗ ± c λ∗ . − − (10. y la ecuaci´n T (X. a Los resultados de ambos procedimientos son pr´cticamente iguales para X ≥ 30. 10.6 Intervalos aproximados para la Poisson Si Xi ∼ Po(λ) (i = 1. (10. donde X = n Xi . nλ∗ (10. se recomienda usar (10. y adem´s no garantiza que la cota inferior sea positiva. λ) = √ . 1) por el Lema de Slutsky.15).6.19) la varianza desconocida a λ en el denominador. su nivel de a confianza es menos aproximado. el EMV de λ es –como ya habr´ probado el lector en el a ejercicio 9.17) (10. ı Un procedimiento m´s simple se tiene reemplazando en (10.22) √ con c = zβ / n.13) y (10. . a . por su EMV.16) y p(β) (X) = p∗ + c + p(β) (X) = p∗ − c − p∗ (1 − p∗ ) (X < n) + + p∗ (1 − p∗ ) (X > 0). 1). Se verifica f´cilmente a que T es decreciente en λ.

13. y por lo tanto los a 2n intervalos se obtienen como en la Secci´n 10. si o bien los estimadores coinciden. c(β) = χ2 /2T. . Ejemplo 10. o 2n. En el primer caso se tiene una muestra de tama˜o 1 de una Poisson con par´metro λ = ct. .β Sin embargo. y determinar si hay entre ellas diferencias sistem´ticas (o sea. . no a debidas a la pura variabilidad). . 2). Comenzaremos por el segundo problema.D: Creatinina La creatinina es un elemento importante en el estudio del funcionamiento de los ri˜ones. y1 . . Un planteo simplificado del problema es suponer que la diferencia –si la hay– es aditiva. Tanto las Xi como las Yi son iid con distribuciones F1 y F2 . La Tabla 10. xn1 . describir las diferencias. Para usar la metodolog´ habitual. . µ1 . para el que damos a continuaci´n un planteo general. sobre las que en principio no se sabe nada. de manera que el par´metro desconocido a representa el “corrimiento” de las Y respecto de las X.3: c(β) = χ2 /2T .20) y m´s aproximado que (10. e o 10. es decir que D(Yi ) = D(Xi + ). . . Esta suposici´n implica que o F2 (x) = F1 (x − ) ∀x. Los mismos resultados se obtendr´ tomando como observaciones los tiempos Tj del ıan j-´simo suceso y recordando que Tj − Tj−1 son una muestra de Ex(1/c) (Secci´n 5.A). Para facilitar el an´lisis se suele usar una segunda simplificaci´n: las F son normales con a o medias µ1 y µ2 y la misma varianza. con e a a o los objetivos de comparar ambos m´todos. INTERVALOS DE CONFIANZA ı Un m´todo m´s sencillo que (10. los intervalos difieren poco cuando N y T son grandes (ejercicio 10. σ2 ) (j = 1. . n1 ) e Yi (i = 1. . n2 ).α 2n. los intervalos de confianza no. La densidad ıa a conjunta es (poniendo n = n1 + n2 ): L(x1 . . . a la que se aplica lo expuesto n a m´s arriba. . (3.2. y –si existen– que E Yi = E Xi + . y determinar las diferencias entre los valores e de hombres y mujeres. yn2 . siendo Fj = N(µj . µ2 y σ son desconocidos. y en caso afirmativo.E. calculamos los EMV de los par´metros.) En el Ejemplo 9.126 CAP´TULO 10.22) se puede ver en el e a a ejercicio 10. donde µ1 . . . Entonces nuestro planteo queda: obtener intervalos de confianza para = µ2 − µ1 . . o 10. µ2 . En el segundo. n) = χ2 .7.14) implica que 2cT ∼ Ga(2.C: Estimaci´n en el proceso de Poisson (cont. Ejemplo 10.6).1 muestra los resultados de un estudio n realizado en el hospital de la ciudad de San Luis: para cada sujeto de una muestra de 22 hombres y 28 mujeres se dan los valores (cantidad de creatinina por unidad de volumen por hora) obtenidos por dos m´todos de an´lisis: el usual (B) y uno m´s econ´mico (A).7 Comparaci´n de dos muestras o En numerosas situaciones experimentales se desea comparar dos muestras obtenidas bajo condiciones diferentes. σ) = . Lo veremos con un caso concreto.1 Dos muestras independientes Se tienen dos muestras independientes: Xi (i = 1.

88 7.62 15 5.08 28 A 4.04 9. σ2 n/(n1 n2 )).87 6.71 3. 6.´ 10.45 B 4. notemos dos resultados: a) De acuerdo con el Teorema 10. 8.87 n2 Mujeres B No.58 7.42 7.86 5. 1 2 3 4 5 6 7 8 9 10 11 A 7.88 6.63 9.96 4.17 20 21 7.04 12 7.99 7.1: Creatinina No. el EMV de var( ∗ es ∗ σ2 σ2 n 2 ¯ ¯ ) = var(X) + var(Y ) = + = σ .71 19 4.83 6.46 3.80 3.22 4.26 Hombres B No.33 4. Por lo tanto. 2 σ∗2 = U .64 7.42 22 4.37 3.92 24 6.25 18 7.17 6. n1 n2 n1 n2 ¯ ¯ = Y − X.92 23 4.46 19 8.12 11.29 25 5. 1 donde U = U1 + U2 .94 8. U2 = i=1 ¯ (Yi − Y )2 . Igual que para el caso de una muestra.96 15 7.3 son U1 /σ2 ∼ χ2 1 −1 y U2 /σ2 ∼ χ2 2 −1 . es y por lo tanto ∗ ∼ N( .32 7.25 √ 1 2π σ n n exp − 1 2σ2 n1 i=1 (xi − µ1 )2 + i=1 (yi − µ2 )2 .86 4.92 3.00 No.44 7.83 10.85 5.79 4. y en consecuencia un estimador insesgado de la varianza σ2 puede obtenerse definiendo S2 = U .42 7.58 4.50 27 4.97 4.18 5.08 26 4. el pivote m´s obvio es (cualquier funci´n de) ( ∗ − )/σ ∗ .15 8.35 5.22 2. Para ver exactamente cu´l es la mejor a o a forma para el pivote.29 3.82 8.01 B 4.87 7. n−2 .92 8. n n 2 (10.84 3.43 4.7.62 16 6.88 9.08 18 3.03 6.58 4. Como las Xi son independientes de las Yi .24 5.71 16 4.71 13 6.99 5.4) implica que (U1 + U2 )/σ2 ∼ χn−2 .60 4. n (10.62 3.86 5.96 17 8.83 9.96 7.17 15. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A 6.25 6.23) U1 = i=1 ¯ (Xi − X)2 .29 17 5.28 6.21 21 3.34 3.50 10.60 4.93 3. con n1 n2 ¯ µ∗ = Y .96 7.62 11.21 6.13 6.79 20 4.00 7.02 6.91 6.79 22 A 5.37 6. COMPARACION DE DOS MUESTRAS 127 Tabla 10. (10.24) Por lo tanto.71 4.05 3.54 14 6.29 7. De aqu´ se deducen f´cilmente los EMV: ı a ¯ µ∗ = X.22 3.

U2 es independiente de X a independiente de ∗ (Proposici´n 3.43 ± 0. o bien puede ser mayor. 4 4 S1 /(n3 − n2 ) + S2 /(n3 − n2 ) 1 1 2 2 . y es independiente de X por ¯ y de Y . v) con e ¯ ¯ v = var(X − Y ) = 2 σ1 σ2 + 2.76 y 1.) Analizamos la diferencia entre los resultados del m´todo B e para hombres y mujeres. pero con intervalos demasiado largos.25) El m´todo para obtener de aqu´ los intervalos de confianza es igual que para el caso de una e ı muestra.128 CAP´TULO 10. u Ejemplo 10.56. La magnitud de este efecto es peque˜a si n1 ≈ n2 .24). El estimador de la σ com´n da S = 1. se la estima en forma insesgada mediante v∗ = 2 S1 S2 + 2. pues el verdadero nivel de confianza puede ser bastante menor al que uno desea. Una soluci´n para este problema es el llamado o ¯ ¯ m´todo de Welch [1]. n1 n2 /n ( ∗ − )/σ ∼ N(0. pero se la puede o aproximar con una tk con grados de libertad k= (v ∗ )2 .16.D (cont. Se basa en que ∗ = (X − Y ) ∼ N( . pues i=1 (Xi − X) = i=1 (Yi − Y ) = 0. o y ∗ es independiente de U/σ2 que es χ2 .59 y 5. Entonces T= ∗ − √ v∗ es un pivote aproximado.2 Varianzas distintas 2 2 Si las varianzas σ1 y σ2 de las X y de las Y son distintas. pero ´stos cumplen dos restricciones. 1). pero n puede ser importante si difieren mucho. Se busca un intervalo de confianza para la diferencia de medias suponiendo normalidad. y las respectivas S son 1. n1 n2 Como v no se conoce. Por lo tanto. j = 1.4.47. (10. con Uj definido en (10. S es ¯ el Teorema 10. Las medias correspondientes a hombres y mujeres para B son respectivamente 7.7.65. An´logamente. especialmente si n1 y n2 difieren mucho. 2.43. y por lo tanto ∗ = 2. lo bastante parecidas como para que se pueda aceptar la suposici´n de igualdad de o varianzas. Su distribuci´n no es exactamente una t. El n´mero de grados de libertad es u u 22+28-2=48.23) tiene n ı n1 n2 ¯ ¯ sumandos. El intervalo de nivel 0. 10. INTERVALOS DE CONFIANZA ı ¯ ¯ b) Notemos que U1 es obviamente independiente de Y . el comportamiento de estos intervalos puede ser poco confiable.95 para es entonces 2. n1 n2 2 con Sj = Uj /(nj − 1). Por lo tanto el pivote natural es n−2 T = n1 n2 n ∗ − S ∼ tn−2 . En consecuencia. e y por lo tanto el n´mero de grados de libertad es n − 2.11). Aqu´ se ve nuevamente el sentido de “grados de libertad”: la U de (10.

a o Ejemplo 10.7. Si se desea obtener intervalos para la diferencia de las respectivas e medias.3 Muestras apareadas Ahora consideramos en el Ejemplo 10.7 6. y las desviaciones son 7.87 con 13 grados de e libertad. Observe que no hace falta que las Xi ni las Yi sean id´nticamente e e distribuidas.3.4 5. Un planteo simplifie cado es suponer que el efecto de la diferencia de m´todos es aditivo: Zi = Yi − Xi tienen la e misma distribuci´n F para todo i. ıa Ejemplo 10.7 2 : 31.98. COMPARACION DE DOS MUESTRAS 129 Este k no ser´ en general un n´mero entero. y 5 obtenidas por otro.7.D (cont.0129).8 24.7. los llamareo o e mos 1 y 2. hay que tener en cuenta que ahora las dos mediciones son realizadas en el mismo individuo.92 y 13. y el correspondiente intervalo es −11.9 7. realizadas por dos m´todos distintos. Para un intervalo bilateral de nivel 0.6 −14.08. el intervalo resulta entonces −11.6 7.D las diferencias entre los m´todos A y B. La aplicaci´n del o m´todo de Welch da v ∗ = 41. 1 : 12. con diferencia -11.4 1.58.1 −1. Para simplificar. El m´todo basado en igualdad de varianzas da S = 9. Ser´a o ı un error lamentable tratar un modelo de muestras apareadas como si fuera de muestras independientes. algo m´s angosto. el intervalo bilateral de nivel 0.6 y 14.7. pero el estimador de su desviaci´n es totalmente distinto.´ 10.48. el lector puede verificar que las diferencias tienen media -0. Sean Xi .08/4. a 10.9 0.3 y k = 5..5 7. el estimador de es el ¯ ¯ mismo: ∗ = Y − X. es en realidad 12.291 y S = 1. pues estar´ ıamos desperdiciando la informaci´n dada por el apareamiento. y por lo tanto = E Zi representa el “efecto medio” de o la diferencia de m´todos. que interpolando se aproxima por 1.2 6. como era el caso de comparar hombres con mujeres.7 ± 12. Yi los resultados de los m´todos A y B en el individuo i.2.E: Peso at´mico del carb´n Los siguientes datos son 10 determinaciones o o del peso at´mico del carb´n obtenidas por un m´todo.57.1 Las respectivas medias son 2.5 −5. por ejemplo. se ha restado 12 de los valores originales y se ha multiplicado por 1000 (de modo que el primer valor.7 ± 9. o .1 se tienen para cada individuo mediciones de la misma magnitud. y por lo tanto no se las puede tratar como muestras independientes.6 6. Advertencias Note que tanto para muestras apareadas como independientes.721 × 1. con 21 grados de libertad.) Para comparar la diferencia entre A y B en hombres.90 es −0. que hacen sospechar que las varianzas verdaderas son distintas. lo que no es problema si se dispone de a u una computadora. Un planteo simplificado es que F = N( .95 .291 ± 1.48.90 e se necesita t5. σ2 ). Esto se llama un modelo de muestras apareadas. Los intervalos de confianza para se obtienen a partir de las Zi con la metodolog´ ya conocida. pero si se trabaja con una tabla habr´ que interpolar o tomar el entero a m´s pr´ximo. En la e tabla 10.

σ2 ) independiente de las Xi . o Estos intervalos. la idea intuitiva es reemplazar los cuantiles desconocidos de F por los cuantiles muestrales. e 10. b]) = 1 − α dado.9 Ejercicios 10. σ2 ).16). Notemos que ¯ ¯ X0 − X ∼ N(0. calcular . X(n) los estad´ ısticos de orden. . El problema es o trivial si F es exactamente conocida: se toman los cuantiles α/2 y 1 − α/2 de F . . Por lo tanto ¯ X0 − X ∼ tn−1 .B). sea P(X0 ∈ o o [a. b] o tal que si X0 es otra observaci´n con distribuci´n F . o a a Supongamos F = N(µ. . X(n−k) ] contiene n − 2k observaciones. o sea k ≈ nα/2. Sean X(1) < .130 CAP´TULO 10. M´s precisamente. pero requiere algo de trabajo. Suponiendo normalidad. en o o C [16]. y se desea un intervalo [a. S 1 + 1/n y en consecuencia hay que tomar c = 1 + 1/n tn−1. Como los cuantiles de F son de la forma µ + cσ para ¯ alguna constante c. Veamos c´mo se procede en el caso m´s usual en que la F contiene par´metros desconocidos. Aunque superficialmente esto se parece al intervalo de confianza para la media. la longitud de los intervalos de confianza tiende a 0 cuando n → ∞. e Si no se puede suponer nada sobre F . Si se tienen dos muestras independientes con n1 = n2 . (10.2 contiene 24 determinaciones de la temperatura de fusi´n del plomo.1 La tabla 10. En particular. cosa que obviamente no sucede con los de tolerancia. Aqu´ el nivel de confianza ser´a correcto. . una barbaridad inversa ser´a ı tratarlas como apareadas. independiente de las Xi . X(n−k) ]) ≥ β. se llaman o no param´tricos. .1−α/2 . Esto es un intervalo de tolerancia o de predicci´n. pues se estar´a trabajando como si hubiera s´lo n/2 obserıan ı o vaciones en vez de n (Ejercicio 10. pues a ıan las diferencias para cada individuo pueden ser peque˜as comparadas con las dispersiones n de las X y las Y (ver al final del Ejemplo 11. σ2 (1 + 1/n)) y que S es independiente de X y de X0 . se puede probar que si a F es continua: k = [(n + 1)α/2] =⇒ P(X0 ∈ [X(k) . y resulta natural tomar k tal que n − 2k ≈ nβ. . pero los intervalos ı ı resultar´ demasiado grandes. buscamos c tal que ¯ si X0 es N(µ. 10. buscaremos un intervalo de la forma X ± cS. o sea.26) La demostraci´n es elemental. El mismo m´todo puede ser imitado para otras distribuciones. Entonces el intervalo [X(k) . INTERVALOS DE CONFIANZA ı La consecuencia m´s usual es la de que los intervalos resultar´ demasiado grandes.8 Intervalos de tolerancia Se tienen observaciones Xi (i = 1. cuya validez no depende de suponer ninguna distribuci´n. n) con distribuci´n F . sea P(|X0 − X| ≤ cS) = 1 − α. se trata de objetivos totalmente distintos.

10.10. para los intervalos para µ.5 342. lo que ı sucede a los 10 segundos. suponiendo que se registran 40 emisiones en 100 segundos.7 a. usando (10.2: Temperatura de fusi´n del plomo o 330.0 a.5 La superficie de una hoja es dividida en cuadr´culas. Dar un intervalo de confianza bilateral de nivel 0.5 340. c.3 Una caja contiene 10000 tornillos. a.3 329. de los que una proporci´n p desconocida son o defectuosos.4 Para los datos del Ejemplo 10. b. si se extraen 100 tornillos y hay 16 defectuosos.0 326.0 337.99 para λ.0 331.95. Calcular los intervalos en los dos casos anteriores.3 327. Idem. con un total de 3 hongos. Se extraen 50 al azar. m . 10. b. con σ conocida y desconocida.95 para σ.6 La emisi´n de part´culas alfa se puede considerar que sigue un proceso de Poisson o ı con intensidad c part´culas por segundo. Calcular la media y varianza de χ2 . a ı 10.0 322.6 334.22). 10.3 333. 10.99 para la vida media de las l´mparas. con µ conocida y con µ desconocida.95. Probar que si X ∼ χ2 e Y ∼ χ2 son independientes.7 328. La cantidad de hongos en cada ı una se puede considerar Po(λ). EJERCICIOS 131 Tabla 10.0 332.0 343. Lo mismo.95.4 322. es X + Y ∼ χ2 m n m+n [¡no hace falta ninguna cuenta!]. Para muestras de tama˜o 10 de una normal. Dar un intervalo bilateral para c de nivel 0. 10.95 para la desviaci´n t´ o ıpica b. comparar las longitudes de los n intervalos bilaterales de confianza de nivel 0. b.0 341. dar un intervalo bilateral de nivel 0. dar un intervalo bilateral y una cota inferior para p.0 325. ı a. y se encuentra que 4 de ellos son defectuosos. Con nivel de confianza 0.A. Un intervalo de confianza bilateral de nivel 0.20) y (10. Se inspeccionan 20 cuadr´culas tomadas al azar.2 a.6 329.5 340. Se observa la misma substancia hasta que se emita la cuarta part´cula. Una cota inferior del mismo nivel para la media. Se observa una substancia radiactiva durante 10 segundos.0 340. Dar un intervalo bilateral para c de nivel 0. registr´ndose 4 emia siones.4 345. b.9.0 331.0 341.8 342.

n.6) [usar (10.A para hallar intervalos aproximados para el par´metro a √ de la Poisson. . 10.15 En el dise˜o de un experimento para comparar dos tratamientos mediante muestras n independientes. con σ conocida. ı 10.3. y comparar con la que se obtendr´a si se las tratara como muestras apareadas. usando el Teorema Central del L´ ımite. σ2 ) e Yi ∼ n N(µ2 . y extraer de all´ intervalos de confianza para p. ı Hacerlo en particular para n = 10 y β = 0. el presupuesto alcanza para un total de 20 observaciones. . i = 1.12 para definir un pivote aproximado para la binomial. Explicar las diferencias.10 a. . 10. 10.11 Probar que todas las cotas de la secci´n 10. 10. y compararlo con ¯ el intervalo basado en la media podada X. basado en Student. 1) si o a ∈ [0. Verificar que para el pivote (10.6.8 Para los datos del ejercicio 8.95. el intervalo de confianza bilateral de nivel 0.13 Usar el resultado del ejemplo 7. (5.14 Usar el resultado del Ejercicio 7.5 cumplen p(β) (X) = 1 − p(β) (n − X). y bastante paciencia].9). m 10. Aplicarlo al Ejercicio 10.11).9. 10. b. usando Zi = Yi − Xi . basados en X. INTERVALOS DE CONFIANZA ı c.3). 1]. o 10.10). calcular para el valor verdadero del paralaje. Deducir. o sea. que para m grande se puede aproximar la χ2 por una normal. 10.25 . . ¿C´mo o asignarlas a las dos muestras de manera de minimizar la varianza del estimador ∗ de la diferencia de medias (suponiendo ambas muestras con la misma varianza)?.9 Probar (10.12 Verificar el Teorema 10. Calcular la longitud del intervalo de confianza para = µ2 − µ1 usando el procedimiento correcto. p) = z son o de la forma (10. .132 CAP´TULO 10. σ2 ). las soluciones de la ecuaci´n T (X. Probar que (a − p)/ p(1 − p) es una funci´n decreciente de p ∈ (0.16 Se tienen dos muestras independientes de igual tama˜o: Xi ∼ N(µ1 .3 para n = 2.

ı” Como X es una variable aleatoria. pero ten´a marido” ı F.1) al comprador le importa controlar la probabilidad de que le den por bueno un lote malo. 0. . es perfectamente posible que p > 0.A. tendr´ que estar expresada en t´rminos de probabilidades. examinarlas. Esta es la situaci´n t´pica de un test estad´stico. Por lo tanto. Un posible comprador declara que el lote es aceptable para ´l si la proporci´n p = M/N de latas defectuosas es ≤ 0. y basar la decisi´n en la cantidad X de defectuosas o de la muestra. toda especificaci´n que se haga sobre el o procedimiento. . comprador y vendedor acuerdan en tomar una muestra de n latas elegidas al azar. Al vendedor a e le importa controlar la probabilidad de que un lote bueno sea rechazado. 1].1 Introducci´n o Para presentar los conceptos.02. basados en X o a debemos decidir si p pertenece al conjunto [0. cosa ´ ı poco conveniente.02 =⇒ P{aceptar el lote} ≤ 0.Cap´ ıtulo 11 Tests de Hip´tesis o “Y yo me la llev´ al r´o e ı creyendo que era mozuela. 1. la decisi´n puede ser correcta o no seg´n la muestra o u que salga (por ejemplo.02.02 y sin embargo todas las latas de la muestra sean buenas). (11. Por lo tanto. 133 (11. e o Para determinar si es aceptable.02 =⇒ P{rechazar el lote} ≤ 0.2) . .03. El procedimiento podr´ pensarse como una funci´n que a cada valor de X ∈ {0. retomamos el Ejemplo 9. Garc´ Lorca: “La casada infiel” ıa 11. estipulando por ejemplo: p ≤ 0.02] o a su complemento (0. estipulando por ejemplo: p > 0. n} le ıa o hace corresponder uno de los dos valores “s´ o “no” (o 0 y 1). la unica forma segura ser´a examinar todas las latas. Observamos una variable o ı ı aleatoria X cuya distribuci´n depende de un par´metro p desconocido.05.

y rechazarlo si no. y por lo tanto es una funci´n continua. e Entonces el comprador deber´ conformarse con una versi´n m´s d´bil de (11. Supongamos que ´ste consigue imponer su criterio. x Llamemos a esto g(p). o hay que buscar otro enfoque del problema. tal que m´xθ∈H0 P(ξ(X) = 1) = α. 0. Este conjunto se llama e a hip´tesis nula. Entonces (11. Tests como el del ejemplo. a Un test queda definido por el conjunto de resultados donde se acepta H0 : {x : ξ(x) = 0}. . suponemos a N lo bastante grande como para que se pueda considerar a X ∼ Bi(n. 1} (o o {“aceptar” y “rechazar”}).02. los tests u con H0 = {θ = θ0 } y H1 = {θ = θ0 } se llaman bilaterales. Entonces P{aceptar el lote} = P(X ≤ x0 ) = x≤x0 n px (1 − p)n−x .03 si p > 0. Se observa una muestra X = o (X1 .02. Supongamos que el procedimiento sea: para un cierto x0 ∈ {0. planteamos la situaci´n general.02.02] ha quedado “privilegiado”. 1] = H0 . depende de θ. .95 a 0. Definici´n 11. El nivel del o test es entonces el m´xθ∈H0 β(θ). por lo que no puede saltar de 0.1 Sean H0 ⊆ Θ y α ∈ (0. P(ξ(X) = 1). La decisi´n de rechazar H0 cuando es cierta se llama tradicionalmente error de tipo I. . En consecuencia. el conjunto [0. . 1). llamado regi´n de aceptaci´n.1)).1) equivale a exigir que g(p) ≥ 0. TESTS DE HIPOTESIS ¿Son ambos requerimientos compatibles?. aceptar el lote si X ≤ x0 . o Con esta base. Pero g(p) es un polinomio en p.03. se requiere que β(θ) sea lo m´s grande posible –o al menos a “aceptablemente grande”– para θ ∈ H1 . y (11. El enfoque m´s com´n requiere abandonar la simetr´ entre los requerimientos de coma u ıa prador y vendedor. p). 1. a saber: a o a e si p > 0. se llaman unilaterales. a la funci´n 1 − β(θ) se la llama a o “caracter´ ıstica operativa”. Un test de nivel α de la hip´tesis nula H0 o o es una funci´n ξ de Rn (o del conjunto de valores posibles de X) en el conjunto {0. El objetivo del test es decidir si θ est´ en H0 o en otro conjunto a H1 –llamado hip´tesis alternativa o simplemente “alternativa”– que en la mayor´ de o ıa los casos es el complemento de H0 . Para simplificar las cuentas. . que P{rechazar el lote} sea lo mayor posible (respetando (11.2).95 si p ≤ 0. en el sentido de que si p pertenece a ´l. cuya alternativa es de la forma θ > θ0 para alg´n θ0 dado. la probabilidad de decidir equivocadamente est´ acotada. Los θ ∈ H1 se suelen tambi´n llamar alternativas. En control de calidad.1).02. Adem´s de e a cumplir β(θ) ≤ α para θ ∈ H0 . . Xn ) de variables aleatorias cuya distribuci´n conjunta depende de un par´metro o a desconocido θ perteneciente a un conjunto Θ.134 ´ CAP´ ıTULO 11. La probabilidad de rechazar. (11. .2) equivale a que g(p) ≤ 0. Esto es un test de H0 contra H1 . o y la de aceptar H0 cuando es falsa se llama error de tipo II. Con esto. o sea. o o La llamaremos β(θ). n}. En el ejemplo es H1 = (0. . la funci´n de potencia (o simplemente potencia) del test. .

el test de {µ ≤ µ0 } contra {µ > e µ0 } rechaza cuando S ¯ X > µ0 + tn−1. La demostraci´n para el test o bilateral es an´loga. El test con regi´n de aceptaci´n T (X.3.. UN METODO PARA LA OBTENCION DE TESTS 135 11.2. Dados θ0 y α: a. a Para la binomial. Aqu´ tenemos X = 237 y S = 11. Aqu´ se puede apreciar la importancia de c´mo se define H0 . n (11.01.74. t1−α/2 ] es un test de nivel 1 − α de o o H0 = {θ = θ0 } contra H1 = {θ = θ0 }. supongamos que un comprador decide adquirir el lote de pilas si el vendedor demuestra que su vida media es > 235 hs.773 < t17. θ0 ) por ser T decreciente.) o En las condiciones del Ejemplo 10. con probabilidad 0. la venta se hubiera realizado.A: Duraci´n de pilas (cont. b. ı Aplicando este m´todo a N(µ. y por lo tanto θ ∈ H0 =⇒ Pθ (ξ = 1) = Pθ (T (X.2 Sea T = T (X. Y como Pθ0 (ξ = 1) = α. o sea que ¯ H0 = {µ ≤ 235} y α = 0.´ ´ 11. Porque si se hubiera ı o establecido que el lote se vende salvo que el comprador pueda mostrar que µ < 235. el siguiente procedimiento permite obtener test uni. queda probado que el nivel es α. θ) ≥ T (X.3) . θ0 ) ∈ [tα/2 .2 Un m´todo para la obtenci´n de tests e o Si se dispone de un pivote. el pivote (10. El lector puede deducir f´cilmente los tests para la varianza de la normal y para el a par´metro de la exponencial.B.y bilaterales. a Ejemplo 11. Proposici´n 11. θ) un pivote decreciente en θ. como puede verificar el lector.. El test unilateral de H0 = {p ≤ p0 } contra H1 = {p > p0 } rechaza cuando p∗ > p0 + z1−α p0 (1 − p0 ) . cuando la media muestral es mayor que µ0 m´s un cierto margen.95 = 1. θ) > t1−α ) = α. a El valor del pivote que se calcula suele llamarse “estad´stico del test”. El test con regi´n de aceptaci´n T (X. y sea tβ su cuantil β (no o depende de θ). σ2 ) con σ desconocida. n o sea. por lo que el vendedor se queda sin negocio.1−α √ . basta ver que θ ∈ H0 ⇐⇒ θ ≤ θ0 =⇒ T (X. θ0 ) ≤ t1−α es un test de nivel α de H0 = o o {θ ≤ θ0 } (o de H0 = {θ = θ0 }) contra H1 = {θ > θ0 }. y el estad´stico del test ı ı es T = 0.01 de adquirir un lote malo. θ0 ) > t1−α ) ≤ Pθ (T (X. Demostraci´n: Indicaremos con Pθ las probabilidades cuando el par´metro verdadero es o a θ. Para verificar el caso unilateral. como es razonable.9) da tests con nivel aproximado.

Inversamente.136 ´ CAP´ ıTULO 11. Si bien los tests deducidos mediante este m´todo son intuitivamente aceptables.90 de la o t10 es 1. es ≤ 0. Proposici´n 11.10. Cuanto m´s peque˜o el p. el test bilateral de H0 = {λ = λ0 } basado en el pivote (10. Pero un p = 0. y por p∗ para el test opuesto. la regi´n de aceptaci´n es o o p0 − z1−α/2 p0 (1 − p0 ) ≤ p∗ < p∗ ≤ p0 + z1−α/2 − + n p0 (1 − p0 ) . entonces la probabilidad de obtener o ıa: un “t” mayor o igual que el que se obtuvo. el nivel e de este curso no nos permite abordar el problema de la obtenci´n de tests que maximicen o la potencia. En cambio. es p = P(|T | > t) = 2(1 − G(t)) (¡ el doble del unilateral!). De manera que si G es la distribuci´n del pivote T ıa o o (Proposici´n 11. o o b. Una interpretaci´n de este resultado ser´ “si µ ≤ 3. se dice que el test dio un valor p de 0. sea I(x) = {θ0 : x ∈ A(θ0 )}.21) dar´ un test m´s complicado. Entonces I es una regi´n o o o de confianza de nivel β = 1 − α. para el caso no sim´trico ver el ejercicio 11.15). N´tese que usar aqu´ el pivote (10. El valor p En realidad. que no depende de a o la existencia de un pivote. y p = G(t) para la opuesta.10 de que valga la alternativa: ´sta es cierta o falsa.11) que daba intero ı valos de confianza m´s sencillos. Si I es una regi´n de confianza de nivel β para θ. todos los tests presentados en este Cap´ ıtulo la maximizan. el test con o regi´n de aceptaci´n {x : I(x) θ0 } es un test de nivel α = 1 − β de H0 = {θ = θ0 }.2. dar´a tests m´s complicados. y t es el valor observado. si un test unilateral para la hip´tesis nula µ ≤ 3 da un “estad´ o ıstico t” igual a 1.4 con 10 grados de libertad. n (11. en gran parte de las aplicaciones de los tests no se ha decidido de antemano un nivel. y que permite obtener tests a partir de intervalos o viceversa. si D(T ) es sim´trica como e la normal o Student. o que result´ “significativo al 10%”.2. TESTS DE HIPOTESIS lo que es intuitivamente razonable.1 *Relaci´n entre tests e intervalos de confianza o Se mostrar´ una relaci´n general entre tests e intervalos de confianza. . o o reemplazando en (11.3 o a. si para cada θ0 se tiene un test de nivel α de H0 = {θ = θ0 } con regi´n de aceptaci´n A(θ0 ). En + − el caso bilateral. e 11.4) Para la Poisson. el valor p es 1 − G(t) para un test de la forma o H1 = {θ > θ0 }. e Por ejemplo. a ı a La aproximaci´n del nivel se puede mejorar mediante la correcci´n por continuidad. usar (10.10”.2). entonces para cada θ0 . m´s a n a evidencia a favor de la alternativa. y observamos en la tabla que el cuantil 0.19) rechaza ıa a cuando |λ∗ − λ0 | > z1−α/2 λ0 /n.3) a p∗ por p∗ definida en (10. En el caso bilateral. Se puede mostrar que.37. Se usa en cambio el valor p o “nivel emp´rico” definido como el menor α para el ı que el test rechazar´ la hip´tesis nula. bajo ciertas condiciones.10 no significa que haya probabilidad 0.

Es decir. √ Sean Pµ las probabilidades cuando µ es la media ¯ verdadera.˜ 11.2 (b). Por lo tanto no obtenemos de aqu´ ning´n procedimiento nuevo. POTENCIA Y TAMANO DE MUESTRA Demostraci´n: (a) El nivel del test est´ dado por o a θ ∈ H0 ⇐⇒ θ = θ0 =⇒ P(θ0 ∈ I) = 1 − β. y o decreciente de σ. y n a cuando se quiere disminuir el error de tipo I. θ0 ) ≤ t1−α/2 . la regi´n de o aceptaci´n est´ dada por I θ0 ⇐⇒ tα/2 ≤ T (X. Teniendo en cuenta que T = n(X − µ)/σ ∼ N(0.2 (b). y restando µ en ambos lados de la desigualdad. / 137 por ser I una regi´n de nivel β. de la Secci´n 10. Esto requiere calcular la funci´n de potencia β(θ). que coincide con la de la o a Proposici´n 11. Esta Proposici´n establece una compatibilidad entre tests y regiones de confianza. esto se puede o hacer expl´citamente. y cuando crece el tama˜o de muestra. Teniendo en cuenta que T es decreciente en θ. El √ unilateral de nivel α de µ ≤ µ0 contra µ > µ0 test ¯ rechaza H0 cuando X > µ0 + z1−α σ/ n. En consecuencia β(µ) es una funci´n creciente de µ.1 Tests para la media de la normal Suponemos primero σ conocida.3. y es menor cuando hay m´s variabilidad. El a a motivo de usar aqu´ regiones y no intervalos de confianza. . sale de (11. es que para (a) no hace falta ı postular que la regi´n sea un intervalo. θ(1−α/2) ) = tα/2 y T (X. 1). supere un valor dado. θ(1−α/2) ) = t1−α/2 . y en (b) no se puede deducir sin m´s hip´tesis que o a o la regi´n lo sea. n y α.3 Potencia y tama˜ o de muestra n El criterio m´s l´gico para la elecci´n del tama˜o de muestra de un test es buscar el a o o n menor n tal que la potencia para una alternativa elegida. o ı u 11. donde tβ es el cuantil β de T .2 o o sale que I = [θ(1−α/2) . o Si se aplica (a) al intervalo de confianza bilateral I obtenido de un pivote T . o (b) Es como la de (a) en sentido inverso. = 1 − Φ( n (11. la probabilidad de detectar que µ > µ0 es mayor cuando µ crece. la regi´n de confianza o o de (b) est´ formada por los valores del par´metro que no son rechazados por el test. El o test de (a) acepta que θ = θ0 si θ pertenece a la regi´n de confianza. En algunos casos sencillos. En efecto.5) σ √ con γ = n(µ − µ0 )/σ. θ (1−α/2) ] donde T (X. Si se desea una potencia β1 para un cierto µ1 . ı 11.5) que debe ser √ nγ1 − z1−α = zβ1 .3. el test resultante coincide con el deducido de la Proposici´n 11. queda √ µ0 − µ σ ¯ β(µ) = Pµ X > µ0 + z1−α √ = Pµ T > n + z1−α n σ √ µ0 − µ √ + z1−α ) = Φ( nγ − z1−α ).

pero ı una soluci´n aproximada se encuentra teniendo en cuenta que el segundo t´rmino del o e segundo miembro ser´ en general mucho menor que el primero. ¯ El test bilateral de µ = µ0 contra µ = µ0 rechaza H0 cuando |(X − µ0 )/σ| > z1−α/2 . 1). np0 (1 − p0 ) El test aproximado de H0 = {p ≤ p0 } contra H1 = {p > p0 } rechaza H0 cuando Recordando que T = (X − np)/ np(1 − p) ≈ N(0. como [17]. Esta se puede obtener muchas veces a partir de experiencia previa. ı 11. p(1 − p) . ya se hace imposible hallar resultados expl´citos. con γ = (µ − µ0 )/σ. hay que deducir n de la ecuaci´n o √ √ β1 = Φ( nγ1 − z1−α/2 ) + Φ(− nγ1 − z1−α/2 ) con γ1 = |µ1 − µ0 |/σ. de donde se obtiene n ligeramente sobreestimado. La primera es que en las cuentas anteriores. Si se busca n tal que β(µ1 ) = β1 dado. No se lo puede despejar en forma expl´cita como antes. es: √ √ β(µ) = Φ( nγ − z1−α/2 ) + Φ(− nγ − z1−α/2 ). TESTS DE HIPOTESIS donde γ1 = (µ1 − µ0 )/σ.3. pero ı las potencias y tama˜os de muestra se encuentran tabulados en libros sobre an´lisis de n a ´ experimentos.6) Esto es una funci´n par de γ. El lector puede verificar que es tambi´n o e creciente en |γ| y en α (ejercicio 11. y de aqu´ se despeja n. y como Φ(x) + Φ(−x) = 1. Si σ es desconocida. se puede tomar una muestra preliminar.138 ´ CAP´ ıTULO 11. aparecen dos dificultades. se obtiene β(p) = Pp T > ≈ Φ −z1−α z1−α √ p0 (1 − p0 ) + n(p0 − p) p(1 − p) √ p0 (1 − p0 ) + n(p − p0 ) . Procediendo como antes se obtiene σ σ ¯ 1 − β(µ) = Pµ (µ0 − z1−α/2 √ ≤ X ≤ µ0 + z1−α/2 √ ) n n √ √ = Φ(z1−α/2 − nγ) − Φ(−z1−α/2 − nγ). como es de esperar. que es obviamente una funci´n creciente ı o de β1 . y por lo tanto β1 ≈ a √ Φ( nγ1 − z1−α/2 ). al reemplazar σ por S.2 Tests para la binomial X − np0 > z1−α . usarla para estimar σ. y de all´ calcular el n adecuado. La segunda es que hace falta alguna cota sobre σ. Si no. (11.13).

´ 11. COMPARACION DE DOS MUESTRAS Dado p1 . Si bien hay m´todos espec´ a e ıficos para analizar datos de proporciones.4. Las plaquetas tienen un rol importante en la formaci´n e o de co´gulos. tratamos este ejemplo suponiendo normalidad.4 11.3. El mismo procedimiento sirve para el test bilateral. lo que da T = 4. = p1 − p0 .1: Aglutinaci´n de plaquetas o Antes 25 25 27 44 30 67 53 53 52 60 28 Despu´s e 27 29 37 56 46 82 57 80 61 59 43 Diferencia 2 4 10 12 16 15 4 27 9 -1 15 Ejemplo 11. n= 1 donde r0 = p0 (1 − p0 ).1 Comparaci´n de dos muestras o Muestras normales = 0 contra En la situaci´n de muestras apareadas de la secci´n 10.42 y p = 0. la proporci´n (como porcentaje) de plaquetas sangu´ o ıneas aglutinadas antes y despu´s de fumar un cigarrillo. se recurre al test “t” ya conocido. r1 = p1 (1 − p1 ). lo que da un estad´ ı ıstico T = 1. mostrando un claro efecto nocivo del cigarrillo. con lo que la diferencia ser´ significativa s´lo al 8%. Tabla 11. pero con S = 17. o . Si aqu´ cometi´ramos la burrada de tratar “antes” y “despu´s” como muestras inı e e dependientes.3. 139 11.B: Consecuencias de fumar La tabla 11. Para el test bilateral: las diferencias tienen media ∗ = 10.1 [14] muestra para cada uno de 11 individuos. con S = 7. Si se supone normalidad.27 y p = 0.3). haciendo β(p1 ) = β1 se tiene √ zβ r1 + z1−α r0 .7. se desea testear o o > 0.7. obtendr´amos el mismo ∗ . (ve´nse las ıa o a “Advertencias” al final de la Secci´n 10.00082.98.4.086.

. el valor 30 salta a la vista.7. 11.1. pero tiene el inconveniente de que requiere decisiones subjetivas.D se quiere testear si hay diferencias entre los resultados de hombres y mujeres con el m´todo B. Entonces la hip´tesis nula de que no hay o efectos equivale a p = 0. Esto es especialmente importante cuando grandes masas de datos son analizadas rutinariamente en una computadora. pues se invertir´ el signo del efecto. En este caso. con un valor p unilateral de 0.306 0. si bien incrementa Z.5. que corresponde a un p = 0. Si en el Ejemplo 10.75 0.140 ´ CAP´ ıTULO 11.10).8). uno de los cuales es el diagrama e de cuantiles del cap´ ıtulo 8.668 y S = 0.4.753 0.25 = 0.25 = 0. Un enfoque m´s sistem´tico es buscar procedimientos que no sean afectados por los valores a a at´ ıpicos.673 y S.49.86.16 > t48.383 0.12. El m´s simple est´ e a a basado en la idea de que si las Y son sistem´ticamente mayores que las X.847 30.377 0. e y en definitiva disminuye el t. Una posibilidad es reemplazar las medias por medias podadas. El motivo es que ese valor. pero en situaciones m´s complejas puede hacer falta un an´lisis m´s cuidadoso. el efecto ser´ mucho peor con -30 en vez de ıa 30. sin una mente humana que las inspeccione. p) a con p = P(Zi > 0). Este enfoque es mucho mejor a a a que no hacer nada. Los tests “robustos” como ´ste.0618 0.764 1.25 con 10 grados de libertad.25). ¿C´mo es esto posible?. Supongamos F continua. Si repetimos los c´lculos sin la ultima o a ´ ¯ observaci´n resulta Z = 0. que es Bi(n. En este caso tenemos ¯ Z.33 y S = 8.0 Aqu´ parecer´ haber evidencia de diferencia sistem´tica.27.995 . Una posible v´ de acci´n es tratar de detectar los datos “at´ ıa o ıpicos”. que dan T = 2. donde las diferencias Zi = Yi − Xi con n = 11 son 0. ıa Una consecuencia de este ejemplo salta a la vista: jam´s aceptar el resultado de un a procedimiento estad´ ıstico sin examinar los datos.99 con p = 0. TESTS DE HIPOTESIS En la situaci´n de muestras independientes normales de secci´n 10. Por supuesto. y utilizar el “pivote aproximado” (10. debiera haber a n m´s diferencias positivas que negativas.529.155 1. Sea entonces U = i=1 I(Zi > 0).0016. los tests sobre o o se deducen del pivote (10. que junto con la ventaja de su simplicidad tienen el defecto de su sensibilidad a valores extremos (ejercicio 9. Pero si calculamos el estad´stico. que dan t = 3. o sea que la diferencia es altamente significativa. pues todas las Zi son positivas. Recordemos que la suposici´n de normalidad se hace para justificar el uso de las meo dias y varianzas. lo que da un miserable t = 1. 9].28 0.016 con la normal. el lector puede verificar que el estad´ e ıstico da 5. dando abundante evidencia acerca de µ > 0. Cap. ı ıa a ¯ e inclusive una es notablemente alta. Existen tests llamados e o no param´tricos cuyo nivel no depende de F = D(Zi ) [16. de modo que o –parad´jicamente– la supresi´n de una observaci´n muy grande aumenta la evidencia a o o o ¯ favor de > 0. tienen un nivel s´lo aproximado. Esto se puede hacer con distintos m´todos. obtenemos Z = ı 3. y la alternativa unilateral de que las Y son mayores que las X . tambi´n incrementa S. y corregirlos o eliminarlos.2 M´todos robustos y no param´tricos e e Consideremos un ejemplo imaginario de muestras apareadas.

p1 ) y X2 ∼ Bi(n2 . aprender la teor´a elemental de los tests y el uso de los a ı correspondientes m´todos no requiere m´s que un poco de paciencia. hay una probabia o n lidad positiva de que haya Zi = 0. y se desea testear H0 = {p1 = p2 } contra H1 = {p1 > p2 } (o {p1 = p2 }).´ 11. 1).5 Sobre el uso de los tests en la pr´ctica a “Est´s buscando direcciones a en libros para cocinar. el test unilateral rechaza cuando p∗ − p∗ > z1−α v∗ . se tiene U = 11. que bajo H0 = {δ = 0} es aproximadamente N(0.3 Comparaci´n de dos binomiales o Consideremos la situaci´n en que se observan X1 ∼ Bi(n1 . SOBRE EL USO DE LOS TESTS EN LA PRACTICA 141 equivale a p > 0. que da para el test (11.3) un estad´ ıstico igual a 3. En definitiva. con n1 y n2 conocidos.5. 2). a 0 y por lo tanto el EMV de v es v ∗ = p∗ (1 − p∗ )n/n1 n2 .4. resultando a veces una aplicaci´n mec´nica de recetas sin sentido. el EMV de p0 es p∗ = X/n. (11. Es f´cil deducir que bajo H0 . por falta de claridad en “qu´ significa lo que e se est´ haciendo”. si a las 11 anteriores agreg´ramos dos nulas. conviene calcular la distribuci´n de δ ∗ bajo H0 . De manera que . ya visto. de manera que el test se reduce a un test unilateral de la binomial. En el ejemplo anterior. Pero su aplicaci´n e a o suele estar plagada de errores conceptuales. o a) El que un test acepte H0 no debe interpretarse como una demostraci´n de su validez. sea M = i=1 I(Zi = 0). a Como todas las observaciones tienen en la pr´ctica una precisi´n finita. Los muy elementales m´todos mostrados hasta ahora no permiten dee ducir el test adecuado. por lo cual el EMV de la diferencia δ = p1 − p2 es δ ∗ = p∗ − p∗ . La j 1 2 idea clave es que para obtener el test. donde u n = n1 + n2 . o sino como que “no hay suficiente evidencia como para rechazarla”. 1 2 11. el resultado ser´ el mismo. Para tener en cuenta este caso. p2 ) indepeno dientes. est´s mezclando el dulce con la sal” a Charly Garc´a: “Superh´roes” ı e Como el lector habr´ comprobado. suficiente evidencia de que µ > 0. En el ejemplo. a ıa 11. se usa el pivote 0 0 √ aproximado T = (δ ∗ − δ)/ v ∗ . Este es el test del signo.7) de modo que en general se hace el test como si las Zi nulas no existieran. Es a o a entonces oportuno advertir al lector de algunos de estos puntos conceptuales. p). El procedimiento para el caso bilateral es an´logo. Sea o p0 el valor com´n de p1 y p2 bajo H0 . Entonces se puede probar que D(U|M = m) = Bi(n − m.5. con X = X1 + X2 . consideremos un test unilateral de comparaci´n de dos medias.0005: nuevamente. Los EMV son obviamente p∗ = Xj /nj (j = 1. Entonces v = var(δ ∗ ) = p0 (1 − p0 )n/n1 n2 .32 con un valor p de 0. Para fijar ideas. de modo que lo daremos por decreto. y en √ consecuencia.

con un t muy grande– no n significa que las dos medias sean muy diferentes: s´lo indica que hay mucha evidencia o de que hay alguna diferencia. TESTS DE HIPOTESIS si n es demasiado peque˜o –y por lo tanto la potencia muy baja– es muy probable n que el test acepte casi cualquier cosa. b) Que el test rechace H0 con un valor p muy peque˜o –o sea. H0 debe a ser un “conjunto cerrado”). Si n es muy grande. El primero es tomar en cuenta el hecho de que la hip´tesis nula no es o rechazada si no hay suficiente evidencia en su contra. e c) Al elegir un test. Si las mira desde 200 metros (sin largavista) s´lo puede decir que no tiene suficientes elementos para decidir si son o distintos. se o puede obtener una potencia alta para θ lo bastante lejos de θ0 y/o n lo bastante grande. El ıa segundo es “t´cnico”: el “=” debe estar en H0 . un test que rechaza la hip´tesis nula si el pr´ximo premio mayor o o de la Loter´ Nacional termina en 00. el valor del n estad´stico puede ser grande. Se puede hacer la siguiente comparaci´n: un observador ı o debe decidir si dos personas son iguales f´ ısicamente. porque la potencia es ¡tambi´n de 0. pero no θ = θ0 . es decir. no debiera n quedarse con el test.05 las siguientes hip´tesis nulas: o . pero si en cambio se quiere testear H0 = {θ = θ0 } contra θ = θ0 con nivel α.6 Ejercicios a. hay dos criterios para tener a o a presentes. H0 puede ser de la forma e θ = θ0 o θ ≤ θ0 . las impresiones digitales). aunque sea peque˜a.1 Con los datos del ejercicio 10. Por lo tanto. o θ > θ0 (en lenguaje matem´tico. pero es obviamente un ıa test idiota. si uno quiere tener una idea del tama˜o de la diferencia. e d) Para elegir cu´l es la hip´tesis nula y cu´l la alternativa. Por ejemplo. es necesario recordar que no basta con tener en cuenta el error de tipo I. µ ≤ 1 contra µ > 1 11. Por lo tanto. hay que poder describir en qu´ difieren. tiene un nivel de 0. La raz´n es que si se procede de la forma indicada. Una buena norma general ser´a: si un test detecta que ı dos cosas son diferentes.01!. debiera tomarse la primera como H0 . testear al nivel 0. Ambos criterios e no siempre son compatibles –como veremos en el Ejemplo 12.C– y entonces debe primar el “t´cnico”.A o muestra simplemente que n es demasiado chico como para decidir si µ es mayor o menor que 235.01. si los mira desde muy cerca.142 ´ CAP´ ıTULO 11. y nadie podr´a tomar esto como una demostraci´n de que son iguales. siempre podr´ encontrar diferencias. si se contraponen una teor´ establecida y otra novedosa.1. Por ı o otra parte. inevitablemente la potencia resulta tambi´n α cualquiera sea n. µ = 1 contra µ = 1 b. e 11. sino que debiera observar el estimador puntual y el intervalo de confianza correspondientes. aunque a se trate de dos gemelos (por ejemplo. La contradicci´n del final del Ejemplo 11.

el valor p es 2 m´ o ın(G(t). ıa 11.3 a los intervalos dados por (10.15. si el lote es bueno.8 contra σ = 0.16) tiene la regi´n de o o aceptaci´n dada por (11.8 n si µ ≥ 3.2). ¿es el resultado compatible con la suposici´n de o o que c = 0. 1−G(t)). 143 11. ¿Qu´ se e podr´ concluir?. y de las segundas.05.8 d. con nivel 0. . en la University of Southwestern Louisana n se dejaron caer 1000 tostadas untadas con mermelada de grosellas silvestres: 400 en la cancha de basket de la Universidad. Para verificarla. Suponiendo normalidad. Para verificar esto. Se a desea que. o a o 11.4 Muestre que el test bilateral de H0 = {p = p0 } en la binomial.8.10].4) m´s la condici´n 0 < X < n [usar el ejercicio 10. ¿Qu´ condici´n debe cumplir la o e o muestra para que el lote sea considerado aceptable? 11. 11.01. De las primeras. se realiz´ un experimento en la o University of Southwestern Louisana.6?. y 600 sobre una valiosa alfombra persa. 11. Se supone que la distribuci´n de las duraciones es exponencial. probar que si t es el valor observado de T . la probabilidad de que caiga del lado del dulce es mayor que la de que caiga del lado del pan”.10 En la situaci´n del ejercicio 10. ¿c´mo asignar las observaciones de manera de o o maximizar la potencia de los tests para ?. la probabilidad de rechazarlo sea ≤ 0.14)-(10.3 Una de las m´s c´lebres “Leyes de Murphy” [3] establece que “si se deja caer al suelo a e una tostada untada con dulce.7 En la situaci´n del Ejercicio 10.6. al nivel 0. σ2 ). 350. 11.13)-(10. cayeron 220 del lado del dulce. EJERCICIOS c. en el que se dejaron caer 1000 tostadas untadas con mermelada de grosellas. σ ≥ 0. σ = 0.8 Otra famosa ley de Murphy es: “la probabilidad de un suceso es funci´n creciente o del da˜o que causa”. ¿Qu´ conclusi´n e o puede sacar?.2 Para un test bilateral basado en un pivote T con funci´n de distribuci´n G (Proposio o ci´n 11. obtenido aplicando la Proposici´n 11. Los valores de la resistencia a la tensi´n de dos muestras de cable (en libras) son: o A: 5110 5090 5120 5115 5105 5050 5075 5085 B: 5130 5050 5040 5045 5065 5120 5050.8 contra σ < 0. Hallar el menor n tal que la potencia sea ≥ 0. suponiendo conocida σ = 5.10. de las cuales cayeron 540 del lado del dulce.9 Se desea testear H0 = {µ = 0} contra la alternativa {µ = 0} para muestras de tama˜o n de N(µ.5 Los fabricantes “A” y “B” producen el mismo tipo de cable de cobre.6 Un lote de n l´mparas se considera aceptable si su vida media es ≥ 1000 horas. 11.6. testear la igualdad de las resistencias medias de los cables producidos por ambos fabricantes.11. 11.

6.11 Probar (11. (b) si la Ley es cierta.95. debera cumplir con: (a) si la Ley de Murphy es falsa. ´ CAP´ ıTULO 11. la probabilidad de que el test la confirme debe ser ≤ 0.7).6) es funci´n creciente de |γ| de α. entonces la probabilidad de confirmarla debe ser ≥ 0.12 En la situaci´n del ejercicio 11. TESTS DE HIPOTESIS 11.13 Verificar que (11. ¿Cu´ntas tostadas hay que arrojar para que se cumplan estas condiciones? a 11. o æ .144 11. y la probabilidad de caer del lado del dulce es > 0.3 el comit´ de investigaciones de la University of o e Southwestern Louisiana decreta que. para que el experimento sea considerado concluyente.01.

Se desea una predicci´n aproximada de y en o o funci´n de x. el criterio ser´ buscar los coeficientes tales que o a 145 . una idea sensata es buscar los coeficientes o de forma que las diferencias yi −(β0 +β1 xi ) entre observaci´n y predicci´n sean “peque˜as”.1 [6] dan para cada mes la temperatura promedio x –en grados cent´grados– y la cantidad y de ı vapor –en libras– utilizada en un proceso qu´mico durante el mes (los datos no est´n en ı a orden cronol´gico sino ordenados por las x).1 El m´todo de m´ e ınimos cuadrados Para ajustar una relaci´n de la forma (12. aunque o con mucha variabilidad.1. n) y se desea encontrar coeficientes β0 .2.2 y la figura 12.1).2. o La figura 12.Cap´ ıtulo 12 Ajuste de una Recta Una situaci´n frecuente en la investigaci´n cient´ o o ıfica y tecnol´gica es aproximar una mago nitud como funci´n de otra u otras. yi ) (i = 1.1 muestra una relaci´n descendiente y aproximadamente lineal. o 12. se tienen datos (xi . aqu´ se parte de datos emp´ricos.A: Temperatura y consumo de vapor Los datos de la tabla 12. o o n Como en la Secci´n 6. Ejemplo 12. . . .1) Esto es semejante a la situaci´n de la Secci´n 6. x (“predictor”) e y (“respuesta”).1.2. Es decir. con el objetivo de tener una descripci´n de la evoluci´n temporal del o o fen´meno. Los datos se muestran en la tabla 12. Mostramos algunos casos t´ o ı ı ıpicos. Ejemplo 12. La m´s simple es ajustar una relaci´n lineal eno a o tre dos magnitudes.B: Dispersi´n de un aerosol En un estudio sobre aerosoles [5] se realiz´ o o para cada medici´n una emisi´n de un aerosol y se registr´ despu´s de un tiempo x –la o o o e “edad” del aerosol– su dispersi´n medida como la inversa de la cantidad de part´ o ıculas por unidad de volumen. (12. pero mientras que all´ se part´a de una o o ı ı distribuci´n conjunta. β1 tales que yi ≈ β0 + β1 xi . .

16 22 9.2) derivamos (12.146 CAP´TULO 12.17 -1.13 12.06 57 30.00 8.5) .50 Tabla 12.89 -1.22 9.67 0.35 40 24.73 7.08 12.23 98 48.1: Temperatura (x) y uso de vapor (y) x -2.14 x 14. obteniendo las ecuaciones normales: n i=1 n i=1 (yi − β0 − β1 xi ) = 0.83 8.88 8.33 21.17 16.17 78 42.2: Dispersi´n de aerosol o Edad x (minutos): Dispersi´n y: o n i=1 (yi 8 6.94 7.14).00 8. (12.24 10. AJUSTE DE UNA RECTA ı Tabla 12. que desde su creaci´n por el astr´nomo y matem´tico franc´s Lagrange en el Siglo XVII.61 24.40 10. Para hallar ls soluci´n de o n i=1 (yi − β0 − β1 xi )2 = m´ ın.28 23.11 21.34 73 32.11 21.36 10.50 14.89 15.36 8.17 14.58 9. ¯ ¯ (12.09 9.17 y 11.2) respecto de β0 y β1 .98 9. y el lector puede verificar enseguida que la soluci´n es o β1 = Sxy .83 22. Sx β0 = y − β1 x.94 9.57 8.86 8.19 11.68 6.78 1.50 21. El motivo de su popularidad es –ya lo adivina el lector– que es el unico capaz de proporcionar resultados expl´ ´ ıcitos. (12.83 3.72 -1.4) Pero esto es semejante a (6.28 -0.82 8.88 11. (12.3) (yi − β0 − β1 xi )xi = 0.27 6.56 23.47 6. Este es el m´todo de m´ e ınimos cuadrados.51 10.88 35 14.18 87 43.11 7. ha sido sin o o a e duda el m´s usado de los m´todos estad´ a e ısticos.83 y 8.76 − β0 − β1 xi )2 sea m´ ınima.

i=1 n y= ¯ 1 n n yi .8) teniendo en cuenta para ´sto ultimo que e ´ n i=1 (xi − x) = 0.1: Uso de vapor vs. temperatura donde x= ¯ 1 n n xi .10) xi ri = 0. ¯ ¯ (12. x ¯ Sean yi = β0 + β1 xi . i=1 (12. i=1 i=1 Es inmediato que la recta pasa por (¯. ¯ (12. y). ri = yi − yi ˆ ˆ (12. EL METODO DE M´ ıNIMOS CUADRADOS 147 × 12 × × × × × × × × × × × × × × × × × × × × × × × 10 y 8 × 6 x 0 10 20 30 Figura 12. ¯ n Sxy = i=1 (xi − x)yi = ¯ i=1 xi (yi − y ) = ¯ i=1 (xi − x)(yi − x). (12.9) los “valores ajustados” y los “residuos”.6) (12.7) Sx = i=1 n n (xi − x)2 .´ 12.11) .1. Entonces las ecuaciones normales se pueden escribir como n n ri = 0.

13) es obvio que Sr ≤ Sy . (12.13) donde Sy = n (yi − y )2 .75. AJUSTE DE UNA RECTA ı 50 × × × 40 30 y 20 × × × × 10 × × 0 0 20 40 60 80 100 x Figura 12. En el ejemplo 12. y Sr = 71. se tiene x = 11.44. y sin embargo se ve en la figura que los datos no est´n pr´ximos a una recta. y = 9.344.02.A. Sxy = −324. que mide cu´n dispersas est´n las x respecto de su promedio. Sx (12.2: Aerosol: dispersi´n vs. De (12. Sy = 71.967. Sx = 2208. Al valor 1 − Sr /Sy se lo ¯ i=1 llama coeficiente de determinaci´n. edad o Una medida del error del ajuste est´ dada por la suma de los cuadrados de los residuos: a n Sr = i=1 2 ri .1468.2. ¯ ¯ de donde sale β0 = 11. Lo que ocurre a o es que R2 depende no s´lo de Sr –que mide cu´n dispersas est´n las y alrededor de la o a a recta– sino tambi´n de Sx . y se lo suele designar con R2 .8) queda o n Sr = i=1 (yi − y − β1 xi )(yi − y ) = Sy − ¯ ¯ 2 Sxy .148 CAP´TULO 12.11) resulta n n Sr = i=1 ri (yi − yi ) = ˆ i=1 ri (yi − y ).90. Mide “qu´ proporci´n o e o de la variabilidad de las y es explicada por las x” (comparar con (6.16)). R2 = 0. e a a . ¯ y usando la definici´n de β1 y la segunda igualdad de (12. Observe que R2 es alto. β1 = −0.12) Usando (12.

2. hay un procedimiento que requiere menos operaciones.12). (12. que las x m´s alejadas del origen tienen mayor peso. lo que es adecuado si se dispone de computadora. Esto justifica plantear (12.13). a = log a. para una recta general. obteniendo y ≈ a + bx con y = log y. lo m´s natural es aplicar directamente e ´ a las definiciones (12.14)) con pesos wi = x2 .1. En verdad. cuando x = 0. lo que es corroborado por la figura 12.8) y (12. con ın. Es decir. Este procedimiento tiene los mismos peligros mostrados en el ejercicio 8.7).B. Sxy y Sr . hacen falta las medias x. EL METODO DE M´ ıNIMOS CUADRADOS 149 12. Ay = i i=1 2 yi .10 y 12.5) y medir el error.1).5) y la ultima igualdad de (12. el β de (12. el remedio es el mismo: restar a las xi y a las yi sendas constantes para que queden parejamente repartidas alrededor del 0.2 Recta por el origen En el Ejemplo 12.1 C´lculo num´rico de los coeficientes a e Para calcular los coeficientes de (12. Pero si se debe usar una calculadora. a An´logamente. y por lo tanto se podr´a ıa ı obtener la pendiente β como un promedio de las pendientes yi /xi . Para evitarlos. Axy = i=1 xi yi .2.14) es un promedio ponderado de las pendientes (ver (12. una forma de hacerlo es tomar logaritmos. Lo mismo sucede con modelos de la forma y ≈ abx (ejercicios 12. Sxy = Axy − n¯y . . (12. x = log x. y y las ¯ ¯ sumas Sx . por lo que la cantia u dad de part´ ıculas por unidad de volumen es muy alta. Sy = Ay − n¯2 . ajustar una recta que pasa por el origen. En este caso el lector puede verificar f´cilmente que el estimador de m´ a ınimos cuadrados definido 2 por n ri = m´ donde ri = yi − βxi .1.1. 12. y en consecuencia la dispersi´n es o pr´cticamente nula.1) a con β0 = 0. con pesos ¯ ¯ (xi − x)2 . x x¯ y Y Sr se puede calcular mediante (12. (12. Para obtener ´stas ultimas. ya i 2 que xi yi = (yi /xi )xi . de la forma yi ≈ βxi . ¯ 12.´ 12. debiera ser β ≈ yi /xi . cumple la ecuaci´n normal n ri xi = 0. o i=1 i=1 soluci´n o n xi yi β = i=1 2 . Entonces se deduce enseguida que Sx = Ax − n¯2 . si y ≈ axb y se quiere estimar a y b. Sean n n n Ax = i=1 x2 .1. el aerosol est´ a´n comprimido.8) muestran que a ´ la pendiente β1 es un promedio ponderado de las pendientes (yi − y)/(xi − x). o sea.3 Transformaciones Algunos modelos no son de la forma (12. pero pueden ser llevados a ella. Por ejemplo.14) n i=1 xi Se podr´ pensar que si yi ≈ βxi .8).

que es el m´s simple de calcular. (12. (12. y para maximizar esto hay que minimizar n ln σ + 1 σ2 n i=1 (yi − β0 − β1 xi )2 . Adem´s se supone: a Ui ∼ N(0. 12. Este es el llamado modelo lineal simple. β0 . conocidas sin error. n (12. Por ejemplo. .2).18) . . . AJUSTE DE UNA RECTA ı Note que para conservar la simplicidad del c´lculo. . ı ı El ajuste de polinomios (por ejemplo y ≈ β0 + β1 x + β2 x2 ) excede el nivel de este libro. y las Ui son variables aleatorias iid. las xi (i = 1. y resulta σ∗ = Sr . σ) = 1 (2π)n/2 σn exp − 1 2σ2 n i=1 (yi − ηi )2 .15) donde β0 y β1 son par´metros desconocidos. n) son fijas (o sea. Calcularemos los EMV de los par´metros (distinguiremos los estimadores β∗ de los a par´metros desconocidos β). Para obtener el EMV de σ. yn . y ≈ β0 + β1 x5 no ofrece problema. hace falta un modelo estad´ ıstico para las observaciones. . Como Yi ∼ N(ηi . . y las Yi son independientes porque las Ui lo son.17) respecto de σ.2 El modelo lineal simple Para tratar la variabilidad de los coeficientes obtenidos. o De modo que la funci´n que cumple la suposici´n de normalidad (12. σ2 ) (12. lo que importa es que los coeficientes a –no los predictores– figuren en forma lineal. σ2 ) donde a ηi = E Yi = β0 + β1 xi . . pero s´ y ≈ β + β 2 x (pese a que aqu´ la x figura linealmente). se deriva (12. El modelo es Yi = β0 + β1 xi + Ui . la densidad conjunta de las Yi es L(y1 .150 CAP´TULO 12. β1 . . no son a aleatorias).16) no es otra que la o o a de justificar el uso del m´todo de m´ e ınimos cuadrados.16) con σ desconocida.17) Se verifica enseguida que los β ∗ que minimizan esta expresi´n son los mismos de (12.

los βj son normales por ser combinaciones lineales de las Yi . pues cumplen dos restricciones. β1 ).4: 2 ∗ ∗ Teorema 12.4 Inferencia Ahora veremos c´mo obtener intervalos de confianza y tests para los par´metros.5). se cumple un resultado an´logo a los Teoremas 10. (12. se deduce que las medias de los βj son ∗ E β1 = n i=1 (xi Sx n − x)ηi ¯ = β1 .19) es que la varianza del estimador de la pendiente es tanto o menor cuanto m´s desparramadas est´n las xi .11). cuanto m´s alejada est´ x del 0. Como el lector puede sospechar.20) y (12.9).3 Distribuci´n de los estimadores o Para obtener inferencias sobre los estimadores.1 Sr /σ 2 ∼ χn−2 . se prueba que x ¯ ∗ ∗ cov(β0 .22) Sx ∗ Por ultimo.´ 12.3.19) ∗ Para calcular la varianza de β0 . . Por o a (12. ¯ o sea que los estimadores son insesgados. Por ser las Ui incorreladas.5) que ∗ var(β1 ) = σ2 . (12. se necesita su distribuci´n. Sx (12.21) es: como la recta pasa por a e (¯. β1 ) = −σ2 . Usando (12. 12.3 y a 10. La de (12. y es independiente de (β0 . con menos precisi´n se puede estimar la ordenada x ¯ a e¯ o en el origen. Yj ) = 0 para i = j. (12.20) n Sx i=1 y de aqu´ se obtiene ı ∗ var(β0 ) = σ2 x2 ¯ 1 + n Sx . sale directamente de (12. lo escribimos expl´citamente como combinaci´n lineal de ı o las Yi : n 1 xi − x ¯ ∗ β0 = −x ¯ Yi .21) La interpretaci´n de (12. los n sumandos de Sr no son independientes. Y ). que son ´ normales independientes. DISTRIBUCION DE LOS ESTIMADORES 151 12. Teniendo en o ∗ cuenta que E Ui = 0 y (12. ∗ E β0 = 1 n i=1 (β0 + β1 xi ) − β1 x = β0 . y teniendo en cuenta que cov(Yi .

v1 y c∗ los respectivos estimadores. Entonces de la independencia dada en el Teorema resulta que ∗ βj − βj ∼ tn−2 ∗ vj (j = 1. el astr´nomo dan´s Tycho o e Brahe observ´ un astro nuevo y muy brillante. Galileo deb´a probar que β1 = 1. La ultima columna de la tabla se usar´ en la Secci´n 12. como en la Secci´n 10. que constan de dos ´ngulos. En 1632. no pod´an aparecer ni desaparecer. o β∗ − β Sr n i=1 x2 ∼ tn−1 . El resultado an´logo al Teorema 12. ´ a o La figura 12. y es independiente de β ∗ . Galileo ıa a polemiz´ con otros astr´nomos con el fin de probar que en efecto se trataba de una estrella. o ı En aquel tiempo no exist´ Probabilidad ni Estad´ ıan ıstica. en la forma ya a conocida. ∗ ∗ Las varianzas de β0 y β1 y la covarianza se estiman reemplazando en (12. producto de la desintegraci´n de una o estrella. el estimador (12. Se puede mostrar que estos ´ngulos cumplen una relaci´n de la forma y = β0 + β1 x a o donde β1 ≥ 1 depende de la distancia a la estrella.152 CAP´TULO 12. En el modelo Yi = βxi + Ui de recta por el origen. pero o ahora con n − 2 grados de libertad.22) a σ por S.C: Galileo y la estrella nueva En 1572. Sean v0 . seg´n la cual ıa o u las estrellas eran inmutables. y el an´lisis que hizo Galileo nos a parecer´a hoy innecesariamente complicado. (12. Esta relaci´n no se cumple exactamente con los datos observados.1 es que Sr /σ2 ∼ χ2 a n−1 (aqu´ los ri i=1 i cumplen una sola condici´n). y es igual a 1 si la distancia es infinita. (12. de modo que ı determinar si el nuevo astro era una estrella ten´a serias implicaciones.7.14) tiene varianza ı σ2 / n x2 .3.19) ∗ ∗ y (12.21). Veamos c´mo se podr´ plantear el problema ı o ıa . se trataba de una nova. lo que permite obtener intervalos de confianza y tests para los par´metros. AJUSTE DE UNA RECTA ı De aqu´ sale que ESr = σ2 (n − 2). Dicha doctrina ı establec´ adem´s que las estrellas estaban a una distancia infinita. Para mostrar que se trataba de una estrella. 2). debido a los errores de o medici´n. En consecuencia. En el lenguaje actual. i Ejemplo 12. cuyo brillo fue decreciendo hasta finalmente o extinguirse 18 meses m´s tarde. y varios astr´nomos hicieron observaciones de su posici´n desde distintos o o puntos de Europa.3 muestra los datos. Tycho verific´ que el nuevo astro permanec´ fijo respecto a o ıa a las estrellas. “altura del ı a polo” x (que depende de la latitud del punto de observaci´n) y “altura m´ o ınima de la estrella” y (ambas en grados). o o Damos aqu´ una parte de las observaciones [8].1. y por lo tanto un estimador insesgado de σ2 se ı obtiene como Sr S2 = . es decir. Pero en aquel tiempo primaba todav´ la doctrina de Arist´teles.23) n−2 El Teorema permite obtener intervalos de confianza para σ.

1 o o que γ∗ − γ ∼ tn−2 .16 actualmente.40 48. lo que da un estad´stico t=-0.27). Combinaciones lineales En general.30 51.´ 12.567.5 Intervalos de predicci´n o Sea x0 cualquiera.9876.67 22.00 20. y v ∗ depende s´lo de S.38 0. Galileo s´lo podr´a e o ı aspirar a mostrar que los datos no contradicen su afirmaci´n.22 -0. Se deduce enseguida que E η0 = η0 .50 55. estrella 27.0218. S = 0.04 0.12 -0.24) ∗ vγ 12.25 11.70 -0.90 51.40 51. se deduce del Teorema 12. El EMV ∗ ∗ ∗ ∗ de η0 es obviamente η0 = β0 + β1 x0 .16 20.97 alt.13 -0. ∗ ∗ ∗ Como γ depende s´lo de (β0 . polo 55. se la estima reemplazando ∗ ∗ ∗ a σ por S. La desviaci´n estimada de la pendiente es 0. Su varianza se . testeando H0 : β1 = 1 contra la alternativa β1 > 1. mostrando o ı un excelente ajuste con H0 . la media de la “Y ” correspondiente a x0 .37 48.03 -0. se debe proceder al o e rev´s. (12. Con esto.95 residuo -0.02 0. u 1 2 3 4 5 6 7 8 9 10 alt. β1 ). El EMV de γ ∗ ∗ es γ∗ = aβ0 + bβ1 .5: o ı o o como Galileo quiere demostrar que la doctrina establecida (β1 > 1) es falsa. o ∗ ∗ Un ajuste por m´ ınimos cuadrados da β0 = −27. Aqu´ se plantea la situaci´n del punto (d) de la Secci´n 11.50 27.37 39. β1 = 0.49.75 24. Si se desean o a intervalos de confianza o tests para γ. y η0 = β0 + β1 x0 . y se trata de determinar si los datos apoyan la afirmaci´n β1 = 1.3: Alturas del polo (x) y de la estrella (y) N´m.10 -0. o sea vγ = a2 v0 + b2 v1 + 2abc∗ . cuya varianza vγ se obtiene aplicando (4. sea γ = aβ0 + bβ1 cualquier combinaci´n lineal de los par´metros. ´sta debiera e constituir la hip´tesis nula.97 52. INTERVALOS DE PREDICCION 153 Tabla 12.36 23.5. pero como esto es t´cnicamente imposible. se siguen los mismos pasos que antes. El modelo es Yi = β0 + β1 xi + Ui .3063.17 49.05 22.55 23.

Y ). (12. en el 12.C las x est´n predeterminadas (han sido elegidas a antes de medir las y).154 CAP´TULO 12.8). y el de predicci´n es 9. altura del polo obtiene usando (12.262 ± 2. y supongamos que se conoce x0 pero no Y0 . como la ¯ o recta pasa por (¯. el efecto del error en la pendiente se hace m´s notorio cuanto m´s x ¯ a a lejos est´ x0 de x. Usando (12.A.262 ± 0. Se desea un intervalo que contenga a Y0 con probabilidad dada (recordar la Secci´n 10. y varianza e o ∗ σ2 + var(η0 ). La explicaci´n es que.262. o 12.24) se obtienen intervalos de confianza para η0 . y por lo tanto el intervalo es ∗ η0 ± S tn−2. e ¯ Sean x0 cualquiera e Y0 = β0 + β1 x0 + U0 . (12. el intervalo de confianza bilateral de nivel 0. Estos datos. en que los predictores . ∗ En el Ejemplo 12.95 para η0 es 9.3: Altura de la estrella vs.4248. se lo llama “intervalo de predicci´n”.163. es η0 = 9. AJUSTE DE UNA RECTA ı × × 25 × × × × × 20 y 15 × × 10 40 45 50 55 x Figura 12.21).19) y (12. para x0 = 12.1−α/2 1 + 1 (x0 − x)2 ¯ + n Sx 1/2 . y a por lo tanto deben ser consideradas como aleatorias.B y 12.25) Note que esta varianza aumenta con la distancia de x0 a x. El o o ∗ m´todo para obtenerlo es igual al de dicha secci´n: (Y0 − η0 ) tiene media 0.22): ∗ var(η0 ) = σ2 ¯ 1 (x0 − x)2 + n Sx . donde U0 es independiente de los dem´s a Ui .A ambas est´n fuera del control del experimentador.6 Predictores aleatorios Mientras que en los ejemplos 12.

26) (yi − β0 − β1 xi )2 gi (xi ).3 implica que esta o es la distribuci´n condicional D(T |X = x). Yi ). Si adem´s se postula (12. σ) = 1 (2π)n/2 σ n exp − 1 2σ2 n i=1 n (12. Lo mismo se cumple obviamente para el modelo de recta por el origen. . U) es una tn−2 . Puede probarse que siguen siendo insesgados. y la covarianza muestral. .14).27) y (12. i = 1. . Un ). aunque la interpretaci´n o de los resultados puede ser muy diferente. o a Las distribuciones de los estimadores dependen ahora de las distribuciones de las Xi . . con densidad gi . . β0 .6).12.26) con (12. y) = gi (x)h(y − β0 − β1 x) donde h es la densidad de Ui . esta es D(T ).8). De aqu´ resulta E(Yi |Xi ) = β0 + β1 Xi si o ı E Ui = 0 (ejercicio 12.12). β1 .24) es tn−2 . xn . . . que son vectores aleatorios independientes. El Corolario 6. es f´cil calcular la funci´n de verosimilitud. la distribuci´n del eso o tad´stico t de (12. los estimadores son la versi´n muestral de (6. . Yi ) es una transformaci´n lineal de (Xi . PREDICTORES ALEATORIOS 155 no son controlados sino aleatorios.5). Para cada x ∈ Rn fijo. En esta situaci´n. ı Notemos que n−1 Sx . ı n−2 Demostraci´n: El estad´ o ıstico t es una funci´n de las Xi y de las Ui : T = t(X. En cambio o a –afortunadamente– las distribuciones de Sr y de los estad´sticos t no dependen de la de ı los predictores: Proposici´n 12. se llaman datos observacionales. su densidad conjunta se obtiene f´cilmente aplicando (5.2 Bajo el modelo (12. Como veremos a continuaci´n. el tratamiento estad´ o ıstico es esencialmente el mismo.6. . . yn . En consecuencia la funci´n de verosimilitud es o L(x1 . . Y por (6. Por lo tanto. . o Sea Sxy ρ∗ = Sx Sy el coeficiente de correlaci´n muestral. Como (Xi . y que su distribuci´n condicional en las Xi o es normal. . n−1 Sy y n−1 Sxy son las varianzas muestrales de las X y de las Y . i=1 y de esto se deduce que los EMV son los mismos que para xi fijas: los de m´nimos cuadrados. pero que en general su distribuci´n no ser´ normal (ejercicio 12. . . . o El mismo razonamiento vale para Sr .16). Supongamos a a o para simplificar que D(Xi ) es continua.27) y que las Ui tienen todas la misma distribuci´n. Ui ). la distribuci´n de t(x. Entonces se prueba f´cilmente que R2 = ρ∗2 . o a lo que da (Xi . n de variables o aleatorias. . Yi ) ∼ f (x.16). que cumplen el modelo Yi = β0 + β1 Xi + Ui . Xn ) y U = (U1 . y1 . se observan pares independientes (Xi . U) con o X = (X1 . y la de Sr /σ2 es χ2 . Supongamos que Xi y Ui son independientes (12.

81.14. La idea parece absurda. con una correlaci´n bastante alta: ρ = 0.156 CAP´TULO 12. se obtienen β0 = 36. o En el primer caso. entonces y aumentar´ a en media β1 .9 y β1 = u o u n ∗ 0.6.4: Habitantes vs. AJUSTE DE UNA RECTA ı 12.4 muestra una clara relaci´n entre x e y. las implicancias son distintas.1 Interpretaci´n de los resultados o Si bien las mismas f´rmulas valen para xi fijas o aleatorias.4: Cig¨e˜as y habitantes u n a˜o: n cig¨e˜as x: u n habitantes (miles) y: 1930 130 55 1931 148 55 1932 175 63 1933 185 66 1934 247 68 1935 253 72 1936 255 75 × × 70 × y × × 60 × × 50 100 200 Figura 12.4 [5] da para la ciudad alemana u n de Oldenburg los n´meros de cig¨e˜as (x) y de habitantes (en miles) (y) al final de cada u u n a˜o. o En vista de tan buen ajuste. cig¨e˜as u n 300 x La figura 12. Pero este razonamiento no se puede extender al caso de xi aleatorias.14 miles de habitantes/cig¨e˜a: u n ¿se puede concluir que la importaci´n de 10 cig¨e˜as implicar´a un aumento medio de la o u n ı poblaci´n de 1400 habitantes?.D: Nacimientos y cig¨e˜as La tabla 12. y dado que la pendiente es 0. Si hacemos un ajuste lineal para o ∗ ∗ predecir el n´mero de habitantes en funci´n del de cig¨e˜as. n Tabla 12. m´xime que nosotros ya sabemos o a . Para verlo. Ejemplo 12. se puede decir que si se hace que x aumente en . consideremos el siguiente ejemplo.

entonces el sesgo depende de vZ /Sx. La σ .7 Uso de los residuos Los residuos son un instrumento util para detectar la falta de correspondencia entre el ´ modelo y los datos. ∗ ∗ Si se la saca. para ı ı e concluir que un aumento del n´mero de habitantes acarrea un aumento del de cig¨e˜as. Los coeficientes no han cambiado sustancialmente. En el o ejemplo 12.1 Diagrama normal Cuando se ha elegido un modelo adecuado. e a Wald: se ordenan los datos en orden creciente de las xi . la que podr´a tratarse de una medici´n at´ o ı o ıpica. un diagrama normal de cuantiles de los residuos. Naturalmente. y1 ) e (¯2 . se subestima |β1 |). la unica forma de saberlo es alterarlas y ver qu´ pasa. Para el Ejemplo o ı 12. conocido como “error en las variables”.1714. a 12.5 muestra un residuo notoriamente ´ grande. y2 las de las m ultimas.C. hay que reemplazar a m´ ınimos cuadrados por otro m´todo. pero el estimador de σ ha bajado a menos de la mitad. Pero x est´ tan sujeto a errores de observaci´n como y. u u n Esto muestra que con datos observacionales. El m´s simple es el siguiente.9917 y S = 0. a o ∗ Puede probarse que el efecto de los errores en las x es que β1 est´ sesgada hacia el 0 a ∗ (o sea. que corresponde a la observaci´n 6.7.12. 21]. o ¿Cu´l puede ser entonces la explicaci´n de la correlaci´n?.2 Predictores con error Hasta ahora se ha supuesto que los predictores –tanto controlados como aleatorios– eran medidos sin error.2. y1 las medias ¯ ¯ de las x y de las y de las m primeras observaciones. La figura 12. 12. mientras la situaci´n contin´e o u evolucionando de la misma manera. nada impedir´a usar los datos al rev´s. O sea: si dos variables est´n muy correlacionadas. y2 ) da un estimador libre de sesgo. la ultima columna da los residuos. propuesto por A. USO DE LOS RESIDUOS 157 que dichas aves nada tienen que ver con el nacimiento de los ni˜os (puesto que ´stos nacen n e de un repollo).6. β1 = 0. El tama˜o de este sesgo depende de la relaci´n entre el error n o de medici´n de las x y la dispersi´n de ´stas. Sean m = [n/3]. Para completar el rid´culo. la altura del polo x depend´ s´lo del lugar de observaci´n. Pero si se quiere saber qu´ ocurre al alterar las variables e del sistema. y eso es simplemente la causa.77. ver [6. a Esto no impide que las x sean buenos predictores de las y. Si este valor es lo bastante alto como para producir inconvenientes. esta suposici´n es extremadamente optimista.C. de modo que se la puede tomar como controlada. y por lo tanto ıa o o era elegida antes de medir la y. como en la Secci´n 8. M´s precisamente. x2 . correlaci´n no implica causalidad. Notemos que tanto las x a o o como las y aumentan con el tiempo. x ¯ x ¯ Para m´s detalles de este problema. ´ e 12. x1 .2.7. puede ayudar a detectar observaciones at´picas. Entonces ¯ ¯ ´ la recta que pasa por (¯1 . la causa puede ser una tercera variable que influye en ambas. se obtiene β0 = −27. si en vez de xi se observa o o e a xi + Zi con E Zi = 0 y var(Zi ) = vZ .

AJUSTE DE UNA RECTA ı ∗ estimada de β1 es ahora 0. .5: Nova: diagrama normal de residuos 12. . xi es muy util para los casos en que no se sabe cu´l es el modelo correcto ´ a (o sea. . . en cambio.E: Otolitos Los otolitos son formaciones calc´reas que hay en el o´ de a ıdo los peces. . lo unico que queda del primero en el ´ est´mago o las heces del segundo. y no teniendo otra informaci´n sobre los o datos. . . . . Hallar la trasformaci´n adecuada (si la hay) tiene bastante de arte. . . son los otolitos. xi . . . . . .2 Gr´fico de residuos vs. . . los ri no debieran mostrar ninguna dependencia de las xi . . y luego examinar el gr´fico de ri vs. puede comenzarse por ajustar una recta. predictores a Graficar ri vs. Ejemplo 12.158 CAP´TULO 12. . . y o puede requerir varios ensayos.6766. Cuando un pez es comido por un predador. . . . cuando el modelo no es conocido.4 r(i) × × 0 . Los residuos son “lo que queda de las y despu´s de quitarles a e la influencia de las x”. × 0. .7. . si el gr´fico muestra alguna estructura. a el que puede mostrar la necesidad de una transformaci´n de las y y/o las x para llevarlos o a una forma lineal. × × × × × × × -0. .01222 con t = −0. Entonces. . .4 -1 0 1 Figura 12. . . . lo que los hace un elemento importante en o el estudio de la alimentaci´n de seres marinos. lo que afortunadamente no cambia las conclusiones anteriores. . Para aprovecharlos es necesario poder inferir o . . quiere decir que a no estamos quitando de las y toda la influencia de las x. . las m´s de las veces). .. Si el modelo fuera correcto. . .

6: Peso del pez vs. que exhiben una relaci´n aproximadamente o lineal con cierta curvatura.15 5.7. otol.80 5. La tabla 12.42 6.5: Otolitos long. predictores correspondiente a la rea gresi´n lineal de y en x. 5.61 5.92 6. lo que indica que todav´ se puede o ıa mejorar la aproximaci´n de y en funci´n de x.47 5. La figura 12.63 peso pez 235 238 270 287 295 301 316 325 330 long. Hay una clara estructura. USO DE LOS RESIDUOS 159 el tama˜o de la v´ctima a partir del tama˜o del otolito.50 peso pez 342 368 385 396 418 452 495 530 557 × × 500 yi 400 × × × × × × × × × × 300 × × × × ×× xi 5 6 Figura 12.6 muestra los datos.57 5.50 5.42 5. 5. Tabla 12.5 da las longitudes n ı n de los otolitos (x) y los pesos (y) de varios ejemplares de un pez ant´rtico llamado “pez a linterna”. Intentamos una regresi´n lineal de log y en o o o .12 5.87 5.12.33 5. otol.01 6. longitud del otolito La figura 12.68 5.7 muestra el gr´fico de residuos vs.30 6.15 6.

.2 56.3 77. . . . AJUSTE DE UNA RECTA ı log x.7: Residuos vs. x 169. . . . . .4 166. . no se ve mucha dependencia.95 para (a) la pendiente (b) la varianza del error (c) la media de la dispersi´n correspondiente a 50 minutos. . . deducir la f´rmula para los intervalos de predicci´n.1 181. . .7 56.8.0 64. .6 166.50 168.90 para los pesos de las o estudiantes con estatura 170 cm.1 49. .207 y 3.8 12.1 Probar que = 0. calcular intervalos de confianza de nivel 0. .20 55. predictores se ve en la figura 12. . Los coeficientes son -0. .12). o 12. . .8 Ejercicios n ˆ i=1 yi ri 12. .8 156. . n × × × 10 ri 0 × × × . 12. o o Aplicarla al ejemplo 12.B para x0 = 50 minutos. de una muestra de estudiantes. . .2 58. .160 CAP´TULO 12.B.6 165. y los pesos y en kg. El gr´fico de residuos vs.1 71.8 157. Hallar un intervalo de predicci´n de nivel 0. .4 53.2 Los siguientes datos son las estaturas x en cm.5 y 158. .6 52.3 En el ejemplo 12.× . . . Si bien la forma es un a tanto extra˜a. . . .631. . . . . . . . . 12. . .4 En el modelo de recta por el origen. × × ×× ×× × × × ×× -10 xi 5 6 Figura 12. longitud de otolitos Este tipo de gr´ficos es tambi´n util para detectar observaciones at´ a e ´ ıpicas que afectan mucho los coeficientes (ejercicio 12. .0 165.

. .16): ∗ a. Para j = 0. . .7. EJERCICIOS 161 × .002 × × × × ri 0 × × × . la proporci´n V de volumen de nitr´geno liberada hasta el o ı o o instante t sigue la relaci´n V = αt . Grafique los datos. .21) y (12. . es E(Y |X) = g(X).6 Probar que bajo el modelo (12. . Si Xi ∼ N(0. . . .5 Probar que si Y = g(X) + U con X y U independientes y E U = 0. Estimar α con los datos de la tabla 12. . . es D(β1 /σ2 ) = tn−1 .12. .19) respectivamente ∗ b.002 × × × log(xi ) 0. o . . ¿Hay alguna otra explicaci´n para la correlaci´n observada?. . . . ¿Se puede concluir que las radios inglesas provocan deficiencia mental?. . . . . . . 12.26) con (12. o 12. . o o 12. . . c. . . . vj ).7 La tabla 12.27) y (12. y g cualquier funci´n. . . × × × × × × × -. j = 0. . . . donde v0 y v1 son los segundos miembros de (12. . Por lo tanto. . 1 es D(βj |X = x) = N(βj .8 En una reacci´n qu´mica.8: Residuos vs. o b. .6 [13] muestra para cada a˜o el n`mero de aparatos de radio vendidos n u en Gran Breta˜a (en miles) y la cantidad estimada de deficientes mentales por 10000 n habitantes. log-longitud de otolitos 12.8 Figura 12. 1 ∗ c. . . E βj = βj . . . .8. . . . . a. . ..7 0. Calcule su correlaci´n. . 1).

555 0. σi ) donde σi = γki con γ desconocida y ki conocidas (“cuadrados m´nimos ponderados”).716 tiempo 2.983 12.6: Radios y deficiencia mental A˜o n 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 Radios 1350 1960 3270 2483 2730 3091 3647 4620 5497 6260 7012 7618 8131 8593 Deficientes 8 8 9 10 11 11 12 16 18 19 20 21 22 23 Tabla 12.220 1.323 0.050 3.906 0. Con los datos de la tabla u o 12. Examinar los residuos.11 La tabla 12. o o e de mercurio (y). predictores ¿Nota algo en a particular?.9 Obtener el EMV en el modelo de recta por el origen con varianzas distintas: Yi = 2 2 βxi +Ui con Ui ∼ N(0.862 0.9 da una serie de mediciones realizadas en los Alpes a distintas alturas: temperatura de ebullici´n del agua en 0 C (x) y presi´n atmosf´rica en mm. ı i 12.200 0. 12. a.133 0.600 4.770 5.630 3. Hacerlo en particular para (a) ki = |xi | y (b) ki = x2 .900 volumen 0.10 La presi´n de disociaci´n p para una reacci´n del nitrato de bario depende de la o o o temperatura absoluta t seg´n la relaci´n p = exp(a + b/t). AJUSTE DE UNA RECTA ı Tabla 12.920 1.162 CAP´TULO 12.776 0.826 0.959 0.250 2.468 0. Ajuste una recta y haga el gr´fico de residuos vs.7: Reacci´n vol de nitrogeno o tiempo 0. .8 [14] estimar a y b y sus errores standard.570 0.637 0.550 1.850 volumen 0.

33 95.94 100. o Tabla 12.28 93.00 566. ¿Hay alguna observaci´n sospechosa?.75 560.50 664.11 y 519.17 92. b. y graficar residuos vs.89 98.25 599.64 7.50 x 94. ¿Qu´ se ve ahora?.48 0. EJERCICIOS 163 Tabla 12.92 1.11 99.12. 1025 1030 1048 1082 1112 1133 1135 1150 Presi´n o 710 1040 1230 2360 3980 5230 5810 7240 b. a.8. 748 770 795 844 874 927 958 1000 Presi´n o 0. ¿Se observa algo llamativo?.8: Nitrato de bario Temp.25 694.25 712. c.87 19.00 93.10 son los caudales medios de un r´ medidos en dos puntos ıo.9: Temperatura y punto de ebullici´n o x 90.00 726. Rep´ ıtalo usando log y en vez de y.0 168.75 519.0 490.25 628. Ajustar una recta para predecir y en funci´n de x.12 Los datos de la tabla 12.75 597. a ´ o e . Haga el diagrama normal de los residuos. ¿Queda mejor?.75 600.28 99.61 98.75 583.11 y 600.83 93.0 Temp.0 80.17 92.94 94.50 751.50 12. preo dictores. diferentes (x corresponde a aguas arriba de y).44 93. Repetir el an´lisis sin la ultima observaci´n.75 578.28 90.06 95.00 749.

164 CAP´TULO 12.90 21.10 27.10 37.90 26.90 23.60 26.10 23.10 31.60 20.30 44. AJUSTE DE UNA RECTA ı Tabla 12.90 .00 38.10 27.70 77.70 23.00 19.40 35.60 33.40 19.60 26.60 27.00 27.70 18.80 y 15.80 x 32.10: Caudales x 17.60 y 24.

Ap´ndice A e TABLAS Aproximaciones para los cuantiles Las siguientes aproximaciones permiten calcular las funciones de distribuci´n y los cuantiles o de χ2 y t. 1). 1) para m grande.3 × 10−4 para 10−7 < α < 0. Normal La siguiente aproximaci´n para los cuantiles zβ de N(0. Cap. 10] tiene un error o menor que 1. y los cuantiles de N(0. Chi-cuadrado Si Z ∼ χ2 .5: z1−α ≈ {(4y + 100)y + 205}y 2 {(2y + 56)y + 192}y + 131 1/2 . 2 9m 9m . 1) [10. La segunda aproximaci´n –llamada de Wilson-Hilferty– es mucho m´s o o a 165 . paa quien dispone de una computadora. 2 1/3 − 1− son aproximadamente N(0. las variables m X= X= Z m √ 2Z − √ 2m − 1. Para quien trabaja con una calculadora. donde y = − ln(2α) (¡logaritmo natural!). son utiles ´ para situaciones fuera del alcance de las tablas. Esto se puede usar para aproximar la funci´n o de distribuci´n. permiten prescindir de tablas.

entonces o o X=T es aproximadamente N(0. Para aproximar la funci´n de distribuci´n: si T ∼ tm .β √ 1 zβ + 2m − 1 2 2 . 1): o χ2 ≈ m.β χ2 m. Student Los cuantiles de tm se pueden aproximar para m grande con la f´rmula de Peiser: o tm. 3 ≈ m zβ 2 2 +1− 9m 9m . Despejando Z en funci´n de X se tienen aproximaciones para los o cuantiles de la χ2 en funci´n de los de la N(0.β ≈ zβ 1+ 2 1 + zβ 4m . 1 − 1/4m 1 + T 2 /2m 1/2 . 1). TABLAS precisa que la primera.166 ´ APENDICE A.

993 .933 .705 .748 .975 .571 .997 .998 .872 .636 .996 .805 .694 .878 .991 .610 .793 .997 .998 .993 .919 .5 .929 .992 .590 .523 .6 2.999 .917 .942 .990 .966 .0 2.535 .909 .995 .882 .602 .986 .547 .996 .848 .745 .770 .3 1.997 .951 .500 .963 .950 .938 .527 .8 1.659 .761 .940 .995 .02 .920 .782 .8 2.985 .594 .982 .1 .617 .01 .926 .09 .995 .998 .913 .859 .998 .982 .959 .970 .947 .776 .974 .941 .925 .953 .958 .673 .587 .995 .986 .903 .6 .987 .993 .976 .735 .996 .985 .962 .6 1.680 .978 .167 Tabla A.961 .965 .3 2.998 .503 .539 .625 .708 .684 .0 1.621 .2 2.904 .997 .563 .03 .998 .831 .997 .992 .815 .997 .983 .901 .990 .853 .927 .559 .828 .995 .9 1.983 .738 .930 .823 .666 .964 .993 .994 .810 .640 .911 .997 .791 .991 .987 .971 .788 .994 .977 .936 .996 .980 .949 .779 .960 .698 .993 .4 .874 .519 .785 .9 2.606 .764 .07 .802 .04 .980 .555 .995 .614 .994 .973 .8 .05 .807 .981 .892 .945 .884 .857 .948 .2 1.0 .866 .969 .7 2.551 .996 .08 .722 .886 .971 .989 .583 .507 .996 .968 .972 .818 .880 .677 .651 .973 .870 .992 .767 .4 2.7 1.629 .715 .773 .997 .959 .956 .975 .997 .922 .998 .511 .969 .997 .543 .758 .662 .988 .914 .996 .732 .06 .5 2.841 .836 .531 .5 1.978 .648 .967 .976 .868 .989 .988 .725 .957 .935 .997 .515 .813 .575 .896 .1 2.988 .994 .984 .979 .991 .990 .888 .944 .701 .796 .939 .977 .670 .754 .644 .826 .954 .990 .998 .2 .4 1.0 .862 .855 .991 .751 .993 .719 .934 .846 .850 .952 .838 .9 .833 .916 .995 .986 .742 .655 .995 .906 .992 .984 .864 .994 .946 .982 .923 .1 1.897 .821 .1: Funci´n de distribuci´n normal Φ(z) o o z .967 .988 .992 .994 .955 .712 .890 .598 .998 .981 .899 .7 .984 .964 .579 .799 .729 .997 .989 .687 .3 .876 .987 .996 .997 .996 .998 .691 .908 .999 .979 .843 .567 .633 .931 .894 .

995 0.879 3.87 0.93 0.652 2.100 0.69 zβ 0.86 0.358 0.458 2.2: Cuantiles zβ de la N(0.305 0.227 β 0.79 zβ 0.82 0.70 0.806 β 0.50 0.772 0.83 0.992 0.412 0.576 2.78 0.706 0.025 0.202 0.643 0.841 0.674 0.51 0.495 β 0.54 0.61 0.73 0.524 0.77 0.331 0.75 0.751 1.89 zβ 0.991 0.53 0.85 0.55 0.68 0.439 0.054 2.253 0.553 0.739 0.080 1.57 0.999 0.125 0. TABLAS Tabla A.996 0.64 0.176 0.878 0.56 0.65 0.88 0.9995 zβ 2.59 zβ 0.645 1.76 0.998 0.71 0.91 0.60 0.52 0.151 0.94 0.405 1.341 1.81 0.63 0.513 2.96 0.582 0.555 1.467 0.67 0.000 0.279 0.366 2. 1) β 0.168 ´ APENDICE A.72 0.99 zβ 1.476 1.98 0.58 0.97 0.175 1.993 0.84 0.227 β 0.126 1.80 0.075 0.994 0.385 0.74 0.954 0.291 .997 0.994 1.90 0.748 2.612 0.62 0.915 0.050 0.036 1.409 2.091 3.92 0.282 1.66 0.881 2.327 β 0.95 0.

33 14.169 Tabla A.12 10.53 19.19 28.815 4.041 7.005 .64 43.605 6.991 7.75 28.236 10.167 2.98 27.81 31.00016 .351 .00 33.01 13.833 3.80 25.114 .995 7.735 2.646 2.β β .237 1.231 8.98 17.79 .59 m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 25 30 .675 .558 3.11 16.59 28.812 6.660 5.215 .14 31.071 .77 40.07 12.025 .44 16.81 18.01 17.102 .36 14.52 14.074 4.106 4.78 .81 34.239 1.31 32.34 13.260 7.633 8.30 23.865 5.18 26.38 40.348 11.344 1.81 21.261 6.390 10.02 22.014 7.989 1.020 .264 6.98 13.48 21.72 26.44 14.41 34.27 15.073 3.59 14.570 4.19 31.58 39.54 19.69 29.700 3.27 18.11 27.297 .577 6.635 2.584 1.155 2.025 7.831 1.58 25.56 40.74 18.229 5.14 30.31 50.85 12.41 30.226 5.47 20.907 7.087 2.168 4.990 6.779 9.710 1.57 32.99 26.961 8.15 38.100 .83 14.64 46.29 29.83 14.892 6.259 9.706 4.54 24.603 3.14 12.565 4.3: Cuantiles χ2 de la chi-cuadrado m.36 23.303 7.21 27.325 3.20 24.28 21.404 5.73 12.86 16.689 2.60 12.554 .008 5.204 2.312 10.907 9.85 34.814 9.47 20.64 12.91 37.86 11.574 5.179 2.571 7.789 8.02 20.564 8.010 .51 13.063 1.881 10.408 7.377 9.72 37.66 .79 46.950 3.91 18.016 .50 16.66 23.872 1.636 9.629 6.487 11.79 34.433 8.68 24.99 42.06 15.26 35.732 3.940 4.010 .92 53.12 10.30 19.247 3.004 .050 .95 .843 5.00004 .06 22.52 32.84 30.210 .484 .68 15.16 36.80 36.145 1.251 7.610 2.97 .86 30.91 23.210 11.206 .73 26.050 .08 16.411 .053 3.48 28.19 37.542 11.546 9.489 4.697 6.77 .29 27.54 20.33 24.89 .95 23.672 9.49 .00098 .61 18.641 10.844 7.590 10.67 21.09 21.975 5.142 5.28 44.601 5.41 33.25 .04 16.900 2.

475 1.681 2.314 2.533 1.747 3.82 6.888 .895 .508 2.724 1.697 1.182 2.946 2.975 12.883 .80 1.302 3.894 1.353 2.708 1.201 2.919 .β de la distribuci´n de Student o β β 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 22 25 30 ∞ .015 1.787 2.583 2.316 1.771 1.650 2.858 .964 4.65 9.356 1.875 .637 1.073 2.306 2.576 .717 1.142 2.859 .570 2.321 1.976 2.841 4.144 2.960 .864 .997 2.396 1.879 .178 2.776 2.100 2.856 .842 .885 1.750 2.624 2.310 1.718 2.085 2.4: Cuantiles tm.372 1.131 2.734 1.868 .059 2.262 2.745 1.707 3.340 1.859 1.119 2.995 63.414 1.833 1.818 2.012 2.528 2.350 1.853 .364 2.90 3.325 1.896 2.077 1.540 3.70 4.866 .862 .905 .439 1.925 5.872 .920 2.054 3.878 2.250 3.446 2.355 3.363 1.821 2.031 3.940 .336 1.131 2.105 3.978 .228 2.782 1.604 4.812 1.376 1.326 .282 .845 2.484 2.753 1.95 6.169 3.99 31.364 3.645 .943 1.602 2.345 1.795 1.160 2.919 2.330 1.457 2.499 3.060 .870 .763 2.170 ´ APENDICE A.761 1.552 2.383 1.042 1. TABLAS Tabla A.

Bibliograf´ ıa
[1] Best, D. y Rayner, J. (1987), “Welch’s Approximate Solution for the Behrens-Fisher Problem”, Technometrics, vol. 29, pp. 205-210. [2] Bickel, P. y Doksum, K. (1976), “Mathematical Statistics”, Holden-Day. [3] Bloch, A. (1987), “Ley de Murphy y Otras Razones Porque las Cosas Salen Mal”, Editorial Diana. [4] Blyth, C. (1986), “Approximate Binomial Confidence Limits”, Journal of the American Statistical Association, vol. 81, pp. 843-855. [5] Box, G., Hunter, W. y Hunter, J. (1978) “Statistics for Experimenters”, John Wiley and Sons. [6] Draper, N. y Smith, H. (1981) Applied Regession Analysis, 2a Edici´n, John Wiley o and Sons. [7] Feller, W. (1980), “Introducci´n a la Teor´a de Probabilidad y sus Aplicaciones”, o ı Limusa. [8] Hald, A. (1986), “Galileo’s Statistical Analysis of Astronomical Observations”, International Statistical Review, vol. 54, pp. 211-220. [9] Hoaglin, D., Mosteller, F. y Tukey, J. (1983), “Understanding Robust and Exploratory Data Analysis”, John Wiley and Sons. [10] Hoaglin, D., Mosteller, F. y Tukey, J. (1985), “Exploring Data Tables, Trends, and Shapes”, John Wiley and Sons. [11] Jacovkis, P.M. (1995), “Computaci´n, Azar y Determinismo”, Ciencia Hoy, vol. 5, o No. 28, pp. 44-50. [12] Knuth,D. (1969), “The Art of Computer Programming”, Addison-Wesley. [13] Montgomery, D. y Peck, E. (1982), Linear Regression Analysis, John Wiley and Sons. [14] Rice, J.A. (1995), “Mathematical Statistics and Data Analysis”, Duxbury Press. 171

172 [15] Ripley, B.D. (1987) “Stochastic Simulation”, John Wiley and Sons.

BIBLIOGRAF´ ıA

[16] Ross, S. (1987) , “Introduction to Probability and Statistics for Engineers and Scientists”, John Wiley and Sons. [17] Scheff´, H. (1967) “The Analysis of Variance”, John Wiley and Sons. e [18] Shah, I. (1993) “Las Andanzas del Incomparable Mulah Nasruddin”, Editorial Paid´s. o [19] Staudte, R y Scheater, S. (1990) “Robust Estimation and Testing”, John Wiley and Sons. [20] Stigler, S. (1977), “Do Robust Estimators Deal with Real Data?”, The Annals of Statatistics, vol. 5, pp. 1055-1098. [21] Weisberg, S. (1980), “Applied Linear Regression”, John Wiley and Sons. æ

INDICE ALFABETICO
aditividad finita 6 agrupados (datos) 98 alternativa 134 aproximaci´n o a los cuantiles de la normal 165 normal a la distribuci´n: o binomial 86,92 chi-cuadrado 132, 165 de Poisson 87, 90 de Student 166 de Poisson a la binomial 21 asimetr´ 59 ıa asociaci´n de eventos 14 o censura 34 cociente de variables 66 normales 70 coeficiente de determinaci´n 148 o de variaci´n 51 o combinaciones 7 comparaci´n o de dos binomiales 141 de muestras apareadas 129 de muestras independientes 127, 128 conjunto cerrado 142 consistencia 111 convergencia d´bil 86 e en probabilidad 83 en distribuci´n 86 o convoluci´n 64 o coordenadas polares 68 correcci´n o 173 por continuidad 87 de Shepard 99 correlaci´n 53, 79 o muestral 156 covarianza 52 cuantiles 56 muestrales 97 cuartiles 57 cumplea˜os 9 n densidad 31 conjunta 38 desigualdad de Bonferronni 9 de Chebychev 52 de Markov 48 desviaci´n o absoluta 58 mediana 58 t´ ıpica 51 diagrama de cuantiles 100, 101 de caja 97 de residuos 157 de tallo y hoja 96 distancia intercuartiles 58 distribuci´n o binomial 20, 29, 49, 54 binomial negativa 30, 40, 44 de Cauchy 42, 43, 65, 70 chi-cuadrado 119 doble exponencial 70 exponencial 32, 49, 108 Gama 33

106 e lognormal 42. 112 normal bivariada 75 de Pareto 115 de Poisson 30. 55 e hipergeom´trica 30. 109 uniforme bivariada 38 uniforme discreta 31 de Weibull 33. 149 error en predictores 157 error medio cuadr´tico a de predicci´n 78 o de un estimador 105. 41 indicador 29 inferencia 105 intervalos de confianza 117 de longitud m´ ınima 122 para la binomial 123 para la exponencial 120 para la media de la normal 121 para la Poisson 125. 121 intervalos de predicci´n 153 o . 43. 55 de Rayleigh 71 de Student 121 uniforme 32. 43. 55. 50. 41 Gosset 122 hip´tesis nula 134. 37 o condicional 74 de verosimilitud 107 Galileo 152 Gauss 112 generador 36. 38 marginal 39 de la normal 71 muestral 95 ecuaciones normales 146. 110 errores de tipo I y II 134 espacio de probabilidad 4 esperanza matem´tica 45 a esquema de Bernouilli 20 estad´ ıstico de orden 96 de Student 121 de un test 135 estimaci´n de par´metros o a de la exponencial 108 de la hipergeom’etrica 106 de la Poisson 109 de la uniforme 109 estimador 105. 50. 103 distribuci´n o discreta 29 (absolutamente) continua 31 condicional 73 conjunta 37. 56.174 geom´trica 30. 88 multinomial 38 normal 32. 19 de variables 40. 37 de distribuci´n 27. 107 (ver “m´todo”) e insesgado 110 INDICE ALFABETICO de m´nima varianza 66 ı robusto 113 eventos 5 falacia de la regresi´n 80 o falsos positivos 16 falta de memoria en tiempos de espera 17 en el esquema de Bernouilli 40 en el proceso de Poisson 67 familia de escala/posici´n 36 o frecuencia relativa 6 funci´n o de frecuencia 29. 142 o histograma 99 iid 107 incorreladas 52 independencia de eventos 14. 36. 132 para el proceso de Poisson 125 robustos 123 para la varianza de la normal 120. 18. 50.

80 o probabilidad 5 condicional 13 proceso de Poisson espacial 21 temporal 22. 82. 81 muestral 97 medici´n con error 112 o m´todo e de Box.INDICE ALFABETICO intervalos de tolerancia 130 jacobiano 67 juego favorable 85 Kolmogorov 4 Lagrange 146 leyes de grandes n´meros 84 u m´ximo de variables 35. 22 paseo al azar 25 permutaciones 7 pivote 118 potencia 134. 107. a 111 de m´ ınimos cuadrados 146 ponderados 162 de los momentos 107. 125 proceso estoc´stico 39 a promedio ponderado 113 recta de regresi´n 79 o regi´n o de aceptaci´n 134 o de confianza 118 residuos 147 resumen de 5 n´meros 97 u robustez de un par´metro 57 a sesgo 110 sigma-aditividad 6 simetr´ 36 ıa simulaci´n 36 o Slutsky 90 suma de variables 63 binomiales 70 chi-cuadrado 120 Gama 64 geom´tricas 40 e normales 65 Poisson 70 175 tama˜o de muestra 137 n Teorema Central del L´ ımite 86 test uni. 137 predicci´n 79.o bilateral 134 relaci´n con intervalos de confianza o 136 no param´trico 140 e . 109. 66 a media 45 condicional 75 de un producto 48 muestral 53 podada 113 mediana 57 condicional 75. 111 de Monte Carlo 53 mezclas 34 modelo lineal 150 momento 59 monoton´ de la media 48 ıa movimiento browniano 87 muestra 107 muestreo con y sin reemplazo 7.M¨ller 68 u delta 90 de m´xima verosimilitud 106. 26 Nasruddin 114 nivel de confianza 117 de un test 134 n´meros seudoaleatorios 36 u paradoja de Simpson 10 par´metros a de posici´n 57 o de dispersi´n 58 o part´ ıculas 16.

41 transformaciones de dos variables 67 de los par´metros 110 a de una variable 34 truncamiento 42 Tukey 96 valor p 136 valor medio 45 variable aleatoria 27 variaciones 7 varianza 51 condicional 75 muestral 95 de una suma 53 von Mises 4 Welch 129 Wiener 88 Wilson-Hilferty 165 INDICE ALFABETICO . 74 en el proceso de Poisson 34.176 robusto 140 del signo 141 tiempo de espera 16 en el esquema de Bernouilli 40.

INDICE ALFABETICO æ 177 .

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->