Professional Documents
Culture Documents
Apuntes de Estadística II Politécnica 2010
Apuntes de Estadística II Politécnica 2010
uiopasdfghjklzxcvbnmqwertyuiopasd
fghjklzxcvbnmqwertyuiopasdfghjklzx
cvbnmqwertyuiopasdfghjklzxcvbnmq
Apuntes de clases del Prof. Emilio
wertyuiopasdfghjklzxcvbnmqwertyui
Ramón Ortiz Trepowski
Estadística II Facultad Politécnica UNA
opasdfghjklzxcvbnmqwertyuiopasdfg
Abril/2010
hjklzxcvbnmqwertyuiopasdfghjklzxc
vbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjlzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmqwertyuiopasdfghjklzxcv
bnmqwertyuiopasdfghjklzxcvbnmqw
ertyuiopasdfghjklzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmrtyuiopasdfghjklzxcvbnm
qwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasd
1
Un Camino para Pensar en Probabilidad
Capítulo 2
Espacios muestrales, puntos muestrales, y eventos
El punto inicial de una investigación es típicamente un experimento que podría ser tan simple
como tirar un par de dados o tan complicado como conducir una encuesta de familias o firmas.
Un experimento es un experimento aleatorio si satisface las siguientes condiciones: (1) todos
los posibles y distintos resultados son conocidos antes de que ocurra el experimento, de
antemano; (2) el resultado específico de un intento no es conocido de antemano; y (3) el
experimento puede ser duplicado, en principio, bajo condiciones ideales. La totalidad de todos
los posibles resultados de un experimento es conocido como el espacio muestral (denotado
por S ) y sus elementos individuales distintos son llamados puntos muestrales o eventos
elementales. Así, cuando una moneda es arrojada dos veces, el espacio muestral (denotando
la ocurrencia de cara con C y cruz con +) consiste de cuatro puntos muestrales CC, C+, +C y ++,
esto es, S = {CC , C +, +C , + +} .
Un evento es un subconjunto de un espacio muestral y es un conjunto de puntos muestrales
que representan varios posibles resultados de un experimento. Por ejemplo, cuando se arroja
un par de dados, “la suma total de puntos igual a 9” es un evento representado por los puntos
muestrales ( 3, 6 ) , ( 4,5 ) , ( 5, 4 ) y ( 6,3) , donde el primer número es el resultado del primer
dado y el segundo número es el resultado del segundo dado. El evento imposible o evento
nulo se denota por ∅ . Un espacio muestral con puntos muestrales finitos o contables (con
una correspondencia uno a uno con los enteros positivos) es llamado un espacio discreto. Un
ejemplo de estos espacios muestrales discretos es el conjunto de 36 puntos muestrales que
resultan al arrojar dos dados. Un espacio continuo es uno con un número infinito no contable
de puntos muestrales (esto es, tienen tantos elementos como números reales hay). Cuando se
miden con exactitud, los posibles valores de la altura de una persona, la temperatura en una
pieza, etc., son ejemplos de espacios continuos.
2
En la figura 2.1, arrojando una moneda dos veces es representada por los cuatro puntos
muestrales ( 0, 0 ) , ( 0,1) , (1, 0 ) y (1,1) , donde 1 se refiere a cara y 0 a cruz. Esta
representación gráfica recibe el nombre de diagrama de Venn, y es un conveniente
instrumento de análisis.
Problemas de práctica.
sucesivamente. Use un diagrama de Venn para representar el espacio muestral y los eventos
“total de puntos es igual a 5” y “total de puntos es 10”.
2.2. Una moneda es arrojada tres veces. Represente el espacio muestral y el evento “al menos
dos caras.”
Algunos Resultados de la Teoría de Conjuntos
Definición 2.1.
El espacio muestral es denotado por S . A = S implica que los eventos en A deben siempre
ocurrir. El conjunto vacío es un conjunto que no contiene elementos y es denotado por ∅ .
A = ∅ implica que los eventos en A no ocurren.
el evento B o ambos ocurre. Notemos que A ∪ Ac = S .
3
El conjunto de todos los elementos que están en A y en B al mismo tiempo es llamado la
intersección de ambos conjuntos y está representado por ∩. A ∩ B significa que ambos
eventos A y B ocurren simultáneamente.
A ⊂ B significa que A está contenido en B o que A es un subconjunto de B, esto es, cada
elemento de A es un elemento de B. En otras palabras, si un evento A ha ocurrido, entonces
B debe también haber ocurrido.
Ejemplo 2.1.
Tire una moneda dos veces. El espacio muestral es S = {CC , C +, +C , + +} .
A = exactamente una cara: ( C +, +C ) .
B = al menos una +: ( +C , C +, + + ) .
A ∪ B = ( C +, +C , + + ) . Notemos que A ⊂ B.
A ∩ B = ( C +, +C ) = A.
A veces es útil dividir los elementos del conjunto A es varios subconjuntos que son disjuntos.
Tal división es conocida como una partición. Si A1 y A2 son tales particiones, entonces
Ai ∩ Aj = ∅ para i ≠ j.
4
Álgebra Booleana
Las operaciones con conjuntos de unión, intersección y complementación satisfacen un cierto
número de postulados que se enumeran más abajo.
Identidad.
Existen los conjuntos únicos ∅ y S tal que, para cada conjunto A, A ∩ S = A y A ∪ ∅ = A.
Complementación.
Cerradura.
Para cada par de conjuntos A y B , podemos definir conjuntos únicos A ∪ B y A ∩ B.
Commutatividad.
A ∪ B = B ∪ A; A ∩ B = B ∩ A.
Asociatividad.
( A ∪ B) ∪ C = A ∪ ( B ∪ C ).
Distributividad.
A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ).
También, A ∪ ( B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ C ) .
Problemas de práctica.
2.3. Use diagramas de Venn para verificar los siguiente (conocidas como leyes de Morgan):
5
2.4. Verifique usando diagramas de Venn
A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ).
Campos Borel y campos σ
Es claro partiendo del estudio de las operaciones de conjuntos que mediante la combinación
de conjuntos (o eventos) obtenemos otros conjuntos (o eventos). Para estar seguros de que si
de cualquier manera combinamos eventos, el resultado es siempre otro evento, es esencial
imponer alguna estructura matemática sobre el conjunto de todos los eventos (llamado campo
y denotado por F ) . De otra manera, la atribución de probabilidades a eventos puede algunas
veces no tener sentido. Los conjuntos que tienen la estructura matemática requerida son
conocidos como campos σ ( o también como algebras σ ) asociados con S .
Definición 2.2.
La primera condición implica cerradura bajo la complementación (esto es que Ac esté también
en el campo) y la segunda condición implica cerradura bajo la unión contable.
Ciertas propiedades simples son fácilmente derivadas de estas definición.
Teorema 2.1.
6
La definición 2.2. implica lo siguiente: (1) S ∈ F , (2) ∅ ∈ F , y (3) si Ai ∈ F para
S = A ∪ Ac está también en F . También, ∅ = S c ∈ F .
Finalmente, por la ley de Morgan:
c
∩ii=∞ ⎡ i =∞ c ⎤
=1 Ai = ⎣ ∪ i =1 Ai ⎦
la que, por definición 2.2., es un miembro de F , estableciendo la última parte (3) del
Teorema.
Sigue de lo que se expuso más arriba que un campo σ es un conjunto de subconjuntos de
S que es cerrado bajo la complementación, la unión contable, y las intersecciones contables.
También notemos que el más pequeño de los campos σ es ( S , σ ) .
Se puede también chequear que el conjunto potencia, que está formado por todos los
subconjuntos de S , es ciertamente un campo σ .
Ejemplo 2.3.
En el experimento de arrojar dos monedas del ejemplo 2.1., consideremos el conjunto
⎡⎣( C +, +C ) ⎤⎦ .
c
Lo que se puede hacer en el caso que partamos de B es construir el mínimo campo
σ generado por sus elementos. Esto puede ser alcanzado mediante la extensión de B para
incluir todos los eventos generados por las operaciones teóricas de conjuntos (uniones,
intersecciones y complementaciones) sobre los elementos de B. Entonces el mínimo campo
FB = σ ( B ) .
7
Esta forma de construir un campo σ puede ser muy útil en los casos en los que los eventos de
interés son menores que los que están dados por el conjunto potencia en el caso de un
conjunto finito S . Por ejemplo, si estamos interesados en eventos con uno de cada C ó + no
hay necesidad en definir el campo σ para que sea el conjunto potencia, y FB puede ser tan
bueno para este trabajo con la ventaja que tiene menos eventos para atribuirles
probabilidades. La utilidad de este método de construir campos σ es mucho mayor en los
casos en donde S es infinito o incontable; en tales casos el método es indispensable.
Problema de práctica
2.5. En el ejemplo 2.1., construya el conjunto de poder asociado con S , esto es, el conjunto de
todos los subconjuntos de S , y verifique que es un campo σ .
Ejemplo 2.4.
En algunas situaciones, podemos tener más que un campo σ asociado con un espacio
muestral. Para ilustrar, supongamos que x se refiere al ingreso anual de los hogares en una
cierta población y que x1 , x2 ,..., xN son los valores reales de los N hogares en la población.
Podemos formar diferentes subconjuntos de esta población agrupándolos alternativamente en
intervalos de $5.000 ó $10.000.
Campos Borel
Consideremos el ejemplo donde S es incontable y discutamos la construcción de un campo
σ mínimo.
En la teoría de la probabilidad, la utilidad de un campo σ será evidente cuando lo
8
Ax = { z : z ≤ x} = ( −∞, x ] . El conjunto complementario es Axc = { z : z ∈ R y z > x} . Para
clase más amplia conocida como conjuntos Borel). Empezando desde Ax , si tomamos uniones
σ es llamado un campo Borel (y denotado por B).
J = { Ax : x ∈ R} donde Ax = { z : z ≤ x} = ( −∞, x ] .
σ . Para mostrar que tan grande una colección σ ( J ) es realmente podemos mostrar que los
usando las operaciones teóricas como sigue:
( x, ∞ ) = {( −∞, x ]} ∈ σ ( J ) ,
c
[ x, ∞ ) = {( −∞, x )} ∈ σ ( J ) ,
c
( x, z ) = {( −∞, x ] ∪ [ z, ∞ )} ∈ σ ( J ) ,
c
{ x} = ∩∞n=1 ( x, x − 1 n] ∈ σ ( J ) .
Esto muestra que no sólo que σ ( J ) es un campo σ sino que incluye casi cada subconjunto (o
9
σ B desempeñará un papel muy importante en lo que sigue: le llamamos el campo Borel
sobre R.
Problemas de práctica
del intervalo dado en términos del Ax definido más arriba.
Digamos que
Az = {w : w ≤ z} = {( −∞, z ]}
Azc = {w : w ∈ R y w > z}
Ax = {w : w ≤ x} = {( −∞, x ]}
Axc = {w : w ∈ R y w > x}
( x, z ] = Axc ∩ Az
(
2.7. Sea An ( x ) = x, x + (1 n ) ⎤⎦ . ¿Cuál es el conjunto B = ∩ ni==∞
1 An ( x ) ? ¿Es B ∈ B ?
Digamos que
A1 ( x ) = ( x, x + 1 1]
A2 ( x ) = ( x, x + 1 2]
y así sucesivamente. ∅ . Sí es.
Espacios Medibles
Caracterizando los atributos de un conjunto o de un espacio, a menudo queremos encontrar
medidas numéricamente cuantificables. Por ejemplo, correspondiendo al conjunto
A supongamos que definimos una función de conjunto μ ( A ) que es simplemente el número
propiedades:
10
(1) μ ( A ) ≥ μ ( ∅ ) = 0 para todo A ∈ F .
μ ( ∪1n Ai ) = ∑ i μ ( Ai ).
llamado una medida de probabilidad. Otro ejemplo de una medida es la longitud de un
intervalo real. Es llamado la medida de Lebesgue ( λ ) y está definido sobre un campo Borel
como
El par ( μ , F ) es conocido como un espacio medible, esto es, un espacio en el cual una medida
puede ser asignada.
Probabilidad: Definiciones y Conceptos
La probabilidad de un evento está definida en varias formas, todas ellas útiles para calcular
probabilidades.
Definición 2.3. (Definición Axiomática)
La probabilidad de un evento A ∈ F es un número real tal que
(1) P ( A ) ≥ 0 para A ∈ F ,
11
A pesar de que la definición axiomática de probabilidad es rigurosa, directamente no nos dice
como asignar las probabilidades a eventos elementales. Esto es obtenido por dos otras
definiciones. Todas las tres definiciones son usadas para calcular probabilidades de varios
eventos.
Definición 2.4. (Definición Clásica)
Como un ejemplo, consideremos el experimento de arrojar un par de dados. El espacio
igualmente probable y por lo tanto la probabilidad de cada uno de estos resultados es
1 36. Luego consideremos el evento A, ”el resultado total es 5.” Esto puede ocurrir en las
P ( A ) = 4 36.
Definición 2.5.
denotada como P ( A ) .
12
Así, la probabilidad de un evento es su frecuencia límite cuando un experimento es repetido
indefinidamente. En la práctica, sin embargo, no es posible repetir un experimento un número
infinito de veces. La utilidad de esta definición es, por lo tanto, cuando el número de
observaciones es grande. Como una ilustración, la tabla 2.1 tiene la distribución del ingreso de
los hogares de los Estados Unidos en 1987 (conocida como la distribución de frecuencias).
Supongamos que podemos formar intervalos de ingreso desde 0‐4.999, 5.000‐9.999 y así
sucesivamente, y calcular la fracción de los hogares que caen en cada intervalo. El porcentaje
de hogares que caen en el grupo 40.000‐49.999 puede ser considerado como la probabilidad
de que una familia que es elegida aleatoriamente tendrá un ingreso en ese intervalo. Con los
porcentajes y los puntos medios de cada intervalo se construye un histograma.
Ejemplo 2.5.
En el experimento de arrojar una moneda dos veces, el espacio muestral
resultados uno o dos por vez, obteniendo sus complementos, e incluyendo los conjuntos ∅ y
S . Uno de tales campos σ es
F = {∅, S , ( + + ) , ( +C , C +, CC ) , ( CC ) , ( ++, +C , C + ) , ( +C , C + ) , ( ++, CC )}. Es fácil
verificar que las correspondientes probabilidades de los elementos de F son
Probabilidad Subjetiva
En muchas ocasiones, los individuos usan juicios personales para evaluar la relativa
probabilidad de varios resultados. En la inferencia estadística, la practicalidad de este enfoque
se deriva de usar creencias previas o nueva información para actualizar la especificación del
modelo previo (actualización Bayesiana).
La definición axiomática de la probabilidad nos capacita para derivar un cierto número de
propiedades de la probabilidad, y estas se discuten a continuación.
13
Teorema 2.2.
P ( Ac ) = 1 − P ( A ) .
Prueba.
A ∪ Ac = S y A ∩ Ac = ∅ . Por los axiomas dos y tres, P ( A ) + P ( Ac ) = P ( S ) ;
P ( A ) + P ( Ac ) = 1. Por lo tanto, P ( Ac ) = 1 − P ( A ) .
Teorema 2.3.
P ( A ) ≤ 1.
Prueba.
P ( Ac ) ≥ 1 por el primer axioma. Desde esto y el teorema 2.2., P ( A ) ≤ 1.
Teorema 2.4.
P ( ∅ ) = 0.
Prueba.
S c = ∅. P ( S ∪ ∅ ) = 1 = P ( S ) + P ( ∅ ) , lo que implica que P ( ∅ ) = 0.
Teorema 2.5.
Si A ⊂ B, entonces la P ( A ) ≤ P ( B ) .
Prueba.
( )
Si A ⊂ B, entonces B puede ser expresada como B = A ∪ Ac ∩ B , los que son disjuntos.
( ) (
Por lo tanto, P ( B ) = P ( A ) + P Ac ∩ B ≥ P ( A ) porque P Ac ∩ B ≥ 0. )
Teorema 2.6.
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .
14
Prueba.
( )
El conjunto B puede ser particionado como B = ( A ∩ B ) ∪ Ac ∩ B y por lo tanto
P ( B ) = P ( A ∩ B ) + P ( Ac ∩ B ) . Por lo tanto P ( Ac ∩ B ) = P ( B ) − P ( A ∩ B ) . El conjunto
A ∪ B puede ser particionado como A ∪ ( Ac ∩ B ) . Por lo tanto
P ( A ∪ B ) = P ( A ) + P ( B ) + P ( Ac ∩ B ) . Sigue que
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .
Problema de práctica
2.8. Verificar usando un diagrama de Venn que
P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P ( C ) − P ( A ∩ B ) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C ) .
Probabilidad Condicional
Muy a menudo queremos calcular las probabilidades de eventos cuando es conocido que otro
evento ha ya ocurrido.
Definición 2.6.
por P ( A ∩ B ) P ( B ) .
Así, estamos mirando al subespacio en el cual el evento B ya ha ocurrido. Mediante la división
por P ( B ) , estamos normalizando los valores de las probabilidades de manera que sumen 1
en el subespacio. Debe notarse que el espacio original de probabilidad ( S , F , P ) permanece
inalterado a pesar que nosotros nos enfocamos en el subespacio en cuestión el cuál es
( S , F , P (. B ) ) .
Ejemplo 2.6.
15
Secuencias y Conjuntos Límites de Eventos
Cuando se conduce un experimento aleatorio, a menudo nos encontramos con una secuencia
de conjuntos de eventos. Por ejemplo, consideremos el conjunto An = [ x − n, x + n ] para un
Definición 2.8
Teorema 2.9
( n →∞
)
P lim An = lim P ( An )
n →∞
Prueba
16
Probaremos esto sólo para el caso de las secuencias monotónicamente crecientes.
A1 ⊂ A2 ⊂ A3 ... El otro caso es similar. Definamos los conjuntos disjuntos
P ( An ) = P ( ∪1n Bi ) = ∑1 P ( Bi ). Por lo tanto, en la medida que
n
Ejercicio de práctica
ese intervalo. Defina el conjunto de todos los puntos en el intervalo ( x0 − 1 n , x0 + 1 n ) como
An . Muestre que An es una secuencia monotónica. ¿Es creciente o decreciente? ¿Cuál es el
conjunto límite? Compute P ( An ) . Derive las implicaciones del Teorema 2.9 aplicado a la
secuencia de conjuntos.
Capítulo 3
Variables aleatorias y sus distribuciones
El modelo de probabilidad representado por ( S , F , P ) es demasiado general para ser de uso
práctico. Para una descripción completa, necesitamos enumerar cada elemento de F y la
probabilidad asociada. Esto hace la manipulación matemática de probabilidades demasiado
complicada. Un enfoque más útil será medir atributos de los eventos cuantitativamente y
usarlos en el cálculo de las probabilidades de los eventos. En el capítulo previo hemos visto
varios ejemplos en los cuáles los eventos y sus probabilidades están asociadas con variables
cuyos valores son medidos por un experimentador. El total de puntos cuando un par de dados
es arrojado, el número de caras cuando una moneda es tirada, son ejemplos de tales variables.
Variables de este tipo son conocidas como variables aleatorias o variables estocásticas y son
17
fundamentales para la teoría de probabilidades y para la estadística. No todas las variables
pueden ser llamadas variables aleatorias. Para ilustrar, consideremos el experimento de
arrojar una moneda dos veces y el espacio de probabilidad ( S , F , P ) presentado en el ejemplo
puede entonces ser pensada como una función de conjunto que mapea el espacio muestral
{+ +} → 0 {C +, + +} → 1 {CC} → 2
Denotando el mapeo o función inversa por X −1 (.) , tenemos que X −1 (1) = {C +, +C} ∈ F , y
así sucesivamente para los otros. Por lo tanto, hay una correspondencia entre Rx y S de forma
tal que la estructura de los eventos es preservada. Esto no es verdadero, sin embargo, para la
función de conjunto especifica Y definida como Y ( + + ) = Y ( C + ) = 1, Y ( CC ) = Y ( +C ) = 0,
preserve la estructura de los eventos dado que de otra manera surgirán inconsistencias. La
definición formal de una variable aleatoria está dada a continuación.
Definición 3.1
En términos simples, una variable aleatoria (también referida como una variable estocástica)
es una función real valorada de conjuntos cuyo valor es un número real determinado por el
resultado del experimento. El rango de una variable aleatoria es el conjunto de todos los
valores que ella puede tomar. Más formalmente, en términos de la teoría de medidas, una
variable aleatoria es una función real valorada de conjuntos que mapea S en R , y que
satisface la condición de que para cada conjunto Borel B ∈ B , la imagen inversa
X −1 ( B ) ∈ F , donde
X −1 ( B ) = {s : s ∈ S y X ( s ) ∈ B}
18
Una variable aleatoria es por lo tanto una función real valorada (y por lo tanto no es realmente
una variable) que mapea S en la línea real R y asigna un número real a cada s ∈ S . Más aún,
un valor aleatorio. Lo que distingue una variable aleatoria de otro tipo de variables es el hecho
de que, para cualquier conjunto dado B ∈ B , los correspondientes eventos deben estar en F .
arrojar una moneda, la función de conjunto apropiada es
Px ( X = 0 ) = 1 4, Px ( X = 1) = 1 2, Px ( X = 2 ) = 1 4, Px ( X = 1 ó X = 2 ) = 3 4, y así
sucesivamente. La variable aleatoria X nos permite trabajar con el nuevo espacio de
probabilidades ( R, B, Px ) el cuál es mucho más ameno para la manipulación matemática.
Función de Distribución
Si el espacio muestral es contable o incontablemente infinito, la función de probabilidad Px
todavía no es trabajable. Será por lo tanto útil construir una función puntual que pueda ser
definida sobre intervalos continuos y que tenga la misma información que la función de
probabilidad. Tal función es definida más abajo.
Definición 3.2.
19
probabilidad de que una variable aleatoria asuma valores menores o iguales que un valor
especificado. Notemos que la variable aleatoria X en conjunto con la CDF transforma el
Como un ejemplo de una CDF, consideremos el experimento de arrojar un dado, y que X sea
el total de puntos. Los posibles valores de X son 1,2,…,6, y cada uno es igualmente probable
x F ( x)
<1 0
x≥6 1
Teorema 3.1.
P ( a < X ≤ b) = F (b) − F ( a ).
Prueba.
P ( a < x ≤ b) = P ( I2 ) = F (b ) − F ( a ).
20
Dada la CDF F ( x ) este teorema nos capacita para asignar probabilidades a cualquier intervalo
semi abierto ( a, b ] . Otras propiedades de la CDF son listadas en los siguientes ejercicios de
práctica y teoremas.
Problemas de Práctica.
F (b) ≥ F ( a ).
Teorema 3.2.
Para cada x ∈ R, F ( x ) es continua a la derecha de x .
Prueba.
(
Consideremos el intervalo Bn = x, x + (1 n ) ⎤⎦ para n > 0, el cual está abierto a la izquierda y
cerrado a la derecha. Tenemos que P ( Bn ) = F ⎡⎣ x + (1 n ) ⎤⎦ − F ( x ) . También que Bn +1 ⊂ Bn
⎡ ⎛ 1⎞ ⎤
0 = P ⎡ lim Bn ⎤ = lim ⎢ F ⎜ x + ⎟ − F ( x ) ⎥ = F ( x + ) − F ( x )
⎣ n→∞ ⎦ n→∞ ⎣ ⎝ n⎠ ⎦
F ( x ) es continua desde la derecha en x.
Teorema 3.3
21
Si F ( x ) es continua en x ∈ R , entonces P ( X = x ) = 0.
Prueba.
⎡ ⎛ 1⎞ ⎛ 1 ⎞⎤
lim P ( Bn ) = lim ⎢ F ⎜ x + ⎟ − F ⎜ x − ⎟ ⎥ = 0
⎣ ⎝ n⎠ ⎝ n ⎠⎦
F ( x ) es continua en x.
Se concluye de este teorema que una variable aleatoria para la cual F ( x ) es continua en
todos los puntos de su rango asigna una probabilidad cero a cualquier x.
Examen de Estadística II
17 de marzo de 2010
Tiempo 45 minutos
Tres temas. Un punto es igual a un tema. Total de puntos = 3.
x0
1. Sea x cualquier punto en el intervalo ( 0, α ) y P ( x ≤ x0 ) = para cualquier x0 en
α
ese intervalo. Definamos el conjunto de todos los puntos en el intervalo
⎛ 1 1⎞
⎜ x0 − , x0 + ⎟ como An . Muestre que An es una secuencia monotónica. ¿Es
⎝ n n⎠
22
creciente o decreciente? ¿Cuál es conjunto límite de An ? Compute P ( An ) . Derive las
consecuencias del Teorema 2.9. (que se recuerda más abajo) para la secuencia de
conjuntos.
Ayuda: Teorema 2.9.
( n →∞
)
P lim An = lim P ( An )
n →∞
2. Considere el experimento de arrojar simultáneamente dos monedas. Defina el espacio
muestral S específico para este experimento. Construya un campo σ para el mismo.
¿Cuál es el conjunto potencia asociado con S ? ¿Es éste conjunto potencia asociado
con S un campo σ ?
3. La siguiente tabla se extrajo de las cifras del censo de 1970 de la población
estadounidense.
Población estadounidense en 1970
23
(Las cifras se expresan en miles). Si se elige una persona aleatoriamente de la población
estadounidense en 1970, encuentre las probabilidades de los siguientes eventos:
a) La persona es blanca.
b) La persona vive en el área de una ciudad central.
c) La persona vive en una periferia urbana, dado que es blanca.
d) La persona es blanca, dado que vive en una periferia urbana.
e) La persona vive fuera de un área urbana, dado que no es blanca.
f) La persona no es blanca y vive en una ciudad central o es blanca y vive fuera de un
área urbanizada.
Distribuciones Discretas
Distribuciones Continuas
Al contrario de las variables aleatorias discretas que toman sólo valores específicos, una
variable aleatoria continua puede tomar cualquier valor en un intervalo real. En esta sección
estudiamos unos pocos casos de distribuciones continuas. El próximo capítulo tiene varios
otros ejemplos de distribuciones discretas y continuas.
Definición 3.4
real, tal que para cualquier intervalo B,
P ( X ∈ B ) = ∫ f ( x )dx
B
función de densidad de probabilidad o simplemente la función de densidad (ó PDF).
Problemas de práctica
24
3.5 Para una variable aleatoria continúa verifique lo siguiente:
F ( x) = ∫ f ( u )du f ( x) = F′( x)
x
−∞
∞
f ( u ) du = 1 F ( b ) − F ( a ) = ∫ f ( u ) du
b
∫−∞ a
Distribución Uniforme en un Intervalo
∫ f ( x; a, b )dx = 1 = ∫ cdx = c ( b − a ).
b b
a a
1
Por lo tanto, f ( x; a, b ) = uniformemente en a ≤ x ≤ b. Su función de distribución es
(b − a )
una línea recta y está dada por
x−a
F ( x; a, b ) = ∫ f ( x; a, b )dx =
b
para a ≤ x ≤ b
a b−a
Dos casos especiales de los parámetros son frecuentemente usados en las aplicaciones;
a = 0, b = θ y a = −θ , b = θ . La figura 3.3 grafica tanto la PDF como la CDF de la distribución
uniforme.
La distribución Normal
La más ampliamente usada distribución en todas las aplicaciones de la estadística en la normal
(también conocida como distribución Gaussiana) la cual tiene la siguiente densidad (exp es la
función exponencial):
1 ⎡ ( x − μ )2 ⎤
f ( x; μ , σ ) = exp ⎢ − ⎥ −∞ < x < ∞
σ 2π ⎢⎣ 2σ 2 ⎦⎥
25
( ) ( )
La distribución es escrita como N μ , σ 2 , y decimos que X ∼ N μ , σ 2 . Los valores de los
variedad de distribuciones se aproximan a la distribución normal. El caso especial de la
distribución normal cuando μ = 0 y σ = 1 es llamada la distribución normal estándar y su
función de densidad es independiente de los parámetros:
1 − x2 2
f ( x) = e −∞ < x < ∞
2π
La figura 3.4 es un gráfico de la distribución normal estándar la cuál es simétrica alrededor del
origen y es acampanada. La CDF de la distribución normal estándar es:
1 − ( y − μ )2 2
F ( x) = ∫
x
e dy
−∞
2π
Esta integral no tiene una solución de forma cerrada por lo que requiere integración numérica.
Para valores seleccionados de z la Tabla B.3 presenta el área bajo la curva normal estándar a
Transformación de variables aleatorias
En la inferencia estadística, las transformaciones de variables aleatorias son a menudo
realizadas y por lo tanto necesitamos los medios a través de los cuales podemos derivar las
distribuciones estadísticas de las variables transformadas partiendo de las distribuciones
estadísticas que les corresponden a las variables originales. Así como se les exigía a las
variables aleatorias que sean preservadoras de eventos, las funciones de transformación
deben también tener la misma propiedad. En otras palabras, las transformaciones deben ser
funciones mensurables.
Definición 3.5
26
Una función g ( X ) ⎡⎣ g ( X ) : R → R ⎤⎦ es llamada una función mensurable (ó F mensurable) si
{ }
el conjunto x : g ( x ) ≤ y ∈ F para cada número real y ∈ R.
Así, una función g ( X ) cuando es mensurable implica que podemos expresar la probabilidad
a X .
Teorema 3.4
FY ( y ) = FX ⎡⎣ h ( y ) ⎤⎦ si g ( X ) es monotónicamente creciente
FY ( y ) = 1 − FX ⎡⎣ h ( y ) ⎤⎦ si g ( X ) es monotónicamente decreciente
Prueba.
Probamos esto sólo para cuando g ( X ) es monotónicamente creciente.
FY ( y ) = P (Y ≤ y ) = P ⎡⎣ g ( X ) ≤ y ⎤⎦ . Dado que la transformación es monotónicamente
la monotonicidad). Por lo tanto,
P ⎡⎣ g ( X ) ≤ y ⎤⎦ = P ⎡⎣ X ≤ h ( y ) ⎤⎦ = FX ⎡⎣ h ( y ) ⎤⎦
Teorema 3.5
27
Digamos que los supuestos del Teorema 3.4 se mantienen. En adición, supongamos que
dx
f X ( x ) sea la PDF de X , y que ≠ 0. Entonces la PDF de Y = g ( X ) está dada por
dy
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ cuando X es dicreta
dx
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ cuando X es continua
dy
Prueba.
La prueba es trivial para el caso discreto. Tenemos que
P (Y = y ) = P ⎡⎣ X = h ( y ) ⎤⎦ = f X ⎡⎣ h ( y ) ⎤⎦ . Para una variable aleatoria continua la PDF es la
derivada de la CDF y por lo tanto,
d
fY ( y ) = FY ( y )
dy
Pero FY ( y ) = FX ⎡⎣ h ( y ) ⎤⎦ por el Teorema 3.4. Esto es,
h( y )
FY ( y ) = ∫ f X ( x )dx
−∞
Diferenciando con respecto a y y usando la regla de la cadena,
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ h′ ( y )
dx
Pero h′ ( y ) = . Porque fY ( y ) debe ser no negativa, tenemos que usar el valor absoluto de
dy
la derivada. Por lo tanto,
dx
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦
dy
Ejemplo 3.5
28
( )
Sea X una variable aleatoria distribuida como N μ , σ 2 . Consideremos la transformación
Y = g(X ) =
( X − μ ) , la que tiene la inversa X = h
(Y ) = μ + σ Y . También tenemos que
σ
dx
= σ . Por el Teorema 3.5, la función de densidad de Y está dada por
dy
1 1 − y2 2
fY ( y ) = e− y 2σ =
2
e
σ 2π 2π
general puede ser derivada de la función normal estándar mediante la transformación
Y = μ +σ X.
Ejemplo 3.6
estándar. Así
1 − x2 2
fX ( x) = e y X = ln Y
2π
Por lo tanto fY ( y ) está dado por
1
fY ( y ) = e −( ln y )
2
2
y > 0
y 2π
La distribución de arriba es conocida como la distribución log normal. Puede notarse que el
Problema de práctica
3.6 Derive la transformación que podría convertir una distribución uniforme sobre
Características de las Distribuciones
29
Las funciones de densidad de probabilidades y la distribución acumulada de probabilidades
determinan las probabilidades de las variables aleatorias en varios puntos o en diferentes
intervalos. Muy a menudo estamos interesados en medidas resumen de donde la distribución
está localizada, como está dispersa alrededor de algún valor promedio, si es o no simétrica
alrededor de algún punto, y así sucesivamente. Las medidas numéricas que caracterizan a una
distribución son a menudo muy útiles en el cálculo de probabilidades. En esta sección
estudiamos una variedad de medidas de ubicación central y de dispersión.
La integral de Stieltjes
En la sección previa usamos la integral (conocida como la integral de Riemman) en el contexto
de variables aleatorias continuas. En la teoría de probabilidades, un segundo tipo de integral
(referida como la integral de Stieltjes) es ampliamente usada. Antes de desarrollar eso,
hagamos una revisión de la integral de Riemman. Consideremos el intervalo cerrado
inserción de puntos, denotados por xi como sigue:
La subdivisión es una partición y la más larga de las longitudes de los intervalos
[ xi −1 , xi ] . Luego construyamos la siguiente suma (conocida como suma de Riemmann)
∑ g ( w ) Δx = ∑ g ( w )( x − x )
i i i i i −1
Notemos que cada partición de [ a, b ] rinde una suma de Riemman diferente. Si el límite de
esta suma en la medida que la norma de esta partición va a cero existe, es llamada la integral
de Riemman de g ( x ) . Se escribe como
∫ g ( x ) dx = lim ∑ g ( w ) Δx
b
i i
a x →0
No hay razón del porqué debemos limitarnos a nosotros mismos para multiplicar g ( wi ) sólo
30
ΔF ( x ) = F ( xi ) − F ( xi −1 ) , donde F ( x ) es cualquier función valorada únicamente. Así, si el
límite existe, la integral análoga es
∫ g ( x )dx = ∑ g ( w ) ⎡⎣ F ( x ) − F ( x )⎤⎦
b
lim i i i −1
a ΔF ( x ) → 0
La integral de arriba es llamada la integral de Stieltjes. En el contexto de la teoría de
probabilidades, podríamos elegir F ( x ) para que sea la CDF. La ventaja de la integral de
Stieltjes con respecto a la CDF es que no tenemos que distinguir entre una variable aleatoria
discreta y continua. La integral está bien definida en ambos casos.
Esperanza Matemática
Supongamos que tiramos un dado y que recibimos el pago del cuadrado del resultado, esto es,
si obtenemos un 3 recibimos un pago de 9 dólares y así sucesivamente. Si tiramos el dado
indefinidamente, en promedio, ¿cuánto esperaríamos ganar por intento? Para responder
preguntas de este tipo introducimos el concepto de esperanza matemática.
Definición 3.6
una variable aleatoria discreta esto toma la forma de E ⎡⎣ g ( X ) ⎤⎦ = ∑ g ( x ) f ( x ) y en el
i i i
∞
caso continuo, E ⎡⎣ g ( X ) ⎤⎦ = ∫ g ( x ) f ( x ) dx.
−∞
31
Intuitavemente, obtenemos un promedio ponderado de g ( X ) , siendo los pesos las
correspondientes probabilidades. En el ejemplo de arrojar el dado de arriba, es fácilmente
verificable que E X 2 =( ) 91
6
.
La Media de una Distribución
de locación central y es llamada la media de una distribución (usualmente denotada por μ ).
Así, μ = E ( X ) .
Ejemplo 3.7 (media de una distribución continua uniforme)
Para la distribución uniforme sobre un intervalo tenemos que
1
f ( x) = a < x < b
b−a
b
x 1 ⎡ x2 ⎤ b+a
μ = E(X ) = ∫
b
dx = ⎢ ⎥ =
a b−a 2 ⎣ b − a ⎦a 2
Ejemplo 3.8 (media de la distribución normal)
Sea X una variable aleatoria normal general con densidad
1 ⎡ ( x − μ )2 ⎤
f ( x) = exp ⎢ − ⎥ 0< x <∞
σ 2π ⎢⎣ 2σ 2 ⎥⎦
∞ 1 ⎡ ( x − μ )2 ⎤
E(X ) = ∫ x exp ⎢ − ⎥ dx
−∞
σ 2π ⎢⎣ 2σ 2 ⎥⎦
Haciendo la sustitución y =
( x − μ ) tenemos,
σ
32
∞ ⎡ 1 ⎤ ∞ 1 − y2 2 ∞ 1 − y2 2
E(X ) = ∫ (μ +σ y) ⎢ e− y 2 ⎥ σ dy = μ ∫ dy + σ ∫ y
2
e e dy
−∞
⎣ σ 2π ⎦ −∞
2π −∞
2π
segunda integral es cero. Para ver esto más claramente, la segunda integral puede ser escrita
como
0 1 − y2 2 ∞ 1 − y2 2
∫ −∞
y
2π
e dy + ∫ y
0
2π
e dy
Estableciendo u = − y en la segunda integral, se convierte en
−∞ 1 −u 2 2 0 1 −u 2 2
∫ 0
u
2π
e du = − ∫ u
−∞
2π
e du
la que se cancela con la primera integral haciendo el resultado neto igual a cero.
Por lo tanto, E ( X ) = μ para N μ , σ 2 . ( )
Ahora enunciamos un número de propiedades fáciles de demostrar de la esperanza
matemática.
Teorema 3.6
1. Si c es una constante, E ( c ) = c.
3. E ⎡⎣u ( X ) + v ( X ) ⎤⎦ = E ⎡⎣u ( X ) ⎤⎦ + E ⎡⎣ v ( X ) ⎤⎦ .
4. E ( X − μ ) = 0, donde μ = E ( X ) .
Problema de práctica
E ⎡( X − b ) ⎤ es mínimo.
2
⎣ ⎦
33
34