Apuntes de Estadística II Politécnica 2010

qwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasd

fghjklzxcvbnmqwertyuiopasdfghjklzx

cvbnmqwertyuiopasdfghjklzxcvbnmq
Apuntes de clases del Prof. Emilio
wertyuiopasdfghjklzxcvbnmqwertyui
Ramón Ortiz Trepowski

Estadística II Facultad Politécnica UNA
opasdfghjklzxcvbnmqwertyuiopasdfg

Abril/2010

hjklzxcvbnmqwertyuiopasdfghjklzxc

vbnmqwertyuiopasdfghjklzxcvbnmq

wertyuiopasdfghjlzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmqwertyuiopasdfghjklzxcv
bnmqwertyuiopasdfghjklzxcvbnmqw
ertyuiopasdfghjklzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmrtyuiopasdfghjklzxcvbnm
qwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasd
1

Un Camino para Pensar en Probabilidad
Capítulo 2
Espacios muestrales, puntos muestrales, y eventos
El punto inicial de una investigación es típicamente un experimento que podría ser tan simple
como tirar un par de dados o tan complicado como conducir una encuesta de familias o firmas.
Un experimento es un experimento aleatorio si satisface las siguientes condiciones: (1) todos
los posibles y distintos resultados son conocidos antes de que ocurra el experimento, de
antemano; (2) el resultado específico de un intento no es conocido de antemano; y (3) el
experimento puede ser duplicado, en principio, bajo condiciones ideales. La totalidad de todos
los posibles resultados de un experimento es conocido como el espacio muestral (denotado
por S ) y sus elementos individuales distintos son llamados puntos muestrales o eventos
elementales. Así, cuando una moneda es arrojada dos veces, el espacio muestral (denotando
la ocurrencia de cara con C y cruz con +) consiste de cuatro puntos muestrales CC, C+, +C y ++,
esto es, S = {CC , C +, +C , + +} .
Un evento es un subconjunto de un espacio muestral y es un conjunto de puntos muestrales
que representan varios posibles resultados de un experimento. Por ejemplo, cuando se arroja
un par de dados, “la suma total de puntos igual a 9” es un evento representado por los puntos
muestrales ( 3, 6 ) , ( 4,5 ) , ( 5, 4 ) y ( 6,3) , donde el primer número es el resultado del primer
dado y el segundo número es el resultado del segundo dado. El evento imposible o evento
nulo se denota por ∅ . Un espacio muestral con puntos muestrales finitos o contables (con
una correspondencia uno a uno con los enteros positivos) es llamado un espacio discreto. Un
ejemplo de estos espacios muestrales discretos es el conjunto de 36 puntos muestrales que
resultan al arrojar dos dados. Un espacio continuo es uno con un número infinito no contable
de puntos muestrales (esto es, tienen tantos elementos como números reales hay). Cuando se
miden con exactitud, los posibles valores de la altura de una persona, la temperatura en una
pieza, etc., son ejemplos de espacios continuos.
2

En la figura 2.1, arrojando una moneda dos veces es representada por los cuatro puntos
muestrales ( 0, 0 ) , ( 0,1) , (1, 0 ) y (1,1) , donde 1 se refiere a cara y 0 a cruz. Esta
representación gráfica recibe el nombre de diagrama de Venn, y es un conveniente
instrumento de análisis.
Problemas de práctica.
2.1. Si un par de dados son lanzados juntos, los resultados son de la forma (1,1) , (1, 2 ) y así
sucesivamente. Use un diagrama de Venn para representar el espacio muestral y los eventos
“total de puntos es igual a 5” y “total de puntos es 10”.
2.2. Una moneda es arrojada tres veces. Represente el espacio muestral y el evento “al menos
dos caras.”
Algunos Resultados de la Teoría de Conjuntos
Definición 2.1.
El espacio muestral es denotado por S . A = S implica que los eventos en A deben siempre
ocurrir. El conjunto vacío es un conjunto que no contiene elementos y es denotado por ∅ .
A = ∅ implica que los eventos en A no ocurren.
El conjunto de todos los elementos que no están en A es llamado el complemento de A y está
denotado por Ac . Así, Ac ocurre si y sólo si A no ocurre. A veces Ac S − A.
El conjunto de todos los puntos que están en el conjunto A o en el conjunto B o en ambos es

llamado la unión de los dos conjuntos y es denotado por ∪. A ∪ B significa que el evento A o
el evento B o ambos ocurre. Notemos que A ∪ Ac = S .
3

El conjunto de todos los elementos que están en A y en B al mismo tiempo es llamado la
intersección de ambos conjuntos y está representado por ∩. A ∩ B significa que ambos
eventos A y B ocurren simultáneamente.
A ∩ B = ∅ implica que A y B no pueden ocurrir simultáneamente. A y B se dice entonces

que son disjuntos o mutuamente excluyentes. Notemos que A ∩ Ac = ∅.
A ⊂ B significa que A está contenido en B o que A es un subconjunto de B, esto es, cada
elemento de A es un elemento de B. En otras palabras, si un evento A ha ocurrido, entonces
B debe también haber ocurrido.
Ejemplo 2.1.
Tire una moneda dos veces. El espacio muestral es S = {CC , C +, +C , + +} .
A = exactamente una cara: ( C +, +C ) .
B = al menos una +: ( +C , C +, + + ) .
A ∪ B = ( C +, +C , + + ) . Notemos que A ⊂ B.
A ∩ B = ( C +, +C ) = A.
A veces es útil dividir los elementos del conjunto A es varios subconjuntos que son disjuntos.
Tal división es conocida como una partición. Si A1 y A2 son tales particiones, entonces
A1 ∩ A2 = ∅ y A1 ∪ A2 = A. Esto puede ser generalizado a n particiones; A = ∪1n Ai con
Ai ∩ Aj = ∅ para i ≠ j.
4

Álgebra Booleana
Las operaciones con conjuntos de unión, intersección y complementación satisfacen un cierto
número de postulados que se enumeran más abajo.
Identidad.
Existen los conjuntos únicos ∅ y S tal que, para cada conjunto A, A ∩ S = A y A ∪ ∅ = A.
Complementación.
Para cada A podemos definir un conjunto único Ac tal que A ∩ Ac = ∅ y A ∪ Ac = S .
Cerradura.
Para cada par de conjuntos A y B , podemos definir conjuntos únicos A ∪ B y A ∩ B.
Commutatividad.
A ∪ B = B ∪ A; A ∩ B = B ∩ A.
Asociatividad.
( A ∪ B) ∪ C = A ∪ ( B ∪ C ).
Distributividad.
A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ).
También, A ∪ ( B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ C ) .
Problemas de práctica.
2.3. Use diagramas de Venn para verificar los siguiente (conocidas como leyes de Morgan):
a) ( A ∪ B ) = Ac ∩ B c . Esto puede ser extendido a: ⎡⎣ ∪ii=∞

c
⎤ i =∞ c
=1 Ai ⎦ = ∩ i =1 Ai .
c
b) ( A ∩ B ) = Ac ∪ B c . Esto puede ser extendido a: ⎡⎣ ∩ii=∞

c
⎤ i =∞ c
=1 Ai ⎦ = ∪ i =1 Ai .
c
5

2.4. Verifique usando diagramas de Venn
A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ).
Campos Borel y campos σ
Es claro partiendo del estudio de las operaciones de conjuntos que mediante la combinación
de conjuntos (o eventos) obtenemos otros conjuntos (o eventos). Para estar seguros de que si
de cualquier manera combinamos eventos, el resultado es siempre otro evento, es esencial
imponer alguna estructura matemática sobre el conjunto de todos los eventos (llamado campo
y denotado por F ) . De otra manera, la atribución de probabilidades a eventos puede algunas
veces no tener sentido. Los conjuntos que tienen la estructura matemática requerida son
conocidos como campos σ ( o también como algebras σ ) asociados con S .
Definición 2.2.
Sea F un conjunto no‐vacío de subconjuntos de S que es también no‐vacío. F se dice que es

un campo σ si las siguientes dos condiciones se dan:
(1) si A ∈ F , entonces Ac ∈ F ,
(2) si Ai ∈ F para i = 1, 2,..., entonces ⎡⎣ ∪ii=∞ ⎤

=1 Ai ⎦ ∈ F .
La primera condición implica cerradura bajo la complementación (esto es que Ac esté también
en el campo) y la segunda condición implica cerradura bajo la unión contable.
Ciertas propiedades simples son fácilmente derivadas de estas definición.
Teorema 2.1.
6

La definición 2.2. implica lo siguiente: (1) S ∈ F , (2) ∅ ∈ F , y (3) si Ai ∈ F para
i = 1, 2,..., entonces ⎡⎣ ∩ii=∞ ⎤

=1 Ai ⎦ ∈ F .
Prueba: La primera propiedad sigue del hecho de que A y Ac estando en F implica que
S = A ∪ Ac está también en F . También, ∅ = S c ∈ F .
Finalmente, por la ley de Morgan:
c
∩ii=∞ ⎡ i =∞ c ⎤
=1 Ai = ⎣ ∪ i =1 Ai ⎦
la que, por definición 2.2., es un miembro de F , estableciendo la última parte (3) del
Teorema.
Sigue de lo que se expuso más arriba que un campo σ es un conjunto de subconjuntos de
S que es cerrado bajo la complementación, la unión contable, y las intersecciones contables.
También notemos que el más pequeño de los campos σ es ( S , σ ) .
Se puede también chequear que el conjunto potencia, que está formado por todos los
subconjuntos de S , es ciertamente un campo σ .
Ejemplo 2.3.
En el experimento de arrojar dos monedas del ejemplo 2.1., consideremos el conjunto
A = {S , ∅, CC , ( C +, +C , + + )}. Es fácilmente verificable que A es un campo σ . Sin
embargo, el conjunto B = {C +, +C} no es un campo σ porque no contiene a S , ∅ ó a
⎡⎣( C +, +C ) ⎤⎦ .
c
Lo que se puede hacer en el caso que partamos de B es construir el mínimo campo
σ generado por sus elementos. Esto puede ser alcanzado mediante la extensión de B para
incluir todos los eventos generados por las operaciones teóricas de conjuntos (uniones,
intersecciones y complementaciones) sobre los elementos de B. Entonces el mínimo campo
σ generado por B es FB = {S , ∅, {( C + ) , ( +C )} , {( CC ) , ( + + )}} y lo denotamos por
FB = σ ( B ) .
7

Esta forma de construir un campo σ puede ser muy útil en los casos en los que los eventos de
interés son menores que los que están dados por el conjunto potencia en el caso de un
conjunto finito S . Por ejemplo, si estamos interesados en eventos con uno de cada C ó + no
hay necesidad en definir el campo σ para que sea el conjunto potencia, y FB puede ser tan
bueno para este trabajo con la ventaja que tiene menos eventos para atribuirles
probabilidades. La utilidad de este método de construir campos σ es mucho mayor en los
casos en donde S es infinito o incontable; en tales casos el método es indispensable.
Problema de práctica
2.5. En el ejemplo 2.1., construya el conjunto de poder asociado con S , esto es, el conjunto de
todos los subconjuntos de S , y verifique que es un campo σ .
Ejemplo 2.4.
En algunas situaciones, podemos tener más que un campo σ asociado con un espacio
muestral. Para ilustrar, supongamos que x se refiere al ingreso anual de los hogares en una
cierta población y que x1 , x2 ,..., xN son los valores reales de los N hogares en la población.
Podemos formar diferentes subconjuntos de esta población agrupándolos alternativamente en
intervalos de $5.000 ó $10.000.
Campos Borel
Consideremos el ejemplo donde S es incontable y discutamos la construcción de un campo
σ mínimo.
En la teoría de la probabilidad, la utilidad de un campo σ será evidente cuando lo
construyamos para la línea real R = { x : −∞ < x < ∞} . Consideremos el conjunto
8

Ax = { z : z ≤ x} = ( −∞, x ] . El conjunto complementario es Axc = { z : z ∈ R y z > x} . Para
diferentes valores de x, Ax y Axc constituye una familia de conjuntos (y pertenecen a una
clase más amplia conocida como conjuntos Borel). Empezando desde Ax , si tomamos uniones
contables e intersecciones de Ax y Axc , podemos obtener un campo σ sobre R. Tal campo
σ es llamado un campo Borel (y denotado por B).
Esto nos enseña como podemos construir un campo σ sobre R . Sea S la línea real
R = { x : −∞ < x < ∞} y el conjunto de eventos de interés sea
J = { Ax : x ∈ R} donde Ax = { z : z ≤ x} = ( −∞, x ] .
La definición de campo σ sugiere que si empezamos con los eventos Ax , x ∈ R luego
extendemos este conjunto para incluir Axc y tomamos uniones contables de Ax y de
Axc debemos ser hábiles para definir un campo σ sobre R, σ ( J ) ‐ el mínimo campo
σ gnerado por los eventos Ax , x ∈ R. Por definición Ax ∈ σ ( J ) . Si tomamos complementos
de Ax : Axc = { z : z ∈ R, z > x} = ( x, ∞ ) ∈ σ ( J ) . Tomando uniones contables de
Ax : ∪∞i =1 ( −∞, x − 1 n ] = ( −∞, x ) ∈ σ ( J ) . Esto implica que σ ( J ) es ciertamente un campo
σ . Para mostrar que tan grande una colección σ ( J ) es realmente podemos mostrar que los
eventos de la forma ( x, ∞ ) , [ x, ∞ ) , ( x, z ) para x < z , y { x} también pertenecen a σ ( J ) ,
usando las operaciones teóricas como sigue:
( x, ∞ ) = {( −∞, x ]} ∈ σ ( J ) ,
c
[ x, ∞ ) = {( −∞, x )} ∈ σ ( J ) ,
c

( x, z ) = {( −∞, x ] ∪ [ z, ∞ )} ∈ σ ( J ) ,
c
{ x} = ∩∞n=1 ( x, x − 1 n] ∈ σ ( J ) .
Esto muestra que no sólo que σ ( J ) es un campo σ sino que incluye casi cada subconjunto (o
evento) concebible de R, esto es, coincide con el campo σ generado por cualquier conjunto
de subconjuntos de R , lo que nosotros denotamos por B , esto es σ ( J ) = B. El campo
9

σ B desempeñará un papel muy importante en lo que sigue: le llamamos el campo Borel
sobre R.
Problemas de práctica
2.6. Verifique que para x < z , el intervalo ( x, z ] es un miembro de B mediante la expresión
del intervalo dado en términos del Ax definido más arriba.
Digamos que
Az = {w : w ≤ z} = {( −∞, z ]}
Azc = {w : w ∈ R y w > z}
Ax = {w : w ≤ x} = {( −∞, x ]}
Axc = {w : w ∈ R y w > x}
( x, z ] = Axc ∩ Az
(
2.7. Sea An ( x ) = x, x + (1 n ) ⎤⎦ . ¿Cuál es el conjunto B = ∩ ni==∞
1 An ( x ) ? ¿Es B ∈ B ?
Digamos que
A1 ( x ) = ( x, x + 1 1]

A2 ( x ) = ( x, x + 1 2]
y así sucesivamente. ∅ . Sí es.
Espacios Medibles
Caracterizando los atributos de un conjunto o de un espacio, a menudo queremos encontrar
medidas numéricamente cuantificables. Por ejemplo, correspondiendo al conjunto
A supongamos que definimos una función de conjunto μ ( A ) que es simplemente el número
de elementos en A si el número es finito y +∞ en otro caso. Esta es una medida de conteo y

es un caso especial de las medidas en general. Formalmente, una medida una función de
conjunto no negativa y contablemente aditiva μ definida sobre un F que tiene las siguientes
propiedades:
10

(1) μ ( A ) ≥ μ ( ∅ ) = 0 para todo A ∈ F .
(2) si Ai ∈ F son conjuntos disjuntos (esto es que, Ai ∩ Aj = ∅ para todo i ≠ j ), entonces
μ ( ∪1n Ai ) = ∑ i μ ( Ai ).
Así, μ : F → R. Un caso especial de tal medida que tiene la propiedad de que μ ( S ) = 1 es
llamado una medida de probabilidad. Otro ejemplo de una medida es la longitud de un
intervalo real. Es llamado la medida de Lebesgue ( λ ) y está definido sobre un campo Borel
como
λ {( a, b )} = b − a para todo a < b.
El par ( μ , F ) es conocido como un espacio medible, esto es, un espacio en el cual una medida
puede ser asignada.
Probabilidad: Definiciones y Conceptos
La probabilidad de un evento está definida en varias formas, todas ellas útiles para calcular
probabilidades.
Definición 2.3. (Definición Axiomática)
La probabilidad de un evento A ∈ F es un número real tal que
(1) P ( A ) ≥ 0 para A ∈ F ,
(2) la probabilidad de todo el espacio muestral S es 1, que es, P ( S ) = 1, y
(3) si A1 , A2 ,..., An son eventos mutuamente excluyentes (que es, Ai ∩ Aj = ∅ para todo
i ≠ j ) , entonces P ( A1 ∪ A2 ∪ ... An ) = ∑ i P ( Ai ), y esto se mantiene para n = ∞ también.
11

El triplete ( S , F , P ) se conoce como el espacio de probabilidad y P es una medida de
probabilidad. Se puede notar inmediatamente que P (.) es simplemente una función que
mapea elementos en F al intervalo unitario [ 0,1] .
A pesar de que la definición axiomática de probabilidad es rigurosa, directamente no nos dice
como asignar las probabilidades a eventos elementales. Esto es obtenido por dos otras
definiciones. Todas las tres definiciones son usadas para calcular probabilidades de varios
eventos.
Definición 2.4. (Definición Clásica)
Si un experimento tiene n ( n < ∞ ) mutuamente excluyentes y resultados igualmente
probables, y si nA de estos resultados tienen un atributo A (esto es, el evento A ocurre en
nA diferentes formas), entonces la probabilidad de A es nA n, denotado como P ( A ) = nA n.
Como un ejemplo, consideremos el experimento de arrojar un par de dados. El espacio
muestral consiste de 36 puntos muestrales: (1,1) , (1, 2 ) ,..., ( 6, 6 ) . Cada una de ellas es
igualmente probable y por lo tanto la probabilidad de cada uno de estos resultados es
1 36. Luego consideremos el evento A, ”el resultado total es 5.” Esto puede ocurrir en las
cuatro siguientes formas mutuamente excluyentes, (1, 4 ) , ( 2,3) , ( 3, 2 ) y ( 4,1) . Por lo tanto
P ( A ) = 4 36.
Definición 2.5.
Sea nA el número de veces que el evento A ocurre en n intentos de un experimento. Si existe
un número real p tal que p = lim ( nA n ) , entonces p es llamada la probabilidad de A y es

n →∞
denotada como P ( A ) .
12

Así, la probabilidad de un evento es su frecuencia límite cuando un experimento es repetido
indefinidamente. En la práctica, sin embargo, no es posible repetir un experimento un número
infinito de veces. La utilidad de esta definición es, por lo tanto, cuando el número de
observaciones es grande. Como una ilustración, la tabla 2.1 tiene la distribución del ingreso de
los hogares de los Estados Unidos en 1987 (conocida como la distribución de frecuencias).
Supongamos que podemos formar intervalos de ingreso desde 0‐4.999, 5.000‐9.999 y así
sucesivamente, y calcular la fracción de los hogares que caen en cada intervalo. El porcentaje
de hogares que caen en el grupo 40.000‐49.999 puede ser considerado como la probabilidad
de que una familia que es elegida aleatoriamente tendrá un ingreso en ese intervalo. Con los
porcentajes y los puntos medios de cada intervalo se construye un histograma.
Ejemplo 2.5.
En el experimento de arrojar una moneda dos veces, el espacio muestral
S = {CC , +C , C +, + +} . Podemos construir un campo σ mediante la selección de los
resultados uno o dos por vez, obteniendo sus complementos, e incluyendo los conjuntos ∅ y
S . Uno de tales campos σ es
F = {∅, S , ( + + ) , ( +C , C +, CC ) , ( CC ) , ( ++, +C , C + ) , ( +C , C + ) , ( ++, CC )}. Es fácil
verificar que las correspondientes probabilidades de los elementos de F son
( 0,1,1 4,3 4,1 4,3 4,1 2,1 2 ) . El triplete ( S , F , P ) es un espacio de probabilidad para este

ejemplo.
Probabilidad Subjetiva
En muchas ocasiones, los individuos usan juicios personales para evaluar la relativa
probabilidad de varios resultados. En la inferencia estadística, la practicalidad de este enfoque
se deriva de usar creencias previas o nueva información para actualizar la especificación del
modelo previo (actualización Bayesiana).
La definición axiomática de la probabilidad nos capacita para derivar un cierto número de
propiedades de la probabilidad, y estas se discuten a continuación.
13

Teorema 2.2.
P ( Ac ) = 1 − P ( A ) .
Prueba.
A ∪ Ac = S y A ∩ Ac = ∅ . Por los axiomas dos y tres, P ( A ) + P ( Ac ) = P ( S ) ;
P ( A ) + P ( Ac ) = 1. Por lo tanto, P ( Ac ) = 1 − P ( A ) .
Teorema 2.3.
P ( A ) ≤ 1.
Prueba.
P ( Ac ) ≥ 1 por el primer axioma. Desde esto y el teorema 2.2., P ( A ) ≤ 1.
Teorema 2.4.
P ( ∅ ) = 0.
Prueba.
S c = ∅. P ( S ∪ ∅ ) = 1 = P ( S ) + P ( ∅ ) , lo que implica que P ( ∅ ) = 0.
Teorema 2.5.
Si A ⊂ B, entonces la P ( A ) ≤ P ( B ) .
Prueba.
( )
Si A ⊂ B, entonces B puede ser expresada como B = A ∪ Ac ∩ B , los que son disjuntos.
( ) (
Por lo tanto, P ( B ) = P ( A ) + P Ac ∩ B ≥ P ( A ) porque P Ac ∩ B ≥ 0. )
Teorema 2.6.
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .
14

Prueba.
( )
El conjunto B puede ser particionado como B = ( A ∩ B ) ∪ Ac ∩ B y por lo tanto
P ( B ) = P ( A ∩ B ) + P ( Ac ∩ B ) . Por lo tanto P ( Ac ∩ B ) = P ( B ) − P ( A ∩ B ) . El conjunto
A ∪ B puede ser particionado como A ∪ ( Ac ∩ B ) . Por lo tanto
P ( A ∪ B ) = P ( A ) + P ( B ) + P ( Ac ∩ B ) . Sigue que
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .
2.8. Verificar usando un diagrama de Venn que
P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P ( C ) − P ( A ∩ B ) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C ) .

Probabilidad Condicional
Muy a menudo queremos calcular las probabilidades de eventos cuando es conocido que otro
evento ha ya ocurrido.
Definición 2.6.
Sean A y B dos eventos en un espacio de probabilidad ( S , F , P ) tal que P ( B ) > 0. La
probabilidad condicional de A dado que B ha ya ocurrido, denotado por P ( A B ) , está dada
por P ( A ∩ B ) P ( B ) .
Así, estamos mirando al subespacio en el cual el evento B ya ha ocurrido. Mediante la división
por P ( B ) , estamos normalizando los valores de las probabilidades de manera que sumen 1
en el subespacio. Debe notarse que el espacio original de probabilidad ( S , F , P ) permanece
inalterado a pesar que nosotros nos enfocamos en el subespacio en cuestión el cuál es
( S , F , P (. B ) ) .

Ejemplo 2.6.
15

Secuencias y Conjuntos Límites de Eventos
Cuando se conduce un experimento aleatorio, a menudo nos encontramos con una secuencia
de conjuntos de eventos. Por ejemplo, consideremos el conjunto An = [ x − n, x + n ] para un
valor fijo de x. Para diferentes valores de n esto define una secuencia de conjuntos. Los

resultados de las repeticiones de experimentos también lleva a una secuencia de eventos. En
tales casos es útil conocer que pasa en la medida que el número de experimentos se vuelve
extraordinariamente grande. Las secuencias también aparecen cuando un experimento implica
obtener observaciones a lo largo del tiempo. En este caso podríamos estar interesados en qué
es lo que pasa “en el largo plazo.” La noción de secuencia de conjuntos y sus límites es
formalizado en lo que sigue. Las aplicaciones de estos conceptos los realizaremos en el
siguiente capítulo.
Definición 2.8
Una secuencia de conjuntos A1 , A2 , A3 ,... es llamada monotónicamente creciente si
A1 ⊂ A2 ⊂ A3 ⊂ ... y monotónicamente decreciente si A1 ⊃ A2 ⊃ A3 ⊃ ... El conjunto límite

está definido como sigue:
Monotónicamente creciente: lim An = ∪1∞ An .

n →∞
Monotónicamente decreciente: lim ∩1∞ An .

n →∞
Teorema 2.9
Si A1 , A2 ,..., An ,... es una secuencia monotónica, entonces
( n →∞
)
P lim An = lim P ( An )
n →∞
Prueba
16

Probaremos esto sólo para el caso de las secuencias monotónicamente crecientes.
A1 ⊂ A2 ⊂ A3 ... El otro caso es similar. Definamos los conjuntos disjuntos
B1 = A1 , B2 = A2 ∩ A1c (esto es, todos los puntos en A2 que están fuera de A1 ), B3 = A3 ∩ A2c ,
y así sucesivamente. Así, An = An −1 ∪ Bn = ∪1n Bi por inducción.
P ( An ) = P ( ∪1n Bi ) = ∑1 P ( Bi ). Por lo tanto, en la medida que
n
n → ∞, lim ⎡⎣ P ( An ) ⎤⎦ = ∑1 P ( Bi ). Por monotonicidad, lim ( An ) = ∪1∞ Ai , lo cual es igual a

∞
∪1∞ Bi , porque An = ∪1n Bi . Por lo tanto, P ⎡⎣lim ( An ) ⎤⎦ = P ( ∪1∞ Bi ) = ∑1 P ( Bi ). Nosotros

∞
mostramos antes que lim ⎡⎣ P ( An ) ⎤⎦ = ∑ P ( B ). Por lo tanto, lim P ( A ) = P ⎡⎣lim ( A )⎤⎦ .

∞
1 i n n
Ejercicio de práctica
2.10 Sea x cualquier punto en el intervalo ( 0, α ) y P ( x ≤ x0 ) = x0 α para cualquier x0 en
ese intervalo. Defina el conjunto de todos los puntos en el intervalo ( x0 − 1 n , x0 + 1 n ) como
An . Muestre que An es una secuencia monotónica. ¿Es creciente o decreciente? ¿Cuál es el
conjunto límite? Compute P ( An ) . Derive las implicaciones del Teorema 2.9 aplicado a la
secuencia de conjuntos.
Capítulo 3
Variables aleatorias y sus distribuciones
El modelo de probabilidad representado por ( S , F , P ) es demasiado general para ser de uso
práctico. Para una descripción completa, necesitamos enumerar cada elemento de F y la
probabilidad asociada. Esto hace la manipulación matemática de probabilidades demasiado
complicada. Un enfoque más útil será medir atributos de los eventos cuantitativamente y
usarlos en el cálculo de las probabilidades de los eventos. En el capítulo previo hemos visto
varios ejemplos en los cuáles los eventos y sus probabilidades están asociadas con variables
cuyos valores son medidos por un experimentador. El total de puntos cuando un par de dados
es arrojado, el número de caras cuando una moneda es tirada, son ejemplos de tales variables.
Variables de este tipo son conocidas como variables aleatorias o variables estocásticas y son
17

fundamentales para la teoría de probabilidades y para la estadística. No todas las variables
pueden ser llamadas variables aleatorias. Para ilustrar, consideremos el experimento de
arrojar una moneda dos veces y el espacio de probabilidad ( S , F , P ) presentado en el ejemplo
2.5. Sea X el número de caras en dos intentos. Puede tomar sólo los valores 0, 1 y 2. X (.)
puede entonces ser pensada como una función de conjunto que mapea el espacio muestral
S en Rx = {0,1, 2} ∈ R. Así tenemos que,
{+ +} → 0 {C +, + +} → 1 {CC} → 2
Denotando el mapeo o función inversa por X −1 (.) , tenemos que X −1 (1) = {C +, +C} ∈ F , y
así sucesivamente para los otros. Por lo tanto, hay una correspondencia entre Rx y S de forma
tal que la estructura de los eventos es preservada. Esto no es verdadero, sin embargo, para la
función de conjunto especifica Y definida como Y ( + + ) = Y ( C + ) = 1, Y ( CC ) = Y ( +C ) = 0,
porque el mapeo o función inversa de esta función es Y −1 (1) = {++, C +} y
Y −1 ( 0 ) = {CC , +C} , los cuales no son elementos del campo σ F definido en el ejemplo 2.5.
Por lo tanto, con respecto al campo σ , Y (.) no preserva la estructura de los eventos,
mientras que X (.) sí lo hace. Para que una variable aleatoria sea tal es importante que
preserve la estructura de los eventos dado que de otra manera surgirán inconsistencias. La
definición formal de una variable aleatoria está dada a continuación.
Definición 3.1
En términos simples, una variable aleatoria (también referida como una variable estocástica)
es una función real valorada de conjuntos cuyo valor es un número real determinado por el
resultado del experimento. El rango de una variable aleatoria es el conjunto de todos los
valores que ella puede tomar. Más formalmente, en términos de la teoría de medidas, una
variable aleatoria es una función real valorada de conjuntos que mapea S en R , y que
satisface la condición de que para cada conjunto Borel B ∈ B , la imagen inversa
X −1 ( B ) ∈ F , donde
X −1 ( B ) = {s : s ∈ S y X ( s ) ∈ B}
18

Una variable aleatoria es por lo tanto una función real valorada (y por lo tanto no es realmente
una variable) que mapea S en la línea real R y asigna un número real a cada s ∈ S . Más aún,
el término “aleatoria” es realmente inapropiado porque la función X (.) no produce o retorna
un valor aleatorio. Lo que distingue una variable aleatoria de otro tipo de variables es el hecho
de que, para cualquier conjunto dado B ∈ B , los correspondientes eventos deben estar en F .
Notemos que en el triplete ( S , F , P ) , el espacio muestral S corresponde ahora a la línea real
R, y el campo σ corresponde ahora al campo Borel B. Correspondiendo a la medida de
probabilidad P (.) es posible definir una función de conjunto, llamemosla Px (.) , que mapea el
campo Borel F en el intervalo unitario cerrado [ 0,1] . Por ejemplo, en el experimento de
arrojar una moneda, la función de conjunto apropiada es
Px ( X = 0 ) = 1 4, Px ( X = 1) = 1 2, Px ( X = 2 ) = 1 4, Px ( X = 1 ó X = 2 ) = 3 4, y así
sucesivamente. La variable aleatoria X nos permite trabajar con el nuevo espacio de
probabilidades ( R, B, Px ) el cuál es mucho más ameno para la manipulación matemática.
Función de Distribución
Si el espacio muestral es contable o incontablemente infinito, la función de probabilidad Px
todavía no es trabajable. Será por lo tanto útil construir una función puntual que pueda ser
definida sobre intervalos continuos y que tenga la misma información que la función de
probabilidad. Tal función es definida más abajo.
Definición 3.2.
La función real valorada F ( x ) tal que F ( x ) = Px {( −∞, x ]} = P ( X ≤ x ) para cada x ∈ R es

llamada la función de distribución, también conocida como la función de distribución
acumulada (o función de densidad acumulada), ó CDF.
19

F ( x ) sintetiza la probabilidad definida sobre el conjunto Borel Ax = ( −∞, x ] . Provee la
probabilidad de que una variable aleatoria asuma valores menores o iguales que un valor
especificado. Notemos que la variable aleatoria X en conjunto con la CDF transforma el
triplete ( S , F , P ) en ( R, B, CDF ) .
Como un ejemplo de una CDF, consideremos el experimento de arrojar un dado, y que X sea
el total de puntos. Los posibles valores de X son 1,2,…,6, y cada uno es igualmente probable
con una probabilidad de 1 6. Rápidamente vemos que F ( x ) es como se señala más abajo.
x F ( x)
<1 0
i ≤ x < i +1 i 6 para i = 1, 2,...,5
x≥6 1
Teorema 3.1.
P ( a < X ≤ b) = F (b) − F ( a ).
Prueba.
Sea I1 ( −∞, a ] y I 2 ( a, b ] . Entonces I1 y I 2 son disjuntos y por lo tanto
P ( I1 ) + P ( I 2 ) = P ( I1 ∪ I 2 ) . Pero P ( I1 ∪ I 2 ) = F ( b ) y P ( I1 ) = F ( a ) . Por lo tanto,
P ( a < x ≤ b) = P ( I2 ) = F (b ) − F ( a ).
20

Dada la CDF F ( x ) este teorema nos capacita para asignar probabilidades a cualquier intervalo
semi abierto ( a, b ] . Otras propiedades de la CDF son listadas en los siguientes ejercicios de
práctica y teoremas.
Problemas de Práctica.
3.1. Muestre que F ( −∞ ) = 0 y F ( +∞ ) = 1 , esto es, que F ( x ) es normada.
3.2. Muestre que F ( x ) es monotónicamente no decreciente, esto es, que si b > a entonces
F (b) ≥ F ( a ).
Teorema 3.2.
Para cada x ∈ R, F ( x ) es continua a la derecha de x .
Prueba.
(
Consideremos el intervalo Bn = x, x + (1 n ) ⎤⎦ para n > 0, el cual está abierto a la izquierda y
cerrado a la derecha. Tenemos que P ( Bn ) = F ⎡⎣ x + (1 n ) ⎤⎦ − F ( x ) . También que Bn +1 ⊂ Bn
y por lo tanto Bn es monotónicamente decreciente. Notemos que el lim Bn = ∅ , esto es, el

n →∞
conjunto límite de Bn es el conjunto vacío (porque el intervalo está abierto en x) . Por lo
tanto, P ( lim Bn ) = 0. Por el teorema 2.9, P ( lim Bn ) = lim P ( Bn ) . Por lo tanto,
⎡ ⎛ 1⎞ ⎤
0 = P ⎡ lim Bn ⎤ = lim ⎢ F ⎜ x + ⎟ − F ( x ) ⎥ = F ( x + ) − F ( x )
⎣ n→∞ ⎦ n→∞ ⎣ ⎝ n⎠ ⎦
donde F ( x + ) es el límite del lado derecho de F ( x ) en x . Esto establece el teorema de que
F ( x ) es continua desde la derecha en x.
Teorema 3.3
21

Si F ( x ) es continua en x ∈ R , entonces P ( X = x ) = 0.
Prueba.
Primero definamos Bn = ( x − 1 n , x + 1 n ] . Notemos que Bn +1 ⊂ Bn . Por lo tanto, por
monotonicidad (Teorema 2.9), en la medida que n → ∞, P ( lim Bn ) = lim P ( Bn ) . Pero
⎡ ⎛ 1⎞ ⎛ 1 ⎞⎤
lim P ( Bn ) = lim ⎢ F ⎜ x + ⎟ − F ⎜ x − ⎟ ⎥ = 0
⎣ ⎝ n⎠ ⎝ n ⎠⎦
porque F ( x ) es continua en x. Por monotonicidad, lim Bn = x, y por lo tanto
P ( lim Bn ) = P ( X = x ) . Por lo tanto se deduce el resultado de que P ( X = x ) = 0 cuando
F ( x ) es continua en x.
Se concluye de este teorema que una variable aleatoria para la cual F ( x ) es continua en
todos los puntos de su rango asigna una probabilidad cero a cualquier x.
Examen de Estadística II
17 de marzo de 2010
Tiempo 45 minutos
Tres temas. Un punto es igual a un tema. Total de puntos = 3.
x0
1. Sea x cualquier punto en el intervalo ( 0, α ) y P ( x ≤ x0 ) = para cualquier x0 en
α
ese intervalo. Definamos el conjunto de todos los puntos en el intervalo
⎛ 1 1⎞
⎜ x0 − , x0 + ⎟ como An . Muestre que An es una secuencia monotónica. ¿Es
⎝ n n⎠
22

creciente o decreciente? ¿Cuál es conjunto límite de An ? Compute P ( An ) . Derive las
consecuencias del Teorema 2.9. (que se recuerda más abajo) para la secuencia de
conjuntos.

Ayuda: Teorema 2.9.
Si A1 , A2 ,..., An ,... es una secuencia monotónica, entonces:
( n →∞
)
P lim An = lim P ( An )
n →∞
2. Considere el experimento de arrojar simultáneamente dos monedas. Defina el espacio
muestral S específico para este experimento. Construya un campo σ para el mismo.
¿Cuál es el conjunto potencia asociado con S ? ¿Es éste conjunto potencia asociado
con S un campo σ ?
3. La siguiente tabla se extrajo de las cifras del censo de 1970 de la población
estadounidense.
Población estadounidense en 1970
Área Total Blanca Afroamericana u otra
1. Urbana 149325 128773 20552
1.1. Áreas 118447 100952 17495

urbanizadas internas
1.1.1. Ciudades 63922 49547 14375

centrales
1.1.2. Periferia urbana 54525 51405 3120
1.2 Áreas urbanizadas 30878 27821 3057

externas
2. Rural 53887 48976 4911
Total 203212 177749 25463
23

(Las cifras se expresan en miles). Si se elige una persona aleatoriamente de la población
estadounidense en 1970, encuentre las probabilidades de los siguientes eventos:
a) La persona es blanca.
b) La persona vive en el área de una ciudad central.
c) La persona vive en una periferia urbana, dado que es blanca.
d) La persona es blanca, dado que vive en una periferia urbana.
e) La persona vive fuera de un área urbana, dado que no es blanca.
f) La persona no es blanca y vive en una ciudad central o es blanca y vive fuera de un
área urbanizada.

Distribuciones Discretas
Distribuciones Continuas
Al contrario de las variables aleatorias discretas que toman sólo valores específicos, una
variable aleatoria continua puede tomar cualquier valor en un intervalo real. En esta sección
estudiamos unos pocos casos de distribuciones continuas. El próximo capítulo tiene varios
otros ejemplos de distribuciones discretas y continuas.
Definición 3.4
Para una variable aleatoria X si existe una función no negativa f ( x ) , definida sobre la línea
real, tal que para cualquier intervalo B,
P ( X ∈ B ) = ∫ f ( x )dx
B
entonces se dice que X tiene una distribución continua y la función f ( x ) es llamada una
función de densidad de probabilidad o simplemente la función de densidad (ó PDF).
Problemas de práctica
24

3.5 Para una variable aleatoria continúa verifique lo siguiente:
F ( x) = ∫ f ( u )du f ( x) = F′( x)
x
−∞
∞

f ( u ) du = 1 F ( b ) − F ( a ) = ∫ f ( u ) du
b
∫−∞ a
Distribución Uniforme en un Intervalo
Una variable aleatoria X para la cual la función de densidad f ( x; a, b ) es una constante
positiva c en el intervalo a ≤ X ≤ b es llamada la distribución uniforme sobre un intervalo.
Para que f ( x; a, b ) sea una PDF ,
∫ f ( x; a, b )dx = 1 = ∫ cdx = c ( b − a ).
b b

a a
1
Por lo tanto, f ( x; a, b ) = uniformemente en a ≤ x ≤ b. Su función de distribución es
(b − a )
una línea recta y está dada por
x−a
F ( x; a, b ) = ∫ f ( x; a, b )dx =
b
para a ≤ x ≤ b
a b−a
Dos casos especiales de los parámetros son frecuentemente usados en las aplicaciones;
a = 0, b = θ y a = −θ , b = θ . La figura 3.3 grafica tanto la PDF como la CDF de la distribución
uniforme.
La distribución Normal
La más ampliamente usada distribución en todas las aplicaciones de la estadística en la normal
(también conocida como distribución Gaussiana) la cual tiene la siguiente densidad (exp es la
función exponencial):
1 ⎡ ( x − μ )2 ⎤
f ( x; μ , σ ) = exp ⎢ − ⎥ −∞ < x < ∞
σ 2π ⎢⎣ 2σ 2 ⎦⎥
25

( ) ( )
La distribución es escrita como N μ , σ 2 , y decimos que X ∼ N μ , σ 2 . Los valores de los
dos parámetros μ y σ 2 son generalmente desconocidos. Será visto más adelante que una
variedad de distribuciones se aproximan a la distribución normal. El caso especial de la
distribución normal cuando μ = 0 y σ = 1 es llamada la distribución normal estándar y su
función de densidad es independiente de los parámetros:
1 − x2 2
f ( x) = e −∞ < x < ∞
2π
La figura 3.4 es un gráfico de la distribución normal estándar la cuál es simétrica alrededor del
origen y es acampanada. La CDF de la distribución normal estándar es:
1 − ( y − μ )2 2
F ( x) = ∫
x
e dy
−∞
2π
Esta integral no tiene una solución de forma cerrada por lo que requiere integración numérica.
Para valores seleccionados de z la Tabla B.3 presenta el área bajo la curva normal estándar a
la derecha de z (la cual es también 1 − F ( x ) ).
Transformación de variables aleatorias
En la inferencia estadística, las transformaciones de variables aleatorias son a menudo
realizadas y por lo tanto necesitamos los medios a través de los cuales podemos derivar las
distribuciones estadísticas de las variables transformadas partiendo de las distribuciones
estadísticas que les corresponden a las variables originales. Así como se les exigía a las
variables aleatorias que sean preservadoras de eventos, las funciones de transformación
deben también tener la misma propiedad. En otras palabras, las transformaciones deben ser
funciones mensurables.
Definición 3.5
26

Una función g ( X ) ⎡⎣ g ( X ) : R → R ⎤⎦ es llamada una función mensurable (ó F mensurable) si
{ }
el conjunto x : g ( x ) ≤ y ∈ F para cada número real y ∈ R.
Así, una función g ( X ) cuando es mensurable implica que podemos expresar la probabilidad
de un evento ⎡⎣ g ( X ) ≤ y ⎤⎦ en términos de la probabilidad de un evento en F correspondiente
a X .
Teorema 3.4
Sea FX ( x ) la CDF de la variable aleatoria X y sea Y = g ( X ) mensurable, diferenciable y
monotónica. Entonces la CDF de Y está dada por ⎡⎣ h (Y ) es la inversa de g ( X ) ⎤⎦ .
FY ( y ) = FX ⎡⎣ h ( y ) ⎤⎦ si g ( X ) es monotónicamente creciente

FY ( y ) = 1 − FX ⎡⎣ h ( y ) ⎤⎦ si g ( X ) es monotónicamente decreciente
Prueba.
Probamos esto sólo para cuando g ( X ) es monotónicamente creciente.
FY ( y ) = P (Y ≤ y ) = P ⎡⎣ g ( X ) ≤ y ⎤⎦ . Dado que la transformación es monotónicamente
creciente, el evento g ( X ) ≤ y es idéntico al evento X ≤ h ( y ) (la función inversa existe dada
la monotonicidad). Por lo tanto,
P ⎡⎣ g ( X ) ≤ y ⎤⎦ = P ⎡⎣ X ≤ h ( y ) ⎤⎦ = FX ⎡⎣ h ( y ) ⎤⎦
Teorema 3.5
27

Digamos que los supuestos del Teorema 3.4 se mantienen. En adición, supongamos que
dx
f X ( x ) sea la PDF de X , y que ≠ 0. Entonces la PDF de Y = g ( X ) está dada por
dy
⎡⎣ denotando la función inversa como X = h (Y ) ⎤⎦
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ cuando X es dicreta
dx
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ cuando X es continua
dy
Prueba.
La prueba es trivial para el caso discreto. Tenemos que
P (Y = y ) = P ⎡⎣ X = h ( y ) ⎤⎦ = f X ⎡⎣ h ( y ) ⎤⎦ . Para una variable aleatoria continua la PDF es la
derivada de la CDF y por lo tanto,
d
fY ( y ) = FY ( y )
dy
Pero FY ( y ) = FX ⎡⎣ h ( y ) ⎤⎦ por el Teorema 3.4. Esto es,
h( y )
FY ( y ) = ∫ f X ( x )dx
−∞
Diferenciando con respecto a y y usando la regla de la cadena,
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ h′ ( y )
dx
Pero h′ ( y ) = . Porque fY ( y ) debe ser no negativa, tenemos que usar el valor absoluto de
dy
la derivada. Por lo tanto,
dx
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦
dy
Ejemplo 3.5
28

( )
Sea X una variable aleatoria distribuida como N μ , σ 2 . Consideremos la transformación
Y = g(X ) =
( X − μ ) , la que tiene la inversa X = h
(Y ) = μ + σ Y . También tenemos que
σ
dx
= σ . Por el Teorema 3.5, la función de densidad de Y está dada por
dy
1 1 − y2 2
fY ( y ) = e− y 2σ =
2
e
σ 2π 2π
la cual es la normal estandarizada N ( 0,1) . Es facil verificar que la función de densidad normal
general puede ser derivada de la función normal estándar mediante la transformación
Y = μ +σ X.
Ejemplo 3.6
Apliquemos el Teorema 3.5 para derivar la distribución de Y = e X , cuando X es la normal
estándar. Así
1 − x2 2
fX ( x) = e y X = ln Y
2π
Por lo tanto fY ( y ) está dado por
1
fY ( y ) = e −( ln y )
2

2
y > 0
y 2π
La distribución de arriba es conocida como la distribución log normal. Puede notarse que el
rango de Y es la línea positiva real. Esto es así porque Y = e X es no negativa. Esto es las

fronteras de soporte −∞ < x < ∞ son transformadas en y > 0.
3.6 Derive la transformación que podría convertir una distribución uniforme sobre
[ a, b ] en [0,θ ] y [ −θ ,θ ].

Características de las Distribuciones
29

Las funciones de densidad de probabilidades y la distribución acumulada de probabilidades
determinan las probabilidades de las variables aleatorias en varios puntos o en diferentes
intervalos. Muy a menudo estamos interesados en medidas resumen de donde la distribución
está localizada, como está dispersa alrededor de algún valor promedio, si es o no simétrica
alrededor de algún punto, y así sucesivamente. Las medidas numéricas que caracterizan a una
distribución son a menudo muy útiles en el cálculo de probabilidades. En esta sección
estudiamos una variedad de medidas de ubicación central y de dispersión.
La integral de Stieltjes
En la sección previa usamos la integral (conocida como la integral de Riemman) en el contexto
de variables aleatorias continuas. En la teoría de probabilidades, un segundo tipo de integral
(referida como la integral de Stieltjes) es ampliamente usada. Antes de desarrollar eso,
hagamos una revisión de la integral de Riemman. Consideremos el intervalo cerrado
[ a, b ] para cualquier par de números reales tal que a < b , y una función valorada únicamente

g ( x ) acotada en [ a, b ] . Luego subdividamos [ a, b ] en un número de intervalos mediante la
inserción de puntos, denotados por xi como sigue:
a = x0 < x1 < x2 < ... < xn = b
La subdivisión es una partición y la más larga de las longitudes de los intervalos
( Δxi = xi − xi −1 ) como la norma de la partición, denotada por Δx . Sea wi cualquier punto en
[ xi −1 , xi ] . Luego construyamos la siguiente suma (conocida como suma de Riemmann)
∑ g ( w ) Δx = ∑ g ( w )( x − x )
i i i i i −1
Notemos que cada partición de [ a, b ] rinde una suma de Riemman diferente. Si el límite de
esta suma en la medida que la norma de esta partición va a cero existe, es llamada la integral
de Riemman de g ( x ) . Se escribe como
∫ g ( x ) dx = lim ∑ g ( w ) Δx
b
i i
a x →0
No hay razón del porqué debemos limitarnos a nosotros mismos para multiplicar g ( wi ) sólo
por la longitud del intervalo [ xi −1 , xi ] . Supongamos que reemplazamos Δxi por
30

ΔF ( x ) = F ( xi ) − F ( xi −1 ) , donde F ( x ) es cualquier función valorada únicamente. Así, si el
límite existe, la integral análoga es
∫ g ( x )dx = ∑ g ( w ) ⎡⎣ F ( x ) − F ( x )⎤⎦
b
lim i i i −1
a ΔF ( x ) → 0
La integral de arriba es llamada la integral de Stieltjes. En el contexto de la teoría de
probabilidades, podríamos elegir F ( x ) para que sea la CDF. La ventaja de la integral de
Stieltjes con respecto a la CDF es que no tenemos que distinguir entre una variable aleatoria
discreta y continua. La integral está bien definida en ambos casos.
Esperanza Matemática
Supongamos que tiramos un dado y que recibimos el pago del cuadrado del resultado, esto es,
si obtenemos un 3 recibimos un pago de 9 dólares y así sucesivamente. Si tiramos el dado
indefinidamente, en promedio, ¿cuánto esperaríamos ganar por intento? Para responder
preguntas de este tipo introducimos el concepto de esperanza matemática.
Definición 3.6
Sea X una variable aleatoria sobre ( S , F, P ) , con f ( x ) como la PDF, y g ( x ) una función

∞
valorada únicamente. Si la integral de Stieltjes ∫ g ( x )dF existe, es llamada el valor
−∞
esperado (o esperanza matemática) de g ( X ) y es denotado por E ⎡⎣ g ( X ) ⎤⎦ . En el caso de
una variable aleatoria discreta esto toma la forma de E ⎡⎣ g ( X ) ⎤⎦ = ∑ g ( x ) f ( x ) y en el
i i i
∞
caso continuo, E ⎡⎣ g ( X ) ⎤⎦ = ∫ g ( x ) f ( x ) dx.
−∞
31

Intuitavemente, obtenemos un promedio ponderado de g ( X ) , siendo los pesos las
correspondientes probabilidades. En el ejemplo de arrojar el dado de arriba, es fácilmente
verificable que E X 2 =( ) 91
6
.
La Media de una Distribución
En el caso especial de g ( X ) = X es muy interesante. El valor esperado de X es una medida
de locación central y es llamada la media de una distribución (usualmente denotada por μ ).
Así, μ = E ( X ) .
Ejemplo 3.7 (media de una distribución continua uniforme)
Para la distribución uniforme sobre un intervalo tenemos que
1
f ( x) = a < x < b
b−a
b
x 1 ⎡ x2 ⎤ b+a
μ = E(X ) = ∫
b
dx = ⎢ ⎥ =
a b−a 2 ⎣ b − a ⎦a 2
Ejemplo 3.8 (media de la distribución normal)
Sea X una variable aleatoria normal general con densidad
1 ⎡ ( x − μ )2 ⎤
f ( x) = exp ⎢ − ⎥ 0< x <∞
σ 2π ⎢⎣ 2σ 2 ⎥⎦
∞ 1 ⎡ ( x − μ )2 ⎤
E(X ) = ∫ x exp ⎢ − ⎥ dx
−∞
σ 2π ⎢⎣ 2σ 2 ⎥⎦
Haciendo la sustitución y =
( x − μ ) tenemos,
σ
32

∞ ⎡ 1 ⎤ ∞ 1 − y2 2 ∞ 1 − y2 2
E(X ) = ∫ (μ +σ y) ⎢ e− y 2 ⎥ σ dy = μ ∫ dy + σ ∫ y
2
e e dy
−∞
⎣ σ 2π ⎦ −∞
2π −∞
2π
El segundo integrando es una función impar ⎡⎣ esto es, g ( − y ) = − g ( − y ) ⎤⎦ y por lo tanto la
segunda integral es cero. Para ver esto más claramente, la segunda integral puede ser escrita
como
0 1 − y2 2 ∞ 1 − y2 2
∫ −∞
y
2π
e dy + ∫ y
0
2π
e dy
Estableciendo u = − y en la segunda integral, se convierte en
−∞ 1 −u 2 2 0 1 −u 2 2
∫ 0
u
2π
e du = − ∫ u
−∞
2π
e du
la que se cancela con la primera integral haciendo el resultado neto igual a cero.
Por lo tanto, E ( X ) = μ para N μ , σ 2 . ( )

Ahora enunciamos un número de propiedades fáciles de demostrar de la esperanza
matemática.
Teorema 3.6
1. Si c es una constante, E ( c ) = c.
2. Si c es una constante, E ⎡⎣cg ( X ) ⎤⎦ = cE ⎡⎣ g ( X ) ⎤⎦ .
3. E ⎡⎣u ( X ) + v ( X ) ⎤⎦ = E ⎡⎣u ( X ) ⎤⎦ + E ⎡⎣ v ( X ) ⎤⎦ .
4. E ( X − μ ) = 0, donde μ = E ( X ) .
3.7 Pruebe el Teorema 3.6. También, derive el valor de b (una constante) para lo cual
E ⎡( X − b ) ⎤ es mínimo.
2
⎣ ⎦

33

34

Apuntes de Estadística II Politécnica 2010

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntes de Estadística II Politécnica 2010

Uploaded by

Copyright:

Available Formats

qwertyuiopasdfghjklzxcvbnmqwerty

2.1. Si un par de dados son lanzados juntos, los resultados son de la forma (1,1) , (1, 2 ) y así

El conjunto de todos los elementos que no están en A es llamado el complemento de A y está

denotado por Ac . Así, Ac ocurre si y sólo si A no ocurre. A veces Ac S − A.

El conjunto de todos los puntos que están en el conjunto A o en el conjunto B o en ambos es

A ∩ B = ∅ implica que A y B no pueden ocurrir simultáneamente. A y B se dice entonces

A1 ∩ A2 = ∅ y A1 ∪ A2 = A. Esto puede ser generalizado a n particiones; A = ∪1n Ai con

Para cada A podemos definir un conjunto único Ac tal que A ∩ Ac = ∅ y A ∪ Ac = S .

a) ( A ∪ B ) = Ac ∩ B c . Esto puede ser extendido a: ⎡⎣ ∪ii=∞

b) ( A ∩ B ) = Ac ∪ B c . Esto puede ser extendido a: ⎡⎣ ∩ii=∞

Sea F un conjunto no‐vacío de subconjuntos de S que es también no‐vacío. F se dice que es

(1) si A ∈ F , entonces Ac ∈ F ,

(2) si Ai ∈ F para i = 1, 2,..., entonces ⎡⎣ ∪ii=∞ ⎤

i = 1, 2,..., entonces ⎡⎣ ∩ii=∞ ⎤

Prueba: La primera propiedad sigue del hecho de que A y Ac estando en F implica que

A = {S , ∅, CC , ( C +, +C , + + )}. Es fácilmente verificable que A es un campo σ . Sin

embargo, el conjunto B = {C +, +C} no es un campo σ porque no contiene a S , ∅ ó a

σ generado por B es FB = {S , ∅, {( C + ) , ( +C )} , {( CC ) , ( + + )}} y lo denotamos por

construyamos para la línea real R = { x : −∞ < x < ∞} . Consideremos el conjunto

diferentes valores de x, Ax y Axc constituye una familia de conjuntos (y pertenecen a una

contables e intersecciones de Ax y Axc , podemos obtener un campo σ sobre R. Tal campo

Esto nos enseña como podemos construir un campo σ sobre R . Sea S la línea real

R = { x : −∞ < x < ∞} y el conjunto de eventos de interés sea

La definición de campo σ sugiere que si empezamos con los eventos Ax , x ∈ R luego

extendemos este conjunto para incluir Axc y tomamos uniones contables de Ax y de

Axc debemos ser hábiles para definir un campo σ sobre R, σ ( J ) ‐ el mínimo campo

σ gnerado por los eventos Ax , x ∈ R. Por definición Ax ∈ σ ( J ) . Si tomamos complementos

de Ax : Axc = { z : z ∈ R, z > x} = ( x, ∞ ) ∈ σ ( J ) . Tomando uniones contables de

Ax : ∪∞i =1 ( −∞, x − 1 n ] = ( −∞, x ) ∈ σ ( J ) . Esto implica que σ ( J ) es ciertamente un campo

eventos de la forma ( x, ∞ ) , [ x, ∞ ) , ( x, z ) para x < z , y { x} también pertenecen a σ ( J ) ,

evento) concebible de R, esto es, coincide con el campo σ generado por cualquier conjunto

de subconjuntos de R , lo que nosotros denotamos por B , esto es σ ( J ) = B. El campo

2.6. Verifique que para x < z , el intervalo ( x, z ] es un miembro de B mediante la expresión

de elementos en A si el número es finito y +∞ en otro caso. Esta es una medida de conteo y

(2) si Ai ∈ F son conjuntos disjuntos (esto es que, Ai ∩ Aj = ∅ para todo i ≠ j ), entonces

Así, μ : F → R. Un caso especial de tal medida que tiene la propiedad de que μ ( S ) = 1 es

λ {( a, b )} = b − a para todo a < b.

(2) la probabilidad de todo el espacio muestral S es 1, que es, P ( S ) = 1, y

(3) si A1 , A2 ,..., An son eventos mutuamente excluyentes (que es, Ai ∩ Aj = ∅ para todo

i ≠ j ) , entonces P ( A1 ∪ A2 ∪ ... An ) = ∑ i P ( Ai ), y esto se mantiene para n = ∞ también.

El triplete ( S , F , P ) se conoce como el espacio de probabilidad y P es una medida de

probabilidad. Se puede notar inmediatamente que P (.) es simplemente una función que

mapea elementos en F al intervalo unitario [ 0,1] .

Si un experimento tiene n ( n < ∞ ) mutuamente excluyentes y resultados igualmente

probables, y si nA de estos resultados tienen un atributo A (esto es, el evento A ocurre en

nA diferentes formas), entonces la probabilidad de A es nA n, denotado como P ( A ) = nA n.

muestral consiste de 36 puntos muestrales: (1,1) , (1, 2 ) ,..., ( 6, 6 ) . Cada una de ellas es

cuatro siguientes formas mutuamente excluyentes, (1, 4 ) , ( 2,3) , ( 3, 2 ) y ( 4,1) . Por lo tanto

Sea nA el número de veces que el evento A ocurre en n intentos de un experimento. Si existe

un número real p tal que p = lim ( nA n ) , entonces p es llamada la probabilidad de A y es

S = {CC , +C , C +, + +} . Podemos construir un campo σ mediante la selección de los

( 0,1,1 4,3 4,1 4,3 4,1 2,1 2 ) . El triplete ( S , F , P ) es un espacio de probabilidad para este

Sean A y B dos eventos en un espacio de probabilidad ( S , F , P ) tal que P ( B ) > 0. La

probabilidad condicional de A dado que B ha ya ocurrido, denotado por P ( A B ) , está dada

valor fijo de x. Para diferentes valores de n esto define una secuencia de conjuntos. Los

Una secuencia de conjuntos A1 , A2 , A3 ,... es llamada monotónicamente creciente si

A1 ⊂ A2 ⊂ A3 ⊂ ... y monotónicamente decreciente si A1 ⊃ A2 ⊃ A3 ⊃ ... El conjunto límite

Monotónicamente creciente: lim An = ∪1∞ An .

Monotónicamente decreciente: lim ∩1∞ An .

Si A1 , A2 ,..., An ,... es una secuencia monotónica, entonces

B1 = A1 , B2 = A2 ∩ A1c (esto es, todos los puntos en A2 que están fuera de A1 ), B3 = A3 ∩ A2c ,

y así sucesivamente. Así, An = An −1 ∪ Bn = ∪1n Bi por inducción.

n → ∞, lim ⎡⎣ P ( An ) ⎤⎦ = ∑1 P ( Bi ). Por monotonicidad, lim ( An ) = ∪1∞ Ai , lo cual es igual a

∪1∞ Bi , porque An = ∪1n Bi . Por lo tanto, P ⎡⎣lim ( An ) ⎤⎦ = P ( ∪1∞ Bi ) = ∑1 P ( Bi ). Nosotros