You are on page 1of 18

Capı́tulo 4

Modelo de muestreo aleatorio

4.1. Muestreo aleatorio y estadı́sticos . . . . . . . . . . . . . . . . . . 2


4.1.1. Estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.2. Sobre la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2.1. Media y varianza de X . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2.2. Concentración de X alrededor de E(X) . . . . . . . . . . . . . 5
4.2.3. Distribución (exacta y/o aproximada) de X . . . . . . . . . . 5
4.3. Sobre la cuasivarianza muestral . . . . . . . . . . . . . . . . . . . . 9
4.3.1. Media de S 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2
4.3.2. Varianza de S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3.3. Concentración de S 2 alrededor de σ 2 . . . . . . . . . . . . . . . 13
2
4.3.4. Distribución de S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4. Sobre máximos y mı́nimos . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4.1. Concentración del máximo/mı́nimo . . . . . . . . . . . . . . . . . 15
4.5. Muestreo aleatorio de variables normales . . . . . . . . . . . . 15
4.5.1. Distribución (conjunta) de X y S 2 cuando X es normal . 16

En este capı́tulo presentamos la modelación probabilista del muestreo aleatorio, y


estudiamos las propiedades de los estadı́sticos más relevantes asociados a una muestra
aleatoria: la media muestral y la (cuasi)varianza muestral, junto con un breve análisis
del máximo y el mı́nimo. El resultado más relevante del capı́tulo es el teorema 4.7
de Fisher-Cochran, que analiza el caso del muestreo aleatorio de normales.

1
2 Capı́tulo 4. Modelo de muestreo aleatorio

4.1. Muestreo aleatorio y estadı́sticos


Decimos que la variable aleatoria Y es un clon de la variable aleatoria X si X
e Y tienen la misma distribución; esto es, si para cualquier boreliano A de R,
P(X ∈ A) = P(Y ∈ A).
Por supuesto, si Y es un clon de X, entonces X es un clon de Y .
En particular, si Y es un clon de X, las variables X e Y tienen la misma función
de distribución:
FX ≡ FY .
d
Escribiremos habitualmente que X = Y .
Por muestra aleatoria de tamaño n de la variable X entendemos un vector
(X1 , . . . , Xn ) en el que cada Xj es un clon de X y además las X1 , . . . , Xn son (com-
pletamente) independientes. Denotamos con X al vector (aleatorio) columna
⎛ ⎞
X1
⎜ .. ⎟
X=⎝ . ⎠
Xn

Éste es nuestro modelo para describir procesos de sorteos (independientes) y de


extracción de muestras. El vector X contiene todas las posibles muestras (x1 , . . . , xn )
(de X y de tamaño n), cada una con sus “probabilidades”, que vienen dadas
para el caso en el que X sea una variable continua, por la función de densidad
conjunta de la muestra aleatoria X, que es
*
n
fX (x1 , . . . , xn ) = fX (xi ), para cualquier (x1 , . . . , xn ) ∈ Rn ,
i=1

donde fX es la función de densidad de la variable X de referencia;


y si X es discreta, por la función de masa conjunta de X, que se escribe como
*
n
P(X1 = x1 , . . . , Xn = xn ) = P(X = xi ) para cualquier (x1 , . . . , xn ) ∈ Rn .
i=1

4.1.1. Estadı́sticos
Para los propósitos de este curso, interesará considerar (y analizar) variables
aleatorias que se escriben como funciones de las variables de la muestra X.
Cualquier función (medible) H definida en Rn y con valores en R aplicada a
(X1 , X2 , . . . , Xn ) define un estadı́stico T ,
T = H(X1 , X2 , . . . , Xn ) ,
de la variable X. Todo estadı́stico T es asimismo una variable aleatoria.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.1. Muestreo aleatorio y estadı́sticos 3

En lo que sigue, el tamaño de la muestra aleatoria será siempre un genérico n. No


reflejaremos ese n en el sı́mbolo que represente al estadı́stico (y por tanto escribire-
mos, por ejemplo, T en lugar de Tn ). Más adelante, por ejemplo en el apartado 5.4,
analizaremos el comportamiento de estadı́sticos cuando el tamaño de la muestra
crece, y será necesario precisar algo más la notación.
Los estadı́sticos más habituales son:
La media muestral, que se denota por X:
1
n
X1 + X2 + · · · + Xn
(4.1) X= = Xj .
n n
j=1

La cuasivarianza muestral, que se denota por S 2 (y requiere n ≥ 2):

1  2
n
(4.2) S2 = Xj − X .
n−1
j=1

Nótese que en S 2 se divide por n − 1, y no por el tamaño de la muestra n.


La variable S 2 es una función de las Xi bastante más complicada que la X.
Concretamente, desarrollando cuadrados,
1 - 2 . 1 
n n
2 1
2
S = Xj − n X = Xj2 − Xi Xj .
n−1 n n(n − 1)
j=1 j=1 i=j

La cuasidesviación tı́pica muestral es el estadı́stico S = S2.
La varianza muestral,
1  2
n
(4.3) D2 = Xj − X ,
n
j=1

aparecerá ocasionalmente. Obsérvese que ahora se divide


√ por n, y no por n − 1.
La desviación tı́pica muestral es el estadı́stico D 2 .
Otros estadı́sticos usuales (y de interés):
máximo: máx (X1 , X2 , . . . , Xn );
mı́nimo: mı́n (X1 , X2 , . . . , Xn );
rango: máx (X1 , X2 , . . . , Xn ) − mı́n (X1 , X2 , . . . , Xn );
estadı́sticos de orden: para cada entero 1 ≤ r ≤ n, el estadı́stico de or-
den Xn,r se obtiene al ordenar la muestra (X1 , X2 , . . . , Xn ):
Xn,1 ≤ Xn,1 ≤ · · · ≤ Xn,n ,
y tomar el valor que ocupa la posición r-ésima en esta ordenación de menor
a mayor. Por ejemplo, Xn,1 es el mı́nimo y Xn,n es el máximo; Xn,2 serı́a el
segundo más pequeño.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4 Capı́tulo 4. Modelo de muestreo aleatorio

Importa recalcar que:

los estadı́sticos son variables aleatorias;


en el cálculo de cualquier estadı́stico interviene tan sólo la muestra aleato-
ria (X1 , . . . , Xn ) de X, y no interviene ningún parámetro de la distribución
especı́fica a la que se aplica.

Interesa entender las propiedades probabilistas de estos estadı́sticos, en particular


su distribución (valores/probabilidades, o función de densidad); o con miras menos
ambiciosas, sus medias y varianzas. Nos centramos aquı́ en el análisis de la media
muestral X y de la cuasivarianza muestral S 2 , con una breve excursión adicional por
el mundo de los máximos y mı́nimos muestrales.

4.2. Sobre la media muestral


Partimos de una muestra aleatoria X = (X1 , . . . , Xn )T de tamaño n de la varia-
ble X. La variable media muestral viene dada por

1
n
X= Xj .
n
j=1

4.2.1. Media y varianza de X


Para cualquier variable X, la media y la varianza de la variable aleatoria X se
expresan directamente en términos de la media y la varianza de la variable X.

Proposición 4.1 Para cualquier variable aleatoria con E(X 2 ) < +∞ se tiene que

1
E(X) = E(X) y V(X) = V(X).
n

Demostración. Por un lado,

1
n
1
E(X) = E(Xj ) = nE(X) = E(X) ;
n n
j=1

y, por otro, usando la independencia,

1 
n
1 1
V(X) = 2 V(Xj ) = 2 nV(X) = V(X).
n n n
j=1

(Aquı́, por cierto, habrı́a bastado con que las variables Xj fueran incorreladas). 

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.2. Sobre la media muestral 5

4.2.2. Concentración de X alrededor de E(X)


La desigualdad de Chebyshev para una variable aleatoria Y con E(Y 2 ) < +∞
nos dice que, para cualquier ε > 0,
  V(Y )
P |Y − E(Y )| ≥ ε ≤ .
ε2
Aplicada a la media muestral X, la desigualdad de Chebyshev, nos dice que
  V(X)
(4.4) P |X − E(X)| ≥ ε ≤ ,
nε2
es decir, que los valores de X se concentran en torno a E(X) para n grande. La
desigualdad anterior cuantifica cuán probable es que X se aleje del valor de la me-
dia E(X) de X.
Una escritura alternativa de (4.4) es la siguiente:

 1
(4.5) P |X − E(X)| ≥ ε V(X) ≤ 2 ,

en la que registramos la magnitud de las desviaciones en torno a la media en la escala
“natural”, la de la desviación tı́pica.
De (4.4) se deduce la ley débil de los grandes números (para variables tales que
E(X 2 ) < +∞): para todo ε > 0 se tiene que
 
lı́m P |X − E(X)| ≥ ε = 0 .
n→∞

4.2.3. Distribución (exacta y/o aproximada) de X


En ciertas ocasiones, para determinados tipos de variables X, es posible obtener
la distribución completa de la variable X, lo que permite responder de manera exacta
a cuestiones sobre concentración de los valores de X.
Ejemplo 4.2.1. Bernoulli y binomial.
Si X es una ber(p), entonces nX = X1 + · · · + Xn es bin(n, p). Es decir,
 
n k
P(nX = k) = p (1 − p)n−k para cada k = 0, 1, . . . , n.
k

Obsérvese que, por lo tanto, X toma los valores 0, 1/n, 2/n, . . . , 1 con las mismas
probabilidades con las que nX toma los valores 0, 1, . . . , n.
Más generalmente, si X es una binomial bin(m, p), entonces nX ∼ bin(nm, p),
esto es,
 
nm k
P(nX = k) = p (1 − p)nm−k para cada k = 0, 1, . . . , nm,
k
de manera que X toma los valores los valores 0, 1/n, 2/n, . . . , m con las mismas
probabilidades con las que nX toma los valores 0, 1, . . . , nm. ♣

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


6 Capı́tulo 4. Modelo de muestreo aleatorio

Ejemplo 4.2.2. Poisson.


Si X es una poiss(λ) con λ > 0, esto es,

λk
P(X = k) = e−λ para cada k = 0, 1, 2 . . . ,
k!
entonces la variable nX es poiss(nλ), es decir,

(λn)k
P(nX = k) = e−λn para cada k = 0, 1, 2 . . . ,
k!
y por tanto X toma los valores 0, 1/n, 2/n, 3/n, . . . con las mismas probabilidades

Ê
(escritas arriba) con las que nX toma los valores 0, 1, 2, 3 . . . . ♣

Nota 4.2.1. La observación usada antes (el que nX ∼ poiss(nλ)) se deduce de que, si X ∼ poiss(μ)
e Y ∼ poiss(ν), y son independientes, entonces X + Y es poiss(μ + ν).
Veamos por qué. Para cada entero k ≥ 0 se tiene que

k 
k
P(X + Y = k) = P(X = j, Y = k − j) = P(X = j) P(Y = k − j)
j=0 j=0
 

k
μj −ν ν k−j 1  k j k−j
k
1
= e−μ e = e−μ−ν μ ν = e−(μ+ν) (μ + ν)k .
j=0
j! (k − j)! k! j=0 j k!

En el segundo paso hemos usado la independencia, y en el último hemos aplicado el binomio de


Newton.

Ejemplo 4.2.3. Geométrica y binomial negativa.


Si X es una geo(p), entonces la suma nX es una binomial negativa binneg(n, p).
Una binneg(n, p) cuenta el número de lanzamientos (de una moneda con proba-
bilidad de cara p) hasta obtener n caras.
De hecho, una geo(p) es una binneg(1, p) y si X e Y son, respectivamente,
binneg(k, p) y binneg(m, p) (mismo parámetro p) e independientes, entonces X +Y
es una binneg(k + m, p). Por tanto, además, si X es binneg(m, p), entonces nX es
binneg(nm, p). Véanse los detalles en el ejercicio 4.3. ♣
Ejemplo 4.2.4. Exponencial y Gamma.
Si X es Exp(λ) con λ > 0, entonces nX es una variable Γ(λ, n).
Esto se sigue de que X es Γ(λ, 1) y que, por tanto, nX es Γ(λ, n).
En general, si X es Γ(λ, t), entonces nX es Γ(λ, nt). Véase la sección 2.3.3, y en

Ê
particular la proposición 2.13. ♣

Nota 4.2.2. Como caso particular del ejemplo anterior, si tomamos λ = 1/2, entonces nX es una
variable Γ(1/2, 2n/2), es decir, una χ22n . Esto supone que la suma de n exponenciales independientes
de parámetro λ = 1/2 se distribuye de la misma manera que la suma de 2n normales estándar al
cuadrado independientes. Asombroso.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.2. Sobre la media muestral 7

El caso en el que X es una variable normal es sin duda el más relevante.


Ejemplo 4.2.5. Normal.
Si X es N (μ, σ 2 ), entonces nX es una variable N (nμ, nσ 2 ) y, de hecho,
 σ2 
X ∼ N μ, .
n
Esto se sigue de la proposición 2.8. ♣
Salvo en estos ejemplos particulares, el cálculo de la distribución de X suele ser
extremadamente difı́cil.
Ejemplo 4.2.6. Lanzamiento de dados.
El experimento consiste en lanzar un dado (regular) n veces. Cada lanzamiento
es una variable X que toma los valores 1, 2, . . . , 6 con probabilidad 1/6 cada uno de
ellos. Interesa entender X, o quizás nX.
Digamos, por ejemplo, que n = 100. La variable nX toma valores entre 6 y 600.
¿Pero cuál es la probabilidad de obtener, por ejemplo, una suma total entre 320
y 360? Parece un cálculo inabordable, incluso en este caso en el que la distribución
de base es uniforme, y por tanto el cálculo es pura combinatoria. ♣
Sin embargo, disponemos de ese asombroso y maravilloso resultado conocido
como el teorema del lı́mite central1 , y que en su versión más habitual dice que, si
X1 , X2 , . . . es una sucesión de variables
idénticas (con varianza finita) e independien-
tes, entonces, la variable suma ni=1 Xi (o quizás la variable promedio) tiende en
distribución, tras la pertinente tipificación, y cuando n → ∞, a una normal estándar.
Para ulteriores referencias, recogemos este resultado en el siguiente:
Teorema 4.2 (del lı́mite central) Sea X1 , X2 , . . . una sucesión de variables alea-
torias idénticas e independientes. Cada Xj es un clon de una cierta variable X con
E(X 2 ) < +∞. Llamemos E(X) = μ y V(X) = σ 2 . Entonces
√ d
n |X − μ| −−→ N (0, σ 2 ) cuando n → ∞.
d
El sı́mbolo −−→ indica convergencia en distribución.
Una manera alternativa de escribir el resultado anterior, que quizás le resulte
más familiar al lector, es la siguiente:
X − E(X) X − E(X) d
=
−−−→ N (0, 1) cuando n → ∞,
σ(X) V(X)/n
que nos dice que la función de distribución de la versión tipificada de X tiende,
cuando n → ∞, a la función de distribución Φ de la normal estándar: para cada
t ∈ R,
 X − E(X) 
P
≤ t −→ Φ(t) cuando n → ∞.
V(X)/n
1
O teorema central del lı́mite, en función de la religión que profese.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


8 Capı́tulo 4. Modelo de muestreo aleatorio

En la expresión anterior solo intervienen E(X) y V(X), y no la distribución explı́cita


de X. Aunque, claro, se trata de un resultado asintótico.
Le habremos de sacar mucho jugo a este teorema más adelante. Por ahora, una
par de aplicaciones directas.

Ejemplo 4.2.7. Lanzamos la moneda (regular) 10 000 veces. Queremos estimar la


probabilidad de que el promedio de caras obtenido esté entre el 48 % y el 52 %.
La variable X de referencia es una ber(1/2), de media E(X) = 1/2 y varianza
V(X) = 1/4. La variable promedio X tiene media E(X) = 1/2 y varianza V(X) =
1/40 000.
La pregunta del enunciado se refiere a la probabilidad

P(48 % ≤ X ≤ 52 %).

La distribución de X es conocida (ejemplo 4.2.1), y esta probabilidad se puede calcu-


lar sumando probabilidades de la bin(10 000, 1/2). Un cálculo computacionalmente
exigente.
Alternativa (y aproximadamente), podemos proceder como sigue:

P(48 % ≤ X ≤ 52 %) = P(−2 % ≤ X − E(X) ≤ 2 %)


 −2 % X − E(X) −2 % 
=P

1/40000 V(X)/10000 1/40000


≈ P(−4 ≤ N (0, 1) ≤ 4) = Φ(4) − Φ(−4) = 99.994 %.

Por cierto, la estimación que se obtiene usando Chebyshev serı́a

V(X) 15
P(48 % ≤ X ≤ 52 %) = P(|X− 12 | ≤ 2
100 ) = 1−P(|X− 12 | > 2
100 ) ≥ 1− 2
= ,
(2/100) 16

que sólo nos dirı́a que la probabilidad en cuestión es, al menos, de un 93.75 %. ♣

Ejemplo 4.2.8. Lanzamiento de dados, segunda parte.


Retomamos el ejemplo 4.2.6. Para calcular la probabilidad de que tras n = 100
lanzamientos de un dado regular obtengamos una suma total de puntos entre 320 y
360 procedemos como sigue. Calculamos primero E(X) = 7/2 y V(X) = 35/12, de
manera que E(nX) = 350 y V(nX) = 875/3. Luego,
   100
 10 
100
30 Xi − 350
P 320 ≤ Xi ≤ 360 = P −

≤ i=1 ≤

i=1
875/3 875/3 875/3
≈ Φ(0.5855) − Φ(−1.7566) = 72.091 % − 3.949 % = 68.142 %.

Aquı́ estamos suponiendo que n = 100 es lo suficientemente grande como que el


teorema del lı́mite central se pueda aplicar. ♣

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


Ê
4.3. Sobre la cuasivarianza muestral 9

Nota 4.2.3. En estos dos ejemplos hemos utilizado valores especı́ficos de la función Φ de distri-
bución de la normal estándar. En Excel, los valores de Φ(x) se pueden calcular con la instrucción
=distr.norm.estand(x).

4.3. Sobre la cuasivarianza muestral


Partimos, de nuevo, de una muestra aleatoria X = (X1 , . . . , Xn )T de tamaño n
de la variable X.
La variable cuasivarianza muestral
1 
n
(4.6) S2 = (Xi − X)2
n−1
i=1

es un estadı́stico más complejo que X y, en general, la información de que se dispone


sobre S 2 es más pobre.
Podemos escribir S 2 en la forma alternativa

n
2
(4.7) (n − 1)S =2
Xj2 − nX ,
j=1

o también como

n 
(4.8) n(n − 1)S = (n − 1)
2
Xj2 − Xi Xj .
j=1 i=j

En forma matricial, esta última expresión se escribe

nS 2 = XT Ωn X,

donde Ωn es la matriz simétrica (semidefinida positiva, pues S 2 ≥ 0) con coeficientes



1, si i = j ,
ωi,j =
−1/(n − 1) , si i = j .

4.3.1. Media de S 2
Proposición 4.3 Para cualquier variable X con E(X 2 ) < +∞ se tiene que

E(S 2 ) = V(X) .

La proposición 4.3 muestra por qué en S 2 se divide por n − 1 y no por n.


Conviene remarcar, y lo remarcamos, que
para el estadı́stico D 2 (varianza muestral), que se define como S 2 , pero divi-
diendo por n en lugar de n − 1, se tiene que E(D 2 ) = n−1 2
n E(S ) < V(X);

y que E(S) = V(X).

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


Ê
10 Capı́tulo 4. Modelo de muestreo aleatorio

Nota 4.3.1.

De hecho, por la desigualdad
de Jensen (teorema 2.1), E(S)2 < E(S 2 ) = V(X), ası́ que
E(S) < V(X). La desigualdad E(S) < V(X) es igualdad sólo si S 2 es constante. Pero esto sólo
ocurre si X es constante. (Una forma de comprobar esto último es apelando al corolario 4.5.)

Demostración de la proposición 4.3. Usando (4.7) se tiene que

2
(n − 1)E(S 2 ) = n E(X 2 ) − n E(X ) ,

que podemos expresar en términos sólo de X usando que

2 1
E(X ) = V(X) + E(X)2 = V(X) + E(X)2 ,
n

para obtener que


1 
(n − 1)E(S 2 ) = n E(X 2 ) − n V(X) + E(X)2
 n
= n E(X 2 ) − E(X)2 ) − V(X) = (n − 1)V(X) ,

y, finalmente, que
E(S 2 ) = V(X) .

Partiendo de (4.8) en lugar de (4.7), la prueba es más directa (algebraicamente):


n 
n(n − 1)E(S 2 ) = (n − 1) E(Xi2 ) − E(Xi · Xj )
i=1 i=j

= (n − 1)n E(X ) − n(n − 1) E(X)2 = n(n − 1) V(X) ,


2

donde hemos usado la independencia de las Xi (para escribir que E(Xi · Xj ) =


E(Xi ) E(Xj )) y que todas las Xi con clones de X. 

Ê Nota 4.3.2. Contraviniendo la definición de estadı́stico (pues usaremos en su definición el valor de


un parámetro), supongamos que μ = E(X) es dada y pongamos

1
n
T2 = (Xj − μ)2 .
n j=1

Obsérvese que se divide por n y no por n − 1. Se tiene


n
nT 2 = Xj2 − nμ2 ,
j=1

ası́ que nE(T 2 ) = nE(X 2 ) − nμ2 = nV(X), y por tanto E(T 2 ) = V(X).

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.3. Sobre la cuasivarianza muestral 11

4.3.2. Varianza de S 2
Arrancamos con la expresión de la varianza de S 2 para variables tipificadas:
Proposición 4.4 Si X es una variable tipificada (es decir, E(X) = 0 y E(X 2 ) =
V(X) = 1) con E(X 4 ) < +∞, entonces
1 n−3
V(S 2 ) = E(X 4 ) − .
n n(n − 1)

Ê Nota 4.3.3. En la expresión anterior suponemos que n ≥ 2. Nótese cómo de ella se deduce, de
pasada, que E(X 4 ) > (n − 3)/(n − 1) para todo n ≥ 2 si la variable X está tipificada. Obsérvese
que (n − 3)/(n − 1) tiende a 1 cuando n → ∞.

De la proposición 4.4, como comprobaremos en un momento, se obtiene la fórmula


general:
Corolario 4.5 Para cualquier variable X con E(X 4 ) < +∞ se tiene que
1   n−3  2
V(S 2 ) = E (X − E(X))4 − E (X − E(X))2 .
n n(n − 1)
De esta última identidad se obtiene inmediatamente:
Corolario 4.6 Si n ≥ 3, entonces para cualquier variable aleatoria X con E(X 4 ) <
+∞ se tiene que
1  
V(S 2 ) ≤ E (X − E(X))4 .
n
De este corolario deduciremos un resultado de concentración de S 2 (en torno
a σ 2 ) en la sección 4.3.3 siguiente.
Demostración del corolario 4.5. Sea Y la versión tipificada de X, es decir,
Y := (X − μ)/σ, donde μ = E(X) y σ 2 = V(X). Obsérvese que X = σY + μ, y
también que X = σ Y + μ.
Esto nos dice que
2
SX ≡ σ 2 SY2 .
Por tanto, aplicando la proposición 4.4,
1 n−3  1 1 n−3 
V(SX2
) = σ 4 V(SY2 ) = σ 4 E(Y 4 )− = σ 4 E((X −μ)4 ) 4 − .
n n(n − 1) n σ n(n − 1)

Demostración de la proposición 4.4. La variable X está tipificada: E(X) = 0
y V(X) = E(X 2 ) = 1. Queremos calcular
V(S 2 ) = E(S 4 ) − E(S 2 )2 = E(S 4 ) − V(X)2 = E(S 4 ) − 1,
donde hemos aplicado la proposición 4.3 y el que X está tipificada.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


12 Capı́tulo 4. Modelo de muestreo aleatorio

Solo resta calcular E(S 4 ). En este cálculo usamos la expresión dada en (4.8),

n 
n(n − 1)S 2 = (n − 1) Xj2 − Xi Xj .
j=1 i=j

Hemos de elevar al cuadrado y aplicar esperanzas:


0 n  2 1
n (n − 1) E(S ) = E (n − 1)
2 2 4
Xj −
2
Xi Xj
j=1 i=j

Pero no desarrollamos completamente el cuadrado de la derecha sino que an-


ticiparemos aquellos sumandos del desarrollo que, como E(X) = 0 y las Xj son
independientes, sabemos que al tomar esperanzas se anularán.
a) El término con el cuadrado de la primera suma:
- 
n 2 . - 
n 2 .
E (n − 1) 2
Xj = (n − 1) E
2
Xj2
j=1 j=1
 
= (n − 1) 2
nE(X ) + n(n − 1)E(X )
4 2 2
= (n − 1)2 nE(X 4 ) + (n − 1)2 n(n − 1).

b) El término con el cuadrado de la segunda suma: al desarrollar


  2 
E Xi Xj ,
i=j

los únicos sumandos que sobreviven son aquellos en los que se multiplican términos
Xi Xj con Xi Xj , o términos Xi Xj con Xj Xi . Por tanto,
  2 
E Xi Xj = 2n(n − 1)E(X 2 )2 = 2n(n − 1).
i=j

c) Por último, los términos cruzados:


 
n   
E (n − 1) Xj2 · Xi Xj = 0,
j=1 i=j

pues en todos los términos que aparecen hay (al menos) un factor E(Xi ), que es 0.
Poniendo todo esto junto obtenemos que
n2 (n − 1)2 E(S 4 ) = (n − 1)2 nE(X 4 ) + (n − 1)2 n(n − 1) + 2n(n − 1) ,
es decir,
1 (n − 1)2 + 2
E(S 4 ) = E(X 4 ) + .
n n(n − 1)
Ahora bien, E(S 2 ) = V(X) = 1, ası́ que
1 (n − 1)2 + 2 1 n−3
V(S 2 ) = E(X 4 ) + − 1 = E(X 4 ) − .
n n(n − 1) n n(n − 1) 

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.4. Sobre máximos y mı́nimos 13

4.3.3. Concentración de S 2 alrededor de σ 2


Sea X una variable aleatoria X con E(X 4 ) < +∞, y denotemos por μ = E(X) y
por σ 2 = V(X). Entonces, como E(S 2 ) = σ 2 , la desigualdad de Chebyshev aplicada
a S 2 nos dice que para todo ε > 0 se tiene, usando el corolario 4.6, que
 
 2  V(S 2 ) E (X − μ)4
(4.9) P |S − σ | ≥ ε ≤
2

ε2 nε2
(compárese con (4.4)), y, en particular que, para todo ε > 0,
 
lı́m P |S 2 − σ 2 | ≥ ε = 0 .
n→∞

Una versión alternativa de (4.9) serı́a:



 1
P |S 2 − σ 2 | ≥ ε E((X − μ)4 ) ≤ 2 ,

en la que se exhibe la unidad “natural” de desviación de S 2 en torno a su media σ 2 ,
que es ahora la raı́z cuadrada del cuarto momento (compárese con (4.5)).

4.3.4. Distribución de S 2
Determinar explı́citamente la distribución de la variable S 2 es, salvo en algún
caso particular, una tarea complicada.

Ejemplo 4.3.1. Veamos el caso en el que X es ber(p).


Sabemos que nX ∼ bin(n, p). Pero como además en este caso X 2 también es
ber(p), resulta que

n
2 
n
2 2
(n − 1)S 2 = Xj2 − nX = Xj − nX = nX − nX = nX(1 − X) ,
j=1 j=1

de manera que n(n − 1)S 2 = Z(n − Z), donde Z = nX es una bin(n, p).
Es decir, la variable S 2 toma los valores j(n − j)/(n(n − 1)) con probabilidades
  
j(n − j)  n j
P S =2
= p (1 − p)n−j j = 0, 1, 2, . . . , n.
n(n − 1) j ♣

Más adelante determinaremos también la distribución de S 2 en el caso en el


que X sea una variable normal (véase el teorema 4.7).

4.4. Sobre máximos y mı́nimos


Dada una muestra aleatoria (X1 , . . . , Xn ) de X, consideramos los estadı́sticos

M = máx{X1 , X2 , . . . , Xn } y m = mı́n{X1 , X2 , . . . , Xn }.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


14 Capı́tulo 4. Modelo de muestreo aleatorio

En cuanto a la función de distribución del máximo, para t ∈ R,

FM (t) = P(M ≤ t) = P(máx(X1 , . . . , Xn ) ≤ t) = P(X1 ≤ t, . . . , Xn ≤ t)


(4.10) = P(X1 ≤ t) · · · P(Xn ≤ t) = P(X ≤ t)n = FX (t)n

Por lo tanto, en el caso de que X sea una variable continua, se tiene que la función
de densidad del máximo es, para t ∈ R,

(4.11) fM (t) = n FX (t)n−1 fX (t)

Para el cálculo análogo correspondiente al estadı́stico del mı́nimo, conviene pasar


al complementario y argumentar como sigue:
P(m > t) = P(mı́n(X1 , . . . , Xn ) > t) = P(X1 > t, . . . , Xn > t)
= P(X1 > t) · · · P(Xn > t) = P(X > t)n = (1 − FX (t))n ,
lo que nos da que

(4.12) Fm (t) = 1 − (1 − FX (t))n

para t ∈ R, y derivando, para el caso de X continua, que

(4.13) fm (t) = n (1 − FX (t))n−1 fX (t)

Obsérvese cómo en este caso es sencillo obtener la distribución del máximo o


el mı́nimo, y no tanto los momentos (digamos, media y varianza). Por ejemplo, la
media de la variable máximo se calcuları́a como
! ∞
E(M ) = n t FX (t)n−1 fX (t) dt,
−∞

que puede (suele) ser una integral complicada.

Ê
Consúltese también el ejercicio 4.5 para el caso de los estadı́sticos de orden.

Nota 4.4.1. Existe también un resultado asintótico, paralelo al teorema del lı́mite central, para
máximos y para mı́nimos. Para el máximo, por ejemplo, afirma que si la sucesión de máximos (de
muestras aleatorias cada vez mayores), convenientemente normalizada, converge en distribución,
entonces solo puede hacerlo a tres posibles distribuciones, conocidas como de Gumbel, de Fréchet y
de Weibull. En concreto, reza ası́. Sea F la función de distribución de la X de referencia y llamemos
Mn = máx(X1 , . . . , Xn ). Si existen un par de sucesiones de números an > 0 y bn tales que
M − b 
n n
≤ x = P(Mn ≤ an x + b) = F n (an x + bn ) −−−→ G(x)
d
P cuando n → ∞
an
para cada x ∈ R, donde G(x) es una función de distribución no degenerada, entonces G ha de ser
una de las tres siguientes:
−x −α α
Λ(x) = ee ; Φα (x) = e−x , x ≥ 0; Ψα (x) = e−(−x) , x < 0
(Gumbel) (Fréchet) (Weibull)
Nótese cómo, a diferencia del teorema del lı́mite central, la convergencia en distribución de los
máximos normalizados no está garantizada.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.5. Muestreo aleatorio de variables normales 15

4.4.1. Concentración del máximo/mı́nimo


Sea X una variable aleatoria. Sea β el supremo (esencial) de X, es decir,

P(X ≤ β) = 1 y P(X ≤ r) < 1 para todo r < β.

En otras palabras, FX (β) = 1, pero FX (r) < 1, para todo r < β. Obsérvese que β
puede ser +∞, como por ejemplo en el caso de la normal.
Para cada r < β,
lı́m P(r < M ≤ β) = 1 .
n→∞

Esto se sigue de que

P(r < M ≤ β) = 1 − P(M ≤ r) = 1 − FM (r) = 1 − FX (r)n ,

y de que FX (r) < 1.


Si β es finito, escribimos entonces que, para todo ε > 0,

lı́m P(β − ε < M ≤ β) = 1 .


n→∞

Esto es, el máximo muestral se concentra alrededor del supremo (esencial) de X.


Análogamente, se tiene que el mı́nimo se concentra alrededor del ı́nfimo esencial α
definido por

P(X ≤ r) = 0 para todo r < α y P(X ≤ α) > 0.

Aquı́, α podrı́a ser −∞.

4.5. Muestreo aleatorio de variables normales


Tratamos aquı́, para el caso en el que

X ∼ N (μ, σ 2 ),

la distribución exacta de los estadı́sticos X y S 2 .


Recordemos que ya conocemos la distribución exacta de X:

X ∼ N (μ, σ 2 /n) .

Vamos a obtener ahora:

la distribución exacta de S 2 ,
y además, y esto es un hecho crucial (en cuanto a su aplicación práctica) y
asombroso, que X y S 2 son variables aleatorias . . . independientes.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


16 Capı́tulo 4. Modelo de muestreo aleatorio

Nótese que las variables

1 1 
n n
X= Xi y S2 = (Xi − X)2
n n−1
i=1 i=1

dependen (ambas) del mismo conjunto de variables, X1 , . . . , Xn , lo que no sugiere


en absoluto posible independencia.
De hecho, y como piedra de toque, recordamos del ejemplo 4.3.1 que, cuando
X ∼ ber(p), entonces (n − 1)S 2 = nX(1 − X) . ¡Bien lejos de ser independientes!
O, más sencillo, si X es la variable que toma los valores ±1 con probabilidad 1/2
2
entonces (n − 1)S 2 = n − nX .

4.5.1. Distribución (conjunta) de X y S 2 cuando X es normal


Veamos, como ilustración, el caso X ∼ N (0, 1) para una muestra X = (X1 , X2 )T
de tamaño n = 2. El vector X sigue una N (0, I), donde I es la matriz identidad 2×2.
En este caso tenemos que
X1 + X2
X= ,
2
 2  2 (X1 − X2 )2
S 2 = X1 − 12 (X1 + X2 ) + X2 − 12 (X1 + X2 ) = .
2
Consideramos ahora el vector aleatorio Y = (Y1 , Y2 )T dado por
   √ √   
Y1 = √1 (X1 + X2 ),
Y1 1/√2 1/ √2 X1 2
= , es decir,
Y2 1/ 2 −1/ 2 X2 Y2 = √1 (X1 − X2 ).
   2
=O

Como la matriz O es ortogonal, resulta que el vector Y también sigue una N (0, I),
por el lema 3.5 (aunque aquı́ podrı́amos haber hecho la comprobación a mano, con el
cambio de variables correspondiente). En particular Y1 e Y2 son normales estándar
independientes.
Pero como
1
X = √ Y1 y S 2 = Y22
2
deducimos, de una tacada, que X ∼ N (0, 1/2), que S 2 ∼ χ21 (pues es una normal
estándar al cuadrado), y que X y S 2 son variables independientes.
La generalización de este argumento da lugar al siguiente teorema:

Teorema 4.7 (Fisher–Cochran) Si X ∼ N (μ, σ 2 ) entonces


1) X es asimismo normal: X es N (μ, σ 2 /n).
2) (n − 1)S 2 /σ 2 es χ2n−1 .
3) X y S 2 son variables aleatorias independientes.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


4.5. Muestreo aleatorio de variables normales 17

Demostración. La parte 1) ya es conocida (ejemplo 4.2.5), ası́ que basta probar


los otros dos enunciados.
El argumento tiene dos partes. Primero comprobamos que basta probar el resul-
tado en el caso en el que X es una normal estándar.
Veamos. Dada X ∼ N (μ, σ 2 ), consideramos la variable normal estándar Y =
(X − μ)/σ y la muestra Y = (Y1 , . . . , Yn )T . Obsérvese que

( ) Y = (X − μ)/σ, y que ( ) (n − 1)SY2 = (n − 1)SX


2
/σ 2 .

La independencia de Y y SY2 nos darı́a la independencia de X y SX 2 . El que Y siguiera

una N (0, 1/n) llevarı́a a que X fuera una N (μ, σ 2 /n), por ( ), y si (n−1)SY2 ∼ χ2n−1 ,
entonces tendrı́amos que (n − 1)SX 2 /σ 2 seguirı́a también una χ2
n−1 , por ( ). Ası́ que,
como afirmábamos, basta probar 2) y 3) para el caso tipificado.
Digamos entonces que X es una normal estándar, y consideremos la muestra
X = (X1 , . . . , Xn )T , que sigue una N (0, I), con I la matriz identidad n × n.
Sea A una matriz n × n ortogonal, cuya primera fila es
 1 1 1 
√ √ ··· √
n n n
Esta fila es un vector de Rn de módulo 1. El resto de las filas de la matriz A se
pueden obtener por ortonormalización de Gram–Schmidt de la base formada por esa
primera fila y n − 1 vectores de la base canónica.
Sea Z el vector columna aleatorio dado por

Z = AX .

Como A es ortogonal, Z es un vector normal estándar: sus componentes son normales


estándar Z1 , Z2 , . . . , Zn independientes. Véase el lema 3.5.

Obsérvese que Z1 = n X. De manera que X = √1n Z1 es N (0, 1/n) (ésta es la
parte 1) del teorema, de nuevo.)
Por otro lado, en general, se tiene que

n
2
(n − 1)S 2 = Xj2 − nX .
j=1

Ahora, como A es matriz ortogonal,



n 
n
Zj2 = ZT Z = XT AT AX = XT X = Xj2 ,
j=1 j=1

de manera que usando que Z1 = n X obtenemos que

n
2 
n 
n
(n − 1)S = 2
Xj2 − nX = Zj2 − Z12 = Zj2 ,
j=1 j=1 j=2

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández


18 Capı́tulo 4. Modelo de muestreo aleatorio

es decir,

n
(n − 1)S 2 = Zj2 ,
j=2

En consecuencia, y de un sólo golpe, tenemos que

(n − 1)S 2 es una χ2n−1 , pues las Zj son normales estándar independientes;

(n − 1)S 2 y X son independientes, pues la primera depende de Z2 , . . . , Zn y la


segunda de Z1 . 

Ê Nota 4.5.1. Supongamos que X es normal estándar. El teorema 4.7 nos da la distribución de S 2 y
nos dice que (n − 1)S 2 es χ2n−1 , y, por tanto, que

(n − 1)2 V(S 2 ) = V(χ2n−1 ) = 2(n − 1) ,

de manera que
2
V(S 2 ) = ,
n−1
Por otro lado, la proposición 4.4 (válida en general, no sólo cuando X es normal) nos dice
(usando que, para una variable X normal estándar, E(X 4 ) = 3) que
1 n−3 3 n−3 2
V(S 2 ) = E(X 4 ) − = − = ,
n n(n − 1) n n(n − 1) n−1
como tenı́a que ser.

Sea ahora X ∼ N (μ, σ 2 ). Entonces, por el teorema 4.7 de Fisher–Cochran,

X −μ
1.- √ = Y ∼ N (0, 1) es normal estándar;
σ/ n
2.- (n − 1)S 2 /σ 2 = Zn−1 es una χ2n−1 ,

3.- además X y Zn−1 son independientes.

Ası́ que √
X −μ (X − μ)/(σ/ n) Y
√ = =

S/ n S/σ Zn−1 /(n − 1)


es una variable t de Student con n − 1 grados de libertad (véase la sección 3.3.3).

Proposición 4.8 Si X ∼ N (μ, σ 2 ), entonces

X −μ
√ ∼ stu(n − 1),
S/ n
X−μ
es decir, la variable √
S/ n
se distribuye como una t de Student con n − 1 grados de
libertad.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández