You are on page 1of 38

3

Causas y medidas de la variabilidad

Consideremos el proceso de correr 100 m libres por parte de un atleta. En principio cada carrera
representa una repeticin de ciertos pasos del proceso: precalentamiento, colocacin en los tacos de
salida, la salida en aceleracin, mantenimiento de la velocidad, etc. La evidencia nos indica que, a
pesar de que se intenta repetir todos los pasos en forma idntica, el resultado no es el mismo en todas
las carreras. Esta variacin en el producto (resultado de la carrera en nuestro ejemplo) recibe el
nombre de variabilidad y est presente en todo proceso real, de modo que no se puede predecir con
exactitud el resultado de una carrera antes de que sta se celebre. Ello no significa que la variabilidad
no se pueda medir. En nuestro ejemplo, s suele ser posible saber el tiempo aproximado en que 47
acostumbra a correr la prueba el atleta en cuestin, o con qu frecuencia corre por debajo de 10,2 seg
por ejemplo, ya que no hay que confundir la variabilidad con ausencia total de regularidad.
En la vida real, casi siempre hay que tomar decisiones en presencia de ruido o variabilidad,
y es la estadstica la disciplina especializada en el tema.
En este captulo se analizan conceptualmente las distintas causas que generan variabilidad en la
mayora de procesos, y se introducen los importantes conceptos de funcin de densidad de
probabilidad y funcin de distribucin que nos permiten medirla.

3.1 Causas de variabilidad

Consideramos el proceso genrico de la figura 3.1.

Fig. 3.1 Variabilidad en un proceso


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

En la prctica, existen siempre variaciones en las entradas de un proceso y, en consecuencia,


existirn diferencias (variaciones) entre las caractersticas de las distintas unidades de producto obtenidas
como salida del proceso.
Si, por ejemplo, consideramos un cierto proceso de mecanizacin de piezas de acero y de cada
pieza medimos su dimetro, el histograma de la parte derecha de la figura 3.1. representar la variabilidad
del dimetro de las distintas piezas producidas. Toda variabilidad tiene sus causas, y el hecho de que los
dimetros de dos piezas fabricadas por el mismo proceso sean distintos es la consecuencia de variaciones
en la materia prima (diferencias en el porcentaje de carbono entre distintas partidas de acero), de la
variabilidad en la mano de obra (los operarios no trabajan siempre de la misma manera), o de la
variabilidad en cualquier otra entrada del proceso.
Un hecho de trascendental importancia, y que justifica la gran utilidad de la estadstica en el estudio
de la variabilidad, consiste en que, aunque los dimetros de las distintas piezas sean distintos, si se mantiene
constante el sistema de causas que producen variabilidad en las entradas, las frecuencias con que se
observan los distintos valores de los dimetros tienden a estabilizarse en forma de una distribucin predecible.
En otras palabras, si bien el dimetro de una pieza individual es impredecible, cuando el sistema de
causas de variabilidad es estable, se pueden hacer predicciones estadsticas sobre grupos de piezas.
En la argumentacin anterior ya se intuye que las causas de variabilidad podrn tener consecuencias
muy distintas, dependiendo de que su presencia en el proceso sea estable o espordica. Pero lo ms
importante es que, segn cuales sean las caractersticas de una causa de variabilidad, su eliminacin del
proceso o, por lo menos, la reduccin de sus efectos corresponder a distintos niveles de autoridad y
responsabilidad dentro de la organizacin.
Como se explica en Pea, Prat (1986), bajo supuestos muy generales, las prdidas que un producto
48 causa a la sociedad cuando se utiliza son directamente proporcionales a la variabilidad de la caracterstica
de calidad del producto en cuestin. Por ello, en general, ser cierto que:
MEJORAR LA CALIDAD REDUCIR LA VARIABILIDAD

As pues, la estrategia bsica para la mejora de la calidad pasa por la identificacin de las causas
que producen variabilidad, y por una correcta asignacin de la misma a una u otra de las dos categoras
definidas ya por Shewhart (1931):
1) Causas comunes, cuya eliminacin es responsabilidad de la direccin de la empresa y que
acostumbran a ser responsables de ms del 90% de los problemas de calidad.
2) Causas asignables, cuya eliminacin es ms sencilla y son responsabilidad del operario, si bien
representan menos del 10% de los problemas de calidad de un cierto proceso.
Aunque no existe una definicin precisa de estos dos tipos de causas, en la tabla 3.1 se
encuentran algunas caractersticas de cada uno de ellos.

CAUSAS COMUNES CAUSAS ASIGNABLES (ESPECFICAS)

Suelen ser muchas y cada una produce pequeZas Suelen ser pocas pero de efectos importantes.
variaciones. Aparecen espor<dicamente en el proceso. Este
Son parte permanente del proceso. Su suma hecho facilita su identificaci\n y eliminaci\n
(superposici\n) determina la capacidad del proceso. (gr<ficos de control).
Son difRciles de eliminar. Forman parte del sistema y es Son relativamente f<ciles de eliminar por parte
responsabilidad de la direcci\n disminuir sus efectos. de operarios y/o tJcnicos.
Afectan al conjunto de m<quinas, operarios, etc. Afectan especRficamente a una m<quina,
La variabilidad debida a estas causas admite operario, etc.
representaci\n estadRstica (densidad de probabilidad). No admite representaci\n estadRstica.

Tabla 3.1 Caractersticas de las causas de variabilidad


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

En la tabla 3.2 se encuentra una lista de condiciones a las que normalmente se asocian las dos
categoras de causas de variabilidad.

CONDICIONES ASOCIADAS A CONDICIONES ASOCIADAS A


CAUSAS COMUNES CAUSAS ASIGNABLES
Inevitable Evitable
Estable Inestable
HomogJneo HeterogJnea
Constante Err<tico
Normal Anormal
Descontrolado
Estacionario
Impredecible
Controlado Inconsistente
Predecible Espor<dico
Consistente Diferente
Permanente Importante
No significativo Significativo
EstadRsticamente estable Desgaste
Mdltiple Pocas

Tabla 3.2 Condiciones asociadas a las causas de variabilidad

No es exagerado decir que toda la teora de los grficos de control de Shewart tena como
objetivo el desarrollo de mtodos que permitiesen identificar la ocurrencia de causas asignables de
variabilidad en un determinado proceso, para proceder a su eliminacin y mejorar as la calidad de los
productos industriales. Al mismo autor se debe el concepto de proceso en estado de control, como
aquel proceso sobre el que nicamente acta un sistema estable de causas de variabilidad (las causas
49
comunes), y cuyo output es, en consecuencia, predecible estadsticamente.
Todas estos conceptos sern desarrollados con mayor detalle en el captulo 11 de este libro.

3.2 Medidas de la variabilidad

Las unidades producidas y las que conceptualmente puede producir un proceso en estado de control son
un ejemplo de lo que en estadstica se conoce como poblacin.
Consideremos, por ejemplo, un proceso de rellenado automtico de botellas de agua y supongamos
que est en estado de control. Un conjunto de n botellas, seleccionadas aleatoriamente de entre las
fabricadas por el proceso, constituye una muestra
aleatoria de dicha poblacin.
Recibe el nombre de variable aleatoria la
funcin, Y, que asocia, por ejemplo, cada botella
de agua con su contenido en cm3. El concepto de
variable aleatoria es objeto de estudio profundo en
cualquier libro de estadstica matemtica y, aunque
este estudio queda lejos de los objetivos de este
libro, es conveniente observar que la funcin Y
convierte la muestra de observables (botellas de
agua) en nmeros reales (contenidos en cm3),
que se pueden tratar matemticamente.
Estos conceptos se representan esque-
Fig. 3.2 Poblacin, muestra y variable aleatoria
mticamente en la figura 3.2.

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

3.2.1 Variabilidad en una muestra

Es evidente que una manera de representar grficamente la variabilidad en los datos muestrales es el
histograma de dichos datos.
En la figura 3.3 se presenta el histograma
con los contenidos en cm3 de una muestra de
100 botellas rellenadas por el proceso
considerado.
El histograma permite contestar fcil-
mente a preguntas del tipo:
1. Qu proporcin de botellas en la
muestra tienen un contenido inferior a
198 cm3?
2. Qu proporcin de botellas en la Fig. 3.3 Histograma del contenido en cm3 en una muestra de
muestra cumplen con las especificaciones tamao 100
200 2 cm3?
A pesar de que sera de considerable inters tener respuestas a las preguntas anteriores, no cabe
duda que sera de mayor utilidad an poder contestar a preguntas similares, pero referidas a la
poblacin de las botellas que se pueden rellenar con el proceso en estado de control. Esta idea la
desarrollamos a continuacin.

3.3 Densidad de probabilidad. Variabilidad en la poblacin


50

En este apartado vamos a introducir de forma intuitiva un concepto cuya formulacin matemtica
correcta nos llevara excesivo tiempo y que el lector interesado puede encontrar en cualquier libro de
estadstica matemtica, desde textos introductorios como Hogg-Craig (1978) hasta textos como
Chung (1968).
Consideramos la situacin descrita en la figura 3.4.

Fig. 3.4 Concepto intuitivo de densidad de probabilidad

Si tomamos una muestra de, por ejemplo, n=20 unidades de un cierto proceso y representamos
la variabilidad de la muestra mediante un histograma, muy probablemente ste presentar la forma
irregular de la parte izquierda de la fig. 3.4. El reducido tamao de muestra obligar a definir una
amplitud de intervalo grande, y adems pueden existir intervalos con pocos efectivos.
Si la muestra fuese de n=200 unidades, seguiramos hablando de una muestra real de un proceso
real y el histograma resultante sera, posiblemente, ms regular que el anterior y con intervalos de
menor amplitud. Mantenindonos en el mundo real podramos extraer una muestra de 2.000 unidades

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

y, seguramente, el histograma que representase la variabilidad muestral sera todava ms regular y con
unos intervalos de menor amplitud.
Pasemos ahora al mundo de las abstracciones. Siguiendo el proceso anterior hasta el lmite,
cuando n=4 o, lo que es lo mismo, cuando tuvisemos valores de la poblacin conceptual formada
por todas las unidades que se pueden rellenar con el proceso en estado de control, en una gran
mayora de casos el histograma que se obtendra sera tan regular como la funcin f(y)
representada en la parte derecha de la figura 3.4. Esta curva suave es la que recibe el nombre de
funcin densidad de probabilidad (d.p.) de la variable aleatoria Y considerada.
Por tanto, en trminos coloquiales podramos
decir que la densidad de probabilidad es como el
histograma realizado con todas las unidades que
constituyen la poblacin. La d.p. es evidentemente un
ente abstracto o modelo matemtico y, como todo
modelo, est sometido a la afirmacin de Box: Todos
los modelos son falsos; algunos modelos son tiles.
Esta afirmacin viene a decirnos que, cuando formu-
lemos una d.p., f(y) debe ser til para hacer previsiones
sobre las unidades fabricadas por dicho proceso, pero
no podemos afirmar que la variabilidad del proceso sea
exactamente la implicada por f(y).
Consideremos ahora la figura 3.5. Fig. 3.5 Densidad de probabilidad
Hemos visto en el captulo anterior que, en un
histograma, el rea sobre un cierto intervalo era la frecuencia relativa con que se haban observado
51
valores en dicho intervalo.
Teniendo en cuenta que una de las definiciones de probabilidad es que sta es el lmite hacia el
que tiende a estabilizarse la frecuencia relativa cuando el tamao de la muestra crece indefinidamente,
y la relacin entre histograma y d.p. que hemos visto anteriormente, se deduce que:
b

f ( y ) dy = Prob ( a Y b ) (3.1)
a

donde informalmente Prob(a#Y#b) significa la probabilidad de que la variable aleatoria Y tome, en una
unidad de la poblacin, un valor en el intervalo cuyos extremos son a y b.
No todas las funcines matemticas pueden ser una d.p. En efecto, de la relacin intuitiva entre
histograma y d.p. se deduce que, para que una funcin f pueda ser d.p., se requiere:
(a) f(y)$0 para todo y 0
(b) f ( y ) dy = 1

3.4 Esperanza matemtica y varianza

Al igual que en una muestra, parte de la variabilidad puede venir sintetizada en un par de estadsticos
muestrales como x y S2y, la variabilidad representada exhaustivamente por la d.p. f(y), puede tambin
ser caracterizada parcialmente por dos parmetros poblacionales: =E(Y ) y 2 =Var(Y) cuya
definicin es:
= E (Y ) = yf ( y ) dy (3.2)

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

asociada con el nombre de media poblacional o esperanza matemtica de la variable aleatoria y

2 = Var (Y ) = ( y ) f ( y ) dy = E (Y )2
2
(3.3)

conocida como varianza poblacional.


El parmetro es un parmetro de localizacin, es decir, es el valor alrededor del cual toman
valores los individuos de la poblacin considerada, mientras que 2 es un parmetro de dispersin, ya
que es la esperanza matemtica de las desviaciones respecto a , al cuadrado.
Si bien en la estadstica matemtica se definen mltiples parmetros de localizacin y de
dispersin, y 2 son los ms utilizados en el presente libro.

3.5 Funcin de distribucin

Supongamos de nuevo, que la funcin f( y) de la figura 3.5 es d.p. del contenido en cm3 de la poblacin
de botellas de agua rellenadas por un proceso en estado de control.
Est claro que f(y) contiene toda la informacin sobre la variabilidad de proceso. En efecto,
conocida f (y) se pueden contestar preguntas del tipo:
1. Qu proporcin de las botellas rellenadas por el proceso tendrn contenidos entre a y b?
b
Respuesta: f ( y ) dy
a

52 2. Qu proporcin de las botellas rellenadas por el proceso tendrn contenidos inferiores a a?


a
Respuesta: f ( y ) dy

3. Qu proporcin de las botellas rellenadas por el proceso tendrn contenidos superiores a b?



Respuesta: f ( y ) dy
b

El nico inconveniente es que cada respuesta


implica calcular un rea bajo la curva f ( y). Por ello
resulta de gran utilidad el concepto de funcin de
distribucin.
Dada una variable aleatoria Y, se llama
funcin de distribucin de la v.a. Y a la funcin F de
la recta real en el intervalo [0,1] definida por:

y
F( y) = f ( t ) dt = Prob (Y y ) (3.4)

La figura 3.6 representa esquemticamente la


relacin existente entre la densidad de probabilidad
y la funcin de distribucin de una variable
aleatoria.
Es importante observar que las ordenadas
Fig. 3.6 Relacin entre la funcin de distribucin y la
densidad de probabilidad F(y) son directamente probabilidades, mientras que

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

en f(y) las ordenadas son densidades de probabilidad y, en consecuencia, las respuestas a las preguntas
(1), (2) y (3) seran ahora: F(b)-F(a); F(a) y 1-F(b).
Toda funcin de distribucin es obviamente montona no decreciente, continua por lo menos
por la derecha y tal que lim F ( y ) = 0 y lim F ( y ) = 1 .
y y

3.6 Caso discreto

El lector puede preguntarse en este momento por qu decimos que toda funcin de distribucin (f.d.)
es continua por lo menos por la derecha. La razn es que no todas las variables aleatorias son
continuas, como la considerada en el ejemplo del
contenido de las botellas de agua.
Consideremos un proceso con una variable
aleatoria que vamos a denominar discreta. Supon-
gamos que lanzamos 10 veces una moneda y que la
variable aleatoria considerada, Y, es ahora el
nmero de veces que ha salido cara. En este caso, Y
slo puede tomar los valores 0, 1, 2,..., 10.
En este caso recibe el nombre de
distribucin de probabilidad la funcin f definida
por:
53
f(y) = Prob (Y=y) para y = 0,1,2,...,10

f(y) = 0 en el resto
Fig. 3.7 Distribucin de probabilidad de una variable
aleatoria discreta
Est claro que para una v.a. discreta, f ya no
es una curva suave como ocurra en el caso
continuo, sino que tendr una forma como la de la
figura 3.7.
La funcin de distribucin de Y, ser ahora:

y
F( y) = f (k )
k =0

Su forma geomtrica ser del tipo repre-


sentado en la figura 3.8. (Razone el lector la conti-
nuidad por la derecha.)
Para el caso discreto, los parmetros y 2
se definen:

= y f ( y) (3.5)
y

2 = ( y )2 f ( y ) (3.6) Fig. 3.8 Funcin de distribucin de una variable aleatoria


y
discreta

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

3.7 El caso bivariante

Consideremos de nuevo el proceso de envasado representado en la figura 3.1.


Supongamos ahora que a cada individuo de la poblacin le asignamos un par de valores (x,y)
en el que x es el contenido de la botella en cm3 e y es su peso en gr. Matemticamente hablando, esta
asignacin estara representada por una funcin (X,Y) que hace corresponder a cada individuo de la
poblacin un elemento de (x,y) de 2. Dicha funcin recibe el nombre de variable aleatoria bidimensio-
nal o vector aleatorio de dimensin 2.
Los conceptos de variabilidad muestral y poblacional discutidos en apartados anteriores se
generalizan de manera inmediata al caso bivariante, como veremos a continuacin.

3.7.1 Variabilidad muestral

Supongamos que disponemos de n pares


de valores (xi,yi) i=1,2,...,n; correspon-
dientes a valores muestrales de un cierto
vector (X,Y). Una forma razonable de
representar la variabilidad muestral es el
histograma generalizado de la figura 3.9
en el que el volumen del paraleppedo
correspondiente a la celda rayada en el
54 plano x, y, representa la frecuencia rela-
tiva de individuos muestrales, con la que
X,Y toman valores en dicho rectngulo
(celda).

Fig. 3.9 Histograma generalizado

3.8 Densidades de probabilidad conjunta y densidades marginales

Al igual que hemos hecho en el apartado 3.3,


cuando consideremos la poblacin conceptual en
lugar de una muestra concreta, en el histograma
generalizado de la figura 3.9, las v.a. X e Y
convergern en general hacia una superficie
regular, f (x,y) denominada densidad de proba-
bilidad conjunta (d.p.c), y que puede tener una
forma como la de la figura 3.10, por ejemplo.
De nuevo, no todas las funciones
matemticas f(x,y) pueden ser una densidad de
probabilidad conjunta.

Fig. 3.10 Densidad de probabilidad conjunta

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

Para ello es necesario que:


(a) f (x,y) $ 0 para todo (x,y) 0 2
(b) f ( x , y ) dx dy = 1
2

En el caso bivariante tendremos que:

P ( x 0 X x 0 + dx , y 0 Y y 0 + dy ) = f ( x 0 , y 0 ) dxdy (3.7)

3.8.1 Densidades marginales

A partir del conocimiento de la d.p.c. f(x,y) de un vector aleatorio (X,Y), siempre es posible obtener la
densidad de probabilidad univariante correspondiente a cada una de las dos variables aleatorias que
definen el vector.
La distribucin univariante de X se conoce como densidad marginal en X y est definida por:
f X (x) = f ( x , y ) dy (3.8)

La distribucin univariante de Y se conoce como densidad marginal en Y y est definida por:

fY ( y ) = f ( x , y ) dx (3.9)

Veremos que, por el contrario, no siempre es posible obtener la densidad conjunta a partir de las
55
densidades marginales, aunque s lo ser en el caso en que las variables aleatorias X e Y sean
estocsticamente independientes. Este concepto se desarrolla en el siguiente apartado.

3.9 Densidades condicionales e independencia de variables aleatorias

Sea (X,Y) un vector aleatorio cuya d.p.c. es f( x,y) y sea y0 un cierto valor de Y tal que fY (y 0) 0.
Se define como densidad de X condicional al valor y0 de Y a la densidad univariante:

f ( x, y )
f ( x Y = y0 ) = f ( x y0 ) = (3.11a)
f Y ( y0 )

Si x0 es un valor de X tal que fX(x0) 0, se puede definir tambin la densidad de Y condicionada


al valor x0 de X como:
f ( x, y )
f ( y X = x0 ) = f ( y x0 ) = (3.11b)
f X ( x0 )

As pues, en general se tiene que:

f ( x, y ) = f ( y x0 ) f X ( x0 ) = f ( x y0 ) fY ( y0 ) (3.12)

El concepto de densidad condicional permite definir la nocin de independencia entre variables alea-
torias. Dado el vector aleatorio (X,Y), diremos que X,Y son variables aleatorias independientes si y slo si

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

f ( x y0 ) = f X ( x ) (3.13)

Observe el lector que en este caso:


f ( x, y ) = f X ( x ) fY ( y ) (3.14)
y por lo tanto, si las variables X,Y son independientes, es posible obtener la densidad como producto
de las marginales.
Los conceptos de densidad conjunta, marginal y condicional as como las de independencia
estocstica pueden extenderse fcilmente a los vectores de dimensin n. En particular, si (Y1, Y2,..., Yn)
es un vector aleatorio, diremos que las variables que lo componen Y1, Y2,..., Yn son variables aleatorias
independientes si y slo si la densidad de probabilidad conjunta es tal que:
f ( y1 , y 2 , K , y n ) = f Y1 ( y1 ) f Y2 ( y 2 )K f Yn ( y n ) (3.15)

Para ilustrar de manera intuitiva el concepto de independencia entre variables aleatorias


consideremos un caso concreto.
Supongamos que en una cierta poblacin de individuos se define el vector aleatorio (X, Y) tal
que X es la estatura en cm de un cierto individuo e Y es su peso en kilos.
Puede el lector imaginarse la forma geomtrica de f(y|150)? y la f(y|180)? Cree el lector que
ambas densidades sern idnticas?
Es casi seguro que la densidad de probabilidad de los pesos de todas las personas que miden
150 cm est centrada en un valor menor que la de las personas que miden 180 cm, ya que en general
56 esta subpoblacin estar constituida por individuos que pesan ms que los correspondientes a una
estatura de 150 cm.
En este caso, por tanto, no se cumple la expresin (3.13), ya que f(y|x0) depende del valor de x0.
Este hecho coincide con la nocin intuitiva de que la estatura y el peso de una persona no son
independientes sino que, en general, las personas ms altas tambin pesan ms.
Si, por el contrario, las variables fuesen independientes, la densidad de probabilidad de la
variable X sera la misma fuese cual fuese el valor de Y.

3.10 Covarianza y coeficiente de correlacin lineal

Sea (X, Y) un vector aleatorio. Sabemos que la variabilidad de dicho vector est representada por su
funcin de densidad de probabilidad conjunta f(x,y).
Un parmetro de inters para caracterizar la dependencia lineal entre las v.a X e Y es la
covarianza definida de la manera siguiente:

[
11 = COV ( X , Y ) = E ( X x )( Y y ) ] (3.16)

donde x y y son las medias de las densidades marginales.


Comprobamos de manera intuitiva que 11 mide el grado de dependencia lineal entre X e Y. En
efecto, si suponemos que X e Y estn relacionadas de la manera indicada en la figura 3.11(a), como
sera seguramente el caso si X e Y fuesen respectivamente la estatura y el peso de una cierta poblacin,
vemos que, si para un cierto individuo, (X-x) es positivo y grande (un individuo de mucho mayor
peso que la media de la poblacin), tambin en general (Y-y) ser positivo y grande (el individuo
ser ms alto que la media), y si (X-x) es negativo (individuo de menor peso que la media),

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

probablemente (Y- y) ser tambin negativo


(individuos ms bajo que la media). En
consecuencia, la mayora de productos (Y-
y) (X-x) sern positivos y, por lo tanto, 11,
que es el valor medio esperado de dichos
productos, ser positivo.
Un razonamiento parecido al anterior
nos conduce a la conclusin de que, en el
caso de la figura 3.11(b), la covarianza 11
sera negativa. Podemos utilizar como X,Y, la
temperatura mxima de un cierto da como
variable X, y el consumo de electricidad para
calefaccin durante el mismo da en una
cierta unidad como variable Y.
En un da que sea ms fro que la
media probablemente se consumir ms Fig. 3.11 Algunos patrones en los diagramas bivariantes
electricidad para calefaccin que la que se
consume en media, es decir que, cuando (X-x) sea negativo, (Y-y) ser positivo. Anlogamente en un
da ms clido que la media, el consumo de energa para calefaccin ser menor que la media y, por lo
tanto, cuando (X-x) es positivo, se tiene que (Y-y) es frecuentemente negativo. As pues, los
productos (X-x) (Y-y) sern negativos para una mayora de individuos de la poblacin y, por lo tanto,
11 ser negativa.
Cuando no exista dependencia lineal, como ocurre en el caso de la figura 3.11 (c), para un
57
individuo en el que (X-x) sea positivo, ser equiprobable que (Y-y) sea positivo o negativo y, por lo
tanto, es razonable pensar que 11 ser nulo.
De los razonamientos anteriores se desprende que el signo de la covarianza es un indicador del
tipo de dependencia lineal entre X e Y. No ocurre lo mismo con el valor de 11, ya que ste depende de
las unidades de medida. As, para el caso de la figura 3.11 (a), si X se mide en toneladas e Y en
kilmetros, 11 ser un nmero pequeo, mientras que si X se mide en miligramos e Y en micras, 11
tendr un valor muy grande.
En consecuencia, es conveniente definir un parmetro que tenga siempre el mismo signo que la
covarianza, pero cuyo valor sea independiente de las unidades en las que se midan las variables X,Y.
Este parmetro se denomina coeficiente de correlacin lineal y se define:

COV ( X , Y )
xy = (3.17)
xy

Se puede demostrar fcilmente que, si entre X,Y existe una relacin lineal exacta:

Y = 0 + 1 X
entonces

xy = ( signo 1 ) 1

As pues, xy puede tomar valores desde -1 a +1, y toma el valor 0 cuando X e Y son
independientes.

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

3.11 Esperanza matemtica y varianza de combinaciones lineales de variables aleatorias

Sean Y1, Y2,..., Yn variables aleatorias y sean c1, c2,..., cn constantes reales. Consideremos una
combinacin lineal del tipo:
n
Z = ci Yi (3.18)
i =1

De la definicin de esperanza matemtica, se deduce que E, es un operador lineal y, por lo tanto:


n n
E( Z ) = ci E (Yi ) = ci i
i =1 i =1

Por otro lado se tiene que:


2 2
n n
n
V ( Z ) = E ciYi ci i = E ci (Yi i ) =
i =1 i =1 i =1
n n 1 n
(3.19a)
= ci2 Var (Yi ) + 2 ci c j COV (Yi , Yj )
i =1 i =1 j = i +1

De la expresin (3.19 a) se deduce que, cuando las variables Y1, Y2,..., Yn sean independientes:

n n
V ci Yi = ci2Var ( Yi ) (3.19b)
i =1 i =1

Es muy importante entender correctamente el campo de aplicacin de la expresin (3.19 b), y


58 para ello vamos a considerar un ejemplo concreto.
Supongamos un proceso de rellenado de gel en unas botellas de plstico. Definamos las
siguientes variables aleatorias:
X 6 peso neto de gel en una botella
Y 6 peso de la botella vaca
Z 6 peso de la botella llena de gel
Es razonable pensar que ser fcil obtener datos experimentales que permitan estimar la
varianza y2 de la variable Y y la varianza z2 de las botellas llenas, mientras que ser casi imposible
obtener datos experimentales de la variable X (parte del gel quedara pegado a las paredes de la botella
y el vaciado sera imperfecto). No obstante, si tenemos en cuenta que:
Z=X+Y
y que es razonable pensar que X e Y son independientes, podemos aplicar:
n n
V ci Yi = ci2Var (Yi )
i =1 i =1

y obtener:
2z = 2x + 2y
y, por lo tanto:
2x = 2z 2y

Observe el lector que si hubiese enfocado la solucin al clculo de x2 a partir de:


X=Z-Y
debera tener en cuenta que ahora Z e Y son claramente dependientes y, en consecuencia, debera
aplicarse la expresin (3.19 a)

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

n n 1 n
ci2 Var (Yi ) + 2 ci c j COV (Yi , Y j )
i =1 i =1 j = i +1
en lugar de la (3.19 b)
n n
V ci Yi = ci2Var (Yi )
i =1 i =1

3.12 Ejemplo del helicptero

Para ilustrar los conceptos bsicos de este captulo,


vamos a utilizar el helicptero de papel cuyo diseo
est realizado en la figura 3.12. La idea de utilizar este
ejemplo a lo largo del libro le fue sugerida a uno de
sus autores por George E. P. Box, Soren Bisgaard y
Conrad Fung de la Universidad de Wisconsin.
El proceso de fabricacin de helicpteros
consistira, entre otros, en los siguientes pasos (ver
figura 3.13.):
Supongamos que la caracterstica de calidad
ms importante en los helicpteros fabricados es el
tiempo que tardan en caer desde tres metros de altura.
Si el lector tiene paciencia suficiente para
59
construir unos cuantos helicpteros a partir del diseo
de la figura 3.12, y una vez fabricados los lanza desde
una altura de 3 m y mide el tiempo de cada, observar
lo obvio: no todos los helicpteros tardan el mismo Fig. 3.12 Diseo del helicptero de papel
tiempo en recorrer los 3 m. Por qu existe variabi-
lidad en estos tiempos?

Fig. 3.13 Proceso de fabricacin de los helicpteros

Como ejemplo de algunas de las causas de variabilidad podramos considerar las de la tabla 3.3.
Obsrvese que en la variabilidad final intervienen, no slo las causas que actan durante el
proceso de fabricacin de los helicpteros, sino tambin las que actan durante el proceso de
lanzamiento y medida del tiempo de cada.
En este ejemplo la poblacin conceptual estara formada por todos los helicpteros que se
pueden fabricar por el proceso en estado de control, es decir, eliminando las causas asignables como
la citada antes en segundo lugar en la tabla 3.3.

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

CAUSA TIPO

Variabilidad en la calidad (textura, peso, etc.) de los folios Comdn


utilizados como materia prima.
Distracci\n durante el dibujo de las lRneas de corte del 51 Asignable
helic\ptero.
No siempre dejaremos caer el helic\ptero desde 3 metros Comdn
exactamente.
Variabilidad en las corrientes del aire en la habitaci\n donde se Comdn
dejan caer los helic\pteros.

Tabla 3.3 Algunas causas de variabilidad en el ejemplo del helicptero

Una muestra estara constituida, por ejemplo,


por 10 helicpteros seleccionados al azar de
entre los fabricados por el proceso.
El experimento consiste en dejar caer
un helicptero desde 3 m de altura. Midiendo
el tiempo de cada definimos la variable
aleatoria Y, que asociara a los 10 helicpteros
de la muestra los 10 nmeros reales corres-
pondientes a sus tiempos de cada. Dichos
tiempos, en segundos, podran ser: 3,25; 3,14;
60 2,68; 2,96; 2,99; 2,60; 2,90; 2,75; 2,86; 3,05.
Dado el reducido nmero de datos
muestrales, la representacin grfica ms
adecuada ser la de la figura 3.14.
Fig. 3.14 Representacin grfica con pocos datos Si en lugar de seleccionar una muestra
de 10 helicpteros, hubisemos elegido una
muestra de mayor tamao (100 helicpteros
por ejemplo), la representacin grfica de los
datos sera el histograma de la figura 3.15.
El rea rayada en la figura 3.15 es
proporcional a la frecuencia relativa o la
proporcin de los 100 helicpteros muestrales
cuyos tiempos de cada desde 3 m han estado
comprendidos entre 2,4 y 3,6 segundos.
Conceptualmente podemos suponer
que, si experimentsemos con todos y cada
uno de los helicpteros de la poblacin,
obtendramos como lmite del histograma una
cierta densidad de probabilidad como la de la
figura 3.16.
En esta densidad, el rea rayada
representa la probabilidad de que un heli-
cptero de la poblacin tarde ms de 3,2 y
Fig. 3.15 Histograma de los tiempos de cada de 100 menos de 3,4 segundos en caer desde 3 m o, lo
helicpteros. que es lo mismo, la proporcin de helicpteros

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

en la poblacin cuyo tiempo de cada estara


comprendido entre 3,2 y 3,4 segundos.
Finalicemos este captulo indicando que
uno de los objetivos bsicos de la estadstica es
hacer inferencias acerca de una poblacin
conceptual a partir de datos muestrales de dicha
poblacin.

Fig. 3.16 Densidad de probabilidad en el caso de los helicpteros

61

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS.CONTROL Y MEJORA DE LA CALIDAD

Ejercicios

3.1 El nmero de averas que sufre una determinada mquina a lo largo del da est descrito por la
siguiente distribucin de probabilidad:

NM. DE AVERAS (X) PROBABILIDAD P(X)

0 0.1
1 0.2
2 0.2
3 0.2
4 0.2
5 0.1

Calcular la esperanza matemtica y la varianza de la variable aleatoria nmero de averas.

3.2 Una variable aleatoria tiene la siguiente distribucin de probabilidad:

VALOR DE X PROBABILIDAD P(X)


Calcular:
a) E(x2)
30 1/12 b) E[(x-x)2]
31 2/12 c) E(x)
32 3/12
33 2/12 d) E(2x-1)
34 1/12
62
35 1/12
36 1/12
37 1/12

3.3 Se considera la variable X suma del resultado de lanzar dos dados a la vez.
Calcular:
a) E(x)
b) V(x)

3.4 Una variable aleatoria tiene la siguiente distribucin de probabilidad:


f(x) = k(1-x)2 0<x<1
f(x) = 0 en los dems casos.
Hallar E(x) y V(x).

3.5 Una variable aleatoria x se distribuye segn la funcin de densidad:


f(x) = 3kx 0<x<3
f(x) = 1+3kx 3<x<5
f(x) = 0 en los dems casos.
a) Hallar el valor de K.
b) Hallar la esperanza matemtica de x.
c) Hallar la varianza de x.
d) Dibujar la funcin de distribucin.

los autores, 1998; Edicions UPC, 1998.


CAUSAS Y MEDIDAS DE LA VARIABILIDAD

3.6 La viscosimetra es una tcnica corrientemente utilizada en la industria qumica para conocer la
distribucin de pesos moleculares de polmeros.
Un investigador estudi muestras de polimetacrilato de metilo a lo largo de una semana, y
obtuvo los siguientes resultados:

DA PESO (G) VISCOSIDAD (PO) TEMP. LABORTORIO (1C)

1 0.8241 0.6749 22.3


2 0.6022 0.668 22.1
3 0.4554 0.641 18.9
4 0.4287 0.6240 22.6
5 0.2290 0.6010 23.1
6 0.2000 0.5750 22.5
7 0.3325 0.6200 23.0

a) Calcular la covarianza y el coeficiente de correlacin entre el peso (expresado en gramos) y


la viscosidad (en poises).
b) Calcular la covarianza y el coeficiente de correlacin entre el peso (expresado en kilogramos)
y la viscosidad (en poises).
c) Qu se puede deducir a la vista de los resultados de los apartados a) y b)?
d) Existe relacin entre la temperatura y la viscosidad?
e) Y entre la temperatura y el peso de los polmeros?
f) Realizar diagramas bivariantes y decir si los resultados obtenidos son coherentes con dichos
diagramas.
63

3.7 En un estudio de mercado se observ que el consumo de una determinada revista dependa de
la edad segn la siguiente densidad de probabilidad:

f(edad) =0 edad<18
4
f (edad) =k/edad edad$18
a) Calcular el valor de k.
b) Utilizando dicha densidad de probabilidad, calcular la probabilidad de que una persona que
compre la revista, escogida al azar, tenga una edad comprendida entre 25 y 30 aos.

3.8 Un fabricante de juguetes de madera utiliza en sus productos cuatro tipos de material (a, b, c,
d) que une mediante cuatro tipos diferentes de cola (A,
B, C, D). Ha observado que en ciertas condiciones sus
A B C D
productos se rompen con facilidad segn la distribucin
de probabilidad conjunta de la siguiente tabla: a 0.01 0 0.07 0.02
a) Cul es la probabilidad de que se despeguen las
piezas utilizando el material b y la cola C? b 0.02 0.05 0.1 0.23
b) Cul es la probabilidad de que la pieza se rompa c 0.06 0.11 0.03 0
utilizando la cola A?
c) Cul es la probabilidad marginal de b? d 0.01 0.24 0 0.05

los autores, 1998; Edicions UPC, 1998.


los autores, 1998; Edicions UPC, 1998.
4
Algunos modelos probabilsticos

Consideremos tres situaciones frecuentes en la industria:


S1.Consideremos el control de recepcin de materias primas o de componentes semielaborados. En
general, el control consistir en extraer una muestra aleatoria del pedido y aceptar o rechazar el
mismo en funcin del nmero de componentes defectuosas halladas en la muestra.
S2.Consideremos un estudio de mercado destinado a estimar el porcentaje de hogares que tienen
instalado un cierto electrodomstico. El estudio consistir en seleccionar una muestra aleatoria
de hogares y estimar el porcentaje en la poblacin en funcin del nmero de ellos que en la 65
muestra tengan el electrodomstico en cuestin.
S3.Supongamos que una empresa desea estimar la proporcin de facturas emitidas que tardan ms
de tres meses en ser cobradas. Para ello se seleccionar una muestra de las facturas emitidas en
el pasado y a partir de la proporcin muestral de facturas cobradas con el retraso antes indicado,
se estimar dicha proporcin en el total de facturas.
Las tres situaciones son asimilables al siguiente modelo:
Una urna contiene bolas de dos tipos, B y B en cantidades NB y N-NB respectivamente. Se
extraen n bolas de la urna, sin reposicin, y se considera la variable aleatoria X, definida por el nmero
de bolas del tipo B que han aparecido en la muestra.
En dicho modelo, la probabilidad de que X=x (x=0,1,2,3...,n) sera:

NB N NB

x n x
h( x ; N , N B , n ) = (4.1)
N

n
N
donde, por ejemplo, B es el nmero de combinaciones de orden x entre NB elementos.
x
La expresin (4.1) es la distribucin de probabilidad de un modelo probabilstico conocido
como modelo hipergeomtrico.
La tabla 4.1 muestra cmo las situaciones S1, S2 y S3 se adaptan conceptualmente al modelo
hipergeomtrico, es decir, que sera correcto basarnos en dicho modelo para hacer las inferencias
necesarias en los tres casos descritos.

los autores, 1998; Edicions UPC, 1998. Quedan rigurosamente prohibidas, sin la autorizacin escrita de los titulares del "copyright", bajo las sanciones
establecidas en las leyes, la reproduccin total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografa y el tratamiento
informtico, y la distribucin de ejemplares de ella mediante alquiler o prstamo pblicos, as como la exportacin e importacin de ejemplares para su
distribucin y venta fuera del mbito de la Unin Europea. los autores, 1998; Edicions UPC, 1998.
MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

SITUACIN TIPO B TIPO BB N NB n


S1 Componente Componente Ndmero de Ndmero de Ndmero de
defectuosa buena componentes componentes componentes
en el pedido defectuosas extraRdas
en el pedido para control
S2 Hogar con Hogar sin Ndmero de Ndmero de hogares Ndmero de
electro- electro- hogares en de la poblaci\n que hogares
domJstico domJstico la poblaci\n tienen electrodomJsticos en la muestra
estudiada
S3 Factura Factura Ndmero total Nmero de facturas Ndmero de
retrasada cobrada de facturas emitidas y cobradas facturas
antes emitidas con retraso de m<s examinadas
de 3 meses de 3 meses en el estudio

Tabla 4.1 Situaciones que se adaptan al modelo hipergeomtrico

En la teora de la probabilidad existen otros muchos modelos tericos que resultan de utilidad
en una gran variedad de situaciones prcticas. El objetivo de este captulo es presentar las ms
relevantes desde un punto de vista conceptual. El lector interesado en los aspectos matemticos
involucrados en la deduccin de dichos modelos y de sus principales caractersticas puede, de nuevo,
dirigirse a los textos de estadstica matemtica mencionados en el captulo anterior.

4.1 La ley normal


66
En este apartado vamos a estudiar las principales caractersticas de la ley normal, tambin conocida
como ley de Laplace-Gauss. Dicho modelo probabilstico desempea un papel esencial en la teora y la
prctica de la estadstica, as como en la teora de la probabilidad, especialmente en los teoremas lmite.
Se dice que una variable aleatoria Y se distribuye segn una ley normal de parmetros y [lo
abreviaremos diciendo: Y-N(;)], cuando su densidad de probabilidad viene dada por:

1 ( y )2
f ( y) = exp (4.2)
2 2 2

para -4<y<4; -4<<4 y >0.


Desde un punto de vista geomtrico, la ley normal tiene la conocida forma de campana de la
figura 4.1.
Es fcil comprobar los siguientes elementos ms
relevantes:
a) f(y) es simtrica respecto del eje y=.
b) La grfica de f(y) presenta un mximo relativo
1
en , .
2
c) La grfica de f(y) presenta puntos de inflexin
en y=- e y=+.
d) f(y)$0 para todo valor de y.
e) f ( y ) dy = 1.
Fig. 4.1 Grfica de la densidad de probabilidad N(; )

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

A nivel estrictamente geomtrico, es


interesante observar que variar el valor del
parmetro equivale nicamente a variar la
posicin de la campana sin variar su forma.
Por el contrario, una variacin en el valor del
parmetro implica una modificacin de la
forma de la curva (si aumenta , se alejan del
eje y= los puntos de inflexin y disminuye
la ordenada del mximo relativo), pero no
afecta a la posicin de la misma. En la figura
4.2 se observan estos efectos.
Estos efectos son perfectamente
Fig. 4.2 Efectos de y sobre la grfica de la ley normal
razonables, ya que:

E (Y ) = R y f ( y ) dy =

V (Y ) = R ( y ) f ( y ) dy = 2
2

As pues, y no son ms que


la esperanza matemtica y la desviacin
tipo de la variable aleatoria y, en con-
secuencia, es un parmetro de loca-
lizacin, mientras que afecta a la 67
dispersin y, por lo tanto, a la forma de
la densidad.
La gran utilidad de la ley normal
en la prctica es consecuencia de su
origen histrico, muy ligado a la teora
de los errores de medida. De hecho, si
bien la ley normal fue descubierta por
Abraham de Moivre como lmite de un
modelo binomial, su uso fue potenciado
por Laplace y especialmente por Gauss
en sus estudios sobre los problemas de
medicin en astronoma. Parece muy
razonable suponer que la distribucin
de los errores de medida en un
instrumento normal sea simtrica,
centrada en el valor 0, y que la proba-
bilidad de cometer un error sea de
alguna manera inversamente propor-
cional a la magnitud del error. Gauss
obtuvo la densidad (4.2) a partir de
estas hiptesis.
En el siglo XIX, Bessel justifica
la utilidad de (4.2) a partir del principio Fig. 4.3 Distribuciones obtenidas por simulacin de las puntuaciones
de superposicin, que est en la base de medias al lanzar un determinado nmero de dados

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

los teoremas centrales del lmite de la estadstica matemtica. La idea consiste en suponer que el error
observado en una medicin concreta es consecuencia de una gran cantidad de causas independientes,
con distribuciones de probabilidad parecidas, y cada una de ellas con un efecto pequeo comparado
con el efecto total resultante. En este caso la utilidad de la ley normal para modelar el efecto total es
consecuencia del teorema central del lmite que dice, en lenguaje no formalizado, que la suma
(superposicin) de un nmero no muy pequeo de variables aleatorias independientes, idnticamente
distribuidas, en condiciones muy generales, se distribuye segn la ley normal.
Este teorema puede ser comprobado empricamente con el ejemplo ilustrado en la fig.4.3.
Si X1, X2, ..., Xn representan los valores obtenidos al tirar varias veces un dado perfecto, la
1
distribucin de probabilidad de Xi sera: f ( x i ) = para i=1, 2,..., 6. Automticamente comprobamos
6
que las distribuciones de probabilidad de la media obtenida en 2, 3, 4,..., 8, tiradas, es decir, la
distribucin de probabilidad de:
1 1 1
( X1 + X 2 ), ( X1 + X 2 + X 3 ),K, ( X1 + X 2 +K+ X n )
2 3 n
sera la de la figura 4.3(a), (b), (c), (d) para n=2, 3, 4, 8 respectivamente.
Obsrvese que podemos abordar la suma (dividida por 8) de 8 variables independientes
equidistribuidas segn la figura 4.3(a) mediante una ley normal con algn tipo de correccin por
continuidad que comentaremos ms adelante.
Si el lector repasa los conceptos de proceso en estado de control y el de sistema de causas
comunes de variabilidad, comprender que como consecuencia del teorema central del lmite, la
68 variabilidad en este tipo de procesos se puede representar en muchas ocasiones por medio de la ley
normal.

4.1.1 Funcin de distribucin

y
La funcin de distribucin (f.d.) de la ley normal viene dada por: F ( y ) = f ( t ) dt , donde f(t) viene
dada por (4.2). Puesto que f(t) no tiene funcin primitiva, no existe expresin analtica para F(y) y, en
consecuencia, la f.d. de la ley normal aparece en forma de tablas o programada en muchas de las
calculadoras existentes en el mercado. El lector interesado en las distintas aproximaciones para el
clculo numrico de F(y) puede encontrar abundante material en Abramowitz y Stegun (1964),
Johnson y Kotz (1970) o Patel y Read (1982) entre otros.
Existen tablas de la f.d. de la ley N(0;1), tambin conocida como ley normal centrada y
reducida o ley normal estndar, y cuya densidad de probabilidad, que se obtiene haciendo =0 y =1
en (4.2), resulta ser
1 z2
(z ) = exp para < z < +
2 2
La funcin de distribucin de esta ley N(0;1) ser:
z
( z ) = (t ) dt
y est tabulada en la tabla C del apndice.
Mediante esta tabla, es posible calcular el valor en cualquier punto de la funcin de distribucin
de una ley normal genrica N(;). En efecto, si Y-N(;) entonces:

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

1 y 2

y0
1
F ( y 0 ) = Prob (Y y 0 ) = exp dy
2 2

y
Con el cambio de variable z = tendremos:

z0 =
y0
1 z2 z0 =
y0
F ( y0 ) =
2
exp dz = ( z ) dz = ( z 0 )
2

En la figura 4.4 se representa grficamente


la funcin de distribucin de una ley normal
N(;) y se sealan algunos valores de uso
frecuente.
Observemos que ahora es posible interpretar
el significado de en el caso de distribucin
normal; as, por ejemplo, si Y es el contenido en
cm3 de unas botellas rellenadas por un cierto
proceso, y suponemos que Y-N(200;10), entonces
el 95,44% (97,72-2,28) de las botellas estar entre
2, es decir, entre 180 y 220 cm3. Si otra
mquina rellenase botellas con =4 cm y =200,
entonces el mismo porcentaje, 95,44%, de botellas 69
tendran contenidos entre 192 y 208 cm3, es decir,
una poblacin ms homognea. Fig. 4.4 Funcin de distribucin de la ley normal N(; )
Es tambin evidente que entre -4 y +4
se encontrar el 99,994% de la poblacin, es decir,
que un intervalo de 8 centrado en la media
comprender prcticamente a todos los individuos
de la poblacin. Por este motivo, a veces 8 recibe
el nombre de capacidad o tolerancia intrnseca de
una mquina cuya produccin se distribuya nor-
malmente.
Si para graduar el eje vertical utilizamos
una escala especial, que se deduce de los valores
de la f.d. de una ley normal N(;) de la manera
indicada en la figura 4.5, entonces, en un papel
grfico con dicha escala en el eje probabilstico, la
f.d. de N(;) ser una recta.
Este hecho nos permite utilizar este papel,
conocido como papel probabilstico normal, para
estudios de capacidad de mquina y de proceso,
para anlisis de la normalidad de los residuos en
un modelo de regresin lineal, o bien para
identificar los efectos importantes en los diseos Fig. 4.5 Escala del eje vertical en el papel probabi-
experimentales que se estudiarn en el captulo 7. lstico normal

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

En este mismo captulo veremos la utilidad de la ley normal para abordar, en condiciones
asintticas bastante generales otras distribuciones de probabilidad tales como la t-Student, la ley
binomial y la ley de Chi-cuadrado entre otras.
Finalicemos este apartado con un importante resultado cuya justificacin puede hallarse en
Lukacs (1956): Si Yi (i=1, 2, ..., n) son variables aleatorias independientes tales que Yi-N(i;i) y
ai(i=1,2,...,n) son constantes reales, entonces:

a iYi - N ( ; ) con = a i i y = a i2 i2 (4.3)

La expresin (4.3) tiene importantes aplicaciones en el clculo de tolerancias. En efecto,


supongamos que se quieren ensamblar tres varillas tal como se indica en la figura 4.6.

Fig. 4.6 Ensamblaje de tres varillas

Si todas las varillas han sido fabricadas independientemente y de manera que su longitud X se
distribuya normalmente segn N(;), la longitud total L se distribuir segn N(3; 3 ). El
conocimiento de la desviacin tipo de L nos permitir el clculo de tolerancias del montaje en serie de
las tres varillas.
70 En el ejemplo anterior, hemos definido L=X1+X2+X3 con Xi-N(;) i=1,2,3. Es interesante que
el lector reflexione sobre el error que se cometera si se hubiese definido L=3X.

4.2 La ley binomial

Supongamos que en una urna hay una proporcin p de bolas blancas y, por lo tanto, una proporcin
q=1-p de bolas negras. Extraemos n bolas de la urna con reposicin (es decir, devolvemos la bola a la
urna despus de haber anotado su color). Sea X el nmero de bolas blancas que han aparecido entre las
n bolas extradas. Esta situacin se caracteriza por:
(i) se realizan n experimentos independientes (la extraccin de las n bolas);
(ii) para cada experimento slo hay dos sucesos posibles: A (la bola blanca) y A (es negra);
(iii) p=P(A); q=1-P(A), la probabilidad de que ocurra A es constante;
(iv) la variable aleatoria de inters X es el nmero de veces que ocurre A en los n experimentos.
Cuando se cumplen todas las condiciones (i)...(iv) anteriores, se dice que X sigue la ley
binomial.
La distribucin de probabilidad binomial es:

n
Prob ( X = x ) = b( x; n, p ) = p x (1 p ) n x para x = 0,1,2, K , n
x
n
donde es el nmero de combinaciones sin repeticin de orden x entre n elementos y su valor es
x

n n!
=

x x !( n x )!

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

La grfica de b(x;n,p) depende del valor de sus dos parmetros n y p, tal como se indica en la
figura 4.7.

Fig. 4.7 Distribucin de probabilidad de la ley binomial

La funcin de distribucin se define de la siguiente manera:


x
B( x; n, p ) = Prob ( X x ) = b( j; n, p )
j =0
Su grfica es la de una funcin en escaln, 71
continua por la derecha y montona no decreciente, tal
como se indica en la figura 4.8.
B(x;n,p) se encuentra tabulada para algunos
valores de n y p en la tabla binomial del apndice 1.
La esperanza matemtica y la varianza de una v.a. que
sigue una ley binomial de parmetros n y p son:

= E ( X ) = np

2 = V ( X ) = np (1 p )

Es interesante observar que y 2 no son


independientes. Fig. 4.8 Funcin de distribucin de una ley binomial
Existen varias aproximaciones de la ley
binomial que presentamos a continuacin.
Cuando n es grande y p no toma valores extremos, la ley binomial se puede aproximar mediante
una ley normal. Las condiciones bajo las cuales esta aproximacin conduce a resultados correctos
varan segn distintos autores. Segn nuestra experiencia las condiciones ms aceptables son:
1 1 p p x + 1 2 np
Si n 5 y < 0,3, entonces B( x; n, p ) , donde ( b)

n p 1 p np(1 p )
es la funcin de distribucin de la ley normal estndar en el punto b.
El factor que aparece en la expresin anterior es debido a la correccin por continuidad
necesaria al aproximar una distribucin de probabilidad de una v.a. discreta con una continua.

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

Si en lugar de considerar la v.a. X se considera la proporcin de veces que ocurre A en los n


experimentos, es decir, p*, tendremos:
X
p =
n
1
E ( p ) = E ( X ) = p
n
1 (1 p )
V ( p ) = V(X) = p
n2 n
En este caso, cuando se cumpla la condicin:
1
a+ p
1 1 p p
n5 y < 0,3 , tendremos que Prob ( p < a ) 2n
n p 1 p p(1 p )

n
Finalmente, en el prximo apartado veremos que, cuando n es grande, p pequeo y np es finito,
la ley binomial se puede aproximar por la ley de Poisson.

4.3 Ley de Poisson

En este apartado se presenta la ley de Poisson desde dos puntos de vista. El primero es como lmite de
72 la ley binomial cuando n64, p6 0 y np= es finito, y el segundo como proceso de Poisson.
Supongamos una mquina que funciona durante 20.000 segundos diarios. Sea p1=0,0001 la
probabilidad de que la mquina se avere durante un segundo dado, y admitamos la hiptesis de que la
ocurrencia de una avera en un segundo dado es independiente de lo ocurrido con antelacin. Para
planificar el mantenimiento de dicha mquina es necesario calcular las probabilidades de 0, 1, 2, ...,
averas durante un da.
Dichas probabilidades se podran calcular utilizando la ley binomial y seran:

NM. DE AVERAS
EN UN DA (x) 0 1 2 3 4
PROBABILIDADES:
b (x; 20.000; 0,0001) 0.13532 0.27067 0.27068 0.18046 0.09022

Si disponemos de otra mquina menos utilizada, que funcione durante 10.000 segundos diarios y
con una probabilidad p2=0,0002 de averiarse durante un segundo dado, las probabilidades de 0, 1, 2, ...,
averas en esta segunda mquina seran:

NM. DE AVERAS
EN UN DA (x) 0 1 2 3 4

PROBABILIDADES:
b (x; 10.000; 0,0002) 0.13531 0.27067 0.27070 0.18046 0.09022

Es interesante constatar que las probabilidades calculadas para las dos mquinas prcticamente
coinciden. Por qu?

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

Observemos que en los dos modelos binomiales n es muy grade y p es muy pequeo, mientras
que el nmero medio de averas por da es np=2 en ambas mquinas.
Se demuestra fcilmente que:
x
lim b( x; n, p ) = e = p( x; ) con np = ( finito ) (4.4)
n x!
p 0

La distribucin lmite p(x;) se conoce como ley de Poisson. En nuestro caso tendramos que:

NM. DE AVERAS
EN UN DA (x) 0 1 2 3 4

PROBABILIDADES:
x


e ( = 2) 0,13534 0,27067 0,27067 0,18045 0,09022
x!

Y es evidente la coincidencia prctica de los resultados obtenidos mediante la ley de Poisson y


los obtenidos aplicando las leyes binomiales respectivas.
La grfica de la distribucin de Poisson p(x;) depende de , tal como se indica en la figura 4.9.

73

Fig. 4.9 Distribucin de Poisson

La funcin de distribucin de la ley de


Poisson vendr dada por:

x
P( x; ) = Prob ( X x ) = p ( j; )
j=0

Dicha funcin de distribucin est


tabulada en el apndice de las tablas y su
grfica para =2 es la de la figura 4.10.
La ley de Poisson viene caracterizada
por un nico parmetro y es sencillo probar
que E(X)= y V(X)=, es decir, que la media y
la varianza de una ley de Poisson coinciden y
que las dos son iguales a . Fig. 4.10 Funcin de distribucin de la ley de Poisson para =2

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

La ocurrencia de averas en una mquina puede ser vista como un proceso estocstico
particular.
Supongamos que las averas ocurren a lo largo del tiempo, y llamemos X(t) al nmero de
sucesos (averas en este caso) que ocurran durante el intervalo del tiempo (0,t) con t$0, y supongamos
sin prdida de generalidad que X(0)=0.
Para que los sucesos (averas en nuestro caso) sigan un proceso de Poisson, deben cumplirse las
siguientes hiptesis:
(i) La probabilidad de que durante el intervalo (,+t) ocurran exactamente x sucesos depende slo
de x y de t, pero no de .
(ii) El nmero de sucesos que ocurren en intervalos de tiempo disjuntos son mutuamente
independientes.
(iii)La probabilidad de que durante un intervalo de tiempo de amplitud h ocurra un suceso es
h+O(h) y la probabilidad de que ocurra ms de un suceso es O(h) donde es un valor
constante y O(h)/h60 cuando h60.
Bajo estas condiciones, llamamos p(x;t) a la probabilidad de que en un proceso de Poisson
ocurran exactamente x sucesos durante un intervalo de tiempo (0,t) y es:

( t ) x
p( x; t ) = e t x = 0,1,2,K (4.5)
x!

es decir, la distribucin de Poisson de parmetro t.


La coincidencia entre los dos puntos de vista que acabamos de exponer es intuitivamente clara
74 si consideramos el intervalo (0,t) dividido en n intervalos disjuntos de amplitud h=t/n.
Cuando n64, las hiptesis (i), (ii) y (iii) equivalen al lmite de un modelo binomial en el que
h60, pero es finito.
En la expresin 4.5, representa, pues, el nmero medio de sucesos por unidad de tiempo.

4.4 Distribucin de estadsticos en muestras aleatorias simples de poblaciones normales

Se dice que una muestra extrada de una cierta poblacin es una muestra aleatoria simple (m.a.s) de la
misma, cuando todo elemento de dicha poblacin tiene la misma probabilidad de ser escogido para
formar parte de la muestra. Si Y es una cierta variable aleatoria ser til imaginar una poblacin
conceptual en la que la frecuencia con que aparezcan los distintos individuos sea la definida por la
funcin de distribucin de Y. En este caso, una muestra aleatoria simple sera cualquier conjunto de n
realizaciones independientes de Y. Es decir, (Y1,Y2,...,Yn) es una m.a.s. de Y si y slo si:
(i) las v.a. Yi son independientes;
(ii) Yi - f(y) i=1,2,...,n donde f(y) es la densidad de probabilidad de Y.
Sea (y1,y2,...,yn) una m.a.s. de Y; los estadsticos muestrales ms utilizados en el presente libro son:
n

Yi (Yi Y ) 2
i =1
Y = y S2 =
n n 1

Tanto la media muestral Y , como S 2 son variables aleatorias, y uno de los objetivos del
presente captulo es obtener las densidades de probabilidad de Y y de S2 en m.a.s. de poblaciones
normales. La figura 4.11 indica de forma grfica este objetivo.

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

Fig. 4.11 Los estadsticos Y y S2 son variables aleatorias

75
conocida)
4.5 Distribucin de Y ( 2

Sea (Y1,Y2,...,Yn) una m.a.s. de Y-N(;). Dado que Y = Yi /n se tiene que:

a) La distribucin de ser Y normal por ser Y una combinacin lineal de Yi, que son normales.
1 n 1
b) E ( Y ) = E (Yi ) = ( + +K ) = .
n i =1 n
1 n 1 2
c) V ( Y ) = 2 V ( Yi ) = 2
( 2 + 2 +K+ 2 ) = , por ser Yi v.a. independientes.
n i =1 n n
En consecuencia,


Y - N ; (4.6)
n

Conviene reflexionar sobre el resultado (4.6). En primer lugar observamos que Y sera un
estimador insesgado de o, lo que es lo mismo, que Y toma valores alrededor del verdadero valor de .
En segundo lugar, la variancia V( Y ) puede hacerse tan pequea como se quiera, si se toma un tamao
de muestra adecuado (aunque puede resultar caro) y, por lo tanto, el valor de Y en una muestra concreta
puede ser tan prxima a como se desee.
Por ello, cuando se quiera obtener una buena estimacin del parmetro en una poblacin
normal, dicha estimacin ser Y$ = Y .

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

Tambin es importante observar que (4.6) es tambin cierto para muestras de una poblacin
cualquiera (no necesariamente normal), aunque en este caso el tamao de muestra no debe ser muy
pequeo. Ello es debido al teorema central de lmite aplicado a la suma de v.a. del numerador de
Y = Yi /n.
La distribucin de Y cuando no sea conocida se estudiar en el apartado 4.9.

4.6 La ley de Chi-cuadrado

Para la obtencin de la densidad de probabilidad de S2 es necesario introducir una nueva ley de


probabilidad conocida como la ley de Chi-cuadrado.
La ley de (Chi-cuadrado con grados de libertad) es la distribucin de la suma de los
2

cuadrados de variables aleatorias independientes y todas ellas de distribucin N(0;1).


La figura 4.12 ilustra el concepto de .
2

76

Fig. 4.12 Esquema conceptual de la ley de Chi-cuadrado

Supongamos que disponemos de urnas con papeletas en cada una de las cuales hay escrito un
nmero con cuatro decimales, de modo que las frecuencias con que aparecen dichos nmeros sean las
definidas por la d.p. de la ley N(0,1). Si extraemos una papeleta de cada urna y observamos los
nmeros escritos en ellas tendremos: (Y 11,Y 12,...,Y1). Si elevamos al cuadrado y los sumamos
obtendramos un cierto valor Y12i . Repitiendo esta operacin conceptualmente se iran obteniendo
valores Y2i , Y32i ,...,que seran realizaciones de la variable aleatoria:
2


2 = Yi 2
i =1

donde Yi-N(0;1) para i=1,2,..., y las Yi son independientes.

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

La densidad de probabilidad de es:


2

1
1
f ( ) = 2 2 y ( 2 ) e 2 para y > 0

2 1 y


2 (4.7)
donde () a la funcin gamma incompleta.
La esperanza matemtica y la varianza de son:
2

E ( 2 ) = y V ( 2 ) = 2

Obsrvese que los grados de libertad de la ley de Chi-cuadrado, , son el nmero de variables
aleatorias independientes que aparecen en el sumatorio:

f (2)
2 = Yi 2
i =1

La grfica de f( ) depende de . Es
2

asimtrica y sesgada hacia la izquierda para


pequeo como puede observarse en la figura
4.13.
La ley de Chi-cuadrado est par-
cialmente tabulada en el apndice de tablas
(tabla F). 77
Para >30 existen diversas aproxi-
maciones, como la de Fisher o la de Wilson-
Hilferty. Segn nuestra experiencia y de forma
emprica, la ley de se puede aproximar de Fig. 4.13 Algunas densidades de
2 2

la forma siguiente:

Para > 200 (


2 - N ; 2 )
2
Para 30 < 200 log 2 - N log ;

4.7 La ley t-Student

Student era el seudnimo utilizado por William Gosset cuando trabajaba en la empresa cervecera
Guiness en Dublin, que le oblig a no publicar con su autntico nombre.
En aquellos tiempos de principios de siglo, la totalidad de la teora estadstica existente era
teora asinttica y, en consecuencia, vlida nicamente para muestras de tamao grande. Por el
contrario, Gosset quera estudiar la relacin existente entre la calidad de ciertas materias primas, como
la cebada y la calidad del producto final, y slo dispona de muestras pequeas. Para este tipo de
muestras Gosset dedujo la distribucin conocida hoy en da como la t-Student.
Este es un ejemplo ms de que el contacto con la realidad es la mejor fuente de inspiracin en la
investigacin terica de alta calidad.

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

Conceptualmente la ley t-Student con grados de libertad la obtuvo Gosset como distribucin
del estadstico:
Z
t =
U
en el que:
a) Z-N(0,1).
2
b) U- .

c) Z y U son independientes.
La densidad de probabilidad de t depende de y tiene la expresin:

+ 1

1 2 1
f ( t ) =
+1 (4.8)
t 2 2
2
1 +

para *t*<4.
Los grados de libertad de la t-Student coinciden con los grados de libertad de la ley de Chi-
cuadrado que aparece en el denominador de t. La ley t-Student est parcialmente tabulada en el
apndice de tablas (Tabla D).
La esperanza matemtica y la varianza de t slo estn definidas para >1 y >2, respectiva-
78 mente, y son:
E ( t ) = 0 para > 1

V ( t ) = para > 2
2

La grfica de f(t) tiene tambin forma de campana,


centrada en cero y con colas ms extensas que la ley
normal, por lo que la t-Student puede resultar de utilidad
para modelar datos en los que se sospeche que haya algunas
anomalas moderadas. Cuando 64 (en la prctica, para
>30), la densidad f(t) se puede aproximar mediante la ley
normal centrada y reducida. En la fig. 4.14 se representan
algunas distribuciones de t.
Veremos en el apartado 4.8 que Gosset encontr la
densidad del estadstico t cuando se interes por la
distribucin del estadstico:

t = (Y ) n S ,

para muestras pequeas, que es el equivalente a

(Y )
Z = n

Fig. 4.14 Densidad de probabilidad de la ley
t-Student cuando es desconocido y se sustituye por su estimacin S.

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

4.8 Distribucin de S2

Sea (Y1,Y2,...,Yn) una muestra aleatoria simple de Y-N(;).


La varianza muestral se acostumbra a definir:

S2 =
(Yi Y )2 donde Y =
Yi
n 1 n

Para m.a.s. de poblaciones normales se puede demostrar que:


a) Y y S2 son independientes;
S2
b) ( n 1) 2 se distribuye segn una ley con =n-1 grados de libertad.
2


Una forma intuitiva de comprender a) es la siguiente: Si Y es el vector de observaciones
muestrales, se puede descomponer en dos componentes ortogonales Y e Y- Y tal como se indica en la
figura 4.15.
Obsrvese que S2 est relacionado nicamente con la
norma de (Y- Y ).
n
La ortogonalidad es debido a que Y (Yi Y ) = 0.
i =1

2 2
De b) se deduce que S 2 - n 1 y, por lo tanto:
n 1
2 2 79
E( S 2 ) = E ( 2n 1 ) = ( n 1) = 2
n 1 n 1
2
2 4 2 4 Fig. 4.15 Descomposicin ortogonal del
V (S ) = V ( n 1 ) = =
2 2
2( n 1)
n 1 ( n 1)2 n 1 vector Y

Estas dos ltimas expresiones justifican el hecho de que S2 se utilice frecuentemente como
estimador de 2, ya que cumple las dos propiedades que hemos comentado para Y como estimador de .

2 desconocida)
4.9 Distribucin de Y (

Sea (Y1,Y2,...,Yn) una m.a.s. de Y-N(;). En general ser desconocida, por lo que el estadstico
Z = ( Y ) n no ser de gran utilidad.

Se podra sustituir por una estimacin S que, si se obtiene a partir de una muestra
suficientemente grande, tomar un valor prximo a y, por lo tanto, la distribucin del estadstico:

Y
t=
S n

podra considerarse idntica a la de Z, es decir, N(0;1). Este razonamiento es tpico de la teora


asinttica. Cuando n64, todo resulta fcil.
Ya hemos comentado en el apartado 4.6 que Gosset se enfrentaba al problema de determinar la
distribucin de t para muestras pequeas.

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

2
S
Si se tiene en cuenta la independencia entre Y y S2, que ( n 1) 2 - 2n 1 y que

Y
Z= - N ( 0;1)
n
se deduce que:
(Y ) n
(Y ) n Z Z Z
t = = = = =
S S S ( n 1) S2 U
( n 1) 2

donde, evidentemente, Z-N(0;1) y U- 2 con =n-1 y adems Z y U son independientes, pues Z


slo depende de Y y U de S2. En consecuencia, t se distribuye segn la ley t-Student con =n-1 grados
de libertad, es decir, que para muestras pequeas:

Y
t= - t - Student con = n 1 grados.
S n

4.10 El caso de dos poblaciones normales independientes

80 Supongamos que X e Y son dos v.a. independientes y tales que X-N (x;x) e Y-N (y,y). El lector
puede suponer que X es la duracin de vida de las bombillas fabricadas por la empresa A e Y es la
duracin de vida de las bombillas fabricadas por la empresa B.
Sean (X1, X2,...,Xnx) una m.a.s. de tamao nx extrada de la poblacin de bombillas de A, y
(Y1, Y2,...,Yny) una m.a.s. de tamao ny extrada de las bombillas de B.
Sean X , Sx2, Y y Sy2 las medias y varianzas muestrales.
Es fcil demostrar que:
2y 2x
(Y X ) - N y x ; +
n y n x

En efecto, la normalidad es consecuencia de la normalidad de las distribuciones de Y y X , y el


valor de la esperanza matemtica y la varianza del estadstico Y - X es consecuencia inmediata de la
expresin (4.3).
En consecuencia se tendr que:
(Y X ) ( y x ) (4.9)
Z =
2y 2y
+
ny nx
y si adems x2 = y2 = 2, entonces se cumplir que:

(Y X ) ( y x ) (4.10)
Z = - N ( 0;1)
1 1
+
n y nx

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

En general 2 ser desconocida, pero se puede estimar a partir de una media ponderada de las
dos varianzas muestrales. La estimacin de la varianza comn desconocida ser por tanto:

( n y 1)S y2 + ( n x 1)S x2
S2 =
n y + nx 2

En este caso se tendr que:

(Y X ) ( y x )
t = - t - Sudent con = n y + n x 2
1 1
S +
n y nx

grados de libertad, ya que ste es el denominador de (4.11) utilizado para estimar 2.

4.11 La ley F-Snedecor

Si definimos una v.a. F:

U 1
F=
V 2
81

tal que y U- , V- y U y V son independientes, entonces F se distribuye segn la ley F-Snedecor


2 2
1 2

con 1 grados de libertad para el numerador y 2 grados de libertad para el denominador.


La distribucin F debe su importancia al uso que de ella se hace en el anlisis de la varianza y
tambin cuando se quieren comparar dos varianzas de poblaciones normales, como veremos en el
apartado siguiente.
La esperanza matemtica y la varianza de F son:

2
E( F ) = para 2 > 2
2 2

2 22 ( 1 + 2 2 )
V (F) = para > 4
1 ( 2 2 ) 2 ( 2 4 )

En el apndice de tablas estn tabulados los valores F(1,2) para algunos valores de , es
decir el valor F(1,2) que, en una ley F de Snedecor con grados de libertad 1 para el numerador y 2
para el denominador, deja un rea de valor a su derecha.
Para el manejo de estas tablas resulta de utilidad el hecho de que:

1
F ( 1 , 2 ) =
F1 ( 2 , 1 )

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

4.12 Distribucin del cociente de dos varianzas muestrales

Para la situacin descrita en el apartado 4.9 vamos a estudiar la distribucin de Sy2/Sx2.


Dado que:
S y2 y2U
( n y 1) 2
S y2 y2 n y 1
ny 1 y
= =
S x2 S x2 x2 V
2
( n x 1) 2
x nx 1 nx 1 x

donde, como hemos visto en 4.7, U- n , V- n


2 2
y1 x1 y U, V son independientes, en consecuencia:

S y2 y2
- F ( n y 1 , nx 1 )
S x2 x2
En el caso particular en que y2=x2 se tiene que:

S y2
- F ( n y 1 , n x 1 )
S x2

82

los autores, 1998; Edicions UPC, 1998.


ALGUNOS MODELOS PROBABILSTICOS

Ejercicios

4.1 Un estudiante desea aprobar una asignatura que consta de 100 temas estudiando el mnimo
posible.
El examen consta de tres preguntas que el alumno escoge al azar de una urna con 100 papeletas
numeradas del 1 al 100; las tres papeletas que saca el estudiante corresponden a los tres temas de
los cuales debe escoger uno para exponer.
a) Cul es el menor nmero de temas que puede estudiar para que con una probabilidad no inferior
al 95% extraiga alguna papeleta correspondiente a un tema conocido?
b) Y si la probabilidad es del 100%?

4.2. Un jugador observa que en 100 jugadas consecutivas de la ruleta el rojo ha aparecido en 70
ocasiones. Se puede decir que ello es debido al azar?

4.3. Una mquina fabrica arandelas cuyo radio interior r se distribuye segn una ley normal de
media 20 mm y desviacin tipo 0,3 mm, y cuyo radio exterior R se distribuye segn una ley
normal de media 50 mm y desviacin tipo 0,4 mm. Ambas variables aleatorias son
independientes.
Se considera que una pieza es defectuosa si la diferencia de radios supera los 30,98 mm o bien
si dicha diferencia es menor de 29,22 mm.
a) Cul es la probabilidad de que una arandela sea defectuosa?
b) Si se recoge una muestra de 20 arandelas, cul es el valor esperado de la proporcin de
arandelas defectuosas? 83
c) De la muestra de 20 arandelas, qu probabilidad existe de que se encuentren 5 arandelas
defectuosas?

4.4. La duracin en horas de las lmparas adquiridas en una determinada empresa se distribuye segn
una ley normal N(1.200;). Se sabe que el 97% de todas las lmparas citadas dura entre 1.178,3
horas y 1.221,7 horas.
Si se extraen 200 muestras aleatorias simples de 9 lmparas cada una:
a) Cul es la probabilidad de que la media muestral supere las 1.203,5 horas en al menos 90 de las
200 muestras?
b) Cul es la probabilidad de que la s2 muestral supere el valor 193,84 h en 40 muestras como
mximo?

4.5. Una lnea elctrica se avera cuando la tensin sobrepasa la capacidad de la lnea. Si la tensin
es N (1 =100; 1 =20) y la capacidad es N( 2 = 140; 2 = 10), calcular la probabilidad de
avera.

4.6. En un concesionario de ventas de automviles se supone, por la experiencia que se tiene, que
cuando una persona entra a interesarse por un coche, acaba comprndolo en el 20% de los casos.
Si en un da se atiende a seis de estos clientes potenciales:
a) Cul es la probabilidad de que realicen cuatro ventas en este da exactamente?
b) Y la probabilidad de que en este da se realicen ms de cuatro ventas?
c) Cul sera la probabilidad, en el caso de que apareciesen 15 clientes, de que se realizasen menos
de tres ventas?

los autores, 1998; Edicions UPC, 1998.


MTODOS ESTADSTICOS. CONTROL Y MEJORA DE LA CALIDAD

4.7. Una cierta mquina de fabricacin de rollos de cinta aislante tiene un promedio de dos defectos
cada 1.000 m. Calcular la probabilidad de que un rollo de 3.000 m:
a) no contenga defectos;
b) contenga exactamente 5 defectos;
c) contenga menos de 4 defectos.

4.8. Mediante un estudio estadstico realizado en una fbrica de componentes electrnicos se sabe
que slo 1 de cada 100 es defectuoso. Si se empaquetan dichos componentes en cajas por
grupos de 500, cul es la probabilidad de que la caja no contenga ningn componente
defectuoso?
Y si se decide empaquetar las cajas en grupos de 100 componentes, cul es la probabilidad de
que una determinada caja no tenga ningn componente defectuoso?

4.9. Una empresa fabricante de detergentes tiene dos mquinas de llenado. Se sabe que la mquina
A llena segn N(87,5 g; 0,5 g) y otra mquina B llena segn N(87,5 g; 0,8 g). Para que no se
rechace una bolsa llena, el contenido de detergente no puede ser menor de 86 gramos.
a) Qu probabilidad hay de que una bolsa, escogida la azar, llenada por la mquina A sea
rechazada? Idem si es llenada por la mquina B.
b) Si la bolsas vacas tienen un peso que se distribuye segn N(21,5 g; 1,2 g), cul es la
probabilidad de que el peso de una bolsa llena, escogida al azar, llenada por la mquina A sea
mayor de 110 gramos? Idem para la mquina B.
c) Se ha recogido una muestra de 10 bolsas llenas producidas por una nica mquina y se han
84 pesado. El resultado es el siguiente:
109 105 112 111 108.5 107.5 111.5 108 109.5 108
Qu mquina cree que las habr producido? Razone la respuesta.

4.10. Se sabe que el 20% de los rboles de un determinado bosque estn atacados por un cierto tipo
de parsitos.
a) Cul es la probabilidad de que el nmero de rboles con el parsito en una muestra de 300 est
entre 49 y 71?
b) Suponga que en la muestra de 300 rboles hay 72 con el parsito.
Contradice esto la hiptesis de que la poblacin est parasitada en un 20%? Razone la
respuesta justificndola con las hiptesis necesarias.

los autores, 1998; Edicions UPC, 1998.