You are on page 1of 108

FUNDAMENTOS DE

ESTADÍSTICA

Dr. D. Suitberto Cabrera García

GRADO EN INGENIERÍA INFORMÁTICA


Módulo de Formación Básica
Este material es de uso exclusivo para los alumnos
de la Universidad Internacional de Valencia. No
Internacional está permitida la reproducción total o parcial de su
contenido ni su tratamiento por cualquier método
de Valencia por aquellas personas que no acrediten su relación
con la Universidad Internacional de Valencia, sin
autorización expresa de la misma.

Edita
Universidad Internacional de Valencia
Grado en
Ingeniería informática

Fundamentos de Estadística
Módulo de Formación Básica
6 ECTS

Dr. D. Suitberto Cabrera García


Leyendas

Enlace de interés Ejemplo Importante

Los términos resaltados a lo largo del contenido en color naranja se recogen en el apartado GLOSARIO.
Índice

Índice

Unidad de aprendizaje 1. INTRODUCCIÓN A LA ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9


1.1. Definición de estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2. Variabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Unidad de aprendizaje 2. ESTADÍSTICA DESCRIPTIVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13


2.1. Conceptos básicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2. Tabulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3. Histogramas de frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4. Diagrama Box - Whisker. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.5. Diagrama de barras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.6. Diagrama de Pareto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.7. Histogramas tridimensionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.8. Diagrama de dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.9. Medidas de posición y dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.9.1. Medidas de posición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.9.2. Medidas de dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.10. Distribución de frecuencias bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.11. Covarianza muestral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.12. Coeficiente de correlación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.13. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Unidad de aprendizaje 3. PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35


3.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2. Definición de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3.1. Independencia de sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.3.2. Teorema de la Intersección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3.3. Teorema de la partición o de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.4. Teorema de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4. Combinatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5
Índice
Internacional
de Valencia

Unidad de aprendizaje 4. VARIABLES ALEATORIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43


4.1. Definición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2. Variables aleatorias discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.1. Función de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.3.1. Función de densidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.3.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.3.3. Media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Unidad de aprendizaje 5. PRINCIPALES DISTRIBUCIONES DISCRETAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53


5.1. Distribución binomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.2. Distribución de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3. Distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.4. Aproximación entre distribuciones discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.5. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Unidad de aprendizaje 6. PRINCIPALES DISTRIBUCIONES CONTINUAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59


6.1. Distribución exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.2. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6.3. Teorema Central del Límite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.4. Distribuciones derivadas de la normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.4.1. Distribución Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.4.2. Distribución t de Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.4.3. Distribución F de Snedecor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.5. Aproximaciones entre distribuciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.6. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Unidad de aprendizaje 7. TÉCNICAS DE MUESTREO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69


7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

7.2. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7.3. Organización y objetivos del proceso de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7.3.1. Objetivos del muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

7.3.2. Formas de tomar una muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6
Fundamentos de Estadística
Internacional
de Valencia

7.4. Tipos de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.4.1. Muestreo aleatorio con y sin reemplazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.4.2. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.4.3. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

7.4.4. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7.4.5. Otros tipos de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Unidad de aprendizaje 8. DISTRIBUCIONES EN EL MUESTREO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75


8.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8.2. Distribución de la media muestral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

8.3. Distribución de la varianza muestral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

8.4. Distribución de la diferencia de medias muestrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

8.5. Distribución del cociente de varianzas muestrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

8.6. Distribución de la proporción muestral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Unidad de aprendizaje 9. INFERENCIA ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


9.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

9.2. Estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

9.2.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

9.2.2. Tamaño de muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

9.2.3. Estimación por intervalos de confianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Unidad de aprendizaje 10. TEST DE HIPÓTESIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91


10.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

10.2. Principales test de hipótesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

10.3. Potencia del test y curva característica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

10.4. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

GLOSARIO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

ENLACES DE INTERÉS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Referencias bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Bibliografía recomendada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7
Unidad de aprendizaje 1

Introducción a la estadística

1.1. Definición de estadística


En el presente texto, se utiliza “la filosofía” aplicada para el estudio de la estadística a las carreras
de ingenierías, método aplicado entre otros por Carrión y Carot (2005) y Romero y Zunica (2005),
donde se obvian, en cierta forma, las demostraciones matemáticas y se pretende la interpretación
y uso, con pensamiento crítico, de los principales métodos estadísticos necesarios en el trabajo
cotidiano de los ingenieros.

Podríamos decir que “la Estadística es la ciencia que se encarga del estudio de los fenómenos
aleatorios”. Así pues, la Estadística no es una simple descripción numérica como podría ser una
encuesta previa a las elecciones, sino que puede tener un campo ilimitado de aplicaciones que va
desde la ciencia y la ingeniería hasta las leyes y la medicina.

La estadística tiene como objetivos esenciales, la generación y recopilación de datos que contengan
información relevante de un problema determinado y el análisis de los datos con la finalidad de
extraer de ellos información relevante sobre un determinado problema.

La estadística para su estudio se divide en dos grandes ramas: estadística descriptiva e inferencia
estadística.

9
Unidad de aprendizaje 1. Introducción a la estadística
Internacional
de Valencia

El tratamiento de los datos con la finalidad de poner de manifiesto sus características más relevantes
y sintetizarlas en unos pocos valores o mediante representaciones gráficas es el objeto de la
estadística descriptiva.

El primer paso en el análisis de un conjunto de datos ha de ser siempre un sencillo tratamiento


descriptivo de éstos, o sea, el estudio de las características y regularidades que hay en ellos y
sintetizarlos haciendo uso de las medidas de posición y dispersión y de las representaciones gráficas
como estudiaremos más adelante en el próximo capítulo.

Por su parte la inferencia estadística se centra en el análisis con el fin de obtener conclusiones que,
con un margen de confianza conocido, sean extrapolables a todo el conjunto de datos que posea una
determinada característica en estudio.

Para comprender el porqué de estas dos grandes ramas en el estudio de la estadística es importante
definir los conceptos de población y muestra.

Población: es el conjunto de todos los individuos que constituyen el objeto de un determinado estudio,
y de los cuales se quieren obtener ciertas conclusiones. A continuación veremos algunos ejemplos de
poblaciones:

•• En un estudio sobre los ingresos promedios de los ciudadanos españoles, la población es el


conjunto de españoles que trabajan.

•• En un estudio sobre la estatura de los jóvenes de la Comunidad Valenciana, la población es el


conjunto de jóvenes valencianos.

•• Al realizar en una industria el control de calidad en recepción de una partida de piezas, la


población estará constituida por la totalidad de las piezas que componen la partida.

Una población puede estar compuesta por individuos de naturaleza muy diversa: objetos, individuos,
plantas. El estudio de las poblaciones generalmente resulta muy complejo y costoso, puede suceder
que las poblaciones sean infinitas o que el investigador no pueda acceder a todos sus elementos,
incluso existen casos en que para el estudio de determinadas características se vea en la necesidad de
destruir el elemento de la población, en estos casos se hace imprescindible el trabajo con muestras.

Muestra: No es más que un subconjunto de individuos u objetos de una población.

La forma de seleccionar los individuos que han de constituir la muestra tiene mucha importancia
para obtener conclusiones que puedan extrapolarse de forma válida a la población de la cual
procede la muestra. El objeto final del estudio estadístico es la población, la muestra es sólo un
medio para obtener información sobre esta, por lo que debe lograrse que la muestra sea lo más
representativa posible de la población.

Estas son algunas de las ideas más importantes que se desarrollan en este manual y que estaremos
estudiando en este semestre.

10
Fundamentos de Estadística
Internacional
de Valencia

Una parte importante del semestre estará dedicado al estudio de probabilidades y las distribuciones
teóricas de probabilidades es por ello que debemos precisar lo que entendemos por fenómeno
aleatorio: los fenómenos aleatorios son aquellos fenómenos reales que se caracterizan por la
impredecibilidad de resultados y por la llamada regularidad estadística.

La impredecibilidad de resultados se refiere a que sobre un fenómeno aleatorio influyen numerosos


factores que no podemos, no sabemos o no queremos controlar. Por lo tanto, al realizar una única
experiencia del fenómeno somos incapaces de decidir qué resultado es el que se va a obtener.

En un caso tan sencillo como el lanzamiento de una moneda pueden influir factores como la altura desde
la que se lanza, la forma de lanzarlo, la superficie sobre la que se lanza, etc. y, probablemente, otros
muchos factores que, como anteriormente decíamos, no podemos, no sabemos o no queremos controlar.

Sin embargo, también hemos dicho que se caracterizan por la llamada regularidad estadística: si
llamamos n al número de repeticiones, n a la frecuencia absoluta (número de veces que ocurre un
determinado suceso A), la frecuencia relativa con la que se repite un determinado suceso es:

fr = n/n
Podemos decir entonces que si la frecuencia relativa de cada uno de los posibles resultados de
un fenómeno aleatorio “tiende” a estabilizarse alrededor de un cierto valor, cuando el número de
repeticiones crece indefinidamente, se dice que el fenómeno en cuestión posee regularidad estadística.

Dicho de otra forma, a pesar de que con una sola realización de una experiencia no podemos predecir
el resultado del fenómeno, sabemos que éste tiene un cierto comportamiento, que es precisamente
su regularidad, lo cual nos permite reducir, hasta cierto punto, su incertidumbre.

Por ejemplo, es evidente que cuando lanzamos un dado no somos capaces de predecir cuál va a ser
el resultado de dicha experiencia, pero debido a que existe una regularidad estadística sabemos que
la probabilidad de que al lanzar el dado nos salga un 1 o un 2 o un 6 es 1/6. Esto no quiere decir que si
lanzamos un dado seis veces nos vaya a salir cada una de las caras en cada lanzamiento, sencillamente
significa que cuanto mayor es el número de veces que lanzamos el dado el resultado se aproximará
cada vez más a ese valor ideal que es 1/6.

A veces, los individuos tienen una existencia real, previa a la realización del estudio; pero otras veces,
los individuos que constituyen la población pueden generarse por medio de la realización de un
determinado proceso, como recibir una pieza. Estos procesos, que en sucesivas realizaciones pueden
generar los diferentes individuos de la población, se llaman experimentos aleatorios.

Cualquier característica que pueda constatarse en cada individuo de una población se denomina
característica aleatoria. Muchas características aleatorias se expresan numéricamente, este tipo de
características aleatorias se llaman variables aleatorias.

11
Unidad de aprendizaje 1. Introducción a la estadística
Internacional
de Valencia

Cuando una característica aleatoria es de tipo cualitativo, nada nos impide codificar numéricamente las
diferentes alternativas y tratarla como una variable aleatoria, las características pueden ser de tres tipos:

•• Cualitativas. Expresan una cualidad del objeto, correcto, incorrecto, blanco, negro, etc. Sus dis-
tintos valores se denominan modalidades.

•• Cuantitativas discretas. Expresan algo que se puede contar y solo pueden tomar un conjunto de
valores aislados: números de defectos de una pieza, número de terminales, número de acciden-
tes en una semana, etc.

•• Cuantitativas continuas. Expresan algo que podemos medir y puede tomar cualquier valor en
un intervalo: diámetro de un eje, el tiempo en que tarda una transacción en ejecutarse, etc.

Distinguir correctamente estas características es vital en el trabajo estadístico pues los métodos
y herramientas que estudiaremos este semestre muchas veces se diferencian en dependencia de
las características que posea la variable aleatoria en estudio. Es por esta última razón que se ha
dedicado este primer capítulo a ubicar a nuestros estudiantes en los conceptos básicos que deben
dominar este semestre.

1.2. Variabilidad
Como ya hemos introducido en el apartado anterior, al hablar de impredecibilidad en un entorno
aleatorio, las características de cualquier pareja de individuos del mismo tipo nunca son idénticas,
debido precisamente a esos factores que influyen sobre los fenómenos aleatorios: Seres vivos,
Piezas mecanizadas, Materias primas, Pinturas, Equipos eléctricos. De hecho, aún cuando un
proceso funcione correctamente, no existen dos productos (o características de estos procesos)
que sean exactamente iguales.

Vídeo. Desviación media.

La aceptación de la variabilidad de las características implica el reconocimiento de la existencia


de causas de variación. Éstas podríamos dividirlas en: causas de variación aceptable y causas de
variación no aceptable. Las primeras se refieren a aquellas causas de variación que son difícilmente
eliminables por ser debidas a factores que no controlamos, bien porque no sabemos cuáles son, bien
porque sencillamente es difícil hacerlo. Las segundas son aquellas que, por lo general, son fácilmente
eliminables porque sabemos qué factores han influido y además podemos controlarlos.

Puesto que la variabilidad es inevitable, un objetivo de las Técnicas Estadísticas de Control es


mantener esa variabilidad en el menor nivel posible. Dicho de otra forma, mantener las causas de
variación aceptable que al fin y al cabo son la “variabilidad natural” de la característica y eliminar las
causas de variación no aceptable.

12
Unidad de aprendizaje 2

Estadística descriptiva

2.1. Conceptos básicos


Es evidente que cuando queremos realizar un estudio de un grupo de datos es necesario utilizar
métodos que los organicen y que los resuman, a estos métodos se les denomina estadística descriptiva.

La Estadística Descriptiva puede dividirse en dos grandes áreas: métodos numéricos y métodos
gráficos. En este capítulo estudiaremos aquellos que tienen más interés para el análisis de datos
recogidos de un proceso de producción.

Veamos algunos conceptos necesarios para la representación de los datos:

•• Frecuencia absoluta: es el número de veces que se repite el mismo resultado en una experiencia.

•• Frecuencia relativa: es el cociente entre la frecuencia absoluta y el número total de repeticiones


de la experiencia.

•• Frecuencia absoluta o relativa acumulada: determinado un criterio de ordenación de los


posibles resultados de una experiencia, nos da la frecuencia con la que se repiten los resultados
menores o iguales que el actual.

13
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

Dependiendo del tipo de datos con el que estamos trabajando el método de representación suele ser
diferente como veremos en el próximo epígrafe.

2.2. Tabulaciones
Es una forma relativamente sencilla de representación: en una sola tabla (ver tabla 1) tenemos
reflejada información numérica de los datos recogidos, a través de las frecuencias:

Valores Frecuencia Frecuencia Frecuencia Frecuencia relativa


variable absoluta relativa acumulada acumulada
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
• • • • •
• • • • •
xk nk fk Nk Fk

Tabla 1. Tabla de datos.

Donde los valores de la tabla se calculan mediante:

•• Frecuencia relativa:

n1
f1=
n

•• Frecuencia absoluta acumulada:

Ni= Ni-1+ni

•• Frecuencia relativa acumulada:

Ni
F1=
n

La forma de realizar la representación de los datos en una tabla de frecuencias dependerá del tipo de
datos con el que estemos trabajando. Por ejemplo, si los datos son cuantitativos continuos, (ver tabla
2) se construyen intervalos de clases:

Valores Frecuencia Frecuencia Frecuencia Frecuencia relativa


variable absoluta relativa acumulada acumulada
14.727-15.091 2 0,0200 2 0,0200
15.091-15.455 2 0,0200 4 0,0400
15.455-15.818 6 0,0600 10 0,1000
15.818-16.182 25 0,2500 35 0,3500

14
Fundamentos de Estadística
Internacional
de Valencia

Valores Frecuencia Frecuencia Frecuencia Frecuencia relativa


variable absoluta relativa acumulada acumulada
16.182-16.545 38 0,3800 73 0,7300
16.545-16.909 18 0,1800 91 0,9100
16.909-17.273 9 0,0900 100 1,0000

Tabla 2. Tabla de frecuencias con datos cuantitativos continuos.

Si los datos son cuantitativos discretos dependerá del número de posibles valores que puede tomar
la variable: si tiene muchos posibles valores los dividiremos en intervalos; si, por el contrario, son
pocos, entonces estudiaremos las frecuencias para cada uno de ellos.

Por último, si son datos cualitativos tendremos que estudiar las frecuencias de cada uno de los posibles
valores puesto que, en este caso, no hay posibilidad de agrupamiento. Por ejemplo (ver tabla 3):

Valores Frecuencia Frecuencia Frecuencia Frecuencia relativa


variable absoluta relativa acumulada acumulada
Desplazado 6 0,17 6 0,17
Ausente 9 0,25 15 0,42
Torcido 12 0,33 27 0,75
Roto 3 0,80 30 0,83
Erróneo 6 0,17 36 1

Tabla 3. Tabla de frecuencias con datos cualitativos.

A través de las tablas de frecuencias también podemos representar más de una variable. Así pues, si
queremos estudiar la relación entre dos variables, la tabulación podría ser:

MAQ 1 MAQ 2 MAQ 3 Total


Desplazado 3 1 2 6
Ausente 2 5 2 9
Torcido 4 3 5 12
Roto 0 2 1 3
Erróneo 1 3 2 6
Total 10 14 12 36

Tabla 4. Tabla de frecuencias con datos referentes a dos variables.

En la tabla (ver tabla 4) se ha representado las frecuencias para cada tipo de defecto y para cada máquina.
A partir de aquí podemos determinar las frecuencias relativas con respecto a cualquier fila o columna.

15
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

Por ejemplo, si trabajamos en la máquina 1, la frecuencia relativa de defectos que ésta produce debido
al “desplazamiento” es 3/10. También sabemos que se han producido un total de 36 defectos, de los
cuales 14 son debidos a la máquina 2, por lo tanto, la frecuencia relativa con la que se dan defectos
en la máquina 2 es 14/36. Igualmente podemos ver que de los 36 defectos, 12 son causados por el de
“Torcido”, por tanto, la frecuencia relativa con la que se da el defecto “Torcido” es 12/36. Si tenemos
que representar los datos para tres variables distintas una opción podría ser:

MAQ 1 MAQ 2 MAQ 3


T1 T2 T1 T2 T1 T2
Desplazado 1 2 0 1 0 2
Ausente 1 1 3 2 1 1
Torcido 3 1 2 1 1 4
Roto 0 0 1 1 0 1
Erróneo 0 1 1 2 1 1

Tabla 5. Tabla de frecuencias con datos referentes a tres variables.

La tabla (ver tabla 5) representa la frecuencia con la que se repiten determinados tipos de defectos
para diferentes máquinas y, a su vez, para distintos instantes de tiempo.

El método de representación de frecuencias a través de tablas no es un método del todo malo, pero,
evidentemente, no deja de ser una mera lista de números. Por ello, a veces es necesaria una ayuda
complementaria, de tal forma que a través de un gráfico, más o menos sencillo, podamos ver de un
solo vistazo aquellas cosas más representativas del grupo de datos que estamos analizando.

Precisamente, en los apartados siguientes vamos a estudiar algunos de éstos métodos gráficos
utilizados es estadística descriptiva para la interpretación de los resultados.

2.3. Histogramas de frecuencias


El histograma de frecuencias es una representación gráfica de los valores que vimos tabulados
en el apartado anterior. Este tipo de herramienta solo la podemos utilizar para el caso de datos
cuantitativos. Un ejemplo de histograma es el de la figura 1.

16
Fundamentos de Estadística
Internacional
de Valencia

24

20

16
Frecuencia

12

0
3,9 3,92 3,94 3,96 3,98 4 4,02 4,04 4,06 4,08 4,10

Figura 1. Histograma de frecuencias.

Aunque no es el caso de la estadística descriptiva, muchas veces el histograma se utiliza para realizar
comprobaciones de cómo es una determinada población a partir de un grupo pequeño de datos de
ésta. Por ello debemos utilizar una serie de normas para poder dibujarlo, puesto que si no el resultado
podría no ser representativo de la realidad de dicha población. El método que utilizaremos para
realizar el histograma será:

1. Un histograma debemos realizarlo siempre con al menos 50 datos.

2. El número de intervalos (k) en los que debemos dividir los datos no puede ser cualquiera. Una
posible opción es:

nº de datos (n) nº de intervalos (k)


50-100 6-10
100-200 10-15
>200 15-20

Que de forma general podríamos ajustarlo a que el número de intervalos sea aproximadamente
la raíz cuadrada del número de datos de los que disponemos:

k»√n

3. Calculamos el rango a través del valor más pequeño y el más grande del grupo de datos:

R=xmáx-xmín.

4. Determinamos la amplitud de los intervalos mediante:

R
e=
k

17
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

5. Puesto que el valor de escala e puede ser un número difícil de manejar, la redondeamos a e’ y
recalculamos el número nuevo de intervalos, k’, con el fin de comprobar que al cambiar la escala
no nos ha cambiado demasiado k.

R
k'=
e'

6. A partir de aquí decidimos cuál va a ser el límite inferior del histograma (que sea “fácilmente
sumable” con la escala e’) y dibujamos el histograma teniendo en cuenta que los valores que
coincidan con los límites del intervalo deben ir siempre en el intervalo superior. Podemos re-
presentar las frecuencias absolutas, las relativas o las acumuladas según nos interese.

Por ejemplo, supongamos que de un proceso de producción hemos tomado 100 piezas y que de cada
una de ellas hemos medido su diámetro obteniendo las siguientes medidas:

32.194 32.224 32.223 32.207 32.207 32.225 32.239 32.185 32.205 32.179
32.203 32.218 32.216 32.191 32.207 32.219 32.196 32.181 32.216 32.197
32.196 32.208 32.174 32.191 32.193 32.221 32.197 32.205 32.197 32.188
32.182 32.210 32.203 32.193 32.216 32.208 32.196 32.205 32.205 32.211
32.191 32.203 32.196 32.179 32.204 32.216 32.202 32.177 32.183 32.203
32.209 32.216 32.191 32.180 32.189 32.214 32.230 32.187 32.220 32.207
32.205 32.167 32.195 32.189 32.181 32.203 32.206 32.213 32.193 32.188
32.206 32.199 32.169 32.202 32.219 32.224 32.195 32.196 32.225 32.224
32.187 32.227 32.201 32.208 32.195 32.204 32.196 32.199 32.197 32.190
32.186 32.197 32.207 32.199 32.225 32.219 32.169 32.184 32.215 32.195

1. Determinamos el número de intervalos que serán alrededor de 10:

k≈√100=10

2. Buscamos el valor más grande y el más pequeño y calculamos el rango:

R=32.239-32.167=0.072

3. Calculamos la amplitud de los intervalos:

0,072
e= = 0,0072
10

4. Redondeamos a un valor sencillo de manejar y recalculamos el nuevo número de intervalos


comprobando que al cambiar la escala no se ha ido demasiado:

e’=0,01

0,072
k'= = 7,2 ≈ 8
0,01

18
Fundamentos de Estadística
Internacional
de Valencia

5. Decidimos que el límite inferior del histograma debe ser 32.16 porque así los límites de
separación entre intervalos tendrá valores sencillos. Realizamos el histograma de la figura 2:
30

25

20

15
Frecuencia

10

0
32,16 32,17 32,18 32,19 32,20 32,21 32,22 32,23 32,24

Figura 2. Histograma de frecuencias para el ejemplo.

El histograma, además de servir para representar nuestro grupo de datos, según la forma que tenga
sugiere algunas peculiaridades de la población o muestra errores que se han cometido durante la
toma de datos, como mostramos en la figura 3.

El histograma tipo a) es el que normalmente obtendremos, puesto que ésta es la distribución de


frecuencias que tienen la mayoría de las características. El tipo b) también es un histograma correcto,
la única diferencia con respecto al anterior es que tiene una distribución de frecuencias distinta, lo
cual puede suponer un problema puesto que muchas de las herramientas que se utilizan en el Control
Estadístico de la Calidad se basan en que las variables tienen la forma del histograma a).

a) Tipo general b) Tipo sesgo positivo

c) Tipo peineta d) Tipo precipicio

19
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

e) Tipo planicie f) Tipo doble pico

g) Tipo pico aislado

Figura 3. Diferentes formas que puede tomar el histograma de frecuencias.

El tipo c) es un histograma que aparece en los casos en los que se ha realizado un redondeo indebido
de los datos, por lo que se han colocado en un intervalo que no correspondía dando lugar a un
histograma incorrecto. El histograma d) es debido a que se han eliminado las piezas de uno de los
lados o de los dos, seguramente debido a que eran piezas defectuosas. Y por último, los histogramas
e), f ) y g) son debidos a que en los datos hay mezcla de poblaciones.

2.4. Diagrama Box - Whisker


Un diagrama box-whisker (traducido literalmente caja-bigote) es una representación gráfica sencilla
de un conjunto de datos. Presenta, frente a un histograma, la ventaja de no exigir un número elevado
de datos para su construcción, además de resultar más sencillo su uso cuando el objetivo es comparar
distintos conjuntos de datos.

Vídeo. Ejercicio Diagrama de box-


Whisker.

La figura 4 de la página siguiente muestra un diagrama box-whisker para los valores del tiempo de
secado en 100 piezas de caucho sintético.

20
Fundamentos de Estadística
Internacional
de Valencia

45 50 55 60 65 70 75

Figura 4.Gráfico de caja y bigote.

La caja comprende el 50% de los valores centrales de los datos extendiéndose entre el primer y el
tercer cuartil. La línea central corresponde a la mediana. Los bigotes se extienden desde el menor al
mayor de los valores observados y considerados normales. Aquellos valores extremos que difieren
del cuartil más próximo en más de 1,5 veces el intervalo intercuartílico, Siguiendo la propuesta de
Tukey (1977, pp. 43-44), se indican como puntos aislados por considerar que pueden corresponder a
datos anómalos (outliers en la terminología estadística).

Los diagramas box-whisker resultan una herramienta extremadamente práctica para la comparación
de las pautas de variabilidad de distintos conjuntos de datos.

2.5. Diagrama de barras


Al igual que el histograma era la representación gráfica de las tablas de frecuencias para el caso de
datos cuantitativos, el diagrama de barras es la representación gráfica de dichas tablas para el caso
de datos cualitativos, como se aprecia en la figura 5.

21
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

Desplo. Ausen. Torcido Roto Erróneo

Figura 5.Diagrama de barras.

2.6. Diagrama de Pareto


El diagrama de Pareto sirve para representar las frecuencias de datos cualitativos pero ordenados de
más importancia a menos importancia. Una de las utilidades más importantes de este tipo de diagrama
es que nos ayuda a identificar los pocos defectos vitales, que podemos encontrar en un proceso, en
los que centrar esfuerzos, diferenciándolos de otros muchos defectos triviales, por lo tanto, es una
herramienta muy útil para el Control del Proceso. Un ejemplo de diagrama de Pareto es el de la figura 6.

Vídeo. Ejercicio Diagrama de Pareto.

22
Fundamentos de Estadística
Internacional
de Valencia

160 99,34 100


96,69
89,40 93,38
84,11
120
72,19
Frecuencia

80
42,38
40

0
S.I. G.S. C Ag Am CC C.F. C.S

Figura 6. Diagrama de Pareto.

Como podemos comprobar es un método de representación similar a un diagrama de barras. La


diferencia con respecto a este método es que, además de ordenar las cualidades de mayor a menor
frecuencia, dándonos así una imagen clara de cuál es la más importante, nos proporciona todas las
variedades de frecuencia: absoluta, relativa y acumulada que puede servirnos para comprobar qué
cantidad de defectos eliminamos.

De la figura 6 deducimos que debemos centrar esfuerzos en la eliminación del defecto S.I puesto que
si conseguimos arreglar la causa que lo produce estaremos eliminando el 42.38% de los defectos. De
igual manera, si eliminamos las causas que producen los defectos S.I. y G.S., habremos eliminado el
72.19% de los defectos que producimos.

El método que se utiliza para realizar un diagrama de Pareto es el siguiente:

1. Definimos el tipo de problema que se va a investigar.

2. Definiremos de qué forma y en que periodo de tiempo realizaremos la recolección de los datos
objeto del análisis.

3. Tomaremos los datos y construiremos una tabla de conteo.

4. Con la información anterior elaboraremos una tabla para realizar el diagrama de Pareto,
ordenando de mayor a menor la frecuencia de los defectos.

5. Elaboramos el diagrama de Pareto.

23
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

Por ejemplo, en un proceso de pintado de tableros se ha tomado un grupo de datos de los que se ha
obtenido la siguiente tabla de conteo de defectos:

Tipo de defecto TABLA DE CONTEO Total


Rajadura |||| 4
Rayado ||||||||||||||||...|||| 42
Burbuja |||||||||||||||||| 20
Tensión ||||||||||||||||||||...|||| 104
Fractura |||||||||| 10
Mancha |||||| 6
Otros |||||||||||||| 14

Tabla 6. Tabla de defectos.

Elaboramos la tabla 7 de frecuencias para el diagrama de Pareto ya ordenado por frecuencias:

Tipo de Número de Total Composición Porcentaje


defecto defectos acumulado porcentual acumulado
Tensión 104 104 52 52
Rayado 42 146 21 73
Burbuja 20 166 10 83
Fractura 10 176 5 88
Mancha 6 182 3 91
Rajadura 4 186 2 93
Otros 14 200 7 100
Total 200 - 100 -

Tabla 7. Tabla de datos frecuencias para el diagrama de Pareto.

24
Fundamentos de Estadística
Internacional
de Valencia

Y construimos el diagrama de Pareto de la figura 7.

200
97,85 100
94,62
89,25
160
78,49

120 55,91
Frecuencia

80

40

0
Tensión Rayado Burbuja Fractura Mancha Rajadura

Figura 7. Ejemplo de diagrama de Pareto para defectos de un proceso de pintado.

Nótese que hemos realizamos el diagrama de Pareto representando únicamente la frecuencia. Pero
ocurre que muchas veces el defecto más importante no es el más frecuente sino que es, por ejemplo,
el que más dinero supone o el que menos tiempo cuesta aplicarle una solución definitiva. Por ello, lo
que nosotros representaremos en el diagrama no será únicamente la frecuencia sino lo que se llama
el IPP, Índice de prioridad de Pareto, que no es más que una valoración de la gravedad de cada defecto.

En el IPP podemos tener en cuenta todos aquellos factores de ponderación que creamos necesarios.
Nosotros hemos dado, a título de ejemplo, una serie de ellos que podrían ser útiles para decidir qué
defecto es el que mayor prioridad tiene a la hora de ser eliminado:

cnc p
IPP = f ⋅ cs ⋅
ts
Donde:

•• Hemos llamado cnc al coste de no calidad por unidad, es decir, a todas aquellas pérdidas que
tiene la empresa por el hecho de producir un defecto.

•• Suponiendo que existe alguna herramienta que puede evitar que se produzca el defecto,
incluimos otro factor que es el cs (coste de la solución por unidad). Evidentemente, cuanto
mayor sea el coste de la solución menor prioridad queremos que tenga el defecto.

25
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

•• Otro posible factor es ts (tiempo de la solución), es decir, cuánto tiempo tardaríamos en


solucionar un determinado defecto. Cuanto más tiempo se tarde en solucionarlo menor
prioridad queremos que tenga.

•• Otro factor a considerar podría ser p (probabilidad de éxito) que no es más que una probabilidad
subjetiva que se basa en la esperanza que tenemos de que el defecto se elimine.

Teniendo en cuenta todos los factores anteriores, el defecto sobre el que centraremos esfuerzos será
aquel que mejor se acople a todas las condiciones a la vez: el más frecuente, el que mayor coste de no
calidad tenga, el que tenga menor coste y tiempo de solución y el que tenga mayor probabilidad de éxito.

Siguiendo con el ejemplo anterior, supongamos que los valores de los factores que hemos
considerado en el IPP son:

Defecto f cnc cs p ts IPP


Fractura 10 50 500 0,7 35 0,07
Rayado 42 50 2000 0,9 20 0,18
Mancha 6 90 10 1 3 67,22
Rajadura 4 120 1500 0,2 103 0,01
Tensión 104 50 30 0,1 2 32,37
Burbuja 20 130 1200 0,8 40 0,16

Tabla 8. Cálculo de IPP para cada tipo de defecto.

En la figura 8 se representan los valores del Índice de Prioridad de Pareto.

30
99,92 97,85 100
99,76
25
99,58

20 67,22
Frecuencia

15

10

0
Mancha Tensión Rayado Burbuja Fractura Rajadura

Figura 8. Diagrama de Pareto atendiendo a los valores de IPP.

Es evidente que la prioridad de eliminación de defectos ha cambiado.

26
Fundamentos de Estadística
Internacional
de Valencia

2.7. Histogramas tridimensionales


En un apartado anterior ya vimos que un histograma no era más que la representación gráfica de la
correspondiente tabulación de frecuencias para una única variable. También vimos que mediante
tabulaciones podíamos representar las frecuencias de dos o más variables. Pues bien, un histograma
tridimensional no es más que la representación gráfica de una tabulación de frecuencias para el caso
de dos variables cuantitativas.

El histograma tridimensional es un método de representación que nos puede ayudar, de forma más o
menos sencilla, a comprobar la relación que existe entre las dos variables que representa.

El método de representación es idéntico que el del unidimensional: dividimos las dos variables en
intervalos con la misma norma y cruzamos las frecuencias. El resultado será como el de la figura 9.

Figura 9. Histograma tridimensional.

2.8. Diagrama de dispersión


El diagrama de dispersión es otro método de análisis bivariante. Esta herramienta sirve para poner
de manifiesto la existencia de una relación entre dos variables cuantitativas, lo cual no implica que
exista una relación causa-efecto.

Vídeo. Cálculo del coeficiente de


variación.

27
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

El diagrama de dispersión puede evitar la aplicación innecesaria de determinadas herramientas


que sirven para el control del proceso: si sabemos que existe una determinada relación entre dos
características de un mismo producto, podríamos realizar un gráfico de control para una única
característica en lugar de tener que hacerlo para cada una ellas.

Además de detectar la relación entre dos características, también es capaz de mostrar la existencia
de los llamados “outliers” que no son más que valores anómalos a la población que deben ser
eliminados antes del análisis.

La figura 10 muestra el diagrama de dispersión de un grupo de automóviles que relaciona la potencia


en caballos y el consumo medio en millas por galón. Cada punto representa a un automóvil.

Figura 10. Diagrama de dispersión entre la potencia y el consumo.

En este diagrama es evidente la existencia de dos valores anómalos que, como comentábamos
anteriormente, deben ser eliminados antes de realizar el estudio.

2.9. Medidas de posición y dispersión


De la misma forma que las representaciones gráficas pueden ayudar a la interpretación de los datos,
las descripciones numéricas también tienen gran utilidad. En este apartado estudiaremos varias
medidas numéricas para describir las características de los datos; dependiendo de lo que éstas
traten de describir las hemos dividido en dos grupos: estadísticos que miden la posición de los datos y
estadísticos que miden la dispersión (variabilidad) de los mismos.

De aquí en adelante consideraremos que los datos son x1, x2, ⋯, xn donde cada xi es un valor del grupo
de los n datos objeto de estudio.

28
Fundamentos de Estadística
Internacional
de Valencia

2.9.1. Medidas de posición

Las medidas de posición son parámetros que proporcionan un valor representativo del conjunto de
valores de la variable.

•• Media. También llamada promedio aritmético o media muestral. Es una medida poco robusta
puesto que ante valores anómalos se modifica mucho su valor aunque, teniendo en cuenta y
evitando lo anterior, es el que más se utiliza.

x1+x2+...+xn n xi
x= n =Σ
i=1 n

•• Mediana. Es el punto donde la muestra se divide en dos partes iguales. Es una medida más
robusta que la anterior puesto que ante valores anómalos se modifica poco. Si ordenados los
datos, de menor a mayor, la mediana será el valor que deja la mitad de los datos por debajo y la
mitad por arriba. Si el número de datos es impar, será el valor central, si el número de datos es
par, será el punto medio entre los dos valores centrales.

n+1
x= Xi+ ( 2 -i ) · (x i+1 - xi) donde i= INT ( n+1
2 )

•• Moda. Es el valor que se presenta con mayor frecuencia en el grupo de datos.

•• Percentiles y cuartiles. Cuando un conjunto de datos ordenado se divide en cien partes iguales
(la mediana los divide en dos partes iguales) los puntos de división se llaman percentiles y los
representamos mediante pk que equivale al k-ésimo percentil. Por lo tanto, el pK es un valor tal
que el 100k% de las observaciones están por debajo de él. Llamamos cuartiles a:

–– q1: 1er cuartil, deja el 25% de los datos por abajo. Equivale a p0’25.

–– q2: 2º cuartil, deja 50% de los datos por abajo (Mediana). Equivale a p0’5.

–– q3: 3er cuartil, deja el 75% de los datos por abajo. Equivale a p0’75.

2.9.2. Medidas de dispersión

Las medidas o parámetros de dispersión nos dan una idea de cómo están dispersos los datos.

•• Varianza. Se llama también varianza muestral. Es la medida de las desviaciones de los datos
respecto a su media al cuadrado.
n
Σ(x i- x2)
s2= i=1

29
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

en inferencia estadística, por motivos que justificaremos en el capítulo correspondiente,


normalmente se utiliza la varianza calculada como:
n
Σ(x i- x2)
s2= i=1

n-1

Que en estadística descriptiva se le suele llamar cuasivarianza. Una forma de diferenciarlas es


indicando mediante un subíndice el valor del denominador. Así, sn será la varianza y sn-1 es la
cuasivarianza.

•• Desviación típica. También se le nombra desviación estándar. Explica exactamente lo mismo


que la varianza, la única diferencia es que tiene las mismas unidades que los datos, cosa que es
ventajosa a la hora de la interpretación de resultados.

s=+√s2
•• Coeficiente de variación. En ocasiones es deseable expresar la variabilidad del grupo de datos
en fracciones de media y por ello se utiliza el coeficiente de variación. Es un parámetro
adimensional y se calcula como:

s
CV=
x

•• Rango. Es otra forma de medir la dispersión teniendo en cuenta la distancia que existe entre la
medida más pequeña y la más grande del conjunto de datos. El problema que tiene es que es una
medida muy poco robusta ante valores anómalos.

R=Xmax-Xmin

•• Recorrido intercuartílico. Es más robusta que la anterior puesto que utiliza los cuartiles:

R.I.=q3-q1

2.10. Distribución de frecuencias bidimensionales


Cuando tenemos una variable aleatoria bidimensional, un primer análisis de la relación entre las dos
características en estudio puede hacerse a partir de una tabla de frecuencias cruzada que recoja la
frecuencia con la cual se ha observado cada combinación de valores de las dos variables.

Si una o las dos variables son de tipo continuo, agruparemos sus valores en intervalos.

Este tipo de tablas de frecuencias se denominan a veces en estadística tablas de doble entrada. Y si
las características son cualitativas tablas de contingencia.

Las frecuencias totales para cada variable son las frecuencias marginales (tanto absolutas como
relativas).

30
Fundamentos de Estadística
Internacional
de Valencia

La tabla 9 es un ejemplo de tabla de doble entrada, en la cual se representa con qué frecuencias se
presenta los 5 valores de RESIDENCIA junto con cada uno de los 5 valores de TRANSPORTE para una
encuesta realizada a 129 alumnos de un grupo de clases en la universidad.

Coche Moto o Bici A pie Amigo Autobús Total


Familia 28 7 8 5 19 67
21,71 % 5,43 % 6,20 % 3,88 % 14,73 % 51,94 %
Residencia 1 0 9 0 2 12
0,78 % 0,00 % 6,98 % 0,00 % 1,55 % 9,30 %
Piso 7 1 27 0 1 36
5,43 % 0,78 % 20,93 % 0,00 % 0,78 % 27,91 %
Pensión 0 0 0 0 1 1
0,00 % 0,00 % 0,00 % 0,00 % 0,78 % 0,78 %
Otros 4 2 3 0 4 13
3,10 % 1,55 % 2,33 % 0,00 % 3,10 % 10,08 %
Total 40 10 47 5 27 129
31,01 % 7,75 % 36,43 % 3,88 % 20,93 % 100,00 %

Tabla 9. Tabla de Frecuencias para RESIDENCIA por TRANSPORTE.

2.11. Covarianza muestral


Para dar una idea numérica de la relación lineal entre dos variables se define la covarianza muestral

s2 xy como:
1
nΣ i
Sxy= (x -x) (yi-y) nij

Si el signo de la covarianza es positivo indica una relación directa entre ambas variables y si es
negativo inversa.

2.12. Coeficiente de correlación


La covarianza tiene dimensiones.

Una medida sin dimensiones lo constituye el coeficiente de correlación lineal (de Pearson), el cual se
define como la relación entre la covarianza y el producto de las desviaciones típicas de las variables.

s xy
rxy=
sxsy

El coeficiente de correlación siempre se encuentra entre -1 y +1, cuanto más se acerca a la unidad más
próxima es la relación lineal entre las variables.

31
Unidad de aprendizaje 2. Estadística descriptiva
Internacional
de Valencia

2.13. Ejercicios
1. En la tabla siguiente se recoge las medidas del diámetro de 100 ejes fabricados consecutiva-
mente cuyas especificaciones son 32,21 ± 0,05 mm.

32,20 32,23 32,20 32,22 32,18 32,23 32,17 32,19 32,21 32,19
32,23 32,21 32,21 32,24 32,21 32,23 32,20 32,21 32,19 32,20
32,22 32,25 32,20 32,24 32,19 32,18 32,21 32,17 32,22 32,23
32,18 32,21 32,22 32,24 32,23 32,20 32,19 32,18 32,17 32,20
32,22 32,22 32,22 32,20 32,17 32,20 32,22 32,23 32,18 32,25
32,21 32,22 32,20 32,25 32,17 32,21 32,22 32,20 32,19 32,19
32,18 32,25 32,22 32,21 32,24 32,22 32,19 32,25 32,23 32,20
32,25 32,18 32,23 32,21 32,21 32,24 32,22 32,16 32,22 32,21
32,19 32,19 32,20 32,19 32,20 32,22 32,23 32,24 32,19 32,20
32,21 32,20 32,21 32,23 32,21 32,19 32,26 32,23 32,21 32,21

Determinar el número de intervalos, el ancho de cada uno, los límites del histograma de
frecuencias y representarlo analizando el resultado.

2. Un proveedor nos ha presentado en recepción un lote de 163 circuitos. Se ha realizado una ins-
pección del 100 % obteniéndose los resultados de la tabla siguiente:

12,7 12,6 12,9 12,8 12,3 12,7 12,6 12,4 12,6 12,3 12,5 12,4 12,2
12,8 12,5 12,6 12,6 12,3 12,4 12,1 12,2 12,7 12,6 12,6 12,5 12,3
12,9 12,4 12,8 12,8 12,9 12,2 12,5 12,8 12,8 12,7 12,5 12,1 12,1
12,7 12,3 12,6 12,5 12,5 12,7 12,3 12,6 12,1 12,4 12,6 12,4 12,8
12,5 12,3 12,1 12,3 12,4 12,9 12,2 12,1 12,4 12,8 12,3 12,9 12,6
12,4 12,7 12,9 12,4 12,7 12,3 12,5 12,8 12,6 12,4 12,6 12,9 12,2
12,6 12,6 12,4 12,3 12,5 12,3 12,4 12,4 12,5 12,9 12,4 12,4 12,4
12,2 12,7 12,2 12,4 12,9 12,5 12,1 12,3 12,2 12,5 12,5 12,2
12,8 12,4 12,5 12,8 12,3 12,2 12,3 12,7 12,7 12,7 12,6 12,8
12,9 12,8 12,9 12,4 12,2 12,5 12,7 12,3 12,7 12,3 12,5 12,1
12,7 12,7 12,4 12,5 12,5 12,7 12,5 12,6 12,3 12,4 12,5 12,6
12,1 12,2 12,7 12,8 12,5 12,8 12,3 12,1 12,3 12,4 12,2 12,8
12,6 12,5 12,2 12,1 12,5 12,7 12,1 12,6 12,6 12,2 12,2 12,6

Representar el histograma de frecuencias y analizar los resultados comparándolos con los del
ejercicio anterior.

32
Fundamentos de Estadística
Internacional
de Valencia

3. El ingeniero de calidad de una empresa, revisando los registros de calidad de hace dos años,
encuentra un documento en el cual aparece el siguiente diagrama de Pareto.

68.500 100 100


94,4
80

62,8 60

40,9 40

20

0 0
Def.3 Def.4 Def.1 Def.2 Otros

En el pie del documento aparece la siguiente tabla correspondiente al defecto 1 y al 2.

Def. Frecuencia Coste de Tiempo de Coste de Probabilidad


Aparición No-Calidad reparación reparación de éxito
1 1500 104120 10 min 950 $ 0,85
2 100 44525 1000$ 0,90

A partir de estos datos, ¿cuánto representaba el tiempo de reparación del defecto 2?

33
Unidad de aprendizaje 3

Probabilidad

3.1. Introducción
En el tema 1 estudiamos que los fenómenos aleatorios se caracterizaban por la impredecibilidad de
resultados, pero también sabemos que ésta incertidumbre no es total puesto que tienen lo que se
llama regularidad estadística. El cálculo de probabilidades consiste, precisamente, en medir el grado
de incertidumbre de algunos sucesos, de tal forma, que a un suceso totalmente cierto le asignaremos
una probabilidad igual a 1 y a un suceso imposible le asignaremos una probabilidad 0. Para el caso de
grados de incertidumbre intermedios asignaremos probabilidades intermedias.

Teniendo en cuenta el concepto de regularidad estadística, podemos decir que la probabilidad


de un suceso A, P(A), es el número en torno al cual tiende a estabilizarse la frecuencia relativa
con la que se presenta un cierto resultado A, de una experiencia aleatoria, cuando el número de
repeticiones crece indefinidamente.

Antes de continuar debemos dejar claros una serie de conceptos necesarios para la comprensión del
cálculo de probabilidades.

35
Unidad de aprendizaje 3. Probabilidad
Internacional
de Valencia

Llamamos espacio muestral (E) al conjunto de todos los posibles resultados que se pueden obtener
al realizar una experiencia aleatoria. Existen distintos tipos de espacios muestrales dependiendo de
cómo sean estos resultados:

•• Espacio muestral finito o discreto finito: el conjunto de todos los posibles resultados es un conjunto
discreto y finito. Por ejemplo, el espacio muestral del lanzamiento de un dado es E = {1, 2, 3, 4, 5, 6}.

•• Espacio muestral infinito numerable o discreto infinito. Por ejemplo, el número de defectos que
nos puede aparecer cuando un proveedor suministra un lote E = {0, 1, 2, …}, o bien, el número de
veces que hay que lanzar una moneda hasta que nos salga una cara E = {1, 2, 3,…}.

•• Espacio muestral infinito no numerable o continúo: cuando los posibles resultados pueden ser
cualquier valor de la recta real o de un tramo de ésta. Por ejemplo, las alturas de los hombres
cubanos. En este caso no podemos representar de forma extensiva el espacio muestral puesto
que está compuesto por infinitos valores.

Llamamos suceso a un subconjunto del espacio muestral (E). Los sucesos pueden ser de distintos tipos:

•• Suceso elemental o simple: cuando el suceso está formado por un único elemento de E.

•• Suceso compuesto: cuando el suceso está formado por más de un elemento de E.

•• Suceso imposible (∅): aquel que nunca ocurre, es el conjunto vacío.

•• Suceso seguro (E): aquel que siempre ocurre. Es todo el espacio muestral E.

•• Suceso contrario o complementario (Ac): es el suceso compuesto por todos aquellos elementos
que comprenden el espacio muestral y que no están contemplados en un determinado suceso A.

•• Sucesos mutuamente excluyentes: cuando no pueden ocurrir a la vez.

3.2. Definición de probabilidad


Como ya hemos dicho, a todo suceso se le puede asociar un número comprendido entre 0 y 1 que se
denomina probabilidad. Desde un punto de vista intuitivo, la probabilidad de un suceso no es más que
la proporción de individuos en los que se verifica dicho suceso.

Toda probabilidad debe satisfacer los siguientes axiomas:

1. Todo suceso tiene una probabilidad no negativa. P(A) ≥ 0

2. La probabilidad del suceso seguro es 1. P(E)=1

3. La probabilidad de la unión de cualquier grupo de sucesos disjuntos es la suma de las probabili-


dades de cada uno de esos sucesos.

∏(∪Ai) con ∑∏(Ai) con Ai∩A=∅

36
Fundamentos de Estadística
Internacional
de Valencia

De los axiomas anteriores se desprenden las siguientes propiedades:

a) La probabilidad del suceso imposible es 0: P (∅) = 0

b) Una probabilidad nunca puede ser menor que 0 ni mayor que 1.

0≤P(A)≤1

c) Si un suceso A incluye a un suceso B, la probabilidad de A siempre es mayor o igual que la de B:


Si B ⊂ A ⇒ P(B) ≤ P(A)

d) La probabilidad del suceso complementario es: P(Ac) = 1 - P(A)

e) La probabilidad de la unión de dos sucesos es: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Y en general
podemos decir que:

(i ) (i )
P UAI = ∑P(Ai )+∑∑P(Ai∩Aj)+...+(−1)n−1P ∩Ai i=1,2,...,n
i i j

3.3. Probabilidad condicional


Con la probabilidad condicional se pretende valorar el efecto que tiene sobre la probabilidad de un
suceso el hecho de disponer de informaciones parciales sobre el mismo. Por tanto, la probabilidad
de que ocurra un suceso B se puede ver modificada cuando tenemos información “a priori” sobre el
espacio muestral al que pertenece.

Por ejemplo, la probabilidad de que al lanzar un dado salga un 6 es 1/6 pero si disponemos de la
información a priori “ha salido un número par” la probabilidad de que ahora salga un 6 es 1/3. Es decir,
cuando disponemos de cierta información, el espacio muestral E de los posibles resultados pasa de
ser E = {1, 2 ,3, 4, 5, 6} a ser A = {2, 4, 6} y con éste último es con el que trabajaremos. Podríamos escribir
que PE(6) = 1/6 y que PA(6) = 1/3.

Se define “la probabilidad del suceso B condicionada a que ha ocurrido un suceso A” como:

P(A∩B)
PA(B)= P(B/A)=
P(A)

3.3.1. Independencia de sucesos

Dos o más sucesos son independientes entre sí cuando el conocimiento de que ha ocurrido uno o
varios de ellos no modifican la probabilidad de que ocurran los otros. Por definición se dice que dos
sucesos son independientes si se cumple que:

P(B/A)=P(B) P(A/B)=A

37
Unidad de aprendizaje 3. Probabilidad
Internacional
de Valencia

Por lo tanto también se cumple que:

P(A∩B)
P(B / A) = P(B) = ⇒ P(A∩B) = P(A) · P(B)
P(A)

Y en general, si n sucesos son independientes, podemos decir que:

P(A1∩A2∩⋯∩An)=P(A1) ⋅ P(A2) ⋅ … ⋅ P(An)

Donde también se cumple la independencia entre los mismos sucesos tomados de dos en dos, de tres
en tres, etc.

Por otra parte, si dos sucesos A y B son independientes entonces:

a) Los sucesos A y B también son independientes.

b) Los sucesos A y B también son independientes.

c) Los sucesos A y B también son independientes.

En general, si tenemos n sucesos independientes cualquier combinación de sucesos negados y no


negados también serán independientes.

3.3.2. Teorema de la Intersección

Sabemos que

P(A∩B) P(A∩B)
P(B / A) = P(B) = P(B / A) = P(B) =
P(A) P(A)

por tanto, si despejamos las intersecciones de cada una de las ecuaciones tendremos:

P(A∩B)=P(A/B) ⋅ P(B)=P(B/A) ⋅ P(A)

que es el llamado Teorema de la Intersección para dos sucesos.

Vídeo. Ejercicio de la unión y la


intersección.

Para el caso de tres sucesos, podemos poner la probabilidad condicional como:

P(C∩B/A) P(A∩B∩C)
P(C/ B / A) = P(B) = = = P(C/(A∩B) )
P(B/A) P(A∩B)

38
Fundamentos de Estadística
Internacional
de Valencia

luego, la intersección entre tres sucesos es:

P(A∩B∩C)=P(B) ⋅ P(A/B) ⋅ P(C/A∩B)

Y por último, para el caso de cuatro sucesos:

P(A∩B∩C)=P(B) ⋅ P(A/B) ⋅ P(C/A∩B)

3.3.3. Teorema de la partición o de la probabilidad total

Supongamos que tenemos una partición de un espacio muestral, es decir, n sucesos que cumplen que
∪Ai = E y Ai ∩ Aj = ∅ ∀ i ≠ j , como muestra la figura 11.

Figura 11. Partición de espacio muestral.

Donde el suceso B es la unión de:

B=∪(Ai∩B)con(Ai∩B)∩(Aj∩B)=∅∀i≠j

Por lo tanto, según el tercer axioma de la probabilidad, podemos hallar la probabilidad de que ocurra
el suceso B como:

que es el Teorema de la partición.

3.3.4. Teorema de Bayes

Si los Ai son una partición del espacio muestral y el suceso B es de probabilidad no nula, se cumple que:

P(Ai∩B)
P(Ai / B)=
P(B)

39
Unidad de aprendizaje 3. Probabilidad
Internacional
de Valencia

Aplicando el teorema de la intersección en el numerador y el teorema de la partición en el


denominador, obtenemos que:
P(Ai) ⋅ P(B/Ai)
P(Ai / B)= n
∑P(Ai) ⋅ P(B/Ai)
i

A los sucesos Ai se les suele llamar causa y al suceso B efecto. Por tanto, el Teorema de Bayes
determina la probabilidad de que haya sido la causa de Ai la que ha provocado el efecto B.

3.4. Combinatoria
El uso directo de la combinatoria para el caso de probabilidades es solo válido en el caso concreto
de espacios muestrales finitos simétricos, es decir, todos los sucesos elementales tienen la misma
probabilidad de ocurrir. En este tipo de espacios muestrales las probabilidades son relativamente
fáciles de calcular mediante el Teorema de Laplace:

casos favorables
P(A)=
casos posibles

Vídeo. Ejercicio combinatoria.

Por lo tanto, la combinatoria no es más que una forma relativamente sencilla de determinar el número
de casos posibles y de casos favorables cuando el espacio muestral es muy amplio. En función de
las características que tenga el problema que queremos resolver, las expresiones a aplicar son de
distinto tipo. Veamos algunos de ellos:

Para el caso en que sí que importa el orden con el que salgan los resultados utilizaremos:
n
•• Sin repetición: m

–– Variaciones: grupos de m elementos tomados de un grupo mayor constituido por n elementos.


m!
n
V m=
(m-n)!

–– Permutaciones: ordenaciones de n elementos.

Pn = n!

40
Fundamentos de Estadística
Internacional
de Valencia

•• Con repetición:

–– Variaciones con repetición: m elementos en grupos de n.

VR = mn

–– Permutaciones con repetición: ordenaciones con elementos repetidos.

n ,...,n n!
PR 1 k
=
n n1! •... •nk!

Por ejemplo, si tenemos n libros y los queremos colocar en una estantería, tendremos:

a) Si caben todos Pn.

b) Si no caben más de n libros, habría Vnm formas diferentes de colocarlos.

Si no importa el orden con el que salen:

•• Sin repetición:

–– Combinaciones: grupos de n elementos formado a partir de un efectivo de m unidades (m > n).


m!
n
C m=
(m-n)! • n!

•• Con repetición:

–– Combinaciones con repetición: id.

n
(m+n-1)!
CR =
m
n! • (m-1)!

Es el caso de la lotería primitiva en el que es indiferente que salga 39, 40, 3, 10, 22, 49, a que salga 40,
10, 39, 3, 22, 49. Además es sin repetición puesto que no puede salir dos veces el mismo número. La
combinación premiada básica (6 aciertos) tiene C 6 49 posibilidades diferentes.

41
Unidad de aprendizaje 3. Probabilidad
Internacional
de Valencia

3.5. Ejercicios
1. Una caja contiene 100 chips, de los cuales 75 funcionan correctamente y 25 son defectuosos.
Se seleccionan aleatoriamente 12 chips. Calcular la probabilidad de que al menos un chip selec-
cionado sea defectuoso.

2. Un sistema recibe energía eléctrica el 30 % de tiempo, energía hidráulica el 60 % y energía me-


cánica el 10 % restante. Cuando funciona eléctricamente, la probabilidad de avería es 0,002,
cuando lo hace hidráulicamente es 0,001 y cuando lo hace mecánicamente es 0,05. Hallar la
probabilidad de avería.

3. Dos cajas contienen cerrojos grandes y cerrojos pequeños. Supongamos que una caja tiene 60
grandes y 40 pequeños y que la otra contiene 10 grandes y 20 pequeños. Seleccionamos una
caja al azar y extraemos un cerrojo de la misma. Calcular la probabilidad de que sea grande.

4. Supongamos dos líneas de fabricación del mismo producto. La primera línea fabrica 20 piezas/
hora, de las cuales el 90 % son apropiadas para una segunda operación. La segunda produce 90
piezas/hora, de las cuales sólo el 20 % son apropiadas para esa segunda operación. Todas las
unidades van a un almacén común. Si al extraer una pieza al azar, ha resultado ser apropiada,
¿Cuál es la probabilidad de que provenga de la primera línea?

42
Unidad de aprendizaje 4

Variables aleatorias

4.1. Definición
En los ejemplos que hemos visto en el capítulo anterior el espacio muestral estaba expresado como una
descripción de los posibles resultados. En algunos casos la descripción de los resultados es suficiente,
pero en otros necesitamos asociar un número a cada valor de ese espacio muestral. Así pues, la variable
que asocia un número con el resultado de un experimento aleatorio se conoce como variable aleatoria.
Por lo tanto, una variable aleatoria no es más que una variable real cuyo resultado no se puede predecir
y que, por lo tanto, está influida por el azar. Las variables aleatorias se denotan con una letra mayúscula,
tal como X y con una letra minúscula x, a un valor posible de X. Por ejemplo, podemos llamar X al peso de
un determinado grupo de individuos y un valor de ésta variable aleatoria podría ser x = 70 kg.

Al igual que los fenómenos aleatorios, las variables aleatorias se caracterizan por el hecho de seguir unas
determinadas pautas en su “comportamiento”, como se muestra en la figura 12 de la página siguiente.

43
Unidad de aprendizaje 4. Variables aleatorias
Internacional
de Valencia

Supongamos que estamos en un proceso en el que se están fabricando piezas circulares. El diámetro
podría ser una característica de la pieza a estudiar. Tomamos de dicho proceso piezas que medimos y
que situamos, según su valor, en el eje X de la figura 12. A medida que tomamos mayor número de piezas
se va intuyendo una cierta “forma“ en la estructura de frecuencias. Pues bien, si pudiésemos tomar
infinitas piezas veríamos que la variable aleatoria tiene una cierta distribución. Ésta distribución es,
precisamente, la que nos permite hallar las probabilidades de que ocurran determinados sucesos: por
ejemplo, podríamos hallar la proporción de piezas que miden como máximo 3 cm., o lo que es lo mismo,
la probabilidad de que X sea menor o igual que 3, que denotaríamos como P(X ≤ 3).

Figura 12. Distribución de frecuencias.

Otros parámetros de interés a estudiar de una variable aleatoria son los que describen la posición de
ésta y su dispersión, como muestra la figura 13.

DISTRIBUCIÓN POSICIÓN DISPERSIÓN

Figura 13. Posición y dispersión de una variable aleatoria.

Las variables aleatorias pueden ser de dos tipos: continuas, que en Control Estadístico del Proceso
(CEP) se denominan sencillamente variables y que toman valores en un conjunto continuo y discretas,
que en CEP se denominan atributos, que toman valores de un conjunto discreto.

44
Fundamentos de Estadística
Internacional
de Valencia

Ejemplos de variables aleatorias continuas son: las alturas y los pesos de una serie de individuos, la
longitud de una pieza, la resistencia a la rotura de una pieza, el nivel de ácido úrico y de colesterol en la
sangre, los costos por unidad de producción, etc.

Ejemplos de variables aleatorias discretas son: el número de piezas defectuosas que se puede
encontrar en un lote, el número de hijos de una familia, el número de defectos, el número de veces que
tengo que lanzar una moneda hasta que me salga una cara, etc.

En el siguiente epígrafe estudiaremos cada uno de estos tipos de variable con un poco más de detalle.

4.2. Variables aleatorias discretas


Como estudiábamos en apartado anterior, las variables aleatorias discretas toman valores de
un conjunto discreto, de tal forma que cada posible valor x tiene asignada una probabilidad. Es por
ello por lo que su distribución viene definida por una función discreta que llamamos Función de
Probabilidad y que denotamos por PX(x).

Vídeo. Ejercicio variable aleatoria


discreta

4.2.1. Función de probabilidad

La Función de Probabilidad nos proporciona directamente la probabilidad de que ocurra un


determinado valor de la variable, es decir:

PX(x)=P(X=x)

Precisamente por lo anterior, debe cumplirse que


∑Px(xi)=1
i

Ésta función puede tener diferentes formas dependiendo de la variable aleatoria discreta con la que
estemos trabajando, un ejemplo es el de la figura 14.

45
Unidad de aprendizaje 4. Variables aleatorias
Internacional
de Valencia

Px (X)
Px (3) = P (X=3)

0 1 2 3 4 5 6 7 8 9 10

Figura 14. Función de Probabilidad.

Otra cuestión importante es cómo determinar la probabilidad de que la variable tome cualquier valor
entre un intervalo de valores. En este caso la solución es relativamente sencilla, por ejemplo:

P(2≤X≤4)=PX(2)+PX(3)+PX(4)

4.3. Variables aleatorias continuas


Las variables aleatorias continuas pueden tomar cualquier valor de la recta real. Es por ello por lo
que su distribución viene definida por una función continua que llamamos función de densidad y que
denotamos por fX(x).

4.3.1. Función de densidad

La función de densidad es una función no negativa que puede tener diferentes formas dependiendo
de cómo sea la variable aleatoria continua de la que estemos hablando. Por ejemplo, si la variable con
la que trabajamos es la longitud, el peso, la resistencia de una pieza o cualquier característica que
tenga dos especificaciones de diseño T1 y T2 y un valor nominal T centrado entre éstas, la distribución
suele tener la forma de la figura 15 (a).

46
Fundamentos de Estadística
Internacional
de Valencia

Figura 15. Formas de la Función de Densidad para diferentes variables aleatorias.

Si la variable aleatoria es la vida útil de un producto, es decir, el tiempo que vive hasta que falla
accidentalmente, la función de densidad suele tener la forma de la figura 15 (b). Y si la variable es,
por ejemplo, el tiempo que hay que esperar en la parada de un autobús hasta que llega, la función
de densidad podría ser la de la figura15 (c). En definitiva, según con qué tipo de variable estemos
trabajando la forma de la función de densidad nos dirá cuál es su “comportamiento”.

Una interpretación intuitiva, aunque no exacta, de lo que refleja la forma de la función de densidad
podría ser la frecuencia con la que se dan los valores en la población. Según esta interpretación, la
función de densidad de la figura 13(a) nos estaría diciendo que los valores que con mayor frecuencia
se dan en esta población son los que miden alrededor del valor T y que a medida que nos acercamos
a los extremos, la frecuencia con la que se dan estos valores es menor. La función de densidad de la
figura 13(c) nos estaría indicando que la frecuencia con la que esperaremos “a” minutos a que venga el
autobús es la misma con la que esperaremos “b” minutos.

La interpretación anterior puede ser válida hasta cierto punto. Realmente la función de densidad fX(x)
nos proporciona lo que se llama “densidad de probabilidad”, de tal forma que el área que queda por
debajo de dicha función entre dos valores de la variable [x1,x2] es la probabilidad de que ésta tome
cualquier valor entre ellos. Así se muestra en la figura 16 de la página siguiente.

Figura 16. La probabilidad como el área bajo la función de densidad.

47
Unidad de aprendizaje 4. Variables aleatorias
Internacional
de Valencia

Entonces, la probabilidad de que la variable X tome cualquier valor entre x1 y x2 se calculará como:
x2
P(x1≤x≤x2)=∫ fx(x) ⋅ dx
x1

Por lo tanto, si el área que hay por debajo de la función de densidad sirve para determinar la
probabilidad en un intervalo de valores, deberá cumplirse que el área total por debajo de ella debe ser
1, es decir: +∞
∫ fx(x) ⋅ dx=1
-∞

Por otra parte, y como consecuencia de que X sea continua, es que para cualquier valor x de la variable
su probabilidad es nula, es decir, P(X = x) = 0. Este resultado se desprende que:
x
P(X=x)=∫x fx(x) ⋅ dx = 0

4.3.2. Función de distribución

Un método alternativo a utilizar para la descripción de la distribución de una variable aleatoria es lo


que se llama función de distribución FX(x) que no es más que:

FX(x)=P(X≤x)

Para el caso de una variable aleatoria continua, la forma de determinar la función de distribución
es mediante:
x
Fx(x)=P(X≤x)=∫-∞fx(x) ⋅ dx

Nótese en la figura 17 de la página siguiente que la definición de FX(x) puede cambiarse por P(X<x)
puesto que la probabilidad en un punto vale 0.

Figura 17. Función de Densidad y función de distribución.

48
Fundamentos de Estadística
Internacional
de Valencia

De la ecuación anterior se desprende que

dFx(x)
fx(x)=
dx

Si conocemos la función de distribución es mucho más sencillo determinar ciertos valores de


probabilidad puesto que:

P(X>a)=P(X≥a)=1-P(X≤a)=1-FX(a) y P(a≤X≤b)=FX(b)-FX(a)

Para el caso de variables aleatorias discretas la función de distribución se determina mediante:

Fx(x)=P(X≤x)= ∑P (x )x i
xi≤x

de donde se obtiene que la FX(x) es una función escalonada como se muestra en la figura 18 de la
página siguiente.

En este caso tendremos que tener en cuenta que la probabilidad en un punto no es 0 por lo que el
cálculo de las probabilidades a partir de la FX(x) será:

P(X>a)=1-P(X≤a)=1-FX(a) y P(X≥a)=1-P(X<a)=1-P(X≤a-1)=1-FX(a-1)

P(a≤X≤b)=FX(b)-FX(a-1)

Figura 18. Función de Probabilidad y función de distribución.

49
Unidad de aprendizaje 4. Variables aleatorias
Internacional
de Valencia

4.3.3. Media y varianza

Además de la distribución de la variable aleatoria, podemos estudiar tres medidas de posición y


dispersión de gran interés: la media, la varianza y la desviación típica.

Vídeo. Media y varianza.

La media, valor medio, o esperanza matemática nos va a servir como indicador de la posición de
la variable, es decir, nos dirá el orden de magnitud que tienen los valores de ésta. En la analogía
mecánica, la media se considera como el centro de gravedad de la distribución.

La media, para el caso de variable aleatoria continua se determina a través de:

+∞ +∞
µx=E(X)=∫ x ⋅ fx(x) ⋅ dx µg(x)=E[g(x)]=∫ g(x) ⋅ fx(x) ⋅ dx
-∞ -∞

y para el caso de variable discreta:

µx=E(X)= ∑x ⋅ P (x ) ⋅ dx
i x i µg(x)=E[g(x)]= ∑g(x ) ⋅ Px(x )
i i
i i

Tiene las siguientes propiedades:

1. E(X + Y) = E(X) + E(Y) y E(X - Y) = E(X) - E(Y)

2. Si k es una constante, E(k ⋅ X) = k ⋅ E(X)

3. Si X e Y son independientes, entonces, E(X ⋅ Y) = E(X) ⋅ E(Y)

La varianza es la que nos va a servir para determinar la dispersión de los valores de la variable o, como
decíamos en capítulos anteriores, para medir la variabilidad de ésta. Así, si los valores de la variable
están alejados de su valor medio, la varianza será grande y si están muy próximos a ella, la varianza será
pequeña. En la analogía mecánica podemos considerarla como el momento de inercia de la distribución.

Para el caso de variable continua, la varianza la calcularemos como:


+∞
σx=D2(X)=∫ (x-µx)2 ⋅ fx(x) ⋅ dx
2

-∞

50
Fundamentos de Estadística
Internacional
de Valencia

y para el caso de variable discreta:

∑(x -µ ) ⋅ Pf (x )
2
σx=D2(X)= i x
2
x i
i

Algunas de sus propiedades son:

1. Si k es una constante, D2(k) = 0

2. Si k es una constante, D2(k ⋅ X) = k2 ⋅ D2(X)

3. Si X e Y son independientes, D2(X + Y) = D2(X) + D2(Y) y D2(X - Y) = D2(X) + D2(Y)

La desviación típica es también otro parámetro que mide la dispersión de la variable. Al igual que en
estadística descriptiva, la única diferencia con la varianza es que las unidades de la desviación típica
son las mismas que las de la variable y su interpretación intuitiva puede ser más sencilla, mientras que
las de la varianza son las unidades al cuadrado.
2
σx=+√ σx

Para profundizar en el estudio de las leyes de probabilidad que rigen las variables aleatorias, de
las cuales solo presentamos una síntesis, se puede consultar, entre otros, Montgomery (2011) y
Romero y Zunica (2005).

4.4. Ejercicios
1. La longitud de una cierta pieza se distribuye con la siguiente función de densidad:

k 1≤x<2
fx(x)= k-(x-2)2 2≤x<2,5
0 otros valores

y se consideran correctas las piezas de longitud comprendida entre 1,5 y 2,1. Hallar el valor de la
constante k y de la proporción de piezas correctas.

2. Un fabricante utiliza dos métodos diferentes en el montaje de la transmisión del automóvil. To-
das las componentes, incluyendo el revestimiento, engranaje, el eje, el sello y los cojinetes se
adquieren mediante subcontratas. Si X es el tiempo que tarda en montarse una unidad con el
primer método e Y es el tiempo que tarda con el segundo, se verifica que:

x-1 1≤x<2 4y-6 1,5≤x<2


fx(x)= 3-x 2≤x<3 fx(x)= 10-4y 2≤x<2,5
0 otros valores w0 otros valores

Calcular los tiempos medios y las desviaciones típicas de los dos métodos y compararlos.

51
Unidad de aprendizaje 5

Principales distribuciones discretas

Algunas variables aleatorias presentan comportamientos característicos que son estándares de uso
frecuente. En este capítulo y en el siguiente nos dedicaremos a estudiar las distribuciones discretas y
continuas que más comúnmente podemos encontrar en un proceso de producción.

5.1. Distribución binomial


Sea A un suceso que tiene una probabilidad “p” de ocurrir. Repitamos n veces la realización de la
experiencia de la que se trate con el fin de observar si en cada repetición ha ocurrido el suceso A o
su complementario ! . Supongamos, además, que las repeticiones son independientes, es decir, que
después de cada repetición la probabilidad “p” de que ocurra el suceso A no se ha modificado.

Vídeo. Ejercicio distribución binominal.

53
Unidad de aprendizaje 5. Principales distribuciones discretas
Internacional
de Valencia

Pues bien, si designamos por X a la variable aleatoria “número de veces que ocurre el suceso A, de
probabilidad p, cuando efectuamos n repeticiones independientes de la experiencia”, entonces X es
una variable binomial de parámetros n y p y la representaremos por:

X ≈ B(n, p)

Un ejemplo aplicado a un proceso de producción, que se acopla a la definición anterior sería el siguiente:
supongamos que la probabilidad de encontrar una pieza defectuosa en una línea de producción es “p”;
de dicha línea tomamos n piezas extraídas al azar, y contamos el número de piezas defectuosas. En este
caso X es el “número de piezas defectuosas que podemos encontrar en un grupo de n piezas tomadas de
una línea de producción, donde hay una proporción de p de piezas defectuosas”.

En el ejemplo podemos considerar que las repeticiones de la experiencia (comprobar si la pieza


es defectuosa o no) son independientes puesto que la población (línea de producción), de la que
hemos tomado las n piezas, es lo suficientemente grande (prácticamente infinita) como para que la
probabilidad “p” no se modifique. Otro caso diferente sería que las n piezas las hubiésemos tomado
de un lote de tamaño finito en el que las repeticiones no serían independientes.

En el caso de una variable aleatoria binomial la función de probabilidad viene definida por la ecuación:

PX (x) = ( nx ) ⋅ p ⋅ (1-p)
x n-x
con x = 0, 1, 2,..., n

Un ejemplo de la Función de Probabilidad aparece en la figura 19 en el que hemos representado una


Binomial B (10;0,2).

La media y la varianza de una variable binomial se determinan mediante:

E(X)=n ⋅ p D2(X)=n ⋅ p ⋅ (1-p)

En el caso de que X sea la del ejemplo anterior, la media se puede interpretar como el número medio
de piezas defectuosas que encontraremos en la n piezas, siempre que éstas hayan sido tomadas de
una línea que tenga una proporción p de piezas defectuosas.

54
Fundamentos de Estadística
Internacional
de Valencia

0,4

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10

Figura 19. Función de Probabilidad de una Binomial B (10;0,2).

Otra cuestión de interés a estudiar es el caso de la adición de distribuciones: la suma de dos variables
binomiales independientes con idéntico parámetro p es otra Binomial:

B(n1, p) + B(n2, p) = B(n1 + n2, p)

5.2. Distribución de Poisson


Sea X una variable Binomial de parámetros n y p. Cuando n tiende hacia infinito y p tiende hacia 0,
manteniéndose constante el valor medio λ = n ⋅ p, diremos que X tiene una distribución de Poisson y la
representaremos por:

X ≈ P(λ)

Un ejemplo de esta distribución aplicada a un proceso de producción es: X es el número de defectos


encontrados en un grupo de n piezas extraídas de la línea de producción. En este caso, el número de
repeticiones que tenemos que hacer para encontrar todos los defectos podría llegar a ser infinito,
puesto que una pieza puede tener más de un defecto. La probabilidad de encontrar un defecto concreto
sería prácticamente 0. Igualmente podríamos haber dicho que X es el número de defectos encontrado
en 1 m2 de tela o que es el número de fallos que ha tenido una máquina a lo largo de una semana.

Vídeo. Ejercicio distribución de Poisson.

55
Unidad de aprendizaje 5. Principales distribuciones discretas
Internacional
de Valencia

Para la distribución de Poisson la función de probabilidad es:

e-λ ⋅ λx
PX (x) = con x = 0, 1, 2, ...
x!

Y la media y la varianza son:

E(X) = λ D2(X) = λ

La adición para el caso de la distribución de Poisson es sencilla: la suma de dos variables de


Poisson independientes es otra variable de Poisson cuyo parámetro es la suma de parámetros de
las variables sumadas:

Ps(λ1) + Ps(λ2) = Ps(λ1 + λ2)

5.3. Distribución hipergeométrica


Supongamos una población formada por N individuos (finita) de la que extraemos al azar n de ellos.
Comprobamos cuántas veces ocurre un determinado suceso A que tiene una probabilidad p de
ocurrir. Si llamamos X al nº de individuos de entre los n que hemos tomado al azar que tienen esa
característica A, entonces X es una variable hipergeométrica y la denotaremos por:

X ≈ H(N, n, p)

Nótese que el caso de la distribución hipergeométrica es el mismo que el de la binomial. La única


diferencia es que en el caso de la binomial las repeticiones debían ser independientes y en este caso
deben ser dependientes. Un ejemplo sencillo sería: X es número de piezas defectuosas encontradas
en n piezas tomadas de un lote de tamaño N en el que hay una proporción p de piezas defectuosas.

Como ya hemos comentado anteriormente, la diferencia entre la distribución binomial y la


Hipergeométrica es que en el primer caso la población de la que tomamos las n piezas es infinita, lo
que indica que las repeticiones son independientes y la del segundo es finita, lo cual implica que las
repeticiones son dependientes.

Esto último es fácil de demostrar a través de un ejemplo: supongamos que tenemos un lote con 20
piezas de las cuales 3 son defectuosas. Si extraemos una pieza, al azar, la probabilidad de que ésta
sea defectuosa es 3/20. Supongamos ahora que la extraemos y que realmente es defectuosa, la
probabilidad de que la segunda pieza que extraigamos sea defectuosa cuando ya hemos sacado
una que lo era es 2/19. Es evidente, que el hecho de que ocurra un suceso determinado hace que las
probabilidades de los siguientes sucesos se modifiquen, luego las repeticiones son dependientes. En
el caso de una población infinita, la probabilidad de que una pieza sea defectuosa cuando ya ha salido
una que lo era sigue siendo la misma, luego podemos considerar las repeticiones independientes.

56
Fundamentos de Estadística
Internacional
de Valencia

La función de probabilidad de una distribución hipergeométrica es:

( N⋅px ) ⋅ ( N⋅(1-p)
n-x
)
PX (x) = con x = 0, 1, 2, ...,n
(n)
N

Y la media y la varianza son:

E(X)=n⋅p

n-n
D2 (x) = N⋅p⋅(1-p)⋅
n-1

5.4. Aproximación entre distribuciones discretas


Durante el estudio que hemos hecho de las principales distribuciones discretas, hemos visto que éstas
sólo se diferencian en pequeños matices. Por ejemplo, la distribución de Poisson es la misma que la
binomial pero cuando n es grande y p pequeña; la distribución hipergeométrica también es la misma que
la binomial pero en el primer caso el tamaño de la población es finito y en el segundo es infinito.

Así pues, es evidente que éstas distribuciones pueden presentar cierto parecido en el caso de que
los parámetros tomen valores límites. En la figura 20 de la página siguiente se han representado los
valores que deben tener dichos parámetros para poder realizar una buena aproximación.

Los valores que se dan en esta figura no son valores estándares aunque sí que son suficientes para
hacer una buena aproximación. Dependiendo del autor estos valores cambian, algunos recomiendan
que el paso de binomial a Poisson debe ser cuando λ ≥ 15, sin embargo, otros plantean que la
aproximación debe hacerse cuando λ ≥ 18.

HIPERGEOMÉTRICA

H(N,n,p)
N/n≥10

BINOMIAL

B(n,p)
n≥50
p≤0,1
n-p≥5
POISSON

Ps(n,p) = Ps(λ)

Figura 20. Aproximaciones entre distribuciones discretas. Fuente: Tomado de Sanz J.J. (2007). Formulario y ta-
blas de estadística. Valencia: Editorial UPV.

57
Unidad de aprendizaje 5. Principales distribuciones discretas
Internacional
de Valencia

5.5. Ejercicios
1. Una nave de fabricación está integrada por un número considerable de máquinas idénticas. Se
sabe por experiencia que por término medio, las que se averían, tienen 5 fallos semanales.
Calcular la probabilidad de que haya más de 3 averiadas en la misma semana. ¿Cuál es el
número de reserva que se precisa en una semana para tener una probabilidad de al menos de
0,99 de que al averiarse cualquier máquina podrá sustituirse?

2. Se seleccionan por separado tres muestras aleatorias de una línea de producción que produce
un 5 % de piezas defectuosas. Las dos primeras muestras tienen un tamaño igual a 20 y la
tercera tamaño 10. ¿Cuál es la probabilidad de que el número de piezas defectuosas
encontradas entre las tres sea mayor o igual que 1 y menor o igual que 4?

3. Una partida de bujías con un 20 % inservible sale al mercado en paquetes de 4 unidades y en


cajas de 10 paquetes. Calcular la probabilidad de que elegida un paquete al azar contenga 2 o
más bujías inservibles. Calcular la probabilidad de que elegida una caja al azar contenga 3
paquetes sin bujías inservibles.

4. Una industria recibe lotes en gran número de unidades. Se desea preparar un plan de control de
calidad de tal forma que tomando al azar n unidades del lote, si se observa alguna defectuosa
se rechaza el lote. Determinar n para que si el lote tiene un 5 % de piezas defectuosas, la
probabilidad de aceptarlo sea menor de 0,01.

58
Unidad de aprendizaje 6

Principales distribuciones continuas

6.1. Distribución exponencial


Una variable aleatoria continua y no negativa sigue una distribución exponencial cuando su función de
densidad tiene la expresión:

fX(x) = α e-αx x ≥ 0

donde α es una constante no negativa.

Diremos en tal caso que X ≈ Exp (α). Esta variable aleatoria suele representar la vida o duración de las
unidades de producto estudiadas. La función de distribución de este tipo de variable es muy fácil de
calcular y es:

FX(X) = 1 - e-αx

Y su media y varianza son:

E(X) = 1/α D2(X) = 1/α2

59
Unidad de aprendizaje 6. Principales distribuciones continuas
Internacional
de Valencia

Por existir una expresión explícita y sencilla para la función de distribución, esta variable no requiere
el manejo de ningún tipo de tabla, pues el cálculo del valor de la función de distribución y, a partir
de él, el de la probabilidad de cualquier intervalo, es sencillo. El aspecto que presenta su función de
densidad es el que se puede ver en la figura 21.

Otras peculiaridades de la distribución exponencial son las siguientes: La probabilidad de que la


variable supere su valor medio es del 36,79 %, ya que es una distribución claramente asimétrica.
Además es una distribución sin memoria, es decir, que la probabilidad de que la variable tome valores
en un cierto intervalo, sabiendo que es mayor o igual que el límite inferior de dicho intervalo, sólo
depende de su longitud y no del punto inicial del mismo:

P(X∈[x1,x1+T]/X≥x1)=P(X∈[x2,x2+T]/X≥x2)∀x1,x2.

Figura 21. Función de densidad de distribución exponencial.

6.2. Distribución normal


La distribución normal, también conocida como variable de Gauss, es, sin duda, la más importante de
las variables aleatorias continuas, pues se usa eficazmente en el estudio de numerosos fenómenos
reales. Para el ingeniero de calidad, por ejemplo, será la más útil de la distribuciones continuas
puesto que es prácticamente la base del control estadístico del proceso. Si una variable X tiene una
distribución Normal la representaremos mediante:

X ≈ N(µ, σ)

donde µ es la media y σ es la desviación típica.

Su función de densidad es

(x-µ)2
1 2σ2 con -∞ < x < + ∞
fx(X)= ⋅e
σ√2∏

60
Fundamentos de Estadística
Internacional
de Valencia

Su media y su varianza son:

E(X) = µ D2(X) = σ2

La siguiente figura (figura 22) muestra la función de densidad de la distribución normal, donde se
puede apreciar que la media coincide con el plano de simetría de la distribución y la desviación con la
distancia desde el eje de simetría al punto de inflexión de la curva.

Figura 22. Función de densidad de distribución normal.

Una distribución Normal se caracteriza por que es una distribución simétrica en la que el porcentaje
de población que hay entre los valores de la variable µ + σ y µ - σ es el 68,26 %, entre µ + 2σ y µ - 2σ es
el 95,44 % y entre µ + 3σ y µ - 3σ es el 99,73 %. Podemos decir que prácticamente toda la población
se encuentra entre estos dos últimos límites. En la figura 23 está representada la distribución de
proporciones de una distribución normal.

Figura 23. Características de la distribución normal.

El problema que tiene la distribución normal es que para poder calcular probabilidades necesitamos,
como en cualquier variable continua, integrar la función de densidad, pero en este caso no existe su
integral exacta. Sería, por lo tanto, necesario recurrir a métodos de aproximación relativamente
complicados. Para evitarlo los valores de la función de distribución se tabulan, pero sólo para un caso
particular que es de una Normal con media 0 y desviación típica 1 que llamamos normal tipificada.

Z = N(0, 1)

61
Unidad de aprendizaje 6. Principales distribuciones continuas
Internacional
de Valencia

Esta decisión es justificable puesto que no podemos obtener todos los valores de función de
distribución para cualquier distribución Normal porque ésta depende de los valores de media y
desviación típica y existen infinitos posibles valores de cada uno de ellos. Entonces, la función de
densidad para el caso de normal tipificada quedaría:

-x²
-
1 2
fz (z) = ⋅e con -∞ < x < + ∞
√2∏

El problema a resolver ahora es cómo transformar una distribución normal N(µ, σ) en una normal
tipificada N(0,1) para poder realizar el cálculo de probabilidades. El método es sencillo: a cada valor de
la variable le restamos la media y dividimos por la desviación típica:

x-µ
z=
σ

Por lo tanto, cualquier probabilidad la podemos calcular a partir de:

( ) ( ) ( )
x-µ x-µ x-µ x-µ
FX(X)= P(X ≤x)=P ≤ =P z ≤ =∅
σ σ σ σ

donde f(z) es la nomenclatura que se ha dado a la función de distribución de una normal tipificada, es decir:

FZ(z)=P(Z≤z)=f(z)

Si queremos calcular cualquier otra probabilidad no habrá más que aplicar las propiedades
correspondientes:

P(X>x)=1-P(X≤x)

P(x1≤X≤x2)=P(X≤x2)-P(X≤x1)

Otro parámetro de interés, que utilizaremos en capítulos posteriores, es lo que llamamos valor crítico
zp, que no es más que el valor de la variable que deja a su derecha un área p o, lo que es lo mismo, a su
izquierda (función de distribución) un valor 1-p como se muestra en la figura 24.

Figura 24. Valor crítico zp en la distribución normal.

62
Fundamentos de Estadística
Internacional
de Valencia

6.3. Teorema Central del Límite


El Teorema Central del Límite engloba una serie de teoremas cuyo objetivo final es determinar las
condiciones bajo las cuales una sucesión de variables aleatorias convergen a una distribución Normal.

Uno de los teoremas más importantes que lo componen es el llamado Teorema de Lindenberg- Levy
que dice: si X1, X2, … , Xn son variables aleatorias independientes que tienen la misma distribución, su
suma tipificada es, a su vez, una sucesión de variables aleatorias que converge en distribución a una
variable Norma tipificada cuando n tiende a infinito.

Vídeo. Ejercicio teorema central del


límite.

6.4. Distribuciones derivadas de la normal


6.4.1. Distribución Chi-cuadrado

Las distribuciones que veremos a continuación son de uso frecuente y de gran importancia en
Inferencia Estadística. Son distribuciones que podríamos llamar “auxiliares” y que derivan de la
distribución normal.

Vídeo. Ejercicio distribución chi-


cuadrado.

La variable Chi-cuadrado de n grados de libertad , es la suma de n variables normales tipificadas,


N(0,1), independientes entre sí y elevadas al cuadrado:

χ2=Ζ2+Ζ2+...+Ζ2 con χ2≥0


n n n n n

Su función de densidad es asimétrica como se muestra en la figura 25 y sólo existe para valores de
X positivos.

63
Unidad de aprendizaje 6. Principales distribuciones continuas
Internacional
de Valencia

Figura 25. Función de densidad de la distribución Chi-cuadrado.

La media, la varianza y el valor crítico de una distribución Chi-cuadrado son:

E=(χ2)=n D2=(χ2)=2 ⋅ n χ2(p)


n n n

6.4.2. Distribución t de Student

Es el cociente entre una normal tipificada N(0,1) y la raíz cuadrada de una dividida por sus grados de
libertad:

z
tn= con -∞ ≤ tn ≤ + ∞
x2
√ n

Vídeo. Ejercicio distribución t de


student.

64
Fundamentos de Estadística
Internacional
de Valencia

Es una distribución simétrica entorno al origen como muestra la figura 26

Figura 26. Función de densidad de la distribución t de Student.

Su media, su varianza y su valor crítico son:

n t(p)
E(tn) = 0 D2(tn)= n
n-2

6.4.3. Distribución F de Snedecor

Es el cociente entre dos Chi cuadrado divididas por sus grados de libertad.

χn2 /n1 con Fn1 ,n2≥0


Fn1 ,n2= 1

χn /n2
2
2

Como se muestra en la figura 27 de la página siguiente, la F de Snedecor es una distribución asimétrica


y sólo existe para valores no negativos de la variable.

Figura 27. Función de densidad de la distribución F de Snedecor.

65
Unidad de aprendizaje 6. Principales distribuciones continuas
Internacional
de Valencia

F(p)
n ,n
1 2
Su valor crítico es:

6.5. Aproximaciones entre distribuciones


Al igual que en caso de las variables aleatorias discretas, entre las continuas también existen
aproximaciones. No sólo eso, sino que entre las discretas y las continuas también se pueden realizar
aproximaciones obteniéndose resultados bastante aceptables. En la figura 28 se muestra el esquema
de las aproximaciones. Los criterios que se utilizan no son estándares, de hecho, un criterio más
exigente es λ > 15 o n • p > 15.

HIPERGEOMÉTRICA

H(N,n,p)
N/n>10
- χn2 tn Fn1,n2
BINOMIAL

B(n,p) n1≥30
n≥30 n≥30 n2≥30
n≥50 n·p≥5
p≤0,1
n-p≥5
POISSON NORMAL
λ≥5
Ps(n,p) = Ps(λ) N(µ, σ)

Figura 28. Aproximaciones entre distribuciones. Fuente: Tomado de Sanz J.J. (2007). Formulario y tablas
de estadística. Valencia: Editorial UPV.

6.6. Ejercicios
1. La distribución exponencial se utiliza a menudo para modelizar la duración de un sistema. En
este caso, la variable X indica el tiempo que funciona el sistema antes de fallar. Si la duración
de un sistema, en años, sigue una distribución exponencial de media 6 meses, determinar la
función de densidad de la variable X. Hallar la probabilidad de que el sistema funcione por lo
menos durante un año.

2. Si Z es una variable aleatoria N(0,1), hallar:

P(Z ≤ 1,85), P(Z ≤ -1,85), P(1 < X ≤2), P(-1,85 ≤ X ≤ -1), P(X > 2); P(X ≥ 3)

3. Sea X una variable aleatoria N(5,2). Calcular: P(X ≤ 1), P(1 < X ≤ 8), P(X ≤ 5), P(X ≥ 7).

66
Fundamentos de Estadística
Internacional
de Valencia

4. Los límites medios de tolerancia de un interruptor son 40 ± 0,5 amperios por lo que si un inte-
rruptor se dispara a una intensidad menor de 39,5 o mayor de 40,5 se considera defectuoso. Si
los puntos de ruptura de un interruptor se distribuye normalmente con media 39,5 y desviación
típica 0,2 ¿Cuál es el porcentaje de interruptores defectuosos de la partida?

5. En la producción de piezas para un motor de combustión interna, los pesos presentan bastante
dispersión. Una dispersión muy grande provoca un mal funcionamiento. Supongamos que un
fabricante concreto desea rechazar el 3% de los cojinetes de menor peso y el 3 % de los de
mayor peso. Si el peso tiene una distribución normal con un peso medio de 4,72 kg y la desvia-
ción típica de 0,006 kg, determinar el peso máximo y el mínimo que tendrán las piezas para ser
aceptadas.

6. El contenido efectivo de un paquete es una variable aleatoria N(20,2) kg. y el del envase es una
variable aleatoria N(1; 0,2) kg. Colocamos 13 de estos paquetes sobre un soporte de madera
que pesa 50 kg. ¿Cuál es la probabilidad de que al ponerlos en un montacargas, cuya carga lími-
te es 300 kg, no arranque?

7. Los diámetros de los tornillos de una caja, medidos en centímetros, siguen una distribución
N(2; 0,03) y los diámetros interiores de las tuercas de otra caja siguen una distribución N(2, 02;
0,04). Un tornillo y una tuerca ajustarán si el diámetro interior de la tuerca es mayor que el diá-
metro del tornillo y si la diferencia entre ellos no es mayor que 0,05 cm. Calcular la probabilidad
de que cogidos un tornillo y una tuerca al azar éstos se ajusten.

67
Unidad de aprendizaje 7

Técnicas de muestreo

7.1. Introducción
En la mayor parte de los estudios e investigaciones se hace necesario recopilar información de
determinadas variables objeto de estudio para arribar a conclusiones sobre su comportamiento. En
muchas ocasiones este proceso se realiza sobre una población muy grande. Lo “ideal” sería estudiar
toda la población. Por diferentes razones, que tienen que ver con el costo, tiempo o incluso la no
existencia real de los individuos de esa población, este proceso no es posible. Incluso, estudiar toda
la población no es necesario, existen métodos para conocer las características de la población a
partir del estudio de una parte de los individuos (muestra) de la misma. La Inferencia Estadística es
el método estadístico que nos permite realizar ese análisis. De lo expuesto con anterioridad queda
claro que seleccionar la muestra “adecuada” es de suma importancia para extraer conclusiones
adecuadas y verídicas. Está claro que no todo conjunto de individuos tomados de una población
pueden servir para su caracterización. La correcta selección de la muestra es un paso necesario en
cualquier investigación. De la misma manera parece obvio que el número de individuos que conforman
la muestra debe de ser tenido en cuenta. ¿Cuál es la composición de la muestra que garantiza obtener
información de la población con una alta probabilidad de certeza? ¿Cómo seleccionar esa muestra?

69
Unidad de aprendizaje 7. Técnicas de muestreo
Internacional
de Valencia

7.2. Definiciones
Las técnicas del muestreo se utilizan para conocer las características generales de una población,
al estudiar solo una parte de esta. Debe de quedar claro que el objetivo final no es el estudio de la
muestra si no de la población en su conjunto. Por población entendemos el conjunto de todos los
individuos que constituyen el objeto de un determinado estudio, y de los cuales se quieren obtener
ciertas conclusiones. Está formada por individuos de naturaleza muy diversa: personas, árboles,
piezas, etc. A veces, los individuos tienen una existencia real, previa a la realización del estudio, pero
otras veces, los individuos que constituyen la población pueden generarse por medio de la realización
de un determinado proceso, como recibir una pieza. Estos procesos, que en sucesivas realizaciones
pueden generar los diferentes individuos de la población, se llaman experimentos aleatorios.

En general no es posible estudiar todos los individuos de una población: ya sea porque las poblaciones
sean infinitas o por consideraciones económicas.

En consecuencia, tomaremos la muestra: un subconjunto de individuos.

La forma de seleccionar los individuos que han de constituir la muestra tiene mucha importancia
para obtener conclusiones que puedan extrapolarse de forma válida a la población de la cual
procede la muestra.

El objeto final del estudio es siempre la población, la muestra es sólo un medio para obtener
información sobre esta.

La muestra ha de ser representativa de la población.

En teoría, para garantizar la representatividad de una muestra hay que seleccionar al azar a los
individuos que la han de componer. Aunque esta forma de proceder raramente sea aplicable en la
práctica, siempre se han de extremar las precauciones para que la forma real de obtener la muestra
sea tan parecida como sea posible a la ideal.

En muchos casos es necesario un conocimiento previo sobre la población para decidir si una
muestra puede considerarse o no representativa. Los resultados del análisis de la muestra
se “extrapolan” a la población con la ayuda de las técnicas estadísticas que se agrupan bajo la
denominación de Inferencia Estadística.

7.3. Organización y objetivos del proceso de muestreo


Para organizar el proceso de muestreo es necesario:

•• Establecer los objetivos.

•• Definir la población.

•• Diseñar la muestra. Como se va a seleccionar la muestra.

70
Fundamentos de Estadística
Internacional
de Valencia

•• Precisar el método de medición: entrevistas personales (entrevistador), entrevistas telefóni-


cas, cuestionarios, por correo, observación directa.

•• Organizar el manejo de la información.

•• ¿Qué tipo de resultados se pretenden obtener?

•• Control de la calidad de la información.

•• Análisis de datos e informe final.

7.3.1. Objetivos del muestreo

Seleccionar “buenas” muestras de un tamaño “apropiado”, considerando la información que tenemos


de la población que estamos estudiando y el presupuesto con que contamos. ¿Qué es una “buena”
muestra? Es una muestra representativa de la población, es decir, que las variables de interés en la
muestra presenten una distribución semejante a las de la población.

Definamos como:

•• N - tamaño de la población.

•• n - número de elementos en la muestra, o tamaño de la muestra.

•• n/N – fracción de muestreo (proporción de la población representada en la muestra).

•• N/n – factor de elevación (unidades en la población por cada elemento en la muestra).

Hay cuestiones que debemos especificar a la hora de elegir una muestra:

•• El método de selección de los individuos de la población (tipo de muestreo que se va a utilizar).

•• El tamaño de la muestra.

•• El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, una estimación del
error que vamos a cometer (en términos de probabilidad).

7.3.2. Formas de tomar una muestra

Las formas de tomar una muestra:

No probabilística.

•• A juicio. Se usa la experiencia del investigador.

•• Cuotas. Puede resultar una muestra sesgada (que no es representativa de la población). No hay
forma de estimar el error.

71
Unidad de aprendizaje 7. Técnicas de muestreo
Internacional
de Valencia

Probabilística.

Todos los elementos de la población tienen una probabilidad conocida y mayor que cero de ser
seleccionados. Hay forma de estimar el error Se tiene apoyo de herramientas de probabilidad ¿Por
qué es importante el muestreo aleatorio?

Las muestras aleatorias aseguran o garantizan mejor el poder extrapolar los resultados. En una
muestra aleatoria tenemos más seguridad de que se encuentran representadas las características
importantes de la población en la proporción que les corresponde. Si el 20% de la población tiene la
característica A (un determinado peso, una determinada situación económica, etc.) podemos esperar
que en la muestra también habrá en torno a un 20% con esa característica.

7.4. Tipos de muestreo


•• Muestreo aleatorio con y sin reemplazo.

•• Muestreo estratificado.

•• Muestreo por conglomerados.

•• Muestreo sistemático.

•• Otros tipos de muestreo.

7.4.1. Muestreo aleatorio con y sin reemplazo

Cuando un elemento es seleccionado, y hemos medido las variables necesarias para el estudio y
puede volver a ser seleccionado, se dice que hacemos un muestreo aleatorio con reemplazamiento o
reposición. Generalmente recibe el nombre de muestreo aleatorio simple. En caso de que el elemento
no vuelva a formar parte de la población de manera que no puede volver a ser seleccionado se dice que
se ha obtenido la muestra mediante un muestreo aleatorio sin reposición o reemplazamiento. Algunos
autores definen este método también con el nombre de muestreo irrestrictamente aleatorio. Aunque
los dos métodos son diferentes, cuando el tamaño de la población es infinito, o tan grande que puede
considerarse infinito, ambos métodos nos llevaran a las mismas conclusiones. Sin embargo, si la
fracción de muestreo n/N es mayor que 0,1 (muestreamos más del 10 % de la población) la diferencia
entre las conclusiones que se obtienen pueden ser importantes.

7.4.2. Muestreo estratificado

En ocasiones tenemos la población objeto de estudio, compuesta a su vez por grupos o


subpoblaciones.

Vídeo. Ejercicio muestreo


estratificado.

72
Fundamentos de Estadística
Internacional
de Valencia

Supongamos que estudiamos un tipo de motor diésel y que existen k modelos diferentes. La
población será de tamaño N dividida en k subpoblaciones de tamaños N1, N2, . . . , Nk.

Dichas subpoblaciones son disjuntas y cumplen que N1 + N2 + ⋯ + Nk = N.

En este caso cada una de las subpoblaciones se denomina estrato.

Si deseamos obtener una muestra de tamaño n de la población inicial, seleccionamos de cada estrato
una muestra aleatoria de tamaño ni de manera que n1 + n2 + ⋯ + nk = n.

El objetivo sigue siendo lograr que la muestra total sea representativa de la población total
garantizando la representatividad en ella de cada una de las subpoblaciones que la componen.

Como ventajas de este método tenemos que podemos tener información con más precisión dentro de
las subpoblaciones sobre la característica objeto del estudio y podemos aumentar la precisión de los
estimadores de las características de toda la población.

Como inconveniente tendremos como seleccionar el tamaño de las muestras dentro de cada estrato
para que el total sea n. La división en estratos en algunas poblaciones puede no ser sencilla.

El muestreo estratificado proporciona mejores resultados que el muestreo aleatorio, mientras más
diferentes sean los estratos entre sí y más homogéneos internamente.

La distribución del tamaño de la muestra entre los diferentes estratos puede hacerse:

•• Proporcionalmente al tamaño de cada estrato. Si para el estrato j-ésimo de tamaño Nj, donde N
el total de la población y n el tamaño de la muestra. El tamaño de la muestra de dicho estrato
será de tamaño n ⋅ (Nj/N).

•• Proporcionalmente a la variabilidad de la característica que estamos estudiando en cada


estrato. Por ejemplo, si conocemos que la varianza en las revoluciones por minuto de un tipo de
motor A es de 15 rpm y en el tipo B es de 5 rpm, la proporción de los motores es 3 a 1 y la muestra
deber guardar esa proporción.

•• Asignando el mismo tamaño a cada estrato. En este caso se favorece a los estratos más
pequeños y se perjudica a los grandes en cuanto a precisión. Para la selección de la muestra en
cada estrato se realiza un muestreo aleatorio simple.

7.4.3. Muestreo por conglomerados

La población se divide en unidades o grupos, llamados conglomerados (generalmente son unidades


o áreas en los que se ha dividido la población), debiendo ser lo más representativas posible de la
población, es decir, deben representar la heterogeneidad de la población objeto del estudio y ser
entre si homogéneos.

Para obtener una muestra bastara con seleccionar algunos conglomerados si los conglomerados son tan
heterogéneos como la población, en relación a las variables estudiadas, y que entre son homogéneos.

En este caso se habla de muestreo por conglomerados de una etapa.

73
Unidad de aprendizaje 7. Técnicas de muestreo
Internacional
de Valencia

El principal inconveniente que tiene este método es que si los conglomerados no son homogéneos
entre sí, la muestra final puede no ser representativa de la población.

7.4.4. Muestreo sistemático

Si tenemos una población de N elementos. Ordenamos estos elementos del 1 hasta N, y deseamos
obtener una muestra de tamaño n.

Vídeo. Ejercicio muestreo sistemático.

Dividimos la población en n subconjuntos, cada uno de ellos con v = Nn elementos, es decir, cada
subconjunto consta de tantos elementos como indica el factor de elevación.

Tomamos un elemento de los enumerados desde 1, 2 hasta N n, aleatoriamente y lo llamamos x0;


después se toman los siguientes elementos x0 + v, x0 + 2v, x0 + 3v, x0 + 4v . . . Si v no resultara entero,
se redondea al entero menor, con lo que puede que algunas muestras tengan tamaño n − 1. Este hecho
introduce una pequeña perturbación, que es despreciable si n > 50.

Es necesario que previamente nos hayamos asegurado de que los elementos ordenados no presentan
periodicidad en las variables objeto de estudio, puesto que si hay periodicidad con período esta
próximo al valor v, los resultados que se obtengan tendrán grandes desviaciones y no tendrán validez.

El muestreo aleatorio y el muestreo sistemático son equivalentes si los elementos se encuentran


enumerados de manera aleatoria. En este método se extiende la muestra a toda la población y es de
fácil aplicación.

Tiene como inconvenientes problemas a la hora de estimar la varianza y aumento de la misma si existe
periodicidad en la numeración de los elementos, introduciéndose en este caso sesgo por selección.

7.4.5. Otros tipos de muestreo

Con frecuencia se utilizan los muestreos bietápico y polietápico.

El primero es un caso particular de muestreo por conglomerados dividió en dos etapas. Los
conglomerados de primera etapa se denominan unidades primarias, los de segunda etapa,
secundarias. En la segunda etapa no se seleccionan todos los elementos del conglomerado, sino que
se seleccionan un determinado número de elementos de cada conglomerado de manera aleatoria.

El muestreo polietápico se obtiene como una generalización del anterior, de manera que cada
conglomerado puede estar formado a su vez por otros conglomerados y así sucesivamente en varias
etapas. De manera general para estudios complejos se combinan los diferentes tipos de muestreo
mencionados, utilizando los conceptos de estratificación, conglomerados y muestreo aleatorio.

74
Unidad de aprendizaje 8

Distribuciones en el muestreo

8.1. Introducción
En general, los parámetros de cualquier población no son conocidos ni constantes en el tiempo pero
para poder estudiarla necesitamos conocerlos: en un proceso de producción, medir la calidad real del
producto implica conocer los parámetros de nuestro proceso (distribución, media, desviación típica,
etc.) con el fin de comprobar que la producción es correcta. De hecho, las causas que modifican la
calidad de un producto también modifican los parámetros del proceso y a través de esos cambios
detectamos la existencia de causas indeseables.

Pues bien, la estimación de parámetros poblacionales, nos permiten conocer los parámetros del
proceso y que, en general, nos permite conocer los parámetros de cualquier población, es parte de la
inferencia estadística.

Antes de continuar debemos recordar una serie de conceptos que nos serán de utilidad a lo largo de
este tema.

75
Unidad de aprendizaje 8. Distribuciones en el muestreo
Internacional
de Valencia

Llamamos población (N) al espacio muestral o conjunto de los posibles valores que puede tomar la
variable aleatoria de interés del colectivo objeto del estudio. Dicho de otro modo, es el conjunto de
individuos que queremos someter a estudio. No siempre podemos utilizar todos los individuos de
una población por ser ésta excesivamente grande, por ello debemos tomar una muestra (n) que es
cualquier subconjunto de la población.

Llamamos muestreo a la forma de obtener la muestra. Existen muchas formas de hacer un muestreo,
el más común es el muestreo aleatorio simple (m.a.s.):

Cuando cogemos una muestra aleatoria de tamaño n, lo hacemos bajo la suposición de que cada
observación tomada es independiente de la anterior y de que se ha realizado bajo las mismas
condiciones. Cada una de estas observaciones es, a su vez, una variable aleatoria (puesto que no
sabemos su valor de antemano) que llamaremos Xi, donde i representa la i-ésima observación. Así
pues, una muestra aleatoria de tamaño n estará compuesta por n variables aleatorias X1, X2, …, Xn que
toman los valores x1, x2, …, xn.

Entonces, si X es la característica que estamos estudiando y tiene una distribución de probabilidad


ϕ(x), fX(x) o PX(x), dependiendo de si en continua o discreta), cada observación Xi tendrá también la
misma distribución, esto es, las distribuciones de probabilidad de x1, x2, …, xn., serán ϕ(x1), ϕ(x2), …,
ϕ(xn). Esto es debido a que, al haber tomado cada observación de forma independiente y bajo las
mismas condiciones, los posibles valores de cada Xi son los mismos que los de X y, por lo tanto, su
distribución también es la misma.

Pues bien, una m.a.s. de tamaño n está formada por n variables aleatorias independientes (x1, x2, …, xn.)
que tienen la misma distribución de probabilidad ϕ(xi).

El fin principal de la toma de una muestra, independientemente del tipo de muestreo que se utilice,
es obtener información sobre los parámetros no conocidos de la población. Esta información se
podrá obtener de forma más o menos aproximada a partir de las observaciones de la muestra y, más
concretamente, a través de lo que llamamos estadísticos. Así, un estadístico es cualquier función de
los valores muestrales.

Ejemplos de estadísticos son: la media muestral, la varianza muestral o la desviación típica muestral,
el rango o recorrido o la proporción muestral:

Nótese que entonces, los estadísticos también son variables aleatorias y por ello tienen su propia
distribución. A estas distribuciones se les llama distribuciones en el muestreo y son precisamente las
que veremos a lo largo de este capítulo.

A partir de aquí, supondremos que si la variable aleatoria que queremos estudiar es continua ésta
tendrá una distribución Normal de media m y desviación típica s: X ≈ N(ϕ,σ)

76
Fundamentos de Estadística
Internacional
de Valencia

8.2. Distribución de la media muestral


Obtengamos la distribución de la media muestral.

Vídeo. Ejercicio Distribución media


muestral.

La media muestral se calcula mediante:


n
xi
x= Σ
i=1 n

Calculamos, la media de la media muestral:


n n

( Σ n )= Σ
xi E(Xi) n ⋅µ
E(x)=E = =µ
i=1 i=1 n n

es decir, la media poblacional de la media muestral coincide con la media poblacional de X.

La varianza de la media muestral es:


n n

(Σ ) Σ
xi D2(Xi) n ⋅σ2 2
D (x)=D
2 2
= = 2 =σ
i=1 n i=1 n n

Podemos decir entonces que si X sigue una distribución normal de media µ y desviación típica σ,
entonces la media muestral seguirá una distribución normal (puesto que es la suma de n distribuciones
normales independientes) con media m y desviación típica σ/√n:

( )
σ
x=N µ
√n

Aunque X no fuera una distribución normal, si n es lo suficientemente grande, según el Teorema


central del límite de Lindenberg-Levy, la media muestral seguiría teniendo una distribución normal.

8.3. Distribución de la varianza muestral


La varianza muestral se determina mediante:
n n

Σ Σ
(Xi-x)2 2 (Xi-x)2
s n-1=
2
ó s n=
i=1 n-1 i=1 n-1

77
Unidad de aprendizaje 8. Distribuciones en el muestreo
Internacional
de Valencia

Obtengamos ahora la distribución de la varianza muestral: si multiplicamos a ambos lados de la


igualdad por la constante del denominador, tenemos:
n n
(n-1)⋅s2n-1= Σ i=1
(Xi-x)2 ó s2n= Σ(X -x)
i=1
i
2

y dividimos por σ2, tenemos:


n n
(n-1)⋅s2n-1 (Xi-x)2 n ⋅s2n
Σ Σ
(Xi-x)2
ó
σ2 = i=1 σ2 σ2 = i=1 σ2

Si el segundo término de la igualdad, en lugar de tener x tuviese una µ, tendríamos la suma de n


distribuciones normales tipificadas elevadas al cuadrado, es decir, una Chi-cuadrado de n grados de
libertad, χ2n . Haciendo operaciones, con el fin de obtener algo similar, llegamos a:
n n n n

Σ(X -x) = Σ[(X -µ)+(µ-x)] = Σ (X -µ) +(µ-x) +2⋅(X -µ)⋅(µ-x)= Σ (X -µ) -n (x-µ)
i=1
i
2
i=1
i
2
i=1
i
2 2
i
i=1
i
2 2

Sustituyendo en las igualdades anteriores:


n n
(n-1)⋅s2n-1
Σ Σ
(Xi-µ)2 (x-µ)2 n ⋅s2n (Xi-µ)2 (x-µ)2
- ó - 2
σ2 = i=1 σ2 σ2/n σ2 = i=1 σ2 σ /n

n n
(n-1)⋅s2n-1
Σ N(0,1) -N(0,1) Σ
n ⋅s2n
=
2 2
ó N(0,1)2-N(0,1) 2
σ2 i=1 σ2 = i=1

Así pues, tenemos la suma de n-1 normales tipificadas elevadas al cuadrado, luego se cumple que:

(n-1)⋅s2n-1 2 n ⋅s2n 2
=χn-1 ó 2 =χ n-1
σ2 σ

es el llamado Teorema de Fisher.

La media poblacional de la varianza muestral será entonces:

[ ] [ ] =E(χ )
s2n-1 s2
E (n-1)⋅ =E(χn-1
2
) ó E (n-1)⋅ n 2
σ2 σ2 n-1

(n-1)⋅s2 n
⋅E[s2n-1]=n-1 ó 2 ⋅E[s2n ]=n-1
σ 2
σ

n-1 2
E[s2n-1]=σ2 ó E[s2n ]=
n
⋅σ

78
Fundamentos de Estadística
Internacional
de Valencia

Luego, la media poblacional de la varianza muestral s2n-1 coincide con la varianza poblacional de la
variable X, al contrario de lo que ocurre con s2n.

La varianza de la varianza muestral es:

s2n
[
D2 (n-1)⋅
σ ]
2
=D (χn-1) ó D2 n⋅
2 2
[ σ ]
2
=D (χ )2 2
n-1

(n-1)2 n2
⋅D2[s2 ]=2⋅(n-1) ⋅D2[s ]=2⋅(n-1)
2
ó n
σ
n-1
4
σ 4

2⋅σ4
( )
σ2 2
ó D2[s n ]=2⋅(n-1)⋅
2
D2[s2n-1]=
n-1 n

A través del teorema de Fisher también podemos determinar la distribución de la media muestral
cuando la desviación típica es desconocida, sabemos que:

x-µ
=N(0,1)=Z
σ/√n

y que según el teorema anterior

(n-1)⋅s n-1
2

σ=
2
χn-1
2

sustituyendo en la primera ecuación, obtenemos que

x-µ Z
s n-1 χn-1
2
/√n =
√ n-1

que es equivalente a:

x-µ
=tn-1
s/√n

79
Unidad de aprendizaje 8. Distribuciones en el muestreo
Internacional
de Valencia

8.4. Distribución de la diferencia de medias muestrales


Supongamos dos variables aleatorias independientes cuyas distribuciones son X1 = N(µ1, σ1) y X2 =
N(µ2, σ2). Si extraemos una m.a.s., de cada una de las poblaciones, de tamaños n1 y n2, y calculamos la
media muestral de cada una de ellas, la distribución de la diferencia es:

( √n
σ21 σ22
x1-x2=N µ1+ µ2,
1
+
n2 )
En el caso de que las varianzas sean desconocidas pero iguales la distribución de las diferencias de
medias muestrales es:

(n1-1)⋅s 1 +(n2-1)⋅s 2
2 2
(x1-x2)-(µ1+ µ2)

s*⋅ √n
1
+
1 =tn1 +n -2 donde s*=
n2
2 √ n1+n2-2
1

8.5. Distribución del cociente de varianzas muestrales


Si tenemos dos variables aleatorias independientes con distribuciones normales X1 = N(µ1, σ1) y X2 =
N(µ2, σ2) y extraemos una m.a.s. de cada población calculando sus varianzas muestrales, entonces,
teniendo en cuenta que:

s21 s2n
(n1-1)⋅ σ2 =χn -1 y(n2-1)⋅ σ2 =χn -1
2 2
1 2
1 2

la distribución del cociente entre ellas es:

s21 σ21
/
=Fn +n -1
s 2 σ22
2 1 2
/

8.6. Distribución de la proporción muestral


Hasta aquí no hemos tenido ningún tipo de problema para determinar las distribuciones de los
estadísticos, puesto que trabajábamos con variables continuas y habíamos supuesto que tenían una
distribución Normal. Sin embargo, para calcular la distribución de una proporción muestral debemos
tener en cuenta cuál es la distribución discreta con la que estamos trabajando. Recordemos que el
número de piezas defectuosas no tenía la misma distribución que la del número de defectos:

Vídeo. Ejercicio distribución de la


proporción muestral.

80
Fundamentos de Estadística
Internacional
de Valencia

En cualquiera de los casos anteriores, la proporción se determina mediante:

X
^
p=
n

Si X = B(n, p), la media y la varianza de la proporción muestral son:

p⋅(1-p)
E^
p= p D2(^
p )=
n

Si X = Ps(λ) la media y la varianza de la proporción muestral son:

p
E^
p= p D2(^
p )=
n

81
Unidad de aprendizaje 9

Inferencia estadística

9.1. Introducción
Como ya hemos comentado en el capítulo anterior para controlar la calidad de un proceso de
producción necesitamos conocer los parámetros poblacionales de las variables de dicho proceso.
Precisamente, el objetivo de la inferencia estadística es extraer conclusiones a partir de los datos
muestrales para poder inferir sobre la población.

La Inferencia Estadística se divide en dos partes: estimación, que consta de la estimación puntual y de
la estimación por intervalos de confianza y del contraste o test de hipótesis. Veamos cada una de ellas:

9.2. Estimación
La estimación pretende obtener el valor de los parámetros poblacionales, de forma más o menos
aproximada, a través de dos métodos que tienen objetivos distintos.

9.2.1. Estimación puntual

El objetivo de la estimación puntual es dar como resultado final un número que represente al valor
estimado del parámetro poblacional objeto del estudio.

83
Unidad de aprendizaje 9. Inferencia estadística
Internacional
de Valencia

La estimación puntual de los parámetros poblacionales se realizará a través de los valores de los
estadísticos obtenidos mediante la toma de muestras. Como ya hemos visto, puede haber distintos
estadísticos que midan un mismo parámetro, con lo que ahora, nuestro problema principal es
determinar cuál es el mejor estimador.

Vídeo. Ejercicio estimación puntual.

Las características deseables de un estimador son: que sea insesgado, es decir, que su valor medio
coincida con el valor del parámetro poblacional que quiere estimar. Por ejemplo, la media muestral es
un estimador insesgado de la media poblacional, sin embargo, la varianza muestral !! no es un estimador
insesgado, por lo que no se suele utilizar para estimar a la varianza poblacional. La otra característica
deseable es que sea un estimador Uniformemente de Mínima Varianza (UMV) que explicado de forma
sencilla significa que, de todos los estimadores, el mejor es el que tiene siempre menor varianza.

Por tanto, podemos considerar que si un estimador es insesgado y además es UMV, entonces es un
estimador óptimo, es decir, es el que tiene menor probabilidad de cometer un error e determinado.

A través de este método de estimación podemos determinar los parámetros de una característica de
calidad de un producto, con el fin de comprobar si ésta tiene, por ejemplo, las dimensiones correctas.
Para realizar esta comprobación, en Control Estadístico del Proceso se utiliza una herramienta, que
se llama Gráfico de Control y del que tenemos un ejemplo en la figura 29 de la página siguiente.

Sin pretender profundizar demasiado, el funcionamiento básico de este tipo de gráfico es muy sencillo:
tomamos una muestra de entre 2 y 5 piezas, hallamos la media muestral y, por ejemplo, el rango, y los
llevamos a los gráficos correspondientes, de tal forma que si los valores caen dentro de los límites
decidimos que la media y la desviación típica poblacional son las correctas, en caso contrario, decidimos
que alguna de ellas ha cambiado. Al cabo de cierto tiempo tomamos otra muestra y así sucesivamente.

Fijémonos que en este caso no disponemos de una única muestra de tamaño n sino que tenemos de
m muestras de tamaño n, es decir, un total de tamaño de m•n datos. Pues bien, aprovecharemos esta
información para hacer la estimación de la media y de la desviación típica poblacional:

La media poblacional la estimaremos mediante la media de las medias muestrales:

m x1 m n xi
^
µ =x = Σ m = Σ Σ m⋅n
i=1 i=1 j=1

84
Fundamentos de Estadística
Internacional
de Valencia

MEDIA
DISP

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
x1 0,25 0,24 0,23 – – – – – – – – – 0,23 0,23
x2 0,22 0,23 0,21 0,23 0,23
x3 – – – – –
x4 – – – – –
x5 0,23 0,25 0,22 – – – – – – – – – 0,23 0,23
X 0,24 0,23 0,22 – – – 0,23 0,23
R 0,00 0,02 0,02 – – – 0,03 0,03

Figura 29. Gráfico de Control.

Para estimar la varianza poblacional podríamos seguir utilizando la s2m·n-1si tomamos los m⋅n datos del
gráfico, calculada como:

m n (xi,j-x )2
s mn-1 =
2
Σ Σ m⋅n-1
i=1 j=1

seguramente es un buen estimador pero tiene el problema de que el cálculo puede ser un proceso tedioso.

85
Unidad de aprendizaje 9. Inferencia estadística
Internacional
de Valencia

Otra forma más sencilla sería utilizar, en el caso del ejemplo, los rangos ya calculados en el gráfico de
control: puesto que E(R) = σ⋅d2,n podemos obtener una estimación de la desviación típica mediante la
media muestral de los rangos:

σ= R
^
d2,n

que se convierte en peor estimador α medida que n aumenta.

Si en lugar de utilizar los rangos para controlar la dispersión hubiésemos hallado para cada muestra
sn-1, la estimación de la desviación típica habría sido:

σ = Sn-1
^
C4,n

que es mejor estimador que el anterior.

A pesar de que la estimación de la desviación típica poblacional a través de R es peor estimación que
la que hacemos a través de sn-1, la primera es la más utilizada. Esto es debido a que, en la mayoría de
procesos, los gráficos se siguen haciendo a mano y por el operario, con lo cual el cálculo del rango para
cada muestra es mucho más sencillo que el de la desviación típica muestral.

Con la estimación de la proporción poblacional ocurre algo similar que para estimación de la media y
de la desviación típica: debemos utilizar los datos de los que disponemos en el gráfico de control para
hacer la estimación.

El gráfico de control que se utiliza para controlar los atributos es parecido al de variables. Consta de
m muestras de tamaño ni (en este caso los tamaños de muestra no tienen porqué ser iguales) donde se
determina para cada una de ellas: el número de piezas defectuosas (npi) o de defectos (ci) encontrados
en esa muestra i y la proporción de piezas defectuosas (pi) o de defectos (ui) según la característica
que estemos controlando.

Con los datos anteriores podemos hacer la estimación de la proporción de dos formas: para el caso
de que la característica que estamos controlando sean las piezas defectuosas (distribución binomial),
los estimadores son:
m
m
pi Σ npi
^
p1= Σ
i=1
ó ^
p2 = i=1
n
m Σ
i=1
ni

Para el caso de defectos (distribución de Poisson) son:


m
m
ui Σ c
^
p1= Σ
i=1
ó ^
p2 =
i=1 i

m n ni
Σ
i=1

86
Fundamentos de Estadística
Internacional
de Valencia

Los dos estimadores son insesgados, pero el primero tiene mayor varianza que el segundo, luego
normalmente utilizaremos ^
p2 para hacer la estimación de la proporción.

9.2.2. Tamaño de muestra

Otra cuestión importante es determinar el tamaño de muestra que debemos utilizar para hacer una
buena estimación. Dependiendo de qué parámetro poblacional queramos estimar y qué estadístico
utilicemos para hacer la estimación, el tamaño de muestra necesario será distinto.

Vídeo. Ejercicio tamaño de muestra.

Es evidente, que cuando realizamos una estimación tenemos un cierto riesgo de cometer un
determinado error. Esto quiere decir que, una vez que hemos calculado la estimación no sabemos si
hemos cometido un error o si, por el contrario, el resultado que se ha obtenido es el valor exacto del
parámetro poblacional, pero sí que sabemos que tenemos una cierta probabilidad de no acertar.

Así pues, para poder determinar el tamaño de muestra, debemos fijar el valor del error e que nos
podemos permitir cometer y la probabilidad a de cometer un error superior a e, es decir, plantear la
siguiente ecuación:

P(X>ε)≤α

donde X es la diferencia entre el parámetro poblacional y el estimador y a es lo que se llama nivel de


significación. A (1-a) se le llama nivel de confianza. Si sabemos la distribución de X, podremos despejar
el tamaño de la muestra.

Para el caso de la estimación de la media poblacional a través de la media muestral el procedimiento


es sencillo:

P|x -µ|>ε)≤α

como la distribución de la media muestral es conocida, tipificando la expresión anterior queda:

ε ε
(
P Z>
σ/√n ) ≤α/2⇒z ≤
a/2
σ/√n

entonces:

n≥ ( σ⋅εz )
a/2

En el caso de que partiéramos de un gráfico de control no habría más que sustituir n por m•n y con lo que
podríamos determinar cuántas muestras y de qué tamaño hacen falta para hacer nuestra estimación.

87
Unidad de aprendizaje 9. Inferencia estadística
Internacional
de Valencia

Para calcular el tamaño de muestra de la estimación de la varianza poblacional, debemos plantear la


ecuación:

^
(| |>δ ) ≤α
σ2 -σ2
P
σ2

donde ahora debemos tener en cuenta el error relativo δ. Dependiendo de qué estimador utilicemos
el tamaño de muestra será diferente. No podemos dar una fórmula concreta de tamaño de muestra
puesto que ésta no existe, pero podemos acudir a gráficas para averiguarlo. Estas gráficas no las
mostramos por salirse fuera de nuestros objetivos.

El cálculo del tamaño de muestra necesario para hacer la estimación de la proporción poblacional,
también es relativamente fácil de calcular: la ecuación a resolver es:

P(|^
p -p|>ε)≤α

Para el caso de que X sea una distribución binomial, el tamaño de muestra necesario sería

n≥ ( √pqε⋅z )2 a/2

Y para el caso de que X sea una distribución de Poisson:

n≥ ( √qε⋅z )2 a/2

Es curioso que para poder hallar el tamaño de muestra a utilizar en la estimación de p necesitamos,
precisamente, conocer p. Para evitar este círculo, podemos darle a p el valor más crítico que es p = 0’5,
aunque el tamaño de muestra saldrá más grande de lo deseado.

En el caso de que dispongamos de una estimación de p la utilizaremos. En un gráfico de control,


podemos utilizar los datos para realizar una estimación previa aunque ésta no esté determinada
con el tamaño de muestra que correspondería (el gráfico de control suele tener más datos de los
realmente necesarios).

Hasta ahora hemos considerado que las poblaciones son de tamaño infinito. Si las poblaciones son
finitas, el tamaño de muestra para la estimación de la media poblacional es:

z
2
⋅(p⋅q)⋅σ2
a/2
n=
(N-1)⋅ε2 z a/2⋅σ2
2
+
N N

El tamaño de muestra para la estimación de proporciones de una población finita es:

88
Fundamentos de Estadística
Internacional
de Valencia

Si X es Binomial:

⋅(p⋅q)
2
z a/2
n=
(N-1)⋅ε z a/2⋅(p⋅q)
2
2
+
N N

Si X es Poisson:

z
2
⋅λ
a/2
n=
(N-1)⋅ε2 ⋅λ
2
z
+ a/2

N N

9.2.3. Estimación por intervalos de confianza

El objetivo de la estimación por intervalos de confianza en buscar un intervalo que contenga con una
probabilidad dada al valor verdadero del parámetro poblacional:

P[L1(x )≤θL2(x )]=1-α

donde 1-α es el nivel de confianza y a es el nivel de significación. Los intervalos de confianza más
utilizados son:

•• Para la media:

–– Si α es conocida:

σ
x ±za/2⋅ √n

–– Si α es desconocida:

s
x ±t n-1 ⋅
(α/2)

•• Para la varianza:

[ ]
(n-1)⋅s2 (n-1)⋅s2
2(α/2) ,
χn-1 χn-1
2(1-α/2)

89
Unidad de aprendizaje 9. Inferencia estadística
Internacional
de Valencia

•• Para las proporciones (binomial):

–– Se lee en tablas o en gráficos

–– P(L1 ≤ p ≤ L2) = 1 – 2 ⋅ α

•• Para la diferencia de medias:

–– Si σ1 y σ2 son conocidas:


σ21 σ22
(x1-x2)±za/2⋅
n1 n2

–– Si σ1= σ2= s son desconocidas:

t(α/2)
(x1-x2)± n1+n2-1⋅s*⋅
√ n1
1
+
1
n2

con

s2 s2
(n1-1)⋅ 1 +(n2-1)⋅ 2
s*=
n1+n2-2

–– Para la razón de varianzas:

[ ]
s21 /s22 s21 /s22
,
Fn(α/2)
1-1,n2-1
Fn(1-α/2)
1-1,n2-1

Vídeo. Ejercicio estimación por


intervalos de confianza.

90
Unidad de aprendizaje 10

Test de hipótesis

10.1. Introducción
Mediante esta herramienta estadística pretendemos comprobar si se verifican determinadas
hipótesis establecidas sobre el valor de algún parámetro o de una distribución, de tal forma que,
aceptamos o rechazamos el cumplimiento de dichas hipótesis.

Veamos cuáles son las etapas para la realización de un test de hipótesis: en primer lugar definimos
lo que se llama la hipótesis nula H0, que es precisamente la premisa que queremos comprobar. En
segundo lugar definimos la hipótesis alternativa H1 que es la que se aceptará como válida cuando la
primera no sea cierta. A partir de aquí, tomamos una muestra de tamaño n y aplicamos una regla de
decisión, que dependerá de cuáles hayan sido las hipótesis H0 y H1 planteadas.

Al igual que en una estimación, y puesto que tomamos decisiones a través de las observaciones de una
muestra, tenemos cierto riesgo de cometer un error por el carácter aleatorio de la información empleada.

Pues bien, en los test de hipótesis, podemos cometer dos tipos de error: error de primera especie o
tipo I que es tomar la decisión de que la hipótesis nula es falsa cuando en la realidad es cierta y error
de segunda especie o tipo II que es decidir que es cierta la hipótesis nula cuando realmente no lo es.
En la figura 30 se han representado estos dos tipos de error.

91
Unidad de aprendizaje 10. Test de hipótesis
Internacional
de Valencia

Aceptar Correcto

Verdadera
Rechazar Error 1ª especie α

H1

Aceptar Error 2ª especie β


Falsa

Rechazar Correcto

Figura 30. Tipos de error.

Cuando ya hemos tomado una decisión, no sabemos si hemos acertado o no, lo único que sabemos
es que tenemos un cierto riesgo de equivocarnos. Así pues, a la probabilidad de cometer un error de
primera especie se le llama a y a la probabilidad de cometer un error de segunda especie se le llama b.

Un gráfico de control no es más que la combinación de dos test de hipótesis que comprueban si la
media y si la desviación típica del proceso y son las que deben ser.

10.2. Principales test de hipótesis


Veamos la zona de aceptación de la hipótesis nula para los test más utilizados:

•• H0(µ = µ0) vs H1(µ≠ µ0)

–– Si σ es conocida:

σ σ x /µ0
{
A= x / µ0-Za/2 ⋅
√n
≤x ≤ µ0+Za/2 ⋅
√n} { |σ/√n| ≤Z }
o A= x / a/2

–– Si σ es conocida:

x /µ0
{ } { | s/√n | ≤t }
s t(α/2) s
n-1 ⋅
(α/2)
A= x / µ0-t(α/2) ≤x ≤ µ0+ n-1 ⋅ o A= x / n-1
√n √n

•• H0(µ = µ0) vs H1(µ > µ0)

–– Si σ es conocida:

σ x /µ0
{
A= x /x ≤ µ0+Za/2 ⋅
√n } {
o A= x /Z=
σ/√n
≤Za/2 }

92
Fundamentos de Estadística
Internacional
de Valencia

–– Si σ es conocida:

x /µ0
{ √n } { }
s
n-1 ⋅
A= x /x ≤ µ0+t(α/2) ≤t n-1
(α/2)
o A= x /t(α/2)
n-1 =
s/√n

•• H0(µ1 = µ2) vs H1(µ1≠ µ2)

–– Si σ1 , σ2 son conocidas:

√ √
σ21 σ22 σ21 σ22
{
A= x / -Za/2 ⋅ + ≤x1 -x2 ≤Za/2 ⋅
n1 n2 n1
+
n2
}
–– Si σ1 = σ2 = σ son desconocidas:

{
A= x1 ,x2/ -t n1+n2-2 ⋅s*
(α/2)

√ 1 1
+ ≤x1 -x2≤t n1+n2-2 ⋅s*
n1 n2
(α/2)

√ 1
+
1
n1 n2 }
con

(n1-1)⋅s21 + (n2-1)⋅s 2
2
s*=
n1+ n2-2

En el caso de los test utilizados para comprobar la varianza poblacional, la zona de aceptación
dependerá, como siempre, del estadístico que utilicemos. Si utilizamos la varianza muestral los test
de hipótesis serán:

•• H0(σ=σ0) vs H1(σ≠σ0):

χn-1
2(1-α/2)
χn-1
2(1-α/2)

{
A= x1 / σ0 ⋅
2

n-1
≤s n-1≤ σ0 ⋅
2 2

n-1
}
•• H0(σ=σ0) vs H1(s=σ0):

χn-1 s2n-1⋅(n-1)
{ } { }
2(1-α/2)
A= x1 /s2n-1⋅ ≤ σ20 ⋅ o A= x1 / ≤ χn-1
2(α)

n-1 σ 2
0

Vídeo. Ejercicio Test de hipótesis


estadística.

93
Unidad de aprendizaje 10. Test de hipótesis
Internacional
de Valencia

•• H0(σ1=σ2) vs H1(σ1≠σ2):

1 s21
{
A= x1 ,x2/
Fn(α/2)
1
1,n -1
2
≤ 2 ≤ Fn1-1,n2-1
s2
(α/2)
}
•• H0(σ1=σ2) vs H1(σ1>σ2):

s21
{
A= x1 ,x2/
s22
≤ Fn1-1,n2-1
(α)
}
Si utilizamos el Rango, los test de hipótesis serán:

•• H0(σ=σ0) vs H1(σ≠σ0): A={x /σ0⋅v(1-α/2) ≤R≤ σ0 ⋅v(1-α/2)


2
n n }

•• H0(σ=σ0) vs H1(σ>σ0): A={x /R≤ σ0 ⋅v(1-α/2)


2
n }

Para el caso de la comprobación de las proporciones poblacionales, tendremos que diferenciar el tipo
de distribución discreta con la que estamos trabajando:

•• H0(p = p0) vs H1(p ≠ p0) (Binomial).

A={np0-zα/2√np0q0≤x≤np+zα/2√np0q0}

•• H0(p = p0) vs H1(p > p0) (Binomial).

A={x≤np0+zα√np0q0}

•• H0(p1 = p2) vs H1(p1 ≠ p2) (Binomial).

^
p1 -^
p2 n1 ^
p1 -n2 ^
p2
A= {| √
1 1 ≤Za/2
p ⋅ n +n
^ } con ^
p=
n1 +n2 ^
1 2

•• H0(p = p0) vs H1(p ≠ p0) (Poisson).

A={np0-zα√np0≤x≤zα/2√np0}

•• H0(p = p0) vs H1(p>p0) (Poisson).

A={x≤np0+zα√np0}

Así pues, el gráfico de control para la media comprueba las hipótesis H0(µ = µ0) vs H1(µ ≠ µ0) para cada
una de las m muestras. El gráfico de control para la desviación típica comprueba las hipótesis H0(σ =
σ0) vs H1(σ ≠ σ0) que resuelve mediante el rango o la desviación típica muestral según sea el caso.

94
Fundamentos de Estadística
Internacional
de Valencia

10.3. Potencia del test y curva característica


Como ya hemos estudiado, el test de hipótesis no es un método exacto que determina si la media,
la varianza o la proporción ha cambiado o no: sabemos que tenemos cierto riesgo de cometer
determinados tipos de error. Estos riesgos pueden aumentar o disminuir dependiendo, por ejemplo, del
tamaño de muestra que tomemos, del descentrado que pretendamos detectar mediante en test, etc.

Precisamente, la potencia del test y la curva característica (OC) hacen referencia a su eficacia,
es decir, a la capacidad de detectar las situaciones en las que no se cumple H0. La diferencia entre
ambas es que una es el “suceso” contrario de la otra: mientras que la OC representa la probabilidad de
aceptar la hipótesis nula frente al valor del parámetro poblacional, la Potencia del test representa la
probabilidad de rechazarla.

La Potencia y la OC dependen del test de hipótesis que estemos contrastando. Así, si realizamos el
test unilateral H0(µ= µ0) vs H1(µ > µ0) la OC tendrá la forma de la figura 31.

Figura 31. Curva Característica en test unilateral.

Si es el test bilateral H0(µ = µ0) vs H1(µ ≠ µ0) la OC es la de la figura 32.

Figura 32. Curva Característica en test bilateral.

95
Unidad de aprendizaje 10. Test de hipótesis
Internacional
de Valencia

En el caso del ejemplo, lo ideal sería que cuando la media fuese µ0 la probabilidad de aceptar la
hipótesis nula, Pa, fuese 1 y que cuando la media no sea µ00 la probabilidad de aceptar H0 fuese 0, cosa
que conseguiríamos si tomásemos toda la población para tomar la decisión.

Puesto que tomamos muestras, en lugar de toda la población, la OC se va despegando de los ejes
a medida que disminuimos el tamaño de muestra (disminuye su pendiente), y por lo tanto, la OC
representa la probabilidad de aceptar la H0 cuando la media es µ0, que equivale a 1-α, y la probabilidad
de aceptar H0 para el resto de valores de µ, que es la β.

Dicho de otra forma, valores del parámetro, que llamaremos en general θ, que estén relativamente
próximos a θ0 serán confundidos con bastante frecuencia con éste, haciéndonos tomar la decisión de
que son, precisamente, θ0 cuando realmente no lo son. La Curva Característica nos dice entonces con
qué frecuencia confundiremos cualquier valor de θ con θ0 .

Por ejemplo, supongamos que estamos fabricando piezas que deben tener una longitud media de 20
cm. El contraste de hipótesis a plantear para comprobar que la media es 20 cm. es:

H0(µ= 20) vs H1(µ ≠ 20)

Supongamos ahora que el proceso se ha estropeado y que se está fabricando con una media de
20’5 cm., cosa que nosotros no sabremos hasta que tomemos una muestra y realicemos el test de
hipótesis. El problema es que 20’5 es un valor relativamente próximo a 20 con lo que el test puede
equivocarse y decirnos que la media es 20 cuando en realidad es 20’5. Es decir, puede que no sea
capaz de detectar un descentrado de la media de 0’5 cm. Pues bien, la OC nos dirá la probabilidad de
aceptar que la media es 20 cuando realmente es 20’5. Si ésta es alta es que no es capaz de detectarlo,
si es baja (se suelen aceptar valores de b entre el 5% ó el 10%) es que sí que lo es.

Como hemos comentado anteriormente, cada test de hipótesis tiene su propia curva característica.
Veamos solo algunas de ellas:

En el caso del contraste H0(µ = µ0) vs H1(µ ≠ µ0) la probabilidad de aceptar la hipótesis nula para
cualquier valor de media es:

σ σ
(
Pa= P µ0-Za/2 ⋅
√n
≤x ≤ µ0+Za/2 ⋅
√n
/µ= µ1 )
sabemos la distribución de la media muestra, luego tipificando:

µ0-Za/2 ⋅σ/√n-µ1 µ +Z ⋅σ/√n-µ1


( ) ( σ/√n )
µ0-µ1 µ0-µ1
Pa(µ1)= P ≤Z≤ 0 a/2 =P -Za/2 ≤Z≤ +Za/2
σ/√n σ/√n σ/√n

96
Fundamentos de Estadística
Internacional
de Valencia

llamamos descentrado relativo a

|
µ0-µ1
d=
σ

entonces: Pa(µ1)= P(d⋅√n-Zα/2 ≤Z≤d⋅√n+Zα/2 )= ∅(d⋅√n+Zα/2 )-∅(d⋅√n-Zα/2 )

el primer término será prácticamente 1 puesto que a suele ser muy pequeño, entonces:

Pa(µ1)≈1-∅(d⋅√n-Zα/2 )= ∅(Zα/2-d⋅√n )

En el caso de que contrastemos H0(σ = σ0) vs H1(σ≠ σ0) mediante el rango, la curva característica será:

( vr ) - F (v r )
(α/2) (1-α/2)
Pa(σ1)=Fv n
v
n

d d

donde:

σ1
rd=
σ0

Los tamaños de muestra los podemos obtener despejando n de la ecuación de la curva característica.

El más importante de ellos es para el contraste de hipótesis es H0(µ = µ0) vs H1(µ ≠ µ0). Entonces el
tamaño de muestra se calcula mediante:

(
za/2+zβ 2
n≥
d )

97
Unidad de aprendizaje 10. Test de hipótesis
Internacional
de Valencia

10.4. Ejercicios
1. Determinar el tamaño de muestra a tomar en el estudio de la fabricación de ciertas piezas para
que la media muestral de una cierta dimensión difiera de la media poblacional en menos de 1
cm. con una probabilidad del 95 % si σ = 3.

2. Una muestra de 16 transistores ha presentado una vida media de 734 horas. Si suponemos que
la vida tiene una distribución normal ¿Puede aceptarse que la media poblacional es de 740
horas si σ= 12? ¿Y si s es desconocida y sabemos que σn-1 es 12? Tomar σ = 0,05.

3. Sea X una variable aleatoria con distribución N(µ,1). Con el fin de contrastar las hipótesis H0(µ =
2) vs H1(µ ≠ 2) se toma una muestra siendo ésta: {2.1, 2,2, 2,5, 1.9, 1,2}

Si a = 0’05, ¿Podemos aceptar la hipótesis nula?

4. En un proceso de fabricación de tornillos se desea que la proporción máxima de tornillos


defectuosos debe ser de un 0,5 %. En un control de fabricación tomamos una muestra de 100
tornillos y encontramos 1 defectuoso. Si tomamos α = 0,05 ¿podemos afirmar que el proceso
está fuera de control?

5. Para contrastar las hipótesis H0(λ = 1) vs H1(λ = 2) se dispone de una única observación x que
proviene de una distribución de Poisson, Ps(λ). Si se toma como región de rechazo x ≥ 4,
calcular las probabilidades de los errores de tipo I y tipo II.

98
Glosario

Se presentan algunos términos básicos utilizados en la estadística y en el presente manual.

En varios sitios de internet y en específico en la siguiente dirección, correspondiente al ISI Network


(International Statistical Institute) se pueden realizar consultas sobre un glosario más amplio.

http://isi.cbs.nl/glossary/

Al azar
Procedimiento de asignación o selección de unidades en el cual dichas unidades tienen una probabilidad
conocida y no nula de ser asignados a un determinado grupo o ser seleccionados en un muestreo.

Combinaciones
Grupos de n elementos formado a partir de un efectivo de m unidades sin importar el orden.

Contraste de hipótesis
Una hipótesis estadística es una afirmación respecto a alguna característica de una población.
Contrastar una hipótesis es comparar las predicciones con la realidad que observamos. Si dentro del
margen de error que nos permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en caso
contrario la rechazaremos.

Desviación estándar
Medida de variabilidad que se obtiene como la raíz cuadrada de la varianza, es la diferencia promedio
de todos los valores reales de los sujetos con relación a la media.

Desviación típica
Sinónimo de desviación estándar. Véase desviación estándar.

Espacio muestral
Es el conjunto de todos los resultados posibles de un experimento aleatorio.

Estadística descriptiva
Es la parte de la estadística que se dedica “al tratamiento” de los datos para, mediante el uso de los
parámetros de posición y forma y de un conjunto de representaciones gráficas,“extraer”la información
contenida en estos datos.

99
Glosario
Internacional
de Valencia

Estadístico
Es cualquier función de los valores muestrales. También estadístico se llama a la persona que se
dedica a la estadística.

Fenómenos aleatorios
Son aquellos en donde no se sabe con seguridad lo que va a pasar. Estos sucesos dependen del azar.

Independencia de sucesos
Dos o más sucesos son independientes entre sí cuando el conocimiento de que ha ocurrido uno o
varios de ellos no modifican la probabilidad de que ocurran los otros.

Inferencia estadística
Conjunto de procedimientos estadísticos centrados en el análisis con el fin de obtener conclusiones
que, con un margen de confianza conocido, sean extrapolables a todo el conjunto de datos que posea
una determinada característica en estudio.

Intervalos de confianza
Intervalos que contiene con una probabilidad dada 1−α al valor verdadero del parámetro poblacional.

Media
Medida de posición que se calcula como el cociente entre la suma de los valores de una variable y el
número de observaciones.

Mediana
Medida de posición que divide en dos partes iguales el conjunto de las observaciones.

Medidas de posición
Parámetros, como la media, la mediana o la moda, que proporcionan un valor representativo del
conjunto de valores de una variable.

Medidas o parámetros de dispersión


Parámetros, como la desviación estándar o el rango, que indica el grado de dispersión de los valores
de una variable.

100
Fundamentos de Estadística
Internacional
de Valencia

Moda
Parámetro de posición que viene dada por el valor que se presenta con más frecuencia en la
distribución de una variable.

Muestra
Subconjunto de observaciones seleccionadas de una población.

Muestreo
Llamamos muestreo a la forma de obtener la muestra.

Nivel de confianza
Grado en que un procedimiento estadístico permite establecer una conclusión correcta.
Generalmente se simboliza como 1−α, siendo α el error de Tipo I. Probabilidad de que la hipótesis nula
no sea rechazada cuando de hecho es verdadera y debería ser aceptada.

Permutaciones
Son las distintas ordenaciones de un conjunto de n elementos.

Promedio
Media. Véase media.

Rango
Es el parámetro que se calcula como la diferencia entre el valor máximo y el valor mínimo y mide la
amplitud de los valores de una distribución.

Recorrido intercuartílico
Medida de la dispersión de los datos expresada por el valor de la diferencia entre el valor
correspondiente al tercer y al primer cuartil.

101
Glosario
Internacional
de Valencia

Significación estadística (nivel de)


El nivel de significación α se define como la probabilidad de rechazar erróneamente la hipótesis nula,
que en el ámbito de la ingeniería se acostumbra a fijar en el 5% (P<0,05).

Variables
Características cuyos valores varían a lo largo de las observaciones. Según su escala de medida puede
ser cualitativa o cuantitativa.

Varianza
Parámetro de la dispersión de los valores de una variable, es la medida de las desviaciones de los
datos respecto a su media al cuadrado.

102
Enlaces de interés

Sitio del Instituto Nacional de Estadística encargado de la realización de las operaciones estadísticas
de gran envergadura (censos demográficos y económicos, cuentas nacionales, estadísticas
demográficas y sociales, indicadores económicos y sociales, coordinación y mantenimiento de los
directorios de empresas, formación del Censo Electoral...).

http://www.ine.es/

Sociedad Española de Biometría (SEB). Brinda información y contactos interesantes.

http://www.biometricsociety.net/category/enlaces-de-interes/

The R project es un entorno para la estadística de gran interés. Su fácil uso y las enormes capacidades
para resolver problemas y conectar con otros sistemas junto con su coste 0 hacen del entorno uno de
los mejores.

http://www.r-project.org/

Sitio de la Bernoulli Society que está enfocada a la estadística y la probabilidad.

http://www.bernoulli-society.org/

Página del Institute of Mathematical Statistics (IMS).

The IMS is an international professional and scholarly society devoted to the development,
dissemination, and application of statistics and probability.

http://imstat.org/en/index.html

Pagina creada por Dr. John C. Pezzullo. Posiblemente una de las mejores recopilaciones de utilidades
estadísticas.

http://statpages.info/JCPhome.html

Enlace donde pueden visualizarse multimedias del autor Suitberto Cabrera sobre los contenidos de la
asignatura.

https://riunet.upv.es/browse?authority=288785&type=author

103
Bibliografía

Referencias bibliográficas
Carrión García A. y Carot Sánchez T. (2005). Introducción a la Fiabilidad. Valencia: Universidad
Politécnica de Valencia.

Martin-Pliego López J. y Ruiz-Maya Pérez L. (2004). Estadística y probabilidad. Madrid: Editorial S.A.
Ediciones Paraninfo.

Montgomery D. C. (2011). Probabilidad y estadística aplicadas a la ingeniería. Mexico: Limusa-Wiley.

Romero Villafranca R. y Zunica Ramajo L R. (2003). Introducción a la estadística. Valencia: Universidad


Politécnica de Valencia.

Romero Villafranca R. y Zunica Ramajo L. R. (2005). Métodos Estadísticos en Ingeniería. Valencia:


Universidad Politécnica de Valencia.

Sanz J. J. (2007). Formulario y tablas de estadística. Valencia: Editorial UPV.

Tukey J. W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley.

Bibliografía recomendada
Arriaza Gómez A. J., Fernández Palacín F., López Sánchez M. A., Muñoz Márquez M., Pérez Plaza S. y
Sánchez Navas A. (1998). Estadística básica con R y R-Commander. Cádiz: Universidad de Cádiz.

Azorín, F. Y Sánchez-Crespo, J. L. (1994). Métodos y aplicaciones del muestreo. Madrid: Alianza.

Berry, D. A. (1996). Statistics, a Bayesian perspective. Belmont, CA: Duxbury Press.

Box, G. E. P., Hunter, W.G. Y Hunter, J. S. (1988). Estadística para investigadores. Introducción al Diseño
de Experimentos, Análisis de Datos y Construcción de Modelos Trad.). Barcelona: Reverté.
(Traducción del original, 1978).

Calot, G. (1988). Curso de estadística descriptiva (Cano, F. J., Trad.). Madrid: Editorial Paraninfo.
(Traducció de l’original Cours de statistique descriptive, 1969).

Cooper, H. M. (1989). Integrating Research: A Guide for Literature Reviews. Beverly Hills,

CA: Sage. Fisher, R.A. (1973a). Statistical methods for research workers (14ª ed.). New York: Hafner
Press. Fisher,

R.A. (1973b). Statistical methods and scientific inference (3ª ed.). New York: Hafner Press.

Gardner, M. J. Y Altman, D.G. (1989). Statistics with Confidence. Confidence intervals and statistical
guidelines. London: British Medical Journal.

105
Bibliografía
Internacional
de Valencia

Graham, J. W. (2012). Missing Data: Analysis and Design. New York: Springer New York.

Harris, R. J. (1985). A Primer of Multivariate Statistics. New York: McGraw-Hill.

Hedges, L. V. Y Olkin, I. (1985). Statistical Methods for Meta-analysis. New York: Academic Press.

Howson, C. Y Urbach, P. (1993). Scientific reasoning: the bayesian approach (2 ed.). Peru, IL: Open Court.

Iversen, G.R. (1984). Bayesian Statistical Inference. Beverly Hills, CA: Sage.

Kish, L. (1972). Muestreo de encuestas. México: Trillas.

Krauth, J. (1988). Distribution-free statistics. An application-oriented approach. Amsterdam: Elsevier.

Lopez De La Manzanara B. J. (2004). Problemas de Estadística (Economía y Empresa). Madrid:


Piramide Ediciones.

Mccullagh, P. y Nelder, J.A. (1989). Generalized linear models (2ª ed.). London: Chapman & Hall.

Meyer P.L. (1999). Probabilidad y Aplicaciones Estadísticas. Estados Unidos: Addison Wesley
Longman.

Montgomery D.C. (2011). Probabilidad y estadística aplicadas a la ingeniería. México: Limusa-Wiley.

Myers R. H., Myers S. L. y Walpole R. E. (2000). Probabilidad y Estadística para Ingenieros. United
States: Prentice Hall.

Myra L.S., Jeffrey A. W. y Schaffner A.A. (2012). Fundamentos de estadística para las ciencias de la
vida. Madrid: Pearson Educación.

Neyman, J. y Pearson, E.S. (1933). On the problem of the most efficient tests of statistical hypotheses.
Philosophical Transactions of the Royal Society of London, 231a, 289-337.

Neyman, J.yPearson, E.S. (1928). On the use and interpretation of certain test criteria for purposes of
statistical inference. Biometrika, 20, Part I: 175-240, Part II: 263-294.

Noreen, E. (1989). Computer intensive methods for testing hypotheses. New York: John Wiley and Sons.

Peña, D. (1991). Estadística: Modelos y métodos. 1: Fundamentos (2ª ed. rev.). Alianza Universidad
Textos nº 109. Madrid: Alianza Editorial, S.A.

Popper, K.R. (1962). La lógica de la investigación científica. Madrid: Tecnos. (Traducción de la edición
inglesa publicada en 1959).

Richardson, J.T.E. (1996). Measures of effect size. Behavior Research Methods, Instruments and
Computers, 28, 12-22.

Runger, G.C. (2010). Applied statistics and probability for engineers. New York: John Wiley & Sons.

106
Fundamentos de Estadística
Internacional
de Valencia

Sanz J.J. (2007). Formulario y tablas de estadística. Valencia: Editorial UPV.

Siegel, A.F. Y Morgan, C.J. (1996). Statistics and Data Analysis: An Introduction. New York: John
Wiley and Sons.

Siegel, s. y Castellan, N.J. (1988). Nonparametric Statistics for the Behavioral Sciences (2ª ed.). New
York: McGraw-Hill.

Tucker, H.G. (1966). Introducción a la teoría matemática de las probabilidades y a la estadística.


Barcelona: Editorial Vicens-Vives.

Tukey, J.W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley.

Walpole, R.E. Y Myers, R.H. (1992). Probabilidad y estadística. México: McGraw-Hill.

Westfall, P.H. Y Young, S.S. (1993). Resampling-based multiple testing. Examples and methods for
p-value adjustement. New York: John Wiley and Sons.

Wilcox, R.R. (1997). Introduction to Robust Estimation and Hypothesis Testing. San Diego, CA:
Academic Press.

Wonnacott, T.H. Y Wonnacott, R.J. (1979), Introducción a la estadística. México: Limusa.

107
Agradecimientos

Autor Departamento de Desarrollo de Contenidos


Dr. D. Suitberto Cabrera García
Diseñadoras
D.ª Carmina Gabarda López
D.ª Ana Gallego Martínez
D.ª Cristina Ruiz Jiménez
D.ª Sara Segovia Martínez

Internacional
Reservados todos los derechos© de Valencia
Universidad Internacional de Valencia - 2020

You might also like