You are on page 1of 1036

La distribución normal estandarizada

o z

La entrada representa el área bajo la distribución normal estandarizada desde la media hasta la Z

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

o.o .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3630
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .40115
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .45415
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4825 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4787
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .48150 .48M .48157
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4087 .4800
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .411111
2.4 .4918 .4920 4922 .4925 .4927 .4929 .4931 .4932 .41134 .i!U:tll
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 A0!\1 .41115:1
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .41111:l .i!llM
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .41173 .4'1.174
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4UllO .4U01
2.9 .4981 .4982 ,.4982 .4963 .4984 .4984 .4985 .49815 .4980 .'1980
3.0 .49865 .49869 .49874 .49878 .49882 .49886 .49889 .49893 .49897 .49900
3.1 .49903 .49906 .49910 .49913 .49916 .49918 .49921 .49924 .49926 .49929
3.2 .49931 .49934 .49936 .49938 .49940 .49942 .49944 .49946 .49948 .49950
3.3 .49952 .49953 .49955 .49957 .49958 .49960 .49961 .49962 .49964 .49965
3.4 .49966 .49968 .49969 .49970 .49971 .49972 .49973 .49974 .49975 .49976
3.5 .49977 .49978 .49978 .49979 .49980 .49981 .49982 .49982 .49983 .49963
3.6 .49984 .49985 .49985 .49986 .49986 .49987 .49987 .49968 .49988 .49989
3.7 .49989 .49990 .49990 .49990 .49991 .49991 .49992 .49992 .49992 .49992
3.8 .49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995
3.9 .49995 .49995 .49996 .49996 .49996 .49996 .49996 .49996 .49997 .49997
,
ESTADISTICA
,
BASICA EN ,
ADMINISTRACION,
CONCEPTOS Y APLICACIONES
Sexta Edición
,
ESTADISTICA
,
BASICAEN ,
ADMINISTRACION,
CONCEPTOS Y APLICACIONES

Mark L. Berenson
David M. Levine
Department of Statistics and Computer Information Systems
Baruch College, University of New York
Traducción:
Ariadne Catalina Domínguez R.
Traductora
A. Homero Flores Samaniego
Colegio de Ciencias y Humanidades
UNAM
Revisor Técnico:
Ing. Juan Antonio Torremarina
Ing. Mecánico Electricista
Universidad Anáhuac

-------
PEARSON
Educación
®

México • Argentina • Brasil • Colombia • Costa Rica • Chile • Ecuador


España • Guatemala • Panamá • Perú • Puerto Rico • Urugllay •Venezuela
EDICIÓN EN INGLÉS

Acquisitions Editor: Tom Tucker


Production Editor: Katherine Evancie
Managing Editor: joyce Turner
Cover Designer: Sue Behnke
Interior Design: Ed Smith
Design Director: Patricia H. Wosczyk
Buyer: Marie McNamara
Assistant Editor: Diane Peirano
Production Assistant: Renee Pelletier
Marketing Manager: Susan McLaughlin
Cover art: Marjory Dressler

BERENSON: ESTADÍSTICA BÁSICA EN ADMINISTRACIÓN, CONCEPTOS Y APLICACIONES 6/Ed.

Traducido del inglés de la obra: BASIC BUSINESS STATISTICS, Concepts and Applications.

Ali Rights Reserved. Authorized translation from English languaje edition published by Prentice Hall loe. A Simon & Schuster
Company.

Todos los lkrl•t"IH>s Rt•st•rvados. Traducción autorizada de la edición en inglés publicada por Prcntln• 1-lall lnc.

Ali !lights Rt'Sl'I"Vl'd. No part of thls hook may he reproducnl or transmlttt•d In any form or hy any llll'ans, l'lectronlc or
mechanil"al, lndudlng photon1pylng rt•cordlng or hy any lnfor111al1011 storagt• rt•tril•val systt•111, wlthout pt•rmlsslon in writing
from tht• puhllsht•r.

Prohibida la reproducción total o parrlal dl' 1•sta ol>ra, por nmlqull•r llll'dlo o 111(•lmlo sin autorlzadún por t•scrito del editor.

DPrechos reservados© 1996 respecto a la st·gunda l'dldú11 t'll t•spanol puhllrnda por
Prentice Hall Hispanoamericana, S.A.
Atlacomulco Núm. 500-5° Piso
Col. Industrial Atoto
53519, Naucalpan de Juárez, Edo. de México

ISBN 968-880-784-2

Miembro de la Cámara Nacional de la Industria Editorial, Reg. Núm. 1524

Original English Languaje Edition Published by Prentice Hall Inc.


Copyright© MCMXCVI
Ali Rights Reserved

ISBN 0-13-303009-1

Impreso en México/Printed in Mexico


Para nuestras esposas,
Rhoda B. y Marilyn L.
y a nuestros hijos,
Kathy B., Lori B. y Sharyn L.
Contenido Resumido
CAPÍTULO 1 Introducción I
CAPÍTULO 2 Recolección de datos I I
CAPÍTULO 3 Presentación de datos numéricos en tablas
y diagramas 53
CAPÍTULO 4 Resumen y descripción de los datos numéricos I 03
CAPÍTULO 5 Presentación de datos categóricos en tablas
y diagrmas I 69
CAPÍTULO 6 Probabilidad básica 203
CAPÍTULO 7 Algunas distribuciones importantes de probabilidad
discretas 24 I
CAPÍTULO 8 La distribución normal 273
CAPÍTULO 9 Distribuciones de muestreo 3 I 9
CAPÍTULO 10 Estimación 343
CAPÍTULO 11 Fundamentos de la prueba de hipótesis 383
CAPÍTULO 12 Pruebas de una muestra con datos numéricos 42 I
CAPÍTULO 13 Pruebas de dos muestras con datos numéricos 46 I
CAPÍTULO 14 ANOVA y otras pruebas de e muestras con datos
numéricos 525
CAPÍTULO 15 Prueba de hipótesis con datos categóricos 605
CAPÍTULO 16 Aplicaciones estadísticas en administración de la calidad
y productividad 659
CAPÍTULO 17 Regresión lineal simple y correlación 7 I 3
CAPÍTULO 18 Modelos de regresión múltiple 78 I
CAPÍTULO 19 Pronóstico de series de tiempo 857
Respuestas a los problemas seleccionados(•) 92 I
Apéndice A-E A-1
Índice 1-1

vil
Contenido detallado
Prefacio xix
1 Introducción I
1.1 ¿Qué es la estadística moderna? 2
1.2 El crecimiento y desarrollo de la estadística moderna 2
1.3 Pensamiento estadístico y administración moderna 4
1.4 Estudios enumerativos frente a estudios analíticos 5
1.5 El papel de los paquetes de computación en estadística 7
1.6 Resumen y visión general 7
Términos clave 8
Problemas de repaso del capítulo 8

2 Recolección de datos
2.1
//
Introducción: La necesidad de datos 12
2.2 Obtención de datos 13
2.3 Obtención de datos mediante investigación de encuesta 15
2.4 Diseño del cuestionario 20
2.5 Elección del tamaño de muestra para la encuesta 22
2.6 Selección de los sujetos respondientes: tipos de muestras 22
2.7 Extracción de la muestra aleatoria simple 23
2.8 Encuesta sobre la satisfacción de los empleados de Kalosha
industries 25
2.9 Obtención de las respuestas 30
2.10 Preparación de los datos: edición, codificación y
transcripción 31
2.11 Reconocimiento y práctica de una buena investigación de
encuestas y de exploración de cuestiones éticas 41
2.12 Recolección de datos: Un repaso y una visión preliminar 46
Términos clave 48
Problemas de repaso del capítulo 48
Proyectos de aprendizaje colaborativo 50
CASO DE ESTUDIO: Encuesta de la asociación de exalumnos 51

3 Presentación de datos numéricos en tablas


y diagramas 53
3.1 Introducción 54
3.2 Organización de datos numéricos: la clasificación ordenada
y el diagrama de tallo y hojas 54
3.3 Tabulación de datos numéricos: la distribución de
frecuencia 62
3.4 Tabulación de datos numéricos: la distribución de
frecuencia relativa y distribución de porcentaje 67
3.5 Graficación de datos numéricos: el histograma y
el polígono 70
3.6 Distribuciones acumulativas y polígonos acumulativos 74
3.7 Graficación de datos en secuencia: la gráfica dlglpunto 78
3.8 Uso de la computadora para tablas y diagramas con datos
numéricos: la encuesta de satisfacción de los empleados de
Kalosha Industries 83

1'111
3.9 Reconocimiento y práctica de una adecuada lll'l'Sl'llladú11
tabular y de diagramas y exploración de cuestlorH's
éticas 88
3.10 Presentación de datos numéricos: un repaso y una n•vlslón
preliminar 93
Términos clave 94
Problemas de repaso del capítulo 95
Proyectos de minicasos de aprendizaje colaborativo 1O1

4 Resumen y descripción de los datos numéricos I 03


4.1 Introducción: lo que sigue 104
4.2 Exploración de los datos 104
4.3 Propiedades de los datos numéricos 106
4.4 Mediciones de la tendencia central 106
4.5 Mediciones de la variación 118
4.6 Forma 127
4.7 Resumen de cinco números y gráfica de caja
y sesgos 128
4.8 Cálculo de mediciones descriptivas de resumen de una
población 132
4.9 Obtención de mediciones descriptivas de resumen de datos
agrupados 141
4.10 Uso de la computadora para obtener mediciones descripti-
vas de resumen: la encuesta de satisfacción de los
empleados de Industrias Kalosha 150
4.11 Reconocimiento y práctica de un adecuado resumen
descriptivo y exploración de cuestiones éticas 155
4. 12 Resumen y descripción de datos numéricos: un repaso 160
Términos clave 161
Problema• de repaso del capítulo 162
Proyecto do mlnlca101 de aprendizaje colaborativo 165
e,'/\SI\ S'/ 'UI 'Y 11: Campus Cafetería Nutrition Study 166

5 Presentación de datos categóricos en tablas


y diagramas 169
5.1 l11trodun:l(>11 170
5.2 Organlzadó11 y tabulación de datos categóricos: la tabla de
resumen 170
5.3 Graficación de datos categóricos: de barras, de
pastel y de punto 171
5.4 Graficación de datos categóricos: el diagrama de
Pareto 176
5.5 Tabulación de datos categóricos: tablas de contingencia y
supertablas 180
5.6 Uso de la computadora para tablas y diagramas con datos
categóricos: la encuesta de satisfacción de los empleados de
Industrias Kalosha 184
5. 7 Reconocimiento y práctica de una adecuada presentación
tabular y de diagramas y exploración de cuestiones
éticas 189
5.8 Presentación de datos categóricos: una visión general 192

X
Términos clave 193
Problemas de repaso del capítulo 194
Proyectos de minicasos de aprendizaje colaborativo 198
CASO DE ESTUDIO C: Preparación de un programa de televisión e11
red nacional 200

6 Probabilidad Básica 203


6.1 Introducción 204
6.2 Probabilidad objetiva y subjetiva 204
6.3 Conceptos de probabilidad básica 206
6.4 Probabilidad (marginal) simple 211
6.5 Probabilidad conjunta 212
6.6 Regla de la adición 214
6.7 Probabilidad condicional 218
6.8 Regla de la multiplicación 222
6.9 Teorema de Bayes 225
6.10 Reglas de conteo 229
6.11 Comprensión de la probabilidad y exploración de
cuestiones éticas 232
6.12 Probabilidad básica: un repaso y una visión preliminar 233
Términos clave 235
Problemas de repaso del capítulo 235

7 Algunas distribuciones importantes de probabilidad


discreta 241
7.1 Introducción 242
7.2 La distribución de probabilidad para una variable
aleatoria discreta 242
7.3 Espectativa matemática y valor monetario esperado 243
7.4 Funciones de distribución de probabilidad discreta 251
7.5 Distribución binomial 252
7.6 Distribución de Poisson 260
7.7 Algunas distribuciones de prob<l;bilidad discreta:
un repaso 26 7
Términos clave 268
Problemas de repaso del capítulo 269

8 La distribución normal 273


8.1 Introducción 274
8.2 Modelos matemáticos de variables aleatorias continuas:
la función de densidad de probabilidad 274
8.3 La distribución normal 275
8.4 Aplicaciones 281
8.5 Estimación de la suposición de normalidad: propiedades de
evaluación y construcción de gráficas de probabilidad 294
8.6 La distribución normal como una aproximación a las
distribuciones binomial y de Poisson 305
8. 7 La distribución normal: un repaso 311
Términos clave 312
Problemas de repaso del capítulo 3 13
Proyectos de minicasos de aprendizaje colaborativo 316
ESTUDIO DE CASO D:fugando a la Ruleta 317

9 Distribuciones de muestreo 319


9.1 Introducción 320
9 .2 Distribución de muestreo de la media 320
9.3 Distribución de muestreo de la proporción 334
9.4 Muestreo de poblaciones finitas 337
9.5 Distribuciones de muestreo: un repaso 339
Términos clave 340
Problemas de repaso del capítulo 341

1O 10.1
Estimación 343
Introduction 344
10.2 Estimación de intervalo de confianza para la media
( cr conocida) 344
10.3 Estimación de intervalo de confianza de la media
( cr desconocida) 349
10.4 Estimación mediante el mínimo esfuerzo 356
10.5 Intervalo de predicción para un valor individual
futuro 359
10.6 Estimado del intervalo de confianza de la
porción 360
10.7 Determinación del tamaño de muestra para la media 362
10.8 Determinación del tamaño de muestra para la
porción 365
10. 9 Estimación y determinación del tamaño de muestra para
poblaciones finitas 368
10.10 Nueva consideración de la investigación sobre la satisfac-
ción de los empleados de Kalosha Industries 3 72
10.11 Estimación, de terminación de tamaño de muestra y
cuestiones. éticas 3 74
1(). i:Z Estipiación. e inferencia estadística: repaso y
· ' · ' pre1iniinares 3 75
T6rmlno1 clave 377
Problema• dft t'.41Pª'º d'I c~pftulo . 3.77
Proyecto1 d.e' rnlnl~uol 'de aprendlza)e colaborativo 381

11 Fundamentos de la prueba de hipótesis 383


11.1 Introducción 384
11.2 , Metodología de la prueba de hipótesis 384
11.3 . Prueba de hipótesis Z para la media (cr conocida) 390
11.4 Resumen de los pasos de la prueba de hipótesis 393
11.5 Planteamiento del valor p para la prueba de hipótesis:
pruebas de dos extremos 394
11.6 Rel(lción entre la estimación de intervalos de confianza y la
prueba de hipótesis 396
11. 7 Pruebas de un extremo 397
11.8 Planteamiento del valor p para la prueba de hipótesis:
pruebas de un extremo 400

XII
11.9 La potencia de una prueba 401
11.1 O Planeación de un estudio: determinación del tamaño de
muestra basándose en ex y ~ 408
11.11 Riesgos potenciales de la prueba de hipótesis y cuestiones
éticas 411
11.12 Metodología de la prueba de hipótesis: un repaso y una
visión preliminar 415
Términos clave 417
Problemas de repaso del capítulo 417

12 Prueba de una muestra con datos numéricos 421


12.1 Introducción 422
12.2 Elección del procedimiento de prueba apropiado 422
12.3 Prueba t de hipótesis para la media ( cr desconocida) 424
12.4 Prueba de hipótesis de rangos con signo de
Wilcoxon para la mediana 430
12.5 Prueba de hipótesis x2 para la varianza (o desviación
estándar) 437 .
12.6 Prueba de corridas de una muestra de Wald-Wolfowitz 442
12. 7 Uso de la computadora para la prueba de hipótesis:
la encuesta de satisfacción de los empleados de Industrias
Kalosha 449
12.8 Trampas potenciales de la prueba de hipótesis y cuestiones
éticas 455
12.9 Prueba de hipótesis basada en una: muestra de datos num6r1cos:
repaso y visión preliminar 456 ·
Términos clave 456
Problemas de repaso del capítulo 45 7
Proyectos de minicasos de aprendizaje colaboratly~ 459

13 Pruebas de dos muestras con dá.~QJ ,n.1o1mérlco1 461


13.1 Introducción 462 · ,¡ ,
13.2 Elección del procedimiento de pruebas apropiado al
comparar dos muestras independientes 462
13.3 Prueba t de varianza conjunta para diferencias entre
dos medias 463
13.4 Prueba t' de varianza separada para diferencias entre dos
medias 472
13.5 Prueba de sumas de rangos de Wilcoxon para diferencias
entre dos medianas 481 . ·
13.6 Prueba F para diferencias entre dos. v~rlarizás 489
13.7 Uso de la computadora para la p~eba de hipótesis con dos
muestras independientes: la encuesta de satisfacción de los
empleados de Kalosha Industries\· ,~95
13.8 Elección del procedimiento de pruéb.a apropiado al
comparar dos muestras relacionadas 503
13.9 Prueba t para la diferencia de niedias 504
13.10 Prueba de hipótesis de.rango,s q>n signo de Wilcoxon
para la diferencia de medi~s 511 ·
13.11 Trampas potenciales de la prueb~ de hipótesis y cuestiones
éticas 518

XIII
13.12 Prueba de hipótesis basada en dos muestras de datos
numéricos: repaso 518
Términos clave 520
Problemas de repaso del capítulo 520
Proyectos de minicasos de aprendizaje colaborativo 523

14 ANOVA y otras pruebas de c muestras con datos


numéricos 525
14.1 Introducción 526
14.2 Elección del procedimiento de prueba apropiado al comparar
e muestras 527
14.3 El modelo completamente aleatorizado: análisis de varianza
de un factor 527
14.4 Prueba F ANOVA de una dirección para diferencias en e medias 527
14.5 Prueba de rangos de Kruskal-Wallis para diferencias en e
medianas 545
14.6 Uso de la computadora para la prueba de hipótesis con e
muestras independientes: la encuesta de satisfacción de los
empleados de Kalosha Industries 552
14.7 El modelo de diseño de bloque aleatorizado 558
14.8 Prueba F de bloque aleatorizado para diferencias en
e medias 559
14.9 Prueba de rango de Friedman para diferencias en e medias 571
14.10 El modelo de diseño factorial y el análisis de dos direcciones
de varianza 5 77
14.11 Dificultades potenciales de la prueba de hipótesis y cues-
tiones éticas 592
14.12 Prueba de hipótesis basada en c muestras de datos numéricos:
un repaso 593
Términos clave 595
Problemas de repaso del capitulo 596
Proyectos mlnlcaso de aprendizaje colaborativo 600
CASO JJLi /~S'/'U I J/O 1\: Comercialización y promoción de prueba de un
bol(~raf(! 60 I

15 Prueba de hipótesis con datos categóricos 605


15.1 Introducción 606
15.2 Prueba Z de una muestra para la porción 606
15.3 Prueba Z para diferencias entre dos porciones (muestras
independientes) 611
15.4 Prueba 2X2 para diferencias entre dos porciones
(muestras independientes) 616
15.5 Prueba x2 para diferencias entre e porciones (muestras
independientes) 624
15.6 Prueba X2 de independencia 632
15.7 Uso de la computadora para la prueba de hipótesis con
datos categóricos: la encuesta de satisfacción de los
empleados de Kalosha Industries 639
15.8 Prueba de McNemar para diferencias entre dos porciones
relacionadas 644

xiv
15.9 Dificultades potenciales de la prueba de hipótesis
y cuestiones éticas 649
15.10 Prueba de hipótesis basada en datos categóricos: un repaso
650
Términos clave 651
Problemas de repaso del capítulo 652
Proyectos de minicasos de aprendizaje colaborativo 655
ESTUDIO DE CASO F: Encuesta de satisfacción de
aerolíneas 655

16 Aplicaciones estadísticas en administración de la calidad


y productividad 659
16.1 Introducción 660
16.2 Calidad y productividad: una perspectiva histórica 660
16.3 La teoría de los diagramas de control 662
16.4 Algunas herramientas para estudiar un proceso:
Diagramas de esqueleto de pescado (Ishikawa) y de flujo de
procesos 664
16.5 Los catorce puntos de Deming: una teoría de la adminis-
tración por proceso 670
16.6 Diagramas de control para la proporción y el número de ele-
mentos que no se ajustan: los diagramas p y np 674
16. 7 Experimento de la cuenta roja: comprensión de la variabilidad
del proceso 684
16.8 El diagrama C: Un diagrama de control para el número de
ocurrencias por unidad 687
16. 9 Diagramas de control para la media (X) y el intervalo (R) 692
16.10 Diagramas de control para valores individuales (diagrama X)
701
16.11 Resumen y visión general 707
Términos clave 708
Problemas de repaso del capítulo 709
CASO DE ESTUDIO G: Aplicación de TQM en un hospital
comunitario 71 O

17 Regresión lineal simple


y correlación 713
17 .1 Introducción 714
17.2 El diagrama de dispersión 715
17.3 Tipos de modelos de regresión 719
17.4 Determinación de la ecuación de regresión lineal simple 721
17.5 El error estándar de estimación 726
17.6 Mediciones de variación en regresión y correlación 728
17.7 Corrrelación: medición de la intensidad de la asociación 732
17 .8 Suposiciones de regresión y correlación 736
17.9 Diagnóstico de regresión: análisis residual 737
17 .10 Medición de la autocorrelación: la estadística de Durbin-
Watson 742
17 .11 Estimación del intervalo de confianza para predecir
µ 747
17.12 Int1€"rvalo de predicción para una respuesta individual Y/ 749
17.13 Inferencias respecto a los parámetros de población en
regresión y correlación 751
17.14 Diagnóstico de regresión: análisis de influencia 755
17.15 Regresión, computadoras y la encuesta de satisfacció,n de
empleados 759
17 .16 Dificultades de la regresión y cuestiones éticas 765
17 .17 Resumen y visión general 769
Términos clave 771
Problemas de repaso del capítulo 771
CASO DE ESTUDIO H: Predicción de la Circualción
del periódico Sunday 779

18 Modelos de regresión múltiple 781


18.1 Introducción 782
18.2 Desarrollo del modelo de regresión múltiple 782
18.3 Predicción de la variable dependiente Y para valores dados
de las variables explicativas 789
18.4 Medición de la asociación en el modelo de regresión
múltiple 790
18.5 Análisis residual en regresión múltiple 792
18.6 Prueba de la importancia de la relación entre la variable
dependiente y las variables explicativas 794
18. 7 Prueba de porciones del modelo de regresión múltiple 796
18.8 Inferencias relativas a los coeficientes de regresión de
población 801
18. 9 Estimaciones de intervalos de confianza para predecir µ y
y 804 ~
l H. 1O Co1l'ficiente de determinación parcial 805
1H. 1 1 1-'.1 modt•lo dt• regresión curvilíneo 806
IH. 12 Modl•los d(• variables ficticias 816
18.1:\ Otros llpos dl nwlll•los de regresión 821
1

IH.14 Mulllrnlilwalldu<.I 824


18. IS AnMlsls dl lnfh1l lll'la l'I\ Ja l'l'grcslón mllltipll• 825
1 1

18.16 Un ejemplo dl rnmtrurdón de modelos: la l'Scucla


1

de satlsfac:dón dl' l'lllpll•ados 828


18.17 Regresión logí stlca IH 7
18.18 Paquetes de computación y regresión múltiple 844
18.19 Dificultades en la regresión múltiple y cuestiones éticas 844
18.20 Resumen y visión general 846
Términos clave 846
Problemas de repaso del capítulo 848
CASO DE ESTUDIO I: La Mountain States Patato
Company 854

19 Pronóstico de series de tiempo 857


19.1 Introducción 858
19.2 La importancia del pronóstico empresarial 858
19.3 Factores componentes del modelo multiplicativo clásico de
series temporales 859
19.4 Suavizado de las series temporales anuales: promedios
móviles y suavizado exponencial 862

xvi
19.5 Análisis de series temporales de datos anuales: ajuslL' dL•
tendencia de mínimos cuadrados y pronóstico 871
19.6 método de Holt-Winters para el ajuste de tendencia
y el pronóstico 884
19.7 Modelado autorregresivo para el ajuste de tendencia
y el pronóstico 888
19 .8 Elección de un modelo de predicción apropiado 896
19.9 Pronóstico de series temporales de datos mensuales 903
19 .10 Dificultades referentes al análisis de series temporales 911
19.11 Resumen y visión general 912
Términos clave 913
Problemas de repaso del capítulo 914
CASO DE ESTUDIO J: Cambio de Moneda 918

Respuestas a los problemas seleccionados ( •) 921


Apéndices
A. Repaso de aritmética y álgebra A-1
B. Notación de sumatoria B-1
C. Símbolos estadísticos y alfabeto griego C-1
D. Conjuntos de datos especiales D-1 ·
E. Tablas E-1

Índice 1-1

llVH
Prefacio
Al planear o revisar un libro de texto, los autores deben decidir en qué se diferen-
ciará de los ya disponibles y la contribución que hará al campo de estudio.
Inicialmente, cuando comenzamos a escribir la primera edición de Estadística
Básica en Administración, conceptos y aplicaciones en 1976, pensamos que lo que
faltaba a otros textos de introducción a la estadística en administración era un
tema común que uniera los diversos tópicos y proporcionara una sensación de real-
ismo al estudiante. Así que concebimos un planteamiento práctico y analítico de
datos de la enseñanza de estadística empresarial mediante el desarrollo y uso de una
encuesta que integrara los diversos tópicos, permitiendo un estudio cohesivo del
tema de la estadística en administración.
Al proponer cambios en esta sexta edición, nuestro principal objetivo es un
mejoramiento continuo de la calidad de ediciones anteriores
• incorporando tendencias en pedagogía (por ejemplo, aprendizaje
activo y colaborativo)
• proponiendo el uso cada vez mayor de software estadístico en com-
putadoras personales
• presentando desarrollos estadísticos modernos
• incluyendo tendencias en los planes de estudio de las escuelas comer-
ciales (por ejemplo, ética, globalización y calidad)
de tal forma que el estudiante aprecie el valor del tema de la estadística en los
planes de estudio de las escuelas comerciales y encuentre más placentero el apren-
dizaje.
Según nuestra percepción, los puntos fundamentales )le nuestro texto son su
novedoso enfoque de investigación de encuestas y de adálisis de datos, así como
sus características pedagógicas.

Característica principal: enfoque de


investigación de encuestas
y análisis de datos
Se crea un argumento en el que se contrata una compañía de consultores de bene-
ficios a empleados (La B & L Corporation) para conducir una encuesta a los
empleados de tiempo completo de un fabricante de partes de automóviles (Indus-
trias Kalosha) con el fin de desarrollar un perfil de empleados que mida la sa-
tisfacción del trabajo, que evalúe la longevidad y el progreso de carrera y que
precise las actitudes y opiniones. Se pretende que los resultados de esta Encuesta
sobre la Satisfacción de los Empleados ayuden en el desarrollo de un paquete de
beneficios a empleados que complazca a los trabajadores, fortalezca su relación con
la gerencia y demuestre que Industrias Kalosha asume un papel favorable en el
establecimiento de un ambiente de administración para la calidad total (TQM, de
sus siglas en inglés, Total Quality Management). Las 400 respuestas muestreadas
de la Encuesta sobre la Satisfacción de los Empleados (es decir, la base de datos)
obtenidas en el capítulo 2, "Recolecdón de datos", se usan para ejemplos y proyec-
tos de los estudiantes a lo largo del texto y sirven como un medio para integrar
tópicos tales como estadística descriptiva, probabilidad, inferencia estadística y
análisis de regresión.
El uso de una encuesta real, analizada de principio a fin, sirve como un estu-
dio de caso integrado y proporciona a los estudiantes un enfoque coherente para

Jéll
comprender el tema de la estadística empresarial. Además, permite a los estudian-
tes entender de manera realista el proceso de la investigación de encuestas y de
análisis de datos y los ayuda a conducir tal investigación en otros cursos y en mar-
cos ocupacionales.
La Encuesta sobre la Satisfacción de los Empleados se desarrolla en el capítulo
2 y se usa como ejemplos del texto y/o asignaciones de proyectos a los estudiantes
en los capítulos 3-6, 8, 10, 12-15, 17 y 18. El material de las secciones y los proyec-
tos de los estudiantes que tienen que ver con la encuesta se resaltan.

Característica principal: problemas, proyectos


y estudios de caso del estudiante
El aprendizaje es resultado del trabajo. Este texto proporciona al estudiante la opor-
tunidad de seleccionar y resolver de entre 1200 problemas presentados al final de la
sección, así como al final de los capítulos. La mayor parte de estos problemas se
aplican a situaciones realistas (usando datos reales siempre que es posible) en diver-
sos campos que incluyen la contabilidad, economía, finanzas, administración del
cuidado de la salud, sistemas de información, mercadeo y administración pública.
• Los Problemas de fin de sección dan a los estudiantes la oportunidad
de reforzar lo que acaban de aprender.
• Los Problemas de repaso del capítulo incluidos al final de cada capítulo
se basan en los conceptos y métodos aprendidos a lo largo del mismo.
• Tanto los Problemas de fin de sección como los Problemas de repaso
del capítulo son "autónomos" o se refieren a otros problemas del
capítulo particular.
• Los Problemas intercapitulares son aquéllos que se refieren a problemas
de capítulos anteriores.
• Las Respuestas a los problemas seleccionados (indicados por el símbolo
e) aparecen al final del libro.
• Una serle de Proyectos de mlnlcasos de aprendizaje colaborativo se
pl'l'Sl'llla a lo largo del h•xto.
• Un rnnj11nto dl• 1:J2 proycdos dl• encuestas/bases de datos
lll'l'll'lll'l'il'llll's a la Enrnl•sta sohl'l' la Sallsfardón dl' los Empleados se
pl'l'Sl'nla l'll los diVl'l'sos rapft u los.
• Al final dl• dlt•z capítulos se Incluyen Estudios <le caso detallados.
Estos problemas, proycc:tos y l'Studios de caso del estudiante proporcionan
muchos beneficios. El profesor tiene la oportunidad de asignar problemas indivi-
duales "autónomos", así como problemas de continuación para resaltar conexio-
nes de tópicos. Los estudios de caso detallados pueden usarse para asignaciones
más a fondo. Además, el profesor tiene la oportunidad de hacer asignaciones a par-
tir de los proyectos de encuestas/bases de datos que sirven como un "estudio de
caso" integrado a lo largo del texto.

Característica principal: proyectos de


minicasos de aprendizaje colaborativo
Dos enfoques pedagógicos importantes han comenzado a filtrarse en los salones de
clase universitarios durante la década pasada: el aprendizaje activo y el colaba-

ic:x
rativo. Resulta interesante que estos dos enfoques pedagógicos van de acuerdo
con los principios expresados en la filosofía de "administración por proceso"
desarrollada por W. Edwards Deming cuyo planteamiento de la mejora de la cali-
dad figura entre los principales avances industriales de la década. La adaptación
de la filosofía TQM en toda una organización da como resultado una transforma-
ción cultural que incluye una destreza en la administración, la habilitación de la
fuerza de trabajo y la resolución de problemas mediante el uso de equipos de con-
tacto funcional. En una tónica similar, si nosotros como profesores empleamos los
principios del aprendizaje activo y colaborativo, podemos reducir nuestras diser-
taciones y habilitar a los estudiantes para que aprendan más por su cuenta y a
través del trabajo en equipo. Debemos desarrollar las habilidades de pensamiento
crítico de los estudiantes para que podamos manejar nuestros salones de clase de
manera más eficaz alentando la participación. Todavía más importante resulta el
que, con tales desarrollos, los futuros graduados no sólo estarán preparados para
tomar su lugar como ciudadanos de sus comunidades, sino que también estarán
más preparados para experimentar una vida de autoaprendizaje en un mundo
dinámico.
La colaboración amplía el aprendizaje y desarrolla habilidades de trabajo en
equipo necesarias para la participación en los negocios y la sociedad. A lo largo de
este texto, una serie de Proyectos de minicasos de aprendizaje colaborativo, refe-
rentes a cuatro grandes conjuntos de datos (que tienen que ver con colegios y uni-
versidades, cereales, fragancias y cámaras) que se encuentran en el apéndic;e D, se
presentan al final de la mayor parte de los capítulos. Además, donde resulta apro-
piado se incluyen otros Proyectos de aprendizaje colaborativo diseñados para el
salón de clases, así pues, el profesor interesado en un aprendizaje activo y colabo-
rativo ahora tiene la oportunidad de aplicar estos planteamientos pedagógicos
dentro y fuera del salón de clases mediante la creación de equipos de estudiantes
y la selección de los proyectos de minicasos de aprendizaje colaborativo y/u otros
proyectos de aprendizaje colaborativo dados en el texto.

Característica principal: problemas de


actividad ( r·fiiM! z.t J>) Y fOCO (V)
0 0

La estadística es una materia viva. ¡No se trata sólo del ruidoso masticar de números!
Se debe poner énfasis en la comprensión e interpretación, y es esencial que los estu-
diantes puedan expresar lo que han aprendido. Los problemas de activi-
dad t·fiiMM·i·J> incrementan la capacidad de leer y escribir pidiéndole al estudiante
que escriba cartas, memoranda e informes, y que prepare conferencias. Los proble-
mas de foco V son particularmente estimulantes de ideas o no tienen una respuesta
"exacta". Juntos, los problemas de acción y foco permiten a los estudiantes pensar y
los habilita para comprender la utilidad del análisis estadístico como una ayuda para
la solución de problemas reales en un medio organizacional.

Característica principal: secciones de


resumen de estimulación de ideas con análisis
de datos (exploratorio y confirmatorio)
Pensamos que la observación es la clave de la comprensión. La observación, en-
tonces, es de capital importancia para desarrollar las habilidades de un pen-
samiento crítico y de análisis de datos. El texto de Berenson-Levine pone énfasis

....
en los cuatro componentes de un buen análisis de datos, la delineación, obser-
vación, cálculo y descripción, y subraya la importancia de satisfacer las suposi-
ciones al emplear las técnicas de inferencia estadísticas. Esto ofrece muchos
bene-ficios al estudiante. Mediante una cuidadosa observación de los datos, el
estudiante amplía sus habilidades de pensamiento crítico y de análisis de datos.
Además, a través de una cuidadosa evaluación de las suposiciones, es probable que
el estudiante seleccione la técnica de inferencia estadística apropiada para una
situación dada.

Característica principal: secciones de


resumen de estimulación de ideas que tienen
que ver con cuestiones éticas
Con el tiempo, las cuestiones éticas en los negocios se han vuelto un tema de
mucha importancia y la política de acreditación de AACSB ahora se refiere espe-
cíficamente a esto en el contexto del desarrollo de planes de estudio. Por lo
tanto, las cuestiones éticas en el análisis de datos se describen en todos los capí-
tulos re-levantes de este libro. Mediante el desarrollo de habilidades de pen-
samiento crítico, el estudiante estará en una buena posición para comprender y
apreciar las ramificaciones de las cuestiones éticas inVülucradas en el análisis de
datos.

Característica principal: énfasis en los


paquetes de software estadísticos
Una importante característica de nuestro texto es la descripción del uso de pa-
qul'll'S lk softwarl' l'Sladístlcos tales como MINITAB, SAS, SPSS y STATISTIX. No
s<>lo Sl' llusl ra la salida dl' t•stos paqul'tes a lo largo del texto, particularmente al
dl s1·rlhlr los n•s11lt11dos dl' la Enrul'sta solm• la Sallsfacdún de los Empleados, sino
1

qlll' la111IM11 Sl' l'lllrl'laza l'I uso dl' la ro111puladora rnmo una hl•rramienta de
nywla l'll 1•1 prm·1•so dl• In 1011111 d1• dl dslo111..•s t'll los dlVl'rsos capítulos.
1

lll s11lla lw11Nlrn In llll'lll'i(111 d1• 1111a varll•dad dt• paqut•ll's dl• software estadís-
0

llrns. l.os t•sl 11dl11nlt•s 11pt't 1Hll•11 a lllll'l'fll'l'lar l'I r1•s11ltado dt• una diversidad de
1

paqul•tc.•s qut• p1wcll 11 ll1·~11r a usar.


1

Característica principal: la filosofía de


Deming para la calidad y productividad
Con los años, nuestros esfuerzos de escritura y enseñanza se han visto estimulados
por un intercambio de ideas en las conferencias anuales sobre la Mayor eficacia de
la estadística en las escuelas de comercio. Estas conferencias han tratado muchas
cuestiones pedagógicas, incluyendo la importancia de las aplicaciones de datos
reales, el uso del software estadístico, el aprendizaje activo, el trabajo en equipo, la
alfabetización cuantitativa y el pensamiento estadístico. Sin embargo, el empuje
distintivo de estas conferencias ha sido exponer el impacto e importancia del tema
de la estadística en una organización que practica la administración para la calidad
total (TQM).
La importancia del enfoque organizacional sobre la calidad se demuestra am-
pliamente en el capítulo 16 de este texto mediante la presentación de la planea-

xxii
ción gerencial (es decir, los diagramas de flujo de procesos y los diagramas ele
esqueleto de pescado) y las herramientas estadísticas (es decir, los diagramas de con-
trol de procesos) que subrayan la utilidad del análisis estadístico en una organi-
zación que practica la administración para la calidad total (TQM). Más aún, este
libro cubre detalladamente la base conceptual de la administración para la calidad
total (TQM) con un análisis de los catorce puntos de la filosofía de "administración
por proceso" de W. Edwards Deming. Los tópicos adicionales sobre este tema que se
presentan incluyen las definiciones operacionales, el pensamiento estadístico, los
estudios enumerativos frente a los analíticos, los diagramas de Pareto, las gráficas
digipunto y la parábola de la cuenta roja, un experimento cuyo propósito es demos-
trar los conceptos de la variación de causa común contra la de causa especial.

Característica principal: métodos estadísticos


modernos
Otra característica importante de esta edición es la inclusión de metodología que,
en los últimos años, ha ganado un amplio uso. Como ejemplos, se presentan téc-
nicas exploratorias de análisis de datos (EDA por sus siglas en inglés) (capítulos 3 y
4); se analizan diagramas de puntos, diagramas de Pareto y supertablas (capítulo
5); se describen gráficas de probabilidad normal para evaluar la suposición de nor-
malidad (capítulo 8); se desarrollan métodos de estimación de mínimo esfuerzo e
intervalos de predicción para un valor individual (capítulo 10); se introduce el
tema del metaanálisis (capítulo 11); se usa un enfoque de valor p a la prueba de
hipótesis (capítulos 11-15); se introduce la regresión logística (capítulo 18); se
cubre el análisis residual y de influencia y la construcción de modelos en la regre-
sión (capítulos 17 y 18), y se consideran diversos métodos de pronóstico de em-
presas (capítulo 19).
Un importante beneficio de la amplia cobertura de los tópicos del texto de
Berenson-Levine es la flexibilidad en el desarrollo del curso. Nuestro texto incor-
pora metodología relevante y actualizada con suficiente profundidad y enver-
gadura como para usarse en un curso introductorio de uno o dos semestres en el
nivel de bachillerato o licenciatura, y también sirve como una amplia referencia
para técnicas estadísticas fundamentales.

Característica principal: ayudas pedagógicas

Nuestro texto contiene numerosas ayudas pedagógicas enfocadas a ampliar el


aprendizaje de la estadística empresarial.

• Estilo de escritura Nuestra filosofía básica es escribir para el estudiante,


no para el profesor. Para reducir la ansiedad, nuestro estilo de escritura es lo más
coloquial posible.

• Aplicaciones reales Para proporcionar un sentido de realismo a la mate-


ria en cuestión, usamos datos reales a lo largo del texto en una diversidad de
ejemplos, problemas, proyectos y estudios de casos.

• Lectura e interpretación de tablas estadísticas Cada una de las ta-


blas estadísticas dadas en el apéndice E se examinan a profundidad cuando se
presentan por primera vez. Proporcionamos explicaciones detalladas e ilustra-
ciones con el fin de ayudar al estudiante para que aprenda a usar las tablas.
Además, presentamos la distribución normal estándar en la segunda de forros
para facilitar su uso.

• Introducciones y resumen de capítulo En la sección introductoria de


cada capítulo, proporcionamos una lista que pone énfasis en lo que se espera que
el estudiante aprenda. La sección final de cada capítulo repasa lo tratado y presenta
una serie de preguntas conceptuales clave referentes a lo aprendido.

• Diagrama de resumen de fin de capítulo Finalizamos cada capítulo con


un diagrama de resumen que resalta la cobertura significativa del material.

e Términos clave Proporcionamos una lista de términos clave con referen-


cias de página al final de cada capítulo.

Esperamos que las ayudas pedagógicas, junto con las características y enfoques úni-
cos tomados en este libro de texto hagan más significativo, satisfactorio y com-
prensible el estudio de la estadística empresarial básica, para todos los lectores.

Agradecimientos

Estamos muy agradecidos a las muchas organizaciones y compañías que gene-


rosamente nos permitieron usar sus datos reales para desarrollar problemas y
ejemplos a lo largo de nuestro texto. En particular, deseamos agradecer al
Ce~tro Nacional de Investigación de Opinión (NORC) por entregar al dominio
pOblico sus Encuestas Sociales Generales, 1972-1991: Código Acumulativo.
Esta fuente proporcionó los datos y permitió el desarrollo del argumento para
la Encueata, de .satisfacción· de los empleados de Industrias Kalosha, que
usamos como un estudio de caso integrado a lo largo del texto.
Por otra parte, nos gustarfa citar a The New ·York Times, CBS Inc. (editor de
Road &: Track), la Unión de Consumidores (editor de Consumer Reports), el
Servicio de Inversionistas de Moody (editor de Moody's Handbook of Common
Stocks), American Hospital Publlshing, lnc. (editor de Hospitals), Los Angeles
Times Syndicate lnternational (editor de New York Newsday), el Centro de
Estudios de Ingenlerla Avanzada del MIT, CEEPress Books, Goal/QPC y Gale
Research, Inc.
Además, deseamos agradecer a los directivos de Biometrika, a American
Cyanamid Company, a la Rand Corporation, a la' Chemical Rubber Company, al
Instituto de Estadística Matemática y a la Sociedad Norteamericana de Pruebas y
Materiales por su amable permiso para publicar varias tablas en el apéndice E y a
la Asociación Estadística Norteamericana por su permiso para publicar diagramas
de The American Statistician.
Asimismo, estamos en deuda con el profesor Kristin McDonough, jefe bi-
bliotecario del Baruch College, por proporcionarnos material sobre tecnología
de información de bibliotecas, y estamos particularmente agradecidos a los
profesores George A. Johnson y Joanne Tokle, de la Universidad Estatal de
ldaho, y a Ed Conn, de Mountain States Patato Company, por su amable per-
miso para incorporar partes de su trabajo como nuestÍo Estudio de caso 1, "La
Mountain States Patato Company".

xxiv
Una nota de agradecimiento

Deseamos expresar una nota de agradecimiento para algunos de nuestros colegas


del Baruch College, incluyendo a Ann Brandwein, Stuart Baden, Pasquale DiPillo,
Shulamith Gross, Alka Indurkhya, Theodore Joyce, Manus Rabinowitz y Lawrence
Tatum, así como a Terese Bruce, de la Universidad de Miami; a Mark Eakin, de la
Universidad de Texas en Arlington; a Rick Edgeman, de la Universidad Estatal de
Colorado; a Mark Ferris, de la Universidad de Saint Louis; a Daniel Gordon, del
Salem State College; a DonnJohnson, de la Universidad de Norte de Iowa; a George
Marcoulides, de la Universidad del Estado de California en Fullerton; a John
McKenzie, del Babson College; a John Neufeld, de la Universidad de Carolina del
Norte en Greensboro; a Alan Olinsky, del Bryant College; a Barbara Price, de la
Universidad de Winthrop; a Patricia Ramsey, de la Universidad de Fordham; a Ernest
Scheuer, de la Universidad del Estado de California en Northridge; a Michael Sklar,
de la Universidad de Emory; y a Robert Westerman, de la Universidad Politécnica
Estatal de California en Pomona por sus constructivos comentarios durante la
revisión de este libro de texto. Además, deseamos agradecer a Bliss Simon del
Baruch College y a John Dumo del Centro de Cómputo Educacional del Lehman
College por su asistencia en la creación de la base de datos de la Encuesta sobre la
Satisfacción de los Empleados, así como a Michael Dannenbring, Deryck Fritz,
Robert Moran, Hideki Sugiyama, Dessislava Todorova y Richard Whitehead por su
asistencia en la recolección de datos y desarrollo de archivos.

Agradecimiento especial

Deseamos terminar expresando nuestro agradecimiento a Tom Tucker, Joyce


Turner, Richard Wohl, Katherine Evancie, Joanne Jay, Susan McLaughlin, Marie
McNamara, Patrice Fraccio, Kate Moore, Diane Peirano y Renée Pelletier del per-
sonal editorial y del equipo de producción de Prentice Hall y a Rachel J. Witty de
Letter Perfect, Inc., por su continuo aliento. También deseamos agradecer a Susan
L. Reiland, nuestra lectora estadística, por su diligencia en la verificación de la
exactitud de nuestro trabajo. Realmente somos afortunados y privilegiados de tra-
bajar con este grupo. Finalmente, desearíamos agradecer a nuestras esposas e hijos
por su paciencia, comprensión, amor y asistencia para hacer realidad este libro. Es
a ellos a quienes dedicamos este libro.

MARI< L. BERENSON
DAVID M. LEVINE

XXV
capítulo

Introducción
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVO DEL Presentar una visión general del tema
de la estadística y de sus aplicaciones,
CAPÍTULO particularmente en los negocios.
¿Qué es la estadística moderna?
Hace cien años, H. G. Wells comentó que "el pensamiento estadístico algún día
será tan necesario para la ciudadanía eficiente como la capacidad de leer y
escribir". Cada día de nuestras vidas estamos expuestos a una amplia variedad de
información numérica relativa a fenómenos como la actividad del mercado devalo-
res, los hallazgos de estudios de mercados, los resultados de encuestas de opinión,
las tasas de desempleo, los pronósticos de éxito futuro de industrias específicas y
datos deportivos. El tema de la estadística moderna abarca la recolección, pre-
sentación y caracterización de información para ayudar tanto en el análisis de·
datos como en el proceso de la toma de decisiones.
En términos de áreas funcionales de negocios, la estadística puede aplicarse en:
Contabilidad
• Para seleccionar muestras con propósitos de auditoría.
• Para comprender los derroteros de costos en contabilidad de costos.
Finanzas
• Para estar al tanto de medidas financieras en el transcurso del
tiempo.
• Para desarrollar formas de pronosticar valores de estas medidas en
momentos futuros.
Administración
• Para describir características de empleados dentro de una
organización.
• Para mejorar la calidad de los productos fabricados o de los
servicios procurados por la organización.
Mercadeo
• Para estimar la proporción de clientes que prefieren un producto en
vez de otro y la razón de esto.
• Para sacar conclusiones respecto a la estrategia de publicidad que
sería más útil para el incremento de ventas de un producto.
<:oml·nzarl•tnos en este capítulo introductorio con algunas definiciones impor-
tanll'S. lk·spu(•s analizaremos un desarrollo histórico en el campo de la estadística
y la dlstlnd(lll l'llln• distintos tipos de estudios estadísticos. Concluiremos con el
papl•I dl•I softwarl' lil' ro111putal'iú11 en l'I anMisis l'Stadístico.

111 El crecimiento y desarrollo


de la estadística moderna
Históricamente, el crecimiento y desarrollo de la estadística moderna puede
trazarse desde dos fenómenos separados: la necesidad del gobierno de recabar
datos sobre sus ciudadanos (véanse las referencias 6, 7, 10, 14 y 15) y el desarrollo
en las matemáticas, de la teoría de probabilidades.
A lo largo de la historia registrada se han recabado datos. Durante las civiliza-
ciones egipcia, griega y romana, los datos se obtenían principalmente con propó-
sitos de impuestos y reclutamiento militar. En la Edad Media, las instituciones
eclesiásticas a menudo mantenían registros de nacimientos, muertes y matri-
monos. En América, durante la época colonial, se mantuvieron diversos registros
(véase la referencia 15), y comenzando en 1790, la Constitución de Estados Unidos
requirió el levantamiento de censos cada diez años. Actualmente estos datos se
usan para muchos propósitos, incluyendo prorrateo del Congreso y la asignación
de fondos federales.

2 Capítulo 1 Introducción
1.2.1 Estadística descriptiva
Éstas y otras necesidades de datos a nivel nacional estuvieron estrechamente vincu-
ladas al desarrollo de la estadística descriptiva.
La estadística descriptiva puede definirse como aque~los mét()dos
que incluyen lci reécíieq::ión, présent~cióny car_act~rizaci_é>p de un
c1:mjt1Q!Q_Q~ Qíl!<?._S_~_qp_~Uin de describir.apropiada_rnente l~s div~rsas
carac_:t~rí~t~c_:ª~-cl-~_e_~~-~()__r:iju.nto de datos.
Aunque los métodos de la estadística descriptiva son importantes para presentar y
caracterizar los datos (véase los capítulos 3,4 y 5), éstos han sido la base de los
métodos de la estadíst.!il.,,W.f~r!'!n~ii!l.Y servido para mejorar la teoría de la proba-
bilidad que, en la actualidad, ha hecho posible aplicar la estadística a todos los
campos de la investigación.

1.2.2 Estadística i,11ferencial


El ímpetu inicial para la formulación de las matemáticas de la teoría de probabili-
dades provino de la investigación de juegos de azar durante el Renacimiento. Las
bases del objeto de la probabilidad pueden remontarse a mediados del siglo dieci-
siete en la correspondencia entre el matemático Pascal y el jugador Chevalier de
Mere (véanse las referencias 9 y 10). Éstos y otros desarrollos por matemáticos
como Bernoulli, DeMoivre y Gauss fueron los precursores del objeto de la estadís-
tica inferencia!. Sin embargo, no fue sino a principios de este siglo que estadísticos
como Pearson, Fisher, Gosset, Neyman, Wald y Tukey sentaron las bases del desa-
rrollo de los métodos de la estadística inferencia! que tan amplia aplicación tienen
en tantos campos en la actualidad.
La estadística inferencial puede definirse como aquellos métodos
que hacen posible la estimación de una característica de una población o
la toma de una decisión referente a una población, basándose sólo en los
resüitados-defariiuestra. - - - -- - - - ---- - -- - --
Para aclarar esto, son necesarias algunas otras definiciones.
{,Jga población (o universo) es la totalidad de elementos oc_o_sas b(ljo
consAderac:ión.
Una musrsb;a,.es la porción de la población que se selecciona para su aná,li~i_s.
Un ~arámetro es una medida de resumen que se calcula para descril:>jJ
una característica de toda una población.
lJna ~adística es una medida de resumen que se calcula para describir
una carácteristica de una sola muestra de la población.
Para relacionar estas definiciones con un ejemplo, suponga que el director de su
colegio desea llevar a cabo una encuesta para conocer las percepciones de los estu-
diantes respecto a la calidad de la vida en el campus. La población o el universo en
este caso serían todos los estudiantes actualmente inscritos, mientras que la mues-
tra consistiría sólo en aquellos estudiantes que hubieran sido seleccionados para
participar en la encuesta. El objetivo de la encuesta sería describir las diversas acti-
tudes o características de toda la población (los parámetros). Esto se obtendría
usando las estadísticas obtenidas de la muestra de estudiantes para estimar diver-
sas actitudes o características de interés en la población. Por tanto, un aspecto
importante de la est'1.clístji;:a.Jufi:tfm;_iqj ei,.gLpi;q-;;essuJg_us¡\LlilS e:¡tªQísticas de
mu.estr~~Eef.~,~fiJ,~..Q>!lc;lusion.e.s.,i;~~_pe~.to,.ª.1º~'¡mrá,m~tt9~.Q.~Jª.P-º.l;>l<ic:i9n,,__
El uso de métodos estadísticos inferenciales se deriva de la necesidad del
muestreo. A medida que una población crece, por lo general resulta demasiado cos-
toso, tardado e incómodo obtener nuestra información de toda la población. La

El crecimiento y desarrollo de la estadística moderna 1


determinación de a las características de la población tienen que basarse en la
información contenida en una muestra de esa población. La teoría de probabili-
dades proporciona el enlace al averiguar la probabilidad que los resultados de la
muestra reflejen los resultados de la población.
Estas ideas también pueden ilustrarse refiriéndose al ejemplo de una votación
política. Si el encuestador desea estimar el porcentaje de los votos que un candidato
obtendrá en una elección particular, no entrevistará a cada uno de los miles (o
incluso millones) de votantes que componen la población. En vez de esto, se selec-
cionará una muestra de votantes. Basándose en el resultado de la muestra, se
extraerán conclusiones referentes a toda la población de votantes. Adjunto a estas
conclusiones se tendrá un planteamiento de probabilidad que especifique la
verosimilitud o confianza que los resultados de la muestra reflejen el compor-
tamiento de votación de la población.

181 Pensamiento estadístico y


administración moderna
En la década pasada, el surgimiento de una economía global ha llevado a un interés
mayor en la calidad de los productos manufacturados y de los servicios prestados.
De hecho, más que el trabajo de cualquier otra persona, la labor del estadístico W.
Edwards Deming ha conducido a este ambiente empresarial modificado. Una parte
integral del enfoque gerencial que contiene este interés creciente en la calidad (a
menudo referido como administración para la calidad total) es la aplicación
de ciertos métodos estadísticos y el uso del pensamiento estadístico por parte
de los gerentes de una compañía.
El pensamiento estadístico puede definirse como procesos de
pensamiento que se centran en formas de comprender, manejar y reducir
la variación.
El pensamiento estadístico incluye el reconocimiento que los datos son inhe-
rentemente variables (no habrá dos cosas o personas que sean exactamente iguales)
y que la identificación, medición, control y ireducción de 'la variación proporcionan
oportunl~d'~ .para m-jor4r. la; calld~d. Los métodos estadísticos puec;len propor-
cionar el vehlculo para aprovechar estas oportunidades. El papel de los métodos
estadf~tl~q~ .e~ ~l c~nt~xto ~e meJ9ra~ 1\ ' c,alidad puede entenderse mejor si nos refe-
rimos a un mpdelo de mejorar la calidad presentado en la figura l. l.
En 18 flgUra 1.1 podemófobsér'var que el trlángUlo consta de tres porciones; en
la parte superior, tenemos la Fllosofia de la ·administración y en las dos esquinas
inferiores, tenemos los Métodos estadísticos y las Herramientas de comporta-
miento. Cada uno de estos tres aspectos es indispensable para el mejoramiento de
calidad a largo plazo de cualquiera de los bienes manufacturados o de los servicios
prestados por una organización. Una filosofía de la administración proporciona
una base constante para los esfuerzos por mejorar la calidad. Entre los enfoques
disponibles están aquéllos preconizádos por vy. Edwards Deming (véanse las refe-
rencias 1-3 y la sección 16.5) y Joseph Juran (véanse las referencias 4 y 5).
Para instrumentar un enfoque de aumento de calidad en una organización, se
necesitan usar tanto las herramientas de comportamiento como los métodos estadís-
ticos. Cada uno de éstos ayudan en la comprensión y en el perfeccionamiento de los
procesos. Entre las herramientas de comportamiento útiles están el flujo de procesos
y los diagramas de esqueleto de pescadt> (véase la sección 16.4), la lluvia de ideas, la
toma de decisiones de grupo nominal y la estructuración de equipos (para un mayor
análisis, véase la referencia 11). Entre los métodos estadísticos más útiles para el desa-
rrollo de una mayor calidad están las numerosas tablas, diagramas y estadísticas
descriptivas estudiadas en los capítulos 3-5 y los diagramas de control desarrollados
en el capítulo 16.

4 Capitulo 1 Introducción
Métodos Herramientas de
estadísticos comportamiento
Figura 1.1
Un modelo del proceso para mejorar la calidad.

1H1 Estudios enumerativos frente


a estudios analíticos
Nuestro análisis de la inferencia estadística en la sección 1.2 y del papel de los
métodos estadísticos para la mejora de la calidad en la sección 1.3 nos permite
hacer una importante distinción entre dos tipos de estudios estadísticos que se
emprenden: los estudios enumerativos y los estudios analíticos.
Los estudios enumerativos involucran la toma de decisiones respecto
a una población y/o sus características.
Las elecciones políticas son un ejemplo de un estudio enumerativo, puesto qu.e
sus objetivos son proporcionar estimaciones de las características de la población
y decidir ciertas acciones sobre esa población. El listado de todas las unidades
(como los votantes registrados) que pertenecen a la población, se denomina el
marco (véase la sección 2. 7) y proporciona la base para la selección de la muestra.
Así pues, el enfoque del estudio enumerativo está puestb sobre el cortt_et»i: (o'
medición) de los resultados obtenidos a partir del marco. ~·

Los estudios analíticos involucran realizar alguna actividad sobre u:p. ·:" ;
proceso para mejorar el desempeño en el futuro. ·
• 1:

La investigación de los resultados de un proceso de fabricación o de sen1~1ps,.


considerados durante cierto tiempo, es un ejemplo de estudio analítico. La 'tén·:
ción de un estudio analítico está puesta sobre la predicción del comportamtento
futuro de un proceso y sobre la comprensión y perfeccionamiento de ese pfóce~o.
En un estudio analítico, no existe un universo identificable, como sucede·eh'un
estudio enumerativo y en consecuencia, tampoco hay un marco. Tal vez podamos
resaltar la distinción entre estudios analíticos y estudios enumerativos refirién-
donos a las figuras 1.2 y 1.3.
En el estudio enumerativo, el tazón representa la población. Las preguntas de
interés giran en torno a la pregunta "¿qué hay en el tazón?". Un ejemplo de esto
sería saber cuántas ~olas del tazón son negras o en qué proporción son negras.
'

Estudios enumerativos frente a estudios analíticos 5


Figura 1.2
Un estudio enumerativo.

En el estudio analítico, hay varias etapas que componen un proceso. Estas eta-
pas por lo general incluyen entradas que podrían abarcar alguna combinación de
personas, equipo, material e información; salidas que tienen la forma de un pro-
ducto fabricado o un servicio proporcionado; y el paso de transformación inter-
medio que convierte las entradas en las salidas deseadas. Una pregunta clave gira
en torno a cómo puede usarse cualquier dato que pudiera ser recabado como parte
del proceso (a menudo en un periodo) para mejorar el proceso en el futuro. Esto se
indica en la figura 1.3 mediante la presencia de un ciclo de retroalimentación.
La distinción entre estudios enumerativos y analíticos es importante, puesto
que los métodos que han sido desarrollados principalmente para estudios enu-
merativos pueden ser engañosos o incorrectos para estudios analíticos (véanse las
referencias 1-3).
En este texto desarrollaremos métodos apropiados para estos tipos distintos de
estudios.
Algunos de los métodos son apropict9os para cualquier tipo de estudio. Otros
métodos son apropiados principalmentepara estudios enumerativos o principal-
menté para estudtos·analfticos.
, ·I ·• '·

' ' ;¡ ',:

Figura l .J Un estudio analítico.

Capítulo 1 Introducción
l 8j El papel de los paquetes de
computación en estadística
Durante los últimos veinte años, el campo de la estadística ha cambiado dramáti-
camente mediante el desarrollo de software de computadora especialmente escrito
para el análisis estadístico. Durante los ochenta, el software estadístico experi-
mentó una vasta revolución tecnológica. Además de las mejoras manifestadas en
actualizaciones periódicas, la disponibilidad de computadoras personales condujo
al desarrollo de nuevos paquetes que usaban una interfaz manejada por menúes.
Además, rápidamente se dispuso de las versiones de computadoras personales
de paquetes como SAS, SPSS y MINITAB (véanse las referencias 8, 12 y 13). Más
aún, el uso cada vez mayor de los paquetes de hojas de cálculo populares como
Lotus 1-2-3 y Excel llevai:on a la incorporación de peculiaridades estadísticas en
estos paquetes.
El final de la década de los años ochenta y el principio de los noventa repre-
sentaron un periodo continuo de avances tecnológicos. Mientras que los primeros
paquetes desarrollados para las computadoras personales sólo estaban disponi-
bles para máquinas IBM o compatibles, actualmente los paquetes han sido adap-
tados al ambiente de las computadoras Macintosh. Además, los rápidos avances en
el hardware de las computadoras implicó que se pudiera disponer de cantidades
más grandes de memoria de computadora a un costo menor. Esto permitió a los
creadores de paquetes incluir procedimientos estadísticos adicionales más sofisti-
cados en cada versión posterior.
Por tanto, es fácil comprender por qué el uso de estos paquetes de software es
algo común dentro de las comunidades empresariales, académicas y de investi-
gación. Así pues, en este texto adoptaremos la posición de que al realizar un análi-
sis estadístico, es casi seguro que se tenga acceso a algún paquete o paquetes (o un
paquete de hoja de trabajo) de software estadístico. Con esto en mente, nuestra
atención está puesta en la interpretación de la salida de varios de estos paquetes
(principalmente MINITAB, SAS y SPSS), con un énfasis más limitado en los pasos
involucrados en los cálculos. Esto es congruente con el tema del texto, que subraya
el uso apropiado de los métodos estadísticos antes que la teoría matemática sub-
yacente a los métodos.
Aunque el software estadístico ha hecho factibles incluso los análisis más
sofisticados, los problemas surgen cuando usuarios inexpertos estadísticamente,
que no comprenden las premisas que están detrás de los procedimientos o las limi-
taciones de los resultados obtenidos, son engañados por la salida estadística gene-
rada por la computadora. Por razones pedagógicas, creemos que es importante que
las aplicaciones de los métodos incluidos en el texto se ilustren mediante el uso de
ejemplos resueltos.

1 ff.j Resumen y visión general


Como se ve en el diagrama de resumen de este capítulo, hemos presentado una
introducción al campo de la estadística, hemos proporcionado varias definiciones
de términos que se usarán en todo el texto y hemos analizado el papel del software
de computadora. El capítulo 2 se centra en la recolección de datos y la selección de
muestras. Estos dos capítulos introductorios proporcionan los conocimientos para
el área esencial de la estadística descriptiva, que se analizará en los capítulos 3-5.

Resumen y visión general 7


Diagrama de resumen del capítulo 1.

Juntando todo

TÉRMINOS CLAVE
Admlnlstraclón para la Calidad Total 4 estudios enumerativos S
estadfstlca , , '3 muestra 3
estadfstléa descriptiva d parámetro 3
estadfstlca tnferénclal ' 3 'pensamiento estadístico 4
,estadfsttca moderna 2 población 3
:·estudios analftlcos S universo 3

Problemas de repaso del capítulo


Para responder a las preguntas que siguen, tal vez desee ir a su biblioteca y consul-
tar las siguientes fuentes de referencia:
Indicadores
Business Periodical lndex
New York Times Index
Wall Street f oumal lndex

8 Capitulo 1 Introducción
Revistas de negocios
Business Week
Forbes
Fortune
Revistas generales
Newsweek
Time
U.S. News & World Report
Periódicos
New York Times
U.S.A. Today
WallStreetfournal
Periódicos locales
Información general
Statistical Abstract of the United Sta tes

En los problemas 1.1 a l. 7, especifique el problema general a resolver, la inferencia


específica que debe hacerse, cuál es la población y (si está describiendo los resultados
de un estudio realmente publicado) la probable debilidad del estudio. Cuando resulte
apropiado, enumere los parámetros que son de interés principal y las estadísticas
usadas para llegar a una conclusión.

1.1 Describa una aplicación de la estadística en la economía o las finanzas.


1.2 Describa una aplicación de la estadística en los deportes.
1.3 Describa una aplicación de la estadística en ciencias políticas o administración
pública.
1.4 Describa una aplicación de la estadística en el comportamiento organizacional
o la administración de operaciones.
1.5 Describa una aplicación de la estadística en la publicidad o el estudio de
mercados.
1.6 Describa una aplicación de la estadística en la investigación médica o la
administración del cuidado de la salud.
1.7 Describa una aplicación de la estadística en la contabilidad.
1.8 ¿Cuál es la diferencia entre la estadística descriptiva y la inferencia!? ¿Bajo qué
circunstancias podría ser más útil cada una de estas áreas?
1.9 ¿Cuál es la diferencia entre un parámetro y una estadística?
• 1.10 Para cada inciso siguiente, indique si el estudio es enumerativo o analítico.
Justifíquelo.
(a) Un colegio decide contar el número total de estudiantes inscritos en clases
que comienzan antes de las 9 horas.
(b) Un colegio desea determinar si el número total de estudiantes inscritos en
clases que comienzan antes de las 9 horas ha aumentado o disminuido
durante distintos semestres.
(c) Un colegio desea determinar las razones de la disminución en el número
de solidtudes de admisión para bachillerato.

Nota: La bala • indica que las soluciones a estos proplemas están enla s~~tj~it de
Respuestas alos problemas seleccionados, al final del libro. .s.
.. '', : '·!","·." ;'.)~:··.:
·:',.~,,
•, . . . '
'

Problemas de repaso del capítulo


1.11 Para cada inciso siguiente, indique si el estudio es enumerativo o analítico.
Justifíquelo.
(a) Una revista desea determinar la proporción de sus lectores que tienen más
de cincuenta años de edad.
(b) Una revista desearía determinar si la disponibilidad de un precio de
descuento en la renovación de una suscripción de cinco años afectará el
número de suscripciones.
(c) Una revista desearía determinar el nivel de ingresos de sus lectores.
(d) Una revista desearía determinar cómo reducir el número de errores
ocurridos en la facturación a los suscriptores.

Referencias
l. Deming, W. E., "On Probability as a Basis for Action", 9. Pearson, E. S., ed., The History of Statistics in the
American Statistician, vol. 29, 1975, pp. 146-152. Seventeenth and Eighteenth Centuries (Nueva York:
2. Deming, W. E., Out of the Crisis (Cambridge, MA: McMillan, 1978).
Massachusetts Institute of Technology Center for 10. Pearson, E. S., y M. G. Kendall, eds., Studies in the History
Advanced Engineering Study, 1986). of Statistics and Probability (Darien, CT: Hafner, 1970).
3. Deming, W. ~., The New Economics far lndustry, 11. Robbins, S. P., Management, 41 ed. (Englewood Cliffs, NJ:
Govemment;'Education (Cambridge, MA: Massachusetts Prentice-Hall, 1994).
Institute of Technology Center for Advanced 12. Ryan, B. F., y B. L. Joiner, Minitab Student Handbook, 31
Engineering Study, 1993). ed. (North Scituate, MA: Duxbury Press, 1994).
4. Juran, J. M., furan on Leadership far Quality (Nueva York: 13. SAS Lang11age and Procedures Usage, Version 6 (Raleigh,
The Free Press, 1989). NC: SAS Institute, 1988).
5. Juran, J. M. y F. M. Gryna, Quality Planning and Analysis, 14. Walker, H. M., Studies in the History of the Statistical
21 ed. (Nueva York: McGraw-Hill, 1980). Method (Baltimore, MD: Williams & Wilkins, 1929).
6. Kendall, M. G., y R. L. Plackett, eds., Studies in the History 15. Wattenberg, B. E., ed., Statistical History ofthe United
of Statistics and Probability, vol. 11 (Londres: Charles W. States: From Colonial Times to the Present (Nueva York:
Grlffln, 1977). Basic Books, 1976).
7. Klrk, R. E., ed., Statistical lssues: A Reader far the Behavioral
Sclences (Monterey, CA: Brooks/Cole, 1972).
8. Norusls, M., SPSS Gulde to Data Analysis for SPSS-X: With
Add/tlonal Instr11ctlons for SPSSIPC+ (Chlcago, IL: SPSS
lnc. 1 1986).

10 Capitulo 1 Introducción
capítulo

Recolección de datos
••••••••••••••••••••••••••• • ••••••••••••••••••••••••••••••
OBJETIVOS DEL Describir la importancia de obtener
buenos datos y demostrar cómo se
CAPÍTULO recolectan y preparan para su
presentación tabular y en diagramas,
su resumen descriptivo, análisis e
interpretación.

11
181 Introducción: La necesidad de datos
¿Para qué necesitamos recolectar datos? Pueden darse cuatro razones importantes.
Los datos se necesitan para:
l. Proporcionar la introducción imprescindible para un estudio de
investigación.
2. Medir el desempeño en un servicio o proceso de producción en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un
proceso de toma de decisiones.
4. Satisfacer nuestra curiosidad.
Como ejemplos:
• El gerente desea controlar un proceso de manera regular para
investigar si la calidad del servicio proporcionado o de los productos
fabricados se ajustan a los estándares de la compañía.
• El investigador de mercados busca las características que distinguen
un producto del de sus competidores.
• El inversionista potencial desea determinar qué compañías de qué
industrias es probable que hayan acelerado el crecimiento en un
periodo de recuperación económica.
• El fabricante farmacéutico necesita determinar si una nueva medicina
es más eficaz que las actualmente en uso.
Para el estadístico o investigador, la in.formación re_g~~Ei~<l: pr_<?~_eE~..9_<:.l9s d~9.s.
¿Qué queremos decir exactamente con datos?
Los datos pueden concebirse como ioJmmªciQD.f1.~m~rica necesa.ria
para ayudarnos a. to.maL.UD.lLd.e.cisi.6.u_coIJ._Jil-ª-~1>-ªsg~ en una situacióQ
particular.
Para que un análisis estadístico sea útil en el proceso de toma dL• decisiones, l,os dato...s
d~~~n.tm!.l.íLJ.l.l.:.bCll..JiCL.apropiarlos Por tanto, la rccole~:l0n..-~.~-l.!ato~ ~~ extremada-
llll'lllt• l111porl"antt•. SI los datos t•stán t•stro¡wados por st•sgos, ambigikdades u otro
tipo dt• l'l'l'o1·1 «..'S lmprobablL• l(lll' lnduso las llll'lodologías l'Sladísticas más finas y
soflsl !radas Sl'llll sulkil'lllt's para rn111¡wnsar talL•s dl'fkil•11cias.
l'm•sto qttl' la m•n•sldad dl• lnl'or111adó11 íttll l'S tan importante para el proceso
de toma dl' dl'l'lslrnws, l'Sll' rapítulo trnla dl· la rl·rnlccciún de datos. En particular,
dt•mostrart•mos d11110 Sl' l'l'l'Oll'l'lan y 1m•paran para su presentación tabular y en
diagramas, su rt'Sllllll'll dL•snlptlvo, anúlisis L' interpretación. Para motivar nuestro
análisis dt• la l'L'l'oiL•l'l'l(m dt• dalos, vernos en el diagrama de resumen del capítulo de
la página 47, qut• los d¡1tun.vn ..tl1.,•_ ljos tipos: los resl!-1.ta.sios. e:'~ vari(J:_b!es él:~~~~~.rl~.-­
n,uméric~_mc<,H~l¡1s l'll 1.•scalas. dl' interyalo o proporciqn, o bien, los resultados de
variables categóricas m1.·d i_das en 1.•scalas nominales u ordinal e~. Además, observamos
en el diagrama de rl·sumen del capítulo, que existen varios métodos para obtener
datos. En este texto nos centramos en la investigación de encuestas a través del
desarrollo de una Encuesta sobre la Satisfacción de los Empleados (sección 2.8) que
resaltamos como un caso integrado completo, demostrando cómo se conduce y se
usa la investigación básica para ayudar en el proceso de toma de decisiones.
Al terminar este capítulo, deberá ser capaz de:
l. Comprender por qué necesitamos datos.
2. Comprender las diferencias entre datos numéricos y datos categóricos
y sus niveles de medición.
3. Comprender los diversos métodos usados en la obtención de datos.
4. Desarrollar una apreciación para formular un problema de
investigación y conducir una investigación de encuestas.

ll Capítulo l Recolección de datos


S. Desarrollar una valoración del arte de diseñar cuestionarios y de la
importancia de formular preguntas objetivas y plenas de significado.
6. Comprender la importancia de las definiciones operacionales en las
encuestas de investigación.
7. Comprender la importancia de obtener el marco de población
apropiado.
8. Deducir cómo distinguir entre una buena encuesta de investigación
y una mala y las cuestiones éticas involucradas.
9. Usar una tabla de números aleatorios para seleccionar una muestra
aleatoria simple.
10. Obtener una apreciación de los problemas surgidos de la preparación
de los datos inspeccionados respecto a la edición, codificación y
transcripción.

ijj Obtención de datos


Existen muchos métodos mediante los cuales podemos obtener los datos necesa-
rios. Primero, podemos buscar datos ya publicados por fuentes gubernamentales,
industriales o individuales. En segundo lugar, podemos diseñar un experimento
para obtener los datos necesarios. Tercero, podemos conducir un estudio. Cuarto,
podemos hacer observaciones del comportamiento, actitudes u opiniones de los
individuos en los que estamos interesados.

l..l.. 1 l.,)tiliz.:ª~ig_r:i ('.igf!t~nte.s de datos publicadas


Debido a algunos de los desarrollos científicos más apasionantes en esta última
década del siglo, realmente hemos llegado a una "edad de la tecnología de la infor-
mación". Los códigos de barras registran automáticamente la información de inven-
tario al comprarse los productos en supermercados, tiendas departamentales y otros
mercados. Los sistemas de cómputo permiten que las transacciones bancarias ocu-
rran espontáneamente con información registrada de inmediato en balances de
cuentas. Las oficinas de boletos de aerolíneas y los agentes de viajes tienen informa-
ción de último minuto respecto a la disponibilidad de espacio en vuelos y hoteles.
Las transacciones que tomaban horas o incluso días, hace una década, ahora se efec-
túan en cuestión de segundos. Nunca antes se había dispuesto con mucha facilidad
de datos e información actualizados, y proveniente de fuentes.
El uso de las bibliotecas para investigación ha tomado literalmente un nue-
vo significado. Uno ya no tiene que visitar la biblioteca para tener acceso a ma-
terial en forma impresa -libros, boletines, revistas, folletos y periódicos. Aunque
todavía podemos visitar la biblioteca con estos propósitos, también podemos
usar la tecnología multimedia y obtener datos electrónicamente mediante sis-
temas de recuperación de información y bases de datos en línea. Por otra parte,
nuestra "visita" a la biblioteca puede ocurrir electrónicamente mediante el uso
de una computadora personal con un módem en nuestro hogar u oficina. El CD-
ROM ha revolucionado el acceso a la información. Como ejemplos, ABl/INFORM
Ondisc indiza y resume artículos de más de 800 boletines del campo empresarial,
COMPACT D/SEC tiene información anual y periódica tomada de compañías y
archivados en la Comisión de Valores y Cambio, y NATIONAL TRADE DATA BANK
contiene datos recientes de comercio e internacionales, así como del tipo de cam-
bio extranjero.
Sin importar la fuente utilizada, se hace una distinción entre el recolector ori-
ginal de los datos y la organización o individuos que compilan éstos en tablas y
diagramas. El recolector de datos es la tu'uts: 11tinuu::i,i;,.gJs_ompUp,i:Jor, cleJQ~.,.
datos e¡Ja fuey.J,e secundaria.

Obtención de datol
El gobierno federal es un importante recolector y compilador de datos con
propósitos tanto públicos como privados. La Oficina Gubernamental de Estadísticas
Laborales es responsable de recabar datos sobre empleo, así como de establecer men-
sualmente el conocido Índice de Precios al Consumidor. Además de su requerimiento
constitucional de levantar un censo decena!, la Oficina Gubernamental de Censos
tiene que ver con una diversidad de encuestas referidas a la población, vivienda y
fabricación, y cada cierto tiempo emprende estudios especiales sobre cuestiones
como delincuencia, viajes y cuidado de la salud.
Además del gobierno federal, varias publicaciones comerciales presentan datos
de grupos industriales específicos. Los servicios de investigación como Moody's
muestran datos financieros de compañías. Los servicios periodísticos como A. C.
Nielsen proporcionan a sus clientes información que permite la comparación de
productos con sus competidores. Y, claro está, los periódicos están llenos de infor-
mación numérica referente a precios de valores, condiciones meteorológicas y
estadísticas deportivas. A lo largo de este texto, diversas aplicaciones utilizarán los
datos obtenidos de tales fuentes.

2.2.2 Diseño de un experimento


Un segundo método para obtener los datos necesarios es la,.~?:CJ?_~riJ!!~.!!!?ci2n._En
un experimento se ejerce un control estricto sobre el tratamiento dado a los par-
ticipantes. Por ejemplo, en un estudio para probar la eficacia de una pasta de
dientes, el investigador determinaría qué participantes del estudio usarían la nueva
marca y cuáles no, en lugar de dejarle la elección a los sujetos. Los diseños experi-
mentales apropiados son por lo general materia de textos más avanzados, puesto
que a menudo implican procedimientos estadísticos complejos. Sin embargo, para
desarrollar una sensibilidad hacia la prueba y experimentación, los conceptos de
diseño experimental fundamentales se considerarán en los capítulos 11 al 15.

1.2.3 Conducción de una encuesta


Un tercer método para obtener datos es é!J?fü~il! ..Yll'U~!!9Jt..ltíi· Aquí no se ejerce
ningún control sobre el comportamiento de la gente encuestada. Simplemente se
formulan preguntas respecto a sus opiniones, actitudes, comportamiento y otras
características. Después, sus respuestas se editan, codifican y tabulan para su análi-
sis según se verá en el capítulo 3.

1.2.4 Realización de un estudio observacional


En un estudio observacional, el investigador observa elJ;.QD.W..91.!ª-mLe..nto,Q...tiut~
directamente, por lo común en su entorno natural. La mayor parte del compor-
tamiento animal se estudió originalmente de esta manera, como fue el caso en
astronomía y geología, donde la experimentación y las encuestas resultaban
imprácticas. Los estudios observacionales también juegan un importante papel en
antropología y sociología porque a menudo proporcionan una riqueza de descrip-
ciones que falta en métodos más estructurados de recolección de datos, como los
experimentos y las encuestas.
Respecto a las disciplinas empresariales, el estudio observacional tiene una
variedad de formatos, los cuales pretenden recolectar información en un grupo
establecido para ayudar en el proceso de toma de decisiones. Como ejemplo, el
grupo de foco es una popular herramienta de investigación de mercados que se
usa para producir respuestas no estructuradas a preguntas de extremo abierto. Un
moderador conduce la discusión y los demás participantes responden a las pre-

14 Capítulo 2 Recolección de datos


guntas formuladas. Otros formatos más estructurados que incluyen una dinámica
de grupo para obtener información (y elaborar consenso) son diversas herramien-
tas organizacionales de psicología conductual/industrial como la lluvia de ideas, la
técnica de Delphi y el ~étodo de grupo nominal (véase la referencia 11). Estas
hérramientas se han vuelto más populares en años recientes debido al impacto de
la filosofía de la administración para la calidad total (TQM siglas de Total Quality
Managenent) en las empresas, porque la TQM pone énfasis en la importancia del
equipo de trabajo y la habili-tación de los empleados en un intento por mejorar
cada producto y servicio.

2.2.S La importancia de obtener buenos datos: GIGO


Recuerde que hay cuatro razones básicas para recolectar datos: (1). ara ro or-
cionar la entrada necesana a un estu 10 e invest1 ac1on, ara me ir el desem-
peno, para amp iar a toma e ecisiones o 4 ara satisfacer nuestra
Euriosidad. . ara poner en as1s en a importancia de obtener buenos datos, los
investigadores han adoptado el término GIGO, entra basura, sale basura (del
inglés, garbagy in, garbage out). No importa el método utilizado para obtener los
datos; si un estudio ha de ser útil, si el desempeño debe controlarse apropiada-
mente o si el proceso de la toma de decisiones debe ampliarse, los datos recabados
deber ser válidos; es decir, las respuestas "correctas" deben valorarse de manera que
se obtengan mediciones significativas.
Para diseñar un experimento, conducir una encuesta o realizar un estudio
observacional, uno debe comprender los distintos tipos de datos y niveles de
medición. Para exponer algunos de los problemas implicados en la obtención de
datos, los presentaremos en el contexto de una encuesta, aunque la mayoría de las
mismas cuestiones surgirán en otros tipos de investigación.

111 Obtención de datos mediante


investigación de encuesta
Lo más probable es que un estadístico de encuestas desee desarrollar un instru-
mento que contenga varias preguntas y que trate una diversidad de fenómenos o
características. Estos fenómenos o características se denominan variables alea-
torias. Los datos,--~ue son
losresultadosobservados-de-estas-varlahles-aleátorías,
Pº~ºgn_diletiUíi·¡:~_ü;s~-ªJ:~ivii~ia:·--·-- -- ---·- ------ --------- --------- -- ---- -- --

2.3.1 Tipos de datos


Como se esbozó en la figura 2.1 de la página 16, existen básicamente dos tipos de
v~!!ªR!~.~1e.~J9!~.~~qµe
pr_9,gucen dos t!Ros de datos: categóricas y numér~
~~~Ja:'Wab~e~~ai~~~rl~s~ü:~f.~~:-s f~<l~~~ii~:?~~Flliri~~e~~l~:1-~ºn~~~~~o'11:
·----··--··--·---···- ... ····---- . -··---·--·----··-····p··--·-· ·-···-·-·-·------·P..•... - ··-· J p ,
respuesta a la pregunta: "¿Posee usted actualmente Bonos de Ahorro del gobierno
de los Estados Unidos.?" es categórica. Las opciones son claramanete "sí" o "no".
Por otra parte, las respuestas a preguntas como "¿a cuántas revistas está actual-
mente suscrito?" o" ¿qué estatura tiene?" son claramente numéricas. En el primer
caso la variable aleatoria numérica puede considerarse como discreta, mientras
que en el segundo caso puede pensarse como continua.
L__os da!~~-~~!_et~~-~q:Q_!~~~~-Sié!§ P.~l!l_é_i;j~ªs_ffi!_~__g1.!gen de unJlli>s.eso
d_~_rnnt~o,_mieut.ra.s.q.u.e.JosJblt.o:u;_QJLtinu.o.s..s.Qn_resp.J.!e.S.1ª.umUI....W.,!;;as
que surgen,qg_1.p1,_p_:t:_Q~~~Q.5Í.e. l!lec:fü:;iól!:.

Obtención de datos mediante investigación de encuesta 1S


~ "' '

. ... ; .', '·'. ~ . ~


Tipo de datos · 'tipos de 'pr~giintas · Respuestas
'··" '<' 1

· Categorías :._.~..,.;._,-,--'·-111io._.· ' · \!.Pb!~ 1actíJalfl'l&rite Bonos de Ahorro


..C!eLGQl:!.1$rr:iQ de.E;iitados Unidos? Sí O No O
' ', \ ~·. . . ,¡ ·; ¡ ' 1', h~ ¡; ,: •, ','' ;,
. ·. · ' . ¿;A cuántas revistas está
' ·_.,;-'I" Di.scretos r' ·r~ r 'l!l~túalmente suscrito? · Número·
N_uméricas ~ · "i': (¡<.::,
Continuos ·~·¿Qué estatura tiene? Pulgadas

Figura l.. 1 Tipos de datos.

"El número de revistas a las cuales se está suscrito" es un ejemplo de variable


numérica discreta, puesto que la respuesta supone uno de un número (finito) de
enteros. El individuo actualmente no está suscrito a ninguna revista, o lo está a una
revista, dos revistas, etc. Por otra parte, "la altura de un individuo" es un ejemplo
de una variable numérica continua, puesto que la respuesta puede asumir
cualquier valor dentro de un continuo o un intervalo, dependiendo de la precisión
del instrumento de medición. Por ejemplo, una persona cuya estatura se reporta
como 67 pulgadas puede medirse como 67~ pulgadas, 67~2 pulgadas o 67 5%so pul-
gadas si se dispone de una instrumentación más precisa. Por consiguiente, podemos
ver que la talla es un fenómeno continuo que puede tener cualquier valor dentro
de un intervalo.
Es interesante observar teóricamente que no hay dos personas que tengan
exactamente la misma altura, puesto que mientras más fino sea el dispositivo de
medición usado, es mayor la probabilidad de detectar diferencias entre ellas. Sin
embargo, la mayoría de los dispositivos de medición no son lo bastante sofistica-
dos para detectar pequeñas diferencias, y por tanto, en los datos de encuesta o
experimentales a menudo se encuentran observaciones restringidas, aun cuando la
variable aleatoria sea realmente continua.·
• ¡•

2.3.2 Nlveles de medlelón y tipos


de. es.calas; de medición
• 1 :: •.

... ~. ' ¿' j )~) ·: 1. •

De ~.uestrq a,~ljsls, antc=rlor,: vemos entonces, que nuestros datos resultantes tam-
bién pueden.d~s~riblrse de acuerdo con el nivel de medición obtenido.
En el sentido más ampli~, todos los datos recolectados son "medidos" de la
misma manera. Incluso por ejemplo, los datos numéricos discretos pueden con-
siderarse como producto de un proceso de medición mediante conteo. Los cuatro
niveles de medición ampliamente reconocidos son, del nivel de medición más
débil al más fuerte, las escalas nominal, ordinal, de intervalo y de cociente.

• Escala nominal y ordinal Se dice que los datos obtenidos de una variable
categórica han sido medidos en una escala nominal o en una escala ordinal. Si los
datos observados simplemente se clasifican en las diversas c~gi;uías distintas en
las que no se implica ningún orden, se obtiene un nivel d~l!ledición nominal.
Por otra parte, si los datos observados se clasifican en las distintas categorías ea las
9fil se irnpJl~_'!!&.(!n ()rd~!J.L.~e. __Q.btiene un nivel de I!!~Qi_~.i0Lf!!'dinal. Estas dis-
'tinciones se describen en las figuras 2.2 y 2.3, respectivamente.
La escala nominal es la forma más débil de medición porque no se puede hacer
ningún intento para explicar las diferencias dentro de una categoría particular o de
especificar cualquier orden o dirección entre las diversas categorías. La escala ordi-
nal es una forma de medición algo más fuerte, porque se dice que un valor obser-

1es Capítulo l. Recolección de datos


' : ~~ '~'~ ~11·";.
variable categórica Categorfas ,. ,.: :rd:~h:>
,~ . !Í~· ' .,:- "' .·,¡,; '!;. J, .,, ' " ' . ', .,, • • • ·"· ' ••

P~8Pt~d~ci de"automovil .__.. sr , . No,,· ·· •· .: 1


.· :,!1ni,
Tipq;:a~ segUfo de vida que se tiene · ~ Término Donación. Pe vida
, Otros ..Nlr\gqnp•,;
Atlliª'9iórf política partidista ..._.... Demóerata Republic;an9, lndependiente>fQW$.'
' '' -?J:: -~~p~'·.·"

Figura 2.2 Ejemplos de escala nominal.

Variable categórica Categorías ordenadas

' . . '··-1:li1(~; ,

... ....
(lnte;/or-Superlor)
Designación de clase de estudiante Primero Segundo Tercero Cuarto . '· } :tb.';~:¡i
.Satisfacción de producto . Muy insatisfecho Bastante insatisfecho Neutra!. :
Muy ;satisfecho ·. ¡,,;¡ 1~::'>
Clasificación de película ... .... G PG . PG~1S R. X.. ' .

... . (Superior-Inferior) ,
, , :, ,

..... ...
Rango de facultad Profesor Profesor Asociado Profesor Aslst~nte
Tasas de bonos estándar y pobres AAA AA A BBB BB. B ccc ce e i''óé>ID
Rango de restoranes
Grados de los estudiantes .. . ***** •itr•• *** ** *
A B C D E F

Figura 2.3 Ejemplos de escala ordinal.

vado clasificado en una categoría posee más de una propiedad de clasificación que
un valor observado clasificado en otra categoría. No obstante, dentro de una cate-
goría particular, no se hace ningún intento de explicar las diferencias entre los
valores clasificados. Además, la escala ordinal sigue siendo una forma débil de
medición, porque no pueden hacerse afirmaciones numéricas significativas
respecto a las diferencias entre las categorías. Esto es, el orden implica sólo qué
categoría es "mayor", "mejor" o "preferida", no cuánto "mayor", "mejor" o
"preferida". Por ejemplo, las clasificaciones colegiales de básquetbol o de futbol
son otras aplicaciones de la escala ordinal. Las diferencias de habilidad entre los
equipos clasificados en primer y segundo lugares pueden no ser iguales a las dife-
rencias en habilidad entre los equipos clasificados en segundo y tercero, o aquellos
clasificados como sexto y séptimo, etcétera.

• Escalas de intervalo y de cociente Una e.Scala de intervalo es una


escala ordenada en la gue la diferencia entre las mediciones es una cantidad sig-
nificativa. Por ejemplo, una lectura de temperatura de mediodía de 67 grados
Farenheit es 2 grados más caliente que una lectura de temperatura de mediodía de
65 grados Farenheit. Además, la diferencia de 2 grados Farenheit en las lecturas de
temperatura de mediodía es la misma cantidad que se obtendría si las dos lecturas
de temperatura de mediodía fueran de 76 y de 74 grados Farenheit, así que la dife-.
rencia tiene el mismo significado en cualquier lugar de la escala.
Si, además de que las diferencias son significativas e iguales en todos los pun·
tos de la escala, existe un punto cero verdadero que pueda ser tomado en cuenta
por los cocientes de mediciones, entonces la escala es una escala de coclent~.
Una persona que mide 76 pulgadas es el doble de alta que otra que mide 38 pul-
gadas; en general, entonces, las mediciones de longitud son escalas de cociente. La
temperatura es un caso más engañoso: las escalas Farenheit y centígrada (Celsius)
son escalas de intervalo pero no de cociente; la demarcación "O" es arbitraria, no
real. Nadie debería decir que una lectura de temperatura de mediodía de 76 grados
Farenheit es el doble de caliente que una lectura de temperatura de mediodía de 38
grados Farenheit. Pero cuando se mide desde el cero absoluto como en la escala

Obtención de datos mediante investigación de encuesta 17


Figura 2.4
Ejemplos de
escala de
Intervalo y de
cociente.

Kelvin, la temperatura está en una escala de cociente, porque el doble de una tem-
peratura realmente es el doble de la rapidez promedio de las moléculas que com-
ponen la sustancia. La figura 2.4 da ejemplos de variables de escala de intervalo y
de cociente.
Generalmente se supone que los datos obtenidos de una variable numérica han
sido medidos en una escala de intervalo o en una de cociente. Estas escalas consti-
tuyen los niveles más altos de medición. Son formas más sólidas de rp.edición que
una escala ordinal, porque podemos distinguir no sólo qué val o_!:- observado es el
mayor sino también por cuánto lo es. ,.

• Atención: La necesidad de definiciones operacionales Sin importar


el nivel de medición de nuestras variables, se necesitan definiciones operacionales
(véase la referencia 4) para obtener la respuesta o el resultado apropiados.
Una definición operacional proporciona un significado a un con-
cepto o variable que puede comunicarse a otros individuos. Es algo que
tiene el mismo significado ayer, hoy y mañana para todos los individuos.
Como ejemplo, tomemos la palabra "redondo". Aunque el diccionario proporciona
un significado literal, lo que se necesita es un significado que realmente pueda usarse
en la práctica. Por tanto, la cuestión realmente no es lo que es redondo, sino qué
tanto algo se aleja de la "redondez" antes de decir que no es redondo.
Esto necesita definirse de una manera que pueda aplicarse en forma consis-
tente día a día (o, para un trabajador de la producción, de producto a producto).
En el contexto de uria encuesta, considere la pregunta "¿cuál es su edad?" Para
evitar problemas de ambigüedad, debemos desarrollar una definición operacional
para las respuestas a la pregunta. Por ejemplo, debemos aclarar si la edad debe
reportarse resp1ct0 il cumpleat1os más cercano o como el último cumpleaños;
porque si su curnpleat1os es 'al mes siguiente, probablemente eligirá el cumple-
an.os más cercano si cumpliera 20 an.os; ¡pero desearía reportar su edad actual si
cumpliera 501 .
Como otro ejemplo de las definiciones operacionales, considere el siguiente
titular que apareció en un periódico suburbano del condado de Nueva York hace
algunos afl.os: "Desacuerdo en el conteo:¿Está Suffolk más poblado que Nassau?
LILCO y la Oficina de Censos, en desacuerdo". 1
El artículo incluía citas del ejecutivo del condado de Suffolk (" ... confiamos en
que Suffolk es el número uno") y del ejecutivo del condado de Nassau ("Lo
declararemos un empate en el espíritu de la cooperación regional"). Claro está que
las diferencias entre las dos estimaciones provienen del hecho que la Oficina de
Censos y la Long lsland Lighting Company (LILCO) tienen diferentes definiciones
operacionales para estimar la población en los dos condados. La Oficina de Censos
usa las tasas de nacimiento y muerte, los patrones de migración mostrados en las
devoluciones de impuestos por ingresos, y una fórmula demográfica que estima

18 Capítulo 2 Recolección de datos


que el número promedio de personas por casa ha disminuido en los últimos aftas.
Por otra parte, por su definición, LILCO usa el número de medidores de 'gas y elec-
tricidad abiertos todo el año, los permisos de construcción y un factor para el
número de personas en cada casa.

Problemas de la sección 2.3


2.1 Explique la diferencia entre una variable aleatoria categórica y una numérica y
dé un ejemplo de cada una.
2.2 Explique la diferencia entre una variable aleatoria discreta y una continua y dé
un ejemplo de cada una.
2.3 Si dos estudiantes sacan una calificación de 90 en el mismo examen, ¿qué
argumentos se podrían usar para demostrar que la variable aleatoria
subyacente (fenómeno de interés), calificación de prueba, es continua?
e 2.4 Determine si cada una de las siguientes variables aleatorias es categórica o
numérica.
Si es numérica, determine si el fenómeno de interés es discreto o continuo.
Además, proporcione el nivel de medición y una definición operacional para
cada una de las variables ..
(a) Número de teléfonos por casa.
(b) Tipo de teléfono usado principalmente.
(c) Número de llamadas de larga distancia hechas.
(d) Duración (en minutos) de la llamada de larga distancia más larga por mes.
(e) Color del teléfono usado principalmente.
(f) Cargo mensual (en dólares y centavos) de las llamadas de larga distancia
hechas.
(g) Propiedad de un teléfono celular.
(h) Número de llamadas locales hechas.
(i) Duración (en minutos) de la llamada local más larga por mes.
(j) Si existe una línea telefónica conectada a un módem de computadora en
la casa.
(k) Si existe una máquina de FAX en la casa.
2.5 Suponga que se tiene la siguiente información de los estudiantes después de
salir de la librería universitaria, durante la primera semana de clases:
(a) Cantidad de dinero gastado en libros.
(b) Número de libros de textQ comprados.
(c) Cantidad de tiempo empleado en la librería.
(d) Especialidad académica.
(e) Género.
(f) Propiedad de una computadora personal.
(g) Propiedad de una videocasetera.
(h) Número de créditos registrados en el semestre actual.
(i) Si se compraron o no artículos de vestir en la librería.
(j} Forma de pago.
Clasifique cada una de estas variables como categóricas o numéricas. Si es
numérica, determine si la variable es discreta o continua. Además, proporcione
el nivel de medición y una definición operacional para cada una de las
variables.
. ..
~º!~: ,~ p~l<t. '~ ~ll~i<:,a ~U~J~~. ~ql4po~~~ f e~t?,ú>~,C?b~~~:.~S,.
l\espµ_e#as a; lo~ prdhlemus Sf!lecdonadq's,
''.:••¡:::·~ ·¡··,·:·'¡·
,,:.-·, ', f'··.:,<<'"j'·'';'"'/·;:
ill•finélt·del. libró. •;· '. ·'·}y(,
! >,.:·:J~
·o'¡': <i\":1';,¡·(;
.), .~!·:,,>·:::.·,1·_,,'f.:,f>>~ >~·J:',~;~"J·•>.·

_ Obtención de datos mediante investigación de encuesta 19


2.6 Dé un ejemplo de variable numérica que realmente es discreta pero que podría
considerarse continua.
2.7 Dé un ejemplo en un área de interés para usted, en la que los datos sean útiles
para la toma de decisiones. ¿Qué datos son útiles? ¿Cómo podrían obtenerse?
¿Cómo podrían usarse los datos en el proceso de toma de decisiones?
2.8 Una de las variables más a menudo incluida en las encuestas es el ingreso.
Algunas veces la pregunta se formula como "¿cuál es su ingreso (en miles de
dólares)?". En otras encuestas, al respondiente se le pide que "ponga una X en
el cuadro que corresponda a su nivel de ingresos".
O Por debajo de $20,000 O $20,000-$39,999 O $40,000 o más
(a) Para cada uno de estos formatos, diga si el nivel de medición para la
variable es nominal, ordinal, de intervalo o de cociente.
(b) En el primer formato, explique por qué el ingreso podría considerarse
discreto o continuo.
(c) ¿Cuál de estos dos formatos preferiría usar si usted llevara a cabo una
encuesta? ¿Por qué?
(d) ¿Cuál de estos dos formatos es más probable que le dé un mayor cociente
de respuesta? ¿Por qué?
2.9 Proporcione una definición operacional en cada uno de los siguientes casos:
(a) Un profesor sobresaliente.
(b) Un buen trabajador.
(c) Un bonito día.
(d) Un servicio rápido.
(e) Un líder.
(f) Tiempo de traslado hacia escuela o trabajo.
(g) Un buen jugador de defensa.
2.10 Proporcione una definición operacional en cada uno de los siguientes casos:
(a) Un individuo dinámico.
(b) Una clase aburrida.
(e) Un libro Interesante.
(d) Un desempeflo sobresaliente.
(e) Un administrador.
(f) Una llegada de avión a tiempo.
(g) Tiempo de estudio.

Problema lntercapitular para la sección 2.3


2.11 Para cada variable de los ejemplos de aplicaciones de estadística que mencionó
en las respuestas a los problemas 1.1~l.7 de la página 9, diga si la variable es
numérica o categórica; si es numérica, si es discreta o continua: qué nivel de
medición tiene; y, si no es continua, si podría tratarse como si lo fuera.

fj 1 Diseño del cuestionario

El desarrollo de cuestionarios es un arte que mejora con la experiencia. Recuerde


que el propósito de un cuestionario es permitirnos recabar información significa-
tiva que nos ayude en el proceso de toma de decisiones. El procedimiento general
para diseñar un cuestionario involucra:

20 Capitulo 2 Recolección de datos


• La elección de temas amplios que deben reflejar el propósito de la encuesta.
• La decisión sobre una forma de respuesta.
• La formulación de preguntas.
• La prueba piloto y las revisiones finales.

2.4. 1 Selección de temas amplios -longitud del


cuestionario
Los amplios temas que deben reflejar el tema de la encuesta deben enumerarse. No
pasará mucho antes que se cree un gran número de preguntas. Desafortunada-
mente, sin embargo, existe una relación inversa entre la longitud de un cues-
tionario y el cociente de respuesta a la encuesta. Es decir, mientras más largo sea el
cuestionario, menor será el cociente de respuesta; mientras más corto sea el cues-
tionario, mayor será el cociente de respuesta. Por tanto, es imperativo que evalue-
mos cuidadosamente los méritos de cada pregunta y determinemos si la pregunta
es realmente necesaria y, si es así, cómo formularla de manera óptima. Las pre-
guntas deben ser lo más cortas posible. Las categorías de las respuestas a preguntas
categóricas no deben traslaparse y deben ser completas.

2.4.2 Modo de respuesta


El formato del cuestionario particular a seleccionarse y la formulación de pregun-
tas específicas se ven afectados por el modo de respuesta pretendido. Existen esen-
cialmente tres modos mediante los cuales se realiza un trabajo de encuesta: la
entrevista personal, la entrevista telefónica y el correo. La entrevista personal y
la telefónica generalmente producen un tasa de respuestas mayor que la encuesta
por correo, pero a un costo mayor.

2.4. 3 Formulación de las preguntas


Debido a la relación inversa entre la longitud de un cuestionario y la tasa de
respuesta a la encuesta, cada pregunta debe presentarse claramente en el menor
número posible de palabras, y cada pregunta debe considerarse esencial para la
encuesta. Además, las preguntas deben estar libres de ambigüedades. Se requieren
definiciones opefacionales para obtener la respuesta apropiada. Por ejemplo, con-
sidere las dos preguntas siguientes:
l. ¿Fuma usted? Sí No
2. ¿Cuántos años tiene? __ (en años)
La pregunta 1 tiene varias ambigüedades posibles. No es claro si la respuesta
deseada se refiere a cigarros, puros, pipas o a una combinación de éstos. Tampoco
es claro si el principal interés de la pregunta era conocer si se fuma ocasional o
habitualmente. Si sólo nos interesara el consumo actual de cigarros, tal vez sería
mejor preguntar
l. ¿Aproximadamente, cuántos cigarros fuma al día? __
Al contestar a la pregunta 2, como se señaló anteriormente, el respondiente
puede sentirse confundido respecto a responder sobre la base del último
cumpleaños o del cumpleaños más cercano, a menos que se especifique la defini-
ción operacional apropiada. Este problema puede evitarse, sin embargo, si se pre-
gunta simplemente
2. Escriba la fecha de su nacimiento:
día mes afío

Diseño del cuestionario 21


2. .4.4 Prueba del cuestionario
Una vez que se han analizado los pros y los contras de cada pregunta, el instru-
mento se organiza adecuadamente y se dispone para la prueba piloto, de manera
que pueda examinarse en cuanto a claridad y longitud. La prueba piloto en un
pequeño número de sujetos es una fase esencial en la aplicación de una encuesta.
Este grupo de individuos no sólo proporcionará una estimación del tiempo nece-
sario para responder la encuesta, sino que también se les pedirá que comenten
cualquier ambigüedad percibida en cada pregunta y que recomienden preguntas
adicionales.

Problemas de la sección 2.4


2.12 ¿Por qué podría esperar una mayor tasa de respuestas de una encuesta aplicada
mediante entrevistas personales o telefónicas que de una aplicada usando un
cuestionario por correo?
2.13 Suponga que el director de una investigación de mercados de una gran cadena
de tiendas departamentales desea caplicar una encuesta en un área
metropolitana para determinar el tiempo que gastan las mujeres que trabajan,
en la compra de ropa en un mes típico.
(a) Describa tanto la población como una muestra de interés e indique el tipo
de datos que el director desea recabar principalmente.
(b) Desarrolle un primer esbozo del cuestionario requerido en (a), escribiendo
una serie de tres preguntas categóricas y tres preguntas numéricas que
crea apropiadas para esta encuesta. Proporcione definiciones
operacionales para cada pregunta.
2.14 Escriba una pregunta en la que se inquiera la educación de una persona;
escriba tres versiones de la pregunta, que den distintos niveles de detalle.
Describa situaciones en las que el uso de cada una podría ser apropiado o
1naproplado.

iij Elección del tamaño de muestra


para la encuesta
En vez dl• tnmar un n•nso completo, los procedimientos de muestreo estadístico
(véase la s<.•<.'<."l(m 2. 7) se han convertido en la herramienta preferida en la mayoría
de las sltuadom•s dt• Investigación. Existen tres razones principales para extraer
una muestra .. Anl<.~S que todo, por lo general lleva a·emas1aaotiempo realizar un
~so_~.2!!!12!~_1~~'"· En segundo lugar, es defi1asiacl~ cosI~_s9~fl~.c:_~rjT~ú~!!_~9s;9míilito.
Tercero,_ es ~·n~~~~~-ª-~I~ molesto e ineficiente obtene,~-'!~_C:..()J!t~s>-..S:.9..WJ?,!eto de la
poblacion ou1cto.
Después que se han determinado las preguntas numéricas y categóricas más
esenciales en la encuesta, el tamaflo de muestra necesario se basará en la satisfac-
ción de la pregunta con los r<.•qm~rlmlentos más rigurosos. La determinación del
tamaño de muestra requerido para una encuesta dada es una cuestión que se exa-
minará más extensamente en el capítulo 10.

i!.j Selección de los sujetos


respondientes: tipos de muestras
Como se describió en la figura 2.5 de la página 23, exi_s!~I1.l::>ª~ic::_~~ef!te dos tipos
de muestras: la muestra no probabilística y_ l(l .llllle~tJ:"~--c:l~ p~~!>.~~!!i~~cl·

22 Capítulo 2 Recolección de datos


Tipos de muestras usadas

l
Muestras no probabilísticas Muestras de probabilidad

t
juicio
l
Muestra de Muestra de
cuota
De parte
grande
Muestra Muestra
1

Muestra Muestra de
aleatoria sistemática estratificada agrupación
simple

Figura 2.S Tipos de muestras.

Para muchos estudios sólo se dispone de una muestra no probabilística como una
muestra de juicio. En estos casos, la opinión de un experto en la materia objeto de
un estudio es crucial para poder usar los resultados obtenidos con el fin de hacer
cambios en un proceso. Algunos otros procedimientos típicos del muestreo no
probabilístico son el muestreo de cuota y el muestreo de parte grande; éstos se ana-
lizan con detalle en libros especializados sobre métodos de muestreo (véanse las
referencias 1, 3 y 8).
En un estudio enumerativo, la única forma de que hagamos inferencias
estadísticas correctas de una muestra a una población es mediante el uso de una
muestra de probabilidad.
Una muestra de probabilidad es aquélla en la que los sujetos de la
_i!iuesfra_ s~ eligen s_obre la base-cié- proba)Jilidades conocidas.
Los cuatro tipos de muestras de probabilidad de uso más común son la muestra
aleatoria simple, la muestra sistemática, la muestra estratificada y la muestra de
agrupación.
_]'.:n _una muestra aleatoria simple cada indiyiduo_ o _elemento tiene la
misma Qp~ntunJd_ad_\le sekc.ción que _cualquier otro,_yJa selección de un individuo
o elemento en particular no afecta.la probabilidad de que se elija cualquier otro.
Además, una muestra aleatoria simple también puede interpretarse como aguéll<!__
e~-~~! cada Eºs~'?_~~~~d~_tiene_~ misma 12.robabili~g de selección
™cualg_~!FL!!!ill:~trª-._q!!~-~~J!lt~<:J.a extrn.~.r.
Un análisis detallado de los procedimientos de muestreo sistemático, estratifi-
cado y de agrupación puede encontrarse en las referencias 1, 3 y 8.

ifl Extracción de la muestra aleatoria


simple
En esta sección nos referiremos al proceso de selección de una muestra aleatoria
simple. Aunque no necesariamente es el más económico o eficiente de los proce-
dimientos de muestreo de probabilidad, proporciona la base a partir de la cual han
evolucionado los procedimientos más complejos.
La clave de la selección de muestras apropiada es obtener y mantener una lista
actualizada de todos los individuos o elementos de los cuales se extraerá la mues-

Extracción de la muestra aleatorla slmplt lt


tra. Tal lista se conoce corno el marco de población. Este listado de población
servirá corno la población objetivo, de tal manera que si se extrajeran muchas
muestras de probabilidad diferentes de tal lista, en el mejor de los casos, cada mues-
tra sería una representación en miniatura de la población y produciría estima-
ciones razonables de sus características. Si el listado es inadecuado porque ciertos
grupos de individuos o elementos de la población no estuvieran incluidos apropia-
damente, las muestras de probabilidad aleatoria sólo proporcionarían estimaciones
de las características de la población objetivo, no de la población real, y ocurrirían
sesgos en los resultados.

2.7.1 Muestreo con o sin reemplazo


de poblaciones finitas
Para seleccionar la muestra pueden usarse dos métodos básicos: la muestra podría
obtenerse con reemplazo o sin reemplazo de la población finita. El método
empleado debe ser establecido claramente por el estadístico de la encuesta, puesto
que varias de las fórmulas usadas posteriormente con propósitos de inferencia
estadística dependen del método de selección. 2
Digamos qu@epresenta el tamañ.o de la po_Q!fici@~esenta el tamañQ
de la muestra. Para extraer una muestra aleatoria simple de tamaño n uno podrían
registrarse los nombres de los N miembros individuales de la población en fichas se-
paradas del mismo tamaño, colocar estas fichas en una gran pecera, mezclar a fondo
las fichas y luego seleccionar aleatoriamente los n sujetos de la muestra de la pecera.
Al seleccionar con reemplazo, la probabilidad de que cualquier miembro par-
ticular de la población, digamos Judy Craven, sea seleccionado en la primera
extracción de la pecera es l/N. Sin importar quién sea realmente seleccionado en
la primera extracción, la información pertinente se registra en un archivo maestro
y después la ficha particular se reemplaza en la pecera (muestreo con reemplazo).
Después, las N fichas de la pecera se revuelven bien y se extrae la segunda ficha.
Puesto que la primera ficha se reemplazó, la probabilidad de selección de cualquier
miembro o en particular, incluyendo a Judy Craven, en la segunda extracción, sin
importar si ese individuo ha sido o no seleccionado anteriorme11te, sigue siendo
1/N. Nuevamente la información pertinente se registra.en un a,rchivo maestro y la
ficha se reemplaza con el fin de preparar la tercera extracción. Éste proceso se repite
hasta que se obtiene n, el tamaño de muestra deseado. Por tanto, al muestrear con
reemplazo, cada individuo o elemento en cada extracción siempre tendrá una
oportunidad entre N de ser seleccionado.
¿Pero, desearíamos seleccionar posiblemente el mismo individuo o elemento
más de una vez? Al muestrear pQblaciones humanas, generalmente se considera
más apropiado tener una muestra de personas diferentes que permitir mediciones
repetidas de la misma persona. Asi pues, emplearíamos el método de muestreo sin
reemplazo, mediante el cual una vez que se extrae un individuo o en particular, la
misma persona no puede volver a seleccionarse. Como antes, al muestrear sin
reemplazo, la probabilidad que cualquier miembro particular de la población, di-
gamos Judy Craven, sea seleccionado en la primera extracción de la pecera es l/N.
Sea quien sea el seleccionado, la información pertinente se registra en un archivo
maestro y después la ficha particular se aparta en lugar de reemplazarse en la pecera
(muestreo sin reemplazo). Las restantes N-1 fichas de la pecera se revuelven bien y
se extrae la segunda ficha. La probabilidad que cualquier individuo no seleccio-
nado previamente sea seleccionado en la segunda extracción ahora es 1 entre N-1.
Este proceso de seleccionar una ficha, registrar la información en un archivo maes-
tro, revolver fas fichas restantes y después extraer nuevamente continúa hasta que
se obtenga la muestra desead~ de tamaño n.

24 Capítulo 2 Recolección de datos


No importando si muestreamos con o sin reemplazo, tales métodos de
"pecera" para la selección de muestras tienen una importante desventaja: nuestra
habilidad para mezclar a fondo las fichas y extraer aleatoriamente la muestra. Ésta
se convirtió en un importante asunto de controversia en 1969 cuando la Comisión
de Servicio Selectivo desarrolló un sistema de lotería para elegir hombres que se
alistaran en el servicio militar debido a la guerra de Vietnam. 3
Los métodos de "pecera" para muestrear que acabamos de describir, aunque de
fácil comprensión, no son muy útiles. Es deseable contar con métodos de selección
menos engorrosos y más científicos para asegurar lo aleatorio del proceso de selec-
ción. Uno de estos métodos utiliza una tabla de números aleatorios (véase la
tabla E.1 del apéndice E) para obtener la muestra .

.2.7•.2 Uso de una tabla de números aleatorios


Una tabla de números aleatorios consiste en una serie de dígitos aleatoriamente
generados y enumerados en el orden en el que se generaron (véase la referencia
10). Puesto que nuestro sistema numérico usa 10 dígitos (O, 1, 2, ..., 9), la probabi-
lidad de generar aleatoriamente cualquier dígito en particular es igual a la proba-
bilidad de generar cualquier otro dígito. Esta probabilidad es 1 entre 10. Por tanto,
si se generara una secuencia de SOO dígitos esperaríamos que aproximadamente SO
de ellos fueran el dígito O, SO el dígito 1, etc. De hecho, los investigadores que usan
tablas de números aleatorios generalmente prueban la aleatoriedad de tales dígitos
generados antes de emplearlos. La tabla E.1 cumple con todos esos criterios de
aleatoriedad. Puesto que cada dígito o secuencia de la tabla es aleatorio, podemos
usar la tabla leyendo ya sea horizontal o verticalmente. Los márgenes de la tabla
designan números de fila y números de columna. Los dígitos mismos se agrupan
en secuencias de cinco con el único propósito de facilitar la visión de la tabla.
Para usar una tabla de éstas en lugar de una pecera para seleccionar la muestra,
primero es necesario asignar números de código a los miembros individuales de la.
población. Después, obtenemos nuestra muestra aleatoria leyendo la tabla. de
números aleatorios y.seleccionando a aquellos individuos del marco de población
cuyos números de código asignados concuerden con los dígitos encontrados en la
tabla. Este proceso se describirá con detalle en la siguiente sección. Para compren-
der mejor el proceso de investigación de encuestas desde sus comienzos, conside-
remos la Encuesta sobre la satisfacción de los empleados de Kalosha Industries.

Encu~sta. sobre'..·Ja sá.tis(acción


de
ros ernpleados de· Kaloshá 1'ndustries
' ' ,' ,. ' ' '.· · '· .• •. ,• ' ' ·. ': ~i:it-~;·
Como parte de su nióvilp.ierito por iristr'ümeritar·un~filosofía 1 de a.~ ·
para:lá calic:ladto'tal,(TQM)'entóda.la cdmpafiía e incrementar a~ílci'
productividad, el consejo de directore~.·cle KaJoshalndustriés, fa];)rié~
automotrices, con 9800 empleados, desea estudíar su fuerza c;le traba
completo desarrollando un perfil de ~llipleados 'qqe Ínida ~<l satisfac~(
bajo, qµe evalúe la longevic;lad y el' progresó profesioniü y que váJ
ctones, actitudes y opinioheS cie ~us trabajádores·, ·Bud C::onley1 el y1~r
r~cursos hBmanqs, contr.ata )1 B ·& ·L Corpot¡iHon, una compcmí~:.
beneficios a emple.ados, para eI;J.cuestar a.los empleados de K~füs.b~·;:\
' ' ' ' '' ' ' 'q ' ' ·'· ,. ' ·,~Ó~J~:;

Encuesta sobre la satisfacción de los empleados de Kalosha Industries 25


Después de una cuidadosa consideración, Conley y el estadístico de B & L
Corporation determinan que una encuesta aplicada a través del correo entre ofici-
nas será suficiente para obtener una valoración precisa de la información deseada
sobre la satisfacción con el trabajo e ingresos, y se diseña y prepara un cuestionario
para una prueba piloto. Una vez que el vicepresidente y el estadístico hayan eva-
luado estos resultados, pueden hacerse cambios y, si el tiempo y el presupuesto lo
permiten, puede emprenderse un segundo estudio piloto sobre una muestra fresca
de respondientes para mejorar el cuestionario.
La figura 2.6 de las páginas 28 y 29 describe el cuestionario (con 28 preguntas)
que fue diseñado por el vicepresidente y el estadístico en su forma final. Un asunto
importante que tuvo que ser abordado por el estadístico fue, qué tan grande
debería ser la muestra extraída de los empleados de tiempo completo con el fin de
obtener un perfil de trabajadores a fin de que B & L Corporation tuviera la infor-
mación necesaria para desarrollar un paquete de beneficios a empleados que satis-
ficiera a los trabajadores de Kalosha Industries, reforzara su relación con la gerencia
y demostrara que la compañía de clientes está asumiendo un papel de líder en la
industria respecto a establecer un ambiente TQM. Por lo tanto, la meta de B & L
Corporation es hacer inferencias respecto a toda la población de los empleados de
tiempo completo de Kalosha Industries basándose en los resultados obtenidos de
la muestra.
La determinación del tamaño de muestra requerido se desarrollará en el capí-
tulo 10. El tamaño de muestra requerido se basa en que el vicepresidente y el
estadístico han decidido que las preguntas 7 y 9 son las preguntas numéricas y
categóricas primordiales, respectivamente, en toda la encuesta. Como veremos, el
tamaño de muestra requerido es de 400 empleados de tiempo completo de una
población de 9800 empleados de tiempo completo de Kalosha Industries. Sin
embargo, como no todos estarán dispuestos a responder a la encuesta, el vicepre-
sidente debe estar preparado para tener una mayor correspondencia. Basándose en
experiencias anteriores con encuestas domésticas por parte de la compafí.ía con-
sultora, se espera que nueve de cada diez trabajadores de tiempo completo res-
pondan a tal encuesta (es decir, una tasa de retorno de 90941); por tanto, deben
contactarse 445 empleados para obtener las 400 respuestas deseadas. De esta
manera el cuestionarlo se distribuyó en su forma final a 445 empleados de tiempo
completo cuyos nombres fueron sacados de los archivos de personal de Kalosha
Industries.
Para extraer la muestra aleatoria, el estadístico eligió usar una tabla de números
aleatorios. El marco de población comprendía un listado de los nombres y
números de buzón de la compan.ía de los N =9800 empleados de tiempo completo
de Kalosha Industries, obtenidos de los archivos de personal a través de Bud
Conley, vi<:epresldente de recursos humanos. Puesto que el tamaño de la población
(9800) es un número de cuatro dígitos, cada número de código asignado también
debe ser de cuatro digltos, de tal manera que cada trabajador de tiempo completo
tenga igual probabilidad de ser seleccionado. Así pues, al primer empleado de
tiempo completo de Kalosha Industries del listado de población se le asigna un
código de 0001, al segundo empleado de tiempo completo del listado de población
se le asigna un código de 0002, ... , al individuo 1752 del listado de población se le
asigna un código de 1752, etc, hasta que al N-ésimo empleado de tiempo completo
del listado se le asigna un código de 9800. Puesto que N = 9800 es el valor codifi-
cado más grande posible, todas las secuencias de código de cuatro dígitos mayores
que N (es decir, 9801a9999y0000) se descartan. ·
Con el fin de seleccionar la muestra aleatoria, debe establecerse un punto de
inicio aleatorio para la tabla de números aleatorios. Uno de estos métodos consiste
en cerrar los ojos y señalar un punto en la tabla de números aleatorios con un lápiz.
Suponga que el estadístico usa este procedimiento y selecciona así la fila 06,
columna 05 de la tabla 2.1 (una réplica de la tabla E.1) como el punto de inicio.
Leyendo de izquierda a derecha en 'la tabla 2.1 en secuencias de cuatro dígitos sin
saltarse, se seleccionan los empleados individuales para la encuesta.

26 Capítulo 2 Recolección de datos


Tabla 2.1 Uso de una tabla de números aleatorios.
Columna
00000 00001 11111 11112 22222 22223 :n:n:i :U:U·I
Fila 12345 67890 12345 67890 12345 67890 12:~4!l h7tWO
01 49280 88924 35779 00283 81163 07275 89863 oz:MK
02 61870 41657 07468 08612 98083 97349 20775 4501>1
03 43898 65923 2S078 86129 78496 976S3 91SSO OK0711
04 62993 93912 304S4 84S98 S609S 20664 12872 <i4M7
os 338SO S8SS5 S1438 8SS07 7186S 79488 76783 3170K
Comenzar selección 06 9734V 03364 88472 04334 63919 36394 1109S 92470
(fila 06, columna OS) 07 70543 29776 10087 10072 SS980 64688 68239 20461
08 89382 93809 00796 9S94S 34101 81277 66090 88872
09 37818 72142 67140 S078S 22380 16703 S3362 44940
10 60430 22834 14130 96S93 23298 S6203 92671 1S925
11 8297S 661S8 84731 19436 SS790 69229 28661 1367S
12 39087 71938 403SS S4324 08401 26299 49420 S9208
13 SS700 24S86 93247 32S96 1186S 63397 442Sl 43189
14 147S6 23997 78643 7S912 83832 32768 18928 S7070
lS 32166 S32Sl 706S4 92827 63491 04233 3382S 69662
16 23236 737Sl 31888 81718 06S46 83246 47651 04877
17 4S794 26926 1S130 824SS 7830S SSOS8 S2551 47182
18 09893 20SOS 1422S 68S14 46427 56788 96297 78822
19 S4382 74598 91499 14523 68479 27686 46162 83554
20 94750 89923 37089 20048 80336 94598 26940 36858
21 70297 34135 53140 33340 42050 82341 44104 82949
22 85157 47954 32979 26575 57600 40881 12250 73742
23 11100 02340 12860 74697 96644 89439 28707 25815
24 36871 50775 30§92 §7143 17381 68856 25853 35041
25 23913 48357 63308 16090 51690 54607 72407 55538

Fuente: Parcialmente extraído de The Rand Corporation, A Mil/ion Random Digits with 100,000 Normal Deviates (Glencoe, lL: The Free Press,
1955) y mostrado en la tabla E.1 del apéndice E al final de este texto.

El individuo con el número de código 0033 es el primer empleado de tiempo


completo de la muestra (fila 06 y columnas 05 a 08). El segundo individuo selec-
eionado tiene el número de código 6488 (fila 06 y columnas 09 a 12). Los indivi-
duos con los números de código 4720, 4334, 6391, 9363, 9411, 0959, 2470 y 7054
se seleccionan en tercer lugar, hasta el décimo, respectivamente.
El proceso de selección continúa de una manera similar hasta que se obtiene
el tamaño de muestra necesario de 445 empleados de tiempo completo. Se necesi-
tan dos páginas de una tabla de números aleatorios para lograr esto. Durante el
proceso de selección, si se repite cualquier secuencia codificada de cuatro dígitos,
el empleado correspondiente a esa secuencia codificada se incluye nuevamente
como parte de la muestra, si se muestrea con reemplazo; sin embargo, la secuencia
codificada repetida simplemente se descarta si se muestrea sin reemplazo. Observe
que la secuencia codificada 4205 aparece en la fila 12, columnas 33 a 36 y luego
nuevamente en la fila, 21, columnas 21 a 24. Puesto que el estadístico de B & L
Corporation está muestreando sin reemplazo, las secuencias repetidas se descartan
y se obtiene una muestra de 445 empleados de tiempo completo.

Encuesta sobre la satisfacción de los empleados de Kalosha Industrie• 2r


Figura 2.6 Cuestionario.
Encuesta sobre la satisfacción de los empleados
(En las preguntas 1-28, por favor inserte el valor o ponga un
Código círculo al número según sea apropiado)
-¡- -y- -3- * Código de número de identificación ___ (Uso de oficina)

-5- --6- l. ¿Cuántas horas trabajó la semana pasada, en todos los


trabajos? __
- 2. ¿Cuál es su opinión?
8

[I] Gerencial l1J Profesional []] Técnico/ventas


IIl Apoyo adm. l1J Servicios []] Producción
0 Obrero

10
--
11
3. ¿Cuál es su edad (respecto al último cumpleaños)? _
-13- -14- 4. ¿Cuántos años de escuela concluidos? _

--
16
5. ¿Cuál es su género? [I] Masculino l1J Femenino
-18- 6. Entre los miembros de su familia que viven en su casa
actualmente, ¿cuántos, incluyéndose usted, estuvieron
empleados el año pasado?_
-20- -21- -22- -23- 7. ¿Cuáles fueron sus ingresos "antes de los impuestos" el
año pasado (en miles de dólares)?_
-25- -26- -27- -28- 8. ¿Cuáles fueron sus ingresos familiares totales "antes de
impuestos" el año pasado
(en miles de dolares)?_
9. En general, ¿qué tán satisfecho está con su trabajo?
30

[I] Muy satisfecho l1J Moderadamente satisfecho


l1J Un poco insatisfecho (1) Muy lnsatlsfehó '
10. SI de la noche a la matlana se enriqueciera por una
herencia, un regalo o la loterla, ¿delarla de trabajar y se
retirarla?
[JJ SI lII No IIl No está seguro
.-¡¡- 11. ¿CuAI de las siguientes caracteristlcas del trabajo es la más
Importante para usted? ?
[lJ Altos ingresos l1J Ningún riesgo de ser despedido
[!] Horario flexible GJ Oportunidades de progreso
l1J Disfrute del trabajo
12. ¿Cuál de las siguientes formas es la más empleada por la
36
mayoría de las personas para sacar el trabajo?

[I] Trabajo duro l1J Trabajo duro y suerte ITJ Suerte


13. ¿Cuántos eventos traumáticos (muerte de un pariente o
38
amigo cercano, divorcio/separación, desempleo,
incapacidad por enfermedad) experimentó el año
pasado?_
14. ¿Es miembro de un sindicato de trabajadores actualmente?
40

ITJ Sí l1J No
15. Desde los 16 años, ¿aproximadamente cuántos años ha
42 43
trabajado tiempo completo a cambio de un salario?_
- - - - - 16. ¿Cuántos años en total ha trabajado para su actual
45 46 47 48 49
empleador?_

28 Capítulo 2 Recolección de datos


-- 17. ¿Cuántas promociones, si las hubo, ha recibido mientras
51
ha trabajado con su actual empleador?_
--
53
18. En los siguientes cinco años, ¿qué tan probable es que sea
promovido?
(I] Muy probable rn Probable (] No está seguro
liJ Improbable W Muy improbable
19. ¿Las oportunidades promocionales son mejores o peores
55
para personas de su género?
(I] Mejores rn Peores (] No tiene efecto
-57- 20. Desde su primer trabajo de tiempo completo con esta
organización, ¿cómo describiría su "avance"?

(I] Avance rápido rn


Avance intermedio
(] Casi en el mismo lugar liJ Pérdida de terreno
21. ¿Su trabajo le permite tomar parte en la toma de
59
decisiones que le afectan en su trabajo?
(I] Siempre rn Gran parte del tiempo
(] Algunas veces liJ Nunca
-- 22. Como parte de su trabajo, ¿participa en decisiones
61
presupuestales?
(I] Sí
-63- 23. ¿Qué tan orgulloso se siente de trabajar para esta
organización?

(I] Muy orgulloso rn Algo orgulloso


(] Indiferente liJ Nada orgulloso
24. ¿Rechazaría otro trabajo de más paga para poder quedarse
65
en esta organización?
ITJ Muy probable rn Probable (] No está seguro
liJ Improbable WMuy improbable
25. En general, ¿cómo describiría las relaciones en su lugar de
67
trabajo entre la gerencia y los empleados?

ITJ Muy buenas rn Buenas (] Regulares


liJ Malas WMuy malas
-69- 26. En general, ¿cómo describiría las relaciones en su lugar de
trabajo entre compañeros de trabajo y colegas?
ITJ Muy buenas rn Buenas (] Regulares
liJ Malas W Muy malas
-71- 27. ¿Qué tan importante fue su formación académica formal
para el trabajo que ahora hace?

ITJ Muy importante rn Importante


(] Algo importante liJ Nada importante
-- 28. ¿Qué tan importante fue la capacitación formal para el
73
trabajo que ahora hace?

ITJ Muy importante rn Importante


(] Algo importante liJ Nada importante

Encuesta sobre la satisfacción de los empleados de Kalosha Industries 21


Problemas de la sección 2.8
'
2.15 Para cada una de las 28 preguntas de la Encuesta sobre la satisfacción de los
empleados, proporcione una definición operacional que pueda ser necesaria
para evitar ambigüedades.
f 2.16 ¿Cuándo es aleatoria una muestra? ¿Cuáles son algunos problemas potenciales
al usar métodos de "pecera" para extraer una muestra aleatoria simple?
2.17 Para un estudio que requeriría hacer entrevistas personales con participantes
(en vez de encuestas por correo o telefónicas), diga por qué una muestra
aleatoria simple podría ser menos práctica que algunos otros métodos.
2.18 Si deseara determinar qué proporción de películas exhibidas en los Estados
Unidos el año pasado tenían temas basados en sexo o violencia, ¿cómo podría
obtener una muestra aleatoria para responder a su pregunta?
Supongamos que deseo seleccionar una muestra aleatoria de tamaño 1 de una
" 2.19
población de 3 elementos (que podemos llamar A, By C). Mi regla para extraer
la muestra es: lanzar una moneda; si cae cara, seleccionar el elemento A; si cae
cruz, volver a lanzar la moneda; esta vez, si cae cara seleccionar B, si cae cruz
elegir C. Diga por qué es ésta una muestra aleatoria, pero no una muestra
aleatoria simple.
Suponga que una población tiene 4 miembros (llamémosles A, B, C y D). Me
' 2.20
gustaría extraer una muestra aleatoria de tamaño 2 y decido hacerlo de la
siguiente manera: lanzo una moneda; si cae cara, mi muestra serán los
elementos A y B; si cae cruz, la muestra serán los elementos C y D. Aunque
ésta es una muestra aleatoria, no es una muestra aleatoria simple. Diga por
qué. Si resolvió el problema 2.19, compare el procedimiento allí descrito con
el procedimiento descrito en este problema.
2.21 Para una lista de población que contiene N = 902 individuos, ¿qué número de
código asignaría para
(a) la primera persona de la lista?
(b) la cuarta persona de la lista?
(e) la última persona de la, lista?
z.22 . Para UDll pobl•clOn de N • 902, verifique que comenzando en la fila 05 de la
tabla de n6meros aleatorios (tabla E.1) sólo se necesitan seis filas para extraer
una muestra de tamafto n • 60 sin reemplazo.
• , \. 1 ,l ·!,">.

11·1, ·obtención de las respuestas


Ahora que se ha seleccionado la muestra de 445 empleados de tiempo completo de
Kalosha Industries y que se han distribuido los cuestionarios, deben obtenerse las
respuestas. En esta encuesta doméstica por correo, debe permitirse suficiente
tiempo para una respuesta inicial.
El cuestionario y cualquier conjunto de instrucciones deben haberse enviado
con una carta explicatoria. Esta carta debe ser breve y pertinente. Debe establecer
el objetivo o propósito de la encuesta, cómo debe usarse la encuesta y por qué es
importante que los individuos seleccionados respondan inmediatamente. Además,
debe dar todas las seguridades necesarias del anonimato del respondiente y, en
algunos casos (que implican el correo regular más que las encuestas domésticas),
ofrecer un regalo como incentivo por la participación del respondiente.

Problemas de la sección 2. 9
2.23 Escriba un borrador de la carta explicatoria necesaria para la Encuesta sobre la
satisfacción de los empleados de Kalosha Industries.

30 capítulo 2 Recolección de datos


2.24 Escriba un borrador de la carta explicatoria necesaria para la encuesta de la
tienda departamental desarrollada en el problema 2.13 de la página 22.

f8 l•l Preparación de los datos: edición,


.codificación y transcripción
Una vez que se recaba el conjunto de datos, debe prepararse cuidadosamente para su
presentación tabular y diagramática, su análisis y su interpretación. Los procesos de
edición, codificación y transcripción son extremadamente importantes. Las respues-
tas a preguntas de extremo abierto, (aquellas que requieren que el respondiente
exponga un punto de vista), deben clasificarse u ordenarse apropiadamente, mientras
que las respuestas a las preguntas numéricas y c,.ategóricas necesitan codificarse para
ingreso de datos. Todas las respuestas se examinan a fondo buscando su integridad y
errores. Si es necesario, la validez de las respuestas se obtiene volviendo a contactar a
los individuos cuyas respuestas parecen inconsistentes o inusuales.
La tabla 2.2 de la página 32 representa las respuestas de Clark Kent, número de
identificación de código de archivo 0033 que fue el primer empleado seleccionado
en la muestra. Para facilitar el ingreso de datos, cada número de identificación de
cuatro dígitos del individuo seleccionado (obtenido del marco de población pro-
porcionado por el funcionario de recursos humanos de la compañía) es reem-
plazado por el número que le corresponde, como respondiente, que especifica la
posición en el proceso de selección de muestra. Por ejemplo, el primer empleado
seleccionado Clark Kent (número de código de archivo 0033), tiene el número de
respondiente codificado 001.
Observe cómo están codificadas las respuestas al cuestionario para su entrada.
Las preguntas categóricas requieren un código de un dígito como el observado en la
pregunta 2, "ocupación". Clark Kent, un antiguo periodista, es ahora gerente de pu-
blicaciones del departamento de publicidad de Kalosha Industries y a esta respuesta
se le da un código de l. Por cuestiones numéricas, sin embargo, el número de espa-
cios por asignar a una respuesta debe basarse en las respuestas más extremas posibles.
Por ejemplo, en la pregunta 15 se requieren dos espacios porque el número total de
años que un individuo ha trabajado tiempo completo no puede exceder los dos dígi-
tos. Clark Kent ha acumulado 14 años de experiencia de trabajo de tiempo completo
desde que tenía 16 años de edad. Por tanto, se registra un valor de 14.
Las respuestas de Clark Kent se describen en la figura 2.7. Para-introducir las
respuestas de un individuo a la Encuesta sobre la satisfacción de los empleados,
observamos que se requiere un máximo de 73 espacios puesto que hemos incluido
un espacio en blanco entre las respuestas a las diferentes preguntas. Sin embargo,
el formato exacto de los datos dependerá de la hoja de trabajo o del paquete
estadístico utilizado, particularmente cuando se encuentran respuestas incomple-
tas (valores faltantes).

Figura 2. 7 Entradas de datos para las respuestas de Clark Kent, número de identificación de c6cll10 de
archivo 0033 .

La tabla 2.3 de las páginas 33-40 es una impresión de los datos. Esta impresión
corresponde a las respuestas de los 400 empleados de tiempo completo que parti-
ciparon en la encuesta de los 445 empleados invitados. Observamos que las
respuestas de Clark Kent aparecen primero, puesto que él fue el primer empleado
de Kalosha Industries seleccionado en la muestra.

Preparación de los datos: edición, codificación y transcripeión 31


Tabla 2.2 Codificación de las respuestas de Clark Kent, número de identificación de código de archivo 0033.
Columnas
asignadas Respuestas de
Código de para entrada Clark Redf:uesta
Pregunta Tipo de pregunta computadora de datos Kent co ificada
Número de encuestado IDNUM 1-3 001
1 Horas de trabajo WORKHRS 5-6 50 50
2 Ocupación OCCUP 8 Gerencial 1
3 Edad AGE 10-11 35 35
4 Años de escolaridad EDUC 13-14 20 20
5 Género SEX 16 Masculino 1
6 Número de apartadores EARNRS 18 2 2
7 Ingresos del encuestado RINCOME 20-23 $78,300 78.3
8 Ingresos familiares FINCO ME 25-28 $85,300 85.3
9 Satisfacción con el trabajo SATJOB 30 Moderadamente
satisfecho 2
10 Retiro si se enriquece RICHWORK 32 Sí, se retiraría 1
11 Características del trabajo JOBCHAR 34 Oportunidades
de avances 4
12 Avanzar GETAHEAD 36 Trabajo fuerte 1
13 Eventos traumáticos TRAUMA 38 o o
14 Miembro de sindicato MEMUNION 40 No sindicato 2
15 Afias trabajados WRKYEARS 42-43 14 años 14
16 Afias en Kalosha Industries EMPYEARS 45-49 3.00 afias 3.00
17 Número de promociones NUMPROMO 51 o o
18 Promoción futura FUTPROMO 53 Muy probable
19 Oportunidades de
promoción SEXPROMO 55 Mejores 1
20 Progreso de avances AD VAN CES 57 Avances
estables 2
21 Toma de decisiones IDECIDE 59 Algunas veces decide 3
22 Decisiones presupuestarias ORGMONEY 61 Sí 1
23 Orgullo de Kalosha Industries PROUDORG 63 Algo orgulloso 2
24 Permanecer en la organización STAYORG 65 Muy improbable 5
25 Sindicato-gerencia UNMANREL 67 Regulares 3
26 Relaciones de compañeros COWRKREL 69 Buenas 2
27 Escolaridad formal SCHOOLNG 71 Importante 2
28 Capacitación formal TRAINING 73 Muy importante 1

Problemas de la sección 2. I O
2.25 Codifique las siguientes respuestas para los datos:
(a) Altura: 5 pies 2 pulgadas _pulgadas
(b) Peso al nacer: 7 libras 8 onzas _libras
(c) Fecha de nacimiento: Junio 27, 1958 años de edad
2.26 Para cada caso del problema 2.25 describa las reglas que usó para codificar.
¿Qué alternativas podría haber considerado?

Capítulo 2 Recolección de datos


Tabla 2.3 Listado de computadora de las respuestas al cuestionario de una muestra de empleados de tiempo
completo.
R G M w E N F s A o p u e s T
w R F I J E E R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A N N A H B A R u y y p p p A E M u A A R o I
D K e E R e e T w e H A I E E R R R N e o D y N K o N
o N H e A D s N o o J o H E u N A A o o o e I N o o R R L I
B u R u G u E R M M o R A A M o R R M M M E D E R R E E N N
s M s p E e X s E E B K R D A N s s o o o s E y G G L L G G

1 1 so 1 35 20 1 2 78.3 85.3 2 1 4 1 o 2 14 3.00 o 1 1 2 3 1 2 5 3 2 2 1


2 2 30 7 64 14 2 2 25.7 81. 9 1 1 3 2 o 2 25 11.00 o 5 3 3 2 2 2 2 1 l 2 2
3 3 40 1 33 15 1 2 40.5 85.6 2 1 3 1 o 2 12 9.00 2 5 1 2 2 1 2 2 2 1 1 1
4 4 40 3 23 14 1 1 20.2 20.2 1 1 1 1 o l 3 1.50 o 1 3 2 1 2 1 5 1 2 2 1
5 5 50 4 33 l2 2 1 25.2 25.2 1 1 1 2 o 2 15 4.00 3 1 3 2 1 2 1 3 1 1 3 1
6 6 40 3 60 14 1 1 35.7 3S.7 1 1 1 1 o 2 40 20.00 o 3 3 2 1 2 1 1 1 1 1 1
7 7 40 5 37 l4 2 1 15.0 lS.O 2 2 1 2 o 2 10 l. 50 o 2 3 2 3 2 1 4 1 1 1 1
8 8 40 6 2S 13 2 3 18.0 49. s 2 1 5 3 1 2 10 1.50 o 5 3 2 3 2 2 5 2 2 1 1
9 9 50 2 39 18 1 l 60.8 60.8 2 l 5 1 o 2 15 5.00 o 4 1 3 3 2 2 4 3 1 3 3
10 10 30 1 35 16 1 1 38.4 38.4 2 2 1 2 o 2 15 3.00 2 3 3 2 1 1 2 4 2 2 4 2
11 11 32 2 35 12 2 l 31.0 33.S 1 1 1 1 o 2 13 1.50 o 2 2 3 l 1 2 4 3 3 1 1
12 12 SS 6 49 13 1 2 76.6 93.5 3 2 1 1 o 1 30 5.00 o 5 l 3 l l 2 5 l . l 3 1
13 13 40 3 34 12 2 2 33.3 SS.2 2 1 1 1 o 2 12 6.00 1 1 3 2 2 2 2 4 3 4 2 l
14 14 40 4 50 l4 2 1 15.8 17.4 3 2 1 l o 2 20 10.00 o l 3 3 3 2 2 4 3 3 2 2
15 15 40 7 49 4 1 l 27.5 27.6 2 2 3 2 l l 31 22.08 o 4 3 3 4 2 2 2 3 1 4 1
16 16 40 5 39 16 1 2 64.2 67.2 1 1 5 l o 2 23 0.50 o 1 3 2 1 2 1 4 1 1 1 1
17 17 40 3 61 12 2 1 32.0 34.6 1 1 1 1 o 2 20 0.75 o 5 3 3 1 2 2 4 1 1 4 3
18 18 40 1 59 16 1 1 26.6 35.4 2 1 5 1 1 2 43 1.50 1 2 3 1 4 2 2 4 1 1 1 1
19 19 40 4 25 16 1 1 33.1 33.1 4 1 5 3 o 2 7 l . 00 1 1 1 1 l 1 2 4 2 1 3 1
20 20 50 7 20 11 1 2 10.5 14.3 1 l l l o 2 3 1.00 3 l l 2 3 2 l 4 1 l 3 1
21 21 64 3 37 13 2 1 35.7 3S.7 1 1 5 1 l 2 20 3.00 o 4 2 3 1 1 2 2 3 3 1 2
22 22 49 4 24 12 2 2 24.3 27.4 3 1 4 2 o 2 7 S.00 1 1 2 2 3 2 2 5 2 2 3 1
23 23 30 6 33 10 1 2 33.3 42.8 3 1 5 1 o 2 17 5.00 o 2 l 3 1 1 2 2 2 1 2 2
24 24 SS 3 30 16 1 1 33.8 33.8 1 1 5 1 o 2 14 S.00 1 2 1 2 2 l 1 2 3 2 2 1
25 25 50 5 43 13 l 4 25.2 91.8 1 1 4 1 o 2 27 12.00 2 1 3 2 2 2 1 4 2 1 2 2
26 26 40 4 56 16 2 1 36.l 36.9 1 2 1 l o 2 36 30.00 3 1 1 2 2 2 2 4 1 1 l 1
27 27 40 6 35 15 1 2 42.7 51.8 1 1 5 1 o 2 18 o.so o 2 1 2 l 1 2 2 2 1 1 1
28 28 40 4 35 16 l 2 14.7 46.9 2 l 5 2 3 2 15 0.7S 2 1 1 3 3 2 2 4 2 2 2 1
29 29 40 2 42 16 2 3 23.7 51.2 1 1 1 1 l 2 25 5.50 o 5 3 3 2 1 2 4 2 1 1 1
30 30 48 l 34 12 2 2 31.3 67.7 1 1 3 1 o 2 18 3.00 o 4 3 2 1 1 l 4 2 2 3 4
31 31 42 4 50 14 2 3 24.1 69.6 2 1 5 1 o 2 33 3.50 1 2 1 2 1 l 2 4 3 1 1 2
32 32 50 3 34 12 2 4 30.3 34.2 2 2 3 3 1 2 15 8.00 2 2 2 2 2 l 2 2 3 2 1 1
33 33 45 5 41 13 1 2 16.4 l8 .s 2 2 1 1 o 2 24 2.00 o s 1 3 2 2 2 4 1 1 1 1
34 34 40 2 44 16 2 3 17.9 34.2 l 2 1 3 o 2 9 5.SO o 5 3 3 1 l 2 s 2 2 l 4
35 35 40 3 27 17 2 2 20.4 36.2 2 2 5 1 o 2 11 7.00 o 2 1 3 3 2 2 4 2 2 2 2
36 36 40 6 40 13 1 3 26.3 29.9 l 1 1 1 o 2 23 10.00 1 1 3 2 3 2 l l 2 2 1 1
37 37 32 2 33 16 2 2 21. 6 46.6 l 2 s 3 o 1 12 2.SB o 4 2 2 4 2 l 2 5 1 1 l
38 38 so 1 38 19 l 2 48.7 68.0 1 l 4 l o 2 19 15.00 4 l l 2 2 1 2 2 1 1 l 1
39 39 89 3 41 15 l l 18.4 19.2 3 1 1 l o l 23 l . 00 o 4 3 2 4 2 4 s 3 3 2 4
40 40 40 4 32 12 1 1 lS.4 lS.4 1 1 1 2 o 2 16 O.ló o 2 3 3 4 2 2 4 3 3 4 3
41 41 48 1 S8 14 1 2 53.7 56.5 2 1 4 3 o 2 42 36.00 4 5 1 2 1 l 2 5 1 2 1 1
42 42 40 2 28 16 2 l 17.0 20.0 1 1 5 1 o 2 7 12.33 1 1 2 3 1 2 1 4 5 1 3 2
43 43 45 7 18 12 1 5 11.S 55.5 3 2 1 1 o 2 1 l . 00 o 2 1 3 4 2 3 4 5 4 4 2
44 44 40 2 33 16 2 1 17.7 19.3 1 1 5 2 o 2 14 3.00 o 5 2 3 2 2 3 4 1 .;. 3 2
45 45 38 3 34 9 2 3 11.8 43.7 2 2 1 1 o ·2 18 1.50 l 2 3 3 3 2 2 2 2 2 3 2
.., 46 46 40 1 48 17 2 1 32.8 33.5 2 1 5 1 o 2 22 6.00 2 4 2 2 4 2 2 4 2 2 1 3
w 47 47 40 5 21 14 2 2 16.3 60.7 2 1 5 1 o 2 3 0.66 o 3 3 3 2 2 3 2 1 1.
48 48 40 1 26 16 2 2 44.7 65.3 1 1 4 1 o 2 13 3.50 1 3 3 2 1 l 1 2 1 1
•2. •.,
49 49 40 1 39 18 1 1 75.6 91.8 1 1 5 2 1 2 23 3.00 o 5 3 3 1 1 1 1. l.
so 50 40 1 29 17 2 1 50.1 50.1 l 1 5 1 o 2 20 16.00 o 1 1 1 1 1 2 2 ~ 3 3
- ... - =-
Tabla 2.3 (Continuación)
w p u T
~ R G M w E N F s A o e s
w R F I J B E R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A N 11 A B B A R u y y p p p A E M u A A R o I
D K e E R e e T e H A I E E R R R N e o D y N 1< o N
o N H e A D s N o o J o H
" B u N A A o o o e I N o o R R L I
8 u R u G u E R M M o R A A M o R R M M M E D E R R E E N N
s M s p E e X s B B B lt R D A N s s o o o s E y G G L L G G
~=. :~

51 51 40 2 31 18 1 1 2
27.6 :z9_4 2 5 l o 2 9 4.00 o 2 3 3 2 1 2 2 l 1 1 2
52 52 45 2 33 19 1 1 36.3 37.4 2 1 5 1 o 2 7 4.00 l l l 2 2 1 2 2 2 1 2 2
S3 S3 32 1 36 18 1 2 30.3 71.3 ·4 1 5 2 o 1 16 4.08 1 4 2 2 1 2 3 4 5 3 1 1
54 54 62 5 28 12 1 2 41~ _•17-1 1 1 4 2 o 2 12 5.00 3 1 3 1 1 1 1 1 2 1 4 1
55 S5 40 2 40 17 2 1 29~· :44.1 4 1 s 3 o 1 23 4.50 o 5 2 3 4 1 4 5 4 4 1 4
S6 56 40 1 25 16 1 2 -32~2 -43.2 1 1 4 l o 2 2 2.00 o 1 1 3 1 2 2 4 4 2 1 1
57 57 40 3 39 16 2 1 ..&0:-2 45.2 2 2 5 1 o 2 14 2.00 1 1 3 2 3 2 2 4 3 3 2 2
SS SS 40 4 27 12 1 3 -22~.5 32.5 1 1 5 1 o 2 10 s.oo o 4 l 2 2 l 1 2 1 l l 1
59 S9 40 1 40 17 -1 -2 ;20.1 ·35_1 2 1 1 1 o 2 18 11.83 4 l 3 2 1 1 2 4 2 2 1 1
60 60 40 s 27 9 2 3 ~11_:"6 -48.9 2 2 5 1 o 2 4 4.00 o 5 3 3 1 2 l 2 l l 2 3
61 61 so 1 53 ·1' -1 _-3 :so~5 75.1 2 1 1 3 o 2 36 10.00 o 2 l 2 2 l 2 4 3 l 2 2
62 62 46 1 39 13 2 2 22 ..-s 50.1 l l 5 l o 2 23 1.00 o 5 3 3 1 1 1 1 l l l l
63 63 72 6 47 14 1 1 ,55.7 -59.5 l 1 1 1 o 2 27 S.00 o s 1 3 3 2 l 5 3 3 4 l
64 64 40 1 27 11 2 2 :-is.:-s 30.4 4 2 2 2 1 2 5 2.00 2 5 3 l 2 2 2 4 2 3 1 3
6S 65 40 6 40 10 2 -.2 -_1'7.0 %9.3 2 1 s 3 o 2 13 4.00 o 5 3 3 4 2 2 s 2 2 4 2
66 66 30 7 27 12 1 1 15.S 17.0 2 l s 1 2 2 27 o.so o l 3 3 4 2 3 s l l 4 2
67 67 so 1 35 15 1 1 ~43.3 43.3 l l 1 1 l 2 18 l.o.oo o 5 1 1 2 2 2 4 1 3 1 2
68 68 40 3 25 16 1 -3 22~0 52.3 1 1 5 1 o 2 8 2.SO o 5 1 2 l 1 l 2 l l l 2
69 69 35 7 53 9 1 1 10.2 15.6 l 1 5 1 1 2 34 5.00 o l 3 3 2 2 4 5 3 3 2 2
70 70 40 2 35 16 1 1 41.3 41.3 2 l s 1 o 2 13 6.41 3 1 l 2 2 1 2 2 2 1 2 1
71 71 48 7 43 12 1 2 Sl.2 67.9 l 2 1 1 o 2 26 11. 00 2 1 1 2 l 1 l 4 3 l 1 1
72 72 40 2 33 14 -2 ,3 19.8 62.S 2 2 1 1 1 l 12 2.00 l 2 3 2 3 l 2 s 2 1 1 2
73 73 40 6 48 12 1 3 so.o 54.l 2 1 4 3 2 l 32 21.00 4 s 2 2 4 2 2 5 3 l 4 3
74 74 SS 1 29 16 1 1 23 •. 6 34.8 2 l 5 1 o 2 11 1.00 1 l 1 l 2 1 3 4 1 2 1 4
7S 75 40 4 26 13 2 1 19.3 19.6 2 2 3 1 o 2 10 4.00 5 4 2 2 1 1 2 4 2 2 3 2
76 76 40 1 23 16 2 1 16.0 16.9 1 l 2 1 o 2 6 0.75 o l 1 3 1 1 1 l 2 1 l 4
77 77 48 4 30 14 2 2 ]:8.1 41.8 2 1 1 2 l 2 4 1.00 1 l 3 2 1 2 2 4 1 2 1 1
78 78 40 4 53 12 2 1 21.7 35.7 2 l 5 2 o 2 15 12.50 1 1 3 2 3 2 2 4 4 2 2 1
79 79 40 6 53 12 1 -2 39.0 43.9 2 2 s 1 o l 30 o.os o 2 3 2 2 2 2 3 2 2 2 l
80 80 40 7 . 43 14 1 1 30.9 30.9 l 1 5 3 o 2 37 2.00 o 4 3 3 3 2 2 3 1 1 4 3
81 81 40 6 30 13 1 2 32.3 39.3 2 1 5 1 o 2 11 10.00 2 2 3 2 2 2 2 3 2 2 3 1
82 82 40 4 27 14 1 2 17.9 46.S 2 2 5 1 2 2 17 o.so o 2 3 3 3 2 2 3 2 2 2 2
83 83 35 2 S9 15 1 2 39.8 69.0 1 1 5 1 o 2 42 6.00 o s 3 3 1 1 1 2 l 2 1 4
84 84 40 2 36 16 2 1 37.2 -38.8 2 l 4 2 o 2 19 12.50 1 4 3 3 3 2 2 2 3 1 1 1
85 8S 40 2 52 16 1 2 54.6 56.7 4 2 s 1 o 1 30 21.00 l 4 3 3 2 1 2 3 3 2 2 2
86 86 50 6 40 14 1 2 18.8 57.4 1 1 5 3 o 2 24 1.50 1 s 3 1 1 l 1 1 l 1 1 1
87 87 59 7 29 17 1 2 39.6 46.6 1 1 l 2 o 2 8 2.83 o s 3 3 1 2 2 2 4 2 3 3
88 88 40 3 40 14 1_ 2 78.0. 92.9 1 1 s 1 o 2 23 4.33 o 1 l 3 1 1 3 4 5 2 1 3
89 89 45 1 36 12 2 1 25.2 2S.9 3 2 1 l o 2 20 10.00 1 2 2 2 3· 2 2 3 2 1 4 1
90 90 45 2 38 20 1 1 64.S 65.7 1 1 s 3 o 2 21 4.00 2 l l l l 1 2 2 2 2 l 4
91 91 43 1 64 13 2 1 28.6 35.2 1 2 4 1 o 2 21 7.00 1 5 3 2 1 l l 1 2 2 2 1
92 92 SS l 43 16 2 2 61.7 78.8 1 1 5 1 o 2 25 18.00 2 5 3 2 2 1 2 2 2 1 2 4
- 93 93 46 1 28 16 2 1 35.l 38.3 2 2 5 1 o 1 12 0.16 o 2 2 3 2- 2 2 5 2 2 1 2
94 94 40 4 52 14 2 1 20.6 47.3 2 1 s 1 o 2 20 3.00 1 2 1 3 1 2 2 4 2 1 2 2
9S 95 30 3 48 12 2 2 13.7 36.1 1 2 5 l o 2 15 1.66 o 5 l 3 1 2 l 2 1 3 1 1
96 96 40 3 52 12 1 2 40.8 96.2 3 l 5 1 1 2 35 0.08 o 5 1 3 l 2 2 4 l 1 3 1
97 97 40 4 43 12 2 2 19.7 57.8 1 2 5 1 o 2 27 9.41 1 4 3 3 3 2 1 2 2 2 1 2
98 98 36 4 39 13 2 3 27.l 31.2 2 2 5 l o 2 21 16.00 o s 2 2 2 1 2 4 3 2 2 1
99 99 so 6 29 15 1 1 39.2 63.6 1 2 4 2 o l 8 1.00 o 4 3 3 2 2 2 4 2 1 2 2
100 100 48 5 34 14 l 2 21.1 33.4 1 1 5 1 o 2 17 10.00 2 l 3 2 1 l 2 4 1 1 1 2
Tabla 2.1 (Continuación)
R G M W E N F S A O P U e S T
W R F IJE E R M UUEDIRRSNOCR
O E I I SCOTTM K P MTXVDGOTMWHA
I RO A N N AHBARU Y Y PPPAEMUAAROI
D KC E Re e TWCHAI E E RRRNCODYNKON
O N HC A DSN O O JOHEUN A A OOOCINOORRLI
B U R U G U E R M M O R A A M O R R M M M E D E R R E E N N
S M SP E CXS E E BKRDAN SS OOOSEYGGLLGG

101 101 50 5 25 14 1 1 28.4 29.9 2 1 2 1 o 1 8 3.00 o 1 3 3 3 2 4 2 5 4 3 3


102 102 42 6 32 12 1 1 15.0 15.0 3 1 4 3 o 2 14 1.00 o 4 l 3 3 2 3 4 5 2 2 2
103 103 40 7 49 12 2 4 14.6 82.5 2 1 1 1 o 2 20 4.00 o 3 3 2 2 2 2 2 l l l 1
104 104 45 4 40 12 2 l 17.8 17.8 1 l l l o 2 20 0.50 o l 3 3 2 l l 4 l l 3 3.
105 105 32 2 39 18 l 3 29.2 62.6 1 l 3 2 o 1 18 2.00 o 2 3 3 1 2 3 4 3 2 l 4
106 106 40 3 32 16 1 1 23.0 23.5 2 l 1 1 o 2 15 3.00 3 2 1 1 3 2 2 2 2 2 2 1
107 107 40 6 25 10 l 1 20.0 20.0 3 2 4 3 o 1 8 2.00 3 l 1 2 l 1 2 2 2 1 2 4
108 108 36 4 42 16 2 l 23.1 34.2 4 2 5 2 o l 25 12.00 1 l 1 3 4 2 3 5 4 1 4 4
109 109 40 4 37 13 l 4 26.8 34.0 3 l 4 1 o 1 18 16.00 o 2 1 3 2 2 2 2 5 3 2 1
110 110 50 4 28 12 2 l 19.3 19.3 2 2 l l o 1 8 3.00 o 2 1 3 2 2 2 4 3 3 3 2
111 111 60 3 23 16 l 3 10.3 38.4 2 l l 3 o 2 6 1.00 1 l 3 2 2 2 3 4 2 l 2 l
112 112 40 4 37 12 2 2 16.7 26.5 2 2 l 1 o 2 20 10.00 o 5 3 3 2 l 2 4 l 2 3 1
113 113 43 4 35 12 2 l 15.9 15.9 1 l 5 1 o 2 9 1.50 l l 2 2 4 2 2 4 3 1 1 1
114 114 35 4 63 12 2 l 25. 8 38. 7 1 2 2 3 o 1 45 22.ºº 1 5 3 2 2 2 1 1 1 1 1 1
115 115 41 4 29 13 1 2 23.9 4l.O 2 1 4 3 O 2 10 3.00 2 2 3 2 1 1 2 2 2 2 3 1
116 116 50 7 33 14 1 2 18.9 22.4 2 2 5 2 1 2 16 1.00 o 1 1 3 2 1 2 5 3 5 1 4
117 117 44 6 26 12 l 1 36.3 36.3 2 1 1 1 o 1 10 2.50 o 4 3 3 3 2 2 5 3 3 4 1
118 118 40 2 50 20 2 2 58.0 98.7 2 1 3 3 o 2 34 8.00 o 5 2 3 2 1 2 4 4 3 l 4
119 119 40 5 49 15 2 3 25.7 50.8 2 1 5 1 o 2 25 3.41 o 5 3 3 4 2 2 4 3 2 1 2
120 120 35 2 44 17 1 3 51.8 61.6 2 2 5 3 o 2 27 22.00 o 5 3 3 3 2 4 s l 3 l l
121 121 31 5 25 15 1 2 22.1 39.8 1 l 2 1 o 2 7 1.00 1 1 l 3 l l l 1 l l 1 l
122 122 40 1 44 16 2 3 24.8 48.2 l l 1 l o 2 14 5.00 3 2 2 2 3 2 2 4 1 l 1 l
123 123 37 4 42 14 2 1 15.6 16.4 4 l l 2 o 2 24 2.00 o 2 2 3 4 2 3 s 5 3 3 4
124 124 60 1 36 12 2 3 28.S 59.0 4 l l 1 O 2 17 9.50 1 4 2 3 2 1 3 S 4 4 3 3
125 125 40 5 41 12 1 l 22.5 23.4 l 1 l 1 o 2 24 10.50 l 1 l 2 2 2 2 s 3 2 1 l
126 126 40 5 26 12 l l 38.2 38.2 l 2 l 3 o 2 8 1.00 o l 3 2 4 2 3 2 4 l 2 l
127 127 40 4 42 12 2 2 20.0 23.0 l 2 2 3 o 2 15 7.08 o 1 3 2 2 2 2 4 1 l 3 2
128 128 65 7 27 14 l 2 37.3 39.7 2 l l 1 1 1 10 2.00 o 2 1 2 2 2 2 2 2 1 2 1
129 129 40 7 48 12 2 3 16.7 46.8 2 2 5 l o 2 20 9.00 o 2 2 2 4 2 2 4 3 2 2 2
1Jn 130 40 5 65 12 1 4 51.8 68.0 1 l 4 l 1 1 49 12.41 2 1 1 2 2 2 1 2 2 J 4 2
131 131 40 3 33 14 2 2 22. 7 83. 3 2 2 3 3 o 2 15 3. 75 o 2 3 2 2 2 2 4 2 2 l l
132 132 40 6 44 8 1 1 42. 5 4·9. 2.• 2 1 4 3 o 2 2.7 11. 00 1 5 1 2 2 2 2 5 1 2 2 2
133 133 SS 2 48 19 1 4 4-i.4· "-·8 2 1 4 3· O 2 28 5.66 O 4 2 2 2 2 2 2 2 2 l l
13-4 134 50 4 37 16 1 z 50.5. 59.2· 2 1 s. 1 o 2 20 8.50 2 2 3 2 2 1 2 4 2 2 l l
135 135 70 3 52 16 1 1 81. 7 81. 7 1 1' 5. 1 o 2 36 1. 00 o 5 3 1 l l 2 2 1 1 1 3
136 136 'º 3 38 1.6 1 2 5.5. 3 5,. o- ]; ].; 5- 1 o 2 20 2. 66 o 5 3 3 l 1 1 1 1 1 3 2
137 137 40 4 35. 1.2 2 2 16.2 43.~. 2. 1 :i. 1 o 2 10 2.50 3 1 3 1 1 2 2 3 3 1 1 1
138 138 43 1 3.'I 16 1 l: 42.6 42".6" 1 1 $ 3 O. 2 12 5.50 1 4 1 2 1 1 1 l 1 2 l 1
139 139 52 6 34 12 1 1 42.3 42.3< ~ J;- s- 1· o 2 16 13.00 2 5 1 2 1 1 2 2 2 2 1 1
140 140 40 4 27. 16 2 ~--·:M-~... 69..3~.·--l.-- 1 .· 5 --1.- o .. 2 . 10 5.00 4 1 3 1 1 2 2 4 l 1 l l
141 141 46 1 23 12. 1 2 22.5 25_3 2" 2 s 1 1 1 ' 1.41 o 2 1 2 2 2 2 4 2 2 3 2
142 142 so 1 62 11: 1 1 47.1 47:1 1 1 i 2 o 2 45 52.2S 4 4 3 2 1 l 2 2 2 l 2 1
143 143 76 s 41 13 1 2 39.1 46.1 1 1 5 1 o 1 24 27.16 4 l 3 l 2 l l 3 2 2 2 1
144 144 38 7 26 15 1 2 14.9 39.l 1 1 5 1 5 2 9 o.so l l 3 1 1 1 l 4 3 3 3 1
145 145 42 3 36 18 2 2 1'-º 71.2 4 1 5 1 1 2 19 1.00 o 1 3 3 2 2 2 5 2 2 3 2
146 146 40 3 37 16 1 4 33.1 51.2 2 1 5 1 2 2 19 19.00 4 l l 2 2 l 3 4 3 2 3 3
147 147 40 l 39 12 2 1 21.2 21.2 2 l s 1 o 2 20 10.00 o 4 2 2 3 l 1 4 2 2 l l
= 148 148 40 6 33 11 l 1 21.7 39.2 2 2 s 1 o 2 15 1.00 2 4 l 1 1 l 2 4 3 3 3 2
149 149 40 3 61 10 2 l 25.l 25.5 1 2 5 2 o 2 30 13.00 3 4 3 2 2 2 1 l l 2 3 1
150 150 54 3 20 10 1 2 16.l 22.S 2 1 4 2 o 2 3 3.00 o 2 l 3 2 l 3 2 l 1 3 2
Tabla 2.3 (Continuación)
R G M w E N F s A o p u e s T
OI
"' w R p I J E E R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A H H A H B A R u y y p p p A E M u A A R o I
D K e E R e e T w e H A I E E R R R N e o D y N K o N
o N H e A D s N o o J o H E u N A A o o o e I N o o R R L I
B u R u G u E R M M o R A A M o R R M M M E o E R R E E N N
s M s p E e X s B B B K R D A N s s o o o s E y G G L L G G
' 2 2 2 2 3 2
lSl lSl 60 6 31 12 1 1 3_0.--4 32.4 2 l s 2 o 2 14 12.SO 3 4 1 2 2 2
1S2 1S2 so 2 28 17 l 2 28.6 31.1 2 1 5 l o 2 6 4.S8 2 1 3 2 2 2 2 2 1 1 1 1
153 1S3 40 3 22 14 1 1 25.2 25.2 2 1 5 2 o l 9 l . 00 o 3 3 3 2 l 2 s 3 2 1 1
154 154 40 3 36 17 1 1 30.6 30.6 1 1 5 1 o 2 15 7.00 3 2 1 2 3 1 2 4 3 1 1 1
lSS lSS 45 3 48 16 2 -i 41.5 42.1 1 2 4 2 o 2 26 4.00 o 1 2 3 1 2 l 4 1 1 l 4
lS6 156 41 2 47 19 2 1 27.-0 36.3 4 2 1 1 o 2 15 1.00 o 5 3 4 4 2 3 s 2 3 1 3
1S7 1S7 6.7 6 51 12 1 3 30.9 ,.7 .4 1 2 4 3 1 1 33 32.33 o 5 l 3 2 1 4 s 1- 2 1 4
158 lS8 44 7 48 12 1 2 35.1 63.2 2 1 2 3 o l 31 24.75 2 2 2 2 2 2 3 2 3 2 4 1
1S9 1S9 37 7 30 14 2 2 :13.9 43.4 2 2 s 1 o 1 10 4.00 o s 3 2 2 2 2 4 5 4 4 1
160 160 40 5 40 10 2 2 12.1 15.0 l 1 1 1 o 1 20 17.00 o 5 3 3 4 2 2 2 3 3 2 1
161 161 42 4 29 15 2 2 22.7 -43.1 2 1 2 3 o 2 13 4.33 o 2 3 3 1 1 2 4 1 1 2 1
162 162 48 7 35 16 1 2 26.'7 ..,.6 2 1 1 1 o 1 19 12.00 1 2 1 3 2 1 2 4 3 2 2 1
163 163 40 4 61 13 2 1 20.0 20.0 1 1 l 2 o l 2S 18.33 o 5 3 3 1 1 2 4 2 1 2 2
164 164 38 5 38 14 1 3 22.7 •t.5 2 1 2 l o 2 21 2.66 2 2 3 1 2 1 2 2 2 2 2 2
l6S l6S 40 5 40 12 1 .2 27.1 6:6 .2 l 2 2 l o 2 23 3.00 1 1 1 2 2 2 l 2 3 2 2 1
166 166 40 4 32 12 2 2 19.7 38.9 2 1 5 1 1 l lS ll.S8 3 1 3 l 1 2 2 s 3 2 2 3
167 167 52 7 32 12 1 1 45.3 -15.3 l 1 s l o 2 14 13.00 3 s l 3 2 2 2 4 2 2 2 2
168 168 40 7 33 12 1 2 34.0 46.4 3 l s 1 l l 12 11.00 o 5 3 3 1 2 4 s 3 3 4 l
169 169 60 2 39 20 1 2 57.8 78.6 l l 5 1 o 1 22 17.00 2 2 l 3 2 2 2 4 2 2 l 3
170 170 45 1 58 20 2 2 33.3 35.5 l 2 4 2 o 2 20 12.00 o 4 2 3 3 2 2 4 2 2 1 2
171 171 52 7 47 16 1 1 45.3 46.0 2 1 s 3 o 2 30 8.00 o s 3 2 4 2 2 3 2 1 4 4
172 172 40 3 so 14 1 2 38.1 50.5 3 l 5 2 o 1 32 22.SO 2 4 l 3 2 2 2 4 3 2 3 3
173 173 50 1 24 16 1 2 14.7 25.3 2 l 5 2 o 2 7 l . 00 o 2 l 2 2 2 2 4 1 1 2 3
174 174 40 2 30 12 1 l 35.S 35.5 1 1 l 1 o 2 13 1.50 o s 3 3 l 2 1 s l 1 2 1
175 175 60 2 31 20 1 2 48.6 51.2 1 1 5 1 o l lS 3.00 1 l l 2 2 2 2 2 2 2 1 4
176 176 60 6 37 13 1 l 44.8 45.5 2 1 s 2 o 2 18 3.00 o 4 2 2 l l 1 2 2 2 3 1
177 177 so 3 44 13 2 4 24.7 56.6 l l 1 1 o 2 27 10.00 o 4 2 l l 2 1 1 2 l l 1
178 178 50 2 41 15 l 3 40.1 -15.1 2 2 4 l o 2 2S 6.00 2 4 3 2 2 l 2 s 2 3 3 4
179 179 SS 2 46 18 l 2 51.-1 90.4 1 1 5 2 o 2 29 7.00 4 2 l l l 1 2 4 l 2 2 2
180 180 49 2 57 18 1 3 29.9 34.6 2 1 5 l o 2 38 34.00 o 4 3 3 2 l l 2 l 2 l 2
181 181 32 7 61 8 1 2 23.7 26.6 2 1 5 l 1 l 40 40.00 o 1 l 3 4 2 2 2 2 2 4 2
182 182 40 2 58 10 1 1 26.4 26.4 1 l l 2 o 2 40 3.91· o 4 3 3 2 2 2 4 3 1 4 1
183 183 40 6 49 13 1 2 30.8 58.7 4 l 5 2 o 2 2S 6.00 o 4 3 3 2 2 2 4 2 2 4 4
184 184 40 3 30 13 2 2 13.6 21.9 4 2 s 2 o 2 s 2.00 o 4 3 3 2 2 2 4 2 2 1 1
18S 18S 40 4 SS 12 2 1 20.5 20.5 2 2 1 2 o 2 20 lS.00 2 2 3 2 2 2 2 4 2 2 1 1
186 186 40 3 32 16 l l 4S.7 45.7 2 l s l o 2 lS 7.00 l 2 1 3 2 2 2 2 1 1 3 1
187 187 32 4 29 12 2 2 18.9 21.9 1 1 s 1 o 2 12 3.00 1 2 3 2 2 2 2 3 2 2 3 1
188 188 40 2 47 18 2 1 37.9 37.9 3 2 3 1 o 2 30 2.00 o s 2 3 2 2 2 s 4 4 l 3
189 189 60 1 32 12 1 2 47.7 69.7 2 1 1 1 o 2 lS 12.00 s s 3 2 1 l 1 2 3 3 1 3
190 190 40 3 44 16 1 2 39.0 69.6 l 2 4 1 o 2 27 22.00 4 2 2 2 1 1 2 4 1 1 3 1
191 191 SS 1 34 20 1 1 32.4 32.4 1 1 s 1 o 2 11 4.00 l 2 3 2 1 1 2 2 2 1 l 1
192 192 60 7 38 14 1 2 31.2 so.o 2 1 s 1 o 2 21 lS.00 2 1 2 2 2 1 1 2 3 3 2 1
193 193 60 1 42 12 2 3 26.7 38.2 2 2 s 1 ·2 2 26 22.00 3 2 3 2 2 l. 2 4 4 2 2 3
194 194 42 7 30 12 1 1 16.4 17.3 3 2 s 2 1 l. 13 l. so o 4 1 3 2 2 2 4 3 2 4 3
195 19S 40 7 29 10 1 2 26.1 28.6 2 2 2 3 o 1 13 0.2S o 2 3 3 2 2 2 3 1 2 3 1
196 196 40 4 38 12 2 2 13.2 16.7 2 2 s 1 1 2 22 1.00 o 1 1 2 4 2 2 4 3 1 3 1
197 197 40 4 32 12 2 1 38.7 38.7 2 2 1 1 o 2 8 6.00 o 4 3 3 2 2 1 4 2 2 2 2
198 198 40 7 S5 14 2 2 11. 9 24.0 l 2 s 1 l 2 3S 29.50 l 2 3 3 4 2 1 4 1 3 3 4
199 199 so 5 47 16 1 4 59.3 89.2 1 1 s 1 o 2 30 23.58 3 1 3 2 1 l 2 2 l 1 1 1
200 200 70 1 40 16 1 1 42.3 42.3 1 2 5 1 o 2 18 2.00 o 2 3 1 1 1 1 1 2 2 1 1
Tabla 2.J (Continuación)
R G M w E N F s A o p u e s T
w R F I J E E R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A N N A H B A R u y y p p p A E M u A A R o I
D K e E R e e T w e H A I E E R R R N e o D y N K o N
o N H e A D s N o o J o H E u N A A o o e o I N o o R R L I
B u R u G u E R M M o R A A M o R R M M E M D E R R E E N N
s M- s p E e X s E E B K R D A N s s o o o s E y G G L L G G

201 201 40 3 37 16 l l 26.9 26.9 l 2 5 l o 2 11 5.00 2 1 1 l 1 2 2 4 1 1 2 2


202 202 40 5 43 14 2 2 18.7 21.3 l l l 2 o 2 24 22.25 1 4 3 3 3 2 1 4 2 3 l 2
203 203 55 l 32 12 2 2 23.0 32.2 2 1 5 1 o 2 16 11.00 1 4 3 4 l 1 2 5 2 2 4 1
204 204 40 3 31 l4 2 2 17.3 27.6 1 l l 1 o 2 16 10.00 2 l l 2 2 l 2 2 3 3 l l
205 205 89 3 44 12 l 2 38.3 46.l l l 4 1 o l 24 0.66 o 5 3 3 1 1 1 5 1 1 2 1
206 206 so 1 39 12 1 2 59.3 74.0 l 1 5 2 o 2 18 11.00 2 4 1 2 1 1 1 2 2 1 3 2
207 207 72 4 41 12 1 l 16.3 16.3 1 l 5 3 1 2 24 18.00 o 2 2 2 l 1 2 4 2 3 2 2
208 208 40 3 JO 14 l 2 34.4 38.3 2 1 1 1 o 2 13 11.00 3 5 1 2 2 2 2 4 2 l 2 1
209 209 65 7 58 8 1 3 31.4 42.3 2 1 2 1 o 2 41 3.00 o 4 1 3 4 2 2 2 3 3 3 1
210 210 75 2 55 18 l 2 53.8 74.3 3 1 4 3 4 2 38 29.00 2 5 1 J l 1 1 2 1 2 l 1
211 211 68 6 60 12 1 1 26.4 35.4 1 1 1 l o l 54 10.00 4 2 1 1 1 2 2 4 2 2 1 1
212 212 40 4 29 16 2 3 14.4 28.3 3 l 1 1 o 2 6 3.00 o 4 3 3 4 2 3 4 5 1 1 1
213 213 40 4 42 12 2 l 13.4 29.7 1 1 4 1 o 2 26 l. 08 1 l l 2 4 2 1 4 1 1 1 1
214 214 38 3 41 16 1 l 23.l 26.9 2 1 4 l o 2 12 12.00 o 3 3 3 2 2 2 4 1 1 1 1
215 215 48 7 35 14 1 2 12.0 15.8 2 2 2 1 o 2 19 7.00 l 2 3 3 3 2 2 4 3 2 4 3
216 216 so 6 24 12 1 2 22.8 34.5 2 l 5 1 o 2 7 3.00 o 2 1 3 l 2 2 2 3 3 2 l
217 217 45 1 39 16 1 l 30.7 34.l 3 l 4 3 o 2 22 9.00 2 4 l 3 4 2 2 5 3 1 2 l
218 218 35 4 38 13 2 l 15.3 15.3 1 2 5 l l 2 17 4.00 1 l 3 2 l 1 l 4 3 2 1 1
219 219 35 2 37 16 2 1 27.9 35.2 2 2 1 l o 2 20 14 .00 o 2 3 3 2 1 2 4 2 2 1 2
220 220 60 4 47 14 2 3 15.5 68.7 4 2 5 3 o 2 21 l . 00 o l l 3 3 2 2 5 2 1 3 l
221 221 40 4 38 12 2 4 27.3 72.6 1 l 4 1 o 2 20 10.50 4 4 2 2 3 2 1 1 1 1 4 1
222 222 45 4 41 12 l l 45.8 49.4 1 2 5 1 o 2 24 8.00 4 1 l l 3 2 l 1 1 1 2 1
223 223 35 2 41 20 2 2 37.7 61. 6 l l 3 2 o l 24 17.00 o 5 3 3 1 l l 1 l 1 1 1
224 224 60 7 J8 15 l 2 29.5 49.7 1 1 l 3 o 2 21 4.00 1 5 1 3 l 2 2 5 3 2 l 3
225 225 45 7 29 12 1 2 25.9 33.5 2 2 1 1 o 2 11 3.00 o 2 1 3 l 2 2 5 2 2 4 3
226 226 40 6 38 12 l 2 26.8 34.1 2 2 5 2 o 2 20 7.00 o 4 3 3 3 1 3 4 3 2 3 2
227 227 40 l 33 15 1 l 41.2 41. 2 2 1 5 3 o 2 11 10.00 o 5 l l l l l 4 l l 4 2
228 228 45 2 26 16 2 l 20.4 53.9 2 2 1 l o 2 4 4.00 o 5 3 3 l 2 1 1 2 l 1 2
229 229 60 3 25 16 l l 26.0 39.9 2 l 4 l o 2 8 3.00 o 5 l l 1 l 2 5 2 2 1 1
230 230 45 5 62 11 1 2 19.0 34. 2 2 1 5 l o 2 42 23.00 o 5 3 3 2 2 1 1 3 2 2 1
231 231 40 7 42 12 1 2 13.l 25.8 1 2 1 1 o 1 20 12.83 o 4 1 3 l 2 2 2 1 3 1 2
232 232 40 3 31 14 2 2 23.4 45.6 1 2 5 2 o 2 11 5.50 o 5 3 3 2 2 2 4 5 1 1 1
233 233 56 4 33 9 1 l 19.3 23.2 1 1 4 1 o 2 16 4.50 o 3 3 2 2 l 2 4 2 1 1 1
234 234 55 7 21 12 2 4 11.1 35.7 1 2 5 1 o 1 4 2.00 o 1 3 3 3 2 2 2 2 1 2 4
235 235 40 5 50 9 2 2 13 .7 24.8 2 2 1 1 o 2 20 10.00 o l 3 3 4 2 1 5 3 1 3 1
236 236 40 4 36 12 2 1 62.8 63.4 l 1 4 1 o 2 19 2.16 o 5 3 l l 1 1 1 2 2 2 1
237 237 50 1 41 16 2 l 25.2 26.9 l 1 5 l o 2 22 2.33 o 2 3 2 2 2 1 4 3 3 1 1
238 238 57 2 27 13 1 2 21.1 28.3 2 1 5 1 o 2 10 0.33 1 2 1 2 3 2 2 4 2 3 2 3
239 239 47 3 42 17 1 1 36.6 39.2 l 2 2 2 2 2 25 5.00 o 4 1 3 l 1 2 5 2 2 1 1
240 240 60 2 28 12 l 2 29.3 44.0 3 1 5 1 o 2 11 5.50 5 2 1 1 1 1 2 5 3 1 1 l.
241 241 40 7 46 8 1 4 19.3 24.0 2 1 1 1 1 2 30 2.00 o 1 3 4 2 2 4 5 3 1 l.
242 242 40 2 32 18 2 1 32.2 32.2 1 1 5 1 o 2 14 5.00 o 5 3 3 2 1 1 2 3 3 l.

2
243 243 46 6 40 15 1 1 43.6 51.4 1 1 5 1 o 2 22 18.00 6 2 1 2 3 1 1 2 2 2 l. 1
244 244 40 2 39 16 2 2 28.1 68.7 2 1 3 1 1 2 20 5.00 1 2 l 2 2 1 2 2 l. l. l. 1
245 245 43 5 30 14 2 2 10.3 28.9 l 2 5 3 3 2 13 0.25 1 l 3 l 1 2 2 1 3 2 3 3
246 246 45 3 33 17 2 1 25.0 26.3 2 2 5 l o 2 16 1.00 o 4 2 3 3 2 2 s 5 3 1 1
.., 247 247 45 4 27 15 2 1 17.8 17.8 1 1 5 3 o 2 10 2.00 o 2 3 1 l 2 1 l. l. 1 1 .a
.... 248 248 40 4 37 14 2 l 15.4 15.4 l 1 l 1 l 2 15 15.00 3 l 2 2 2 2 2 2 2 2 ....
249 249 40 6 56 13 l l 15.3 15.3 1 l 5 1 o l 34 1.83 o 2 l 3 1 1 2- 2.1~-a
250 250 40 5 JO 14 1 2 14 .4 32.4 2 l 5 2 o 2 14 6.00 o 5 1 3 2 2 3 5 3 2
a
a• .3i
Tal>la 2.3 (Continuación)
w
Cll) R G M w E N F s A o p u e s T
w R F I J B B R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A N N A BH R u A y y p p p A E M u A A R o I
D K e E R e e T 11
e a A I E E R R R N e o D y N K o N
o N H e A D s N o o J o H B u N A A o o o e I N o o R R L I
B u R u G u E R M M o R A A M o R R M M M E D E R R E E N N
s M s p E e X s E E B lt. R D A N s s o o o s E y G G L L G G

251 2Sl 6S l 36 14 2 l 25.9 26.6 l 2 5 3 o 2 19 6.00 o 5 3 2 1 1 1 2 1 1 1 4


252 252 40 4 32 12 2 2 15.0 25.4 2 2 3 1 o 2 11 10.00 o 4 3 3 2 2 2 2 1 2 2 4
2S3 2S3 50 7 44 13 l. 2 30.3 37.7 2 2 1 1 1 l 25 15.00 o 5 l 3 4 2 2 4 5 3 1 l
254 2S4 80 4 4.8 14 1 2 52.7 56.1 4 2 1 3 o 2 31 9.00 1 5 3 2 4 2 3 5 5 5 l l
255 255 40 1 39 16 l 2 45.7 68.S 2 2 4 3 o 2 17 16.00 l 2 3 2 2 2 2 4 3 2 l l
2S6 256 45 2 31 20 2 1 28.6 28.6 2 1 5 2 o 2 14 l . 00 o 4 2 2 2 l 2 4 4 2 3 4
257 257 60 l 39 16 l l 16.2 16.8 1 1 ). ). 2 2 20 3.25 o 5 3 3 1 l 1 l l l 4 l
2S8 2S8 40 1 62 15 1 2 44 .7 U.4 1 2 2 ). o 2 4S 27.00 2 5 l 2 l l 2 2 1 1 2 2
259 2S9 72 6 21 12 l 4 18.l 77.9 l ). ). ). o 2 s 1.08 o 5 3 2 1 2 2 4 2 2 l l
260 260 40 1 62 14 l 3 SS.O 85.4 l 1 1 ). o 2 45 1.91 2 2 2 1 3 2 2 4 4 3 4 l
261 261 45 3 34 12 l 3 27.5 4S.2 1 ). 4 2 o 2 17 2.08 l 2 3 3 l l 1 4 2 1 3 3
262 262 40 7 3S 11 1 l 25.2 28.4 2 2 1 3 o 1 16 13.00 o 4 3 1 3 2 2 4 2 2 4 2
263 263 45 7 41 12 l l 21.4 21.4 l 2 1 1 o 1 22 0.25 o 1 3 3 2 2 2 4 2 2 2 4
264 264 so 2 4S 16 2 2 25.5 70.4 2 1 ]. ]. o 2 21 20.00 3 4 l 3 3 l 2 5 2 2 l 2
265 265 40 7 S4 10 l. 3 16.l 2"6.4 l 2 2 2 o 2 33 33.00 2 5 3 3 2 2 2 3 2 2 4 2
266 266 40 6 Sl 16 l l 31.9 33.S 2 l 5 3 o 2 34 6.00 1 2 l 2 2 2 2 4 3 1 1 1
267 267 40 l S2 14 l l 50.4 53.7 1 1 2 2 o 2 3S 31. 91 3 2 l 4 2 1 1 2 2 2 1 3
268 268 60 6 29 13 l 2 16.2 41.2 l 1 1 3 o ·2 13 5.00 l 1 l 2 l 2 2 2 3 2 1 2
269 269 40 4 44 18 2 2 40.7 49.2 3 1 1 2 o l 24 22.00 o 5 2 3 2 2 2 4 3 2 3 l
270 270 so 1 40 16 1 2 54.9 82.7 3 1 s ]. o 2 20 6.00 1 5 l 3 2 2 2 4 3 3 1 2
271 271 40 2 41 18 2 2 18.l 47.l l l 5 ]. o 2 24 0.25 o 1 3 3 3 2 l 2 l l l 2
272 272 45 2 31 12 1 l 50.9 55.1 l 3 l 1 o 2 14 0.66 o l l 3 2 1 1 2 3 l 3 l
273 273 37 4 38 17 2 l 14.2 49.2 2 2 s 1 o 2 20 5.00 o 5 3 3 4 2 2 2 2 2 l 3
274 274 46 1 43 12 2 1 27.6 27.6 2 1 5 3 o 2 28 14.00 l 5 3 2 2 1 2 4 2 l 3 2
275 275 40 6 40 14 l 1 26.l 26.1 2 2 s 2 o 2 22 lS.00 l s 3 2 2 l 3 5 3 3 2 4
276 276 40 1 41 19 2 2 23.9 SS.3 2 l 5 1 o 1 26 4.00 o 4 3 3 2 1 2 4 3 2 l l
277 277 48 3 64 12 l 2 58.0 98.6 l 2 5 ). 1 2 48 29.00 3 5 3 2 2 2 2 4 2 2 l l
278 278 51 2 40 13 2 2 27.0 29.7 l. l 5 ). o 2 23 17.00 o s 2 3 3 2 2 5 2 2 1 1
279 279 40 7 S2 8 l l 33.0 33.2 4 2 3 ). ). 2 35 20.00 2 s 1 4 3 2 3 2 5 1 2 2
280 280 40 4 41 13 2 2 17.1 32.4 2 1 5 ). o 2 15 4.00 o 2 3 2 2 2 2 4 2 l 3 3
281 281 40 6 38 12 l 2 26.6 29.6 l l l ). o 1 20 11.00 3 s l 2 2 2 2 3 3 l l 1
282 282 29 4 69 12 2 l 16.8 16. 8 l 2 5 l o 2 27 2S.OO 3 3 l 2 2 2 2 2 1 l 2 4
283 283 40 2 26 18 2 l 26.0 26.0 l l 5 1 o l 10 1.00 o 4 3 3 l 1 l l 2 l 1 2
284 284 40 3 26 14 1 l 20.8 20.8 1 2 4 2 o 2 9 l.SO l 1 l l 2 2 2 4 2 2 4 2
285 285 40 l 45 12 l l 21.3 44 .l 2 2 5 3 1 2 28 O.S8 l 4 l 2 2 l 2 4 4 3 4 2
286 286 40 2 26 16 2 1 23.4 29.0 l 1 5 1 o 2 9 8.00 3 2 3 2 2 2 l 2 2 l 2 2
287 287 55 l 33 14 l l 41.2 48.8 2 2 1 2 1 2 16 7.00 4 4 3 3 1 1 2 4 2 l 3 1
288 288 32 s 38 12 2 2 20.8 59.4 l 1 5 1 o 2 19 3.50 l 3 3 2 2 2 2 2 2 2 2 1
289 289 40 6 36 14 l 1 39.2 39.8 1 l 2 1 o 2 20 18.00 2 2 1 2 1 2 1 2 3 2 3 l
290 290 60 3 36 16 l 1 51.6 51.6 1 1 3 2 o 2 12 S.00 o s 3 3 1 2 2 4 1 l 2 1
291 291 36 l 45 13 2 2 28.1 60.3 2 2 s l o 2 25 21.00 4 2 2 2 1 1 2 4 3 3 2 l
292 292 50 7 45 12 1 2 27.S 47.6 1 1 1 l o 1 29 17.00 2 2 l 2 1 2 1 1 2 l 1 1
293 293 40 s 34 14 2 l 19.0 19.S l 2 s l 2 2 16 4.00 1 2 3 2 l 2 l 2 2 2 3 l
294 294 40 l Sl 13 2 2 39.6 85.9 l 2 5 2 o 2 30 24.00 4 2 1 2 2 2 2 2 1 2 2 1
295 295 40 1 38 16 2 2 30.2 90.5 l 2 l 3 o 2 6 6.00 4 l 3 2 l 2 2 2 3 2 1 1
296 296 32 4 58 13 2 l 23.2 23.2 2 2 5 2 l 2 37 5~00 o 4 1 3 4 2 2 4 l l 2 4
297 297 so 6 54 14 l 2 51.2 66.7 1 1 s 1 o 2 37 S.00 o 4 l 3 2 l 2 4 2 2 4 1
298 298 32 l 57 12 1 2 76.4 94.2 l l l 1 l 2 38 34.00 o 5 3 2 l l 1 2 2 2 2 1
299 299 54 2 43 18 l l 19.5 24.6 2 1 2 3 1 2 27 13.00 2 1 1 2 1 2 1 4 4 3 l l
300 300 45 4 40 13 2 3 17.7 31.4 2 l s l o 2 20 7.00 1 2 1 2 l 2 3 1 3 l 4 1
Table 2.J (Continuación)
R G M w E N F s A o p u e s T
w R F I J E E R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A N N A H B A R u y y p p p A E M u A A R o I
D K e E R e e T w e H A I E E R R R N e o D y N K o N
o N H e A D s N o o J o H E u N A A o o o e I N o o R R L I
B u R u G u E R M M o R A A M o R R M M M E D E R R E E N N
s M s p E e X s E E 8 K R D A N s s o o o s E y G G L L G G

301 301 40 1 45 16 2 4 29.4 53.3 1 1 5 2 o 1 25 4.00 o 2 1 1 1 1 1 1 2 1 1 1


302 302 so 7 S4 14 1 1 42.8 42.8 2 2 5 1 o 2 38 27.00 2 5 3 2 2 2 1 4 2 1 2 1
303 303 40 1 43 13 1 2 14.7 23.3 1 l s 1 o 2 26 26.00 o s 3 3 1 1 l 4 2 2 3 2
304 304 35 7 48 16 2 l 20.5 20.9 2 3 s 3 o 2 27 3.00 o 5 2 4 3 2 2 5 3 3 4 2
305 305 40 2 44 16 l 1 20.4 20.4 1 l 5 1 o 2 27 2.00 o 4 3 3 1 2 2 2 2 2 1 1
306 306 40 7 57 11 2 2 18.2 30.1 2 1 1 1 o 2 45 15.00 2 4 3 3 4 2 2 5 2 3 4 2
307 307 40 4 20 12 2 2 15.3 27.1 l 2 4 l o 2 3 l.50 o 2 1 3 1 2 2 3 1 1 2 1
308 308 28 2 49 19 2 1 43.4 45.3 l 1 s l o 2 2S l. 00 3 1 2 2 2 2 2 4 3 2 1 1
309 309 40 2 39 14 1 1 38.5 38.S l 2 5 1 l 2 18 10.00 1 1 1 2 3 2 2 4 3 1 1 1
310 310 40 6 41 14 1 1 36.6 39.4 2 1 5 2 o 2 21 11.00 l 3 1 2 1· 1 2 2 2 2 3 1
311 311 40 3 37 15 l l 31.2 31.2 1 3 5 l o 2 20 5.00 o 4 3 2 2 l 2 4 1 2 2 2
312 312 40 4 65 13 2 1 18 .1 18.2 1 2 s 1 o 2 22 13.00 1 5 3 3 2 2 1 2 2 2 3 2
313 313 40 2 so 18 1 1 30.4 30.4 1 2 3 2 o 1 33 23.00 3 2 2 4 1 1 1 5 2 2 1 1
314 314 34 2 57 16 2 4 33.4 88.0 2 2 3 1 o 2 14 11.00 o 5 3 3 2 1 2 4 1 1 1 2
315 31S 40 4 48 12 1 4 46.6 71.0 1 1 5 1 o 1 32 25.00 l 5 2 1 2 1 1 2 3 2 2 2
316 316 50 2 53 19 1 4 67.0 70.1 2 1 5 1 o 2 35 11.00 o 5 1 3 2 l 2 4 5 4 1 3
317 317 60 2 52 16 2 2 33.7 51.4 1 2 4 1 o 2 32 18.00 o s 3 3 1 2 1 4 1 1 1 1
318 318 S2 2 38 14 1 1 39 .4 59.9 l l 5 1 o 2 19 l.SO 1 2 l 3 2 1 2 3 2 2 2 1
319 319 40 3 33 16 2 1 31.3 31.3 1 1 1 2 o 2 9 l. 00 o 4 2 3 1 2 1 1 2 1 2 4
320 320 45 2 63 16 l 4 91. 9 98.3 1 3 s 2 o 2 35 32.00 o 3 3 3 1 2 1 2 l 1 1 2
321 321 40 1 51 16 2 2 33.7 66.1 2 2 s 2 o 2 2S 23.00 l s 3 3 1 1 2 4 1 1 1 1
322 322 38 1 43 15 2 4 16.6 67.6 4 2 s l o 2 s 3.00 o 4 3 3 4 2 3 5 4 3 4 4
323 323 40 6 44 12 l 2 43.6 61.2 1 2 3 1 o 1 27 20.00 4 4 3 2 2 1 2 2 2 2 3 2
324 324 so 7 30 12 1 1 22.5 22.5 3 2 s 1 o 2 12 8.00 2 1 1 1 2 1 2 s 3 1 3 1
32S 325 40 3 42 12 2 2 17.6 22.7 1 l s 1 2 2 10 6.00 1 4 3 3 2 2 2 4 2 2 1 1
326 326 40 7 62 8 1 1 31.8 32.0 1 2 s 2 o 2 4S 17.00 o 5 3 2 4 2 2 2 3 2 3 3
327 327 60 2 38 18 1 1 27.9 42.7 2 1 5 1 o 1 27 12.00 o 4 3 3 3 2 2 4 4 2 1 1
328 328 40 5 54 12 2 2 14.2 21.3 1 1 5 1 o 2 23 23.00 o 5 3 3 2 1 2 2 2 2 1 1
329 329 40 6 S2 12 1 2 25.0 34.6 1 1 5 1 o 2 35 27.00 o 5 1 2 2 2 2 2 3 1 1 1
330 330 48 7 38 12 1 2 36.9 51.7 2 2 4 1 1 1 21 18.00 1 5 3 3 2 2 2 2 3 2 2 1
331 331 44 6 SS 12 1 3 42.7 46.9 2 1 s 1 o 1 35 14.00 o 4 1 3 2 1 2 4 3 1 4 4
332 332 60 2 43 lS 1 2 37.7 70.8 2 2 1 l o 2 26 17.00 o 1 2 2 1 1 1 4 3 3 1 1
333 333 73 1 2S 14 1 1 52.6 54.4 1 1 s 1 o 2 8 2.SO o 5 3 3 1 1 1 1 1 2 1 1
334 334 48 7 36 11 2 2 25.7 47.5 2 2 s 2 o 2 11 10.00 o 5 3 3 3 2 2 4 3 3 4 2
335 335 40 6 S3 12 1 4 32.5 46.5 1 1 5 2 o 2 42 22.00 o 5 3 2 1 1 1 4 1 1 1 1
336 336 60 7 28 16 2 2 21.6 40.0 1 1 5 1 o 2 12 7.00 o 2 3 2 1 1 1 1 1 1 4 1
337 337 40 6 32 14 1 2 47.2 49.3 2 1 s 1 o 1 16 l. 00 o 1 3 3 3 1 2 5 5 3 3 3
338 338 60 3 40 12 1 1 36.9 37.S 1 1 5 1 1 2 23 11.25 o 3 3 3 1 1 2 2 2 2 2 2
339 339 42 3 57 12 2 1 17.4 18.7 2 1 5 1 o 2 34 29.25 o 5 2 3 3 2 1 5 2 3 3 3
340 340 32 7 27 12 2 2 14.7 22.0 2 1 4 1 o 2 8 5.00 1 5 3 3 3 2 2 4 l 2 4 4
341 341 40 2 38 16 2 1 22.7 22.7 1 1 4 1 o 1 12 10.00 1 5 2 3 1 1 1 1 1 1 1 1
342 342 75 6 28 14 1 1 13.2 14 .5 2 1 4 1 o 2 10 3.00 o 5 3 2 1 1 1 4 1 1 1 1
343 343 so 6 52 11 1 1 22.5 22.S 1 1 s 1 o 2 35 19.16 o 5 1 2 1 1 1 1 l 1 2 l.
344 344 50 7 39 12 1 1 23.3 23.3 2 1 s 3 o 2 22 3.41 2 2 3 3 2 2 2 4 2 2 4 3
345 345 60 2 36 18 2 4 25.4 51.2 2 2 5 1 o 2 19 10.00 o 5 3 3 2 l 2 4 1 3 l. l.
346 346 60 3 38 16 1 2 17.8 50.6 1 2 s 1 o 2 17 2.00 o s 3 3 1 1 1 1 1 1 2 2
347 347 40 3 41 12 2 2 38.4 76.4 4 2 s 1 4 1 24 11. 00 o 5 2 1 4 2 3 4 5 3 :J.
... 348 348 so 7 27 14 1 1 31.1 31.1 2 1 s 3 o 2 4 3.00 o 4 3 3 4 2 1 5 2 l. 4 • 4
• 349 349 80 3 32 10 1 2 16.5 36.3 1 1 2 1 o 2 15 l.SO o 4 3 2 1 2 2 4 2 2 2 1
350 350 40 7 39 14 2 2 18.7 38.3 2 2 1 1 o 2 20 20.00 2 1 3 3 4 2 2 4 3 1 . - a -..
Tabla 2.3 (Continuación)
~ R G M w E N F s A o p u e s T
o w R F I J E E R M u u E D I R R s N o e R
o E I I s e o T T M K p M T X V D G o T M w H A
I R o A N N A H B A R u y y p p p A E M u A A R o I
D K e E R e e T w e H A I E E R R R N e o D y N K o N
o N H e A D s N o o J o H E u N A A o o o e I N o o R R L I
B u R u G u E R M M o R A A M o R R M M M E D E R R E E N N
s M s p E e X s E E B K R D A N s s o o o s E y G G L L G G

351 351 60 6 51 12 1 2 21.8 35.l 3 l 5 l o 2 44 8.00 o 5 3 3 1 1 l 4 l l 3 l


352 352 50 6 42 12 1 2 46.9 50.9 l 1 s 2 o 2 25 14.00 o 5 3 3 1 1 l 4 1 1 3 1
3S3 353 40 7 30 13 1 1 13.7 14.6 2 l 5 3 o l 10 8.00 o 4 3 3 4 2 2 4 1 l 2 2
3S4 3S4 56 2 24 16 2 2 26.6 39.2 2 2 4 l l 2 9 2.00 o l l l 1 1 2 3 2 2 l l
355 3SS 48 7 33 12 2 2 51. 9 58.3 2 1 s 3 o 1 16 14.00 1 s 2 3 1 2 2 4 3 2 3 2
3S6 3S6 40 4 61 12 2 1 ..l2. 5 22.S 1 1 5 3 o 2 25 17.00 1 4 3 3 3 2 2 4 4 3 3 2
357 3S7 40 7 37 12 2 2 10.8 24.l 3 2 1 2 o 2 10 2.66 o 4 3 3 4 2 3 4 3 3 3 2
358 358 35 3 39 16 1 2 48.4 61.8 1 1 5 2 o 1 18 9.00 o 5 2 2 2 l l 2 3 2 1 1
3S9 359 44 4 23 12 2 2 15.0 37.3 3 2 2 1 o 2 6 2.so o 5 3 2 1 2 3 2 3 3 1 3
360 360 so 4 S5 12 2 2 24.2 27.9 2 2 1 2 o 2 30 30.00 3 2 2 3 3 2 2 5 3 2 2 l
3'1 361 SS 1 43 16 1 3 17.5 SS.7 2 1 3 1 o 2 27 5.00 2 4 1 2 2 l 2 4 2 l 2 2
362 J62 56 7 43 12 1 2 14.9 18.0 2 1 5 1 o 2 27 0.25 o l 3 2 2 2 2 2 l l 2 2
363 363 38 1 50 16 2 3 19.9 S4.l l 2 5 1 o 2 14 1.00 o 5 3 3 2 l 2 5 2 4 l 3
364 364 56 2 43 18 l 2 28.0 36.7 3 1 1 1 o 2 26 5.50 o 2 3 2 2 l 2 5 3 2 l 3
36S 365 so 3 49 17 l 1 21.9 21.. 9 2 2 4 1 3 2 32 l . so o s 3 4 1 l l l l l 2 2
366 366 50 2 63 20 l 2. 41.l 60.7 l 1 5 2 1 2 4S 25.00 2 s 3 2 l 2 2 2 2 2 1 3
367 367 84 6 33 12 l l 31.2 31.2 l l 1 2 o 2 16 13.91 3 3 1 2 2 2 2 3 2 2 1 l
368 368 40 3 35 12 2 2 16.4 46.8 2 2 2 2 o 2 16 10.00 o 4 2 3 4 2 2 5 5 l 3 1
369 ,369 40 6 21 12 l 2 22.0 35.6 2 1 1 2 o 2 4 1.25 3 l l 2 2 2 3 4 3 2 1 1
370 370 42 5 63 10 1 1 20.2 29.0 2 2 4 1 o 2 46 9.41 7 5 l l 3 2 2 5 3 2 2 2
371 371 so 6 36 14 1 2 12.6 19.8 2 2 2 2 o 2 18 9.66 5 l 3 2 2 2 1 2 2 1 2 3
372 372 70 6 28 12 1 1 lS.2 15.2 l l 1 2 o 2 10 9.66 2 2 1 2 1 l l 4 2 l 3 4
373 373 40 6 43 l4 1 1 15.8 15.9 2 1 5 3 o 2 27 18.16 7 l l 3 2 2 2 s 3 3 1 1
374 374 34 6 44 11 l 1 21.3 21.3 2 1 4 2 o 2 24 4.00 o 4 3 2 2 l 3 4 l l l 3
375 37S 63 7 2S 12 l 2 17.6 30.8 l 1 1 1 o 2 8 4.00 l l 1 2 1 1 2 2 2 2 3 1
376 376 50 2 27 17 2 2 29.7 61. 6 1 l s l 3 2 7 1.00 o l 2 2 1 1 2 4 2 2 1 3
377 377 65 1 22 12 l 2 38.S 41.4 l l 5 l 2 2 6 1.00 1 l 1 1 2 2 2 4 1 l 1 l
378 378 36 1 33 12 2 l 35.7 3S.7 1 1 s l o 2 17 11.00 o 5 3 2 2 l 2 2 l l l 1
379 379 48 6 2S 12 2 l 15.3 15.3 2 1 4 1 1 2 4 2.00 o ·2 2 3 4 2 3 4 2 2 3 3
380 380 40 6 47 12 l 2 33.9 41.l 2 l 1 l o 2 28 19.00 1 5 3 2 2 2 2 2 2 2 l 1
381 381 40 2 44 19 2 2 23.9 42.0 l 2 s l o 2 28 3.58 o 4 2 3 2 l l 4 2 3 1 1
382 382 40 7 26 12 2 2 15.4 39.9 2 2 1 l o 2 6 S.00 1 4 3 3 2 2 2 3 3 2 2 2
383 383 40 7 47 10 l 2 22.6 47.S l 1 5 l o 2 32 10.00 1 4 3 2 2 2 2 4 2 2 2 l
384 384 65 7 41 11 1 3 31.4 48.8 2 2 l 3 o 2 24 5.00 1 5 3 2 3 2 1 s 1 l 2 2
385 38S 40 4 35 12 l 2 19.3 45.0 2 1 l l o 2 18 8.00 o 2 3 3 2 2 2 2 1 1 1 l
386 386 40 7 41 12 2 4 11.8 28.2 2 2 4 l o 2 25 16.00 o 4 3 4 3 2 2 4 3 2 2 2
387 387 40 2 32 16 2 2 23.6 43.9 l 2 4 l o 2 16 3.00 o 4 3 3 3 2 2 4 2 2 1 3
388 388 40 7 34 12 l 1 13.3 14 .5 2 2 1 2 o 2 16 13.00 o 2 1 3 2 2 2 4 2 2 2 2
389 389 40 7 31 12 2 2 10.l 59.7 2 l 1 l o 2 13 2.50 o 5 3 3 4 2 2 4 2 2 2 2
390 390 47 4 31 12 2 3 21.9 40.2 1 l l 1 o 2 21 10.00 o 5 l 3 4 2 2 4 2 2 1 1
391 391 32 4 57 13 2 2 10.3 42.5 2 1 1 2 1 2 20 3.00 o 4 3 2 4 2 2 4 3 l 1 1
392 392 80 7 32 14 l 2 48.4 67.9 l 1 5 l o 2 15 6.00 2 1 3 2 2 1 1 1 l 1 1 1
393 393 50 5 44 13 1 3 22.5 26.l 1 1 s 2 o 2 24 24.00 o 5 3 3 2 1 2 2 1 l l 1
394 394 37 3 29 14 2 2 28.9 72.6 1 2 5 l o 2 10 2.00 o 2 2 2 2 1 1 2 2 2 3 2
395 39S 40 4 56 12 2 2 lS.S 44 .5 2 2 5 l o l 34 21. 00 o 5 3 3 2 1 2 4 4 3 3 2
396 396 40 2 28 19 2 l 17.9 17.9 l 1 s 1 o 2 10 2.00 l l 3 2 1 1 1 4 2 3 1 l
397 397 45 6 42 12 l 2 41.l 44 .6 2 2 s 3 o 2 26 l9.2S o 4 3 3 2 2 2 4 3 2 1 1
398 398 40 1 22 13 l 3 14.S 31.l 2 2 2 1 o 2 2 l . 25 l 1 1 2 3 2 2 4 2 2 l l
399 399 40 7 3S 12 l 2 36.3 43.l 2 l· 4 3 o l 16 16.00 4 4 l 2 3 2 2 3 l 1 2 3
400 400 60 6 35 12 l l 52.8 52.8 3 2 1 3 o 2 15 3.00 2 2 l 2 2 l 2 2 4 2 2 1
fi 11 Reconocimiento y práctica de una
buena investigación de encuestas y
de exploración de cuestiones éticas
La recolección de datos ocurre en la etapa temprana de un análisis estadístico.
Después de formular un problema de interés, planearíamos cómo obtener la infor-
mación que se requerirá para la toma de decisiones al intentar resolver el pro-
blema. De esta manera, la importancia de la obtención de buenos datos nunca
puede exagerarse. Siempre piense en GIGO.

2. 1 1• 1 · La encuesta de la muestra
Diariamente leemos noticias referentes a los resultados de investigaciones o
encuestas de opinión en nuestro periódico u oímos algún comentario interesante
o emocionante por radio o televisión. Es claro que los avances en la tecnología de
la información han llevado a una proliferación de la investigación de encuestas.
No toda esta investigación es buena, significativa o importante (referencia 2). Es
esencial que aprendamos a evaluar críticamente lo que leemos y escuchamos y que
descartemos las encuestas que carezcan de objetividad y credibilidad. En particu-
lar, debemos examinar el propósito de la encuesta, por qué se elaboró y para quién.
Recuerde que existen cuatro razones principales para recolectar datos: (1) propor-
cionar la entrada para un estudio de investigación, (2) medir el desempeño, (3)
ampliar la toma de decisiones o (4) satisfacer nuestra curiosidad. Una encuesta de
opinión o un estudio aplicado para satisfacer nuestra curiosidad es principalmente
para entretenimiento. Su resultado es un "fin en sí mismo" más que un "medio
para un fin". Debemos ser más escépticos respecto a una encuesta semejante
debido a que el resultado no debe aplicarse a otro uso.
El primer paso para evaluar una encuesta es determinar si se basó en una mues-
tra de probabilidad o en una no probabilística (como se analizó en la sección 2.6). Tal
vez recuerde que en un estudio enumerativo, la única forma de que hagamos infe-
rencias estadísticas correctas para una población partiendo de una muestra y de que
interpretemos los resultados es a través del uso de una muestra de probabilidad. Las
encuestas que emplean métodos de muestreo no probabilístico están sujetas a graves
sesgos en las entrevistas, tal vez no intencionales, que pueden invalidar sus resulta-
dos. En 1948, por ejemplo, cada uno de los encuestadores principales empleó el
muestreo de cuota y predijo incorrectamente el resultado de las elecciones presiden-
ciales (véase la referencia 9). Como se muestra en la fotografía de la página 42 (figura
2.8), al menos un periódico de amplia circulación confió en la exactitud de los son-
deos e imprimió su primera edición basándose en lo que se predijo que ocurriría, ¡en
vez de esperar a que se contaran las boletas! Desconcertadas por la sorprendente vic-
toria del beneficiado, el presidente Harry S. Truman, después de que todas predijeron
la elección del gobernador Thomas E. Dewey, las organizaciones de sondeos adop-
taron los métodos de muestreo de probabilidad para elecciones futuras.
Aun cuando las encuestas emplean métodos de muestreo de probabilidad
aleatorios, están sujetas a errores potenciales. Existen cuatro tipos de errores de
encuesta (referencia 7):
l. Error de cobertura o sesgo de selección.
2. Error de no respuesta o sesgo de no respuesta.
3. Error de muestreo.
4. Error de medición.
Un buen diseño de investigación de encuestas intenta reducir o minimizar estos
diversos errores de encuesta, a menudo a un costo considerable.

Reconocimiento y práctica de una buena investigación de encuestas y de exploración de cuestiones éticas 41


Figura 2.8 El presidente Truman sosteniendo el Chlca¡o Trlbune con un encabezado erróneo.

2. 1 1.2 Error de cobertura o sesgo de selección


La clave para una adecuada selección de muestra es un adecuado marco de
población o una lista actualizada de todos los suJ,etos de los que se extraerá la mues-
tra. El error de cobertura resulta de la exclusión de ciertos grupos o sujetos de
este listado de población, de tal manera que no tienen oportunidad de ser selec-
cionados en la muestra. El error de cobertura provoca un sesgo de selección. Si
el listado es inadecuado porque ciertos grupos de sujetos de la población no se
incluyeron apropiadamente, cualquier muestra de probabilidad aleatoria selec-
cionada proporcionai:á una estimación de las características de la población obje-
tivo, no de la poblacl(m, real.
El asunto de un sesgo de pptencial selección surgió durante la campaña presi-
dencial de 1992 con una propuesta para un. "ayuntamiento electrónico". La idea
era ·perrnltlr a los observadores emitir un voto inmediato por teléfono después de
una discusión televisada sobre un tema importante. Desafortunadamente, el pro-
blema principal de esta propuesta por lo demás imeresante e intrigante, era la
potencial exclusión de millones de votantes registrados que no podrían ver el pro-
grama o responder con un voto inmediato, en particular, los votantes registrados
sin televisión o teléfono estarían muy mal representados en las respuestas resul-
tantes.
Tal vez el caso más famoso de sesgo de selección ocurrió en el sondeo de 1936
del Literary Digest. En ese año, Literary Digest, una revista respetada, predijo que el
gobernador Alf Landon de Kansas recibiría 57% de los votos y que ganaría abru-
madoramente las elecciones presidenciales. Cuando se contaron los votos ver-
daderos, Landon recibió sólo 38%, mientras que el presidente Franklin Delano
Roosevelt fácilmente se reeligió para un segundo periodo en funciones. El tamaño
del error del sondeo del Literary Digest se consideró enorme y sin precedentes
respecto a cualquier sondeo importante. Habiendo perdido su credibilidad, la
revista cayó en bancarrota.
¿Qué salió mal? La predicción del Literary Digest se basó en las respuestas de 2.4
millones de individuos, un enorme tamaño de muestra. Una razón importante fue
el sesgo de selección. En 1936 el país todavía resentía la gran depresión. Sin
embargo, el Literary Digest compiló su marco de población de muestras tales como

42 Capítulo 2 Recolección de datos


los directorios telefónicos, las listas de membresías de clubes, suscripciones a revis-
tas y registros de automóviles (referencia 5), circunscribiéndose así a los ricos y
excluyendo de su lista a la mayoría de la población votante quienes, durante este
periodo de dureza económica, no podían permitirse comodidades tales como telé-
fono, membresías a clubes, suscripciones a revistas y automóviles. Por tanto, 57%
de las estimaciones del voto para Landon pudieron haber estado muy cercanas de
la población objetivo, pero ciertamento no de la población real.

2. 1 1 • 3 Error de no respuesta o sesgo de no respuesta


No todos estarán dispuestos a responder una encuesta. De hecho, las investiga-
ciones indican que los individuos de clase alta o baja tienden a responder con
menos frecuencia las encuestas que las personas de clase media. El error de no
respuesta resulta del fracaso de recolectar datos sobre todos los sujetos de la
muestra. Y el error de no respuesta da como resultado el sesgo de no respuesta.
Puesto que no puede asumirse, por lo general, que las personas que no responden
a las encuestas son similares a aquellas que sí lo hacen, es extremadamente impor-
tante hacer un seguimiento de las no respuestas después de un periodo específico.
Deben hacerse varios intentos, ya sea por correo o por teléfono, para convencer a
tales individuos de cambiar de opinión. Basándose en estos resultados, se hace un
esfuerzo para vincular las estimaciones obtenidas de los encuestados iniciales con
aquéllas obtenidas de los seguimientos para que podamos estar razonablemente
seguros que las inferencias hechas a partir de la encuesta son válidas (referencia 1).
Como se estableció en la sección 2.4.2, el modo de respuesta afecta la tasa de
respuestas. La entrevista personal y la telefónica generalmente producen una tasa
de respuestas más alta que la encuesta por correo, pero a un costo mayor.
El sondeo de 1936 del Literary Digest es también un ejemplo de sesgo de no
respuesta. Se enviaron cuestionarios a una muestra de 10 millones de votantes regis-
trados y sólo 2.4 millones respondieron. Aunque una muestra de 2.4 millones es
enorme, una tasa de respuestas de sólo 24% es demasiado baja para producir esti-
maciones precisas de los parámetros de población sin algún mecanismo que asegure
que los 7.6 millones de individuos que no respondieron tenían opiniones similares
a las de aquellos que sí lo hicieron. Con respecto al sondeo del Literary Digest, sin
embargo, este problema de sesgo de no respuesta fue secundario al problema de
sesgo de selección. Incluso si los 10 millones de votantes registrados hubieran
respondido, esto no habría compensado el hecho que la población objetivo difería
tan sustancialmente en su composición de la población votante real.

l.. 1 1 .4 Error de muestreo


Existen tres razones principales para extraer una muestra en vez de tomar un censo
completo: es más conveniente, menos costosa y más eficiente. Sin embargo, al selec-
cionar los sujetos usando una muestra de probabilidad aleatoria, dependiendo de
dónde se comienza en la tabla de números aleatorios, el azar dicta quién del marco
de población será incluido o no. Aunque realmente sólo se selecciona una muestra,
si se tuvieran que extraer muchas muestras diferentes, óptimamente cada muestra
sería una representación en miniatura de la población y produciría estimaciones
razonables de sus características. El error de muestreo refleja la heterogeneidad o
las "diferencias de oportunidad" de muestra a muestra basándose en la probabilidad
de lQs sujetos gue están siendo seleccionados en las muestras particulares.
Cuando leemos acerca de los resultados de encuestas o sondeos en periódicos
o revistas, a menudo hay una declaración respecto al margen de error o precisión,

Reconocimiento y práctica de una buena investigación de encuestas y de exploración de cuestiones éticas 43


por ejemplo, "se espera que los resultados de este sondeo estén dentro de± 4 pun-
tos porcentuales del valor real". El error de muestreo puede reducirse tomando
tamañ.os de muestra mayores, aunque esto incrementará el costo de aplicación de
la encuesta.

2. 1 1 • 5 Error de medición
En la práctica de una buena investigación de encuestas, se diseña un cuestionario
con la intención que permita la recolección de información significativa. Los datos
obtenidos deben ser válidos; es decir, deben evaluarse las respuestas "buenas" y esto
debe hacerse de una manera que se obtengan mediciones significativas.
Pero aquí hay un dilema: la obtención de mediciones significativas es a
menudo más fácil de decir que de hacer. Considere el siguiente proverbio.
El hombre que tiene un reloj siempre sabe la hora;
el hombre que tiene dos relojes siempre busca identificar el que está correcto;
el hombre que tiene diez relojes siempre recuerda la dificultad de medir el tiempo.
Desafortunadamente, el proceso para obtener una medición a menudo está regu-
lado por lo que es conveniente, no por lo que se necesita. Y las mediciones obtenidas
son a menudo sólo un sustituto de las realmente deseadas.
El error de mrdiciqn se i;efiere a inexactitudes en las respuestas
registradas gue ocurren debido a una mala fo~~ulació~- de las pregunta~
el efecto de ~trevistador sobre el encuestado o el esfuerzo hecho por el
encuestado.
Se ha puesto mucha atención al error de medición que ocurre debido a una
mala formulación de las preguntas. Una pregunta debe ser clara, no ambigua.
Además, debe presentarse objetivamente de una manera neutral; las "preguntas
sugerentes" deben evitarse.
Como un ejemplo, en noviembre de 1993 el Departamento del Trabajo de
Estados Unidos informó que la tasa de desempleo en ese país se había subestimado
durante más de una década debido a una formulación errónea del cuestionario en
la encuesta de población actual. En particular, la formulación conducía a un sub-
conteo significativo de mujeres en la fuerza laboral. Dado que las tasas de desem-
pleo están vinculadas con los programas de beneficios como los sistemas de
compensación de desempleo estatal, era imperativo que los investigadores de
encuestas gubernamentales rectificaran la situación ajustando la formulación del
cuestionario.
Podemos demostrar el impacto de la formulación de preguntas sobre las
respuestas obtenidas refiriéndonos a las dos versiones siguientes de una pregunta
hecha por Yankelovich & Partners en encuestas nacionales aplicadas durante la
campan.a presidencial de 1992 (Véase la referencia 6):
• ¿Piensa que por cada dólar de incremento de impuestos debería haber
$2 de reducción de gastos, destinando los ahorros a una reducción del
déficit y la deuda?
• ¿Estaría a favor o en contra de una propuesta de reducir el gasto en $2
por cada dólar de nuevos impuestos, destinando los ahorros a una
reducción del déficit, incluso si esto significa reducciones en programas
sociales como atención médica y educación?
Las respuestas a la primera versión de la pregunta fueron las siguientes: 67% dijo
"sí", 18% dijo "no" y 15% dijo "no sé". Por otra parte, las respuestas a la versión
alternativa de la pregunta fueron completamente opuestas: 33% dijo estar "a
favor", 61% dijo estar "en contra" y 6% dijo "no sé". ¿Qué pasó aquí? ¿Por qué

44 Capitulo l Recolección de datos


hubo tal cambio de una postura más positiva hacia una posición más negativa
sobre esta cuestión? Tal vez podamos atribuir el cambio al hecho que en la segunda
versión de la pregunta se usó un tono alternativo en su formulación y se propor-
cionó más información referente al resultado potencial.
Una segunda fuente de medición de error aparece en las entrevistas personales
y en las telefónicas¡ un "efecto hola" en el que el encuestado se siente obligado a
complacer al entrevistador. Este tipo de error puede minimizarse mediante un ade-
cuado entrenamiento del entrevistador.
Una tercera fuente de medición de error ocurre debido al esfuerzo (o falta de
éste) de parte del encuestado. Algunas veces las mediciones obtenidas son grandes
exageraciones, ya sea deliberadas o debidas a la falta de memoria por parte del
encuestado. De cualquier forma, esto obstaculiza la utilidad de la encuesta:
recuerde GIGO. Este tipo de error puede minimizarse de dos maneras: (1) anali-
zando cuidadosamente los datos y volviendo a llamar a aquellos individuos cuyas
respuestas parecen inusuales y (2) estableciendo un programa de nuevas llamadas
aleatorias para comprobar la confiabilidad de las respuestas.

l. 1 1.6 Cuestiones éticas


Respecto a la proliferación de investigaciones de encuestas (referencia 2), Eric
Miller, editor del boletín Research Alert, afirmó que "ha habido un 1%ero desliza~
miento en la ética. Lo terrible de esto es que la gente toma decisi,ones basándose
en este material. Puede ser un crimen invisible, pero sí hay víctimas". No toda
investigación de encuestas es buena, significativa o importante y no toda investi-
gación de encuestas es ética. Debemos hacernos saludablemente escépticos y eva-
luar críticamente lo que leemos o escuchamos. Debemos examinar el propósito de
la encuesta, por qué se llevó a cabo y para quién, y luego descartarla si se descubre
que carece de objetividad o credibilidad. En particular, debemos tener especial
cuidado con la objetividad de los sondeos y encuestas realizados por grupos de
interés especial. ¿Estarán "tocando su propia bocina"? Además, debemos tener
especial cuidado con sondeos o encuestas de llamadas no científicas efectuadas
para satisfacer la curiosidad. Los sondeos de llamadas con los de USA Today son
estrictamente para diversión (véase la referencia 2). No tienen un valor práctico.
Sus resultados están altamente sesgados por un proceso de autoselección. Además,
un individuo particular puede llamar y ser registrado más de una vez.
Las consideraciones éticas surgen respecto a los cuatro tipos de errores poten-
ciales que pueden ocurrir al diseñar encuestas que usan muestras aleatorias de
probabilidad. Debemos tratar de distinguir entre un mal diseño de encuesta y un
diseño de encuesta no ético. La clave es la intención. El error de cobertura o el sesgo
de selección se vuelven una cuestión ética sólo si se excluye deliberadamente del
marco de población a grupos o individuos particulares de tal forma que los resul-
tados de la encuesta probablemente indiquen una posición más favorable a la del
patrocinador de la encuesta. En un tono similar, el error de no respuesta o el sesgo
de no respuesta se vuelven una cuestión ética sólo si grupos o individuos particu-
lares tienen una menor probabilidad de poder responder un formato de encuesta
particular y el patrocinador diseña a propósito la encuesta de una manera dirigida
a excluir a tales grupos o individuos. El error de muestreo se convierte en una
cuestión ética sólo si los hallazgos se presentan deliberadamente sin referencia al
tamaño de la muestra y al margen de error, de forma tal que el patrocinador pueda
promover un punto de vista que de otra manera sería realmente insignificante. El
error de medición, sin embargo, se vuelve una cuestión ética en cualquiera de estas
tres formas. Un patrocinador de encuesta puede elegir deliberadamente preguntas
sugerentes y de peso que podrían guiar las respuestas en una ditección particular.
Además, un entrevistador, mediante amaneramientos y tono al hablar, puede crear

Reconocimiento y práctica de una buena investigación de encuestas y de exploración de cuestiones éticas 45


intencionalmente un efecto hola o guiar las respuestas en una dirección particular.
Más aún, un encuestado con una actitud de desdén hacia el proceso de encuestas
puede proporcionar información falsa a propósito.

Problemas de la sección 2.11


2.27 "Una encuesta indica que los estadounidenses prefieren abrumadoramente un
Chrysler a un Toyota, después de una prueba de manejo en ambos." ¿Qué
información desearía conocer antes que acepte los resultados de esta encuesta?
2.28 "Una encuesta indica que la gran mayoría de los estudiantes universitarios
seleccionaron los pantalones Levi's 501 como la ropa más 'in'." ¿Qué
información desearía conocer antes que acepte los resultados de esta
encuesta?
2.29 "Una encuesta de 900 llamadas sobre música rock indica que 'Stairway to
Heaven' del grupo de rock Led Zeppelin es la canción· más popular de todos los
tiempos." ¿Qué información desearía conocer antes que acepte los resultados
de esta encuesta?

FB fj Recolección de datos: Un repaso


y una visión preliminar
Como se aprecia en el diagrama de resumen de capítulo de la página 47, este capí-
tulo trató sobre la recolección de datos. En las páginas 12-13 de la sección 2.1 se
dio una U.sta que ponía énfasis en los puntos importantes para ser analizados en el
capítulo. Revise esta lista para ver si siente que tiene comprensión de estos puntos
clave. Para estar seguro, debe poder responder las siguientes preguntas concep-
tuales:
1. ¿c~ál ~s,la diferencia entre una variable aleatoria categórica y una
· numetlca~
2;·, ¿CuáJ e,s la diferencia entre datos discretos y datos continuos?
3. ¿'Cuálenon los diversos niveles de medición?
4. ¿Qué es una deflnlclón operacional y por qué es tan importante?
5. ¿Cuáles sórt las razones principales para obtener datos y qué méto-
dos pueden usarse para lograr esto?
6. ¿Cuál es la diferencia entre muestreo de probabilidad y muestreo no
probabilístico?
7. ¿Por qué es tan importante la compilación de un marco de
población completo para una investigación de encuestas?
8. ¿Cuál es la diferencia entre muestreo con reemplazo y muestreo sin
reemplazo?
9. ¿Cuáles son las ventajas y desventajas de las entrevistas personales,
las encuestas telefónicas y las encuestas por correo?
10. ¿Cuál es la diferencia entre sesgo de selección y sesgo de no
respuesta en las encuestas?
11. ¿Qué distingue a las cuatro fuentes potenciales de error al tratar con
encuestas diseñadas usando muestreo probabilístico?
12. ¿Cómo preparamos nuestros datos de encuesta recabados para su
presentación tabular y diagramática y su resumen?
Revise la lista de preguntas para ver si realmente sabe las respuestas y si podría
(1) explicar sus respuestas a alguien que no leyó este capítulo y (2) dar una referen-
cia de lecturas o ejemplos específicos que respalden su respuesta. Asimismo, vuelva

46 Capítulo l Recolección de datos


.,1 :. ,\·,·.··_.,,.~

.,,
~.i

'".'

Categórica Numérica

Diagrama de resumen del capítulo 2.

a leer cualquiera de las secciones que pudieran haber parecido poco claras para ver
si ahora tienen más sentido.
Una vez que los datos han sido recolectados, ya sea en forma de una fuente
publicada, un experimento diseñado, un estudio observacional o una encuesta
como la usada en Kalosha Industries, los datos deben organizarse y prepararse con
el fin de ayudarnos a hacer diversos análisis. En los siguientes tres capítulos, se
demostrarán métodos para la presentación tabular y diagramática, se describi-
rán diversas técnicas de "análisis exploratorio de datos" y se desarrollarán una
diversidad de mediciones de resumen descriptivo, útiles para el análisis e interpre-
tación de datos.

Recolección de datos: Un repaso y una visión preliminar 47


Juntando todo

TÉRMINOS CLAVE
datos 12 medición nominal 16
datos continuos 15 medición ordinal 16
datos discretos 15 muestra aleatoria simple 23
definición operacional 18 muestra con reemplazo 24
diseño de un experimento 14 muestra de probabilidad 23
encuesta 14 muestra no probabilística 22
error de cobertura 42 muestra sin reemplazo 24
error de medición 44 población objetivo 24
error de muestreo 43 preguntas de extremo abierto 31
error de no respuesta 43 prueba piloto 22
errores de encuesta 41 sesgo de no respuesta 43
escala de cociente 17 sesgo de selección 42
escala de intervalo 17 tabla de números aleatorios 25
estudio observacional 14 valores faltantes 31
fuentes primarias y secundarias 13 variable aleatoria categórica 15
GIGO 15 variables aleatorias 15
marco de población (listado) 24

Problemas de repaso del capítul~

2.30 p.r;a¡¡¡i.t.!.> Escriba una carta a un amigo que no ha tomado un curso de


estadística y explíquele qué se trató en este capítulo. Para resaltar el contenido
del capítulo, asegúrese de incorporar sus respuestas a las 12 preguntas de
repaso de la página 46.
2.31 Determine si cada una de las siguientes variables son categóricas o numéricas.
SI es numérica, determine si el fenómeno de interés es discreto o continuo.
Además, proporcione el nivel de medición y una definición operacional para
cada una de las variables.
(a) Marca de la computadora personal utilizada.
(b) Costo del sistema de cómputo personal.
(c) Tiempo que se usa la computadora personal por semana.
(d) Uso principal de la computadora personal.
(e) Número de personas de la casa que usan la computadora personal.
(f) Número de suscripciones a revistas de computación.
(g) Paquete de procesamiento de palabras usado principalmente.

48 Capítulo :i Recolección de datos


• 2.32 Determine si cada una de las siguientes variables son categóricas o numéricas.
Si es numérica, determine si el fenómeno de interés es discreto o continuo.
Además, proporcione el nivel de medición y una definición operacional para
cada una de las variables.
(a) Cantidad de dinero gastado en ropa el mes pasado.
(b) Número de abrigos de invierno de mujer que se tienen.
(c) Tienda departamental favorita.
(d) Tiempo utilizado en la compra de ropa el mes pasado.
(e) Periodo más probable durante el cual tiene lugar la compra de ropa (día
de la semana, noche de la semana o fin de semana).
(f) Número de pares de guantes de mujer que se tienen.
(g) Tipo principal de transportación usada al comprar ropa.
• 2.33 Suponga que se obtiene la siguiente información de Robert Keeler en su solici-
tud de un préstamo hipotecario de casa en la Metro County Savings and Loan
Association:
(a) Lugar de residencia: Stony Brook, Nueva York.
(b) Tipo de residencia: casa unifamiliar.
(c) Fecha de nacimiento: abril 9, 1962.
(d) Pagos mensuales: $1,427.
(e) Ocupación: periodista/autor.
(f) Empleador: Daily newspaper.
(g) Número de años en el trabajo: 4.
(h) Número de trabajos en los últimos diez años: l.
(i) Ingreso salarial familiar anual: $66,000.
(j) Otros ingresos: $16,000.
(k) Estado civil: casado.
(l) Número de hijos: 2.
(m) Hipotecario solicitado: $120,000.
(n) Término del hipotecario: 30 años.
(o) Otros préstamos: carro.
(p) Cantidad de otros préstamos: $8,000.
Clasifique cada una de las respuestas por tipo de datos y nivel de medición.
2.34 ¿Por qué esperaría que una encuesta conducida mediante entrevistas
personales o telefónicas fuera más costosa que una conducida usando un
cuestionario por correo?
2.35 Suponga que el gerente de la división de servicios al cliente de Xenith está
interesado principalmente en determinar si los clientes que han comprado
una videograbadora durante los útlmos 12 meses quedaron satisfechos con el
producto. Usando las tarjetas de garantía entregadas después de la compra, el
gerente planeaba encuestar a 1,425 de estos clientes.
(a) Describa tanto la población corno la muestra de interés para el gerente.
(b) Describa el tipo de datos que el gerente desea recolectar principalmente.
(c) Desarrolle un primer borrador del cuestionario escribiendo una serie de
tres preguntas categóricas y tres preguntas numéricas que piensa serían
apropiadas para esta encuesta. Proporcione una definición operacional
para cada variable.
(d) t·t;ii9/.f.I» Escriba un borrador de la carta explicatoria necesaria para esta
encuesta.
2.36 En un sondeo político para tratar de predecir el resultado de una elección,
¿cuál es la población a la cual, por lo general, querernos aplicarla? ¿Cómo
podríamos obtener una muestra aleatoria de esa población? De lo que sabe
respecto a cómo se llevan a cabo realmente tales sondeos, ¿cuáles serían
algunos problemas con el muestreo en estos sondeos?
• 2.37 Dada una población de N = 93, extraiga una muestra de tamafío n= 15 sin
reemplazo, comenzando en la fila 29 de la tabla de números aleatorios
(tabla E.1). Leyendo a lo largo de la fila, enumere las 15 secuencias coc;lificadas
obtenidas.

Problemas de repaso del capítulo 49


2.38 Resuelva el problema 2.3 7 mediante muestreo con reemplazo.
2.39 Para una población de N = 1250, puede recomendarse el uso de dos etapas de la
tabla de números aleatorios (tabla E.1) a fin de evitar gastar tiempo y esfuerzo.
Para obtener la muestra mediante un enfoque de dos etapas, enumere las
secuencias codificadas de cuatro dígitos después de ajustar el primer dígito en
cada secuencia, de la siguiente manera: si el primer dígito es O, 2, 4, 6 u 8, cam-
bie el dígito a O. Si el primer dígito es 1, 3, 5, 7, ó 9, cambie el dígito a l. Así
pues, comenzando en la fila 07 de la tabla de números aleatorios (tabla E.1), la
secuencia 7054 se vuelve 1054, la secuencia 3297 se vuelve 1297, etc. Verifique
que sólo se requieran diez filas para extraer una muestra de tamaño n = 60 sin
reemplazo.
2.40 Para una población de N = 2202, puede recomendarse el uso de dos etapas de la
tabla de números aleatorios (tabla E. l) para evitar gastar tiempo y esfuerzo.
Para obtener la muestra mediante un enfoque de dos etapas, enumere las
secuencias codificadas de cuatro dígitos después de ajustar el primer dígito en
cada secuencia de la siguiente manera: si el primer dígito es O, 3 ó 6, cambie el
dígito a O. Si el primer dígito es 1, 4 ó 7, cambie el dígito a l. Si el primer dígito
es 2, 5 u 8, cambie el dígito a 2. Si el primer dígito es 9, descarte la secuencia.
Así pues, comenzando en la fila 07 de la tabla de números aleatorios (tabla E.l),
la secuencia 7054 se vuelve 1054, la secuencia 3297 se vuelve 0297, etc.
Verifique que sólo se requieran diez filas para extraer una muestra de tamaño
n = 60 sin reemplazo.
2.41 f.f¡¡ai'J!,z.t,~ Escriba una carta a un amigo analizando cuestiones éticas al
recolectar datos mediante encuestas.
• 2.42 La siguiente salida computarizada está extraída de un conjunto de datos
similares a aquéllos recolectados en la Encuesta sobre la satisfacción de los
empleados (tabla 2.3). Sin embargo, cada una de las cinco líneas, que
representan las respuestas respectivas de cinco individuos particulares, tiene
un error. Use las relaciones codificadas mostradas en la figura 2.7 y en la tabla
2.2 de las páginas 31 y 32 para determinar el error de registro particular en
cada una de las cinco respuestas.
401 72 6 47 41 1 1 65.7 95.5 1 1 1 1 o 2 27 5.00 o 51332153341
402 40 7 48 12 2 3 17.6 48.3 2 4 5 1 o 2 20 9.00 () 22242243222
40:{ 42 7 10 12 1 l 20.8 22.] :i 2 s 2 l 1 u l.50 o 41:iz2 243243
404 (j() 2 :iH 18 1 1 2CJ.7 41.2 2 1 s 1 o 1 17 12.25 () 43332244251
405 so s 44 1:{ 3 :i 25.2 28.7 15202 24 24.00 () s :i :i 2 1 2 2 1 1 1 1

ta Proyectos de aprendizaje colaborativo

Nota: La clase debe dividirse en grupos de tres o cuatro estudiantes. Inicialmente se


selecciona un estudiante para que sea coordinador del proyecto, otro estudiante es el
que registra el proyecto y un tercero es el cronometrador del proyecto. Para que cada
estudiante gane experiencia en el desarrollo del trabajo de equipo y en las habili-
dades de liderazgo, después de cada proyecto debe haber una rotación de posiciones.
Al principio de cada proyecto, los estudiantes deben trabajar silenciosa e individual-
mente durante un corto periodo especifkado. Una vez que cada estudiante ha tenido
la oportunidad de estudiar los problemas y de refiexionar sus posibles respuestas, el
grupo se reúne y se sigue con una discusión de grupo. Si todos los miembros de un
grupo están de acuerdo con las soluciones, el coordinador es responsable de presentar
la solución del proyecto del equipo al instructor, con las firmas de los estudiantes
indicando tal acuerdo. Por otra parte, si uno o más miembros del equipo no están de
acuerdo con la solución ofrecida por la mayoría del equipo, una opinión de minoría
puede anexarse al proyecto presentado, con firma(s).

so Capítulo 2 Recolección de datos


CLZ.1 Suponga que la siguiente información se obtiene de Hugh Sain después de su
admisión a la enfermería del Brandwein College:
(a) Sexo: masculino.
(b) Residencia o dormitorio: Mogelever Hall.
(c) Clase: estudiante de segundo año.
(d) Temperatura: 102.2 ºF (oral).
(e) Pulso: 70 latidos por minuto.
(f) Presión sanguínea: 130/80 mg/mm.
(g) Tipo de sangre: B positiva.
(h) Alergias conocidas a medicinas: no.
(i) Diagnóstico preliminar: influenza.
(j) Duración estimada de estancia: 3 días.
Clasifique cada una de las diez respuestas por el tipo de datos y el nivel de
medición. Proporcione una definición operacional para cada variable.
Sugerencia: tenga cuidado con la presión sanguínea; es engañosa.
CL2.2 Proporcione una definición operacional para cada uno de los siguientes
enunciados:
(a) Un buen estudiante.
(b) El número de hijos por casa.
(c) Una película excelente.
(d) Una cerveza de sabor ligero.
(e) Un vestido o conjunto bonitos.
(f) Un producto de calidad.
(g) Un automóvil de manejo suave.
CLZ.3 Suponga que el American Kennel Club (AKC) está planeando encuestar a 1500
miembros del club para determinar el porcentaje de su membresía que actual-
mente tiene más de un perro.
(a) Describa tanto la población como la muestra de interés para el AKC.
(b) Describa el tipo de datos que AKC desea recolectar.
(c) Desarrolle un primer borrador del cuestionario necesario para incluir una
serie de cinco preguntas categóricas y cinco preguntas numéricas que
piense serían apropiadas para esta encuesta. Proporcione una definición
operacional para cada variable.
(d) t.t;¡d'1j.J.l•J. Escriba un borrador de la carta explicatoria necesaria para esta
encuesta.

Estudio de caso A -Encuesta de la asociación de exalumnos


Suponga que el presidente de la de empleos de tiempo completo desde
asociación de exalumnos desea una la graduación; salario anual antici-
encuesta de la membresía de las pado en cinco años, afiliación política
generaciones de 1985 y 1986 para partidista y estado civil.
determinar sus logros anteriores, Como director de investigación
actividades actuales y aspiraciones institucional, se le pide escribir una
futuras. Con este fin, se desea propuesta mostrando cómo planea
información relativa a las siguientes realizar la encuesta. En esta
áreas: sexo de los alumnos, principal propuesta se debe incluir:
área de estudio, índice de puntos de
calificación, aspiraciones educativas l. Una declaración de
posteriores (es decir, maestría o objetivos (es decir, qué es lo
doctorado), situación actual de que desea descubrir y por
empleo, salario anual actual, número qué).

Estudio de caso A 11
2. Un análisis de cómo y encuestados, a fin de
dónde se aplicará la ayudarlos en el llenado del
encuesta (es decir, cómo cuestionario.
planea muestrear 300 ex 6. Un análisis de cómo planea
alumnos de la lista de 3000 probar la validez y/o
graduados en las dos clases) ambigüedad del
3. Un primer borrador del cuestionario
cuestionario (que contenga 7. Una demostración de cómo
una secuencia organizada se codificarán e ingresarán
de preguntas tanto las respuestas simulando la
numéricas como entrada de datos para un
categóricas, incluyendo encuestado hipotético,
definiciones operacionales John Q. Doe, graduado de
para cada variable, todas las la generación 85.
etiquetas de categoría y la 8. Una declaración de que ha
asignación de columnas tomado en consideración
para la entrada de datos) aspectos como los costos
4. Un primer borrador de la involucrados en la
carta introductoria que se conducc.ión de la encuesta,
usará con el cuestionario · necesidades personales y
S. Un primer borrador de tiempo requerido para
cualquier instrucción instrumentación y
especial para los conclusión.

Notas finales
1 Newsday, abril 25, 1988. 3 De las experiencias del proyecto de lotería de 1969, la
2 Es interesante observar que ya sea que muestreemos con lotería de 1970 intentó corregir los posibles problemas de
reemplazo de poblaciones finitas o que muestreemos sin mezclado y selección. Hoy en día, el proceso de mezclado y
reemplazo de poblaciones infinitas (como algunos procesos selección usado en las loterías estatales televisadas parece
de producción continuos actuales), las fórmulas usadas son aleatorio; la única intervención humana es el anuncio de
las mismas. los números seleccionados.

Referencias
l. Cochran, W. G., Sampling Techniques, 3a. ed. (Nueva York: 7. Groves, R. M., Survey Errors and Survey Costs (Nueva York:
Wiley, 1977). Wiley, 1989).
2. Crossen, C., "Margln of Error: Studles and Surveys 8. Hansen, M. H., W. N. Hurwltz, y W. G. Madow, Sample
Proiiferate, but Poor Methodology Makes Many Survey Methods and Theory, vols. I y II (Nueva York: Wiley,
Unreiiable", The Wall Street Journal, 14 de noviembre de 1953).
1991, pp. Al y A9. 9. Mosteller, F., et al. The Pre-Election Polls of 1948 (Nueva
3. Deming, W. E., Sample Design In Business Research (Nueva York: Social Sclence Research Council, 1949).
York: Wiley, 1960). 10. Rand Corporation, A Million Random Digits with 100,000
4. Deming, W. E., Out of the Crisis (Cambildge, MA: Normal Deviates (Nueva York: Free Press, 1955).
Massachusetts lnstitute of Technology Center for 11. Robbins, S. P., Management, 4ta. ed. (Englewood Cliffs, NJ:
Advanced Engineering Study, 1986). Prentice Hall, 1994).
5. Gallup, G. H., The Sophisticated Poll-Watcher's Guide
(Princeton, NJ: Princeton Opinion Press, 1972).
6. Goleman, D., "Pollsters Enlist Psychologists in Quest for
Unbiased Results", The New York Times, 7 de septiembre de
1993, pp. el y el l.

S2 Capítulo 2 Recolección de datos


capítulo

••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVO DEL Mostrar cómo organizar y presentar
"' de manera más eficaz datos
CAPITULO numéricos reunidos en tablas y
diagramas.
IH 1 Introducción
En el capítulo anterior aprendimos cómo recolectar datos mediante una investi-
gación de encuestas. Corno se señaló en la sección 2.5, puesto que el muestreo
ahorra tiempo, dinero y mano de obra, generalmente tratamos con información
de muestras antes que con datos de toda una población. No obstante, sin importar
si tratamos con una muestra o con una población, corno regla general, cuando una
serie de datos que hemos reunido contiene aproximadamente 20 o más observa-
ciones, la mejor forma de examinar tales datos masivos es presentarlos en forma
de resumen construyendo tablas y diagramas apropiados. Entonces podemos
extraer las características importantes de los datos de estas tablas y diagramas.
Por lo tanto, este capítulo trata sobre la presentación de datos. En particular,
mostraremos cómo grandes series de datos numéricos pueden organizarse y pre-
sentarse de manera más eficaz en forma de tablas y diagramas con el fin de inten-
sificar el análisis e interpretación de datos, aspectos clave del proceso de torna de
decisiones. Para motivar nuestro análisis sobre la presentación tabular y de dia-
grama de los datos numéricos, podemos ver en el diagrama de resumen del capí-
tulo de la página 94 que las observaciones en nuestra serie de datos son de dos
tipos, de orden de tiempo o independientes. Las observaciones de orden de tiempo
pueden controlarse sobre una gráfica digipunto, mientras que las observaciones
independientes pueden organizarse en una clasificación ordenada o diagrama de
tallo y hojas y luego presentarse en forma tabular como una distribución de fre-
cuencia o en forma gráfica como un histograma, polígono u ojiva.
Después de terminar este capítulo, debe poder:

l. Organizar una serie de datos numéricos en una clasificación ordenada


o diagrama de tallo y hojas.
2. Comprender cómo y cuándo construir y usar distribuciones de fre-
cuencia y distribuciones de porcentaje.
3. Saber cómo y cuándo rnnstrulr y usar distribuciones acumulativas.
4. Comprender cómo y cuándo construir y usar distribuciones acumulativas.
S. Saber cómo y cuándo conslntlr y usar ojivas (es decir, polígonos de
fn.•ntcnda anunulallva y poligonos de frecuencia relativa acumulativa).
6. Sahl r d>mo y n1ámlo rnnstruir y usar la gráfica digipunto.
1

7. Aprl'l'lar el valor de usar paquetes estadísticos o de hoja de trabajo


para presentar datos numéricos en la forma de tablas y diagramas.
8. Comprender cómo distinguir entre una presentación buena y otra
mala de datos numéricos y las cuestiones éticas involucradas.

111 Organización de datos numéricos:


la clasificación ordenada
y el diagrama de tallo y hojas
Con el fin de introducir las ideas relevantes para los capítulos 3 y 4, supongamos
que una compañía que brinda servicios de asesoría universitaria a estudiantes por
todo Estados Unidos ha contratado a un analista investigador para comparar las
colegiaturas cobradas a residentes de fuera del estado por colegios y universi-
dades en distintas regiones del país. La tabla 3.1 muestra las colegiaturas cobradas
a residentes de fuera del estado por cada uno de los 60 colegios y universidades
del estado de Texas (véase en particular el Conjunto de datos especiales del
apéndice D, páginas Dl-D2). Cuando se recolecta una serie de datos como ésta,

54 Capítulo J Presentación de datos numéricos en tablas y diagramas


generalmente se hace en forma sin procesar; es decir, las observaciones numéricas
110 se disponen en ningún orden o secuencia particular. Como se deduce de la tabla
:t 1, al crecer el número de observaciones, se hace más difícil centrarse en las princi-
pales características de un conjunto de datos y se necesitan métodos para ayudarnos
a organizar las observaciones de tal manera que entendamos mejor la información
que transmite la serie de datos. Dos métodos comúnmente usados para lograr esto
son la slª2Ift@\:ión.m9~Aíl.Y cl..QiagrwA.Q.~J9HQ.yJ;i,Qias.....~~

Tabla 3.1 Datos sin procesar referentes a colegiaturas (en $000) para residentes
fuera del estado en 60 colegios y universidades de Texas.

7.2 4.9 10.7 10.4 6.4 4.8 4.7 4.6 6.0 5.4
4.8 4.7 8.3 3.8 4.8 8.3 6.4 6.6 4.5 8.0
3.6 2.4 8.5 8.8 7.7 4.9 8.6 12.0 4.9 7.0
11.0 4.9 3.9 4.9 4.4 4.9 4.9 8.0 3.6 7.4
7.9 4.9 5.8 3.9 11.6 10.3 3.4 3.9 5.0 3.9
8.0 3.5 4.9 5.8 4.1 3.9 3.5 4.8 5.9 3.6
Fuente: Véase Conjunto de datos especiales 1, apéndice D, páginas Dl-02, tomado de" America's Best Colleges,
1994 College Guide", U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass.
Reimpresión con permiso especial, U.S. News & World Report, © 1993 por U.S. News & World Report y por
College Counsel.

J.2.1 La clasificación ordenada


Si ordenamos los datos sin procesar de la observación más pequeña a la más
grande, la secuencia ordenada obtenida se denomina clasificación ordenada.
Cuando los datos se disponen en una clasificación ordenada, como en la tabla
3.2, se facilita nuestra evaluación de sus principales características. Se hace más
fácil seleccionar los extremos, los valores típicos y las concentraciones de va-
lores.

Tabla 3.1 Clasificación ordenada de colegiaturas (en $000) de 60 colegios y univer-


sidades de Texas.
2.4 3.4 3.5 3.5 3.6 3.6 3.6 3.8 3.9 3.9
3.9 3.9 3.9 4.1 4.4 4.5 4.6 4.7 4.7 4.8
4.8 4.8 4.8 4.9 4.9 4.9 4.9 4.9 4.9 4.9
4.9 4.9 5.0 5.4 5.8 5.8 5.9 6.0 6.4 6.4
6.6 7.0 7.2 7.4 7.7 7.9 8.0 8.0 8.0 8.3
8.3 8.5 8.6 8.8 10.3 10.4 10.7 11.0 11.6 12.0
Fuente: Tabla 3.1.

Aun cuando resulta útil colocar los datos sin procesar en una clasificación
ordenada antes de desarrollar tablas de resumen o de calcular mediciones de
resumen descriptivas (véase el capítulo 4), mientras mayor sea el número de obser-
vaciones presentes en una serie de datos, más pesado es formar la clasificación
ordenada. En tales situaciones se hace particularmente útil organizar la serie de
datos en un diagrama de tallo y hojas con el fin de estudiar sus características (referen-
cias 1, 13 y 14).

J .2.2 El diagrama de tallo y hojas


Un diagrama de tallo y hojas separa las entradas de datos en "dígitos guía" o "ta-
llos" y "dígitos rastreros" u "hojas". Por ejemplo, puesto que las colegiaturas (en
$000) en la serie de datos de Texas todas tienen números enteros de dos dígitos, la
columna de los unos o la de los dieces sería el dígito guía y la columna restante

Organización de datos numéricos: la clasificación ordenada y el diagrama de tallo y hojas 11


sería el dígito rastrero. Por lo tanto, una entrada de 7.2 (correspondiente a $7,200)
tiene un dígito guía de 7.y un dígito rastrero de 2.
La figura 3.1 describe el diagrama de tallo y hojas de las colegiaturas .de los 60
colegios y universidades de Texas. La columna de números a la izquierda de la línea
vertical se denomina el "tallo". Estos números corresponden a los dígitos guía de
los datos. En cada fila las "hojas" se bifurcan a la derecha de la línea vertical, y estas
entradas corresponden a dígitos rastreros.

2 4
3 869694995956
4 9876878599994999918
5 48089
6 4046
7 27049
8 33058600
9
Figura J. I
Diagrama de tallo y holas de 10 743
colegiaturas de residentes fuera del 11 06
estado en 60 colegios y 12 o
universidades de Texas.
Fuente: Tabla 3.1. N=60

e Construcción del diagrama de tallo y hojas Usando los datos de la tabla


3.1, se construye fácilmente el diagrama de tallo y hojas. Observe que la primera
institución, la Universidad Abilene Christian, tiene una colegiatura de 7,200
dólares. Por lo tanto, el dígito rastrero de 2 se enumera como el primer valor de
hoja junto al valor de tallo de 7 (el dígito guía). La segunda institución, la
Universidad Angelo Stute, tiene una colegiatura de 4, 900 dólares. Aquí el dígito ras-
trero de 9 se enumera como el primer valor de hoja junto al valor de tallo de 4.
Continuando, la tercera institución, el Austin College, tiene una colegiatura de
10,700 dólares, por lo que el dígito rastrero de 7 se enumera como el primer valor
de hoja junto al valor de tallo de 10. La cuarta institución, la Universidad Baylor,
tiene una colegiatura de 10 400 dólares, por lo que el dígito rastrero de 4 se enu-
mera como el segundo valor de hoja junto al valor de tallo de 10.
En este punto de su construcción, nuestro diagrama de tallo y hojas tiene la
siguiente forma:

2
3
4 9
5
6
7 2
8
9
10 74
11
12

56 Capítulo J Presentación de datos numéricos en tablas y diagramas


Observe que dos de las cuatro escuelas tienen el mismo tallo. Al incluirse más y
más escuelas, se observarán aquéllas que tienen los mismos tallos y, tal vez, incluso
las mismas hojas pertenecientes a los tallos (es decir, las mismas colegiaturas). Tales
valores de hojas se registrarán adyacentes a las hojas previamente registradas,
opuestas al tallo apropiado, dando como resultado la figura 3.1.
Para ayudarnos a seguir examinando los datos, tal vez deseemos volver a
arreglar las hojas de cada uno de los tallos, colocando los dígitos en orden ascen-
dente, fila por fila. El diagrama de tallo y hojas revisado se presenta en la
figura 3.2.

2 4
3 455666899999
4 1456778888999999999
5 04889
6 0446
7 02479
8 00033568
9
10 347
11 06 Figura 3.2
Diagrama de tallo y hojas revisado de
12 o colegiaturas de residentes fuera del estado
N=60 en 60 colegios y universidades de Texas.

También es útil otro tipo de nuevo arreglo. Si deseamos alterar el tamaño del
diagrama de tallo y hojas, éste es lo bastante flexible para tal ajuste. Suponga, por
ejemplo, que deseamos incrementar el número de tallos para que podamos
obtener una menor concentración de hojas en los tallos restantes. Esto se hace en
el diagrama de tallo y hojas presentado en la figura 3.3.

2L 4
2H
3L 4
3H 55666899999
4L 14
4H 56778888999999999
5L 04
5H 889
6L 044
6H 6
7L 024
7H 79
8L 00033
BH 568
9L
9H
lOL 34
lOH 7
llL O Figura 3.3
Diagrama de tallo y hojas revisado de
llH 6 colegiaturas de residentes fuera del estado en
12L O 60 colegios y universidades de Texas usando
N=60 más tallos.
Fuente: Figura 3.2.

Organización de datos numéricos: la clasificación ordenada y el diagrama de tallo y hojas 17


Observe que cada tallo de la fig. 3.2 ha sido dividido en dos nuevos tallos: uno para
los dígitos O, 1, 2, 3 ó 4 de la unidad inferior, y otro para los dígitos 5, 6, 7, 8 ó 9 de
la unidad superior. Éstos están representados por L y H respectivamente, como se
indica en las listas de tallos de la fig. 3.3.
Sin embargo, algunos investigadores han argumentado que los datos mostra-
dos en la figura 3.3 no están resumidos. Esto es, no logramos captar la forma en
que los datos se aglutinan realmente dentro de varios agrupamientos. Así pues, en
vez de ampliar el diagrama, como en la figura 3.3, tal vez deseemos condensar los
datos, como en la figura 3.4.

2,3 4455666899999
Figura 3.4 4,5 145677888899999999904889
Diagrama de tallo y hojas
revisado de colegiaturas de 6, 7 044602479
residentes fuera del estado en 8,9 00033568
60 colegios y universidades de 10,11 34706
Texas después de condensar 12,13 o
tallos. N=60
Fuente: Figura 3.2.

Observe que las parejas consecutivas de tallos de la figura 3.2 forman el con-
junto reducido de tallos de la figura 3.4 y las hojas correspondientes al miembro
superior de cada pareja están en negritas.
El diagrama de tallo y hojas (revisado) es, tal vez, la técnica más versátil de la
estadística descriptiva. Organiza simultáneamente los datos para posteriores análi-
sis descriptivos (como veremos en el capítulo 4) y prepara los datos tanto para
forma tabular como de diagrama.

Problemas de la sección 3.2


e 3.1 Dado el siguiente diagrama de tallo y hojas:
9 714
10 82230
11 561776735
12 394282
13 20

(a) Vuelva a arreglar las hojas y forme el diagrama de tallo y hojas revisado.
(b) Disponga los datos en una clasificación ordenada.
(e) /.Cuál de estos dos mecanismos parece dar más información?
Analice.
3.2 Después de cxamirnar los registros de facturación mensuales de una compañía
dt• libros por correo, el auditor toma una muestra de 20 de sus cuentas no
pagadas. Las cantidades adeudadas a la compañía fueron
$4, $18, $11, $7, $7, $10, $5, $33, $9, $12
$3, $11, $10, $6, $26, $37, $15, $18, $10, $21
(a) Desarrolle la clasificación ordenada.
(b) Forme el diagrama de tallo y hojas.
3.3 Los siguientes datos representan la tasa de flujo máxima (en galones por
minuto) de una muestra aleatoria de 34 regaderas probadas a 80 libras por
pulgada cuadrada de presión:

58 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


Tasa de flujo máximo
Marca y modelo (en 80 lb/pulg2)
Sears Energy-Saving Shower Head 20170 2.9
Thermo Saver DynaJet CFOl 2.8
Resources Conservation The Incredible Head ES-181 2.0
Zin-Plas Brass Showerhead 14-9601-F 3.6
Zin-Plas Water Pincher 14-9550 2.7
Whedon Saver Shower SS2C 2.S
Great Vibrations Water Saver Massage B28400 2.6
American Standard Shower Head Chrome 10509.0020A 2.9
Teledyne Water Pik Shower Massage 5 SM-2U 2.7
Chatham Salid Brass Shower Head 44-35 2.8
Teledyne Water Pik Shower Massage 8 SM-4 2.5
Melard Water-saving Adjustable 3610 2.8
Pollenex Dial Massage OMISO 2.2
Nova B6402 2.5
Speakman Anystream 52253-AF 2.5
Kohler City Club Z-7351 2.8
NY-Del 550-Il 1.8
Ondine Water Saver 28446 2.7
Kohler Trend 11740 2.7
Alsons Somerset 673 4.7
Speakman Cosmopolitan $2270-AF 2.8
Pollenex Dial Massage DM109 2.7
Alsons Alspray Massage Action 690C 3.1
Moen Pulsation 3935 2.9
Sears Personal Hand Shower 20173 3.4
Teledyne Water Pik Shower Massage 5 SM-3U 2.6
Alsons Hand Shower 462PB 2.6
Alsons Massage Action Pulsating 45C 2.7
Moen Pulsation 3981 2.4
Teledyne Water Pik Super Saver SS-3 2.5
Pollenex Dial Massage DM209 5.4
Pollenex Dial Massage/Steamy Mist DM230 4.9
Pryde Splash 2461 2.8
Teledyne Water Pik Shower Massage 8 SM-5 2.5

Fuente: Copyright 1990 por Consumers Union of United States, !ne., Yonkers, N. Y.
10703. Adaptado con permiso de Consumer Reports, julio 1990, pp. 472-473.

(a) Desarrolle la clasificación ordenada.


(b) Forme el diagrama de tallo y hojas.
3.4 Los siguientes datos representan el precio al menudeo de una muestra de 39
diferentes marcas de accesorios de baño:

50 50 50 28 65 40 50 22 32 30
79 50 22 20 35 24 25 120 35 35
65 20 14 25 24 48 15 10 17 50
25 22 60 30 12 30 10 12 20
Fuente: Copyright 1993 por Consumers Union of United States, !ne., Yonkers, N. Y. 10703.
Adaptado con permiso de Consumer Reports, enero 1993, pp. 34-35.

(a) Desarrolle la clasificación ordenada.


(b) Forme el diagrama de tallo y hojas.

Organización de datos numéricos: la clasificación ordenada y el diagrama de tallo y hojH le


• 3.S Los siguientes datos son los valores en libros (el capital contable dividido entre
el número de acciones pendientes) de una muestra aleatoria de SO acciones de
la bolsa de valores de Nueva York:

7 9 8 6 12 6 9 15 9 16
8 s 14 8 7 6 10 8 11 4
10 6 16 5 10 12 7 10 lS 7
10 8 8 10 18 8 10 11 7 10
7 8 15 23 13 9 8 9 9 13

(a) Desarrolle la clasificación ordenada.


(b) Forme el diagrama de tallo y hojas.
3.6 Un médico entrevistado en un programa de televisión nocturno conjetura que
"el cáncer parece ser más frecuente en estados con grandes poblaciones
urbanas y en estados de la parte este de Estados Unidos". Los siguientes datos
representan la tasa de incidencia de cáncer (incidencia reportada para una
población de 100 000) en los SO estados durante un año reciente:

Incidencia de cáncer Incidencia de cáncer


en una población en una población
Estado de 100,000 Estado de 100,000
Alabama 433 Montana 372
Alaska 442 Nl'hraska 336
Arizo na :i60 Nl•vada 422
Arkansas :iH:i New Hampshire 403
California :i66 New Jersey 464
Colorado 282 New Mexico 37S
Con nect lrnt 4:i4 New York 329
Delawarl' 500 North Carolina 35S
Flmlda %7 North Dakota 408
( Jl'OJ'~lil 406 Ohio 463
llawall 371 Oklahoma 326
Idalio 307 Oregon 396
llllnols 402 Pennsylvania 442
Indiana 438 Rhode Island 445
lowa 377 South Carolina 418
Kansas 345 South Dakota 348
Kentucky 414 Tennessee 408
Louisiana 422 Texas 313
Maine 391 Utah 229
Maryland 491 Vermont 376
Massachusetts 443 Virginia 440
Michigan 4S4 Washington 364
Minnesota 366 West Virginia 409
Mississippi 438 Wisconsin 398
Missouri 390 Wyoming 238
Fuente: National Cancer lnstitute.

(a) Desarrolle la clasificación ordenada.


(b) Forme el diagrama de tallo y hojas.
3.7 Los siguientes datos representan el tipo (cremosa frente a espesa), calificación
(O= mala, 100 =excelente), costo (en centavos) y cantidad de sodio (en mg) de
una muestra de 37 marcas de mantequilla de cacahuate:

60 Capítulo l Presentación de datos numéricos en tablas y diagramas


Costo Sodio
Producto Tipo Calificación (~) (mg)
Jif Cremosa 68 22 220
Smucker's Natural Cremosa 65 27 15
Deaf Smith Arrowhead Milis Cremosa 62 32 o
Adams 100% Natural Cremosa 56 26 o
Adams Cremosa 56 26 168
Skippy Cremosa 56 19 225
Laura Scudder's Ali Natural Cremosa 53 26 165
Kroger Cremosa 50 14 240
Country Pure Brand (Safeway) Cremosa 50 21 225
NuMade (Safeway) Cremosa 45 20 187
Peter Pan Cremosa 44 21 225
Peter Pan Cremosa 41 22 3
A&P Cremosa 40 12 225
Hollywood Natural Cremosa 40 32 15
Food Club Cremosa 39 17 225
Pathmark Cremosa 36 9 255
Lady Lee (Lucky Stores) Cremosa 30 16 225
Albertsons Cremosa 30 17 225
Shur Fine (Shurfine Central Corp.) Cremosa 22 16 225
Smucker's Natural Espesa 80 27 15
Jif Espesa 75 23 162
Skippy Espesa 75 21 211
Adams 100% Natural Espesa 62 26 o
Deaf Smith Arrowhead Milis Espesa 62 32 o
Country Pure Brand (Safeway) Espesa 62 21 195
Laura Scudder's Ali Natural Espesa 56 24 165
Smucker's Natural Espesa 53 26 188
Food Club Espesa 52 17 195
Kroger Espesa 50 14 255
A&P Espesa 47 11 225
Peter Pan Espesa 47 22 180
NuMade (Safeway) Espesa 42 21 208
Health Valley 100% Natural Espesa 42 34 3
Lady Lee (Lucky Stores) Espesa 40 16 225
Albertsons Espesa 36 17 225
Pathmark Espesa 34 9 210
Shur Fine (Shurfine Central Corp.) Espesa 34 16 195
fuente: Copyright 1990 por Consumers Union of United States, !ne., Yonkers, N.Y. 10703. Adaptado con per-
miso de Consumer Reports, Septiembre de 1990. p. 590.
Para cada una de las tres variables (calificación, costo y sodio)
(a) Desarrolle la clasificación ordenada.
(b) Forme el diagrama de tallo y hojas.
3.8 Los siguientes datos representan la cantidad de tiempo (en segundos) para
llegar de O a 60 mph durante una prueba de caminos para una muestra de 22
modelos de automóviles alemanes y una muestra de 30 modelos de
automóviles japoneses:

Automóviles alemanes Automóviles japoneses


10.0 7.9 7.1 8.6 9.4 7.7 5.7 8.2 9.3
6.4 6.9 8.7 8.3 8.9 9.3 8.3 9.7 8.6
8.5 6.4 7.5 6.7 6.7 9.1 9.5 11.7 10.0
5.5 6.0 5.4 6.9 7.2 6.8 8.0 6.3 8.8
5.1 4.9 8.5 8.8 8.5 7.1 6.5 12.0 9.2
10.9 8.9 9.5 10.5 12.5 6.2 6.6
fuente: Datos extraídos de Road & Track, octubre de 1990, vol. 42, núm. 2, pág. 47.

Organización de datos numéricos: la clasificación ordenada y el diagrama de tallo y. hojas eI


(a) Desarrolle la clasificación ordenada.
(b) Forme el diagrama de tallo y hojas.
3.9 Los siguientes datos corresponden al costo por onza (en centavos) de muestras
aleatorias de 31 champús convencionales etiquetados para cabello "normal" y
29 champús convencionales etiquetados para cabello "delgado":

Cabello normal Cabello fino


79 63 19 9 37 69 9 23 22 8
49 20 16 SS 69 12 32 12 18 74
23 14 9 87 44 19 63 49 37 55
13 16 23 20 64 8S 44 87 17 11
28 18 32 81 8S 23 so 6S Sl 3S
47 50 8 13 21 14 20 28 8
9
Fuente : Copyright 1992 por Consumers Union of United States, Inc., Yonkers, N. Y. 10703.
Adaptado con permiso de Consumer Reports, junio de 1992, pp. 400-401.

(a) Desarrolle la clasificación ordenada para cada serie de datos.


(b) Forme el diagrama de tallo y hojas para cada serie de datos.

111 Tabulación de datos numéricos:


..:....... ·- .•. - . .,:.....~_,,., ,_.··:.o::-:.:~--·::·=:o:i.·•·.:;.o_::""".-.:.:·.:-_·'1-".•-. ·.-·.· •.• .•_.. ,~--.-

La distribución de frecuencia
Usando ya sea los datos sin procesar, la clasificación ordenada o el diagrama de
tallo y hojas revisado de las colegiaturas de residentes fuera del estado de 60 cole-
gios y universidades de Texas (véanse las tablas 3.1 y 3.2 de la página 55 y de la
figura :~.1 de la página 56), el analista investigador desea construir las tablas y dia-
gramas apropiados que amplíen el Informe que está preparando para el gerente de
mercadotl'cnla dl' la cornpaflía dl• servidos de asesoría colegial.
Sin Importar si Sl' sell•cdona una l'laslflcadón ordenada o un diagrama de tallo
y hojas para organizar los datos, al crecer el número de observaciones se hace nece-
sario condensar aún más los datos en tablas de resumen apropiadas_ Así pues, tal
vez deseemos ill'Omodar los datos en agrupamientos de clase (por ejemplo, cate-
gorías) de acuerdo rnn divisiones establecidas convenientemente del alcance de las
observaciones. Tal acomodo de los datos enJq.r,_:rn~.Ja_q:t:t!é!r~~.~-~en.p_m_igª ~I).a~:­
tribución de frecuencia .
• ;-..:.::..:-.:.~:-~· ; • ·- ·~ ......._ _ _ ,, ., •.•. , ......... , ••.• 11

Una distribución de frecuencia es .!J.OJL!ª.bl.q_.de.. re.sumen enJa.que_


los datos se disponen en agrupamientos o categorías convenientemente
esfüfüeddás 'de cfases-Oideñadas-riümérfr'."amente: _,.. ,.... , .. -.. '' . .. . .

Cuando las observaciones se agrupan o condensan en tablas de distribución de


frecuencia, el prQ<;:~so del análisis ~ interpretación de los ·d~tos
................. - se hi!.<;:_~ffi!!_<;:ho
.
más ~

manejable_y,5!g_gjfü;ativo. En esta forma resumida las características más impor-


tantes de los datos se aproximan muy fácilmente, compensando así el hecho de
que cuando los datos se agrupan de ese modo, la información inicial referente a Las
observaciones individuales de que antes se disponía se pierde a través del proceso
de agrupamiento o condensación.

62 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


Al construir la tabla de frecuencia-distribución, debe ponerse atención a
l. Seleccionar el número apropiado de agrupamientos de clase para 1a
tabla.
2. Obtener un intervalo o ancho de clase de cada agrupamiento de clase.
3,.Establecer los límites de cada agrupamiento de clase para evitar los
traslapes.

3.3.1 Selección del número de clases


El número de agrupamientos de clase por utilizar depende principalmente del
número de observaciones en los datos. Esto es, un número mayor de observaciones
requiere un número mayor de grupos de clase. En general, sin embargo, la dis-
tribución de frecuencia debe tener al menos cinco agrupamientos de clase, pero no
más de lS. Si no hay suficientes agrupamientos de clase o si hay demasiados, se
obtendrá poca información. Como ejemplo, una distribución de frecuencia que
sólo tiene un agrupamiento de clase que abarca todo el alcance de colegiaturas se
podría formar de la siguiente manera:

Colegiaturas Número de
(en $000) escuelas
2.0-13.0 60
Total 60

Sin embargo, de esta tabla de resumen no se obtiene información adicional


que no se conociera ya al examinar los datos sin procesar o la clasificación orde-
nada. Una tabla con demasiada concentración de datos no es significativa. Lo
mismo sería cierto en el otro extremo, si una tabla tuviera demasiados agru-
pamientos de clase, habría una subconcentración de datos, y se sabría muy poco.

3. 3 .2 Obtención de los intervalos de clase


Al desarrollar la tabla de distribución de frecuencia es deseable que el ancho de
cada agrupamiento de clase sea igual. Para determinar el ancho de cada clase, el
alcance de los datos se divide entre el número de agrupamientos de clase deseado:

rango
Ancho de intervalo (3.1)
número de agrupamiento de clase deseado

Puesto que sólo hay 60 observaciones en nuestros datos de colegiaturas, decidi-


rnos que seis agrupamientos de clase serán suficientes. De la clasificación orde-
nada de la tabla 3.2 (página SS), el alcance se calcula como 12.0 - 2.4 = 9.6 miles
de dólares y, usando la ecuación (3.1), el ancho del intervalo de clase se aproxima
mediante

Ancho de intervalo _ 9 ·6 = 1.6 miles de dólares


6

l'or conveniencia y facilidad de lectura, el intervalo seleccionado o ancho de cada


agrupamiento de clase se redondea a 2.0 miles de dólares.

Tabulación de datos numéricos: La distribución de frecuencia el


3. 3. 3 Establecimiento de los límites de las clases
Para construir la tabla de distribución de frecuencia, es necesario establecer clara-
mente límites de clase definidos para cada agrupamiento de clase de manera que
las observaciones, ya sea en forma sin procesar o en una clasificación ordenada, se
registren apropiadamente. Debe evitarse el traslape de clases.
Puesto que el ancho de cada intervalo de clase para los datos de colegiatura se
estableció en 2.0 dólares, los límites de los diversos agrupamientos de clase deben
establecerse de manera que incluyan todo el alcance de observaciones. Siempre
que sea posible, estos límites deben elegirse para que faciliten la lectura e inter-
pretación de los datos. De esta forma, el primer intervalo de clase se establece desde
2.0 hasta abajo de 4.0, el segundo de 4.0 a abajo de 6.0, etc. Los datos sin procesar
(tabla 3.1) o de la clasificación ordenada (tabla 3.2) se registran entonces en cada
clase según se muestra:

Colegiaturas
(en $000) Registros Frecuencia
2.0 pero menor que 4.0 .¡..¡..¡..¡..¡..¡..¡..¡.111 13
4.0 pero menor que 6.0 .¡..¡..¡..¡. .¡..¡..¡..¡. .¡..¡..¡..¡. .¡..¡..¡..¡.1111 24
6.0 pero menor que 8.0 .¡..¡..¡..¡.1111 9
8.0 pero menor que 10.0 .¡..¡..¡..¡.111 8
10.0 pero menor que 12.0 .¡..¡..¡..¡. 5
12.0 pero menor que 14.0 I t
Total 60

Estableciendo los límites de cada clase de esta manera, las 60 observaciones se han
registrado en seis clases, cada una con un ancho de intervalo de 2.0 miles de dólares,
sin traslape. De esta "hoja de trabajo" la distribución de frecuencia se presenta en
la tabla 3.3.

Tabla 3.3 Distribución de frecuencia


de colegiaturas de
60 escuelas de Texas.
Colegiaturas Número de
(en $000) escuelas
2.0 pero menor que 4.0 13
4.0 pero menor que 6.0 24
6.0 pero menor que 8.0 9
8.0 pero menor que 10.0 8
10.0 pero menor que 12.0 5
12.0 pero menor que 14.0 1
Total 60
Fuente: Los datos fueron tomados de la tabla 3.1 de
la página 55.

La principal ventaja de usar una de estas tablas de resumen es que las princi-
pales características de los datos se hacen evidentes inmediatamente para el lector.
Por ejemplo, de la tabla 3.3 vemos que el alcance aproximado de las 60 colegiaturas
va de 2.0 a 14.0 miles de dólares, en la enseñanz¡i. fuera del estado, en la mayoría
de las escuelas de Texas tendiendo a agruparse entre 4.0 y 6.0 miles de dólares.

64 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


Otras mediciones descriptivas que se obtienen de los datos agrupados se presen-
tarán en la sección 4.9.
Por otra parte, la principal desventaja de tal tabla de resumen es que no po-
demos saber cómo se distribuyen los valores illdividuales dentro de un intervalo
de clase particular sin tener acceso a los datos originales. Por lo' tanto, para las cinco
escuelas con colegiaturas para residentes fuera del estado de entre 10.0 y 12.0 miles
de dólares, no resulta claro de la tabla 3.3 si los valores se distribuyen a lo largo de
todo el intervalo, si están cerca de los 10.0 miles de miles de dólares o si están cerca
de los 12.0 mil dólares. El punto medio de la clase, sin embargo, es el valor usado
para representar todos los datos resumidos en un intervalo particular.
El punto medio de una clase (o marca de clase) es el punto a la mitad
de los límites de cada clase y es representativo de los datos de esa clase.
El punto medio de la clase para el intervalo "2.0 pero menor que 4.0" es 3.0 miles
de dólares. (Los otros punto medios son, respectivamente, 5.0, 7.O, 9 .O, 11.0 y 13.0
miles de dólares).

J.J.4 Subjetividad en la selección de límites de clase


La selección de límites de clase para tablas de distribución de frecuencia es alta-
mente subjetiva. De esta forma, para series de datos que no contienen muchas
observaciones, la opción de un conjunto particular de límites de clase sobre otro
puede producir una imagen completamente distinta para el lector. Por ejemplo,
para los datos de colegiaturas, si se usa un ancho de intervalo de clase de 2.5 miles
de dólares en vez de 2.0 (como se usó en la tabla 3.3) se pueden ocasionar cambios
en la forma en que se distribuyen las observaciones entre las clases. Esto es partic-
ularmente cierto si el número de observaciones en la serie no es muy grande.
Sin embargo, tales cambios en la concentración de datos no ocurren sólo
porque el ancho del intervalo de clase se altere. Podemos mantener el ancho del
intervalo en 2.0 miles de dólares pero elegir distintos límites de clase inferiores y
superiores. Tal manipulación también puede ocasionar cambios en la forma en que
los datos se distribuyen, especialmente si el tamaño de la serie no es muy grande.
Afortunadamente, al incrementarse el número de observaciones en una serie, las
alteraciones en la selección de los límites de clase afectan la concentración de los
datos cada vez menos.

Problemas de la sección 3.3


3.10 Una muestra aleatoria de 50 vicepresidentes ejecutivos se seleccionó de entre
las diversas compafiías de relaciones públicas de Estados Unidos, y se
obtuvieron los sueldos anuales de los funcionarios de estas compafiías. Los
sueldos variaron de $52,000 a $137,000. Establezca los límites de clase para
una distribución de frecuencia
(a) si se desean 5 intervalos de clase.
(b) si se desean 6 intervalos de clase.
(c) si se desean 7 intervalos de clase.
(d) si se desean 8 intervalos de clase.
3.11 Si el precio inicial de apartamentos en cooperativa y en condominio de
una recámara en Queens, un barrio de Nueva York, varía entre $103,000 y
$295,000
(a) indique los límites de clase de 10 clases en las que estos valores pueden
agruparse.
(b) ¿Qué ancho de intervalo de clase eligió?
(c) ¿Cuáles son los 10 puntos medios de clase?

Tabulación de datos numéricos: La distribución de frecuencia 65


• 3.12 Los datos sin procesar mostrados a continuación son los cobros por electricidad
y gas durante el mes de julio de 1993 para una muestra aleatoria de 50
apartamentos de tres recámaras en Manhattan:

Datos sin procesar de cobros de servicios públicos($)


96 171 202 178 147 102 153 197 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158

(a) Forme una distribución de frecuencia


(1) con 5 intervalos de clase.
(2) con 6 intervalos de clase.
(3) con 7 intervalos de clase.
[Sugerencia: Como ayuda para decidir cómo establecer mejor los límites de
clase, primero debe disponer los datos sin procesar en un diagrama de
tallo y hojas (haciendo que las hojas sean los dígitos rastreros) o en una
clasificación ordenada.]
(b) Forme una distribución de frecuencia con siete intervalos de clase con los
siguientes límites de clase: $80 pero menos de $100, $100 pero menos de
$120, etcétera.
3.13 Construya una distribución de frecuencia de los datos de las regaderas del
problema 3.3 de las páginas 58-59.
e 3.14 Construya una distribución de frecuencia de los datos de valores en libros del
problema 3.5 de la página 60.
3.15 Construya una distribución de frecuencia de los datos de la incidencia de
cáncer del problema 3.6 de la página 60.
3.16 Construya distribuciones de frecuencia separadas para cada una de las tres
variables numéricas (calificación, costo y sodio) de los datos de la mantequilla
de cacahuate del problema 3. 7 de las páginas 60-61.
3.17 Construya distribuciones de frecuencia separadas para los tiempos de
aceleración de los automóviles alemanes frente a los japoneses del problema
3.8 de la página 61.
3.18 Dadas las clasificaciones ordenadas de la siguiente tabla que tiene que ver con
la duración (en horas) de una muestra de cuarenta focos de 100 watts
producidos por el fabricante A y una muestra de cuarenta focos de 100 watts
elaborados por el fabricante B:

Clasificaciones ordenadas de la duración de dos marcas


de focos de 100 watts (en horas)
Fabricante A

684 697 720 773 821


831 835 848 852 852
859 860 868 870 876
893 899 905 909 911
922 924 926 926 938
939 943 946 954 971
972 977 984 1005 1014
1016 1041 1052 1080 1093

ee CaDítulo 3 Presentación de datos numéricos en tablas y dia2ramas


Fabricante B
819 836 888 897 903
907 912 918 942 943
952 959 962 986 992
994 1004 1005 1007 1015
1016 1018 1020 1022 1034
1038 1072 1077 1077 1082
1096 1100 1113 1113 1116
1153 1154 1174 1188 1230

(a) Forme la distribución de frecuencia para cada marca. (Sugerencia: para


propósitos de comparación, elija anchos de intervalos de clase de $100
para cada distribución.)
(b) Con el fin de responder los problemas 3.25, 3.32 y 3.40, forme la
distribución de frecuencia para cada marca de acuerdo con el siguiente
esquema [si no lo ha hecho ya en la parte (a) de este problema]:
Fabricante A: 650 pero menos que 750, 750 pero menos que 850,
etcétera
Fabricante B: 750 pero menos que 850, 850 pero menos que 950,
etcétera.

181 Tabulación de datos numéricos:


la distribuciqn_.º-~--fr~~!!~'l~lª__r~l_ª~Jva y
distribución del porcentaje
La distribución de frecuencia es una tabla de resumen en la que los datos originales
se condensan o agrupan para facilitar el análisis de datos. Sin embargo, para
ampliar el análisis, casi siempre es deseable formar la distribución de frecuencia re-
lativa o la distribución de porcentaje, dependiendo de sí preferimos proporciones
o porcentajes. Estas dos distribuciones equivalentes se muestran en las tabla 3.4 y
3.5, respectivamente.

Tabla 3.4 Distribución de frecuencia relativa


de colegiaturas a residentes fuera
del estado en 60 escuelas de Texas.
Colegiaturas Proporción
(en $000) de escuelas

2.0 pero menos que 4.0 .217


4.0 pero menos que 6.0 .400
6.0 pero menos que 8.0 .150
8.0 pero menos que 10.0 .133
10.0 pero menos que 12.0 .083
12.0 pero menos que 14.0 .017
Total 1.000
Fuente: Los datos fueron tomados de la tabla 3.3
de la página 64.

Tabulación de datos numéricos: la distribución de frecuencia relativa y distribución del porcentalt e7


Tabla 3.S Distribución de porcentaje
de colegiaturas a residentes
fuera del estado en 60 escuelas
de Texas.
Colegiaturas Porcentaje de
(en $000) escuelas
2.0 pero menor que 4.0 21.7
4.0 pero menor que 6.0 40.0
6.0 pero menor que 8.0 15.0
8.0 pero menor que 10.0 13.3
10.0 pero menor que 12.0 8.3
12.0 pero menor que 14.0 1.7
Total 100.0
Fuente: Los datos fueron tomados de la tabla 3.3 de la
página 64.

La distribución de frecuencia relativa descrita en la tabla 3.4 de la página


67 se forma dividiendo las frecuencias de cada clase de distribución de frecuencia
(tabla 3.3 en la página 64) entre el número total de observaciones. Entonces puede
formarse una distribución de porcentaje (tabla 3.5) multiplicando cada fre-
cuencia relativa o proporción entre 100.0. Por lo tanto, de la tabla 3.4 resulta claro
que la proporción de escuelas en Texas con colegiaturas de residentes fuera del
estado de 12.0 pero menos que 14.0 miles de dólares es .017, mientras que en la
tabla 3.5 se ve que 1.7% de las escuelas tiene tales colegiaturas.
Generalmente es más significativo trabajar con una base de 1 para propor-
ciones o de 100.0 para porcentajes que usar las frecuencias mismas. De hecho, el
uso de la distribución de frecuencia relativa o de la distribución de porcentaje se
vuelve esencial siempre que una serie de datos se compara con otras series de datos,
especialmente si difiere el número de observaciones en cada serie de datos.
Como ejemplo, supongamos que un psicólogo industrial deseaba comparar el
ausentismo diario entre los empleados de oficina de dos tiendas departamentales.
Si, en un dia dado, seis empleados de 50 de la tienda A se ausentan y tres emplea-
dos de 10, de la tienda B se ausentan, ¿qué conclusiones podemos sacar? Es
inapropiado decir que ocurrió más ausentismo en la tienda A. Aunque hemos
observado que en la tienda A hubo el doble de ausencias que en la tienda B, tam-
bién habia cinco veces más empleados que en la tienda A. Por lo tanto, en estos
tipos de comparaciones, debemos formular nuestras conclusiones a partir de los
cocientes relativos de ausentismo, no de los conteos reales. Así pues, puede estable-
cerse que el cociente de ausentismo es dos veces y media mayor en la tienda B
(30.0%) que en la tienda A (12.0%).
Ahora suponga, al desarrollar su informe para el gerente de mercadeo de la
compañía de servicios de consultoría colegial, que el analista investigador deseaba
comparar las colegiaturas de residentes fuera del estado de las 60 escuelas de Texas
con las reportadas de 45 instituciones de educación superior del estado de
Carolina del Norte. La tabla 3.6 muestra información sobre la colegiatura de resi-
dentes fuera del estado por cada uno de los 45 colegios y universidades de Carolina
del Norte (véase el Conjunto de datos especiales 1 del apéndice D de la página
D3).
Para comparar las colegiaturas de las 60 instituciones de Texas con las de las 45
escuelas de Carolina del Norte, desarrollamos una distribución de porcentaje para
este último grupo. Esta nueva tabla se comparará entonces con la tabla 3.5.

68 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


Tabla 3.6 Datos sin procesar referentes a colegiaturas (en $000) para residentes
fuera del estado en 45 colegios y universidades de Carolina del Norte.
6.5 4.0 7.1 8.3 5.4 7.6 9.0 15.7 16.7
6.4 5.0 8.5 5.7 7.7 7.2 12.4 7.1 5.5
9.7 4.4 7.0 6.3 8.3 6.9 5.7 7.6 7.9
7.9 6.0 8.2 10.4 9.9 3.9 9.8 8.2 5.6
7.9 6.4 7.4 7.0 13.0 8.7 6.4 6.7 7.4
Fuente: Véase Conjunto de datos especiales 1, apéndice D, página D3, tomado de "America's Best Colleges,
1994 College Guide", U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass.
Reimpresión con permiso especial, U.S. News & World Report, © 1993 por U.S. News & World Report
y por College Counsel.

La tabla 3.7 describe tanto la distribución de frecuencia como la distribución


de porcentaje de las colegiaturas cobradas a residentes fuera del estado por las 45
escuelas de Carolina del Norte. Esta tabla se ha construido en lugar de las dos tablas
separadas para ahorrar espacio. Observe que los agrupamientos de clase selecciona-
dos en la tabla 3.7 concuerdan, donde es posible, con aquellos seleccionados en la
tabla 3.3 para las escuelas de Texas. Los límites de las clases deberían concordar o
ser múltiplos entre sí con el fin de facilitar las comparaciones.

Tabla :1.7 Distribución de frecuencia y distribución


de porcentaje de las colegiaturas para
residentes fuera del estado en 45 escuelas
de Carolina del Norte.
Colegiaturas Número de Porcentaje de
(en $000) escuelas escuelas
2.0 pero menor que 4.0 1 2.2
4.0 pero menor que 6.0 8 17.8
6.0 pero menor que 8.0 21 . 46.7
8.0 pero menor que 10.0 10 22.2
10.0 pero menor que 12.0 1 2.2
12.o·pero menor que 14.0 2 4.4
14.0 pero menor que 16.0 1 2.2
16.0 pero menor que 18.0 1 2.2
Total 45 99.9*
* Error debido a redondeo.
Fuente: Los datos fueron tomados de la tabla 3.6.

Usando las distribuciones de porcentaje de las tablas 3.5 y 3.7, ahora resulta sig-
nificativo comparar las escuelas de los dos estados en términos de las colegiaturas
cobradas a residentes fuera del estado. De las dos tablas resulta evidente que las cole-
giaturas generalmente son menores en Texas que en Carolina del Norte. Por ejemplo,
en Texas las colegiaturas por lo general se agrupan entre 4.0 y 6.0 miles de dólares
(es decir, 40.0% de las escuelas), mientras que en Carolina del Norte las colegiatu-
ras por lo general se agrupan entre 6.0 y 8.0 miles de dólares (es decir, 46.7% de las
escuelas). Además, podemos observar que los alcances en las colegiaturas pueden
aproximarse fácilmente a partir de las tablas. En Carolina del Norte, el alcance en las
colegiaturas es aproximadamente 16.0 miles de dólares (es decir, la diferencia entre
18.0, el límite superior de la última clase, y 2.0, el límite inferior de la primera clase),
mientras que en Texas el alcance es aproximadamente 12.0 miles de dólares (es decir,
14.0- 2.0). En el capítulo 4 se analizarán otras mediciones de resumen que amplia-
rán un análisis comparativo de las colegiaturas entre los dos estados.

Tabulación de datos numéricos: la distribución de frecuencia relativa y distribución del porcentaje 69


Problemas de la sección 3.4
e 3.19 Forme la distribución de porcentaje de la distribución de frecuencia
desarrollada en el problema 3.12(b) de la página 66 respecto a los cobros de
servicios públicos.
3.20 Forme la distribución de porcentaje de la distribución de frecuencia
desarrollada en el problema 3.13 de la página 66 respecto a las regaderas.
e 3.21 Forme la distribución de porcentaje de la distribución de frecuencia desarro-
llada en el problema 3.14 de la página 66 respecto a los valores en libros de
compañías enumeradas en el NYSE.
3.22 Forme la distribución de porcentaje de la distribución de frecuencia
desarrollada en el problema 3.15 de la página 66 respecto a la incidencia de
cáncer.
3.23 Forme las distribuciones de porcentaje correspondiente a las distribuciones de
frecuencia para cada una de las tres variables numéricas (calificación, costo y
sodio) desarrolladas en el problema 3.16 de la página 66 respecto a las
características de la mantequilla de cacahuate.
3.24 Forme las distribuciones de porcentaje de las distribuciones de frecuencia
desarrolladas en el problema 3.17 de la página 66 respecto a los tiempos de
aceleración de los automóviles alemanes y japoneses.
3.25 Forme las distribuciones de porcentaje de las distribuciones de frecuencia
desarrolladas en el problema 3.18 de la página 66 respecto a la duración de los
focos fabricados por las dos compañías competidoras A y B.

111 Graficación de datos numéricos:


el histograma y el polígono
A menudo se din.• que "una imagen vale más que mil palabras". De hecho, los
estadísticos han <.'tnplcado las técnicas gráficas para describir de manera más vívida
scrks d<.• datos. En particular, los histogramas y los polígonos se usan para describir
datos num(•rlcos que han sido agrupados en distribuciones de frecuencia, de fre-
cuencia rl'l<1tlva o de porcentaje.

3.S.I Histogramas
Los histogramas son diagramas de barras verticales en los que se cons-
truyen barras rectangulares en los límites de cada clase.
Al graficar histogramas, la variable aleatoria o fenómeno de interés se despliega a
lo largo del eje horizontal; el eje vertical representa el número, proporción o por-
centaje de observaciones por intervalo de clase, dependiendo de si el histograma
particular es, respectivamente, un histograma de frecuencia, un histograma de fre-
cuencia relativa o un histograma de porcentaje.

Etiqueta del eje vertical < > Tipo de diagrama


Número de observaciones < > Histograma o polígono de frecuencia
Porporción de observaciones ~ ~ Histograma o polígono de frecuencia
relativa
Porcentaje de observaciones ~ ~ Histograma o polígono de porcentaje

70 Capítulo J Presentación de datos numéricos en tablas y diagramas


45 ~

40

35
-- 40.0

(/)
ca
Qi
;:¡
o(/)
30 -
Ql
Ql
"O
25 - 21.7

N
Ql

e:
20 -
Ql
eo 15 - 15.0
13.3
c..
10 - 8.3

5 -
1.7 Figura 3.S
o .· 1 1
Histograma de porcentaje de
o 2 4 6 8 10 12 14 16 colegiaturas de residentes fuera del
Colegiaturas (en $000) estado en 60 escuelas de Texas.
Fuente: Los datos fueron tomados de la
tabla 3.5.

Un histograma de frecuencia se describe en la figura 3.5 para las cole-


giaturas a residentes fuera del estado en los 60 colegios y universidades de
Texas.
Es interesante observar la estrecha relación visual retratada por el diagrama de .
tallo y hojas y el histograma. Observe la figura 3.4 de la página 58 y nuestro his-
tograma de la figura 3.5. Si tuviéramos que rotar el diagrama de tallo y hojas 90º
(es decir, sostener nuestro libro de costado) se describiría un histograma de fre-
cuencia de manera tal que sus agrupamientos de clase estarían representados por
los tallos y sus barras verticales estarían representadas por las hojas individuales de
cada tallo.
Al comparar dos o más series de datos, ni los diagramas de tallo y hojas ni los
histogramas puede construirse en la misma gráfica. Con respecto a estos últimos,
la sobreposición de las barras verticales de uno en el otro ocasionaría dificultades
de interpretación. En tales casos es necesario construir polígonos de frecuencia re-
lativa o de porcentaje.

3.S.2 Polígonos
Al igual que con los histogramas, al graficar polígonos el fenómeno de interés se
despliega a lo largo del eje horizontal y el eje vertical representa el número, pro-
porción o porcentaje de observaciones por intervalo de clase.
El polígono de porcentaje se forma permitiendo que el punto medio
de cada clase represente los datos de esa clase y luego conectando la
sucesión de puntos medios con sus respectivos porcentajes de clase.
Debido a que los puntos medios consecutivos son conectados por una serie de
líneas rectas, el polígono algunas veces está dentado en apariencia. Sin embargo,
al tratar con una serie de datos muy grande, si tuviéramos que crear los límites de
las clases en su distribución de frecuencia más juntos (incrementando así el
número de clases en esa distribución), las líneas dentadas del polígono se
"suavizarían".

Graficación de datos numéricos: el histograma y el pollgono 71


45

40 .
I \
35 I \
"'cu
a¡ I \
::::J 30
o
1/)
CD
CD 25
.,·' ''
"'O .1 '
CD f#:
'
·--.. -
20
~CD I
eo 15 I '
a.. I
10
I
I
''
Figura J.6
Polígono de porcentaje de colegiaturas
5
I
I
' ' 'e.
de residentes fuera del estado en 60 o
escuelas de Texas. o 2 4 8 10 12 14. 16
Fuente: Los datos fueron tomados de la
tabla 3.5. ·:Colegiaturas (en $000}

Figura J.7
Polígonos de porcentaje de colegiaturas de residentes fuera del estado
en 60 escuelas de Texas y 45 escuelas de Carolina del Norte.
Fuente: Los datos fueron tomados de las tablas 3.5 y 3. 7.

La figura 3.6 muestra el polígono de porcentaje para las colegiaturas a resi-


dentes fuera del estado de las 60 escuelas de Texas y la figura 3.7 compara los polí-
gonos de porcentaje para las colegiaturas de las 60 escuelas de Texas con las 45
escuelas de Carolina del Norte. Las diferencias en la estructura de las dos distribu-

72 Capítulo J Presentación de datos numéricos en tablas y diagramas


ciones, anteriormente analizada al comparar las tablas 3.5 y 3.7, se indican clara-
mente aquí.

• Construcción del polígono Observe que el polígono es una repre-


sentación de la forma de la distribución particular. Puesto que el área bajo la dis-
tribución de porcentaje (curva entera) debe ser 100%, es necesario conectar el
primero y el último puntos con el eje ,horizontal para rodear el área de la distribu-
ción observada. En la figura 3.6 esto se hace conectando el primer punto medio
observado con el punto medio de una clase "precedente ficticia" (esto es, 1.0 miles
de dólares) teniendo 0.0% observaciones y conectando el último punto medio
observado con el punto medio de una clase "sucesora ficticia" (esto es, 15.0 miles
de dólares) teniendo 0.0% observaciones.
Observe también que cuando se construyen los polígonos (figura 3.6) o los his-
togramas (figura 3.5), el eje vertical debe mostrar el verdadero cero u "origen" para
no distorsionar o malinterpretar el carácter de los datos. Sin embargo, el eje hori-
zontal no necesita especificar el punto cero para el fenómeno de interés. Por
razones estéticas, el alcance de la variable aleatoria debe constituir la principal por-
ción del diagrama y, cuando no se incluye el cero, son apropiadas las "rupturas"·
.....11(- en el eje.

Problemas de la sección 3.5 ·


3.26 De la distribución de porcentaje desarrollada en el problema 3.19 de la página
70 respecto a los cobros de servicios públicos
(a) grafique el histograma de porcentaje.
(b) grafique el polígono de porcentaje.
3.27 De la distribución de porcentaje desarrollada en el problema 3.20 de la página
70 respecto a las regaderas
(a) grafique el histograma de porcentaje.
(b) grafique el polígono de porcentaje.
3.28 De la distribución de porcentaje desarrollada en el problema 3.21 de la página
70 respecto a los valores en libros de compañías enumeradas en el NYSE
(a) grafique el histograma de porcentaje.
(b) grafique el polígono de porcentaje.
3.29 De la distribución de porcentaje desarrollada en el problema 3.22 de la página
70 respecto a la incidencia de cáncer
(a) grafique el histograma de porcentaje respectivo.
(b) grafique el polígono de porcentaje respectivo.
3.30 De las distribuciones de porcentaje desarrolladas en el problema 3.23 de la
página 70 para cada una de las tres variables numéricas (calificación, costo y
sodio) respecto a las características de la mantequílla de cacahuate
(a) grafique el histograma de porcentaje respectivo.
(b) grafique el polígono de porcentaje respectivo.
3.31 De las distribuciones de porcentaje desarrolladas en el problema 3.24 de la
página 70 para cada una de las tres variables numéricas (calificación, costo y
sodio) respecto a los tiempos de aceleración de los automóviles alemanes y
japoneses
(a) grafique los histogramas de porcentaje en gráficas separadas.
(b) grafique los polígonos de porcentaje en una gráfica.
3.32 De las distribuciones de porcentaje desarrolladas en el problema 3.25 de la
página 70 respecto a la duración de focos
(a) Grafique los histogramas de porcentaje en gráficas separadas.
(b) Grafique los polígonos de porcentaje en una gráfica.

Graficación de datos numéricos: el histograma y el polígono 73


11.j Distribuciones acumulativas
y polígonos acumulativos
Los otros dos métodos útiles de representación de datos que facilitan el análisis y
la interpretación son las tablas de distribución acumulativa y los diagramas de polí-
gonos acumulativos. Éstos pueden desarrollarse a partir de la tabla de distribución
de frecuencia, de la tabla de distribución de frecuencia relativa y de la tabla de dis-
tribución de porcentaje.

3 .6. 1 La distribución de porcentaje acumulativa


Dependiendo de nuestra preferencia individual por proporciones o porcentajes, al
comparar dos o más series de datos de distinto tamaño, seleccionamos ya sea la dis-
tribución de frecuencia relativa o la distribución de porcentaje. Puesto que ya te-
nemos las distribuciones de porcentaje de las colegiaturas a residentes fuera del
estado de las 60 escuelas de Texas y de las 45 de Carolina del Norte en las tablas 3.5
y 3.7 (páginas 68 y 69), podemos usar estas tablas para construir las distribuciones
de porcentaje acumulativas respectivas. Véanse las tablas 3.8 y 3.9.

Tabla 3.8 Distribución de porcentaje acumulativo


de las colegiaturas para residentes
fuera del estado en 60 escuelas de
Texas.
Colegiaturas Porcentaje de escuelas
(en $000) "menor que" valor indicado
2.0 o.o
4.0 21.7
6.0 61.7
8.0 76.7
10.0 90.0
12.0 98.3
14.0 100.0
Fuente: Los datos fueron tomados de la tabla 3.5.

Tabla 3.9 Distribución de porcentaje acumulativo


de las colegiaturas para residentes
fuera del estado en 45 escuelas de
Carolina del Norte.
Colegiaturas Porcentaje de escuelas
(en $000) "menor que" valor indicado
2.0 o.o
4.0 2.2
6.0 20.0
8.0 66.7
10.0 88.9
12.0 91.1
14.0 95.6
16.0 97.8
18.0 100.0
Fuente: Los datos fueron tomados de la tabla 3.7.

74 Capítulo J Presentación de datos numéricos en.tablas y diagramas


Una tabla de distribución de porcentaje acumulativo se construye
registrando primero los límites inferiores de cada clase a partir de la distribución
de porcentaje y luego insertando un límite extra al final. Calculamos los por-
centajes acumulativos en la columna "menor que" determinando el porcentaje de
observaciones menores que de cada uno de los valores de los límites establecidos.
Así, en la tabla 3.5 vemos que 0.0% de las colegiaturas a residentes fuera del estado
de las instituciones de Texas son inferiores a 2.0 miles de dólares; 21.7% de las
colegiaturas son inferiores a 4.0 miles de dólares; 61.7% de las colegiaturas son
Inferiores a 6.0 miles de dólares, y así sucesivamente hasta que todas (100.0%) las
colegiaturas son inferiores a 14.0 miles de dólares. Este proceso acumulativo se
observa fácilmente en la tabla 3.10.

Tabla 3.1 O Formación de la distribución de porcentaje acumulativo.


De la tabla 3.5 De la tabla 3.8
Porcentaje de Porcentaje de escuelas
Colegiaturas escuelas en de límite inferior "menor que"
(en $000) intervalo de clase de intervalo de clase
2.0 pero menor que 4.0 21.7 o.o
4.0 pero menor que 6.0 40.0 21.7
6.0 pero menor que 8.0 15.0 61.7 =21.7 + 40.0
8.0 pero menor que 10.0 13.3 76.7 =21.7 + 40.0 + 15.0
10.0 pero menor que 12.0 8.3 90.0 ~ 21.7 + 40.0 + 15.0 + 13.3
12.0 pero menor que 14.0 1.7 98.3 =21.7 + 40.0 + 15.0 + 13.3 + 8.3
14.0 pero menor que 16.0 o.o 100.0 =21.7 + 40.0 + 15.0 + 13.3 + 8.3 + 1.7

3 .6.l Polígono de porcentaje acumulativo


Para construir un polígono de porcentaje acumulativo (también conocido
como ojiva), observamos que el fenómeno de interés, las colegiaturas, nueva-
mente se grafica en el eje horizontal, mientras que los porcentajes acumulativos
(de la columna "menor que") se grafican en el eje vertical. En cada límite inferior,
graficamos el valor de porcentaje (acumulativo) correspondiente del listado de la
distribución de porcentaje acumulativo. Entonces conectamos estos puntos con
una serie de segmentos de líneas rectas.
La figura 3.8 de la página 76 ilustra el polígono de porcentaje acumulativo de
las colegiaturas a residentes fuera del estado de las 60 escuelas de Texas. La princi-
pal ventaja de la ojiva sobre otros diagramas es la facilidad con que podemos inter-
polar entre los puntos graficados.

• Aproximación de porcentajes Como un ejemplo, el analista investi-


gador de la compañía de servicios de asesoría colegial podría desear aproximar el
porcentaje de colegios y universidades que cobran una colegiatura por debajo de
una cantidad especificada, digamos 7.O miles de dólares. Para hacer esto, se pro-
yecta una línea vertical hacia arriba en 7.0 hasta que interseca la curva "menor
que". El porcentaje deseado se aproxima entonces leyendo horizontalmente
desde el punto de intersección hasta el porcentaje indicado en el eje vertical. En
este caso, aproximadamente 69.2% de las escuelas de Texas tienen colegiaturas
por debajo de 7.0 miles de dólares. (Esto, claro está, implica que aproximada-
mente 30.8% de las escuelas tienen colegiaturas de al menos 7.O miles de
dólares.)

• Aproximación de valores Aún más importante, al preparar su informe


para el gerente de mercadeo de la compañía de servicios de asesoría colegial, el

Distribuciones acumulativas y polígonos acumulativos 7S


100
90
80
m
Qj 70
:::J
&l 60
. CD
CD
'C
CD 50
$e 40 .'i.li
CD
!:!
o
a.. 30 ' 'I
. ,.,,...

.,,,
20 ·-·~·,.,
"' .
10 •'.:''
._,. ! .::; ~ ~... , ··~·, '·

o
o 2 ~·,, 6 8 10 12 14 16 18 20
'•\~· .. '1 '.·
Colegiaturas (en $000)

Figura 3.8
Polígono de porcentaje acumulativo de colegiaturas de
residentes fuera del estado en 60 escuelas de Texas.
Fuente: Los datos fueron tomados de la tabla 3.8

analista investigador tal vez desee también aproximar diversas colegiaturas que
correspondan a porcentajes acumulativos particulares. Por ejemplo, ¿25% de
to.das las escuelas de Texas tienen colegiaturas por debajo de esa cantidad? Para
determinar esto, se dibuja una línea horizontal desde el punto de porcentaje acu-
mulativo especificado (25.0) hasta que interseca la curva "menor que". La colegia-
tura qeseada se aproxima entonces bajando una perpendicular (una línea vertical)
en el punto de intersección hacia el eje horizontal. De la figura 3.8, observamos
que esta colegiatura es aproximadamente 4.2 miles de dólares. Otros puntos de
porcentaje comúnmente considerados para tal análisis (véase el capítulo 4) son el
valor de 50.0% y el de 75.0%.

• Comparación de dos o más distribuciones acumulativas Aproxima-


ciones como éstas son extremadamente útiles al comparar dos o más series de
datos. La figura 3.9 de la página 77 describe los polígonos de porcentaje acumula-
tivo de las colegiaturas a residentes fuera del estado tanto para las 60 escuelas de
Texas como para las 45 de Carolina del Norte.
De la figura 3.9 observamos que en general la ojiva de Texas se traza a la
izquierda de la ojiva de Carolina del Norte. Por ejemplo, en Texas 25% de todas las
colegiaturas son inferiores a 4.3 miles de dólares, mientras que en Carolina del
Norte vemos que 25% de todas las colegiaturas son inferiores a 6.1 miles de dólares.
Además, en Texas 50% de todas las colegiaturas son inferiores a 5.4 miles de
dólares, mientras que en Carolina del Norte 50% de todas las colegiaturas son infe-
riores a 7.2 miles de dólares. Adicionalmente, en Texas 75% de todas las colegiaturas
son inferiores a 7.7 miles de dólares, mientras que en Carolina del Norte vemos que
75% de todas las colegiaturas son inferiores a 8.7 miles de dólares. Estas compara-
ciones nos permiten confirman nuestra anterior impresión de que las colegiaturas
son menores en Texas que en Carolina del Norte.

76 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


100

90 ,. ---:
4!-- ...-- --- - --..
... .• ... ;.. 1

,,
60 escuelas de Texas /'
C/l
ca
Qi
::i
80

70
\ '/
/,/
o
C/l
CD
CD
"C
60
f I
l
50
I I
~
CD

CD
40 I ,......__
I

~ ,' 45 escuelas de Carolina del Norte


I

,,, ,,.
o
a. 30 I
20
/ ' I
10 /
o
o 2 4 6 8 10 12 14 16 18 20
Colegiaturas (en $000)

Figura J.S>
Polígonos de porcentaje acumulativo de colegiaturas de residentes fuera del estado en 60 escuelas
de Texas y 45 escuelas de Carolina del Norte.
Fuente: Los datos fueron tomados de las tablas 3.5 y 3.7.

Problemas de la sección 3.6


3.33 Examine la figura 3.9.
(a) ¿10.0% de las colegiaturas a residentes fuera del estado en cada estado
están por debajo de qué cantidades?
(b) ¿40.0% de las colegiaturas a residentes fuera del estado en cada estado
están por debajo de qué cantidades?
(c) ¿60.0% de las colegiaturas a residentes fuera del estado en cada estado
están por debajo de qué cantidades?
(d) ¿90.0% de las colegiaturas a residéntes fuera del estado en cada estado
están por debajo de qué cantidades?
(e) ¿Qué porcentaje de las colegiaturas a residentes fuera del estado en cada
estado están por debajo de 5.0 dólares?
(f) ¿Qué porcentaje de las colegiaturas a residentes fuera del estado en cada
estado están por debajo de 11.0 dólares?
(g) Discuta sus hallazgos.
(h) ¿Cómo podría ser de utilidad su información para el analista investigador.
de la compañía de servicios de asesoría colegial? Analice.
• 3.34 De la distribución de frecuencia desarrollada en el problema 3.12(b) de la
página 66 referente a los cobros de servicios públicos
(a) Forme la distribución de frecuencia acumulativa.
(b) Forme la distribución de porcentaje acumulativo.
(c) Grafique la ojiva (polígono de porcentaje acumulativo).
3.35 De la distribución de frecuencia desarrollada en el problema 3.13 de la página
66 referente a las regaderas
(a) Forme la distribución de frecuencia acumulativa.
(b) Forme la distribución de porcentaje acumulativo.
(c) Grafique la ojiva (polígono de porcentaje acumulativo).

Distribuciones acumulativas y polígonos acumulativos 77


e 3.36 De la distribución de frecuencia desarrollada en el problema 3.14 de la
página 66 referente a los valores en libros de compañías enumeradas en el
NYSE
(a) Forme la distribución de frecuencia acumulativa.
(b) Forme la distribución de porcentaje acumulativo.
(c) Grafique la ojiva (polígono de porcentaje acumulativo).
3.37 De la distribución de frecuencia desarrollada en el problema 3.15 de la página
66 referente a la incidencia de cáncer
(a) Forme la distribución de frecuencia acumulativa.
(b) Forme la distribución de porcentaje acumulativo.
(c) Grafique la ojiva (polígono de porcentaje acumulativo).
3.38 De las distribuciones de frecuencia desarrolladas en el problema 3.16 de la
página 66 para cada una de las tres variables numéricas (calificación, costo y
sodio) referente a las características de la mantequilla de cacahuate
(a) Forme las distribuciones de frecuencia acumulativa respectivas.
(b) Forme las distribuciones de porcentaje acumulativo respectivas.
(c) Grafique las ojivas (polígonos de porcentaje acumulativo).
3.39 De las distribuciones de frecuencia desarrolladas en el problema 3.17 de la
página 66 referente a a los tiempos de aceleración de los automóviles alemanes
y japoneses
(a) Forme las distribuciones de frecuencia acumulativa.
(b) Forme las distribuciones de porcentaje acumulativo.
(c) Grafique las ojivas (polígonos de porcentaje acumulativo) en una gráfica.
3.40 De las distribuciones de frecuencia desarrolladas en el problema 3.17 de la
página 66 referentes a la duración de focos de dos fabricantes
(a) Forme las distribuciones de frecuencia acumulativa.
(b) Forme las distribuciones de porcentaje acumulativo.
(c) Grafique las ojivas (polígonos de porcentaje acumulativo) en una gráfica.

Graficación de datos en secuencia:


la gráfica digipunto
Hasta ahora en este capítulo, en nuestro análisis de los métodos gráficos, no
hemos tomado en cuenta de ninguna manera el orden secuencial en que se han
recolectado los datos. En muchas situaciones, particularmente en contabilidad,
economia y finanzas, nos interesa estudiar un conjunto de datos recolectados re-
gularmente, diario, semanal, mensual, trimestral o anual, de manera tal que resul-
taría natural graficar los resultados (sean éstos, índices de precios de acciones,
ingresos por ventas industriales, ganancias corporativas, etc.) en una gráfica en la
que el eje X (horizontal) representa un periodo dado. Esta materia de análisis de
series de tiempo se presenta en el capítulo 19. En otras circunstancias, particular-
mente en la administración del proceso y la calidad de los productos, también
estamos interesados en estudiar los resultados en un conjunto de datos recolecta-
dos en orden secuencial (sean el número de clientes por minuto que llegan a una
sucursal de un banco de Manhattan durante el periodo de la comida de mediodía
a la 1 PM, el porcentaje de baterías defectuosas en muestras consecutivas de SO,
la cantidad de llenado en botellas de jugo de manzana de un litro, etc.). El tema
del control estadístico del proceso y la calidad de productos se analiza en el capítulo 16
y se presenta una diversidad de diagramas de control. En esta sección, como intro-
ducción a estos importantes temas, usamos el tiempo de procesamiento (en mi-
nutos) ocupado por un pagador que maneja 24 clientes consecutivos en un banco
de Manhattan durante el periodo de almuerzo de mediodía a la 1 PM (figura 3.10).
Ilustraremos que graficar los datos en orden secuencial puede ampliar un análisis.

78 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


2.5 1.2 2.0 1.5 2.3 3.8 2.8 1.1 1.7 3.3

tPagador At t tt tt i\\i.
•·t
Tiempo de procesamiento (en minutos) 1.0 4.e

,.ttttttt
5.0 1.4 1.0 1.7 1.2 2.0 1.3

Figura J. I o
Datos sin procesar referentes al tiempo de procesamiento del pagador (en minutos) para 24
clientes consecutivos en un banco de Manhattan.

Los datos enumerados en la figura 3.10 aparecen en forma sin procesar. Aun
cuando los datos fueron registrados cronológicamente, no deberíamos esperar que
los tiempos de procesamiento (en minutos) relativos a los 24 clientes consecutivos
siguieran ningún patrón ordenado observable. (De hecho, una importante suposi-
ción en los procedimientos inferenciales que analizaremos de los capítulos 10 al 15
será que nuestras observaciones de muestra recolectadas se extraen aleatoria e
independientemente.) Aquí, entonces, sería de interés evaluar gráficamente si los
datos están realmente en forma sin procesar o si existe alguna relación insospe-
chada. -

J.7.1 Representación de la gráfica digipunto de Hunter


La gráfica digipunto presenta simultáneamente un diagrama de tallo y hojas y
una gráfica de las observaciones en el orden secuencial en que se obtienen. Una
línea horizontal graficada sobre la secuencia por lo general denota la mediana o el
valor medio de la clasificación ordenada. (La mediana se estudiará en la sección
4.4.2.) Esta línea horizontal permite una fácil referencia para observar cualquier
patrón. Por ejemplo, como se indica en la figura 3.11, si hubiera una tendencia
positiva en las observaciones de la secuencia ordenada en que se recolectaron, la
porción de la gráfica digipunto indicaría un incremento de izquierda a derecha.
Para una tendencia negativa, la gráfica se invertiría. Así pues, en estas situaciones

Ventas ($000) Ventas, ($000)

'--~~~~~~~~~Tiempo
Tendencia positiva Tendencia negativa
en ventas en ventas

Figura J.11
Tendencias observadas en datos graficados en orden secuencial.

Graficación de datos en secuencia: la gráfica dlglpunto 79


observaríamos largas secuencias de valores en un lado de la línea horizontal seguidas
de largas secuencias de valores en el otro lado de la línea.
Para desarrollar estas ideas, los datos del tiempo de procesamiento del pagador
del banco de la figura 3.10 se han organizado primero en un diagrama de tallo y
hojas, se han tabulado en una distribución de frecuencia y se han ilustrado gráfi-
camente como un polígono de frecuencia [véanse los grupos (a), (b) y (c), respec-
tivamente, en la figura 3.12).

Tiempo Número
(en minutos) de clientes

o 89 o pero menor que 1.0 2


1 251730440723 1.0 pero menos que 2.0 12
2 50380 2.0 pero menor qua 3;0 5
3 83 3;0 pero menor que · 4.0 2
4 8 4.0 pero menor que 5.0 1
5 o 5.0 pero menor que 6.0 1
6 1 " 6.0 pero menor que 7.0 1
'r• ...:·. Total 24
.n=24 /,,"'
(l\l),Diagrama de tallo y hojas· (b) Distribución de frecuencia

12

/""\
11
,1Ó ,,.
ió "g
~ 8 ' ''
'''

~
~
7
6
:' ,,
''
'

..
5
E 4
2 ''
"
3 \
\
2
1 .,, .
' ' .,...,. _"'
QL-411J-1-~...L---l~-L~-'---,1.~-L.~J..:.lll.__,

-1.0 o 1.0 2.0 3.o 4.o 5.o e.o 7.o. a.o


, Tiempo (en minutos)
(e) Polígono de frecuencia

Figura 3.12
Organización y presentación de datos de tiempo de procesamiento de un pagador de banco.
Fuente: Figura 3.10.

Aunque se observa que los datos tienden a agruparse en el intervalo de 1.0 a


2.0 minutos, no puede obtenerse ninguna información referente a los patrones
potenciales en el orden secuencial de los tiempos de procesamiento del pagador
de banco de estos diagramas de resumen. Para remediar esto, la figura 3.13 describe
una gráfica digipunto, un útil dispositivo gráfico desarrollado por Hunter (refe-
rencia 5).
Inspeccionando la figura 3.13, encontramos, como se podría suponer, que no
existe evidencia de ningún patrón en la gráfica. No existe ninguna relación (y
tampoco debiera haberla) entre el orden cronológico y el tiempo de procesamien-
to (en minutos). La más larga secuencia consecutiva de observaciones por encima
de la línea del centro es 3 (observaciones 5, 6 y 7) y la secuencia consecutiva más
larga por debajo de la línea del centro también es 3 (observaciones 11, 12 y 13).

80 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


8.

7:

6,
••
o 5. H

8 4.

38 3.
11.
1 •
'
••••'
08305· 2. •

327044037152 1.

98 o.

Figura J.n
Gráfica digipunto de Hunter del tiempo de procesamiento (en minutos) de 24 clientes
consecutivos en un banco de Manhattan.

Por otra parte, las mayores oscilaciones de la gráfica por encima de la línea del cen-
tro comparadas con las distancias por debajo de ésta demuestran la falta de
simetría en esta serie de datos.

J.7.2 Construcción de la gráfica digipunto de Hunter


Comparando el diagrama de tallo y hojas del grupo (a) de la figura 3.12 con el
mostrado en nuestra gráfica digipunto (figura 3.13), observamos que ¡serían
idénticos si volteáramos de cabeza uno de ellos! Por lo tanto, al construir la por-
ción de tallo y hojas de la gráfica digipunto observamos que las hojas se bifurcan
hacia la izquierda de los tallos o hacia la derecha. Además, observe que los tallos
se enumeran de alto a bajo, de arriba a abajo, en vez de bajo a ·alto como en la
figura 3.12. Esto se hace por conveniencia gráfica, puesto que el eje Y (vertical)
de una gráfica va de alto a bajo, de arriba hacia abajo. A la izquierda del eje ver-
tical indicamos los tallos junto con "marcas de tictac" para los tiempos de proce-
samiento (en minutos) sobre la escala vertical. A la izquierda de los tallos
trazamos otra línea vertical para permitir la colocación de las hojas. Después cons-
truimos simultáneamente la porción tallo y hoja y graficamos los tiempos de
procesamiento (en minutos) en el orden que se enumeran en la figura 3.10. Estos
valores se grafican de izquierda a derecha, con distancias iguales de por medio.
Los puntos consecutivos se conectan entonces y la línea del centro se traza a través
de la secuencia ordenada. En la figura 3.13, la línea del centro se grafica desde el
eje vertical en el valor de 1.6 minutos. Esta línea representa el tiempo de proce-
samiento (en minutos) en el que la mitad de las transacciones bancarias de los
clientes son más largas y la mitad más cortas. Aquí se grafica la línea central real
porque se intentaba verificar una suposición en una serie de datos ya obtenida.
Por otra parte, para producción u otros procesos de servicios cuyo progreso se
controla (es decir, las gráficas se hacen interactivamente) la línea del centro
esperada (el objetivo) se graficaría inicialmente de manera que proporcionara
una interpretación visual de patrones en el tiempo.

Graficación de datos en secuencia: la gráfica digipunto 81


Problemas de la sección 3. 7
3.41 Un fabricante de pantalones de mezclilla de hombre utiliza una máquina que
puede ajustarse para variar el largo del material producido. Suponga que el
plan de producción es producir pantalones que se pretende tengan un largo de
34 pulgadas. La máquina se ajusta entonces para producir pantalones cuyo
largo se espera que sea de 34 pulgadas. Se selecciona una muestra de 30 parejas
consecutivas de pantalones del proceso de producción y sus largos se registran
a continuación en secuencia de fila (de izquierda a derecha):

34.02 34.06 34.05 34.01 33.91 33.76


33.89 33.98 33.88 33.96 33.85 33.94
33.91 34.03 34.05 34.00 33.97 33.84
33.74 33.85 33.94 33.99 34.03 34.10
34.02 33.95 33.96 34.01 33.93 33.82

(a) Forme una gráfica digipunto para estos datos.


(b) ¿A qué conclusiones puede llegar respecto a si el proceso de fabricación
está controlado?
3.42 Víctor Sternberg estaba entrenando para una carrera de 5 km. Como parte de
su entrenamiento, corrió un intervalo de un cuarto de milla para rapidez de
pista durante 27 días consecutivos antes de la carrera y llevó un registro de sus
ensayos de tiempos. Los datos que vienen a continuación son sus tiempos de
cuarto de milla (en segundos):

Dom. Lun. Mar. Miér. Jue. Vie. Sáb.


Semana 1 90 91 89 88 88 86 84
Semana 2 85 84 83 84 83 82 80
Semana 3 80 81 81 79 79 78 76
Semana 4 79 78 75 74 73 72 carrera

(a) Forme una gráfica digipunto para estos ensayos de tiempos usando la
línea del centro de 81 segundos para este periodo de 27 días.
(b) ¿Qué puede concluirse de esta gráfica? Analice.
3.43 Los recibos de ventas totales (en miles de dólares) se registran diariamente en
Ethel's, una boutique de vestidos en la ciudad de Nueva York, durante el
periodo de 28 días de 1 de febrero a 28 de febrero de 1993:

Lunes Martes Miércoles Jueves Viernes Sábado Domingo


Semana 1: 3.3 3.7 3.0 3.5 3.4 5.7 5.0
Semana 2: 3.9 3.8 3.6 3.9 5~6 6.8 3.9
Semana 3: 7.2 4.3 3.8 4.5 3.2 6.6 5.1
Semana 4: 3.1 3.3 3.2 4.2 3.7 6.2 5.4
(Observe que las vacaciones federales y estatales están dentro de un cuadro.)

(a) Analice los datos construyendo una gráfica digipunto en donde la línea
del centro sea de 3.9 miles de dólares. Describa cualquier cosa inusual.
(b) ¿Parece haber algún patrón en los recibos de ventas totales con el
tiempo?

82 Capitulo J Presentación de datos numéricos en tablas y diagramas


IH:I Uso de la computadora para tablas
y diagramas con datos numér-icos:
la encuesta dé satisfacción .deJo.s
empleados de Kalosha Industries
" . "' '

3 .e.1. Introducción y visiÓ~ gen~ral . ·,jj~~;ii


Al tratar con grandes series de datos t~l vez usemos la computadora para ayucl,atj1,'9~::
en nuestro análisis estadístico descriptivo. En esta secci(>n demostraremos c.cf>~(f'
pueden usarse varios paquetes. de softw¡ue estadístico para organizar y presenta!::: ·
datos numéricos en forma tabular y diagramática. .· . ,· , ,,> i\{
Al aprender cómo tener acceso a un paquete estadístico, como MINITAB, S~S.1:~
SPSS o STATISTIX, podremos aprovechar el progreso tecnológico reciente y obte1#~ti
una apreciación de la ayuda que la. compµta,dora nos puede dar en la solución ~~.~::
problemas estadísticos, particularmente aquéllos: que involucran grandes canfü;':'
daqes de variables o grandes series de dat()s (véanse las referencias 7-10). P1:1Ú(
lograr esto, regresemos a léi Encuesta sobre la satisfacción de los .empleadQs; .<4~r
Kalosha Industries que se desarrolló en el capítulo 2. ·

, '· ···'. ·'-'

3 .8.2 Encuesta de satisfacción de los empleados


de Kalosha Industries
Bud Conley, vicepresidente de recursos humanos, se está preparando para •u±iiti
reunión con un representante de B & L Corporation~ una compañía consultora q~.
beneficios a empleados, para discutir el conte~fdo pótencial de un paquete de:bje¡¡i.)
neficios a empleados que se está desarrollando. Las respuestas a las dos siguieriie~;~
preguntas serían de importancia particular eh un análisis inicial de los dato~ dé 1'.á;~
encuesta (tabla 2.3 de las páginas 33-40): · · · ;c,•;1;,,
l. Pregunta general A: ¿Cuál es la distribudori del ingreso personal entre
los empleados'de tiell1po completo de Katosha Industries (véase la
pregunta 7 de la encuesta). :És dedr, ¿cómo se distribuyen o agrupan
estos datos? . . . . . ·. .·. ·. . . ·~
2. Pregunta espedfica B: ¿Existen diferencias de género en los ingresos!,;
personales de fos empleados de tiempó completo de Kalosha ·!
Industries (véase la pregunta s de la encuesta). . . .· . · . "'Y'
Éstas y ottas preguntas iniciales formuladas por Bud Conley (véas~%~1¡t
ta/Proyecto de base de datos al final de la sección) requieren un anál{~i~:~·~~.
tico descriptivo de las 400 respuestas a la encuesta. En la práctica/e: ' · ·
que un estadístico use uno o dos paquetes estadísticos al realizar·
estadístico descriptivo. Sin embargo, aquí se presentala $alida de co '
de varios paquetes para que podamos mostrar.algunas de las cara(:t~.~
estos paquetes. ' · ·

3 .s. 3 Uso. de paquetes estadístico~ p~ra,d~ios :rn.1rn.~.,t~


Como. respuesta a cada una de las dos' preguntas que tienen que ~~ér.l
personales, se desearía lo siguiente: un diagrama de . tallo y hoj¡i:~; ~ti,.
de frecuencia y µna distribución de porcentaje, µn. histogr~a..o·~P,,Q: .. .· . . a .
ojiva; Para la.· pregunta. A, .. una. carac.terización de• los. ingresp~::Pe~~~1(; .)::del·.
empleado, la figura 3.14 describe el.diag);(lIIlade fa!Jo y 'no.ja~. ~~:$~s~;.,~~l~¡q~¡(3,;1 s

Uso de la computadora para tablas y diagramas con datos numéricos 83


muestra las distribuciones de frecuencia y de porcentaje de STATISTIX y las figuras
3.16 y 3.17, respectivamente, presentan el histograma y la ojiva usando STATISTIX
(páginas 85-86).
A partir de varios resultados de computadora, puede darse una respuesta a la
primera pregunta general de Bud Conley. Las diversas gráficas, tablas y diagramas
indican que la distribución de ingresos personales de los empleados de tiempo
completo carece de simetría o equilibrio. Aun cuando los ingresos personales
anuales de los empleados de tiempo completo varían entre 10.1 y 91.9 miles de
dólares, la mayoría (50.25%) de los ingresos del personal se agrupan en los dieces
superiores, veintes bajos o veintes altos. Además, sólo 3.25% de los empleados
tienen ingresos personales de al menos 60.0 miles de dólares.
Para responder la pregunta específica B de Bud Conley, se requiere una evalua-
ción de las diferencias de género en los ingresos personales de los empleados de
tiempo completo, una clasificación de las respuestas numéricas en las dos cate-
gorías de género (masculina y femenina). Este proceso puede efectuarse teniendo
acceso a uno de los paquetes estadísticos. Una vez que se logra esto, se necesitarán
tipos de salidas similares a las presentadas en las figuras 3.14 a 3.17 para cada agru-
pamiento de género. Para resaltar esto, la figura 3.18 (página 87) presenta los dia-
gramas de tallo y hojas respectivos para los ingresos personales de empleados de
tiempo completo hombres y mujeres usando MINITAB.
De la figura 3.18 parece que los empleados de tiempo completo hombres de
Kalosha Industries tienen ingresos personales mayores que los empleados de tiempo
completo mujeres. Para los hombres, los ingresos varían entre 10.2 y 91.9 miles de

RINCOME:

Frequency Stem & Leaf

38.00 1 .,. 000111233333444444


77.00 1 . 55555555566666666677777777888888999999
64.00 2 .,. 000000011111122222222333333344
60.00 2 • 5555555566666667777778888999
43.00 3 .,. 0000011111222333334
36.00 3 • 55566667788889999
27.00 4 .,. 001112223344
14.00 4 . 556788
20.00 5 .,. 000111234
8.00 5 • 589&
5.00 6 .,. 4&
8.00 Extremes (67), (76), (76), (78), (82), (92)

Stem width: 10.0


Each leaf: 2 case(s)

& denotes fractional leaves.


Figura 3.14
Diagrama de tallo y hojas para salida de SPSS.
Nota: Debe señalarse que en algunas situaciones, un tallo de longitud 10 puede dividirse en cinco tallos
basándose en los dos dígitos más bajos (*), doses y treses (T), cuatros y cincos (F), seises y sietes (S), y en los dos
dígitos más altos (.) o un tallo de longitud 10 puede dividirse en dos tallos basándose en dígitos bajos (L o *) y
altos (H o.). Como se ve en la figura 3.14, SPSS utiliza los símbolos• y. para divisiones en dos direcciones de
los tallos. Además, como se observa en la figura 3.14, con una muestra de un tamaño de 400, no hay suficiente
espacio en la página para imprimir todas las hojas (por ejemplo, las observaciones) que se bifurcan de algunos
tallos. Para compensar esto, SPSS determinó que cada hoja representara dos observaciones y utilizó el símbolo &
para denotar el valor de hoja que se repite un número impar de veces.

84 Capitulo 3 Presentación de datos numéricos en tablas y diagramas


RINCOME:
LOW HIGH FREQ PERCENT
10 20 115 28.8
20 30 124 31. o
30 40 79 19.8
40 50 41 10.3
50 60 28 7.0
60 70 6 1.5
70 80 5 l. 3
80 90 1 0.3
90 100 1 0.3
TOTAL 400 100.0

Figure J.IS
Salida de STATISTIX de distribución de frecuencia y porcentaje

Histogram
150
F
r
e
q
u
e 100
n
e
y
D
e
n
s 50
i
t
y

o
10 20 30 40 50 60 70 80 90 100
RINCOME
Figura J. I C5
Histograma de frecuencia de salida de STATISTIX.
Nota: Figuras 3.15, 3.16 y 3.17
Como analizamos en la sección 3.3.4 de la página 65, existe mucha subjetividad al seleccionar límites de clase
en las distribuciones de frecuencia. Aquí observamos que los límites de clase en las distribuciones de
frecuencia y porcentaje obtenidos por STATISTIX en la figura 3.15 coinciden con aquéllos para el histograma y
la ojiva obtenidos por STATISTIX en las figuras 3.16 y 3.17. Puesto que cada paquete estadístico se programa
de manera diferente para establecer los límites de las clases en una distribución de frecuencia, otros paquetes
pueden producir resultados diferentes. Sin embargo, podríamos controlar esto ejerciendo ciertas opciones.
Podríamos entonces establecer los límites inferiores y superiores de las clases según lo deseemos y nuestra
salida sería consistente sin importar el paquete que elijamos.

Uso de la computadora para tablas y diagramas con datos numéricos 81


,Cuir).ulative Distributioil
11)0

.80

:: p '"i.
e 60
r
e
e
n 40
t

10 20 ' 30 40 50 .
RINCOM;E
Figura J.17
Ojiva de porcentaje de salida de STATISTIX.

dólare~ yporlp gen~(~ ~~ agiµpa.rr-en los veintes bajos; para las m:ujeres, lo ingresos
:; y·~ · <e' tte'lQ:ty6~.. ~·iru1es cled(>lá;res y se agrupan abrumadorainente en los die-
:' l~~f.::~.S.\~(~t'épóµ'q~rª1)~ia d~los ingresos persop.a~es.femeninos en
. :;tas'Etós'distrlbüdones son :razonablemente similares en forma.
. .' ,;.~~l~ftall"lbi~:tj estatfa ~terésado e~ evaluar otras difer,endas de género
. . ........ , esrespecto aporastraba1adas, duración del empleo y n:umero. de promo-
i.f /_óne$. Un análisis estadístico descriptivo basado en l¡lsrespuestas a éstas y otras
:ptegtlntas referentes a las.yariables numéricas ,en la Encuesta sobre.las.atisfacción
·de los empleados (véase Ensu~sta/Proyecto de. base de datosJle ayudará a tener una
mejor comprensión de l;i composición dela·ftier2la'de tÍábaj() de tiempo completo
de Kaloshá Industries y lo asistirá eíi sus deliberadones coil)a B&L (2orpora:tion
respectq al desartoll() de hri paquete de beneficios a• empleados; · ·

Encuesta/Proyecto de la sección 3 .e
Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestio-
nario de la figura 2.6 de las páginas 28-29 y presentados en la tabla 2.3 de las
páginas 33-40. Deben resolverse con la ayuda de un paquete de computadora
disponible.
Suponga que fue contratado como asistente de investigación de Bud
Conley, vicepresidente de recursos humanos de Kalosha Industries. Él le ha
dado una lista de preguntas (véanse los problemas 3.44 a 3.59) que
necesita responder antes de su encuentro con representantes de B&L
Corporation, la compañía consultora de beneficios a empleados que
contrató.
Para cada uno de los siguientes problemas (3.44 a 3.59) referentes a la
Encuesta sobre la satisfacción de los empleados:
(a) Forme el diagrama de tallo y hojas.
(b) Forme las distribuciones de frecuencia y de porcentaje.
(c) Grafique el histograma. -

8& Capitulo J Presentación de datos numéricos en tablas y diagramas


stein.:and-l~f 'oi R:INcoo sE:X = i ·.
Leaf unit = 1. o
17 ~ 00012233~34444'44,4 ' .·..
44 1 .5555.566666666677178,88.899999 ·.·,. . ...
.16, 2'ooooooilil,t1112222222222.22333333
106 2· sssss666666666666?1n11aaa9999 ·
(2~) 3 00000000011111111222233333344
98 · ·. 3. 55S666666677 88.888899999999
72 ·. 4 OOOllll.112222222333,444. ·
50' . 4 555SS6f577788,(18 < ·.· ..
36 5 000001111122233444·
18 s·
5567899 ..
11 6 ou ' .
8 6 7
7 ,7
7 1 s668'a· " : '

2· 8 l
l. .8
l 9 l.

Stem-and.- leaf of . RINCOME SEX 2 ·: ... N 161


L~~: .Un,i~ .'i". 1 •. O

21 ' 'i. 0000lllll23Jl3J344444 ','


71 l 5555555555555566666666677777717777~88i88~889999999
(32:). ·, 2. 0000000011Hl2222233333333344444
.64.' ,., 2,,.·:5555555555556·667,77177888888999
34 : 3 OOl.l,12223.3~33.q.
20 3 ss'5'6777SB9 ··· ·
\,.

lo· 4. 'ool.34
5 4
,,, 5¡, .s.· 01, .. ;':"!.,' '·1

3 5 S., .,_,-
2 ''6' 12
MTB.· > note• •.sEX•.;:= l 111. for Mala and •s:Ex• = 2 ·is for ~emal:e
·;11

Figura 3.18
Diagramas de tallo y hoja de MINITAB de ingresos personales de empleados de tiempo
completo mujeres y hombres.
Nota: En un diagrama de talio y hojas de MINITAB, los números de la primera columna son conteos
acumulados de las observaciones hasta llegar a la clase que contiene el valor mediano o medio. En el grupo
superior el (29) significa que hay 29 observaciones en la clase que contiene el valor medio. Los números
escritos debajo de (29) son los conteos acumulados, comenzando desde los ingresos más grandes y
retrocediendo hasta la clase que contiene el valor medio. Además, en estos diagramas de tallo y hojas de
MINITAB, los tallos se han dividido en dígitos bajos (L) y altos (H), pero estas letras no aparecen en la
impresión.

(d) Grafique el polígono de porcentaje.


(e) Forme la distribución de porcentaje acumulativo.
(f) Grafique la ojiva.
(g) f.t;¡¡q¡,p.¡,p Escriba un memorándum a Bud Conley analizando sus
hallazgos.
3.44 ¿Existen diferencias en los ingresos personales de los empleados de
tiempo completo de Kalosha Industries basándose en la participación
de un individuo en las decisiones presupuestarias (véanse las preguntas
7 y 22)?
3.45 ¿Cuáles son las diferencias en los ingresos personales de los empleados de
tiempo completo de Kalosha Industries basándose en un agrupamiento ocupa-
cional (véanse las preguntas 7 y 2)?
3.46 ¿Cuáles son las características de la distribución del número de horas
típicamente trabajadas por semana por todos los empleados de tiempo
completo de Kalosha Industries (pregunta 1)?

Uso de la computadora para tablas y diagramas con datos núméricos 87


3.47 ¿Existen diferencias de género en el número de horas típicamente trabajadas
por semana por todos los empleados de tiempo completo de Kalosha
Industries (véanse preguntas 1 y 5)?
3.48 ¿Existen diferencias en el número de horas típicamente trabajadas por semana
por todos los empleados de tiempo completo de Kalosha Industries basándose
en la participaciQ_n de un individuo en las decisiones presupuestarias (véanse
preguntas 1 y 22)?
3.49 ¿Existen diferencias en el número de horas típicamente trabajadas por semana
por todos los empleados de tiempo completo de Kalosha Industries basándose
en un agrupamiento ocupacional (véanse preguntas 1 y 2)?
3.50 ¿Cuáles son las características de la distribución de duración del empleo (en
años) entre trabajadores de tiempo completo de Kalosha Industries (véase
pregunta 16)?
3.51 ¿Existen diferencias de género en la duración del empleo (en años) entre
trabajadores de tiempo completo de Kalosha Industries (véanse preguntas 5 y 16)?
3.52 ¿Cuáles son las características de la distribución de edad (en años) entre
trabajadores de tiempo completo de Kalosha Industries (véase pregunta 3)?
3.53 ¿Existen diferencias de género en las edades de los trabajadores de tiempo
completo de Kalosha Industries (véanse preguntas 3 y 5)?
3.54 ¿Cuáles son las características de la distribución de educación alcanzada (en
años de enseñanza formal) entre trabajadores de tiempo completo de Kalosha
Industries (véase pregunta 4)?
3.55 ¿Existen diferencias de género en el nivel alcanzado de educación entre
trabajadores de tiempo completo de Kalosha Industries (véanse preguntas 4 y 5)?
3.56 ¿Cuáles son las características de la distribución del número de promociones
recibidas al trabajar en Kalosha Industries por todos los trabajadores de tiempo
completo de Kalosha Industries (véase pregunta 17)?
3.57 ¿Existen diferencias de género en el número de promociones recibidas al
trabajar en Kalosha Industries por todos los trabajadores de tiempo completo
de Kalosha Industries (véanse preguntas 5 y 17)?
3.58 ¿Cuáles son las características de la distribución de ingresos familiares totales
entre trabajadores de tiempo completo de Kalosha Industries (véase pregunta 8)?
3.59 ¿Cuáles son las características de la distribución de años de empleo de
tiempo completo desde la edad de 16 años para todos los trabajadores
de tiempo completo de Kalosha Industries (véase pregunta 15)?

11·) Reconocimiento y práctica de una adecuada


presentación tabular y de diagramas y
exploración de cuestiones éticas
Hasta este punto hemos estudiado cómo se prepara una serie de datos recolectados
y luego se presenta en forma tabular y diagramática a fin de hacer los datos más
manejables y significativos con propósitos de análisis. Si nuestro análisis debe
ampliarse mediante un despliegue visual de datos numéricos, es esencial que las
tablas y diagramas se presenten clara y cuidadosamente. Los adornos tabulares y la
"basura diagramática" deben eliminarse para no oscurecer el mensaje dado por los
datos con adornos innecesarios (referencias 3, 11, 12, y 15). Además, al presentar
los diagramas debemos evitar ciertos errores comunes que distorsionan la impre-
sión visual (referencias 2, 4 y 6). Tres de estos errores son:
l. No lograr comparar dos o más series de datos sobre una base relativa.
2. Comprimir el eje vertical.
3. No lograr indicar el punto cero hasta abajo del eje vertical.

88 Capítulo J Presentación de datos numéricos en tablas y diagramas


J.9.1 Eliminación de la basura diagramática
Al hojear revistas y periódicos a menudo encontramos que las tablas y diagramas
están adornados con varios iconos y símbolos para hacerlos atractivos a sus lec-
tores. Desafortunadamente, avivar una tabla o diagrama con frecuencia oculta o
distorsiona el pretendido mensaje transmitido por los datos. Por ejemplo, algunas
representaciones visuales que "atraen la vista" que típicamente encontramos en
revistas y periódicos intentan erróneamente mostrar "áreas" de iconos representa-
tivos de información numérica. ¿Puede alguien realmente leer e interpretar tales
áreas bidimensionales con precisión? La respuesta es no. Como se ve en la figura
3.19, estas gráficas pueden ser atractivas, ¡pero rara vez funcionan!

A Shrlnklng Catch
Captura anual, estimada, de
otras en la Bahla de
Chesapeake especificada en
millones de buhels

1890's/. . .
,'~ 20 millones
de bushels
1930'• • 7

1962 • 4

1972

1982

1992
...

... 5

3.5
166,000
bushels
Figura 3. 1S>
Representación "inadecuada" de la captura estimada de ostras
(en millones de bushels) en la bahía de Chesapeake durante
varios periodos.
Fuente: The New York Times, 17 de octubre de 1993, pág. 26.

En la figura 3.19, el icono que representa los 20 millones de bushels esti-


mados de ostras atrapadas en la década de 1890 ¿es realmente cinco veces el
tamaño del icono que representa los 4 millones de bushels estimados de
ostras atrapadas en 1962? Esta ilustración puede llamar la atención, pero por
lo general no muestra nada que no pueda presentarse mejor en una tabla de
resumen, una gráfica digipunto o una gráfica de los datos en el tiempo (véase
capítulo 19).

3 .9.2 Fracaso en la comparacion de series de datos


sobre una base relativa
En la sección 3.4 demostramos por qué es necesario comparar dos o más series de
datos sobre una base relativa, y las figuras 3.7 (página 72) y 3.9 (página 77), respec-
tivamente, mostraban los polígonos de porcentaje y las ojivas de porcentaje' ade-
cuados al comparar las colegiaturas a residentes fuera del estado de 60 escuelas de
Texas y 45 de Carolina del Norte. El uso de conteos de frecuencia en vez de por-
centajes o proporciones sería engañoso. Para mostrar esto, en las figuras 3.20 y 3.21
de la página 90 se muestran los polígonos de frecuencia y las ojivas de frecuencia
respectivos que "comparan" las colegiaturas a residentes fuera del estado de 60
escuelas de Texas y 45 de Carolina del Norte. Además, para acentuar la distorsión
visual, se incluyen las colegiaturas a residentes fuera del estado cobradas por los 90
colegios y universidades de Pennsylvania (véase el Conjunto de datos especiales 1
del apéndice Den las páginas D4-D5).

Reconocimiento y práctica de una adecuada presentación tabular y de diagramas SS>


25

20

"'
al
Qj
15
::l
o
"'
Q)
Q)
"'O 10
e
Q)
E
•::l
z
5

o
o 2 4 6 8 10 26
Colegiaturas (en $000) ··

Figura 3.20
Polígonos de frecuencia "inadecuados" de las colegiaturas de residentes fuera del estado en 60
escuelas de Texas, 45 escuelas de Carolina del Norte y 90 escuelas de Pennsylvania.
Fuente: Los datos fueron tomados de las tablas 3.3 y 3.7 y de "Arnerlca's Best Colleges, 1994 College Guide",
U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass. Reimpresión con permiso
especial, U.S. News & World Report, © 1993 por U.S. News & World Report y por College Counsel.

90

80

70

60
~Q)
::l
50
&lQ)
Q)
40
"'O
eQ) 30
E
'::l
z 20

10

o
o · 14
... ;,e,.. ·,;;'
· .·. ·t'.s. ··
. stú~'.1:.%: ¡ J:;olegiaturllsJen$OOO) .
1

.
- ~ '' :' '

Figura 3.21
Polígonos de frecuencia acumulativa "inadecuados" de las colegiaturas de residentes fuera del
estado en 60 escuelas de Texas, 45 escuelas de Carolina del Norte y 90 escuelas de Pennsylvania.
Fuente: Los datos fueron tomados de las tablas 3.3 y 3.7 y de" Amerlca's Best Colleges, 1994 College Guide",
U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass. Reimpresión con permiso
especial, U.S. News & World Report, © 1993 por U.S. News & World Report y por College Counsel.

90 Capítulo J Presentación de datos numéricos en tablas y diagramas


Como puede verse de las figuras 3.20 y 3.21, los polígonos de frecuencia y las
ojivas de frecuencia de las 60 escuelas de Texas y de las 45 de Carolina del Norte
son abrumados por aquéllos de las 90 escuelas de Pennsylvania y no se pueden
hacer comparaciones significativas de tales diagramas distorsionados.

3.9.3 Compresión de eje vertical


Es fácil alterar la impresión visual de un diagrama manipulando los puntos de
escala sobre el eje vertical o el horizontal. Para mostrar esto, observe bien los polí-
gonos correspondientes, figura 3.7 de la página 72 y figura 3.20 de la página 90.
Ahora observe bien las ojivas correspondientes, figura 3.9 de la página 77 y figura
3.21 de la página 90. En nuestros dos conjuntos de diagramas correspondientes
mantuvimos las dimensiones de puntos de escala iguales sobre el eje horizontal.
Para el eje vertical, sin embargo, tuvimos que tomar en cuenta que añadimos las
90 escuelas de Pennsylvania a las figuras 3.20 y 3.21 y, no obstante, para su ubi-
cación en su libro de texto, quisimos que los diagramas correspondientes ocuparan
la misma cantidad de espacio en las páginas respectivas. Por lo tanto, para justificar
las escuelas de Pennsylvania de la figura 3.20, observe cómo cambia la "forma"
de las curvas al comparar los polígonos que representan las escuelas de Texas y
Carolina del Norte aquí y en la figura 3.7. De manera similar, para explicar las
escuelas de Pennsylvania de la figura 3.21, observe cómo cambia la "inclinación"
o pendiente al comparar las ojivas que representan las escuelas de Texas y Carolina
del Norte aquí y en la figura 3.9.
Aun cuando ya sabíamos de la sección 3.9.2 que las figuras 3.20 y 3.21 eran repre-
sentaciones inadecuadas de sus polígonos y ojivas correspondientes (porque las
escalas verticales de las figuras 3.20 y 3.21 no usaban porcentajes o proporciones),
el punto importante aquí es que una compresión de la escala sobre el eje vertical
puede ocasionar una distorsión en la información visual que se está presentando.
Por ejemplo, si hubiéramos construido nuestro histograma de porcentaje (véase la
figura 3.5 de la página 71) seleccionando marcas de tictac sobre la escala vertical
desde O hasta 100 en vez de desde O a 45, nuestro histograma se vería mucho más
plano. Además, se vería antiestético en la mitad inferior del marco del recuadro,
dejando espacio de fondo innecesario en la mitad superior (véase el problema 3.60
de la página 93). Una buena regla general, entonces, es construir sus diagramas de
manera que utilicen todo el marco del recuadro. ·

3.9.4 Fracaso al indicar el punto cero


sobre el eje vertical
El punto de inicio sobre el eje vertical debe indicarse con un cero para no distor-
sionar la impresión visual respecto a la magnitud de los cambios que ocurren en el
diagrama. Al tomar sólo un pedazo del eje vertical, tales cambios pueden exage·
rarse. La figura 3.22 de la página 92 muestra esta distorsión visual.
Observe que en este diagrama el cero se omitió del eje vertical. Debido a esto;
el lector obtiene una visión distorsionada de la magnitud de las diferencias en las
transacciones diarias. Por ejemplo, durante el periodo descrito, la sesión coiner·
cial más activa ocurrió el viernes 17 de septiembre, mientras que la sesión comercial
menos activa ocurrió el lunes 12 de octubre (día de la Raza). Sin embargo, de la grá-
fica mal trazada, la barra vertical que representa la sesión comercial más activa es
tres veces más larga que la barra vertical que representa la sesión comercial menos
activa, dando la impresión de que se triplicó el número de acciones negociadas el
17 de septiembre respecto al 12 de octubre. Si el punto cero se hubiera represen-

Reconocimiento y práctica de una adecuada presentación tabular y de diagramas 91


N.Y.S.E. VOLUME

400.

320

,240

Figura J.22
Representación "inadecuada" del
volumen de ventas (en millones de 80
acciones negociadas) de la Bolsa de
2 9 16
Valores de Nueva York en el tiempo.
Fuente: The New York Times, 20 de octubre de bct;
1993, pág. 07.

tado adecuadamente sobre el eje vertical, la gráfica hubiera reflejado con precisión
que sólo se duplicó el número de acciones negociadas el 17 de septiembre respecto
al 12 de octubre.

J.9.5 Uso de software de computadora


para tablas y diagramas
En la sección 3.8 demostramos cómo un software de computadora apropiado pue-
de ayudarnos en uri análisis descriptivo de nuestros datos. La computadora es una
herramienta extremadamente útil que puede almacenar, organizar y procesar infor-
mación fácil y rápida y puede proporcionarnos resultados, tablas y diagramas de
resumen. No obstante, debemos tener en mente que la computadora sólo es una
herramienta. Veremos a lo largo de este texto, al demostrar e interpretar una varie-
dad de las salidas de computadora correspondientes a los temas que se estudiarán
en los capítulos siguientes, que es esencial usar la computadora de una manera con-
sistente con una metodología estadística correcta. Acuérdese de GIGO. La salida de
computadora que obtengamos dependerá de cuatro cosas: la capacidad del hard-
ware utilizado, la calidad de la impresora elegida, la capacidad del software estadís-
tico seleccionado, así como de su habilidad para elegir apropiadamente y usar el
software provechosamente. Y cuando se le presente información tabular y diagra-
mática proveniente de la salida de algún paquete de software estadístico, tenga
cuidado con los adornos extra que puedan estar ocultando lo que los datos tratan
de transmitir.

• J.9.6 Cuestiones éticas


Las consideraciones éticas surgen cuando estamos decidiendo qué datos presentar
en formato tabular y diagramático y cuáles no presentar. Es de vital importancia,
al conducir una investigación, documentar tanto los buenos como los malos resul-
tados, de forma tal que aquellos que continúen tal investigación no tengan que
"volver a inventar la rueda". Además, al hacer presentaciones orales y presentar
informes escritos sobre la investigación, es esencial que los resultados se den de
una manera equitativa, objetiva y neutral. Así pues, debemos tratar de distinguir
entre una mala presentación de datos y una presentación no ética. Nuevamente,
como en nuestro análisis de las consideraciones éticas en la recolección de datos

92 Capítulo J Presentación de datos numéricos en tablas y diagramas


(sección 2.11.6), la clave es la intención. A menudo, cuando se presentan adornos
en tablas y giagramas o se omite información pertinente simplemente se hace por
ignorancia. Sin embargo, un comportamiento no ético ocurre cuando un .investi-
gador desea ocultar los hechos a propósito y distorsiona una tabla o diagrama o no
informa hallazgos pertinentes.

Problemas de la sección 3. 9
3.60 Según lo enunciado en el último párrafo de la sección 3.9.3 de la página 91,
vuelva a trazar el histograma de porcentaje (figura 3.5 de la página 71)
seleccionando marcas de tictac sobre el eje vertical de O a 100 y luego comente
la estética de su diagrama.
3.61 (Proyecto del estudiante) Traiga a la clase un diagrama de periódico o
revista que considere que es una representación mal trazada de alguna variable
numérica. Esté preparado para presentar el diagrama al instructor con
comentarios sobre las razones por las que considera que es inapropiado.
Asimismo, esté preparado para exponer esto y comentarlo en clase.

Presentación de datos numéricos:


un repaso y una revisión preliminar
Como se ve en el diagrama de resumen de la página 94, este capítulo trató sobre la
presentación de datos. En la página 54 de la sección 3.1 se le proporcionó una lista
que ponía énfasis en los puntos importantes a estudiarse en el capítulo. Revise la
lista para ver si cree que ha comprendido estos puntos clave. Para estar seguro, debe
poder responder las siguiente preguntas conceptuales:
l. ¿Por qué es necesario organizar una serie de datos numéricos que
recolectamos?
2. ¿Cuáles son las principales diferencias entre una clasificación ordenada
y un diagrama de tallo y hojas?
3. ¿Bajo qué condiciones es más apropiado construir y usar distribuciones
de frecuencia y distribuciones de porcentaje?
4. ¿Cómo difieren los histogramas y los polígonos con respecto a su
construcción y uso?
S. ¿Cuándo debe construirse y cómo debe usarse una ojiva de porcentaje
(es decir, un polígono de porcentaje acumulativo)?
6. ¿Por qué es la ojiva de porcentaje una herramienta tan útil?
7. ¿Cuál es el propósito de una gráfica digipunto y cómo se construye?
8. ¿Cuáles son algunas de las cuestiones éticas que hay que considerar al
presentar datos numéricos en formato tabular o diagramático?
Revise la lista de preguntas para ver si realmente sabe las respuestas y puede (1)
explicar sus respuestas a alguien que no leyó este capítulo y (2) dar referencias de
lecturas o ejemplos específicos que respalden su respuesta. Asimismo, vuelva a leer
cualquiera de las secciones que pudieron parecerle no muy claras para ver si ahora
tienen sentido.
Una vez que los datos numéricos recolectados han sido presentados en forma-
to tabular y diagramático, como se hizo para Bud Conley de Kalosha Industries,
estamos listos para hacer varios análisis. En el siguiente capítulo, se desarrollará
una variedad de mediciones de resumen descriptivas útiles para el análisis e inter-
pretación de datos.

Presentación de datos numéricos: un repaso y una revisión preliminar 93


Diagrama de resumen del capitulo 3.

Juntando todo

TÉRMINOS CLAVE
agrupamientos de clase 62 distribución de porcentaje 68
ancho de intervalo de clase 63 forma sin procesar 54
"basura diagramática" 88 gráfica digipunto 79
clases 63 histograma 70
clasificación ordenada 55 límites de clase 64
diagrama de tallo y hojas 55 polígono 71
diagrama de tallo y hojas revisado 57 punto medio de clase "o marca de
distribución acumulativa 74 clase" 65
distribución de frecuencia 62 ojiva (polígono acumulativo) 75
distribución de frecuencia relativa 68

94 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


Problemas de revisión del capítulo

3.62 t·fíiiM·l·I•> Escriba una carta a un amigo subrayando lo que considera son las
características más interesantes o más importantes de este capítulo.
3.63 En sus propias palabras, explique la diferencia entre datos sin procesar y una
clasificación ordenada.
3.64 ¿Por qué es ventajoso usar un diagrama de tallo y hojas en vez de una
clasificación ordenada?
3.65 Explique las diferencias entre distribuciones de frecuencia, distribuciones de
frecuencia relativa y distribuciones de porcentaje.
3.66 Al comparar dos o más conjuntos de datos con diferentes tamaños de muestra,
¿por qué es necesario comparar sus distribuciones de frecuencia o de
porcentaje relativas?
3.67 Explique las diferencias entre histogramas, polígonos y ojivas (polígonos
acumulativos).
3.68 Explique las diferencias entre diagramas de tallo y hojas y gráficas
digipunto.
3.69 Los datos sin procesar mostrados a continuación son los sueldos de inicio
de una muestra aleatoria de 100 estudiantes de computación o de sistemas
de cómputo que recibieron sus grados de bachillerato durante 1993:

Sueldos de inicio ($000)


24.2 29.9 23.4 23.0 25.5 22.0 33.9 20.4 26.6 24.0
28.9 22.5 18.7 32.6 26.1 26.2 26.7 20.4 22.2 24.7
18.6 18.5 19.6 24.4 24.8 27.8 27.6 27.2 20.8 22.1
19.7 25.3 28.2 34.2 32.5 30.8 26.8 20.6 21.2 20.7
25.2 25.7 32.2 28.8 24.7 18.7 20.5 25.5 19.1 25.5
22.1 27.5 25.8 25.2 25.6 25.2 25.2 27.9 18.9 37.3
29.9 23.2 19.8 20.8 29.5 27.6 21.2 38.7 21.3 24.8
32.3 20.1 26.8 25.4 26.3 21.2 19.5 22.8 21.7 25.3
32.3 28.1 27.5 25.3 19.3 27.4 26.4 20.9 34.5 25.9
31.4 27.4 27.3 20.6 31.8 25.8 25.2 21.9 26.8 26.5

(a) Acomode los datos sin procesar en un diagrama de tallo y hojas.


(Sugerencia: haga que las hojas sean los dígitos dieces.)
(b) Acomode los datos en una clasificación ordenada.
(c) Forme la distribución de frecuencia y la distribución de porcentaje.
(d) Grafique el histograma de porcentaje.
(e) Grafique el polígono de porcentaje.
(f) Forme la distribución de porcentaje acumulativo.
(g) Grafique la ojiva (polígono de porcentaje acumulativo).
(h) UíjfllJ!.t.1-> Escriba un breve reporte a su decano describiendo los sueldos
de inicio de estos graduados recientes.
3.70 Los siguientes datos son los precios al detalle de una muestra aleatoria de 30
modelos de manómetros manuales de llantas:

4.50 6.50 2.00 2.50 4.00 3.50 5.00 3.00 5.00 5.50
1.00 7.50 3.00 2.00 3.00 3.50 3.50 5.00 6.00 4.50
2.00 3.00 3.50 3.50 3.00 3.00 4.00 1.50 1.50 2.50
Fuente: Copyright 1993 por Consumers Union of United States, !ne., Yonkers, N.Y. 10703. Adaptado con per-
miso de Consumer Reports, febrero de 1993, pp. 98-99.

Problemas de revisión del capítulo 95


(a) Acomode los datos sin procesar en un diagrama de tallo y hojas.
(Sugerencia: haga que las hojas sean los dígitos dieces.)
(b) Acomode los datos en una clasificación ordenada.
(c) Forme la distribución de frecuencia y la distribución de porcentaje.
(d) Grafique el histograma de porcentaje.
(e) Grafique el polígono de porcentaje.
(f) Forme la distribución de porcentaje acumulativo.
(g) Grafique la ojiva (polígono de porcentaje acumulativo).
(h) t-Ad'JM·f·> Si estuviera considerando comprar un manómetro manual de
llantas, ¿qué más desearía saber? Escriba una lista de preguntas que
formularía en una tienda de refacciones de automóviles.
3.71 Los datos siguientes representan el costo por mes de uso (en dólares) y la
calificación de prueba de limpieza (O a 100) de una muestra aleatoria de 39
marcas de pasta de dientes en tubo.

Pasta de dientes Costo por mes Calificación

Ultra brite Original .S8 86


Gleem .66 79
Caffree Regular 1.02 77
Crest Tartar Control Fresh Mint Gel .S3 7S
Colgate Tartar Control Gel .S7 74
Crest Tartar Control Original .S3 72
Ultra brite Gel Cool Mint .S2 72
Colgate Clear Blue Gel .71 71
Crest Cool Mint Gel .SS 70
Crest Regular .S9 69
Crest Sparkle .Sl 64
Close-Up Tartar Control Gel .67 63
Close-Up Anti-Plaque .62 62
Colgate Tartar Control Paste .66 62
Tom's of Maine Cinnamint 1.07 62
Aquafresh Tartar Control .80 60
Aim Anti-Tartar Gel .79 S8
Aim Extra-Strength Gel .44 S7
Slimer Gel 1.04 S7
Arm & Hammer Baking Soda Fresh Mint Gel 1.12 SS
Aquafresh .79 S6
Aquafresh Extra Fresh .81 S3
Close-Up Paste .64 8S
Topo! Spearment Gel 1.77 82
Topo! Spearment 1.32 76
Close-Up Mint Gel .64 72
Aim Regular-Strength Gel .SS 70
Pepsodent .39 S8
Colgate Baking Soda 1.22 Sl
Colgate Regular .74 so
Colgate Junior Gel .44 39
Colgate Peak .97 29
Arm & Hammer Baking Soda Fresh Mint 1.26 28
Rembrandt 4.73 S3
Sensodyne Original 1.29 80
Sensodyne Gel 1.34 48
Viadent Original Anti-Plaque 1.40 S3
Denquel 1.77 37
Butler Protect Gel 1.11 20
Fuente: Copyright 1992 por Consumers Union of United States, Inc., Yonkers, N. Y. 10703.
Adaptado con permiso de Consumer Reports, septiembre 1992, pp. 604-605.

Capitulo J Presentación de datos numéricos en tablas y diagramas


Para cada una de las dos variables numéricas:
(a) Forme el diagrama de tallo y hojas.
(b) Forme una tabla combinada de distribuciones de frecuencia y de
porcentaje.
(c) Grafique el polígono de porcentaje.
(d) Forme la distribución de porcentaje acumulativo.
(e) Grafique la ojiva de porcentaje.
(f) f.¡;¡¡¡q¡.z.¡,p Escriba un reporte para su profesor de mercadeo resumiendo
sus hallazgos y caracterizando este producto.
e 3.72 Dadas las series de datos basadas en el precio de cierre de acciones de muestras
aleatorias de 2S artículos negociados en la Bolsa Norteamericana
y SO artículos negociados en la Bolsa de Nueva York:

Bolsa norteamericana Bolsa de Nueva York


(2S artículos) (50 artículos)
$ 6.88 $36.50 $26.00
.75 23.50 19.00
3.88 8.25 46.00
4.12 57.50 23.50
11.88 27.12 22.62
15.88 3.75 12.88
16.50 25.00 5.50
8.75 15.50 37.50
9.25 36.12 9.88
7.50 6.00 59.12
5.38 9.12 35.25
14.38 33.38 20.62
2.50 22.50 24.00
4.88 8.75 80.50
6.38 8.62 29.38
33.62 5.75 3.75
4.88 21.88 64.75
9.00 6.12 14.25
2.00 25.00 46.38
20.00 15.88 4.75
14.25 24.00 25.00
4.00 10.88 35.00
15.25 18.75 9.00
2.38 53.88 12.38
49.50 20.38 31.00

(a) Usando anchos de intervalo de $10, forme la distribución de frecuencia y


la distribución de porcentaje para cada serie.
(b) Grafique el histograma de frecuencia para cada serie.
(c) En una gráfica, grafique el polígono de porcentaje para cada serie.
(d) Forme la distribución de porcentaje acumulativo para cada serie.
(e) En una gráfica, grafique la ojiva ((polígono de porcentaje acumulativo)
para cada serie.
(f) f·IOldll/•f·i•P Escriba un breve reporte a su profesor de finanzas
comparando y contrastando las dos series.
3.73 Una compañía distribuidora de aparatos al por mayor deseaba estudiar sus
cuentas por cobrar de dos meses sucesivos. Se seleccionaron dos muestras
independientes de SO cuentas para cada mes. Los resultados se resumen en la
tabla siguiente:

Problemas de revisión del capítulo 97


Distribución de frecuencia para cuentas por pagar
Frecuencia Frecuencia
Cantidad de marzo de abril
$0 hasta menos de $2,000 6 10
$2,000 hasta menos de $4,000 13 14
$4,000 hasta menos de $6,000 17 13
$6,000 hasta menos de $8,000 10 10
$8,000 hasta menos de $10,000 4 o
$10,000 hasta menos de $12,000
Totales

50
_l
50

(a) Grafique el histograma de frecuencia para cada mes.


(b) En una gráfica, grafique el polígono de porcentaje para cada mes.
(c) Forme la distribución de porcentaje acumulativo para cada mes.
(d) En una gráfica, grafique la ojiva ((polígono de porcentaje acumulativo)
para cada mes.
(e) f·fOJiM•z.t•> Escriba un breve reporte a su profesor de contabilidad
comparando y contrastando las cuentas por cobrar de los dos meses.
3.74 Usted trabaja como ingeniero de control de calidad en Chrysler Corporation y,
en un esfuerzo por mejorar la calidad de los productos de su compañía, desea
comparar varias características de diseño de modelos de automóviles
estadounidenses y extranjeros.
La siguiente tabla contiene las distribuciones acumulativas y las distribuciones
de porcentaje acumulativo de la distancia de frenado (en pies) a 80 mph para
una muestra de 25 modelos de automóviles de fabricación estadounidenses y
para una muestra de 72 modelos de automóviles de fabricación extranjera
obtenidas en un año reciente.

Distribuciones de frecuencia y de porcentaje acumulativas para la distancia de frenado


(en pies) a 80 mph para modelos de automóviles estadounidenses y extranjeros

Modelos de automóviles Modelos de automóviles


estadounidenses extranjeros
Distancia Valores indicados "menores que" Valores indicados (menores que)
de frenado
(en pies) Número Porcentaje Número Porcentaje
210 o o.o o o.o
220 1 4.0 1 1.4
230 2 8.0 4 5.6
240 3 12.0 19 26.4
250 4 16.0 32 44.4
260 8 32.0 54 75.0
270 11 44.0 61 84.7
280 17 68.0 68 94.4
290 21 84.0 68 94.4
300 23 92.0 70 97.2
310 25 100.0 71 98.6
320 25 100.0 72 100.0
Fuente: Los datos fueron extraídos de Road & Track, vol. 42, núm. 2 (octubre de 1990), pág. 47.

Basándose en estos datos, responda las siguientes preguntas:


(a) ¿Cuántos modelos de automóviles de fabricación estadounidense tienen
distancias de frenado de 240 pies o más?
(b) ¿Cuál es el porcentaje de automóviles de fabricación estadounidense con
distancias de frenado de menos de 260 pies?
(c) ¿Qué grupos de modelos de carros, de fabricación estadounidense o
extranjera, tienen el alcance más amplio de distancia de frenado?

98 Capitulo 3 Presentación de datos numéricos en tablas y diagramas


(d) ¿Cuántos modelos de automóviles de fabricación extranjera tienen
distancias de frenado de entre 260 pies y 269.9 pies (inclusive)?
(e) Use las distribuciones acumulativas para construir las distribuciones de
frecuencia y las distribuciones de porcentaje para cada grupo de modelos
de automóviles.
(f) En una gráfica, grafique las dos ojivas de porcentaje.
(g) Hiii'l!•l·f•> Escriba un breve reporte comparando y contrastando la
información de distancia de frenado para los dos grupos de modelos de
automóviles.
3.75 Usted está empleado como analista de una importante compañía de
construcción de edificios que está interesado en construir un centro
comercial ya sea en Centerport o Northport, dos comunidades adyacentes
en la costa norte de Long lsland en el condado de Suffolk, Nueva York.
La siguiente figura contiene los polígonos de frecuencia relativa acumulativa
(ojivas) de ingresos familiares de dos muestras aleatorias de 200 familias
extraídas de las dos comunidades.

1.00.r-,--~.--~----r----'-'-..--~- ........--.........,...
.90t---,,.'__,.-t-~-'---t--._..,.+.;;;......._~,;.;.....j---~·

Jg .80 t-:----;.,---'---t-:-""-.....,.fr.....,.-'-='~~~~~~ >


·e.¡g .. 70 1--,--,...;_..;.....,........,.-+-.,........~+-""'"'++-.....,......,.~.

-8 .60 1-..;....--+--,;.._+-~""-'-:iil.-;::..,,.,;,:.+;;..+;,,..:....:,-,;.~
<U
~ .sor----+~-'-..........,."-.;..:..,.,.;.,.,f-'--""--+'---"-----1
~<U •401------t-""'--''4-"'+""""-""""-+-------1----~·
·o
~ ,301------t~-+-"---+------+-----1-------1

'
::3
o
I!! .•20 1------1--,....,..--r----+----+-----t
u..
.1 o 1------........._-.,..-;-¡.-...--,-m--.,--_,,.-.,,...,..,----t
.oo~~-------""'eo_,....;.--.~90"'"·_ _ _1_,_2_0_"--.,-,..., Polígonos de frecuencia
relativa acumulativa de
····' · lrigres~s
. '
~aniluare~i(en
,• " .. .
$000) ;' :. .
'
Ingresos familiares para
dos comunidades.

Con base en estos datos, responda las siguientes preguntas:


(a ¿Cuántas de las familias de Centerport tienen ingresos de $120,000 o
más?
(b) ¿Cuál es el porcentaje de familias de Centerport que tienen ingresos de
menos de $90,000?
(c) ¿Qué muestra tiene un mayor alcance de ingresos?
(d) ¿Cuántas de las familias de Northport tienen un ingreso de al menos
$90,000 pero menos de $105,000?
(e) ¿Tiene Centerport o Northport más ingresos familiares de $60,000 o
más?
(f) ¿Qué porcentaje de familias de Centerport tienen un ingreso menor de
$60,000?
(g) ¿Qué porcentaje de familias de Centerport tienen un ingreso mayor de
$60,000 o más?
(h) ¿Qué comunidad tiene más ingresos por debajo de $120,000?
(i) Use las ojivas para construir la distribución de frecuencia relativa y la
distribución de frecuencia para cada comunidad.

Problemas de revisión del capítulo 99


(j) En una gráfica, grafique los dos polígonos de frecuencia relativa.
(k) f.fiiii?i 1t.t 1 J> Escriba un breve reporte comparando y contrastando las dos
distribuciones de ingresos.
3.76 Usted trabaja para una agencia consultora independiente contratada por una
conocida compañía de bienes raíces especializada en la venta de casas en las
Pocono Mountains en el noreste de Pennsylvania. Su tarea es evaluar las tasas
de hipotecas de los propietarios de casas en dos populares comunidades.
La figura siguiente contiene las ojivas de porcentaje de las hipotecas de 100
propietarios de casas muestreados en Penn Estates y 200 propietarios
muestreados en Hemlock Farms, dos comunidades de Pocono.

100 r--~---.-~_...,.-"·-·~---.----,..-~----=--

901--~--+~---¡,,,,,.,,,.._,.,.¡.,-,,.-:-~~--='"-t-~--1

801-----11-----t---::tr=--+~--+---~
.g
-m 70
·a.
e 60 1----+----t---#---t---r-+---1-----1
a.
·~ 50
-~: 40 ....._·._ _ _ _ _....,________.,..__ _ _ _ _,___ ___,
ll 30"1----+---..;.i-''---"""*---+---1-----1
~
o
~ 201----+-----...'F---..r--+----+---+-----l

Ojivas de porcentaje de tasas 101----+-~-.¡_.,~--+--_;.-+----1--""-'-l

de hipotecas de 100
propietarios de casas de
Penn Estates y 200 de
º...L..:=--~.....~~. ~1~..~~.-1~,5---'-~a-----a~;5-·.--'-'--'e·
Hemlock Farms. T.~sa a~ hiptjt~91l~ (o/~j: · · ·
~. - :. ..·'. ·:'.,:~ ."'

Basándose en estos datos, responda las siguientes preguntas:


(a) ,¿Cuál es el alcance de las tasas de hipotecas de los propietarios de casas de
· ·l?enn Esta tes? .
(b) ¿Cuál es el alcance de las tasas de hipotecas de los propietarios de casas de
Hemlock Farms?
(c) ¿Cincuenta por ciento de los propietarios de casas de Penn Estates tenía
hipotecas con tasas menores a qué cantidad?
(d) ¿Cincuenta por ciento de los propietarios de casas de Hemlock Farms
tenía hipotecas con tasas menores a qué cantidad?
(e) ¿Qué porcentaje de los propietarios de Penn Estates tenía hipotecas con
tasas de al menos 7.5% pero menos de 8%?
(f) ¿Qué porcentaje de los propietarios de Hemlock Farms tenía hipotecas
con tasas de menos de 8%?
(g) ¿Cuántos de los propietarios de Penn Estates tenían hipotecas con tasas de
8.5%omás?
(h) ¿Qué comunidad contiene el mayor porcentaje de propietarios que tenían
hipotecas con tasas menores de 7.25%?
(i) Use las ojivas para construir la distribución de porcentaje y la distribución
de frecuencia para cada una de las muestras.
(j) Grafique los dos polígonos de porcentaje en una gráfica.
(k) f.fiii!IJMl•J> Escriba un breve reporte comparando y contrastando sus dos
distribuciones. ¿Qué parece ser evidente respecto a las tasas de hipotecas
en estas dos comunidades? ¿Qué razón(es) puede(n) atribuirse a esto?
(Sugerencia: Una de estas comunidades ha tenido un crecimiento estable
durante 20 años; la otra ha crecido rápidamente durante 10 años.)

100 Capítulo 3 Presentación de datos numéricos en tablas y diagramas


3.77 (Proyecto del estudiante) Elija una acción enumerada en la NYSE y,
comenzando en un lunes, registre su precio de cierre diario durante un
periodo de cuatro semanas completas (20 días) en el que está abierto el
mercado de valores. También registre los cambios en el precio de cierre de la
sesión de negocios precedente durante este periodo de cuatro semanas.
(a) Analice cada serie de datos.
(b) ¿Parece haber un patrón en los precios de cierre de la acción durante este
periodo?
(c) ¿Parece haber un patrón en los cambios de los precios de cierre con el
tiempo?
(d) f.fOJii'Ji•t·l•P Escriba un memorándum a su profesor de finanzas basándose
en sus hallazgos en (b) y (c).

n Proyectos de minicasos de aprendizaje


l_iill colaborativo
Nota: La clase debe dividirse en grupos de tres o cuatro estudiantes. Inicialmente se
selecciona un estudiante para que sea coordinador del proyecto, otro estudiante es el
que registra el proyecto y un tercero es el cronometrador del proyecto. Para que cada
estudiante gane experiencia en el desarrollo del trabajo de equipo y en las habilidades
de liderazgo, después de cada proyecto debe haber una rotación de posiciones. Al prin-
cipio de cada proyecto, los estudiantes deben trabajar silenciosa e individualmente
durante un corto periodo especificado. Una vez que cada estudiante ha tenido la opor-
tunidad de estudiar los asuntos y reflejar sus posibles respuestas, el grupo se reúne y
se sigue con una discusión de grupo. Si todos los miembros de un grupo están de
acuerdo con las soluciones, el coordinador es responsable de presentar la solución del
proyecto del equipo al instructor con las firmas de los estudiantes indicando tal
acuerdo. Por otra parte, si uno o más miembros del equipo no están de acuerdo con la
solución oftecida por la mayoría del equipo, una opinión de minoría puede anexarse
al proyecto presentado, con firma(s).
CL 3.1 El analista investigador de la compañía de servicios de asesoría colegial se hirió
levemente en un accidente automovilístico y requiere ayuda para terminar su
informe respecto a las colegiaturas cobradas a residentes fuera del estado por
colegios y universidades en diferentes regiones del país. Con el fin de cumplir
con la fecha límite para una presentación a la junta de directores, el gerente de
comercialización decide contratar a su grupo, la Corporación _ _, para
ayudar al analista investigador en sus esfuerzos. Dado el Conjunto de datos
especiales 1 del apéndice D de las páginas D4-DS respecto a las colegiaturas
cobradas a residentes fuera del estado en los 90 colegios y universidades del
estado de Pennsylvania, la Corporación _ _ está preparada para:
(a) Delinear cómo procederán los miembros del grupo con sus tareas.
(b) Formar la distribución de frecuencia y de porcentaje en la misma tabla.
(c) · Graficar el polígono de porcentaje.
(d) Formar la distribución de porcentaje acumulativo.
(e) Graficar la ojiva de porcentaje.
(f) Realizar un análisis descriptivo comparando las colegiaturas de
Pennsylvania con las de Texas y Carolina del Norte.
(g) Escribir y presentar un resumen ejecutivo, anexando todas las tablas
y diagramas.
(h) Preparar y ofrecer una presentación oral de diez minutos al gerente de
comercialización.
CL 3.2 Una popular revista familiar interesada en publicar un artículo sobre las
virtudes dietéticas (o falta de éstas) de cereales listos para comerse contrata a
su grupo, la Corporación _ _ , para estudiar su costo y características
nutricionales. El tema que el artículo trata de presentar es que los "cereales
listos para comerse son una forma rápida y eficiente de que la familia
comience el día". Contando con el Conjunto de datos especiales 2 del

Problemas de revisión del capítulo 1O1


apéndice D de las páginas D6-D7 que muestra información útil sobre 84 de
estos cereales, la Corporación _ _ está preparada para:
(a) Delinear cómo procederán los miembros del grupo con sus tareas.
(b) Realizar un análisis descriptivo.
(c) Escribir y presentar un resumen ejecutivo, anexando todas las tablas
y diagramas.
(d) Preparar y ofrecer una presentación oral de diez minutos al editor de
comida de la revista.
CL 3.3 El fabricante de conocidas fragancias de hombres y mujeres está planeando
desarrollar una nueva línea de productos a comercializarse para la siguiente
temporada vacacional. El director de comercialización contrata a su grupo, la
Corporación _ , para estudiar las características de fragancias actualmente
disponibles de manera tal que el fabricante esté en mejor posición de poner
precio a su línea de productos recién desarrollada. Contando con el Conjunto
de datos especiales 3 del apéndice D de las páginas D8-D9 que muestra
información útil sobre 83 de estas fragancias, la Corporación _ _ está
preparada para:
(a) Delinear cómo procederán los miembros del grupo con sus tareas.
(b) Realizar un análisis descriptivo.
(c) Escribir y presentar un resumen ejecutivo, anexando todas las tablas y diagramas.
(d) Preparar y ofrecer una presentación oral de diez minutos al director de
comercialización.
CL 3.4 Un conocido periódico desea presentar un artículo especial sobre cámaras
compactas de 35 mm en su sección dominical de viajes y contrata a su grupo,
la Corporación _ _, para realizar un análisis descriptivo respecto a las carac-
terísticas de equipos importantes. El tema del artículo que el editor de viajes
desea que se escriba se refiere al "importante valor de las cámaras de 35 mm
para los viajes familiares". Contando con el Conjunto de datos especiales 4 del
apéndice D de las páginas 010-Dl 1 que muestra información útil sobre 59 de
estas cámaras, la Corporación _ _ está preparada para:
(a) Delinear cómo procederán los miembros del grupo con sus tareas.
(b) Realizar un análisis descriptivo.
(c) Escribir y presentar un resumen ejecutivo, anexando todas las tablas y diagramas.
(d) Preparar y ofrecer una presentaCión oral de diez minutos al editor de viajes.

Nota Final
l. Al final de la sección 3.2 comentamos que el diagrama de tanto, el diagrama de tallo y hojas (revisado) es,
tallo y hojas (revisado) es, tal vez, la técnica más versátil en esencialmente, una clasificación ordenada, una distribución
estadística descriptiva porque simultáneamente organiza de frecuencia y un histograma de frecuencia, todos en unó,
los datos para análisis descriptivos posteriores y los sin sacrificar la información original relativa a las mismas
presenta tanto en forma tabular como diagramática. Por lo observaciones individuales.

Referencias
l. Chambers, J. M., W. S. Cleveland, B. Klelner, y P. A. 9. SAS User's Guide Version 6 (Raleigh, NC: SAS Institute,
Tukey, Graphical Methods for Data Analysls (Boston, MA: 1988).
Duxbury Press, 1983). 10. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
2. Croxton, F., D. Cowden, y S. Kleln, Applied General Statistics, Software, Inc., 1992).
3d ed. (Englewood Cliffs, NJ: Prentlce-Hall, 1967). 11. Tufte, E. R., The Visual Display ofQuantitative Information
3. Ehrenberg, A. S. C., "Rudiments of Numeracy", Toumal of (Cheshire, CT: Graphics Press, 1983).
the Royal Statistical Society, Series A, vol. 140 (1977), pp. 12. Tufte, E. R., Envisioning Information (Cheshire, CT:
277-297. Graphics Press, 1990):
4. Huff, D., How to Lie with Statistics (Nueva York: W.W. 13. Tukey, J., Exploratory Data Analysis (Reading, MA:
Norton, 1954). Addison-Wesley, 1977).
5. Hunter, J. S., "The Digidot Plot", The American Statistician, 14. Velleman, P. F., and D. C:Hoaglin, Applications, Basics,
vol. 42 (Febrero de 1988), p. 54. and Computing of Exploratory Data Analysis (Boston, MA:
6. Kimble, G. A., How to Use (and Misuse) Statistics Duxbury Press, 1981).
(Englewood Cliffs, NJ, Prentice-Hall, 1978). 15. Wainer, H., "How to Display Data Badly," The American
7. MINITAB Reference Manual Release 8 (State College, PA: Statistician, vol. 38 (mayo 1984), pp. 137-147.
Minitab, lnc., 1992).
8. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
Additional Instructions for SPSSJPC+ (Chicago, IL: SPSS Inc.,
1986).

102 Capítulo J Presentación de datos numéricos en tablas y diagramas


capítulo

••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVO DEL Proporcionar una comprensión de las
características o propiedades de los
CAPÍTULO datos numéricos (tendencia central,
variación, forma) y sus mediciones
descriptivas de resumen
correspondientes, como una ayuda
para el análisis e interpretación
de datos.

103
IHI Introducción: Lo que sigue
En los capítulos anteriores aprendimos cómo recolectar y presentar datos numéri-
cos tanto en formato tabular como en formato gráfico. Ahora bien, ¿cómo le
sacamos sentido a tal información? Por ejemplo, ¿qué nos dicen los datos de la
Encuesta sobre la satisfacción de los empleados de Industrias Kalosha de la tabla
2.3 (páginas 33-40)? ¿Cómo puede la B&L Corporation, la compañía de consultoría
sobre beneficios a empleados, usar finalmente estos resultados para desarrollar un
paquete de beneficios para los empleados? Aunque la recolección y la posterior
presentación de los datos son dos componentes esenciales del tema de la estadís-
tica descriptiva, éstos no cuentan toda la historia. Un buen análisis de datos no sólo
implica la presentación (es decir, la graficación) de los datos numéricos recolectados
y la observación (es decir, el estudio) de lo que los datos tratan de transmitir, sino
que también implica el cómputo (es decir, la caracterización o resumen) de las carac-
terísticas clave y la descripción (es decir, el análisis) de los hallazgos. En este capí-
tulo, examinaremos estos últimos aspectos: el resumen, descripción y, finalmente,
la interpretación de los datos.
Con el fin de presentar las ideas importantes del capítulo, podemos ver en el dia-
grama de resumen del capítulo de la página 160 que existen tres características o
propiedades esenciales de los datos numéricos: la tendencia central, la variación y la
forma. El objetivo de este capítulo es proporcionar una comprensión de estas carac-
terísticas o propiedades de los datos numéricos y sus mediciones descriptivas de
resumen correspondientes, como una ayuda para el análisis e interpretación de datos.
Después de concluir este capítulo, usted debe poder:
l. Comprender la propiedad de la tendencia central.
2. Interpretar las diferencias entre las diversas mediciones de tendencia
central como la media, la mediana, la moda, el alcance medio y el
eje medio.
3. Comprender la diferencia entre la tendencia central y la tendencia
no central.
4. Comprender fa· propiedad de la variación.
S. Interpretar las diferencias entre las diversas medidas de variación
como el alcance, el alcance intercuartil, la varianza, la desviación
estándar y el coeficiente de variación.
6. Comprender el papel y el uso de las reglas de Bienaymé-Chebyshev y
reglas empíricas.
7. Comprender la propiedad de la forma.
8. Apreciar el valor de las técnicas de análisis de datos exploratorio: los
resúmenes de cinco números y las gráficas de caja y bigotes.
9. Saber cómo aproximar mediciones descriptivas de resumen de una
distribución de frecuencia, polígono u ojiva.
10. Apreciar el valor de paquetes de software estadístico para calcular las
mediciones descriptivas de resumen.
11. Aprender a distinguir entre las mediciones descriptivas de resumen
adecuadas e inadecuadas que se reportan en los periódicos y revistas,
así como las cuestiones éticas implicadas.

i fi Exploración de los datos


Con el fin de introducir las ideas importantes de este capítulo, regresemos a nuestro
analista investigador de la compañía de servicios de asesoría colegial quien (en el
capítulo 3) deseaba estudiar las colegiaturas cobradas a residentes fuera del estado

104 Capitulo 4 Resumen y descripción de los datos numéricos


por colegios y universidades de diferentes regiones del país. En particular, se selec-
cionaron tres estados para su inmediata evaluación: Texas, Carolina del Norte y
Pennsylvania. Suponga, con propósitos exploratorios, que nuestro analista investi-
gador debe empezar seleccionando una muestra aleatoria de seis escuelas del listado
de poblaciones de 90 colegios y universidades del estado de Pennsylvania (véase
Conjunto de datos especiales 1 del apéndice D de las páginas 04-05).

Escuela de Pennsylvania Colegiatura (en $000)


University of Pittsburgh 10.3
East Stroudsburg University 4.9
Geneva College 8.9
Drexel University 11.7
California Univ. of Pa. 6.3
Slippery Rock University 7.7

Observamos que las seis escuelas (registradas en el orden en que fueron selec-
cionadas) se presentan junto con sus colegiaturas (en miles de dólares) cobradas a
residentes fuera del estado. ¿Qué puede aprenderse de estos datos que ayude a
nuestro analista investigador en su evaluación? Basándonos en esta muestra,
observamos lo siguiente:
l. Los datos están en forma sin procesar. Esto es, los datos recolectados
parecen estar en un orden aleatorio sin un patrón aparente respecto a la
manera en que se enumeran las observaciones individuales.
2. Cada una de las colegiaturas ocurre sólo una vez. Es decir, ninguna de
ellas se observa con más frecuencia que cualquier otra.
3. La extensión de las colegiaturas varía entre 4.9 y 11.7 miles de dólares.
4. No parece haber ninguna colegiatura inusual o extraordinaria en esta
muestra. Arregladas en orden numérico (es decir la clasificación
ordenada), estas colegiaturas (en miles de dólares) son 4.9, 6.3, 7.7, 8.9,
10.3, 11.7. (Si las colegiaturas, en miles de dólares, hubieran sido 4.9,
6.3, 7.7, 8.9, 10.3 y 28.0, entonces 28.0 miles de dólares se hubiera
considerado una observación extrema o externa.)

Si nuestro analista investigador nos pidiera examinar los datos y' presentar un
breve resumen de nuestros hallazgos, entonces lo único que básicamente
podríamos esperar hacer, sin más entrenamiento estadístico formal, serían comen-
tarios similares a los cuatro anteriores. Sin embargo, al hacer tales comentarios,
hemos analizado e interpretado lo que los datos tratan de transmitir. Un análisis es
objetivo; debemos estar de acuerdo con estos resultados. Por otra parte, una inter-
pretación es subjetiva; podemos formar diferentes conclusiones al interpretar nues-
tros resultados analíticos. De lo anterior, los puntos 2 a 4 se basan en el análisis,
mientras que el punto 1 es una interpretación. Con respecto a esta última, no se
hizo ninguna prueba analítica formal (véase la prueba de corridas del capítulo 12),
simplemente es nuestra conjetura que no existe ningún patrón de la secuencia
de datos recolectados. Además, nuestra conjetura parecería apropiada si la mues-
tra de seis escuelas se extrajo de manera aleatoria e independiente del listado de
población usando los métodos de encuesta descritos en el capítulo 2. Ése fue el caso
aquí.
Ahora veamos cómo podemos aumentar nuestra comprensión de lo que los
datos nos dicen al examinar de manera más formal tres propiedades de los datos
numéricos.

Exploración de los datos 105


i 11 Propiedades de los datos numéricos
Las tres mejores propiedades que describe una serie numérica de datos son
l. Tendencia central
2. Variación
3. Forma
En cualquier análisis y/o intepretación puede usarse una variedad de medi-
ciones descriptivas que representan las propiedades de tendencia central, variación
y forma para extraer· y resumir las principales características de la serie de datos¿
~stas ffi~dicioneL_g~cr~J?.tiv<!~~~--!.~~~JE.~n ... S.,e.~é!~c-~~E-.~-E~rti!._~~-Y~:~~..Ill~~s_t!a de
datos, se denominan estadísticas; si se calculan a partir de una población completa
<de datos, se denominan parámetros. Puesto que los estadísticos generalmente toman
muestras en vez de usar poblacfones enteras, nuestro principal énfasis en este texto
está puesto en las estadísticas más que en los parámetros.

e H1 Mediciones de la tendencia central


La mayor parte de las series de datos muestran una clara tendencia a agruparse
alrededor de un cierto punto central. Así pues, dada cualquier serie de datos par-
ticular, por lo general es posible seleccionar algún valor o promedio típico para
describir toda la serie de datos. Este valor descriptivo típico es una medición de ten-
dencia central o de ubicación.
Cinco tipos de promedios a menudo usados como mediciones de tendencia
cent~al son la _media aritmética, la mediana, la m~~--~l r~ngo medio~_~j_~
medio. . ·--·-

4.4. 1 La media aritmética


La media aritmética (también llamada la giedja) es el promedio 1 o medición de
tendencia central de uso más común. Se calcula sumando todas las observaciones
de una serie d~.U:'. ll!ego d_ividien.fü~.. ~Ltotal_.~!!!!.~.~!.Jiúipero de elementos
involucrados.

• Introducción de la notación algebraica Por lo tanto, para una muestra


que contiene una serie den observaciones X , X , ... , X , la media aritmética (dada
por el símbolo X, denominado "X barra") ptled~ escribfrse como

X= X¡ + Xz + ... + xn
n
Para simplificar la notación y por comodidad se usa convencionalmente el término

(que significa la sumatoria de todos los valores X.) siempre que deseemos sumar una
serie de observaciones. Esto es, '

106 Capítulo 4 Resumen y descripción de los datos numéricos


!x;
i =1
= X1 + X 2 + ... + X,.

Las reglas relativas a la notación de sumatoria se presentan en el apéndice B en


las páginas Bl-B5. Usando esta notación de sumatoria, la media aritmética de la
muestra puede expresarse de manera más simple como

n ,
- L,x,
- í=l
·X=------
n

donde X = media aritmética de la muestra


n = tamaño de la muestra
X. = iésima observación de la variable aleatoria X
L X¡ = sumatoria de todos los valores Xi de la muestra
n '

;=1 (véase el apéndice B)

Para la muestra de nuestro analista investigador, las colegiaturas cobradas a resi-


dentes fuera del estado (en miles de dólares) son
X1 = 10.3 en University of Pittsburgh
X2 = 4.9 en East Stroudsburg University
X3 = 8.9 en Geneva College
X4 = 11.7 en Drexel University
X 5 = 6.3 en California Univ. of Pa.
X 6 = 7.7 en Slippery Rock University

La media aritmética para esta muestra se calcula como


n
L,xj
X- = - - - = 10.3 + 4.9 + 8.9 + 11.7 + 6.3 + 7.7
i=l
= 8 .30 m1·1es d e d'l
o ares ;
n 6
Aquí observamos que la media se calcula como 8.3 miles de dólares aun
cuando ninguna escuela en particular de la muestra tenía realmente esa cole-
giatura. Además, vemos de la escala de puntos de la figura 4.1 en la página 108
que para esta serie de datos tres observaciones son menores que la media y tres son
mayores. La media actúa como punto de equilibrio de tal forma que las observa-
ciones menores compensan aquellas que son 'mayores.
Observe que el c4lculo de la media se basa en todas las observaciones (X , Xz' ••. ,
X ) de la serie de datos. Ninguna otra medición de tendencia central comúhmente
usada posee esta característica. Puesto que su cálculo se basa en cada observación,
la media aritmética se ve afectada en gran medida por cualquier valor extremo. En
estos casos, la-media aritmética presenta una re¡:nesentación distorsionada de lo
que los datos están transmitien<;\~¡_a~i :g~ Ja ¡m:gta no sería el mejor promedio~ª
µsarse para describir o resumir esta serie de datos.

Mediciones de la tendencia central 107


4
Figura 4.1
Escuela de puntos que representa las
colegiaturas (en $000) en seis escuelas
X=B.3
de Pennsylvania. ··,/

Para continuar demostrando las características de la media, suponga que nues-


tro investigador toma una muestra aleatoria de n = 6 escuelas del marco de
población de 60 en el estado de Texas y otra muestra aleatoria de n = 6 escuelas del
listado de 45 del estado de Carolina del Norte. Las colegiaturas cobradas a resi-
dentes fuera del estado (en miles de dólares) se reportan de la siguiente manera:

Escuela de Texas Colegiatura (en $000)


Concordia Lutheran College 6.4
Southem Methodist University 12.0
Texas A & M University 4.9
Lubbock Christian University 6.4
Rice University 8.5
Trinity University 11.6

Escuela de Carolina del Norte . Colegiatura (en $000)


Methodlst College 8.3
Warren Wllson College 8.7
Campbell Unlverslty 7.6
Belmont Abbey College 8.3
Catawba College 9.0
North Carolina State University 7.9

Las escalas de puntos respectivas se muestran en las figuras 4.2 y 4.3.


Observe que la colegiatura media para cada una de estas muestras también es
8.3 miles de dólares. No obstante, como se observa en las figuras 4.2 y 4.3, las dos
muestras aquí extraídas tienen características claramente distintas, respecto a la
otra y respecto a la muestra de seis escuelas de Pennsylvania descrita en la figura
4.1. Por ejemplo, tres de las seis escuelas de Texas tienen colegiaturas bastante
distintas de las de la Trinity University y de la Southern Methodist University.
Para esta muestra, la media aritmética presenta una representación algo distor-
sionada de lo que los datos están transmitiendo y puede que no sea el mejor
promedio a usarse.
Por otra parte, para la muestra de las escuelas de Carolina del Norte y la mues-
tra de las escuelas de Pennsylvania, la media es la medición-descriptiva apropiada
para caracterizar y sumar las series de datos respectivas porque no están presentes
observaciones externas.
De hecho, los datos de Carolina del Norte son bastante homogéneos. Dos de las
seis escuelas de esta muestra tienen colegiaturas equivalentes a la media; además,
de las figuras 4.1a4.3, es claro que las colegiaturas cobradas por estas seis escuelas
de Carolina del Norte contienen la mínima cantidad de dispersión o variabilidad
entre las tres muestras. Asimismo, tambié.n se observa que los datos de colegiaturas
de cada una de las muestras de Pennsylvania y Carolina del Norte poseen la
propiedad de simetría, mientras que no ocurre así con los datos de colegiaturas de
Texas. (Las propiedades de variación y forma se abordarán más adelante en las sec-
ciones 4.5 y 4.6.)

108 Capítulo 4 Resumen y descripción de los datos numéricos


00
10 12

Figura 4.2
Escala de puntos que representa las
• : ¡,
X=S.3 colegiaturas (en $000) en seis
escuelas de Texas.

4 6 10 12

Figura 4.J
Escala de puntos que representa las
X=8.3 colegiaturas (en $000) en seis
escuelas de Carolina del Norte.

4.4.2 La mediana
La mediana es el valor medio de una secuencia ordenada de datos. Si no hay
empates, la mitad de las observaciones serán menores y la otra mitad serán ma-
yores. La mediana no se ve afectada por ninguna observación extrema de una serie
de datos. Por tanto, siempre que esté presente una observación extrema es apro-
piado usar la mediana en vez de la media para describir una ~~Jie de datos.
Para calcular la mediana de una serie de datos recolectados en su forma sin
procesar, primero debemos poner los datos en una clasificación ordenada. Después
usamos la f'órmula del punto de posicionamiento

n+l
2

para encontrar el lugar de la clasificación ordenada que corresponde al valor de la


mediana. Se sigue una de dos r~las:

Regla 1 SJ el tamaño de la muestra es un número~ mediana se


representa mediante el valor numérico correspoodiente al .e_unto de
eosiciOIJ.!lflll~w.Ja obser'@fP_'!. ord.f.~~"!:::llfb,_.

Regla 2 Si el tamaño ~J;!J;t_mY~U@...e.s...1.u:i.nÚIIli!r:@entonces ~!. pJmto _


de posicionamiento cae entre las dos observac~nes medias de la
clasificación ordenada. La mediana es el promedio de los valores numéricos
corresP.~~dl;n"t;5-~-;~tas dos obser.y~~!'-4:~~~. _{'__\_::__~?---·
•2-
• Muestra de tamaño uniforme Para la muestra de nuestro investigador
de seis escuelas de _Pennsylvania, los datos sin procesar (en miles de dóla~es) fueron
· 10.3 4.9 8.9 11.7 6.3 7.7

Mediciones de la tendencia central 109


La clasificación ordenada se vuelve

Obsevación
ordenada
4.9 6.3

2
7.7

3
1 8.9

4
10.3

5
11.7

6
Mediana = 8.30 miles de dólares

Para estos datos, el punto de posicionamiento es (n + 1)/2 = (6 + 1)/2 = 3.5. Por


consiguiente, la mediana se obtiene promediando la tercera y la cuarta observa-
ciones ordenadas:

7· 7 + 8 ·9 = 8.30miles de dólares
2

Como puede verse en la clasificación ordenada, la mediana no se ve afectada


por observaciones extremas. Sin importar si la colegiatura mayor es 11. 7 miles de
dólares, 21.7 miles de dólares o 31.7 miles de dólares, la mediana sigue siendo 8.3
miles de dólares.

• Muestra de tamaño no uniforme Si la muestra hubiera tenido un


número impar, la mediana estaría representada simplemente por el valor numérico
dado a la observación (n + 1)/2 de la clasificación ordenada. Por tanto, en la siguiente
clasificación ordenada de n = 5 colegiaturas de estudiantes GMAT, la mediana es el
valor de la tercera observación ordenada [es decir, (5 + 1)/2], 590:

500 570 590 600 690


1'
Mediana
Observación
ordenada 2 3
t 4 5

• Empates en los datos Al calcular la mediana, ignoramos el hecho de que


puede haber valores empatados en los datos. Suponga, por ejemplo, que la siguien-
te serie de datos representa los sueldos de inicio (en miles de dólares) de una mues-
tra de n = 7 estudiantes de comercio recientemente graduados de su colegio:

24.1 22.6 27.0 19.8 21.5 23.7 22.6

La clasificación ordenada se vuelve

19.8 21.5 22.6 22.6 23.7 24.1 27.0


Me~iana
Observación
ordenada
t
2 3 4 5 6 7

Para esta muestra de tamaño impar, el punto de posicionamiento de la mediana es


la (n + 1)/2 = 4a observación ordenada. Así, la mediana es 22.6 miles de dólares, el
valor medio de la secuencia ordenada, aun cuando la tercera observación ordenada
sea también 22.6 miles de dólares.

• Características de la media Para resumir, el cál~.J.Il<u;l~LY.ªlºL<t~Jª-m~­


diarnL~~ ve c.tfecta9q por el gúm~ro de_ 9.Qs~rvaci9pes, I1º por la magnitud de._

110 Capítulo 4 Resumen y descripción de los datos numéricos


~é!,lqui~! .. ~~!~~.?.:
Cualquier observación seleccionada aleatoriamente tiene la
misma probabilidad de exceder la mediana como de ser excedida por ésta.

4.4. J La moda
Algunas veces, al resumir o describir una serie de datos, la moda se usa como una
medición de tendencia central. La moda ~Lel~ªlor_de un¡i serie de datos que
aparece co~_J!l~Ji:~<::l.!~P.rtª. Se obtiene fácilmente de una clasificación ordenada.
A diferencia de la media aritmé'°iica~lamocta.no-seveatecta4ii_Q!l<1. o<;,urreI.KJª-·ªe
.f.Ualesquier valores...extremos. Sin embargo, la moda no se u~ª-l!ªra RroJ2QSM.Q1.!!@§
que descriptivos porque es más variable de muestra a muestra que otras mediciones
de tendencia central.
Usando la clasificación ordenada de las colegiaturas cobradas en una muestra
de seis escuelas de Pennsylvania
4.9 6.3 7.7 8.9 10.3 11.7

vemos que no hay moda. Ninguna de las colegiaturas fue la '~!!l.ÁS..!!I.:?!f.!!.".


Observe que hay una diferencia entre ninguna lllQda._y.una.ro.o..diuk.Q, como se
ilustra en la siguiente clasificación ordenada de temperaturas de mediodía (ºF) en
Duluth durante la primera semana de enero:
Clasificación ordenada
(Duluth, Minnesota) -4º -2º -1º -1º Oº o· Oº

Moda= Oº

Además, una serie de ~<_tto~uede tener más Q.~_!!!!ª 11)..QQ-ª1.S.Q!llO.. ~~jJy~tiíU.n.lª


siguiente clasificación ordenada de temperaturas de mediodía (ºF) en Richmond
durante la primera semana de enero:
Clasificación ordenada
(Richmond, Virginia) 21 • 28º 28º 35º 41° 43º 43°

En Richmond vemos que hubo dos modas, 28º y 43º. Estos datos se <k:scrihen coma.
/Ji'mº-4.qle!_~

4.4.4 El rango medio


El rango ~edio es el prqm_~,9_io_g~J.ªLQP.J~IYª~!m!~S.l!.!fl.!QrfJ_X,.mªvorgs d~.,Yna
serie de dat()~.· Esto puede escribirse como

Xmenom -i; Xmayores


Rango medio = - - - - - - - (4.2)
2

Usando la clasificación ordenada de colegiaturas cobradas de la muestra de nuestro


analista investigador de seis escuelas de Pennsylvania:

Mediciones de la tendencia central 1 11


4.9 6.3 7.7 8.9 10.3 Í L7

el rango medio se calcula a partir de la ecuación (4.2) como

Xmenores + Xmayores
Rango medio
2
4 ·9 + ll.? = 8.30 miles de dólares
2

El rango medio a menudo es usado como una medición de resumen tanto


por analistas financieros como por reportero~..m._~eo.mlógkvs, puesto que puede .
, proporcionar una medición adecuada, IftP~<i.ª-.Y-~!ml!l.t:..Q-ª.rn. . ~;;l!í!.l;;tetiz-ªJ:Jruia una
~!?_[je de_Q~to~ sea ésta una serie de precios de acciones diarias al cierre durante todo
un año o una serie de lecturas registradas de temperatura por horas durante todo un
día.
Al tratar con datos como los precios de acciones diarias al cierre o lecturas de
temperatura por horas, no es probable que ocurra un valor extremo. No obstante,
en la mayoría de las aplicaciones, a pesar de su simplicidad, el rango medio debe
usarse con precaución. Dado que involucra sólo las observaciones menores y ma-
yores de una serie de datos, .elgti.&Q,.fil.~.9!2.•~.~<!!ili>.~~!~mo una medición de
_resu,ro_~I}__g~_ t~!lQ~!!f.ié!_ ~~_11,JrnL~L~~t~.PJ;e~~I..lJ~ un-ª~91?..~.~.t'Lé!SJQU."e&ema. En tales
situaciones, el rango medio es inapropiado; una medición de resumen de alguna
manera similar en formato al rango medio que siempre es apropiada porque no se
ve afectada por externas es el eje medio.

4.4. 5 El eje medio


El eje medio es el promedio del primer y tercer cuartiles de una serie de datos. Es
decir,

.. ·i' . i

Eje medio (4.3) .

donde ~ = primer cuartil


~= tercer cuartil

Es una medición de resumen usada para zanjar problemas potenciales introduci-


dos por los valores extremos de los datos.

• Cuartiles: Mediciones de ubicación "no central" Además de las


mediciones de tendencia central, también existen algunas mediciones útiles de
ubicación "no central" que se emplean particularmente al resumir o describir las
propiedades de grandes series de datos numéricos. 2 Las mediciones de este tipo más
ampliamente usadas son los cuartiles.
Mientras que la mediana es un valor que divide la clasificación ordenada a la
mitad (50.0?Lo .dg.1ªs....Ql>.s.~1;:.k!Q~~QDJileJl.Q!~~S .~Q,Q?¿'q_gglé!~ _ob2fryacl_o_ne~.§Q!l..!
, mayores). los c;.,uartiles son mediciones descrietiva~9.~2.!_viden ~sw datos 9!~-
dos en cnatro.J:Uart.Q.s, .

112 Resumen y descripción de los datos numéricos


El primer cuartil, Q , es un valor tal que 25.0% de las observaciones son
menores y 75.0% de la1 observaciones son mayares
El segundo cuartil, !22 , e~)a ~<;!E~ 50.Q.~~~-Q!Jservaciones son
II_!enores y 50.0% de l~t2!?.lliY2$.~S ~.Q,Il mayoi;.eL.,.
El tercer cuartil, Q, es un valor tal que 75.0% de l~~.Y-ª.d.Qm..S.QU
menores y 25.0% de fas.observaciones son ~¡.es ..
Para aproximar los cuartiles, se usan las siguientes @nnulas de punto de posi-
cionamiento:

~= valo< con.,pondiente@bwvaclón clasificada

2 1 = n + 1 observación clasificada
~= mediana, el valor correspondiente a (n + )
4 2
3(n + 1)
~= valor correspondiente a observación clasificada
4

Las siguientes reglas se usan para obtener los valores de cuartiles:


l. Si el punto de posicionamiento resultante es un entero, se elige la
observación numérica particular correspondiente a ese punto de
posicionamiento para el cuartil.
2. Si el punto de posicionamiento resultante está a la mitad del camino
entre dos enteros, se selecciona el promedio de sus valores
correspondientes.
3. Si el punto de posicionamiento resultante no es ni un entero ni un
valor a la mitad del camino entre dos enteros, se usa una regla simple
para aproximar el cuartil particular que consiste en redondear al punto
de posicionamiento entero más cercano y seleccionar el valor
numérico de la observación correspondiente.
Para calcular nuestro eje medio [véase la ecuación (4.3)], primero necesitamos
calcular ~ y Q. Por ejemplo, de la observación clasificada de las colegiaturas
cobradas (en miles de dólares) a residentes fuera del estado en las seis escuelas de
Pennsylvania tenemos

Q1 = n 4+ 1 observación clasificada

6+1
=- -= 1.75ta. :: 2da. observación clasificada
4

Por tanto,~ puede aproximarse como 6.30 miles de dólares.

3(n + 1)
Q3 = observación clasificada
4
3( 6 + 1)
= --
4
- = 5.25ta. :: 2da. observación clasificada

En consecuencia, ~ puede aproximarse como 10.30 miles de dólares.


Regresando a la ecuación (4.3), ahora podemos calcular el eje medio como

Mediciones de la tendencia central 1 13


Ql + Q3
Eje medio
2
6 ·3 + I0. 3 = 8.30miles de dólares
2

Este resultado, el promedio de~ y~ (dos mediciones de ubicación no central),


no puede verse afectado por externas potenciales, puesto que no se considera
ninguna observa\:iÓn menor que~ o mayor que~· Las mediciones de resumen
como el eje medio y la mediana, que no pueden ser afectadas por externas, se
denominan mediciones resistentes.

Problemas de la sección 4.4


4.1 ¿Cuáles de los siguientes enunciados son objetivos y cuáles son subjetivos
(interpretativos)?
(a) El precio promedio (media) de una casa en el condado de Bergen es de
$184,700.
(b) El hospedaje es caro en Palo Alto.
(c) La policía en Nueva York es más sagaz, mejor educada y más honesta
ahora que hace 30 años.
(d) Se reportaron más robos por 1,000 casas en Chicago el año pasado que en
Des Moines.
(e) El puntaje promedio (media) en una prueba de IQ de estudiantes en la
Wallace School of Science es 145.
(f) El dumping de productos extranjeros está paralizando nuestra industria.
• 4.2 Dadas las siguientes dos series de datos, cada una con muestras de tamaño n = 7:
Serie 1: 10 2 3 2 4 2 5

Serie 2: 20 12 13 12 14 12 15
(a) Para cada serie, calcule la media, mediana, moda, rango medio y eje
medio.
(b) Compare sus resultados y resuma sus hallazgos.
(c) Compare el primer elemento muestreado de cada serie, compare el
segundo elemento muestreado de cada serie, etc. Describa brevemente sus
hallazgos aquí a la luz de su resumen de la parte (b).
f 4.3 Un entrenador debe decidir cuál de dos corredores de velocidad seleccionar
para la carrera corta de 100 metros en un futuro encuentro. El entrenador
basará la decisión en los resultados de cinco carreras entre los dos atletas
corridas con intervalos de descanso de 15 minutos. Los siguientes tiempos (en
segundos) se registraron para las cinco carreras:

Raza
Atleta 1 2 3 4 5
Sharyn 12.1 12.0 12.0 16.8 12.1
Tamara 12.3 12.4 12.4 12.5 12.4

(a) Basándose en estos datos, ¿cuál de los dos corredores debe seleccionar el
entrenador? ¿Por qué?
(b) ¿Debería ser distinta la elección si el entrenador supiera que Sharyn se
cayó al inicio de la cuarta carrera? ¿Por qué?
(c) Analice las diferencias en los conceptos dela media y la mediana como
mediciones de tendencia central y cómo se relaciona esto con (a) y (b).

114 Capitulo 4 Resumen y descripción de los datos numéricos


4.4 Suponga que, debido a un error, una serie de datos que contiene los cocientes
de precios-ingresos (PE) de nueve compañías negociadas en la Bolsa de Valores
estadounidense se registró como 13, 15, 14, 17, 13, 16, 15, 16 y 61, donde el
último valor debería haber sido 16 en vez de 61. Demuestre cuánto se afectan
la media, la mediana y el rango medio por el error (es decir, calcule estas estadís-
ticas para los conjuntos de datos "malos" y "buenos", y compare los resultados
de usar diferentes estimadores de tendencia central).
4.5 Un fabricante de baterías de linternas tomó una muestra de 13 baterías de la
producción de un día y las probó continuamente hasta que fallaron. El
número de horas que fueron probadas fue
342,426,317,545,264,451, 1049,
631,512,266,492,562,298
(a) Calcule la media, la mediana, el rango medio y el eje medio. Observando
la distribución de tiempos, ¿qué mediciones descriptivas parecen mejores
y cuáles parecen peores? (¿Y por qué?)
~ (b) ¿De qué manera sería útil esta información para el fabricante? Analice.
4.6 En la sección 4.5.3 se establece que una propiedad importante de la media
aritm~tica es

n
L(X; -X)= o
í =1

(a) Usando las colegiaturas a residentes fuera del estado de la muestra de seis
colegios y universidades de Texas (véase la página 108), verifique que se
cumple esta propiedad. .
(b) Usando las colegiaturas a residentes fuera del estado de la muestra de seis
colegios y universidades de Carolina del Norte (véase la página 108),
verifique que se cumple esta propiedad.
4. 7 Los siguientes datos representan los precios (sin receptores de césped) de una
muestra de 15 segadoras mecánicas de bolsa lateral de un alcance de
20 pulgadas:

Marca y modelo Precio


Sears Craftsman 38023 $150
Cub Cadet 074R 245
White 072R 220
Sears Craftsman 38033 200
Sears Craftsman 38045 160
Lawn Chief 50-H 130
Mastercut 5020-20 160
Atlas 20 2011 (Winston) 130
Rally A103 CR 119
Murray 20203 112
Sears Companion 38004 114
Sycamore 20-4000 110
Lawn Chief 60-H 160
Wheeler WE20 150
Wheeler WB20 127
Fuente: Copyright 1990 por
Consumers Union of United States,
!ne., Yonkers, N.Y. 10703. Adaptado
con permiso de Consumer Reports,
Junio 1990, pág. 396.

Mediciones de la tendencia central 1 15


(a) ¿Cuál es el precio medio? ¿El precio mediano?
(b) ¿Cómo sería de utilidad esta información para una compañía a punto de
comercializar un nuevo modelo? Analice.
(c) Si se incluyera una segadora adicional por error en esta muestra (es decir,
una unidad de bolsa posterior que contuviera un conducto de descarga y
tuviera un precio total de $320), ¿cuál sería la media y la mediana? 1

<f (d) Analice las razones de las diferencias en sus respuestas de (a) y (c).
4.8 Los siguientes datos son las cantidades de calorías de una ración de 30 gramos
para una muestra aleatoria de 10 tipos de galletas de chispas de chocolate
recién horneadas:

Producto Calorías
Hillary Rodham Clinton's 153
Original Nestle Toll House 152
Mrs. Fields 146
Stop & Shop 138
Duncan Hines 130
David's 146
David's Chocolate Chunk 149
Great American Cookie Company 138
Pillsbury Oven Lovin' 168
Pillsbury 147
Fuente: Copyright 1993 por Consumers Union of
United States, !ne., Yonkers, N.Y. 10703. Adaptado
con permiso de Consumer Reports, octubre de 1993,
págs. 646-647.

(a) ¿Cuál es la cantidad media de calorías? ¿La cantidad mediana de calorías?


(b) ¿Cómo sería de utilidad esta información para una compañía a punto de
comercializar una nueva galleta de chispas de chocolate recién horneada?
Analice.
4.9 Los siguientes datos son los precios de lista (en dólares) de una muestra
aleatoria de 17 cintas de audio de tipo IV (metal):

4.95 18.99 5.29


5.29 3.49 3.99
3.99 5.50 9.95
11.00 5.99 14.99
5.99 3.49 3.50
4.59 2.99
Fuente: Copyright 1993 por Consumers
Unlon of Unlted States, Inc., Yonkers,
N.Y. 10703. Adaptado con permiso de
Consumer Reports, enero de 1993,
págs. 38-39.

(a) ¿Cuál es el precio medio? ¿El precio mediano?


(b) f·fiiii'JMl•P ¿Qué otra información desearía conocer antes de comprar una
de estas cintas? Prepare una lista de preguntas que le haría al vendedor.
• 4.10 Los siguientes datos representan la cantidad de fondos (en millones de$)
proporcionada por la Administración de Salud Mental, de Abuso de Drogas y
de Alcohol a través de donativos a una muestra de 21 instituciones durante un
año reciente:

116 Capítulo 4 Resumen y descripción de los datos numéricos


Cantidad invertida
Nombre de la institución (en millones $)
Johns Hopkins University 14.9
University of California at San Francisco 14.1
University of Washington 6.8
Yale University 13.1
Stanford University 7.6
University of California at Los Angeles 13.2
Harvard University 5.1
University of Michigan 11.9
University of Pennsylvania 8.5
Columbia University 7.1
Washington University at St. Louis 5.1
Duke University 5.0
University of Minnesota 6.2
University of California at San Diego 5.5
University of North Carolina 3.8
University of Wisconsin 3.4
University of Rochester 3.5
Yeshiva University 2.8
University of Chicago 4.1
University of Pittsburgh 15.9
Cornell University 5.7
Fuente: U.S. Department of Health and Human Services, Publlc
Health Services.

(a) Organice los datos en una clasificación ordenada o diagrama de tallo y


hojas.
(b) Calcule la media, la mediana, el rango medio y el eje medio.
(c) Describa la propiedad de tendencia central para estos datos.
4.11 Durante los últimos diez días de junio, el tren "Shore Special" llegó tarde a su
destino en los siguientes tiempos (en minutos; un número negativo significa
que el tren llegó temprano ese número de minutos):

-3, 6, 4, 10, -4, 124, 2, -1, 4, 1

(a) Si usted fuera contratado por el ferrocarril como estadístico para


demostrar que el tren está proporcionando un buen servicio, ¿cuáles son
algunas de las mediciones de resumen que usaría para lograr esto?
(b) Si usted fuera contratado por una estación de televisión que estuviera
produciendo un documental para demostrar que el ferrocarril está
proporcionando un mal servicio, ¿Qué mediciones de resumen usaría?
(c) Si usted tratara de ser objetivo y no parcial al aseverar el desempeñ.o del
ferrocarril, ¿qué mediciones de resumen usaría? (Esta es la parte más dura,
porque no puede contestar esto sin hacer supuestos adicionales respecto a
los costos relativos de llegar tarde por diversas cantidades de tiempo.)
4.12 Con el fin de estimar cuánta agua se necesitará para abastecer la comunidad de
Falling Rock en la próxima década, el ayuntamiento pidió al administrador
municipal que averigüe cuánta agua usa una muestra de familias actualmente.
La muestra de 15 familias usó el siguiente número de galones (en miles) el
último añ.o:
11.2, 21.5, 16.4, 19.7, 14.6, 16.9, 32.2, 18.2,
13.1, 23.8, 18.3, 15.5, 18.8, 22.7, 14.0
(a) ¿Cuál es la cantidad media de agua usada por familia? ¿La mediana? ¿El
rango medio? ¿_El eje medio?

Mediciones de la tendencia central 1 17


(b) Suponga que el ayuntamiento espera que dentro de diez años habrá
45 mil familias viviendo en Falling Rock. ¿Cuántos galones de agua por
año se necesitarán si la tasa de consumo por familia permanece igual?
(c) ¿De qué manera sería útil la información proporcionada en (a) y (b) para
el ayuntamiento? Analice.
(d) ¿Por qué el ayuntamiento habría usado los datos de una encuesta en vez
de simplemente medir el consumo total de la ciudad? (Piense en el tipo de
usuarios que todavía no están incluidos en el proceso de estimación.)

Problemas intercapitulares de la sección 4.4


4.13 Usando los registros mensuales de facturación de la compañía de libros por
correo (problema 3.2 de la página 58):
(a) Calcule la media, la mediana, la moda, el rango medio y el eje medio.
(b) Si estuvieran pendientes un total de 350 facturas, use la media para _
estimar la cantidad que se le debe a la compañía. (Sugerencia: Total= NX.)
(c) UOJi!?i•t.f•> Escriba un borrador del memorándum que el auditor deseará
enviar al presidente ejecutivo de la compañía de libros por correo respecto
a los resultados.
(d) ¿De qué manera será útil esta información al presidente ejecutivo?
Analice.
4.14 Usando los datos sobre la tasa de flujo máximo de las regaderas (problema 3.3
de la página 58):
(a) Calcule la media, la mediana, la moda, el rango medio y el eje medio.
(b) t.fOJd?m·f•) Describa la propiedad de tendencia central para estos datos.

• 4.15 Usando los datos sobre cobros de servicios eléctricos y de gas (problema 3.12
de la página 66):
(a) Calcule la media, la mediana, la moda, el rango medio y el eje medio.
(b) f.Ad?m·f•) Describa la propiedad de tendencia central para estos datos.

Med ic;!9!)~-~. . ~~---l-~~!~.~E~~n \\-•. :.;Q e.,0A '{;J"I


Una segunda propiedad importante que describe una serie de datos numéricos es
la variación. La variación es la cantidad de di~persj(m o "propagación" gQJos
datQ~ Dos series de datos pueden diferir tanto en la tendencia central como en la
variación; o, como se muestra en las figuras 4.1 y 4.3, dos series de datos pueden
tener las mismas mediciones de tendencia central, pero diferir grandemente en tér-
minos de variación. La serie de datos que se describe en la figura 4.3 es mucho
menos variable que la descrita en la figura 4.1 (véanse las páginas 108 y 109).
Cinco mediciones de variaci(m son el rango, el rangQJntercuartil, Ja varianza,
,la desviación estándar y el coeficiente de variación.

4.s.1 --~L.r.3:r.i.82_
El rango es la diferencia el).j;re1ª_n:rnyQi::_yJª.menQrobservación.en..una..serie.de__
datos. Esto es,

. (4.4)

118 Capitulo 4 Resumen y descripción de los datos numéricos


Usando la clasificación ordenada de colegiaturas cobradas (en miles de
dólares) a residentes fuera del estado de nuestra muestra de seis escuelas de
l'ennsylvania:
• 6.3 7.7

El rango es 11.7 - 4.9 = 6.80 miles de dólares


8.9 10.3

El rango mide la propagación total en la serie de datos. Aunque el alcance es una
medición simple y de fácil cálculo de la variación total en los datos, su clara debi-
lidad es que no logra tomar en cuenta la forma en que los datos se distribuyen real-
mente entre el menor y el mayor valor. Esto puede observarse en la figura 4.4. Por
tanto, como se evidencia en la escala C, sería impropio usar el rango como una
medición de variación· cuando uno o ambos componentes son observaciones
extremas.

o
o 8
o

7 8 9 10
Figura 4.4
Comparación de tres
EscalaC conjuntos de datos con el
mismo rango.

4.5.2 El rango intercuartil


El rango intercuartil (también llamado propagación media) e6 la diferencia
entre el tercer y cuarto oiarWes en una serie de datg5 Es decir,

~ ;'_. : ~.:,;'_:~! .~.~¡,,1~p:r,t.

· Réi,ngo intercuattil .= Q:i :.. Qi :(~~{~;;


:~.f.~n)~:6w:;·,( ~

Esta simple medición considera la propagación en 50% de los datos de en medio y


por tanto no_ se ve influida de ninguna manera por valores extremos de posible
ocurrencia.

Mediciones de la variación 1 19
Para los datos de colegiaturas de Pennsylvania tenemos

Rango intercuartil = ~ - ~ = 10.3 - 6.3 = 4.0 miles de dólares

Éste es el rango en las colegiaturas para el grupo medio de las escuelas de


Pennsylvania.

4. S. 3 La varianza
·----· ...
y la desviación estándar
-_,. ·-- "'"-··---···-- -----·-···----·
~·---·-.•--. ·-··· .. :·-. ··-.-.·..

Aunque el rango es una medición de la propagación total y el rango intercuartil es


una medición de la propagación media, ninguna de estas mediciones de variación
t~ consideración cómo se. ~J.~tr!!?EY~XU?....agrup@J.!ls _o12servacjones. Dos
mediciones de variación comúnmente usadas que,sí toman en cu_~a cómo se djs-
trib_!!Yen todos los valores en _lo~~l<2!1J~!}~E,Z_!!_Y_.~!!,....!.é!ÍZ <;:.!1-ª.QH~tª' la
desviación est~ndar. Estas medicio_!!~~-~vaLi§.n,_ la forma ep._que los yalores fluctúan
alrededor de la media.

• Definición de la varianza de muestra La varianza de muestra es


ap_roximadamente (CZ ,qasi2el promedio de las difer.~~i~~.~E.é!.~E'.1.9.~~-~ntre cada_1:).n~
de las observaciones eri üná'señe de datos y la ~di.i!,:. Así, para una muestra que
contienen observaciones, X, X, ... , X, la-varianza de muestra (dada por el sím-
bolo S2) puede escribirse corrio 2 n

52 =(Xi -X)2 +(Xz -X)2 + .. ·+(Xn -X)2


n-l
Usando nuestra notación de sumatoria, la formulación anterior puede expre-
sarse de maneta más simple como

52 =
f (x
1 -
2

_i=_1_ _ _ __
X')
(4.6)
n-1
...•.;' ..
donde
X = media aritmética de muestra
n = tamaño de muestra
X 1 = iésimo valor de la variable aleatoria X
n
}2(x, - X )2 =sumatoria de todas las_diferencias cuadradas
i =1 entre los valores X 1 y X
Si el denominador hubiera sido nen lugar den - 1, se hubiera obtenido el prome-
dio de las diferencias cuadradas alrededor de la media. Sin embargo. n - Lse usa
aquí debido a ciertas propiedades matemáticas deseables que la estadística 52 posee
que la hacen apropiada para la inferencia estadística (véase el capítulo 9). Si el
tamaño de muestra es grande, la división entre no n - 1 realmente no hace mucha
diferencia.

• Definición de la desviación estándar de muestra La desviación


estándar de muestra (dada por el símbolo 5) es simplemente la raíz cuadrada
de la varianza de muestra. Esto es, -

120 Capítulo 4 Resumen y descripción de los datos numéricos


n 2
:¿(x; - x) .. ,1,.•

;=1
S= (4.i(.
n-1 ':'·:

• Cálculo de 52 y de 5 Para calcular la varianza


-..
l. Obtenemos la diferencia entre cada observación y la media
2. Elevamos al cuadrado cada diferencia
3. Sumamos los resultados cuadrados
4. Dividimos la sumatoria entre n - 1
Para calcular la desviación estándar simplemente tomamos la raíz cuadrada de la
varianza.
Para nuestra muestra de seis escuelas de Pennsylvania, los datos sin procesar
(colegiaturas) (en miles de dólares) son
10.3 4.9 8.9 11.7 6.3 7.7

y X= 8.30 miles de dólares.


La varianza de muestra se calcula como
11

:¿(x; -x) 2

i =1
52
n-1
(10.3- 8.3) 2 + (4.9 - 8.3)2 + ... + (7.7 - 8.3) 2
6-1
31.84
5
= 6.368 (en miles de dólares cuadrados)
y la desviación estándar se calcula como

11

L(X; - x)2
5 = fS2 = ; =1

n-1
= -J 6.368 = 2.52 miles de dólares

• Obtención de 52 y de 5 Puesto que en los cálculos anteriores elevamos al


cuadrado las diferencias, ni la varianza ni la desviación estándar ueden ser ne ativas.
La única vez en que 52 y 5 podrían ser cero sena cuan o no ubo variación alguna
en los datos, cuando cada observación de la muestra fuera exactamente igual. En
este inusual caso el alcance también sería cero.
Pero los datos numéricos son inherentemente variables, no constantes.
Cualquier fenómeno de interés aleatorio que pudiéramos imaginar generalmente
toma una variedad de valores. Por ejemplo, los colegios y las universidades
cobran distintas colegiaturas a residentes fuera del estado, al igual que la gente
tiene distintos CI, ingresos, pesos, alturas, edades, velocidades de pulso, etc.
Debido a que los datos numéricos varían de manera inherente resulta tan impor-
tante estudiar no sólo las mediciones (de tendencia central) que resumen los
datos, sino también las mediciones (o variación) que reflejan cómo están disper~
sos los datos numéricos.

Mediciones de la variación ll I
e Lo que indican la varianza y la desviación estándar La varianza y la
desviación estándar miden la dispersión "promedio" alrededor de la media, es
decir, cómo las observaciones mayores fluctúan por encima de ésta y cómo las
observaciones menores se distribuyen por debajo de ésta.
La varianza posee ciertas propiedades matemáticas útiles. Sin embargo, su
cálculo da como resultado unidades cuadradas, miles de dólares cuadrados, dólares
cuadrados, pulgadas cuadradas, etc. Por lo tanto, para un trabajo práctico, nuestra
principal medición de variación será la desviación estándar, cuyo valor está en las
unidades originales de los datos, miles de dólares, dólares, pulgadas, etcétera.
En la muestra de colegiaturas de Pennsylvania la desviación estándar es de 2.52
miles de dólares. Esto nos dice que la mayoría de las colegiaturas de esta muestra se
agrupan en 2.52 miles de dólares alrededor de la media de 8.30 miles de dólares (es
decir, entre 5.78 y 10.82 miles de dólares).

• Por qué cuadramos las desviaciones Las fórmulas para varianza y


desviación estándar no podrían simplemente usar

como numerador, porque tal vez recuerde que la media actúa como un punto de equi-
librio para observaciones mayores y menores que ésta. Por tanto, la suma de las
desviaciones alrededor de la media siempre es cero3; es decir
n
L,(X¡ - X)= o
i =1

Para demostrar esto, refirámonos nuevamente a los datos de colegiaturas de


Pennsylvania:
10.3 4.9 8.9 11.7 6.3 7.7

En consecuencia,

n
L (X¡ -X) = (10.3 - 8.3) + (4.9 - 8.3) + (8.9 - 8.3)
i =1
+ (11.7 - 8.3) + (6.3 - 8.3) + (7.7 - 8.3)

Esto se describe en el diagrama de escala de puntos adjunto mostrado en la


figura 4.5.
Como ya se observó, tres de las observaciones son menores que la media y tres

Colegiaturas en
. .séis escuelas dt;i
4 Pénrisylvania

Figura 4.S
La media como un Escala en ($000) · X= a.3 ·
punto de equilibrio.

122 Capitulo 4 Resumen y descripción de los datos numéricos


son mayores. Aunque la suma de las seis desviaciones (2.0, -3.4, 0.6, 3.4, -2.0 y
·-0.6) es cero, la suma de las desviaciones cuadradas nos permite estudiar la
variación en los datos. Por tanto, usamos

al calcular la varianza y la desviación estándar. En el proceso de elevación al


cuadrado, las observaciones que están más allá de la media obtienen más peso que
las observaciones que están más cerca de la media.
Las desviaciones cuadradas respectivas para los datos de colegiaturas de
Pennsylvania son
4.00 11.56 0.36 11.56 4.00 0.36

Observamos que la cuarta observación (X = 11.7 miles de dólares) es 3.4 miles


de dólares más alta que la media, y la seguhda observación (X = 4.9 miles de
dólares) es 3.4 miles de dólares más baja. En el proceso de elevación al cuadrado,
estos dos valores contribuyen sustancialmente más al cálculo de S2 y S que las otras
observaciones de la muestra, que están más cercadas de la media.
Por tanto, podemos generalizar de la siguiente manera:
l. Mientras más propagados o dispersos estén los datos, mayor será el
rango, el rango intercuartil, la varianza y la desviación estándar.
2. Mientras más concentrados u homogéneos sean los datos, menor será
el rango, el rango intercuartil, la varianza y la desviación estándar.
3. Si las observaciones son todas iguales (de tal forma que no hay
variación en los datos), el rango, el rango intercuartil, la varianza y la
desviación estándar son todos cero.

• Cálculo de S2 y de S: fórmulas "de calculadora" Las fórmulas para la


varianza y la desviación estándar, ecuaciones (4.6) y (4.7), son fórmulas de defini-
ción, pero a menudo no son prácticas, aun utilizando calculadora de mano. Para
nuestros datos de colegiaturas de Pennsylvania la media, 8.30 miles de dólares, no
es un entero. Para estas situaciones típicas, donde es improbable que las observa-
ciones y la media sean enteros, se dan las siguientes "fórmulas de calculadora" para
la varianza y la desviación estándar para su uso práctico:

n
rx; ·- nX 2·
(4.8)
sz = _1_=_1_ _ __
n ..::. 1

n
·:k4t~ 11x 2 ..

s =. i·~'t >1·¡

Mediciones de la variación 123


donde n
L X ; = sumatoria de los cuadrados de las observaciones individuales
2

i=I

nx 2 = tamaño de muestra por el cuadrado de la media de muestra

Las fórmulas de calculadora, ecuaciones (4.8) y (4.9), son idénticas a las fórmu-
las de definición, ecuaciones (4.6) y (4.7). Puesto que los denominadores son
iguales, es fácil mostrar mediante la expansión y el uso de las reglas de sumatoria
(véase el apéndice B) que ·

n n
L(x; - x)2
i =1
Lxf
1=1
-nx 2

Más aún, puesto que 52 (y 5) nunca pueden ser negativas,

"
rx;
i=I

la sumatoria de cuadrados, siempre debe ser igual o exceder


-2
nX
el tamaño de muestra por el cuadrado de la media de muestra .
. Regresando a los datos de colegiaturas de Pennsylvania, la varianza y la
desviación estándar se vuelven a calcular usando las ecuaciones (4.8) y (4.9) de la
siguiente manera:
n
LX;z -nXz
52 = _;=_1_ _ __
n-1
(10.3 2 + 4.9 2 + ... + 7.7 2 ) - 6(8.3 2 )
6-1
(106.09 + 24.01 + ... + 59.29) - 6(68.89)
5
445.18 - 413.34
=------
5

= 3 1. 84 = 6.368 (en miles de dólares cuadrados)


5

S = ..J 6.368 = 2.52 miles de dólares

4. 5 .4 El coeficiente de variación
A diferencia de las mediciones previas que hemos estudiado, el coeficiente de
variación es una medk;js)n_relativ.a.de.:variaGKm.. ---···--··.
~
Se expresa
antes que en términos de las unidades de los datos particulares.
como ······-·-
----------·-----· __
un _porcentaje
_, ...

124 capítulo 4 Resumen y descripción de los datos numéricos


El coeficiente de variación, genotado por el símbolo CV.....mig~.J.~...9:t~E~!~2..11.~,~,
los datos relativa a la media. Puede calcularse meaiante

. cv =(~ )100%, (4.10)

donde S = desviación estándar en una serie de datos numéricos


X = media aritmética en una serie de datos numéricos
Regresando a los datos de colegiaturas obtenidos de una muestra de seis cole-
gios y universidades de Pennsylvania, el coeficiente de variación es

cv = (-=-s)
X
100% = (2.52)
- - 100% = 30.4%
8.30

Es decir, para esta muestra el tamaño relativo de la "propagación promedio alrede-


dor de la media" con respecto a la media es 30.40%.
Como una medición relativa, el coeficiente de variación es particularmente
útil al comparar la variabilidad de dos o más series de datos que se expresan en dis-
tintas unidades de medición. Como un ejemplo de la Encuesta sobre la satisfacción
de los empleados de Industrias Kalosha del capítulo 2, suponga que el vicepresi-
dente de recursos humanos está interesado en determinar si la cantidad de horas
trabajadas en una semana por un empleado de tiempo completo (pregunta 1) tiene
una mayor variabilidad (sobre una base relativa) que los ingresos personales
anuales de los empleados (pregunta 7). Puesto que las horas trabajadas son una
medición de tiempo y los ingresos personales anuales (en $000) es una cantidad
monetaria, es imposible comparar directamente las dos desviaciones estándar o los
dos alcances para estas variables. Aquí, sin embargo, los dos coeficientes de
variación pueden usarse para proporcionar la respuesta deseada. (Véase el pro-
blema 4.70 del proyecto Encuesta/Base de datos de la página 155.)
El coeficiente de variación también es muy útil al comparar dos o más con-
juntos de datos que son medidos en las mismas unidades pero difieren hasta tal
punto que una comparación directa de las respectivas desviaciones estándar no es
muy (ltil. Como ejemplo, suponga que un inversionista potencial estuviera con-
siderando comprar acciones de valores en una de dos compañías, A o B, que se enu-
meran en la Bolsa de Valores estadounidense. Si ninguna compáfíía ofreciera
dividendos a sus accionistas y si ambas compañías estuviefhn igualmente califi-
cadas (por diversos servicios de inversión) en términos de crecimiento potencial,
el inversionista potencial podría desear considerar la volatilidad (variabilidad) de
los dos valores para ayudar en la decisión de inversión. Ahora suponga que cada
acción de valores de la compañía A ha promediado $50 durante los meses pasados
con una desviación estándar de $10. Además, suponga que en ese mismo periodo,
el precio por acción de los valores de la compañía B promedió $12 con una
desviación estándar de $4. En términos de las desviaciones estándar reales, el pre-
cio de las acciones de la compañía A parece ser más volátil que el de las acciones
de la compañía B. Sin embargo, puesto que los precios promedio por acción de los
dos valores son tan diferentes, sería más apropiado para el inversionista potencial
' promedio con el fin de
considerar la variabilidad en el precio relativa al precio
examinar la volatilidad/estabilidad de los dos valores. Para la compafiía A el coe-
ficiente de variación es CV = ($10/$50)100% =20.0%; Para la compafiía Bel coefi-
ciente de variación es cV' = ($4/$12)100% = 33.3%. Por tanto, en cuanto a la
media, el precio del valor ~ es mucho más variable que el precio del valor A.

Mediciones de la variación 125


Problemas de la sección 4.5
4.16 Verifique que el cálculo de la desviación estándar es idéntico para lo siguiente,
sin importar si se usa la fórmula de definición (4.7) o la fórmula de calculadora
de mano (4.9):
(a) Los datos de colegiaturas a residentes fuera del estado tomados de la
muestra de seis colegios y universidades de Texas (véase la página 108).
(b) Los datos de colegiaturas a residentes fuera del estado tomados de la
muestra de seis colegios y universidades de Carolina del Norte (véase la
página 108).
• 4.17 Para cada serie de datos del problema 4.2 de la página 114:
(a) Calcule el alcance, alcance intercuartil, varianza, desviación estándar y
coeficiente de variación.
(b) Compare sus resultados y analice sus hallazgos.
(c) Con base en sus respuestas del problema 4.2 (a) y (b), ¿podría generalizar
las propiedades de tendencia central y variación? ·
4.18 Usando los datos del problema 4.3 de la página 114, calcule el rango,
alcance intercuartil, varianza, desviación estándar y coeficiente de
variación para cada una de las pruebas de carrera corta de los dos atletas.
4.19 Usando los datos de cociente PE del problema 4.4 de la página 115, calcule el
rango, rango intercuartil, varianza, desviación estándar y coeficiente de
variación para la serie de datos con el error (61) y luego vuelva a calcular estas
estadísticas después de haber corregido el cociente PE a 16.
(a) Analice las diferencias en sus resultados para cada medición de dispersión.
(b) ¿Qué medida parece afectarse más por el error?
4.20 Para lo siguiente, refiérase a los datos de duración de baterías del problema 4.5
de la página 115:
(a) Calcule el rango, varianza y desviación estándar.
(b) Para muchos conjuntos de datos, el rango es aproximadamente seis veces
la desviación estándar. ¿Es cierto eso aquí? (Si no, ¿por qué piensa que no
lo es?)
(c) Usando la información anterior, ¿qué le aconsejaría al fabricante hacer si
deseara poder decir en la publicidad que estas baterías "deberían durar 400
horas"? (Nota: No hay una respuesta correcta para esta pregunta; la
cuestión es considerar cómo precisar tal afirmación.)
4.21 Usando los datos de precio de las segadoras de pasto del problema 4.7 de la
página 115:
(a) Calcule el rango, rango intercuartil, varianza, desviación estándar y coefi-
ciente de variación en los precios de las segadoras de pasto de 20 pulgadas
de golpe. (No incluya el precio de la unidad de bolsa posterior.)
(b) Analice la propiedad de yariación para estos datos.
• 4.22 Usando los datos de donaciones del problema 4.10 de la página 116:
(a) Calcule el rango, rango intercuartil, varianza, desviación estándar y coefi-
ciente de variación para la cantidad invertida (en miles de dólares).
(b) Analice la propiedad de variación para estos datos.
4.23 Usando los datos de tiempo del tren del problema 4.11 de la página 117:
(a) Calcule el rango, rango lntercuartil, varianza, desviación estándar y coefi-
ciente de variación para Ja "tardanza" (en minutos).
(b) Analice la propiedad de variación para estos datos.
4.24 Usando los datos de uso de agua del problema 4.12 de la página 117:
(a) Calcule el rango, rango intercuartil, varianza, desviación estándar y coefi-
ciente de variación en el consumo de agua.
(b) Analice la propiedad de variación para estos datos.

Problemas intercapitulares de la sección 4.5


4.25 Usando los registros de facturación mensual de la compafíía de libros por
correo (problema 3.2 de la página 58):

Capítulo 4 Resumen y descripción de los datos numéricos


(a) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación de la cantidad _adeudada a la compañía de libros
por correo.
(b) Analice la propiedad de variación para estos datos.
4.26 Usando los datos sobre la tasa de flujo máximo de las regaderas (problema 3.3
de la página 58):
(a) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación.
(b) Analice la propiedad de variación para estos datos.
e 4.27 Usando los datos sobre los cobros de servicios de electricidad y gas (problema
3.12 de la página 66):
(a) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación.
(b) Analice la propiedad de variación para estos datos.

i!·I Forma
Una tercera propiedad importante de una serie de datos es su forma, la manera en
que los datos se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea.
Si la distribución de los datos no es simétrica, se denomina asimétrica o sesgada.
Para describir la forma sólo necesitamos comparar la media y la mediana. Si
estas dos mediciones son iguales, por lo general podemos considerar que los datos
son simétricos (o de sesgo cero). Por otra parte, si la media excede la mediana, los
datos pueden describirse por lo común como de sesgo positivo o sesgados a la
derecha. Si la media es excedida por la mediana, esos datos generalmente pueden
llamarse de sesgo negativo o sesgados a la izquierda. Esto es,
Media > mediana: sesgo positivo o derecho
Media = mediana: simetría o de sesgo cero
Media < mediana: sesgo negativo o izquierdo
'
El sesgo positivo surge cuando la media se incrementa en algunos valores inu-
sualmente altos¡ el sesgo negativo ocurre cuando la media se reduce en algunos va-
lores extremadamente bajos. Los datos son simétricos cuando no existen valores
extremos reales en una dirección particular de forma tal que los valores bajos y
altos se compensan entre sí.
La figura 4.6 de la página 128 describe las formas de tres series de datos: los
datos de la escala L son de sesgo negativo o izquierdo (puesto que la distorsión a la
izquierda es ocasionada por valores extremadamente pequeños)¡ los datos de la es-
cala R son de sesgo positivo o derecho (puesto que la distorsión a la derecha es oca-
sionada por valores extremadamente grandes)¡ y los datos de la escala S son
simétricos (los valores altos y bajos de la escala se equilibran, y la media es igual a
la mediana).
Para nuestra muestra de seis escuelas de Pennsylvania, los datos de colegiaturas
se muestran a lo largo de la escala de puntos de la figura 4.1 (véase la página 108).
La media y la mediana son iguales a 8.3 miles de dólares, y los datos parecen estar
simétricamente distribuidos alrededor de estas mediciones de tendencia central.

Problemas de la sección 4.6


e 4.28 Para cada serie de datos del problema 4.2 de la página 114:
(a) Describa la forma.
(b) Compare sus resultados y analice sus hallazgos.
4.29 Usando los datos de duración de baterías del problema 4.5 de la página 115,
describa la forma.

Forma 127
Este conjÚnto de datos está
· sesgado a la izquierda. Describe
un buen desempeño en una
prueba po~:Un€l,cla~e de 15
estudiantes, L,a media (80) es
inferior a ía, mediana (90) debido
a las poéas' c~lif.icaciones malas.

Este conjunto de datos está


sesgado a la derecha. Describe
un mal desempeño en una
prueba por una clase de 15
estudiantes. La media (60) es
~up.1;1rior a.la meQiana (50) ,l;IE:l~ido
·a las pocas calificaciones'tlúehas.
!'': .;-.:· '

.• '1 '}I 'f'

~,~;.~.'(; .Ir ' ,


Est~ c6lijun~~ de datos es · . · .
¡:;•h simétrico. Describe un desempeñó
· "nGrmal" en·una prueba pGr una
..clase .de 15 estudiantes.
~-~ ~. ''
t~ media y la mediana son. '
Fisura 4.e iguales (70); como lo son la moda
Comparación de tre1
···.eá~1as .yerrango medio.·
conjuntos de dato• que difieren -·!:'·· .. ' ' .~ '
en forma.

4.30 Usando los datos de precios de las segadoras de pasto del problema 4.7 de la
página 115, describa la forma. (No incluya el precio de la unidad de bolsa
posterior.)
e 4.31 Usando los datos de donaciones del problema 4.10 de la página 116, describa
la forma.
4.32 Usando los datos de "tardanza" del tren del problema 4.11 de la página 117,
describa la forma.
4.33 Usando los datos de consumo de agua del problema 4.12 de la página 117,
describa la forma.

Problemas intercapitulares de la sección 4.6


4.34 Usando los datos de la cantidad adeudada a la compañía de libros por correo
del problema 3.2 de la página 58, describa la forma.
4.35 Usando los datos sobre la tasa de flujo máximo de las regaderas del problema
3.3 de la página 58, describa la forma.
e 4.36 Usando los datos sobre los cobros de servicios de electricidad y gas del
problema 3.12 de la página 66, describa la forma.

111 Resumen de cinco números y


gráfica de caja y sesgos
Ahora que hemos estudiado las tres principales propiedades de los datos numéri-
cos (tendencia central, variación y forma), es importante que identifiquemos y
describamos las principales características de los datos en un formato resumido.
Una forma de abordar este "análisis de datos exploratorio" es desarrollar un
resumen de cinco números y construir una gráfica de caja y sesgos (referencias 1Oy 11).

128 Capitulo 4 Resumen y descripción de los datos numéricos


4.7.1 Resumen de cinco números
Un resumen de cinco números consiste en
X menor mediana X
mayor

Combina tres mediciones de tendencia central (la mediana, el eje medio y el rango
medio) y dos mediciones de variación (el rango intercuartil y el rango) para darnos
una mejor idea de la forma de la distribución.
Si los datos fueron perfectamente simétricos, lo siguiente se cumpliría:
l. La distancia de ~ a la mediana sería igual a la distancia de la mediana
aQ.
2. La distancia de X a ~ sería igual a la distancia de ~ a X .
3. La mediana, el ejeemedio y el rango medio serían todos iguales:ºlEstas
mediciones también serían iguales a la media en los datos.)
Por otra parte, para distribuciones no simétricas, lo siguiente sería cierto:
l. En distribuciones se~gadas a l~ dere.cha la distancia de ~ a X mayor
excede en gran medida a la distancia de X a ~.
2. En distribuciones sesgadas a la derecha, mediana < eje medio < rango
medio.
3. En distribuciones sesgadas a la izquierda la distancia de X a~
excede en gran medida a la distancia de ~ a X . menor

4. En distribuciones sesgadas a la ·izquierda rango 'ñiedio < eje medio <


mediana.
Para nuestros datos de colegiaturas de Pennsylvania, el resumen de cinco
números es
4.9 6.3 8.3 10.3 11.7

Ahora podemos usar el resumen de cinco números para estudiar la forma de la


distribución. De las reglas anteriores resulta claro que los datos de colegiaturas para
nuestra muestra de seis escuelas de Pennsylvania son perfectamente simétricos.

4.7.l. Gráfica de caja y sesgos


En su forma más simple, una gráfica de caja y sesgos proporciona una repre-
sentación gráfica de los datos mediante su resumen de cinco números. Esta gráfica
se describe en la figura 4. 7 de la página 130 para las colegiaturas de las seis escue-
las de Pennsylvania.
La línea vertical trazada dentro de la caja representa la ubicación del valor de
la mediana en los datos. Observe además que la línea vertical al lado izquierdo de la
caja representa la ubicación de ~y la línea vertical al lado derecho de la caja re-.
presenta la ubicación de ~· Por lo tanto, vemos que la caja contiene el 50% de las
observaciones de en medio de la distribución. El 25% inferior de los datos están
representados por una línea punteada (es decir, un sesgo) que conecta el lado
izquierdo de la caja con la ubicación del valor menor, X . De manera similar, el
25% superior de los datos están representados por una líñea punteada (es decir, un
sesgo) que conecta el lado derecho de la caja con X .
Esta representación visual de las colegiaturas destrita en la figura 4.7 indica la
forma simétrica de los datos. No sólo observamos que la línea mediana vertical está
centrada en la caja, también vemos que los largos de los sesgos son claramente
iguales.

Resumen de cinco números y gráfica de caja y sesgos 129


Figura 4.7
Graflca de caja y sesgos de colegiaturas en seis escuelas de Pennsylvania.

Para resumir lo que hemos aprendido respecto a la representación gráfica de


nuestros datos, la figura 4.8 demuestra las diferencias entre un moderno "análisis
de datos exploratorio" y las representaciones tradicionales al describir cinco tipos
distintos de distribuciones mediante sus gráficas de caja y sesgos y sus comerciales
polígonos.

..,............t-~-----~--1
(e) DistñHuéióri sesgáélaa la,der~ha'.

(e)'p1stÚt¡udq~
,,,, . ':
'fin torm.a
··.-''•,.· ...
·, ' .
·,
d.e u
·'

Figura 4.8
Cinco distribuciones hipotéticas examinadas a través de sus gráficas de caja y sesgos y sus
polígonos correspondientes.
Nota: Las áreas bajo el polígono están divididas en cuartiles correspondientes al resumen de cinco números
para las gráficas de caja y sesgos.

uo Cap~ulo 4 Resumen y descripción de los datos numéricos


Cuando una serie de datos es perfectamente simétrica, como sería el caso en
los grupos (a), (d) y (e), el largo del sesgo izquierdo será igual al largo del sesgo
derecho y la línea mediana dividirá la caja a la mitad. En la práctica, es poco proba-
ble que observemos una serie de datos que sea perfectamente simétrica. Sin
embargo, debemos poder establecer que nuestra serie de datos es aproximadamen-
te simétrica si las longitudes de los dos sesgos son casi iguales y la línea mediana
divide la caja casi a la mitad.
Por otra parte, cuando nuestra serie de datos está claramente sesgada a la
izquierda o a la derecha, como se presenta respectivamente en los grupos (b) y (c)
de la figura 4.8, las longitudes de los sesgos pueden variar considerablemente y no
es probable que la línea mediana esté centrada en la caja. En el grupo (b), por ejem-
plo, la naturaleza sesgada (es decir, distorsionada) de la serie de datos indica que
existe un fuerte agrupamiento de observaciones en el extremo superior de la escala
(es decir, el lado derecho); 75% de todos los valores de datos se encuentran entre
el extremo izquierdo del~ caja (Q) y el final del sesgo derecho (X )· En conse-
cuencia, el largo del sesgo izquierdo contiene la distribución de sólo 25% de las
observaciones, demostrando la distorsión de simetría en esta serie de datos.
Al observar una serie de datos sesgada a la derecha, como en el grupo (c) de la
figura 4.8, la concentración de puntos de datos estará en el extremo inferior de
la escala (es decir, el lado izquierdo de la gráfica de caja y sesgos). Aquí, 75% de todos
los valores de datos se encuentran entre el principio del sesgo izquierdo (X ) y
el extremo derecho de la caja (Q), y el restante 25% de las observaciones estG'ñcUs-
persas a lo largo del sesgo deredio en el extremo superior de la escala.

Problemas de la sección 4. 7
4.37 Usando los datos sobre la duración de baterías del problema 4.5 de la página 115:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.29 de la página 127.
Analice.
4.38 Usando los datos de los precios de segadoras (excluyendo la unidad de bolsa
posterior) del problema 4.7 de la página 115:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.30 de la página 128.
Analice.
• 4.39 Usando los datos de las donaciones del problema 4.10 de la página 116:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.31 de la página 128.
Analice.
4.40 Usando los datos de la "tardanza" del tren del problema 4.11 de la página 117:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.32 de la página 128.
Analice.
4.41 Usando los datos del consumo de agua del problema 4.12 de la página 117:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compara su respuesta en (b) con la del problema 4.33 de la página 128.
Analice.

Resumen de cinco números y gráfica de caja y sesgos 111


Problemas intercapitulares de la sección 4. 7
4.42 Usando los datos sobre la cantidad adeudada a la compañía de libros por
correo del problema 3.2 de la página 58:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.34 de la página 128.
Analice.
4.43 Usando los datos sobre las tasas de flujo máximo de las regaderas del problema
3.3 de la página 58:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.35 de la página 128.
Analice.
• 4.44 Usando Jos datos sobre los cobros de servicios de electricidad y gas del
problema 3.12 de la página 66:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.36 de la página 128.
Analice.

1 H:I Cálculo de mediciones descriptivas


de resumen de una población
En las secciones 4.4 a 4.7 examinamos diversas estadísticas que se utilizan para
resumir o describir información numérica de una muestra. En particular, usamos
estas estadísticas para describir las propiedades de tendencia central, variación y
forma para los datos de colegiaturas obtenidos de la muestra de n = 6 escuelas de
Pennsylvania. Suponga, sin embargo, que nuestro analista investigador de la com-
pañía de servicios de asesoría colegial ahora desea conducir una investigación más
a fondo de las colegiaturas cobradas (en miles de dólares) a residentes fuera del
estado de los 90 colegios y universidades del estado de Pennsylvania (es decir, la
población). Las mediciones resultantes (es decir, los parámetros) calculadas a partir
de la población de N = 90 escuelas de Pennsylvania para resumir y describir las
propiedades de tendencia central, variación y forma podrían ser utilizadas por
nuestra analista investigador para escribir un informe al gerente de comercia-
lización de la compañía de servicios de asesoría colegial comparando y contras-
tando las diferencias en tales colegiaturas a lo largo de regiones de Estados Unidos.

4.8. 1 Mediciones de la población de tendencia central

e La media de población La media de población está dada por el sím-


bolo µ x , la letra minúscula griega mu subíndice X. Es decir,

(4.11)

132 Capitulo 4 Resumen y descripción de los datos numéricos


donde
N = tamaño de población
X i = iésimo valor de la variable aleatoria X
n
L X = sumatoria de todos los valores X; de la población
i= 1

e La media, moda, rango medio y eje medio de población La media,


moda, rango medio y eje medio de población para una población de tamaño N se
obtienen respectivamente como se describió con anterioridad en las secciones
4.4.2 a 4.4.5 para una muestra de tamaño n. Simplemente reemplazamos el sím-
bolo n con N.

4.8.1 Mediciones de población de variación

• El rango y el rango intercuartil de población El rango y el rango inter-


cuartil para u:ria población de tamaño N se ·obtienen respectivamente como se
describe en las secciones 4.5.1y4.5.2 para una muestra de tamaño n.
_"(·

e La varianza y la desviación estándar de población La varianza de


población está dada por el símbolo d', la letra minúscula griega sigma subíndice
X cuadrada, y la desviación estándár de población está dada por el símbolo
cr.X Esto es,

(4.12)

·N

donde
N = tamaño de la población
X,1 = iésimo valor de la variable aleatoria X
N
L X;= sumatoria de todos los valores X; de la población
i=I

N
L(X;-µx)2 = sumatoria de todas las diferencfas entre los valores X, y µ 1 X
;=1

,. {4:J3j':
cr X = , ·~~f} ,,··:<.'~f~:~}?~~-¡_~··J
N

Cálculo de mediciones descriptivas de resumen de una población 13 3


Observamos que las fórmulas para la varianza y la desviación estándar de
población difieren de las de la muestra en que (n - 1) en el denominador de 52 y S
[véanse ecuaciones (4.6) y (4.7)] se reemplaza por Nen el denominador de a2X y a.X

• El coeficiente de variación de población El coeficiente de


variación de población, dado por el símbolo CV , mide la dispersión en los
datos relativa a la media. Puede calcularse mediante pob

CV
pob
= (crx
µX
)iooo/o (4.14)

donde crX = desviación estándar en la población


µ = media aritmética en la población
X

4.8.3 Resultados
Los datos sin procesar de las colegiaturas cobradas (en miles de dólares) en los
N = 90 colegios y universidades del estado de Pennsylvania se presentan en el
Conjunto de datos especiales 1 del apéndice D de las páginas D4-DS. De estos
datos, se obtiene el siguiente diagrama de tallo y hojas revisado (figura 4.9):

2 7
3
4.048999
5.05
6 011113
7 77
8 3334449
9 113334455667777
1ooófa22233346677
' 11 244567779
12 36
.13 0~357
14 1239
. lS 246
·. ··.:··,. ·.· .... , .16 144
Figura 4.9 'J.7 '0177899
Diagrama de tallo y hojas 18 39
revisado de las colegiaturas
cobradas a residentes fuera del 19
estado en 90 colegios y 20
universidades de Pennsylvania. 21
Fuente: Conjunto de datos especiales 22 3
l del apéndice D, páginas 04-DS.

Usando los datos sin procesar o los datos arreglados en el diagrama de tallo y
hojas, se obtienen las siguientes mediciones de resumen:

134 Capitulo 4 Resumen y descripción de los datos numéricos


• Media
N
:¿xi
µx = --¡;:¡--
i=I 979 ·8 = 1089
= 90 . m1'} es de d'}
o ares

• Media

· · · to
Punt o d e pos1c10nam1en N +-
=- l ob servac1on
. , c1as1"f'icad a
2
90 + 1 = 45. Sa
= --- observac1on
. , c1as1'f"tca da
2
Para obtener la mediana simplemente contamos (de izquierda a derecha, fila por
fila) hasta la 45a y 46a observaciones clasificadas y tomamos el promedio. En nues-
tros datos, estas observaciones se encuentran en la fila con un "tallo" de 10. Las
"hojas" respectivas son 2 y 2, correspondientes a las colegiaturas de 10.2 y 10.2 , ~
miles de dólares. Por tanto, la mediana es (10.2 + 10.2 )/2 = 10.20 miles de dólares.
• Moda Las colegiaturas observadas con más frecuencia cobradas a residentes
fuera del estado por colegios y universidades de Pennsylvania son 6.1, 9.7 y 10.2
miles de dólares. Los datos son multimodales.

• Alcance medio
X menores + X mayores 2 · 7 + 22 ·3 = 12.50 miles de dólares
2 2

punto de posicionamiento N +-
=- l ob servac1on
. ' c1as1'ficad a
4

= 9o + 1 = 22.75a observación clasificada


2
= 23a observación clasificada
Para obtener~ simplemente contamos (de izquierda a derecha, fila por fila) hasta
la 23a observación clasificada. En nuestros datos, la "hoja" es 4, que se bifurca del
"tallo" 8. Por consiguiente, Q 1 = 8.40 miles de dólares.
• Ql

punto de posicionamiento _3_(N_+_l_) observación clasificada


4

= 273 = 68.25a observación clasificada


4
= 68a observación clasificada
Para obtener~ simplemente contamos (de izquierda a derecha, fila por fila) hasta
la 68a observación clasificada. En nuestros datos, la "hoja" es 3, que se bifurca del
"tallo" 13. Por lo tanto, ~ = 13.30 miles de dólares.

Cálculo de mediciones descriptivas de resumen de una población 1J S


• Eje medio

8 .4 + 13 ·3 = 10.85 miles de dólares


2

• Alcance

X'"ªYº"' - X,.,, 110,., = 22.3 - 2.7 = 19.60 miles de dólares

•- Alcance intercuartil

Q3 - Q1 = 13.3 - 8.4 = 4.90 miles de dólares

• Varianza

N
L(Xi-µx) 2
i =1 (14.9 - 10.89) 2 + (16.4 -10.89) 2 + ... + (4.8 - 10.89) 2
N 90
= 15.594 (en miles de dólares cuadrados)

• Desviación estándar

cr, = R = vf15.594 = 3.95 miles de dólares

• Coeficiente de variación

C\1¡, b = (~)100% = ( 3 ·95 )100% = 36.3%


0
µX 10.89

4.8.4 Forma
La forma de la población se obtiene mediante una comparación relativa de la
media y la mediana, apoyada por una evaluación del resumen de cinco números y
la gráfica de caja y sesgos.
El resumen de cinco números es
X menor ~ mediana ~ X mayor
2.70 8.40 10.20 13.30 22.30

y la gráfica de caja y sesgos correspondiente se muestra en la figura 4.10, de la si-


guiente manera:

U6 Capítulo 4 Resumen y descripción de los datos numéricos


Miles de dólares

Figura 4.10
Gráfica de caja y sesgos de las colegiaturas cobradas a residentes fuera del estado en 90 escuelas
de Pennsylvania.

Entre los 90 colegios y universidades del estado de Pennsylvania, la población


de colegiaturas cobradas a residentes fuera del estado puede considerarse como ses-
gada a la derecha en forma porque la media (10.89 miles de dólares) excede la
mediana (10.20 miles de dólares). Conclusiones similares se extraen del análisis de
la gráfica de caja y sesgos descrita en la figura 4.10.

4.8.S Resumen de los resultados de la muestra


y la población
La tabla 4.1 resume los resultados de utilizar las diversas mediciones descriptivas
que hemos investigado en este capítulo.

Tabla 4.1 Uso de mediciones descriptivas sobre


dos serles de datos.
Colegiaturas
Medición Muestra Población
descriptiva (n = 6) (N= 90)
Media 8.30 10.89
Mediana 8.30 10.20
Moda No moda Multimodal
X 4.90 2.70
X menor
mayor
11.70 22.30
Rango 8.30 12.50
~ 6.30 8.40
~ 10.30 13.30
Eje medio 8.30 10.85
Alcance 6.80 19.60
Rango intercuartil 4.00 4.90
Varianza 6.368 15.594
Desviación estándar 2.52 3.95
Coeficiente de variación 30.4% 36.3%
Forma Simétrica Sesgada a la derecha

Observamos que las diversas estadísticas calculadas a partir de la muestra de


tamaño seis parecen diferir de las características correspondientes obtenidas a par-
tir de la población de tamaño 90. La razón de esto, sin embargo, es simplemente
una función del azar. Al extraer la muestra aleatoria, nuestro analista investigador
de la compañía de servicios de asesoría colegial usó apropiadamente una tabla de
números aleatorios (tabla E.1), como se vio en la sección 2.7. Desafortunadamente,

Cálculo de mediciones descriptivas de resumen de una población 1J 7


2 20 22

µx= 10.89

Figura 4.11
Escala de puntos que muestra las colegiaturas cobradas (en $000) en 90 escuelas de Pennsylvania.
Nota: Figura 4.9.

a causa del pequeño tamaño de la muestra y únicamente debido al azar, las cole-
giaturas cobradas por los colegios y universidades seleccionadas son bastante
homogéneas y no logran justificar el rango de las colegiaturas que existe en la
población entera de 90 escuelas. Esto se ilustra claramente en el diagrama de pun-
tos de la figura 4.11. Los datos de muestra no están sesgados a la derecha porque
ninguna de las escuelas seleccionadas tuvo una colegiatura para residentes fuera
del estado (puntos claros) que estuviera entre el 30% de las más altas de la
población de escuelas.

4.8.6 Uso de la desviación estándar: La regla empírica


En la mayor parte de las series de datos, una gran porción de las observaciones tien-
den a agruparse de alguna manera cerca de la mediana. En las series de datos ses-
gadas a la derecha este agrupamiento ocurre a la izquierda (es decir, debajo) de la
mediana y en series de datos sesgadas a la izquierda las observaciones tienden a
agruparse a la derecha (es decir, arriba) de la mediana. En series de datos simétri-
cas, donde la mediana y la media son iguales, las observaciones;tienden a dis-
tribuirse igualmente alrededor de estas mediciones de tendencia central. Cuando
el sesgado extremo no se presenta y tal agrupamiento se observa en una serie de
datos, podemos usar la denominada regla empírica para examinar la propiedad
de variabilidad de datos y obtener una mejor idea de lo que la desviación estándar
está midiendo.
La regla empírica establece que en la mayoría de las series de datos
encontraremos que aproximadamente dos de cada tres observaciones (es
decir, 67%) están contenidas en una distancia de una desviación estándar
alrededor de la media y aproximadamente 90 a 95% de las observaciones
están contenidas en una distancia de 2 desviaciones estándar alrededor de la
media.
Así pues, la desviación estándar, como una medición de la variación promedio
alrededor de la media, nos ayuda a comprender cómo se distribuyen las observa-
ciones por encima y por debajo de la media y nos ayuda a enfocar y señalar obser-
vaciones inusuales (es decir, externas) al analizar una serie de datos numéricos.

4.8.7 Uso de la desviación estándar: La regla de Bienaymé


Chebyshev
Hace más de un siglo, los matemáticos Bienaymé y Chebyshev (referencia 4) exa-
minaron de manera independiente la propiedad de variabilidad de los datos
alrededor de la media. 4 Encontraron que, sin importar cómo se distribuye una serie

138 Caprtulo 4 Resumen y descripción de los datos numéricos


de datos, el porcentaje de observaciones que están contenidas dentro de las dis-
tancias de k desviaciones estándar alrededor de la media debe ser al menos

( 1- k\ )100%
Por tanto, para datos con cualquier forma
• Al menos [1- (1/2 2)]100% = 75.0% de las observaciones deben estar
contenidas dentro de distancias de ±2 desviaciones estándar alrededor
de la media.
• Al menos [1 - (1/3 2)] 100% = 88.89% de las observaciones deben estar
contenidas dentro de distancias de ±3 desviaciones estándar alrededor
de la media.
• Al menos [1 - (1/4 2)] 100% = 93.75% de las observaciones deben estar
contenidas dentro de distancias de ±4 desviaciones estándar alrededor
de la media.
Aunque la regla de Bienaymé-Chebyshev es general en naturaleza y se aplica a
cualquier tipo de distribución de da~os, veremos en el capítulo 8 que si los datos
forman la distribución normal de "campana" o gaussiana, 68.26% de todas las
observaciones estarán contenidas dentro de distancias de± 1 desviaciones están-
dar alrededor de la media, mientras que 95.44%, 99.73% y 99.99% de las observa-
ciones estarán incluidas, respectivamente, dentro de distancias de ± 2, ± 3 y ± 4
desviaciones estándar alrededor de la media. Estos resultados (entre otros) se
resumen en la tabla 4.2.

Tabla 4.2 Cómo varían los datos alrededor de la media.


Porcentaje de observaciones contenidas entre la media y k
desviaciones estándar basadas en
Número de unidades de Regla de Bienaymé-Chebyshev Datos de escuelas
desviaciones estándar k para cualquier distribución Distribución gaussiana de Pennsylvanla
1 No calculable Exactamente 68.26% Exactamente 64.4%
2 Al menos 75.00% Exactamente 95.44% Exactamente 96.7%
3 Al menos 88.89% Exactamente 99.73% Exactamente 100.0%
4 Al menos 93.75% Exactamente 99.99% Exactamente 100.0%

Específicamente, si supieramos que un fenómeno aleatorio particular sigue el


patrón de la distribución de campana, como muchos lo hacen, al menos aproxi-
madamente, entonces sabríamos (como se mostrará en el capítulo 8) exactamente
qué tan probable es que cualquier observación particular estuviera cerca o lejos de
su media. Por lo general, sin embargo, para cualquier tipo de distribución, la regla
de Bienaymé-Chebyshev nos dice al menos qué tan posible debe ser que
cualquier observación particular caiga dentro de una distancia dada alrededor de
la media.
De la tabla 4.1 recordamos que para la población de 90 colegios y universi-
dades de Pennsylvania, la colegiatura media cobrada a residentes fuera del estado,
µ , es 10.89 miles de dólares y la desviación estándar, a, es 3.95 miles de dólares.
Dxel diagrama de tallo y hojas (figura 4.9 de la página l34) observamos que 58 de
90 escuelas (64.4%) tenían una colegiatura de entreµ - la y a + la (es decir,
entre 6.94 y 14.84 miles de dólares). Además, vemos que 87 de 90 escuelas (96. 7%)
tenían una colegiatura de entreµ - Za y(]' + 2(]' (es decir, entre 2.99 y 18.79 miles
de dólares). Finalmente, observamos que fas 90x escuelas (100%) tenían una cole-
giatura de entreµ X - 3(]'X yµ X + 3(]'X (es decir, entre O y 22.74 miles de dólares). 5 Es

Cálculo de mediciones descriptivas de resumen de una población 1 JO


interesante observar que aun cuando los datos de colegiaturas están sesgados a la
derecha en forma, los porcentajes de colegios y universidades con colegiaturas que
caen dentro de una o más desviaciones estándar alrededor de la media no son muy
distintos de lo que se esperaría si los datos se distribuyeran como una distribución
gaussiana de campana, simétrica.

Problemas de la sección 4.8


• 4.45 Dada la siguiente serie de datos para una población de tamafio N = 10:
7 5 11 8 3 6 2 1 9 8
(a) Calcule la media, mediana, moda, rango medio y eje medio.
(b) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación.
(c) ¿Están sesgados estos datos? Sí es así, ¿cómo?
4.46 Dada la siguiente serie de datos para una población de tamafio N = 10:
7 5 6 6 6 4 8 6 9 3
(a) Calcule la media, mediana, moda, rango medio y eje medio.
(b) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación.
(c) ¿Están sesgados estos datos? Sí es así, ¿cómo?
(d) Compare las mediciones de tendencia central con aquellas del problema
4.45(a). Analice
(e) Compare las mediciones de variación con las del problema 4.45(b). Analice
4.47 Los siguientes datos representan los recibos de impuestos de ventas
trimestrales (en$) presentados al administrador del municipio de Gmoserville
para el periodo que finaliza en marzo de 1994 por los 50 establecimientos de
negocios en esa localidad:
10.3 11.l 9.6 9.0 14.5
13.0 6.7 11.0 8.4 10.3
13.0 11.2 7.3 5.3 12.5
8.0 11.8 8.7 10.6 9.5
11.1 10.2 11.1 9.9 9.8
11.6 15.1 12.5 6.5 7.5
10.0 12.9 9.2 10.0 12.8
12.5 9.3 10.4 12.7 10.5
9.3 11.5 10.7 11.6 7.8
10.5 7.6 10.1 8.9 8.6
(a) Organice los datos en una clasificación ordenada o diagrama de tallo y
hojas.
(b) Calcule la media, mediana, moda, rango medio y eje medio para esta
población.
(c) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación para esta población.
(d) Forme la gráfica de caja y sesgos y describa la forma de estos datos de
recibos de impuestos de ventas trimestrales.
(e) ¿Qué proporción de estos negocios tienen recibos de impuestos de ventas
trimestrales
(1) dentro de ±1 desviación estándar de la media?
(2) dentro de ±2 desviaciones estándar de la media?
(3) dentro de ±3 desviaciones estándar de la media?
(f) ¿Está sorprendido por los resultados de (e)? (Sugerencia: compare y
contraste sus resultados con lo que se esperaría basándose en la regla
empírica.)
(g) t.fiJiNM·f•P Ayude al administrador de este municipio escribiendo un
borrador del memorándum que será enviado al gobernador respecto a los
recibos recolectados.

140 caprtulo 4 Resumen y descripción de los datos numéricos


V (h) ¿Cómo será de utilidad esta información para el gobernador? Analice.

Problemas intercapitulares de la sección 4.8


4.48 Refiérase a los datos de incidencia de cáncer del problema 3.6 de la página 60:
(a) Calcule la media, mediana, moda, rango medio y eje medio para esta
población.
(b) Calcule el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación para esta población.
(c) Forme la gráfica de caja y sesgos y describa la forma de los datos.
(d) ¿Qué proporción de los estados tienen tasas de incidencia de cáncer
(1) dentro de ±1 desviación estándar de la media?
(2) dentro de ±2 desviaciones estándar de la media?
(3) dentro de ±3 desviaciones estándar de la media?
Q (e) ¿Está sorprendido por los resultados de (d)? (Sugerencia: compare y
contraste sus resultados con lo que se esperaría basándose en la regla
empírica.)
(f) f.t;il'lhf.!·> Modifique su carta al anfitrión del programa de televisión
[problema 3.6(c)) basándose en sus respuestas a (a)-(e).

IK·i Obtención de mediciones


descriptivas de resumen de datos
agrupados
A menudo es necesario obtener mediciones descriptivas de resumen de datos agru-
pados en tablas de distribución de frecuencia o presentados en histogramas, polí-
gonos u ojivas. En muchos casos, obtenemos tales distribuciones directamente de
informes publicados en revistas, periódicos o boletines profesionales. En estas
situaciones los datos originales (sin procesar) simplemente no están disponibles.
Mientras que las mediciones descriptivas de resumen calculadas a partir de datos
no agrupados, datos en forma sin procesar o en una clasificación ordenada o dia-
grama de tallo y hojas, proporcionan resultados reales, pueden obtenerse aproxi-
maciones de estas mediciones descriptivas a partir de los datos agrupados.

4.9.1 Uso de polígonos para comparar series


de datos agrupados
Los polígonos nos proporcionan una ayuda visual útil para comparar dos o más
series de datos numéricos en términos de sus propiedades, tendencia central,
variación y forma.
La figura 4.12 de la página 142 ilustra una distribución normal de campana
perfectamente simétrica. La media, mediana, moda, alcance medio y eje medio son
teóricamente idénticos.
La figura 4.13 de la página 142 muestra dos distribuciones normales idénticas.
Los polígonos A y B están sobrepuestos entre sí.
La figura 4.14 de la página 142 presenta dos distribuciones normales que
difieren sólo en la tendencia central. La media, mediana, moda, rango medio y eje
medio en el polígono C exceden (es decir, están a la derecha de) aquéllos para el
polígono A.
La figura 4.15 de la página 143 demuestra dos distribuciones normales que
difieren sólo en variación. El rango, rango intercuartil, varianza, desviación están-
dar y coeficiente de variación del polígono D son menores que los del polígono A.

Obtención de mediciones descriptivas de resumen de datos agrupados 141


,f!1~Cli~
Médlaria
·~pda'
Figura 4.12 Raqgo medio
Curva en forma de Ejé 'riledio
campana.

Figura 4.13 A
. B.
Dos distribuciones normales de
campana simétricas.

Figura 4.14
Do1 dl1trlbuclones normales de
campana 1lmétrlcas que difieren
1610 en la tendencia central.

4a figura 4.16 ilustra tres polígonos hipotéticos: el polígono A es una distri-


bución normal de campana simétrica: el polígono L es sesgado a la izquierda o
negativo (puesto que la distorsión a la izquierda es ocasionada por valores extrema-
damente pequefios); y el polígono Res sesgado a la derecha o positivo (puesto que
la distorsión a la derecha es ocasionada por valores extremadamente grandes).
Las posiciones relativas de las diversas mediciones de tendencia central (la
media, mediana, moda, rango medio y eje medio) en distribuciones sesgadas
pueden examinarse mejor en las figuras 4.17 y 4.18 de las páginas 143-144.

142 Capítulo 4 Resumen y descripción de los datos numéricos


Figura 4.15
Dos distribuciones normales de
A campana simétricas que
D difieren sólo en la tendencia
central.

Figura 4.le
Tres distribuciones que difieren
principalmente en forma.

Figura 4.17
Distribución sesgada a la izquierda.

En distribuciones sesgadas a la izquierda (figura ·4.17) las pocas observaciones


extremadamente pequefias distorsionan el rango medio y la media hacia el extremo
izquierdo. Por consiguiente, esperaríamos que la moda fuera el valor más grande y
el rango medio el más pequeño. Esto es,

rango medio < media < eje medio < mediana < moda

Obtención de mediciones ·descriptivas de resumen de datos agrupados 143


Figura 4.18
Moda tt Media Rango médio
Mediana Eje medio
Distribución sesgada a la derecha.

Sin embargo, en distribuciones sesgadas a la derecha (figura 4.18) lo inverso es


cierto. Las pocas observaciones extremadamente grandes distorsionan el rango
medio y la media hacia el extremo derecho. Por tanto, esperaríamos que el rango me-
dio excediera las demás mediciones. Esto es,

moda< mediana < eje medio < media < rango medio

Por otra parte, en distribuciones perfectamente simétricas la media, mediana,


rango medio y eje medio serán idénticos. Como se ilustra en las figuras 4.19 y 4.20,
la forma de la curva del lado izquierdo de estas mediciones de tendencia central es
la imagen de espejo de la forma de la curva a su derecha.

1
1
1
1
1
1
1
1
1
1

Media
Mediana
Rango medio
Figura 4.19
Eje medio
Curva de forma rectangular.
Nota: No incluye moda.

·· · Primera moda · Media S~gunda moda


Mediána
· ·Rango medio
Figura 4.20 Eje.medio
Curva en forma de U.

144 Capitulo 4 Rewmen y descripción de los datos numéricos


4.9.2 Aproximación de mediciones de tendencia
central y variación
Aunque existen diversas fórmulas para aproximar los valores de las diferentes
mediciones de tendencia central y variación cuando los datos numéricos han sido
agrupados en una tabla de distribución de frecuencia (referencia 1), es más simple
y más conveniente usar otros enfoques. Suponga, por ejemplo, que nuestro ana-
lista investigador de la compañía de servicios de asesoría colegial usa el Conjunto
de datos especiales 1 del apéndice D (páginas D4-DS) para desarrollar las distribu-
ciones de frecuencia y porcentaje (tabla 4.3) y construir el polígono de porcentaje
(figura 4.21) y la ojiva de porcentaje (figura 4.22) ilustrando las colegiaturas
cobradas a residentes fuera del estado en los 90 colegios y universidades del estado
de Pennsylvania.

Tabla 4.3 Distribución de frecuencias y distribución de


porcentaje de colegiaturas cobradas a
residentes fuera del estado en 90 escuelas
de Pennsylvania.
Colegiaturas Número de Porcentaje de
(in $000) escuelas escuelas
2.0 pero menos que 4.0 1 1.1
4.0 pero menos que 6.0 8 8.9
6.0 pero menos que 8.0 8 8.9
8.0 pero menos que 10.0 22 24.4
10.0 pero menos que 12.0 24 26.7
12.0 pero menos que 14.0 7 7.8
14.0 pero menos que 16.0 7 7.8
16.0 pero menos que 18.0 10 11.1
18.0 pero menos que 20.0 2 2.2
20.0 pero menos que 22.0 o o.o
22.0 pero menos que 24.0 _1 1.1
Totales 90 100.0
Fuente: Los datos fueron tomados de Conjunto de datos especiales
1 del apéndice D de las páginas 04-05.

30

·r-•
(J)
ca
Qi 25

........ .
::l
o(J) '. . \
Qj ~o I .\.
Qj I ';:' ·:
\ .
"C·
Qj
15 I ''

, l. ' ' :;' ~: :

~ 10
.. 1 .. \, ,. :;J ..

,, ..
Qj ~ ..
f2
o
a.
5
' ~
o f''.

o 10 12 14 16 18 ,2a··
~ '« . ' ' \' ~' :
Colegiaturas (en $000)

Figura 4.21
Polígono de porcentaje de colegiaturas cobradas a residentes fuera del estado en 90 escuelas de
Pennsylvania.
Fuente: Datos tomados de la tabla 4.3.

Obtención de mediciones descriptivas de resumen de datos agrupados 145


100
90
«':

, .•·.~
, ,,· , ..
' -· .
-.... -
Cll
80
....
''· .,..,
' '

..!!!
~
u
(J)
.. 70
, :.,-:'".

,,.,
Cll
CD 60 i
'(J)
'O 50

CD
ae:
,,
40 I
~
o 30
o.
20
10 , ....
.... I

o ...
o 2 4 6, 8 10 12 14 16 18 20 22 24
Colegi¡¡turas (en $000)

Figura 4.22
Ojiva de porcentaje de colegiaturas cobradas a residentes fuera del estado en 90 escuelas de
Pennsylvania.
Fuente: Los datos fueron tomados de la tabla 4.3.

La mediana puede aproximarse fácilmente a partir de la ojiva de porcentaje


ilustrada en la figura 4.22. Esto es, ¿50% de las colegiaturas están por debajo de qué
cantidad? Para determinar esto, como se muestra en la figura 4.23, se traza una
línea horizontal desde el punto de porcentaje acumulativo especificado (SO.O)
hasta que ésta interseca la curva "menor que". La colegiatura mediana se aproxima
entonces bajando una perpendicular (una línea vertical) desde el punto de inter-
sección hasta el eje horizontal. De la figura 4.23 observamos que la colegiatura
mediana se aproxima como 10.5 miles de dólares.
La moda puede aproximarse a partir de una distribución de frecuencia
eligiendo el punto medio de la clase que contenga la mayor parte de las observa-
ciones. Esta clase es la más típica o clase modal. Por tanto, para las 90 escuelas de
Pennsylvania (tabla 4.3), la clase modal contiene colegiaturas de 10.0 a 12.0 miles
de dólares y la moda se aproxima como 11.0 miles de dólares.
El rango puede aproximarse a partir de una distribución de frecuencia prome-
diando los extremos posibles, el límite superior del agrupamiento de la última clase
(X _) y el límite inferior del agrupamiento de la primera clase (X .J. Para las
esé"ú~ias de Pennsylvania, el rango medio es aproximadamente f'.f.'5 miles de
dólares (es decir, el promedio de 2.0 y 24.0 miles de dólares).
Para aproximar los cuartiles se usa la ojiva de porcentaje (figura 4.22). Para~,
se traza una línea horizontal desde el punto de porcentaje acumulativo 25.0 hasta
que interseca la curva "menor que"; para~, se traza una línea horizontal desde el
punto de porcentaje acumulativo 75.0. Los cuartiles se aproximan entonces ba-
jando perpendiculares desde los puntos de intersección hasta el eje horizontal. De
la figura 4.23 observamos que la colegiatura del primer cuartil se aproxima como
8.5 miles de dólares, mientras que la colegiatura del tercer cuartil se aproxima
como 13.3 miles de dólares.
El eje medio puede aproximarse promediando los cuartiles. Para las escuelas de
Pennsylvania, el eje medio es aproximadamente 10.9 miles de dólares (es decir, el
promedio de 8.5 y 13.3 miles de dólares).

146 Capítulo 4 Resumen y descripción de los datos numéricos


100
90
, ·---·-;·
, ,,.,. _
¡
:l
tJ
"'
Q)
80
70
60
-------~-----------·---~-~r_.
I
I
... ,

Q) , I
"O 50
-------------------~
.•:
Q)

~Q)
40 , 1
E:?
o 30
a.
-------------:--~:
, : , 1

1
20 • 1 1
, 1 1
10
o
,. , •' 1 1

o 2 4 6 8 10 12 14 16 18 20 22 24
0 1 Mediana ·. Oa
Colegiaturas (en $000)

Figura 4.23
Aproximación de la mediana y los cuartiles a partir de la ojiva de porcentaje.
Fuente: Figura 4.22.

Con los datos agrupados en una distribución de frecuencia, el alcance puede


aproximarse como la diferencia entre el límite superior del agrupamiento de la
última clase y el límite inferior del agrupamiento de la primera clase. Por tanto, de
la tabla 4.3, el rango de las colegiaturas es aproximadamente 22.0 miles de dólares
(es decir, 24.0 - 2.0).
El rango intercuartil puede aproximarse como la diferencia entre~ y~· Para
las escuelas de Pennsylvania, el rango intercuartil en las colegiaturas es aproxi-
madamente 4.8 miles de dólares (es decir, 13.3 - 8.5).
Desafortunadamente, en casi todas las situaciones, la media, varianza, desvia-
ción estándar y coeficiente de variación no pueden aproximarse exactamente una
vez que los datos sin procesar se han agrupado en una distribución de frecuencia
sin usar fórmulas especiales (véase la referencia 1). En algunas situaciones, sin
embargo, pueden hacerse aproximaciones útiles. Por ejemplo, si una serie de datos
numéricos fuera perfectamente simétrica, la media sería igual a la mediana, alcan-
ce medio y eje medio; si los datos fueran aproximadamente simétricos, la media
podría aproximarse por el promedio de estas otras mediciones de tendencia cen-
tral. Además, si el histograma o polígono parece ser el de una distribución "nor-
mal" de campana, la desviación estándar podría aproximarse como el promedio
entre un sexto del rango y tres cuartos del rango intercuartil. 6
Por otra parte, si, como en la tabla 1.3 o la figura 4.21 para las colegiaturas de
Pennsylvania, la distribución de frecuencia o el polígono indica que los datos están
sesgados pero tienen un pico (clase modal), podría hacerse una aproximación más
general para la media promediando el rango medio y la mediana, mientras que
podría hacerse una aproximación más general para la desviación estándar
tomando un quinto del rango. El coeficiente de variación se sigue definiendo
como una medición de dispersión relativa alrededor de la media, y puede aproxi-
marse a partir del cociente de la desviación estándar entre la media.
Por tanto, para los datos de colegiaturas de Pennsylvania, la media se apro-
xima en general como 11.75 miles de dólares (es decir, el promedio entre el rango
medio, 13.0 miles de dólares, y la mediana, 10.5 miles de dólares). Además, la

Obtención de mediciones descriptivas de resumen de datos agrupados l 4J


desviación estándar se aproxima generalmente como 4.4 miles de dólares (es decir,
un quinto del alcance). Además, el coeficiente de variación se aproxima general-
mente como 37.4% (es decir, el cociente de la desviación estándar entre la media,
multiplicado por 100%).

4.9. 3 Comparación de mediciones descriptivas: Valores


reales y aproximaciones de datos agrupados
La tabla 4.4 presenta un resumen de las mediciones descriptivas reales obtenidas
de los datos sin procesar (véase Conjunto de datos especiales 1 del apéndice D de
las páginas D4-D5) y sus aproximaciones correspondientes obtenidas de la dis-
tribución de frecuencia y ojiva de porcentaje (véase la tabla 4.3 de la página 145 y
la figura 4.22 de la página 146). Al examinar estos resultados se esclarecerá que las
interpretaciones tabular y gráfica, que son mucho menos complicadas, producen
buenas aproximaciones de los valores reales obtenidos a partir de los cálculos de
datos no agrupados más laboriosos.

Tabla 4.4 Una comparación de valores reales y aproximaciones


de datos agrupados.
Colegiaturas ($000) en 90 colegios y
universidades de Pennsylvania obtenidas de
Datos (sin procesar) Datos
Medición descriptiva no agrupados agrupados
Media 10.89 11.75
Mediana 10.2 10.5
Moda Multimodal 11.0
X 2.7 2.0
X menor
22.3 24.0
mayor
Rango medio 12.5 13.0
Ql 8.4 8.5
~ 13.3 13.3
Eje medio 10.85 10.9
Rango 19.6 22.0
Rango intercuartll 4.9 4.8
Varianza 15.594 19.36
Desviación estándar 3.95 4.4
Coeficiente de variación 36.3% 37.4%
Forma Sesgada a la derecha Sesgada a la derecha

Problemas de la sección 4. 9
4.49 Refiérase a Jos datos de recibos de impuestos de ventas trimestrales del
problema 4.47 de Ja página 140:
(a) Construya una distribución de frecuencia y una distribución de
porcentaje.
(b) Forme la distribución de porcentaje acumulativo.
(e) Grafique Ja ojiva (polígono de porcentaje acumulativo).
(d) Use sus tablas en (a) y (b) y el diagrama en (c):
(1) Aproxime Ja media, mediana, moda, rango medio y eje medio para
esta población.

148 Capítulo 4 Resumen y descripción de los datos numéricos


(2) Aproxime el rango, rango intercuartil, desviación estándar y coeficiente
de variación para esta población.
(3) Describa la forma de los datos.
(e) t-t;iMM·i•P Compare y contraste sus aproximaciones en (d) con las del
problema 4.47(b) y (c). Analice.
e 4.50 Refiérase a los datos de donaciones del problema 4.10 de la pag 116:
(a) Construya una distribución de frecuencia y una distribución de
porcentaje.
(b) Forme la distribución de porcentaje acumulativo.
(c) Grafique la ojiva (polígono de porcentaje acumulativo).
(d) Use sus tablas en (a) y (b) y el diagrama en (c):
(1) Aproxime la media, mediana, moda, rango medio y eje medio para
esta muestra.
(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para esta muestra.
(3) Describa la forma de los datos.
(e) t·toiil9"1·i•P Compare y contraste sus aproximaciones en (d) con las del
problema 4.10 (página 116), 4.22 (página 126), 4.31(página128) y 4.39
(página 131). Analice.

Problemas intercapitulares de la sección 4. 9


4.51 Refiérase a los datos sobre la cantidad adeudada a la compañía de libros por
correo del problema 3.2 de la página 58:
(a) Construya una distribución de frecuencia y una distribución de
porcentaje.
(b) Forme la distribución de porcentaje acumulativo.
(c) Grafique la ojiva (polígono de porcentaje acumulativo).
(d) Use sus tablas en (a) y (b) y el diagrama en (c):
(1) Aproxime la media, mediana, moda, rango medio y eje medio para
esta muestra.
(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para esta muestra.
(3) Describa la forma de los datos.
(e) UOJii'mt.1•> Compare y contraste sus aproximaciones en (d) con las
de los problemas 4.13 (página 118), 4.25 (página 126), 4.34 (página 128) y
4.42 (página 132). Analice.
4.52 Refiérase a los datos sobre las tasas de flujo máximo de las regaderas del
problema 3.3 de la página 58:
(a) Use sus tablas y diagramas en los problemas 3.13 (página 66), 3.20
(página 70), 3.27 (página 73) y 3.35 (página 71):
(1) Aproxime la media, mediana, moda, rango medio y eje medio para
esta muestra.
(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para esta muestra.
(3) Describa la forma de los datos.
(b) t·fOJfrJ/,f.¡,> Compare y contraste sus aproximaciones en (a) con las de los
problemas 4.14 (página 118), 4.26 (página 127), 4.35 (página 128) y 4.43
(página 132). Analice.
e 4.53 Refiérase a los datos sobre los cobros de servicios de electricidad y gas del
problemas 3.12 de la página 66:
(a) Use sus tablas y diagramas en los problemas 3.12, 3.19 (página 70), 3.26
(página 73) y 3.34 (página 77):
(1) Aproxime la media, mediana, moda, rango medio y eje medio para
esta muestra.

Obtención de mediciones descriptivas de resumen de datos agrupados 149


(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para esta muestra.
(3) Describa la forma de los datos.
(b) f.¡4¡¡q¡,¡.f,p. Compare y contraste sus aproximaciones en (a) con las de los
problemas 4.15 (página 118), 4.27 (página 127), 4.36 (página 128) y 4.44
(página 132). Analice.
4.54 Refiérase a los datos de incidencia de cáncer del problema 3.6 de la página 60:
(a) Use sus tablas y diagramas en los problemas 3.15 (página 66), 3.22
(página 70) y 3.29 (página 73) y 3.37(página 78):
(1) Aproxime la media, mediana, moda, rango medio y eje medio para
esta muestra.
(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para esta muestra.
(3) Describa la forma de los datos.
(b) f.t;m¡,¡.¡,p. Compare y contraste sus aproximaciones en (a) con las del
problema 4.48 (página 141). Analice.
e 4.55 Refiérase a los datos de valores en libros del problema 3.5 de la página 60:
(a) Use sus tablas y diagramas en los problemas 3.14 (página 66), 3.21
(página 70) y 3.28 (página 73) y 3.36 (página 78):
(1) Aproxime la media, mediana, moda, rango medio y eje medio para
esta muestra.
(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para esta muestra.
(3) Describa la forma de los datos.
(b) Use los datos del problema 3.5:
(1) Aproxime la media, mediana, moda, rango medio y eje medio reales
para esta muestra.
(2) Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación reales para esta muestra.
(3) Describa la forma de los datos.
(c) f.t;il•Ji.z.t•P. Compare y contraste sus aproximaciones en (a) con las de las·
mediciones de resumen reales en (b). Analice.

ISO Capítulo 4 Resumen y descripción de los datos numéricos


4.10.2 Encuesta sobre la, satisfacción de los empleados de·
Industrias Kalosha · · :.r<
Tal vez recordemos de la Se€ción 3.8,2 que Bud Conley, vicepresidente de recU.rS~s:
humanos, está preparándose para una reunión con un representante de la B S,t' t;;;
CoJi>oration a fin de analizar el contenido potencial de un paquete de beneficio~ a:
empleados que se está desarrollando. Las respuestas a las dos siguientes pregun~as•
•eriari de interés particular en un análisis inicial de los datos de encuesta (tabla 2.:3
de las páginas 33-40): " ,,
L Pregunta general A: ¿Cuáles son las características de la distribución de.
ingresos personales entre los empleados de tiempo completo de ·,,
Industrias Kalosha (véase la pregunta 7 de la encuesta)?
2. Pregunta generalB: ¿Hay diferencias de género en los ingresos
personales entre los empleados de tiempo completo de Industrias
Kalosha (véanse las preguntas 7 y 5 de la encuesta)? · '.·,:··.:;:,

Éstas y otras preguntas iniciales formuladas por Bud Conley (véase Proyecto
Encuesta/Base de datos al final de la sección) requieren un análisis estadístico descri~:
tivo detallado de las 400 respuestas a la encuesta. En la práctica, un estadístico p~ci'.;;
bablemente usaría uho o dos paquetes estadísticos al efectuar el análisis estadísti~q
descriptivo. Siri ell1bélrgo, aquí se presenta la sálida de computadora de varios paé¡Ü'.e-
~es para que podamos demostrar algunas .de las características de estos paquetes. ' ' :''
'· ' 1 ' • ' • ~ <

4.10.3 , l)so de. paq1,1et;es estadísticos para dat()s n... m~,riC:o~':,::,;;


En la sección 3.8.3, se p~esentaron tablas y diagramas apropiadqs colÍl.ó p~rt~\1~:
una respuesta inicial ·a las dos ·preguntas dé Bud Conley. Para conti:r:iuar c01f~F
análisis descriptivo, 'se necesitan otros tipos de salida. Pór ejeniplo, efrrespuesfa\~
la pregunta A; serían deseables un conjunto de mediciones deseriptivasde:restlaj~tl;¡
'y tina gráfica 'de !:aja y sesgos. La figura 4.24 presenta uná salida d~compufadÓ*~·
que muestra mediciciries Clésciiptivas dé resumen para lós ingresos personales: EstB,;
salida se ()btuvo accesando.MINITAB.· Ademas,, la fígura ·4:2s· de la página, it' '~' 1s.2: 1

tfa lá gráfi~a de ea) a y ~esgos para·ingtesos persón:ales 'usarido STATISTIX.. )': :.


, . . De esta salid~ de·: ·d:#riputadúr~ y de la: sec.ción 3:8.3/ puede deftvafs~':'
:resppesta a'lápriipéra ,ptegu11ta geheral & Büd ~~nfoy:}~as d~y~rsas pfos~p,
tabulares y gráficas ylas· mediciones de,resumenindkah que ,la ,d~st(ibuctcf)
ingresos del p~rsopéd"4~ }ieII,lpÓ completo está sesgada ~ la d~r~ct:ü( Lt;)};
rnedios sofr 29:sss miles dé dófares¡ la riiediaria es· 26.2 riülés dé dófares:''
aun cuand,~ sólÓ L75% dé los:
ingr~sos personales exceden lds 75.'<t~
dólares; el alargátl1ieiit9' ~el' sesgo··. . . . . .. ' , (,.

TRME,AN ·· STDEV

ití:~ÓoME: ' 400 ,; 29. 555 26. 200 '28: 462.


,, ''.·.'.:

..... ''M!~
.. ( .. Q3
. , ,,

Figura 4.24
Mediciones de resumen de salida MINITAB.
Nota: Debemos estar familiarizados con todas las mediciones de resumen obtenidas· de la salida de MINITAB
excepto TRMEAN (que está más allá del objetivo de este texto) y SEMEAN (que se estudiará en el capítulo 9).

Uso de la computadora para obtener mediciones descriptivas de resumen 15 1


Gráfica de caja y sesgos
100 1-

*
R
1 70 .. •*
*
N
Figura 4.25 e
Gráfica de caja y sesgos de salida de STATISTIX. o
Nota: Existe mucha flexibilidad entre los diversos M 40 1-
paquetes de software estadístico con respecto al diseño y
despliegue de la gráfica de caja y sesgos. Como se
E
1 1
muestra aquí, una gráfica de caja y sesgos obtenida por 1 1
STATISTIX se imprime verticalmente (con los valores
altos hasta arriba de la escala) en vez de horizontalmente
10 - 1
(con los valores altos del lado derecho de la escala).
Además. observamos que los valores extremos y las 400 casos
externas potenciales se señalan por separado fuera de los
sesgos de la gráfica.

en la parte superior de la gráfica de caja y sesgos (figura 4.25) indica que el 25%
superior de los ingresos personales de los empleados se encuentran en el amplio
alcance de 37.85 a 91.9 miles de dólares. No obstante, una mayoría sustancial de los
ingresos personales de los empleados (72.75%) cae entre 15.449 miles de dólares y
43.661 miles de dólares (es decir, el intervalo formado desde X± S). Además (del
resumen de cinco números), aunque los ingresos personales varían en valor de 10.1
a 91.9 miles de dólares, la "propagación media" o alcance intercuartil va de 18.725
a 3 7.85 miles de dólares.
Para responder la pregunta específica B de Bud Conley, se requiere una evalua-
ción de diferencias de género en los ingresos personales de los empleados de
tiempo completo, una clasificación de las respuestas numéricas en las dos cate-
gorías de género (hombre y mujer). Este proceso puede realizarse accesando uno
de los paquetes estadísticos. Una vez que se hace esto, para cada agrupamiento de
género se necesitarían tipos de salidas similares a los presentados en las figura 4.24
y 4.25. Para resaltar esto, la figura 4.26 (página 153) presenta el conjunto de
mediciones descriptivas de resumen de los ingresos personales de los empleados
de tiempo completo hombres y mujeres, y la figura 4.27 (página 154) ilustra las grá-
ficas de caja y sesgos correspondientes. La salida representada en estas figuras
respectivas se obtuvo accesando SAS y SPSS.
De las figuras 4.26 y 4.27, así como de los diagramas de tallo y hojas de la figura
3.18 de la página 87, se observa que mientras las distribuciones de los ingresos per-
sonales de los empleados basados en el género están sesgados a la derecha, los
empleados de tiempo completo, hombres, de Industrias Kalosha tienen ingresos
personales sustancialmente más altos que las mujeres. Las medias, medianas y ejes
medios correspondientes indican cada una que, en promedio, los ingresos perso-
nales de los empleados hombres son de 9 a 10 dólares más. Además, respecto a la
variación, los ingresos personales de los empleados hombres son menos homogé-
neos que los de los empleados mujeres. Como se indica en las desviaciones están-
dar, los rangos y los rangos intercuartiles obtenidos de la figura 4.26, existe
sustancialmente más variación en los ingresos personales de los empleados hom-
bres que en los de mujeres. Sin embargo, tales diferencias en los ingresos perso-
nales de los dos grupos de género se disipan un tanto cuando se hace una
comparación de los coeficientes de variación. Para los empleados hombres la dis-
persión relativa de los ingresos personales alrededor de la media es de 45.3%; para
los empleados mujeres, es de 40.9%.

152 Capítulo 4 Resumen y descripción de los datos numéricos


- - · · - - - - - - - · - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - SEX=MAJ,ES · · • • • • • • • • 1 .·,,,, • !
Univariate Procedur•
Variable=RINCOME
Moments Quantiles(Def=5)
N 233 Sum Wgts 233 100% Max 91.9 '99\ 78.3
Mean 33.70687 Sum 7853.7 75% Q3 42.7 95% 59.3
Std Dev 15.27374 Variance 233.2872 50% Med 31 . 2 90% 52.8
Skewness 0.915475 Kurtosis 0.934922 25% Ql 22 10% 16.1
uss 318846.2 css 5'4122.63 0% Min 10.2 5% 14.5
CV 45.31344 Std Mean 1.00061-6 1% 10.5
T:Mean=O 33.68611 Pr>jTj 0.0001 Range 81.7
Num A= o 233 Num > O 233 Q3-Ql 20.7
MrSignl 116.5 Pr>=¡M¡ 0.0001 Mode 22.5
Sgr. Rank 13630.5 Pr>= S 0.0001

--------------------------------------------------------------- SEX=FEMALES ------·-------


Univariate Procedure
Variable=RINCOME
Moments Quantiles(Def=5)
N 167 Sum Wgts 167 100% Max 62.8 99% 61.7
Mean 23.76287 sum 3968.4 75% Q3 28.1 95% 40.7
Std Dev 9 .70901 Variance 94.26488 50% Med 21- 9 90% 36.1
Skewness 1.433697 Kurtosis 2.848284 25% Ql 16.7 10% 14.2
uss 109948.6 css 15647.97 0% Min 10.l 5% 11.9
CV 40 85789 Std Mean 0.751306 1% 10.3
T:Mean=O 31.62877 Pr>ITI 0.0001 Range 52.7
Num A= O 167 Num > O 167 Q3-Ql 11.4
M (Sign) 83.5 Pr>=¡M¡ 0.0001 Mode 15
Sgn Rank 7014 Pr>= S 0.0001

Figura 4.2.6
Mediciones de resumen de salida de SAS.
Nota: Como vemos de Ja salida bajo Jos encabezados de Moments (momentos) y Quantiles (cuantiles), SAS proporciona un extenso conjunto de
mediciones de resumen, algunas de las cuales todavía no hemos aprendido y otras que no veremos (véase la referencia 8). Las mediciones de
resumen de interés para nosotros se resaltan en blanco.

Bud Conley también estaba interesado en evaluar otras diferencias de género


potenciales con respecto a las horas trabajadas, la duración del empleo y el número
de promociones. Un análisis estadístico descriptivo basado en las respuestas a éstas
y otras preguntas relativas a las variables numéricas de la Encuesta sobre la satis-
facción de los empleados (véase Proyecto Encuesta/Base de datos) le hará tener una
mejor comprensión de la composición de la fuerza de trabajo de tiempo completo
de Industrias Kalosha y le ayudará en sus deliberaciones con la B&L Corporation
respecto al desarrollo de un paquete de beneficios a empleados.

Proyecto encuesta/Base de datos de la sección 4.1 O


Los siguientes problemas se refieren a los datos de muestra obtenidos del
cuestionario de la figura 2.6 de las páginas 28-29 y presentados en la tabla 2.3 de
las páginas 33-40. Deben resolverse con la ayuda de un paquete de computadora
disponible.
Suponga que usted es contratado como asistente de investigación de Bud
Conley, el vicepresidente de recursos humanos de Industrias Kalosha. Él le ha
dado una lista de preguntas (véanse los problemas 4.56 a 4.69) que necesita
responder antes de su reunión con un representante de B&L Corporation, la
compañía consultora sobre beneficios a empleados que él ha contratado.

Uso de la computadora para obtener mediciones descriptivas de resumen 111


s
E
X

-•35 320
Male oop o o

Female
smss
00
"ªo 11!16
O+

o 20 40 60 80 100

RINCOME
Figura 4.27
Gráficas múltiples de caja y sesgos de SPSS.
Nota: Observamos que las gráficas de caja y sesgos de SPSS se muestran aquí horizontalmente, con los valores
de ingresos más altos del lado derecho de la escala. Además, vemos que los valores extremos y las externas
potenciales se sei'lalan de manera separada fuera de los sesgos de la gráfica. SPSS proporciona el número del
encuestado junto a las externas sei'laladas. Aunque esto es útil a menudo para localizar un encuestado
particular, cuando hay varias externas muy juntas como en la figura 4.27, los números de encuestados
confunden y son de uso limitado. ·

De las respuestas a las preguntas que se refieren a variables numéricas en la


Encuesta sobre la satisfacción de los empleados (véanse páginas 33-40), en los
problemas 4.56 a 4.69 a continuación,
(a) Obtenga
(1) la media (5) el rango
(2) la mediana (6) el rango intercuartil
(3) el rango medio (7) la desviación estándar
(4) el eje medio (8) el coeficiente de variación
(b) Enumere el resumen de cinco números.
(c) Forme la gráfica de caja y sesgos.
(d) p.t;d'll•M•P Escriba un memorándum a Bud Conley analizando sus
hallazgos.
4.56 ¿Existen diferencias en los ingresos personales de los empleados de tiempo
completo de Industrias Kalosha basándose en una participación individual en
las decisiones presupuestales (véanse las preguntas 7 y 22)?
4.57 ¿Existen diferencias en los ingresos personales de los empleados de tiempo
completo de Industrias Kalosha basándose en el agrupamiento ocupacional
(véanse las preguntas 7 y 2)?
4.58 ¿Cuáles son las características de la distribución del número de horas típica-
mente trabajadas por semana por todos los empleados de tiempo completo de
Industrias Kalosha (véase la pregunta 1)?
4.59 ¿Existen diferencias de género en el número de horas típicamente trabajadas
por semana por todos los empleados de tiempo completo de Industrias
Kalosha (véanse las preguntas 1 y 5)?
4.60 ¿Existen diferencias en el número de horas típicamente trabajadas por semana
por todos los empleados de tiempo completo de Industrias Kalosha basándose
en una participación individual en las decisiones presupuestales (véanse las
preguntas 1 y 22)?
4.61 ¿Existen diferencias en el número de horas típicamente trabajadas por semana
por todos los empleados de tiempo completo de Industrias Kalosha basándose
en el agrupamiento ocupacional (véanse las preguntas 1 y 2)?

154 Capítulo 4 Resumen y descripción de los datos numéricos


4.62 ¿Cuáles son las características de la distribución de duración de empleo (en
años) entre los empleados de tiempo completo de Industrias Kalosha (véase la
pregunta 16)?
4.63 ¿Existen diferencias de género en la duración de empleo (en años) entre los
empleados de tiempo completo de Industrias Kalosha (véanse las preguntas 16
y S)?
4.64 ¿Cuáles son las características de la distribución de edad (en años) entre los
empleados de tiempo completo de Industrias Kalosha (véase la pregunta 3)?
4.65 ¿Existen diferencias de género en las edádes de empleados de tiempo completo
de Industrias Kalosha (véanse las preguntas 3 y 5)?
4.66 ¿Cuáles son las características de la distribución de educación (en afios de
enseñanza formal) entre los empleados de tiempo completo de Industrias
Kalosha (véase la pregunta 4)?
4.67 ¿Existen diferencias de género en el nivel de educación (en años de enseñanza
formal) entre los empleados de tiempo completo de Industrias Kalosha (véanse
las preguntas 4 y 5)?
4.68 ¿Cuáles son las características de la distribución de ingresos familiares entre los
empleados de tiempo completo de Industrias Kalosha' (véase la pregunta 8)? ·
4.69 ¿Cuáles son las características de la distribución de afios de los empleados de
tiempo completo desde la edad de 16 años para todos los empleados de
tiempo completo de Industrias Kalosha (véase la pregunta 15)?
4.70 En cuanto a la pregunta formulada en la sección 4.5.4 (página 125) por Bud
Conley, el vicepresidente de recursos humanos, ¿existe una mayor variabilidad
(sobre una base relativa) en la cantidad de horas trabajadas a la semana por los
empleados de tiempo completo (pregunta 1) o en los ingresos personales
anuales de los empleados (pregunta 7)?

eH11 Reconocimiento y práctica de un


adecuado resumen descriptivo y
exploración de cuestiones éticas
En este capítulo hemos estudiado cómo se caracteriza una serie de datos numéricos
a través del cálculo de diversas mediciones descriptivas de resumen relativas a las
propiedades de tendencia central, variación y forma. El siguiente paso es el análisis
e interpretación de los datos; el primero es objetivo, la última es subjetiva. ¿Cómo
vamos a usar nuestros resultados y cómo deberíamos usar nuestros resultados? ¿Usa
el borracho un poste de alumbrado principalmente como soporte o para ilumina-
ción? En un tono similar, ¿usamos nuestros resultados principalmente para respal-
dar subjetivamente una posición o afirmación previa, o usamos nuestros hallazgos
para iluminar objetivamente lo que los datos tratan de transmitir?
Puesto que un papel importante del estadístico consiste en analizar e interpre-
tar los resultados, las mediciones de resumen calculadas deben usarse principal-
mente para incrementar el análisis e interpretación de los datos. Debemos evitar
los errores que pueden surgir ya sea en la objetividad de lo que se está analizando
o en la subjetividad de l? que se está interpretando (referencias 3 y 5).

4. 1 1 • 1 Prevención de errores en análisis e interpretación


Tal vez recordemos que, al principio de este capítulo (véase la sección 4.2), antes
de estudiar las mediciones descriptivas de resumen que caracterizan las tres pro-
piedades de los datos numéricos (tendencia central, variación y forma), se nos
pidió examinar y describir un conjunto de datos numéricos pertenecientes a cole-
giaturas cobradas a residentes fuera del estado de una muestra de seis colegios y

Reconocimiento y práctica de un adecuado resumen descriptivo y exploración de cuestiones éticas 111


universidades de Pennsylvania. En estos términos, sin conocer el contenido de este
capítulo, intentamos analizar e interpretar lo que los datos trataban de transmitir.
Nuestro análisis fue objetivo¡ todos debimos concordar con nuestros limitados
hallazgos visuales: no había un valor de colegiatura típico; la propagación de las
colegiaturas variaba de 4.9 a 11.7 miles de dólares; y no había externas presentes
en los datos. Por otra parte, habiendo leído ahora el capítulo y conociendo diver-
sas mediciones descriptivas de resumen y sus puntos fuertes y débiles, ¿cómo
podríamos mejorar nuestro análisis previamente objetivo? ¿No proporciona la
desviación estándar más información sobre la propiedad de variación que el
alcance? ¿No deberíamos describir la serie de datos como simétrica en forma?
La objetividad en el análisis de datos reporta las más apropiadas mediciones de
resumen para una serie de datos dada, aquellas que mejor satisfacen las suposi-
ciones sobre la serie de datos dada. En nuestro ejemplo, supusimos adecuadamente
que los datos estaban en forma sin procesar, es decir, no había patrón de secuencia
de los datos recolectados. Si esta suposición se hubiera violado, todavía podríamos
haber hecho comentarios descriptivos objetivos como aquí se indica, pero no
habríamos podido extraer inferencias sobre la población de colegios y universi-
dades del estado de Pennsylvania; tales inferencias dependen de la suposición de
que las escuelas muestreadas se seleccionaron aleatoria e independientemente. Por
tanto, sólo a través del conocimiento y la conciencia puede tener lugar un buen
análisis de datos objetivo.
Por otra parte, nuestra interpretación de datos fue subjetiva¡ podríamos haber
formado diversas conclusiones al interpretar nuestros hallazgos analíticos. Todos
vemos el mundo desde diferentes perspectivas. El optimista ve un vaso cuyo volu-
men contiene 50% de agua como "medio lleno"; el pesimista ve el mismo vaso
como "medio vacío". Algunos de nosotros veremos la clasificación ordenada de
colegiaturas en miles de dólares (4.9, 6.3, 7.7, 8.9, 10.3, 11.7) y concluiremos que
los residentes fuera del estado que asisten a las escuelas de Pennsylvania pagan
demasiado; otros, que asisten a instituciones privadas más caras, verán la misma
serie de datos y concluirán que los residentes fuera del estado pagan demasiado
poco. Por consiguiente, puesto que la interpretación de datos es subjetiva, debe
hacerse de una manera justa, neutral y clara.

4. 1 1 .2 Prevención de errores en la representación:


Innecesarios adornos tabulares y basura gráfica
Con el fin de analizar e interpretar nuestros datos apropiadamente, primero debe-
mos construir tablas y diagramas apropiados como en el capítulo 3 y luego resumir
los resultados calculando las mediciones descriptivas adecuadas. Con demasiada
frecuencia, al hojear revistas y periódicos, encontramos que, para evitar la presen-
tación aburrida de datos, las tablas y diagramas se adornan con diversos iconos y
símbolos para hacerlas atractivas a sus lectores. Desafortunadamente, el "reavivar"
una tabla o diagrama a menudo oculta o distorsiona el mensaje pretendido que los
datos transmiten.
Como ejemplos de una buena y una mala presentación tabular, compare la
tabla 4.5 con la tabla 4.6 de las páginas 157 y 158, respectivamente. En la tabla 4.5,
el adorno (es decir, las banderas que representan los ¡,31íses particulares) de hecho
acrecienta la información que se está transmitiendo. Este no es el caso en la tabla
4.6, donde los adornos extra innecesarios disminuyen la información que se está
transmitiendo.
Observe que en esta última presentación el adorno (es decir, las barras hori-
zontales) "intenta" producir una gráfica de barras horizontal de una tabla combi-
nando las calificaciones de verbos y matemáticas promedio. ¿Por qué? Dejemos

IS6 Capítulo 4 Resumen y descripción de los datos numéricos


Tabla 4.S Presentación "apropiada" de indicadores económicos globales clave.

World
Economies
1
~

Industria! productlon 0.2 ·


(monthly % changa)
Real G.D.P.
Sept.
2.8
-u.s.
=
Latest Prev
0.1
Aug.
1.9
[jJ
Japan

1.5
Sept.
-2.0
Aug.
2.2

Germany
1e;1;;µ1;;;•u•+1•+•+1•0•1M1••
-1.2 . -2.0
Sept.
2.3
2.2
Aug.
-6.4
~1~
.~~
Brltain

0.1
Aug.
2.0
0.9
July
2.2
~ 1~1
Canada

0.6
Aug.
3.4
-1.1
July
3.5
Mexico

0.2
June
0.3
May
2.4
(qrt. % chg, annualized) 111 11 11 · 1 11 1 11 1 11 1 11 1
Current Account -26.9 -22.3 13.3 7.2. -7.4 -8.5 -2.7 -3.0 -8.8 -6.2 -1.7 -1.9
(billions, local currency) 11 1 Sept. Aug. Aug. 11 1 11 1 Aug.
..July July
Unemployment rate 6.8 6.7 2.9 2.5 ,9;9· ·8.6 10.3 10.4 11.1 11.2 3.9 3.6
. (% of work lorce) Oct. Sept. Sept. Aug, Oct.'. Sept. Sept. Aug. Oct. Sept. Aug. July
Consumar lnflatlon o.o 0.3 0.1 0.3. 0.6 0.3 0.4 0.4 0.1 0;1 0.7 0.5
(monthly % changa) Sept. Aug. Sept. Aug._ Oc). Sept, Sept. Aug. Sept. Aug. Sept. Aug. '~--

10-year Govemment 5.72 5.43 3.69 3.76 . 5.83 5.n 6.94 6.84 8.87 &.n 13.0 . 12.4
bond (weekly%)
Exchange rate 108.4 1 ;1!94 1.687 0.678 0.671 1.297 1.320 3.304 3.298
(weekly per $) •
Data are forthe most recent perlod reportad, comparad wlth the prevlous perlod. G.D.P. figures for Mexlco show growth over 12 months.
Curren! account balances are reportad monthly except for !he U.S., Brltain and Ganada, which are reportad quarterly; flgures for Japan
and Mexico are reportad In billlons of U.S. dollars. The Mexican unemployment rate Is for urban areas and may understate !he rate
nationwide. Bond ratas far Japan, Germa~y and Brltaln are adjusted to be consisten! wlth U.S. and Ganada; Mexican ratas .are lora 28·
day bill. In 1993, Mexico swltched to the new peso, whlch is the old lioso dlvided by 1,000.
Sources: Sal~mon Brothers: Mexlcan Govsmmsnt; S.G. Wattiurp & Company; J.P. ~roan Global ReslJllrch

Fuente: The New York Times, noviembre 8, 1993, pág. 02.

que una tabla sea una tabla y un diagrama un diagrama. Como hemos estudiado
en el capítulo 3 (y veremos nuevamente en la sección 5.3.1), los diagramas como
éstos requieren que se indique el punto "cero" u "origen". Esto no sucede aquí y el
largo de las barras carece totalmente de significado. De hecho, las barras podrían
nublar la información que se presenta. Las calificaciones SAT se miden sobre una
escala de intervalo (véase la sección 23.2) y tanto los componentes verbales como
los matemáticos comienzan en los 200 puntos. Un lector no familiarizado con
tales pruebas no sabría esto a partir de la representación. Por tanto, el lector
obtiene una visión distorsionada de la magnitud de las diferencias en las califica-
ciones SAT totales promedio. De hecho, ¡algunas de las barras incluso parecen ser
demasiado largas! Por ejemplo, la diferencia entre las longitudes de las barras de
calificaciones SAT totales promedio para Dakota del Norte (1101) y Nuevo México
(1003) debería ser 1.5 más larga que la de Wisconsin (1036) y Wyoming (970). Tal
vez una representación más apropiada y útil de este conjunto de datos sería una
tabla con tres columnas, calificación total promedio, calificación verbal promedio
y calificación matemática promedio; las filas de la tabla (es decir, los estados más
el distrito de Columbia y el promedio nacional combinado) podrían enumerarse
en orden de rango descendiente, del más alto al más bajo, basándose en la califi-
cación total promedio (referencia 2).

4. 1 1• 3 Uso del software de computadora para mediciones


descriptivas de resumen
Puesto que se pretende que las mediciones descriptivas de resumen amplíen nues-
tro análisis e interpretación de datos, podemos usar la computadora para obtener
estos resultados de resumen. No obstante, no debemos olvidar que la computadora
es sólo una herramienta. Es crucial que usemos la computadora de una manera
consistente con una metodología estadística correcta. Recuerde GIGO. Para inte-
ractuar apropiadamente con la computadora, debemos no sólo estar familiarizados
con el paquete de software particular en uso, sino también debemos seleccionar

Reconocimiento y práctica de un adecuado resumen descriptivo y exploración de cuestiones éticas 1 57


Ala.
Alaaka
Arlz.
Ark.
CaUI.
Colo.
Conn.
Del.
o.e.
Fla.
Ca.
HawaH
ldaho
IU.
lnd.
lowa
Kan.
Ky.
La.
Me.
Md.
Mn1.
Mlch.
Mlnn.
Mios.
Mo.
Mont.
Nob.
Nev.
N.H,
N.J.
N.M.
N.Y.
i~f~ N.C.

\~
N.D.
Ohlo
:,~ Okla.
(f( Ore.

}~
Pe.
R.I.
;:f~~
s.c.
S.D.
Tenn.
Tex.
utah
VI.
Va.
Wash.
w.v•.
Wfs.
Tabla 4.6 i»resentación Wyo,
'inapropiada"
fo califica-
:iones SAT
>or estado.
Fuente: The New York Times, agosto 19 de 1993, pág. A16.

158 Opftulo 4 Resumen y descripción de los datos numéricos


correctamente procedimientos estadísticos que sean apropiados para las tareas a la
mano. Por ejemplo, debe estar consciente que muchos paquetes estadísticos pro-
porcionan automáticamente mediciones descriptivas de resumen para todas las
variables en un archivo de datos particular, numéricas y categóricas. Sin embargo,
las medias, medianas, desviaciones estándar y otras mediciones descriptivas de
resumen sólo deben usarse para variables numéricas. Es completamente inapro-
piado dar instrucciones a la computadora para que proporcione tales mediciones
de resumen en cuanto a variables categóricas como ocupación o género. La salida
carecería totalmente de significado.

4. 1 1.4 Cuestiones éticas


Las cuestiones éticas son de vital importancia para todos los esfuerzos estadísticos.
Como consumidores diarios de información, nos debemos cuestionar a nosotros
mismos lo que leemos respecto a estudios de investigación en periódicos y revistas
y lo que oímos en la radio o la televisión. Con el tiempo, se ha expresado un gran
escepticismo respecto al propósito, el enfoque y la objetividad de estudios publi-
cados. Tal vez ningún comentario fue tan mordaz como un sarcasmo atribuido8 al
famoso estadista británico del siglo diecinueve Benjamin Disraeli: "Existen tres tipos
de mentiras: las mentiras, las mentiras tremendas y las estadísticas."
Nuevamente, como se mencionó en la sección 3.9.6, las consideraciones éticas
surgen cuando estamos decidiendo qué resultados presentar en un informe y
cuáles no presentar. Es de vital importancia al conducir una investigación docu-
mentar tanto los buenos como los malos resultados, para que aquellos que con-
tinúen tal investigación no tengan que comenzar desde el principio. Además, al
hacer presentaciones orales y presentar informes de investigación escritos, es esen-
cial que los resultados se den de una manera imparcial, objetiva y neutral. Por
tanto, debemos tratar de distinguir entre una mala presentación de resultados y
una presentación no ética. Una vez más, como en nuestras discusiones previas
sobre consideraciones éticas, la clave es la intención. A menudo, cuando se omite
información pertinente, simplemente se hace por ignorancia. Sin embargo, un
comportamiento no ético ocurre cuando un investigador elige deliberadamente
una medición de resumen inapropiada (por ejemplo, la media o el alcance medio
para una serie de datos muy sesgada) para distorsionar los hechos y respaldar así
una posición particular. Además, esto también sucede cuando un investigador
selectivamente no reporta resultados pertinentes porque vendrían en detrimento
del respaldo a una posición particular.

Problemas de la sección 4.11


Usted recibe una llamada telefónica de un amigo que también está estudiando
' 4.71
estadística este semestre. Su amigo acaba de usar un paquete de software
estadístico para obtener mediciones descriptivas de resumen para varias
variables numéricas rélativas a una encuesta respecto a la vida estudiantil en el
campus. Él dice: "Me pidieron escribir un informe respecto a la vida estudiantil
en el campus. Estoy leyendo la impresión de mi computadora ... tengo todas
estas mediciones descriptivas de resumen para cada una de mis siete variables
numéricas. Hay tanta información que simplemente no puedo comenzar.
¿Tienes alguna sugerencia?" Usted piensa un momento y luego responde...
Se le pidió a un árbitro que examinara una disputa sobre sueldos pagados a
' 4.72
jugadores de béisbol profesional. El duefio de un equipo particular afirmaba
que el sueldo promedio por afio era demasiado alto. El agente de los jugadores
argumentaba que el sueldo promedio de los jugadores de ese equipo era
demasiado bajo. ¿Cómo debe evaluar el árbitro estos dos argumentos conflictivos?

Reconocimiento y práctica de un adecuado resumen descriptivo y exploración de cuestiones éticas 159


eHfj Resumen y descripción de datos
numéricos: Un repaso
Como se observa en el diagrama de resumen siguiente, este capítulo trató sobre el
resumen y descripción de datos. En la página 104 de la sección 4.1 se le dio una
lista que ponía énfasis en los puntos importantes a estudiarse en el capítulo. Revise
la lista ahora para ver si siente que tiene una comprensión de estos puntos clave. Para
estar seguro, usted debe poder responder las siguientes preguntas conceptuales:
l. ¿Qué debemos buscar al intentar caracterizar y describir las
propiedades de una serie de datos numéricos?
2. ¿Qué queremos decir con la propiedad de ubicación o tendencia
central?
3. ¿Cuáles son las diferencias entre las diversas mediciones de
tendencia central como la media, mediana, moda, rango medio y eje
medio, y cuáles son las ventajas y desventajas de cada una?

Diagrama de resumen del capítulo 4.

uso Capítulo 4 Resumen y descripción de los datos numéricos


4. ¿Cuál es la diferencia entre mediciones de tendencia central y de
tendencia no central?
5. ¿Qué queremos decir con la propiedad de variación?
6. ¿Cuáles son las diferencias entre las diversas mediciones de variación
como el rango, rango intercuartil, varianza, desviación estándar y
coeficiente de variación, y cuáles son las ventajas y desventajas de
cada una?
7. ¿Cómo ayuda la regla de Bienaymé-Chebyshev y la empírica a
explicar las formas en que las observaciones de una serie de datos
numéricos se agrupan, congregan y distribuyen?
8. ¿Qué queremos decir con la propiedad de forma?
9. ¿Por qué son tan útiles las técnicas de análisis de datos exploratorias
y la gráfica de caja y sesgos?
10. ¿Cómo podemos aproximar mediciones descriptivas de resumen a
partir de una distribución de frecuencia, un polígono o una ojiva?
11. ¿Cuáles son algunas de las cuestiones éticas pertinentes al distinguir
entre el uso de mediciones descriptivas apropiadas e inapropiadas
reportadas en periódicos y revistas?
Verifique la lista de preguntas para ver si verdaderamente conoce las respues-
tas y podría (1) explicar sus respuestas a alguien que no leyó este capítulo y (2) dar
referencia de lecturas o ejemplos específicos que apoyen su respuesta. Asimismo,
vuelva a leer cualquiera de las secciones que pudieran haber parecido confusas para
ver si ahora tienen sentido.

Juntando todo

TÉRMINOS CLAVE
análisis de datos 104 forma sin procesar 105
clase modal 146 gráfica de caja y sesgos 129
cuartiles 112 media 106
coeficiente de variación 124 media aritmética 106
coeficiente de variación de población media de población 132
134 mediana 109
datos agrupados 141 mediciones de resistencia 114
datos no agrupados 141 moda 111
desviación estándar 120 promedio 106
desviación estándar de población 133 propagación media 119
eje medio 112 propiedades de los datos numéricos 106
escala de puntos 107 Ql: primer cuartil 113
externa o valor extremo 105 Q2: sgundo cuartil 113
forma 127 Q3: tercer cuartil 113

Términos clave 161


rango 118 sesgo a la derecha 127
rango intercuartil 119 sesgo a la izquierda 127 ·
rango medio 111 simetría 127
regla de Bienaymé-Chebyshev 139 tendencia central o ubicación 106
regla empírica 138 variación o dispersión 118
resumen de cinco números 129 varianza 120
sesgo 127 varianza de población 133

Problemas de repaso del capítulo


4.73 t.w111¡¡,z,f,) Escriba una carta a un amigo resaltando lo que considera las
características más interesantes o importantes de este capítulo.
4. 74 Explique l.a diferencia entre una estadística y un parámetro.
4.75 Una serle de datos numéricos tiene tres propiedades principales. Defina estas
propiedades y dé ejemplos de cada una.
e 4.76 Los siguientes datos son los precios al por menor (en dólares) para una mues-
tra aleatoria de 32 modelos telefónicos de cordón:

44 3S SS S4 78 107 4S 63
4S 22 36 44 50 50 60 30
39 60 2S 2S 25 24 46 71
60 40 22 10 20 30 12 10
Fuente: Copyright 1992 por Consumers Unían of United States,
!ne., Yonkers, N.Y. 10703. Adaptado con permiso de Consumer
Reports, diciembre de 1992, págs. 780-781.

(a) Analice completamente los datos.


· (b) f·f!iidrJl•wPEscriba un artículo para un periódico que se distribuye entre
los consumidores para informarles sobre este tema.
4.77 Los siguientes datos son los precios de renta mensual para una muestra de 10
apartamentos de estudio no amueblados en Manhattan y una muestra de 10
apartamentos de estudio no amueblados en Brooklyn Heights:
Manhattan
$955 $1000 $985 $980 $940 $975 $965 $999 $1247 $1119
Brooklyn Heights
$750 $775 $725 $705 $694 $725 $690 $745 $575 $800
(a) Para cada serie de datos calcule la media, mediana, eje medio, rango,
rango intercuartil, desviación estándar y coeficiente de variación.
(b) ¿Qué puede decirse sobre los apartamentos de estudio no amueblados que
se rentan en Manhattan frente a los que se rentan en Brooklyn Heights?
(c) f.f!iiMMl•P ¿Cómo podría ser de utilidad esta información para un
individuo que desea cambiarse al área de Nueva York? Escriba un artículo
sobre esto para la columna de bienes raíces de su periódico local.
t 4.78 El artículo de Glenn Kramon "Persuadiendo al elefante de Stanford para que
baile" (The New York Times Sunday Business Section, noviembre 11 de 1990)
implica que los costos del Centro Médico de Stanford se han incrementado
más que en las instituciones competidoras porque es más probable que el
primero atienda a indigentes, Medicare, Medicaid y pacientes más enfermos y
complejos. Para ilustrar esto, se proporciona un diagrama que describe una
comparación de cobros promedio de hospitales en 1989-1990 por tres
procedimientos médicos (derivación coronaria, nacimiento simple e implante
de piel) en tres instituciones competidoras (El Camino, Sequoia y Stanford).

US2 Capitulo 4 Resumen y descripción de los datos numéricos


' ,. .

'Lo qUlt cuesta el Costo de la sa1uCI


Una ci>mparaclón de preci(ls hospitálárlos promedio en 198~ 1990 en. California
pará varias operáciones. Los Hospitáles Sequoia y El Camjrío son la principal
competencia local del Centro Médico de Stanford. · ·· .· · · · ·
... ·'
50,0óO
- ·El Camino . ·
40,000 ' . :/;'

D'sequola .
111 30,000 .·111,11 St~nfqrd ·
~
~
o 20,000

10,000
N/A
o

-
D Los costos de Sequola son promedios del 50% medio de· todos los cobros
por cada operación.
k~l~~~ Los datos de Stanfor~ son el c;osto próme~i() d,~ todas las op~raciones....
Fuente: Centro Médico de Stanford, Hospital Sequoia y Hospital E! Camino.
Injerto
Los costos de El Camino son el promedio de los cobros altos y bajos de un nacimiento:
simple ron una estancia de dos dfas·y un injerto con una e5tancla de nueve días~

Su directora ejecutiva sabe que usted está tomando actualmente un curso de


estadística y lo llama para discutir el artículo. Le dice que anoche, al salir de
una junta de directores de hospitales, uno de ellos mencionó que este
diagrama carece totalmente de sentido y le pidió su opinión. Ella le pide que
usted prepare su respuesta. Usted sonríe, toma aire y le contesta ...
4.79 Un colegio lleva a cabo un fonotón para recabar fondos para la construcción
de un Centro de Artes. El director esperaba obtener medio millón de dólares
para este propósito. Los datos siguientes representan las cantidades prometidas
(en $000) por todos los exalumnos que fueron llamados durante las primeras
nueve noches de la campaña.
16, 18, 11, 17, 13, 10, 22, 15, 16
(a) Calcule la media, mediana y desviación estándar.
(b) Describa la forma de esta serie de datos.
(c) Estime la cantidad total prometida (en $000) por to~os los exalumnos si
la campaña durara 30 noches. (Sugerencia: Total = NX.)
(d) f.IMl•1!.t.f.P Escriba un memorándum al director resumiendo sus
resultados hasta la fecha y, si fuera necesario, ofreciéndole cualquier
recomendación necesaria.
(e) ¿Cómo podría ayudar esta información al director? Analice.
4.80 Los datos siguientes representan las colegiaturas cobradas (en$ miles) en una
muestra de 15 escuelas preparat~rias del nordeste y en una muestra de 15
escuelas preparatorias del medio oeste durante el año académico 1993-1994:

Escuelas preparatorias Escuelas preparatorias


del nordeste del oeste medio
10.5 8.9 9.6 7.9 10.6 8.4
10.1 9.3 9.1 8.2 10.1 9.2
10.0 9.7 11.2 9.1 8.5 10.7
11.0 10.4 10.5 9.3 7.5 9.5
9.8 10.0 9.9 8.8 9.3 9.8

Problemas de repaso del capitulo 163


(a) Para cada serie de datos calcule la media, mediana, eje medio, rango,
rango intercuartil, desviación estándar y coeficiente de variación.
(b) Para cada serie de datos forme el diagrama de tallo y hojas y la gráfica de
caja y sesgos.
(c) Enumere el resumen de cinco números e interprete la forma de cada serie
de datos.
(d) Resuma sus resultados.
(e) t-fiii!IJ"1·1·> Suponga que tiene un primo que le pide consejo respecto al
costo de asistir a una escuela preparatoria en el nordeste en comparación de
una del medio oeste. Escríbale una carta basándose en su resumen de (d).
4.81 Wisconsin Power & Light estaba interesada en mejorar la eficiencia de los
sistemas de calefacción por gas domésticos y usted es contratado para
participar en la investigación de este problema. Para obtener una mejor
comprensión del problema, usted decide hacer una encuesta sobre el consumo
actual de energía en hogares de una sola familia.
La siguiente distribución de frecuencia representa el consumo de energía
promedio (en BTU) por hogar unifamiliar durante un periodo de dos semanas
para una muestra aleatoria de 90 hogares a lo largo del estado de Wisconsin:

Consumo de energía
(BTU) Núm. de hogares
2.4 pero menos de 4.8 2
4.8 pero menos de 7.2 6
7.2 pero menos de 9.6 25
9.6 pero menos de 12.0 29
12.0 pero menos de 14.4 16
14.4 pero menos de 16.8 8
16.8 pero menos de 19.2 3
19.2 pero menos de 21.6 ...!
Total 90

(a) Forme las tablas y diagramas apropiados y analice completamente los


datos.
(b) t.r;¡@,f.t.> Escriba un informe preliminar para el presidente ejecutivo.

Problema intercapitular
4.82 Refiérase a los datos del problema 3.8 (página 61) que representan la cantidad
de tiempo (en segundos) necesaria para llegar de O a 60 mph durante una
prueba de carretera para una muestra de 22 modelos de automóviles alemanes
y una muestra de 30 modelos de automóviles japoneses:
(a) Usando sus tablas y diagramas de los problemas 3.17 (página 66), 3.24
(página 70), 3.31 (página 73) y 3.39 (página 78):
(l)Aproxime la media, mediana, moda, rango medio y eje medio para
cada muestra.
(2)Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para cada muestra.
(3)Describa la forma de cada serie de datos.
(b) Usando sus datos del problema 3.8:
(l)Calcule la media, mediana, moda, rango medio y eje medio reales para
cada muestra.
(2) Calcule el rango, rango intercuartil, desviación estándar y coeficiente
de variación reales para cada muestra.
(3) Describa la forma de cada serie de datos.
(c) f·iiiii'Jl.t f•> Compare y contraste sus aproximaciones en (a) con las
0

mediciones de resumen reales en (b). Analice.


(d) f.fiJiilllot·I•> Escriba un artículo para una revista que trate sobre
automóviles resumiendo sus hallazgos.

104 Capitulo 4 Resumen y descripción de los datos núméricos


Proyectos de minicasos de
aprendizaje colaborativo

Nota: La clase debe dividiise en grupos de tres o cuatro estudiantes. Inicialmente se


selecciona un estudiante para que sea coordinador del proyecto, otro estudiante es
quien registra el proyecto y un tercero es el cronometrador del proyecto. Para que cada
estudiante gane experiencia en el desarrollo del trabajo de equipo y en las habilidades
de liderazgo, después de cada proyecto debe haber una rotación de posiciones. Al prin-
cipio de cada proyecto, los estudiantes deben trabajar silenciosa e individualmente
durante un corto periodo de tiempo especificado. Una vez que cada estudiante ha
tenido la oportunidad de estudiar los asuntos y de refiejar sus posibles respuestas,
el grupo se reúne y se sigue con una discusión de grupo. Si .todos los miembros de un
grupo están de acuerdo con las soluciones, el coordinador es responsable de presentar
la solución del proyecto del equipo al instructor con las firmas de los estudiantes indi-
cando tal acuerdo. Por otra parte, si uno o más miembros del equipo no están de
acuerdo con la solución ofrecida por la mayoría del equipo, una opinión de minoría
puede anexarse al proyecto presentado, con firma(s).

CL4.l Refiérase a CL 3.1 de la página 101. Su grupo, la Corporación , ha


sido contratado para ayudar al analista investigador de la compañía de
servicios de asesoría colegial a terminar su informe respecto a las colegiaturas
cobradas a residentes fuera del estado por colegios y universidades en
diferentes regiones del país. En particular, usando el Conjunto de datos
especiales 1 del apéndice D de las páginas 04-05 respecto a las colegiaturas
cobradas a residentes fuera del estado en los 60 colegios y universidades del
estado de Texas, 45 instituciones de Carolina.del Norte y 90 escuelas de
Pennsylvania, la Corporación está preparada para:
(a) Delinear cómo procederán los miembros del grupo con sus tareas
(b) Obtener diversas mediciones descriptivas de resumen para cada una de
estas poblaciones.
(c) Escribir y presentar un resumen ejecutivo, comparando y contrastando los
resultados a lo largo de los tres estados.
(h) Preparar y ofrecer una presentación oral de diez minutos al gerente de
comercialización.
CL 4.2 Refiérase a CL 3.2 de la página 101. Su grupo, la Corporación , ha
sido contratado por el editor de la sección de comida de una popular revista
familiar para estudiar el costo y características.nutricionales de los cereales lis-
tos para comerse. Habiendo preparado las tablas y diagramas apropiados (véase
CL 3.2), la Corporación está preparada para ampliar su análisis
preliminar. Provisto del Conjunto de datos especiales 2 del apéndice D de las
páginas 06-07 que muestra información útil sobre 84 de estos cereales:
(a) Delinee cómo procederán los miembros del grupo con sus tareas.
(b) Obtenga diversas mediciones descriptivas de resumen sobre costo, peso,
calorías y azúcar (en gramos por ración), desglosadas por el tipo de cereal.
(c) Escriba y presente un resumen ejecutivo describiendo los resultados.
(d) Prepare y ofrezca una presentación oral de diez minutos al editor de
comida de la revista.
CL 4.3 Refiérase a CL 3.3 de. la página 102 .. Su grupo, la Corporación , ha
sido contratado por el director de comercialización de un fabricante de
conocidas fragancias de hombres y mujeres para estudiar las características de
fragancias actualmente disponibles. Los resultados de los esfuerzos de su grupo
deben permitir al fabricante tomar decisiones de precios respecto a una nueva
línea de productos cuya distribución está planeada para la siguiente temporada
de vacaciones. Habiendo preparado las tablas y diagramas apropiados (véase
CL 3.3), la Corporación está prepar~da para ampliar su análisis
preliminar. Provisto del Conjunto de datos especiales 3 del apéndice D de las
páginas 08-09 que muestra información útil sobre el costo por onzá de 83 de
estas fragancias:

Proyectos de minicasos de aprendizaje colaborativo 165


(a) Delinee cómo procederán los miembros del grupo con sus tareas.
(b) Obtenga diversas mediciones descriptivas de resumen sobre el costo, por
onza basándose en:
(1) Género del producto (de mujer o de hombre)
(2) Tipo de fragancia (perfume, colonia u "otro")
(3) Intensidad (muy fuerte, fuerte, media o suave)
(c) Escriba y presente un resumen ejecutivo describiendo los resultados.
(d) Prepare y ofrezca una presentación oral de diez minutos al director de
comercialización.
CL 4.4 Refiérase a CL 3.4 de la página 102. Su grupo, la Corporación , ha
sido contratado por el editor de viajes de un conocido periódico que está
preparando un artículo especial sobre cámaras compactas de 35 mm.
Habiendo preparado las tablas y diagramas apropiados (véase CL 3.4), la
Corporación está preparada para ampliar su análisis preliminar.
Con la ayuda del Conjunto de datos especiales 4 del apéndice D de las páginas
DlO-Dll que muestra información útil sobre 59 cámaras de 35 mm:
(a) Delinee·cómo procederán los miembros del grupo con sus tareas.
(b) Obtenga diversas mediciones descriptivas de resumen sobre características
de las cámaras como precio, peso, menor campo, alcance, precisión de
encuadre y duración de baterías, desglosadas por el tipo de cámara de
35mm.
(c) Escriba y presente un resumen ejecutivo describiendo los resultados.
(d) Prepare y ofrezca una presentación oral de diez minutos al editor de viajes.

Estudio de caso B -Estudio sobre nutrición en la cafetería


universitaria
Ann Foster, vicepresidenta de los servi- de productos alimenticios enlatados
cios estudiantiles de un colegio rural de para los meses de invierno en que las
artes liberales, sostuvo una reunión provisiones de la ciudad más cercana
con Camille Neller, la recién nombrada pueden retrasarse, deseo estudiar el con-
directora de los servicios de comida, y tenido nutricional de la sopa enlatada
con la doctora Edwina Foxe, profesora porque podría disponerse fácilmente de
de nutrición, sobre una serie de quejas este artículo en todos los almuerzos y
de estudiantes y padres sobre el menú comidas e incluso podría proporcionar
ofrecido por la cafetería del colegio. los nutrientes de la comida saludable,
Puesto que los estudiantes de primer barata y rápida que se solicita.
afio estaban obligados a comprar un La doctora Foxe estuvo de acuerdo
plan de comidas que requiere un míni- en que tal estudio sería de utilidad y
mo de dos comidas al día en la cafete- proporcionaría la información necesa-
ría del colegio, se expresaba cierta ria para tomar una decisión respecto a
inquietud respecto a que el menú no su instrumentación. La vicepresidenta
siempre ofrecía una comida · barata, Foster le pidió a la doctora Foxe que
rápida y saludable. Cuando la vicepre- dirigiera el estudio y que informara sus
sidenta Foster le pidió una respuesta hallazgos a la señora Neller en dos sema-
sobre estos comentarios, la sen.ora nas. La vicepresidenta ofreció respaldar
Neller aseveró que sólo llevaba tres el esfuerzo:
semanas en el campus y que había -Haga lo que sea necesario, dijo.
seguido principalmente el menú pro- Debemos demostrar a los estudiantes y a
porcionado por su predecesor, al mismo sus padres que somos sensibles a sus ne-
tiempo que experimentaba con una cesidades. La doctora Foxe solicitó un
selección de comida gastronómica estudiante asistente. -Quien quiera que
cada día. desee contratar, respondió la vicepresi-
-Ahora que se me ha llamado la denta.
atención respecto a estas inquietudes, La doctora Foxe lo ha contratado
deseo seguir otra pauta, dijo. Conside- para ayudarla en su estudio y le ha pro-
rando el hecho de que el colegio está porcionado los siguientes datos sobre 47
situado en un área rural y que, en par- productos de sopa enlatada para investi-
ticular, se requiere el almacenamiento gar su valor nutricional.

166 Capitulo 4 Resumen y descripción de los datos numéricos


Características nutricionales de 47 sopas enlatadas diferentes.
Calorías
Marca Producto Tipo Costo Calorías Grasa de grasa Sodio
Campbell's Homestyle CN ce .35 60 2 30 880
Progresso CN CR .66 75 2 24 730
Campbell's CN ce .18 60 2 30 870
Nissin Cup O'Noodles CN DI .33 170 8 42 970
Progresso Healthy Class. CN CR .77 80 2 23 460
Lipton Soup Mix CN oc .21 80 2 23 700
Campbell's Ramen Noodle CN oc .09 190 8 38 970
Nissin Tip Ramen CN oc .11 200 9 41 960
Campbell's Soup Mix CN DC .26 100 2 18 700
Pathmark CN ce .17 60 2 30 840
ShopRite CN ce .19 60 2 30 840
Maruchan Ramen CN oc .09 190 9 43 780
Lady Lee CN ce .19 60 2 30 840
Weight Watchers CN CR .76 60 1 15 790
Knorr Chicken Flavor CN DC .54 110 2 16 800
Campbell's Home Cookin' CN CR .74 105 3 26 860
Hain CN CR .96 110 4 33 800
Mrs. Grass Noodle Soup CN DC .12 70 2 26 900
Campbell's Cup Instant CN DI .48 105 3 26 1190
Lipton Cup-A-Soup Instant CN DI .36 65 1 14 890
Campbell's Chunky Classic CN CR .74 120 4 30 810
Campbell's Healt. Request CN CR .70 80 2 23 470
Pritikin Chicken Soup CN CR .97 80 1 11 180
Campbell's Low Sodium CN CR .80 125 4 29 65
Healthy Choice CN CR .78 95 2 19 580
Hain Vegetarian V CR .83 125 3 22 670
Campbell's Home Cookin' V CR .53 110 2 ;16 680
Campbell's Chunky V CR .53 120 3 ·23 800
Healthy Choice Garden V CR .71 105 1 9 600
Progresso Tomato V CR .46 7S 2 24 940
Progresso Vegetable V CR .44 7S 1 12 680
Healthy Choice Tomato V CR .73 140 3 .19 540
Campbell's Homestyle V ce .34 60 2 30 880
Campbell's Home Cookin' V CR .53 110 1 8 640
Campbell's Made With Beef V ce .23 90 2 20 830
Health Valley Fat-Free V CR .92 SS 1 6 280
Campbell's Healt. Request V CR .55 90 1 10 480
Pritikin V CR .94 90 1 10 160
Campbell's T ce .15 90 2 20 670
Campbell's Healt. Request T ce .20 90 2 20 410
ShopRite T ce .13 100 1 9 710
Kroger T ce .14 100 1 9 630
Lady Lee T ce .16 80 o o 700
Pathmark T ce .lS 100 1 9 630
Vons T ce .18 100 1 9 710
Health Valley Org. T CR .87 75 1 12 300
Campbell's Italian T ce .28 90 o o 740
Notas: Por producto: CN=fideos de pollo, V=vegetales,T=tomate
por tipo: CC=enlatada/condensada, CR=enlatada, lista para servirse,
DC=deshidratada/cocinada, Dl=deshidratada/instantánea
Costo en centavos, calorías por ración de 8 onzas
Calorías por ración de 8 onzas
Grasa en gramos por ración de 8 onzas
Calorías como porcentaje de grasa por ración de 8 onzas
Nivel de sodio en miligramos por ración de 8 onzas
Fuente: Copyright 1993 por Consumers Union of United States, !ne., Yonkers, N.Y. 10703. Adaptado con permiso de Consumer Reports,
noviembre de 1993, págs. 698-699.

Estudio de caso B -Estudio sobre nutrición en la cafetería universitaria 167


Usted decide: basándose en el tipo de sopa, enla-
(a) Emprender una evaluación descrip- tada/condensada, enlatada y lista
tiva completa de todas las variables para servirse, deshidratada/cocinada
numéricas (costo en centavos, calo- o deshidratada/instantánea.
rías por ración de 8 onzas, grasa en (d) Hacer recomendaciones en vista de
gramos por ración de 8 onzas, calo- sus resultados.
rías como porcentaje de grasa por En dos semanas debe hacer una
ración de 8 onzas y nivel de sodio en exposición oral de diez minutos frente a
miligramos por ración de 8 onzas). la doctora Foxe y la señora Neller y pre-
(b) Realizar una evaluación similar sentar un informe escrito, anexando
comparando y contrastando cada todas las tablas y diagramas. Además, se
una de estas variables numéricas le ha pedido esbozar una encuesta del
basándose en si el producto es una grupo de estudiantes, con preguntas re-
sopa de pollo de fideos, vegetal o ferentes a los gustos y aversiones de los
de tomate. tipos de sopas y diversas comidas rápi-
(c) Realizar una evaluación similar das. Sabiendo que sus resultados serán
comparando y contrastando cada de gran valor para sus compañeros, se
una de estas variables numéricas dispone a realizar este proyecto.

No tas finales
1. Aunque la palabra promedio se refiere a cualquier medición 4. La regla de Bienayrné-Chebyshev puede aplicarse sólo a distan-
de resumen de tendencia central, se usa más a menudo cias mayores de ±1 desviación estándar alrededor de la media.
corno sinónimo de la media. 5. Aquíµ ± 3cr produce el intervalo -0.96 a 22.74 miles de
2. Estas mediciones se denominan cuantiles. Algunos de los dólareS; sin embargo, una colegiatura negativa no tiene sentido
cuantiles más ampliamente usados son los deciles (que divi- y registrarnos el intervalo corno O a 22.74 miles de dólares.
den los datos ordenados en décimos) y los percentiles (que 6. Observaremos en la sección 8.3 que el alcance "práctico" de
dividen los datos ordenados en centécimos). Para mayor datos normalmente distribuidos es seis distancias de
información sobre estas mediciones, véase la referencia 1. desviación estándar. Por consiguiente, la desviación estándar
3. Usando las reglas de sumatorias del apéndice B, hacernos la es aproximadamente un sexto del rango. Además, para una
siguiente demostración: serie de datos que está normalmente distribuida, el rango
intercuartil es 1.33 distancias de desviación estándar. Por
n tanto, la desviación estándar es aproximadamente tres
L,(xi - x) = o
;= 1
cuartos del alcance intercuartil. Con una serie de datos que
está aproximadamente distribuida en forma normal, el
promedio de estas dos aproximaciones proporcionaría una
"
¿xi "
- ¿x =o estimación más cercana de la desviación estándar.
7. De la tabla 4.5, si lo deseáramos, podríamos calcular, fila
I=1 I =1 por fila de cada uno de los indicadores económicos dados,
11

¿x, -nx = o diversas mediciones descriptivas de resumen a lo largo de


los países enumerados.
I =1 8. El sarcasmo es atribuido con más frecuencia a Benjarnin
n
"
¿xi - I:ix1 Disraeli (1804-1881), dos veces primer ministro de Inglaterra.
=o Sin embargo, un informe reciente [Woerner, D., "Who Really
1=1 I =1 Said It?" Chance, vol. 6 (otoño de 1993), pág. 37 indica que tal
vez lo haya dicho antes alguna otra persona.

Referencias
l. Croxton, F., D. Cowden, y S. Klein, Applied General Statistics, 7. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
3a. ed. (Englewood Cliffs, NJ: Prentice-Hall, 1967). Additional lnstructions for SPSS/PC+ (Chicago, IL: SPSS !ne.,
2. Ehrenberg, A. S. C., "Rudiments of Numeracy, 11 foumal of 1986).
the Royal Statistical Society, Series A, vol. 140 (1977), págs. 8. SAS User's Guide Version 6 (Raleigh, NC: SAS lnstitute, 1988).
277-297. 9. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
3. Huff, D., How to Líe with Statistics (Nueva York: W. W. Software, lnc., 1992).
Norton, 1954). 10. Tukey, J., Exploratory Data Analysis (Reading, MA:
4. Kendall, M. G., y A. Stuart, The Advanced Theory of Addison-Wesley, 1977).
Statistics, vol. I (Londres: Charles W. Griffin, 1958). 11. Velleman, P. F., y D. C. Hoaglin, Applications, Basics, and
5. Kimble, G. A., How to Use (and Misuse) Statistics Computing of Exploratory Data Analysis (Boston, MA:
(Englewood Cliffs, NJ: Prentice-Hall, 1978). Duxbury Press, 1981).
6. MINITAB Reference Manual Release 8 (State College, PA:
MINITAB, Inc., 1992).

168 Capítulo 4 Resumen y descripción de los datos numéricos


capítulo

••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Mostrar cómo organizar y presentar
de manera más eficaz datos
CAPÍTULO categóricos en forma de tablas
y diagramas.

,J

169
ijl Introducción
En el capítulo 3 aprendimos que al recolectar un gran conjunto de datos numé!l'i-
cos, la mejor forma de examinarlo es primero organizarlo y presentarlo en un for-
mato gráfico y tabular apropiado. Después podemos extraer las características
importantes de los datos de estas tablas y diagramas y usar esta información junto
con nuestras mediciones descriptivas de resumen calculadas del capítulo 4 para
analizar los datos e interpretar nuestros hallazgos. A menudo, sin embargo, lias
series de datos que recolectamos son categóricas, no numéricas.
Este capítulo, como el capítulo 3, trata sobre la presentación de datos. En
particular, demostraremos cómo las series de datos categóricas pueden organizarse
y presentarse de manera más eficaz en la forma de tablas y diagramas con el fin de
ampliar el análisis e interpretación de los datos: dos aspectos clave del proceso
de toma de decisiones. Para motivar nuestro análisis de la presentación tabulan- y
diagramática de datos categóricos, vemos en el diagrama de resumen de este
capítulo, página 193, que el tipo de representación que desarrollamos depende del
número de variables categóricas que estamos interesados en estudiar. Si las obser-
vaciones en nuestra serie de datos son los resultados de una variable categóricca,
desarrollaremos una tabla de resumen y una diversidad de diagramas. Si nuesttro
interés es la clasificación cruzada de los resultados de dos variables categóricas,
desarrollaremos una tabla de contingencias. Por otra patte, si deseamos examimar
cómo se relacionan varias variables categóricas con una variable categórica particullar,
haremos una clasificación cruzada de los resultados en una supertabla.
Después de terminar este capítulo, usted debe poder:
l. Construir y usar tablas de resumen de frecuencia y de porcentaje,
gráficas de barras, gráficas de pastel, gráficas de puntos y diagramas de
Pareto.
2. Hacer una clasificación cruzada de datos con base en dos variables
categóricas en tablas de contingencias e interpretar los resultados.
3. Hacer una clasificación cruzada de datos con base en varias variables
categóricas en supertablas e interpretar los resultados.
4. Apreciar el valor de usar paquetes de software estadístico para
presentar datos categóricos en tablas y diagramas.
5. Comprender cómo distinguir entre una buena y una mala
presentación de datos categóricos y cuestiones éticas implicadas.

111 Organización y tabulación de datos


categóricos: la tabla de resumen
Con el fin de introducir las ideas importantes para el capítulo S, supongamos que
nuestro analista investigador del servicio de asesoría colegial deseaba evaluar val!'ias
características referentes a colegios y universidades del estado de Carolina del Norte.
El Conjunto de datos especiales 1 del apéndice D de la página 03 muestra informa-
ción sobre la colegiatura cobrada a residentes fuera del estado, el tipo de institución,
la ubicación de la escuela, el calendario académico y la clasificación institucional piara
cada uno de los 45 colegios y universidades de Carolina del Norte. Observamos que
la variable de colegiaturas es numérica mientras que las otras variables son todas
categóricas. En el capítulo 3 sólo nos referimos a la primera; aquí se emprenderá un
estudio detallado de las respuestas a las variables categóricas.
Al tratar con fenómenos categóricos, las observaciones pueden registrarse en
tablas de resumen y luego representarse gráficamente como diagramas de barra, grá-
ficas de pastel, gráfi.cas de puntos o diagramas de Pareto.

170 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


Para ilustrar el desarrollo de una tabla de resumen, consideremos los datos
obtenidos por nuestro analista investigador sobre la clasificación institucional. Del
Conjunto de datos especiales 1 del apéndice D vemos que los 45 colegios y uni-
versidades de Carolina del Norte, están clasificados por el Consejo de Colegios
como escuelas nacionales de artes liberales (NAL), 16 son escuelas regionales de '
artes liberales (RAL), 4 están clasificados como universidades nacionales (UN), 22
son universidades regionales (UR) y 1 es una escuela de especialidades (EE). Esta
información se presenta en la tabla de resumen de frecuencia y de porcentaje, tabla 5.1.

Tabla 5.1 Tabla de resumen de frecuencia y porcentaje referente a


la clasificación institucional para 45 colegios y universi-
dades en Carolina del Norte.
Clasificación Número de Porcentaje de
institucional escuelas escuelas
Escuelas nacionales de artes liberales (NAL) 2 4.4
Escuelas regionales de artes liberales (RAL) 16 35.6
Universidades nacionales (UN) 4 8.9
Universidades regionales (UR) 22 48.9
Escuelas de especialidades (EE) 1 2.2
Totales 45 100.0
Fuente: Los datos fueron tomados del Conjunto de datos especiales 1, apéndii::e D, página 03.

De la tabla 5.1 podemos concluir que la abrumadora mayoría de escuelas de


Carolina del Norte están clasificadas por el Consejo de Colegios como universi-
dades regionales (48.9%).

111 Graficación de datos categóricos:


de barras, de pastel y de punto
Para expresar gráficamente la información proporcionada en la tabla 5.1, puede
representarse la gráfica de barras de porcentaje (figura 5.1), la gráfica de pastel de
porcentaje (figura 5.2) o la gráfica de puntos de porcentaje (figura 5.3). Estas gráfi-
cas se presentan en la página 172.

5. 3. 1 La gráfica de barras
La figura 5.1 de la página 172 ilustra una gráfica de barras para los datos de clasifi-
cación institucional de Carolina del Norte presentados en la tabla 5.1. En las grá-
ficas de barras, cada categoría se describe mediante una barra, cuya longitud
representa la frecuencia o porcentaje de observaciones que caen en una categoría.
Para construir una gráfica de barras se hacen las siguientes sugerencias:
l. Las barras deben construirse horizontalmente (como en la figura 5.1)
cuando las observaciones categorizadas son los resultados de una
variable categórica. Las barras deben construirse verticalmente (como en
la figura 5.1) cuando las observaciones categorizadas son los resultados
de una variable numérica.
2. Todas las barras deben tener el mismo ancho (como en la figura 5.1)
para no confundir al lector. Sólo el largo puede diferir.

Graficaci6n de datos categóricos: de barras, de pastel y de punto 171


48.9

Figura 5.1
Gráfica de pastel de porcentaje
que ilustra la clasificación
institucional de 45 colegios y
universidades en Carolina del
Norte. Porcentaje de escuelas
Fuente: Los datos fueron tomados de
la tabla 5. l.

Figura 5.2
Gráfica de pastel de porcentaje
que ilustra la clasificación
institucional de 45 colegios y
universidades en Carolina del
Norte.
Fuente: Los datos fueron tomados de
la tabla 5.1.

NAL --e

RAL --------"'.:.:~--;'------®

; 1,JR -------------------------0

Figura 5.3
Gráfica de puntos de porcentaje
EE •
que ilustra la claslflcaclón
institucional de 45 colegios y o 10 20 30 40 50
universidades en Carolina del
Norte. Porcentaje de escuelas
Fuente: Los datos fueron tomados de
la tabla 5.1.

172 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


3. Los espacios entre las barras deben variar entre la mitad del ancho de
una barra hasta el ancho de una barra.
4. Las escalas y guías son auxiliares útiles en la lectura de una gráfica y
deben incluirse. El punto cero u origen debe indicarse.
5. Los ejes de la gráfica deben etiquetarse claramente.
6. Cualesquier "claves" para interpretar la gráfica deben incluirse en el
cuerpo de la gráfica o debajo de éste.
7. Las notas de pie de página o las notas de fuentes se presentan, cuando
sea apropiado, después del título de la gráfica o en la parte inferior del
marco de la gráfica.

S.3.2 La gráfica de pastel


La figura 5.2 ilustra una gráfica de pastel de porcentaje para los datos de
clasificación institucional de Carolina del Norte presentados en la tabla 5.1.
Para construir una gráfica de pastel (cuando no se dispone de un software
estadístico apropiado), podemos usar tanto el compás como el transportador, el
primero para dibujar el círculo y el último para medir los sectores de pastel apropia-
dos. Puesto que el círculo tiene 360°, el transportador puede usarse para dividir el
pastel basándose en las "rebanadas" de porcentaje deseadas. Como ejemplo, en la
tabla 5.1, 8.9% de las instituciones del estado de Carolina del Norte son clasificadas
por el Consejo de Colegios como universidades nacionales. Por tanto, multipli-
caríamos 360 por .089, marcaríamos 32° resultante con el transportador y luego
conectaríamos los puntos apropiados con el centro del pastel, formando una
rebanada que comprenda 8.9% del área del pastel.
Usar este procedimiento con todas las categorías de la tabla 5.1 nos permitirá
construir toda la gráfica de pastel mostrada en la figura 5.2. Sin embargo, si una tabla
de resumen particular contiene muchas categorías, la construcción de la gráfica de
pastel usando compás y transportador se vuelve laboriosa. Por esta razón, recomen-
damos que el software estadístico se use para desarrollar una gráfica de pastel.

5.3.3 La gráfica de puntos


La figura 5.3 ilustra una gráfica de puntos de porcentaje para los datos de clasifi-
cación institucional de Carolina del Norte presentados en la tabla 5.1. En una grá-
fica de puntos, cada categoría se describe mediante una delgada línea punteada
que termina en un punto grande y cuya longitud representa la frecuencia o por-
centaje de observaciones que taen en una categoría. Visualmente, la gráfica de
puntos toma la forma de una gráfica de barras simple.
Para construir una gráfica de puntos se hacen las siguientes sugerencias:
l. Las delgadas líneas punteadas deben construirse horizontalmente,
como en la figura 5.3, en el renglón correspondiente a cada una de las
diversas categorías de la variable que se está estudiando.
2. Ef espacio entre las delgadas líneas punteadas (es decir, entre las
categorías) debe ser igual.
3. Debe incluirse en la parte inferior del marco una escala horizontal que
muestre los porcentajes, como en la figura 5.3. Los ejes deben
etiquetarse claramente con el punto cero u origen incluido.
4. Las notas de pie de página o las notas de fuentes aparecen, cuando sea
apropiado, después del título de la gráfica o en la parte inferior del marco de
la gráfica, junto con cualquier "clave" para interpretar la gráfica.

Graficación de datos categóricos: de barras, de pastel y de punto 17:1


5. 3 .4 Elección de una gráfica apropiada
El propósito de una presentación gráfica es representar datos precisa y claramente. Las
figuras 5.1, 5.2 y 5.3 intentan transmitir la misma información respecto a la clasifi-
cación institucional. La cuestión de si estas gráficas tienen éxito, sin embargo, ha sido
materia de gran interés (véanse referencias 1-4, 9, 10). En particular, investigaciones
recientes sobre la percepción humana de las gráficas (referencia 3) concluyen que la
gráfica de puntos describe mejor la información y la gráfica de pastel expone la repre-
sentación menos clara. La gráfica de puntos se prefiere a la gráfica de barras debido a
que la simplicidad y la escasez de adornos dan como resultado una mayor claridad. 1
Sin embargo, estas dos gráficas se prefieren a la gráfica de pastel porque se observó que
el ojo humano puede juzgar con más precisión comparaciones de longitud frente a
una escala fija (como en una gráfica de puntos o barras) que medidas angulares (como
en una gráfica de pastel). No obstante, la gráfica de pastel tiene dos ventajas claras:
(1) es estéticamente agradable y (2) claramente muestra que el total para todas las
categorías o rebanadas del pastel suma 100 por ciento. Así, la selección de una gráfica
particular sigue siendo altamente subjetiva y a menudo depende de las preferencias
estéticas del usuario.

Problemas de la sección 5.3


5.1 La junta de directores de una gran cooperativa de vivienda desea investigar la
posibilidad de contratar a un supervisor para un campo de juegos al aire libre.
Se sondearon las 616 casas de la cooperativa, cada una con un voto, sin impor-
tar su tamaño. Se recolectaron los siguientes datos:

¿Debería la cooperativa contratar


un supervisor?
Sí 146
No 91
No está seguro 58
Sin respuesta 321
Total 616

(a) Convierta los datos en porcentajes y construya.


(1) una gráfica de barras
(2) una gráfica de pastel
(3) una gráfica de puntos .
(b) ¿Cuál de estas gráficas prefiere usar aquí? ¿Por qué?
(c) Eliminando el grupo de "no respuesta", convierta las 29 S respuestas a
porcentajes y construya.
(1) una gráfica de barras
(2) una gráfica de pastel
(3) una gráfica de puntos
(d) t·fiii!'Ji•H•P Basándose en sus resultados en a) y (c), ¿qué recomen.daría
hacer a la junta de directores? Escriba una carta al presidente de la junta.

5.2 Los siguientes datos de la página 175 representan las acciones de mercado
(en porcentaje) propiedad de fabricantes de teléfonos celulares portátiles,
transportables y móviles vendidos durante 1992:

174 Capítulo S Presentación de datos categóricos en tablas y diagramas


Acciones
Fabricante de mercado (en%)
Motorola 22
Nokla 14
Mitsubishi 10
NovAtel 9
Toshiba 8
Todos los demás 37
Total 100
Fuente: 11ie New York Times, 31 de octubre de 1993, pág. 1.

(a) Construya una gráfica de barras.


(b) Construya una gráfica de pastel.
(c) Construya una gráfica de puntos.
(d) ¿Cuál de estas gráficas prefiere usar aquí? ¿Por qué?
(e) t-fiidlJi·t.t.• Describa estos resultados de ventas en un breve informe y
sugiera algunos planteamientos que Mitsubishi podría considerar para
mejorar su posición de acciones del mercado.
5.3 Los siguientes datos representan las acciones de mercado (en porcentaje)
propiedad de fabricantes de software de aplicaciones de negocios de
Windows durante 1992:

Acciones
Fabricante de mercado (en%)
Aldus 4.0
Lo tus 14.6
Microsoft 60.0
Software Publishing 2.9
Wordperfect 9.6
Otros -ª'ª--
Totales 99.9'
'Debido a redondeo.
Fuente: The New York Times, 31 de octubre de 1993, pág. Dl.

(a) Construya una gráfica de barras.


(b) Construya una gráfica de pastel.
(c) Construya una gráfica de puntos.
(d) ¿Cuál de estas gráficas prefiere usar aquí? ¿Por qué?
(e) t.f;dlJ!otf» Escriba un informe resumiendo los datos anteriores y ofrezca
sugerencias sobre cómo Lotus podría incrementar su posición de acciones
del mercado.
5.4 Las importaciones a los Estados Unidos provenientes de países en desarrollo
constituyeron 41.4% de un total estimado de 575.9 miles de millones de
dólares en el año de 1993. Por otra parte, las exportaciones de los Estados
Unidos hacia países en desarrollo constituyeron 40.7% de un total esti-
mado de 459.600 de millones de dólares en ese año. La siguiente tabla pre-
senta un desglose por país o región (en porcentaje) de importaciones y
exportaciones de Estados Unidos para el año de 1993:

Graficación de datos categóricos: de barras de, pastel y de punto 175


Acciones de mercado de Acciones de mercado de
País o región importaciones a los E.U. exportaciones de los E.U.

África 2.3 1.6


Asia (excluyendo Japón) 23.5 17.2
Canadá 19.2 21.7
Comunidad Europea 16.6 20.8
Japón 18.4 10.4
Latinoamérica 12.9 16.8
Medio Oriente 2.7 4.7
Otro 4.4 6.8
Total 100.0 100.0
Fuente: The New York Times, 19 de Diciembre de 1993, pág. F?.

(a) Construya gráficas de barras separadas para importaciones y exportaciones.


(b) Construya gráficas de pastel separadas para importaciones y exportaciones.
(c) Construya gráficas de puntos separadas para importaciones y exportaciones.
(d) ¿Cuál de estas gráficas prefiere usar aquí? ¿Por qué?
(e) f.t;¡¡qi.t.1,J> Analice los datos y escriba un memorándum a su profesor de
economía basándose en sus resultados.

111 Graficación de datos categóricos:


el diagrama de pareto
El diagrama de Pareto es un tipo especial de gráfica de barras verticales en la
que las respuestas categorizadas se grafican en el orden de rango de~cendiente de
sus frecuencias y se combinan con un polígono acumulativo en la misma escala.
El principio básico detrás de este dispositivo gráfico es su capacidad de distinguir
los "pocos vitales" de los "muchos triviales", permitiéndonos enfocar las respues-
tas importantes. Así pues, el diagrama logra su mayor utilidad cuando la variable
categórica de interés contiene muchas categorías. El diagrama de Pareto se usa
ampliamente en el control estadístico de procesos y calidad de productos (véase el
capítulo 16).
Para ilustrar el diagrama de Pareto, podemos observar que en la figura 5.1 de
la página 172 la gráfica de barras referente a la clasificación institucional presenta las
categorías como escuelas de artes liberales nacionales, escuelas de artes liberales
regionales, universidades nacionales, universidades regionales y escuelas de espe-
cialidades. Puesto que las universidades regionales y las escuelas de artes liberales
regionales dominan las clasificaciones institucionales del Consejo de Colegios en el
estado de Carolina del Norte, puede formarse un diagrama de Pareto modificando
el orden. Una gráfica de éstas se ilustra en la figura 5.4. De la longitud de las barras
observamos que casi una de cada dos de estas escuelas está clasificada como univer-
sidad regional. Además, del polígono acumulativo observamos que 84.5% de estas
instituciones están clasificadas como universidades regionales o escuelas de artes
liberales regionales.
Al construir el diagrama de Pareto, el eje vertical contiene los porcentajes (de
100 en el extremo superior a O en el extremo inferior) y el eje horizontal contiene
las categorías de interés. Las barras igualmente espaciadas también deben ser de
igual ancho y, para un impacto visual (referencia 9), sugerimos que las barras sean
del mismo color. El punto del polígono de porcentaje acumulativo para cada cate-
goría se centra en el punto medio de cada barra respectiva. Por tanto, al estudiar

176 Capítulo 5 Presentación· de datos categóricos en tablas y diagramas


un diagrama de Pareto, debemos concentrarnos en dos cosas, las magnitudes de las
diferencias en las longitudes de las barras correspondientes a las categorías descen-
dientes adyacentes y los porc.entajes acumulativos de estas categorías adyacentes.

100
90
80
70
"'<11
Qi 60
::J
o
"'
(])
(])
50
-o
(]) 40
g
e: 30
(])
r:
o
c.. 20 Flgul"a 5.4
Diagrama de Pareto que muestra
10 la clasificación institucional de 45
colegios y universidades de
o Carolina del Norte.
UR LAR UN LAN EE Fuente: Datos tomados de la tabla 5.1
de la página 171.

Problemas de sección 5.4


5.5 Refiérase a los datos del problema 5.3 de la página 175 respecto a las acciones
porcentuales del mercado obtenidas por fabricantes de software de aplicaciones
de negocios de Windows.
(a) Forme un diagrama de Pareto.
(b) ¿Cuál de las gráficas parece tener el mayor impacto visual, este diagrama de
Pareto o una de las gráficas trazadas en (a)-(c) del problema 5.3? Analice.
5.6 Refiérase al problema 5.4 de la página 175 respecto a las importaciones y
exportaciones.
(a) Construya una tabla basada en el equilibrio estimado de comercio. Es
decir, por cada país o región, calcule el valor estimado de dólares de
importación menos los dólares de exportación, produciendo un déficit o
un superávit de comercio.
(b) Para los países o regiones con los que Estados Unidos tiene un déficit de
comercio (es decir, los dólares de importación son menos que los dólares
de exportación), forme un diagrama de Pareto.
(c) Resuma sus resultados.
(d) t.fiji!'li·i·i·~ Escriba un informe para su profesor de economía basándose
en sus resultados en (c). Enumere las razones sociales, políticas, culturales
y/o económicas potenciales que pudieron haber llevado a este déficit de
comercio.
5.7 La compañía consultora de Holzmacher, McLendon y Murrel informó sobre el
consumo diario de agua por casa en el distrito de aguas de South Farmingdale
(Nueva York) durante un verano reciente. Los resultados de su estudio se
indican en seguida (véase la página 178):

Graficación de datos categóricos: el diagrama de pareto 177


Razón para uso Número de galones por día
de agua
Baño y ducha 99
Lavado de platos 13
Bebida y cocina 11
Lavado de ropa 33
Riego de césped 150
Aseo 88
Mise. 20
Total 414

(a) Forme un diagrama de Pareto.


(b) Resuma sus resultados.
(c) r·fiii!'J!•i·I•> Si al ayuntamiento le preocupara la escasez futura de agua,
escriba una carta basándose en sus resultados en (b) señalando áreas
problemáticas y proponiendo una legislación que pudiera conservar el
agua mediante el cambio de hábitos personales.
5.8 Los siguientes datos representan acciones de mercado de cereales para
desayunos preparados, en 1992:

Compañía Porcentaje

Marcas de tienda 24.8


Kellogg 37.8
Kraft General Foods 11.7
Quaker Oats 6.8
Ralston Purina 4.3
RJR Nabisco 2.8
Store brands 8.0
Otros 3.8
Totales 100.0
Fuente: The New York Times, 17 de
Noviembre 17 de 1992, pág. 04.

(a) Forme un diagrama de Pareto.


(b) Resuma sus resultados.
(c) r.tOiiiiJl•i·I•> Escriba una carta al editor de comida de su periódico local
sobre este asunto.
5.9 Los siguientes datos representan la producción de petróleo de los miembros de
la OPEP en diciembre de 1992, en millones de barriles al día:

Producción de petróleo diaria


País (en millones de barriles)

Algcria 0.77
<iall<in 0.30
l 11donl'sia 1.35
1r{111 3.50
Iraq 0.55
Kuwait 1.30
Libia 1.45
Nigeria 1.90
Qatar 0.42
Saudí Arabia 8.20
Emiratos Árabes Unidos 2.25
Venezuela 3.50
Total 25.49
Tlie New York Times, 25 de enero de 1993, pág. 02 .

178 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


(a) Forme un diagrama de Pareto.
(b) Resuma sus resultados.
(c) t-t;il'J/•f.I•> Escriba una carta al editor de negocios de su periódico
local sobre este asunto.
5.10 Una encuesta sobre satisfacción de pacientes conducida para una muestra de
210 individuos dados de alta de un gran hospital urbano durante el mes de
junio condujo a la siguiente lista de 384 quejas:

Razón de queja Número


Enojo con otros pacientes/visitantes 13
Ninguna respuesta a zumbador 71
Respuestas inadecuadas a preguntas 38
Tardanza en pruebas 34
Ruido 28
Mal servicio de comidas 117
Descortesía de personal 62
Otros 21
Total 384

(a) Forme un diagrama de Pareto.


(b) Resuma sus resultados.
(c) r.f;d'il•i-1·> Escriba un memorándum al directo.r ejecutivo del hospital
refiriéndose a sus resultados y ofrezca sugerenciais de mejora.
5.11 La siguiente tabla presenta el número de reuniones de accionistas llevadas a
cabo fuera de Estados Unidos en las que clientes de fondos de pensión de ese
país, pertenecientes a la Global Proxy Services Corporation votaron en la tempo-
rada de delegados 1992-93:

Número de reuniones
País efectuadas
Australia 49
Bélgica 50
Canadá 87
Inglaterra 374
Francia 72
Alemania 99
Holanda 83
Hong Kong 116
Italia 115
Japón 1,249
Suiza 61
Otro 396
Total 2,751
Fuente: The New York Times, 16 de
Julio de 1993, pág. DI.

(a) Forme un diagrama de Pareto.


(b) Resuma sus resultados.
(c) r·f'idlJl·t.f·> Escriba una carta al editor de negocios de su periódico
local sobre este asunto.

Graficacióin de datos categóricos: el diagrama de pareto 179


5.12 En un año reciente, la Dirección de Bomberos de Estados Unidos reportó las
principales causas de muertes por incendios residenciales:

Causa de muerte Porcentaje


Aparatos/equipos 4.9
Niños jugando con fuego 6.4
Cocina 6.3
Estufas eléctricas 5.0
Calefacción 12.9
Incendiario 6.7
Flamas abiertas/velas 3.0
Fumar 22.0
Propagación del lugar original 1.1
Origen desconocido 31.7
Total 100.0

(a) Forme un diagrama de Pareto.


(b) Resuma sus resultados.
(c) Reconstruya esta tabla después de eliminar la categoría de
"origen desconocido" y forme un nuevo diagrama de Pareto.
(d) Resuma sus resultados.
(e) r·fMl'Jl•t.i•P Escriba un artículo para la sección "vida diaria" de su periódico
local basándose en sus resultados en b) y d) con el fin de informar al lector
sobre esta materia.

111 Tabulación de datos categóricos:


tablas de contingencias y supertablas

S.S. 1 La tabla de contingencias


A menudo es deseable examinar las respuestas a dos variables categóricas simultánea-
mente. Por ejemplo, nuestro analista investigador de la compañía de servicios de
asesoría colegial podría estar interesado en examinar si existe o no algún patrón o
relación entre el tipo de institución (es decir, privada o pública) y la clasificación insti-
tucional del Consejo de Colegios. Usando el Conjunto de datos especiales 1 del
apéndice D de la página D3, la tabla 5.2 ilustra esta información para los 45 colegios y
universidades del estado de Carolina del Norte. Estas tablas de dos direcciones de clasi-
ficación cruzada se conocen como tablas de contingencias.

Para construir la tabla 5.2, por ejemplo, las respuestas conjuntas para cada una
de las 45 escuelas respecto al tipo de institución y clasificación institucional se
registran en una de las 10 "celdas" posibles de la tabla. Por lo tanto, del Conjunto
de datos especiales 1 del apéndice D de la página D3, la primera escuela enumerada
(Appalachian State University) es una universidad regional pública. Estas respues-
tas conjuntas se registraron en la celda compuesta por la segunda fila y la cuarta
columna. La segunda institución (Barber Scotia College) es una escuela de artes

180 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


liberales regional privada. Estas respuestas conjuntas se registraron en la celda
compuesta por la primera fila y la segunda columna. Las 43 respuestas conjuntas
restantes se registraron de una manera similar.

Tabla S.2 Tabla de contingencias que muestra el tipo de


institución y la clasificación institucional para 45
colegios y universidades en Carolina del Norte.
Clasificación institucional
Tipo de
institución NAL RAL UN UR EE Totales
Privada 2 16 1 11 o 30
Pública o o 3 11 1 15
Totales 2 16 4 22 1 45
Fuente: Los datos fueron tornados del Conjunto de datos especiales 1, apéndice D, página 03.

Con el fin de explorar cualquier patrón o relación posible entre el tipo de insti-
tución y la clasificación institucional del Consejo de Colegios, es útil convertir
primero estos resultados en porcentajes basándose en
l. El total global (es decir, los 45 colegios y universidades de Carolina del
Norte).
2. Las filas totales (es decir, privadas o públicas).
3. Los totales de columnas [es decir, escuela nacional de artes liberales
(NAL), escuela regional de artes liberales (RAL), universidad nacional
(UN), universidad regional (UR) o escuela de especialidades (EE)].
Esto se hace en las tablas 5.3, 5.4 y 5.5, respectivamente.
Resaltaremos algunos de los resultados presentes en estas tablas para los 45
colegios y universidades del estado de Carolina del Norte. De la tabla 5.3 observa-
mos que

l. 66.7% de las instituciones de Carolina del Norte son privadas.


2. 8.9% de las instituciones de Carolina del Norte están clasificadas
como universidades nacionales.
3. 2.2% de las instituciones de Carolina del Norte son universidades
nacionales privadas.

Tabla S.J Tabla de contingencias que muestra el tipo de institución y


la clasificación institucional para 45 colegios y universi-
dades en Carolina del Norte (porcentajes basados en total
global).
Clasificación institucional
Tipo de
institución NAL RAL UN UR EE Totales
Privada 4.4 35.6 2.2 24.4 o.o 66.7
Pública o.o o.o 6.7 24.4 2.2 33.3
Totales 4.4 35.6 8.9 48.9 2.2 100.0
Fuente: Los datos fueron tornados de la tabla 5.2.

Tabulación de datos categóricos: tablas de contingencias y supertablas 181


Tabla 5 .4 Tabla de contingencias que muestra el tipo de institu-
ción y la clasificación institucional para 45 colegios y
universidades en Carolina del Norte (porcentajes
basados en totales de fila).
Clasificación institucional
Tipo de
institución NAL RAL UN UR EE Totales
Privada 6.7 53.3 3.3 36.7 o.o 100.0
Pública o.o o.o 20.0 73.3 6.7 100.0
Totales 4.4 35.6 8.9 48.9 2.2 100.0
Fuente: Los datos fueron tomados de la tabla 5.2

Tabla 5.5 Tabla de contingencias que muestra el tipo de institución y la


clasificación institucional para 45 colegios y universidades en
Carolina del Norte (porcentajes basados en totales de columna).
Clasificación institucional
Tipo de
Institución NAL RAL UN UR EE
Totales
Privada 100.0 100.0 25.0 so.o o.o 66.7
Pública o.o o.o 75.0 so.o 100.0 33.3
Totales 100.0 100.0 100.0 100.0 100.0 100.0
Fuente: Los datos fueron tomados de la tabla 5.2

De la tabla 5.4 observamos que


l. 53.3% de las instituciones privadas están clasificadas como escuelas
regionales de artes liberales.
2. 73.3% de las instituciones públicas están clasificadas como universi-
dades regionales.
De la tabla 5.5 observamos que
l. 25.0% de las instituciones clasificadas como universidades nacionales
son privadas.
2. 50.0% de las instituciones clasificadas como universidades regionales
son públicas.
Las tablas, por consiguiente, indican un patrón: las instituciones de Carolina
del Norte de enseñanza superior comprenden principalmente universidades
regionales y escuelas regionales de artes liberales, dividiéndose las primeras en
escuelas públicas y privadas, mientras que las segundas son todas escuelas privadas.

5.5.2 La Supertabla
Una técnica útil para presentar datos que contienen varias variables categóricas es
la supertabla (referencia 9). Una supertabla es esencialmente una colección de
tablas de contingencias, cada una con las mismas variables y categorías de
columna. Sin embargo, se incluyen tantas variables de fila como se deseen para
comparaciones frente a la variable de columna. Los datos de cada celda de la tabla
siempre se dan como un porcentaje de su total de filas correspondiente. Esto per-
mite comparaciones línea por línea de las categorías dentro de una variable de fila
particular, así como para las categorías entre las diversas variables de fila. Esto per-
mite comparaciones línea por línea de las categorías dentro de una variable de fila
particular, así como para las categorías entre las diversas variables de fila.

182 Capitulo 5 Presentación de datos categóricos en tablas y diagramas


La tabla 5.6 es una supertabla que investiga las relaciones posibles entre una
variedad de características referentes a los 45 colegios y universidades de Carolina
del Norte y de la clasificación institucional del Consejo de Colegios. Observe la
similitud entre la parte superior de la tabla 5.6 y la tabla de contingencias presen-
tada como la tabla 5.4 de la página 182.

Tabla S.6 Una supertabla para estudiar las posibles relacio.nes entre diversas carac-
terísticas y clasificación institucional para 45 colegios y universidade~ en
Carolina del Norte.
Clasificación institucional
Variables y
porcentajes de categorías NAL RAL UN UR EE
Tipo de institución:
Privada (66.7%) 6.7% 53.3% 3.3% 36.7% 0.0%
Publica (33.3%) 0.0% 0.0% 20.0% 73.3% 6.7%
Ubicación:
Rural (22.2%) 0.0% 40.0% 0.0% 60.0% 0.0%
Suburbana (24.4%) 18.2% 45.5% 0.0% 36.4% 0.0%
Urbana (53.3%) 0.0% 29.2% 16.7% 50.0% 4.2%
Calendario:
Semestre (91.1 o/o) 4.9% 36.6% 9.8% 48.8% /0.0%
Trimestre (2.2%) 0.0% 0.0% 0.0% 0.0% 100.0%
4-1-4 (6.7%) 0.0% 33.3% 0.0% 66.7% 0.0%
Colegiatura cobrada a residentes
fuera del estado:
$10000 o más (11.1%) 40.0% 20.0% 20.0% 20.0% 0.0%
Por debajo de $10000 (88.9%) 0.0% 37.5% 7.5% 52.5% 2.5%
Nota: Para clasificación institucional: NAL = Escuela nacional de artes liberales: RAL = Escuela regional de
artes liberales; UN= Universidad nacional, UR =Universidad regional; EE = Escuela de especialidades.
Fuente: Conjunto 1 de datos especiales en apéndice D, pág. D3.

Problemas de la sección 5.5


5.13 En un estudio reciente, unos investigadores buscaban la relación existente
entre el tipo de colegio al que se asistió y el nivel de trabajo en el momento
del estudio de la gente que se graduó en 1975. Los investigadores examinaron
sólo graduados que entraron a la industria. La tabulación cruzada de los datos
se .presenta a continuación:

Tipo de colegio
Nivel de administración Lenguaje Ivy Otro privado Públicos
Alto (Sr. o superior Vicepr) 45 62 75
Medio 231 563 962
Bajo 254 341 732

(a) Construya una tabla con porcentajes de fila o columna, dependiendo de


cuál piensa que es más informativa.
(b) Interprete los resultados del estudio.
(c) ¿Qué otra variable o variables desearía conocer antes de aconsejar a alguien
que asista a Ivy League o a otra escuela privada si esta persona desea llegar
al máximo nivel de negocios?

Tabulación de datos categóricos: tablas de contingencias y supertablas 183


5.14 Se le preguntó a personas que regresaban de vacaciones en distintos países cómo
disfrutaron sus vacaciones. Sus respuestas fueron las siguientes:

Respuesta a país
País Divertido Regular Bueno
Magnífico

Inglaterra 5 32 65 45
Italia :~ 12 32 43
Francia 8 23 28 25
Guatemala 9 12 6 2

(a) Construya una tabla con porcentajes de fila.


(b) ¿Qué concluiría de este estudio?
(c) f.f;Jl'Jl·B·• Escriba una carta al editor de viajes de su periódico local en
relación con sus resultados.
• 5.15 La derrota del titular, George Bush, en la elección presidencial de 1992 se
atribuyó a las malas condiciones económicas y al alto desempleo. Suponga que
una encuesta de 800 adultos tomada poco después de la elección dio como
resultado la siguiente clasificación cruzada de condición financiera con nivel
educacional:

Nivel de educación
Bachillerato Parte de Licenciatura
Condiciones financieras o inferior licenciatura o superior Totales

Peor ahora que anks 261 48 38 347


Ninguna diferencia 104 73 41 218
Mejor ahora que antes 65 39 UI 23.'i
Tola les 430 160 210 800

(a) Construya una tabla con porcentajes de columna.


(b) ¿Qué concluiría de este estudio?
(c) f.f4Jlf)/,f.f-> Escriba una carta a su profesor de ciencias políticas en
relación con sus resultados.
5.1 <> 1ksarrolle una supertabla (bosquejada) correspondiente al listado de la bolsa
(NYSL, ASE y OTC) basándose en variables de funcionamiento de mercado
como la declaración de dividendos, el nivel de ganancias anuales, cambio en
las g<inancias del año pasado y nivel de precios frente a la tasa de ganancias.

1!-J Uso de la computadora para tablas


y diagramas con datos categóricos:
la Encuesta de satisfacción de los
empleados de Industrias Kalosha

5.6.1 Introducción y visión generales


Al tratar con grandes series de datos, podemos usar la computadora para ayudarnos
en nuestro análisis estadístico descriptivo. En esta sección demostraremos cómo

184 Capítulo S Presentación de datos categóricos en tablas y diagramas


pueden usarse varios softwares estadísticos y paquetes de hojas de despliegue
(véanse las referencias 5 y 8) para organizar y presentar datos categóricos en forma
tabular y diagramática. Para hacer esto, regresemos a la Encuesta sobre la satisfac-
ción de los empleados de Industrias Kalosha que se desarrolló en el capítulo 2.

5 .6.l Encuesta sobre la satisfacción de los empleados de


Industrias Kalosha
Tal vez recordemos de las secciones 3.8.2 y 4.10.2 que Bud Conley, el vicepresi-
dente de recursos humanos, está preparando una reunión con un representante de
la B & L Corporation para discutir el posible contenido de un paquete de benefi-
cios a empleados que se está desarrollando. Las respuestas a las siguientes tres pre-
guntas (que tienen que ver con variables categóricas) serían de interés particular en
un análisis inicial de los datos de la encuesta (tabla 2.3 de las páginas 33-40):
l. Pregunta general A: ¿Cómo responden los empleados de tiempo com-
pleto de Industrias Kalosha a la pregunta de satisfacción con el tra-
bajo? (véase la pregunta 9 de la encuesta)
2. Pregunta específica B: De acuerdo con Jos empleados de tiempo completo
de Industrias Kalosha, ¿cuál sería la característica más importante a con-
siderar al buscar un trabajo (véase la pregunta 11 de la encuesta)?
3. Pregunta específica C: ¿Existe una relación entre género y ocupación
elegida entre los empleados de tiempo completo de Industrias Kalosha
(véanse las preguntas 5 y 2 de la encuesta)?
Éstas y otras preguntas iniciales formuladas por Bud Conley (véase Proyecto
Encuesta/Base de datos al final de la sección) requieren un análisis estadístico descrip-
tivo de las 400 respuestas a la encuesta. En la práctica, es probable que un estadístico
use uno o dos paquetes estadísticos de hojas de despliegue al efectuar el análisis estadís-
tico descriptivo. Sin embargo, aquí se presenta la salida de computadora de varios
paquetes para que podamos demostrar algunas de las características de estos paquetes.

5 .6.3 Uso de software estadístico y paquetes de hojas de


despliegue para datos categóricos
En respuesta a la primera pregunta de Bud Conley, son deseables una tabla de
resumen y una gráfica de pastel. La figura 5.5 de la página 186 muestra una salida
de computadora que representa la tendencia obtenida al accesar STATISTIX y la
figura 5.6 de la página 186 ilustra una gráfica de pastel de SPSS. De estas repre-
sentaciones observamos que 46% de los empleados de tiempo completo de
Industrias Kalosha están "muy satisfechos" con sus trabajos, 43%i de los empleados
están "moderadamente satisfechos", 7% están "un poco insatisfechos" y 4% están
"muy insatisfechos".
Como respuesta a la pregunta específica de Bud Conley (B) referente a las ca-
racterísticas importantes del trabajo, se obtiene un diagrama de Pareto usando
Microsoft EXCEL para Windows, un paquete de hoja de despliegue, y se muestra en
la figura 5. 7 de la página 186. De aquí se observa que tres de cada cuatro empleados
de tiempo completo de Industrias Kalosha creen que existen dos características
importantes de un trabajo, 50.75% de los empleados sienten que el "disfrute del tra-
bajo" es la característica de trabajo más importante y 25.75% de los empleados
piensan que los "altos ingresos" constituyen la característica de trabajo más impar-

Uso de la computadora para tablas y diagramas con datos categóricos l BS


SUMMARY TABLE OF SATJOB

VALUE FREQ PERCENT


Figura s.s Very Satisf ied 185 46.3
Tabla de resumen de satisfacción en el Moderately Satisf ied 171 42.8
trabajo según resultado de STATISTIX. A Little Dissatisfied 27 6.8
Nota: Cada uno de los porcentajes de la tabla de
resumen obtenidos usando el paquete STATlSTlX Very Dissatisf ied 17 4.3
se redondea y el total suma 100.2% debido a tal
error de redondeo.
TOTAL 400 100.0

Muy insatisfactorio
4.3%
Un poco insatisfactorio
6.8%

Muy satisfactorio
46.3%
Modorod!lmonto
satlsfuctorlo
42.8 1Yo
Figura S.6 .
Gráfica de pastel de satisfacción con el trabajo de
salida de SPSS.
Nota: Cada uno de los porcentajes de la ¡:ráfica de pasl!•I
obtenidos usando el paquete SPSS SL' rL·dondL'<I y l'i total
suma 100.2'111 debido a tal error Lle rL·Liondeo.

100
90
__ _.
j 80
§ 70
(.)

!!! 60
~
~ 50
Q)

"' 40
Q)

~ 30
Q)

l: 20
~
10

Figura S.7 o
Ordenar el Altas utilidades Oportunidad Sin peligro Horas flexibles
Diagrama de Pareto de características trabajo para de
importantes del trabajo según salida de ascenso despidos
Microsoft EXCEL para Windows.

tante. Otras características del trabajo se citan con mucha menos frecuencia.
12.75% de los empleados afirman que las "oportunidades de avance" son lo más
importante, 6.0% establecen que la "seguridad del trabajo" es lo más importante y
sólo 4.75% dicen que las "horas de trabajo flexibles" son lo más importante.En
respuesta a la pregunta específica de Bud Conley (C), que tiene que ver con un par
de variables categóricas, es deseable una tabla de contingencias. La figura 5.8 mues-
tra la salida de computadora necesaria obtenida al accesar SAS. Observamos de esta
tabla de contingencias de 2 x 7 que, en general, parece haber una relación entre
género y agrupamiento ocupacional en Industrias Kalosha. El porcentaje de hom-
bres que trabajan en algunos marcos ocupacionales difiere sustancialmente del de sus

186 Capítulo S Presentación de datos categóricos en tablas y diagramas


contrapartes femeninas. En particular, observamos en las celdas de la tabla que ciertas
combinaciones de las dos variables categóricas sobresalen. Cuando se comparan con los
hombres, observamos que las mujeres se encuentran empleadas en una capacidad de
apoyo administrativo con mucho mayor frecuencia de lo que se podría esperar si no
existiera una relación género-ocupación. Además, al compararlos con las mujeres,
observamos que los hombres trabajan en la producción o como obreros con una fre-
cuencia mucho mayor de lo que se esperaría si no estuvieran relacionadas las dos
variables categóricas.
A fin de prepararse para el desarrollo de un paquete de beneficios a emplea-
dos, Bud Conley también estaba interesado en evaluar indicadores potenciales de
satisfacción con el trabajo, género, sindicalización, percepción de avance, pro-
mociones, participación en decisiones, relaciones trabajador-administración y
relaciones entre trabajadores (véase Proyecto Encuesta/Base de datos).

~------------~--=T=AB=L~E~O~F~S~E~X~B-Y~O-C~c~u=p-------------·-•«••«••'"""""""'"'""'

SEX OCCUP
Frequency
Percent
Row Pct
Col Pct MGL IPROF ITEC/SAL IADMSPT ISERV IPROD !LABOR Total
---------+--------+--------+--------+--------+--------+--------+--------+
MALES 36 33 34 14 18 51 47 :.! _I 1
9.00 8.25 8.50 3.50 4.50 12.75 11.75 58.25
15.45 14.16 14.59 6.01 7.73 21.89 20.17
55.38 50.00 59.65 21.54 62.07 94.44 73.44
---------+--------+--------+--------+--------+--------+--------+--------+
FEMALES 29 33 23 51 11 3 17 lú'/
7.25 8.25 5.75 12.75 2.75 0.75 4.25 41.75
17.37 19.76 13.77 30.54 6.59 1.80 10.18
44.62 50.00 40.35 78.46 37.93 5.56 ~6.56
---------+--------+--------+--------+--------+--------+--------+--------+
Total 65 66 57 65 29 54 64 100
16.25 16.50 14.25 16.25 7.25 13.50 1~.00 100.00

Figura S.8
Tabla de contingencias de género y ocupación; salida de SAS.
Nota: SAS le proporciona al usuario numerosas opciones al dC'sarrollar una tabla de contingencias. Al invocar tales opciones, como v1·111m tl1· la
salida de la figura 5.8, cada celda contiene cuatro piezas de información, la frecuencia o cuenta de celda (resaltada en color), l'l pmn·111;1¡1·
(es decir, la frecuencia de celda como un porcentaje del gran total), el porcentaje de fila (es decir, la frecuencia de celda como u11 p111n·11laj1·
del total de filas) y el porcentaje de columna (es decir, la frecuencia de celda como un porcentaje del total de columnas). Ohs1•rv1• q1ll', .11
invocar estas opciones, ésta tabla toma el lugar de cuatro tablas. (Véanse las tablas S.2-5.5 de las páginas 181-182.)

Proyecto Encuesta I Base de datos de la sección 5.6

Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestionario de
la figura 2.6 de las páginas 28-29 y presentado en la tabla 2.3 de las páginas 33-40.
Deben resolverse con la ayuda de un paquete de computadora disponible
Suponga que usted es contratado como asistente de investigación de Bud Conley,
el vicepresidente de recursos humanos de Industrias Kalosha. Él le ha dado una
lista de preguntas (véanse los problemas 5.17 a 5.40) que necesita responder antes
de su reunión con un representante de la B&L Corporation, la compañía consul-
tora sobre beneficios a empleados que él ha contratado.
De las respuestas a las preguntas que se refieren a variables categóricas en la
Encuesta sobre la satisfacción de los empleados, en los problemas 5.17 a 5.28 a
continuación,

Uso de Ja computadora para tablas y diagramas con datos categóricos 187


(a) Forme la tabla de resumen.
(b) Construya una gráfica de pastel o gráfica de barras.
(c) Construya un diagrama de Pareto (si es apropiado).
(d) r.t;dfJl·f.f-> Escriba un memorándum a Bud Conley analizando sus
resultados .
.S.17 Examine el agrupamiento ocupacional (véase la pregunta 2).
5.18 Examine el desglose de género (véase la pregunta 5).
5.19 Examine la opinión de "sacar adelante" (véase la pregunta 12).
5.20 Examine la sindicalización (véase la pregunta 14).
5.21 Examine la probabilidad percibida de promoción (véase la pregunta 18).
5.22 Examine las oportunidades promocionales percibidas con base en el género
(véase la pregunta 19).
5.23 Examine el "avance" percibido (véase la pregunta 20).
5.24 Examine la participación percibida en la toma de decisiones (véase la pregunta 21).
5.25 Examine la participación en las decisiones presupuestales (véase la pregunta 22).
5.26 Examine la actitud hacia Industrias Kalosha (véase la pregunta 23).
5.27 Examine la percepción de las relaciones empleados-administración (véase la
pregunta 25).
5.28 Examine la percepción de ias relaciones entre trabajadores (véase la pregunta 26).
De las respuestas a las preguntas que se refieren a variables categóricas en la
Encuesta sobre la satisfacción de los empleados (véase las páginas 33-40) para los
problemas 5.29 a 5.40,
(a) forme una tabla de contingencias y analice los datos.
(b) P·f;iilJ!·M·> Escriba un memorandum a Bud Conley analizando sus datos.
S.29 Haga una dasifirnciún cruzada de género (pregunta 5) con la satisfacción en el
trabajo (pregunta 9) .
.S.:rn Haga una clasificación cruzada de la importancia de las características del tra-
bajo (pregunta 11) con la satisfacción en el trabajo (pregunta 9).
5.31 Haga una clasificación cruzada de "sacar adelante" (pregunta 12) con la satis-
facción en el trabajo (pregunta 9).
5.32 Haga una clasificación cruzada de la sindicalización (pregunta 14) con la satis-
facción en el trabajo (pregunta 9).
5.33 Haga una clasificación cruzada de la probabilidad de una promoción futura
(pregunta 18) con la satisfacción en el trabajo (pregunta 9).
5.34 Haga una clasificación cruzada de las oportunidades promocionales percibidas con
base en el género (pregunta 19) con la satisfacción en el trabajo (pregunta 9).
5.35 Haga una clasificación cruzada del "avance" percibido (pregunta 20) con la
satisfacción en el trabajo (pregunta 9).
5.36 Haga una clasificación cruzada de la participación percibida (pregunta 21) con
la satisfacción en el trabajo (pregunta 9).
5.37 Haga una clasificación cruzada de la toma de decisiones presupuestales (pre-
gunta 22) con la satisfacción en el trabajo (pregunta 9).
5.38 Haga una clasificación cruzada de la actitud hacia Industrias Kalosha (pre-
gunta 23) con la satisfacción en el trabajo (pregunta 9).
5.39 Haga una clasificación cruzada de la percepción de las relaciones
empleados-administración (pregunta 25) con la satisfacción en el trabajo
(pregunta 9).
5.40 Haga una clasificación cruzada de las relaciones entre trabajadores (pregunta
26) con la satisfacción en el trabajo (pregunta 9).
5.41 (Proyecto de clase)
(a) Como vicepresidente de recursos humanos de Industrias Kalosha, ¿debería
Bud Conley estar satisfecho con las respuestas a la pregunta 9 de la
encuesta respecto a la satisfacción en el trabajo? (Mientras que Ja mitad de
Jos empleados están "muy satisfechos", 11% son empleados descon-
tentos.) Analice.

188 Capítulo S Presentación de datos categóricos en tablas y diagramas


Y (b) ¿Qué otras variables deberían considerarse en una supertabla respecto a la
satisfacción en el trabajo?
(c) M;d'Jl•t.I·~ Suponga que usted es contratado como investigador asistente de
Bud Conley. Se le pide que analice a fondo las respuestas de las figuras 5.5 y 5.6
(véase la página 186) y prepare un resumen ejecutivo que le presentará a él.

111 Reconocimiento y práctica de una


adecuada presentación tabular de
diagramas y exploración de
cuestiones éticas
En este capítulo hemos estudiado cómo se presentan los datos categóricos en
forma tabular y gráfica con el fin de hacer los datos más manejables y significativos
para el propósito del análisis. Nuevamente, como en el capítulo 3, si nuestro análi-
sis se puede ampliar por una representación visual de datos categóricos, es esencial
que las tablas y gráficas se presenten clara y cuidadosamente. Los adornos tabulares
y la "basura gráfica" deben eliminarse para no oscurecer el mensaje transmitido
por los datos (referencias 9 y 10). Además, al mostrar diagramas debemos evitar
errores comunes que distorsionen nuestra impresión visual.

5. 7 .1 Adornos tabulares, basura gráfica y errores comunes


Vaya a su biblioteca y compare las tablas y gráficas mostradas en una publicación
gubernamental como Survey o( Currcnt R11si11css (Encuesta de negocios actuales) con
aquellas encontrados en una revista semanal popular o un periódico diario. La
publicación del gobierno está dirigida a un usuario más sofisticado y la informa-
ción se presenta de una manera directa. Esta presentación a menudo ha sido
descrita con una palabra, "aburrida". Por otra parte, al hojear revistas y periódicos
encontramos que las tablas y diagramas están adornados con varios iconos y sím-
bolos para hacerlos atractivos a sus lectores. Desafortunadamente, la animación de
una tabla o diagrama a menudo oculta o distorsiona el mensaje transmitido por los
datos. El exceso de adornos al mostrar gráficas con frecuencia da como resultado
una basura gráfica. Los iconos y símbolos exagerados ocasionan una distorsión del
impacto visual como se ve en la figura 5.9 de la página 190.
Observe que en este diagrama la magnitud de los 10.8 millones de trabajos de trans-
portación, comercio y ventas al detalle está subrepresentada por un icono de camión
que es menor que el que representa 5.6 millones de trabajos para los miembros de fami-
lias agrícolas. Asimismo, el icono de lata que representa los 1.3 millones de trabajos de
procesamiento de comida es demasiado grande comparado con los iconos que repre-
sentan los 2.1 millones de trabajos de agricultura, los 2.6 millones de trabajos de ma-
nufactura y los 4.1 millones de trabajos en las otras áreas de agricultura y exportación.
Una simple tabla de resumen o una gráfica de barras, pastel o puntos o un diagrama de
Pareto habría sido más eficaz en la descripción precisa de los datos.
Otros tipos de representaciones que captan la atención y que por lo regular
aparecen en revistas y periódicos intentan erróneamente mostrar figuras de iconos
como representativas de información numérica. ¿Puede alguien realmente leer e
interpretar correctamente tales figuras bidimensionales? La respuesta es no. Como
se ve en la figura 5.1 O de la página 190, estas gráficas pueden ser atractivas, ¡pero
rara vez funcionan!

Reconocimiento y práctica de una adecuada presentación tabular de diagramas y exploración de cuestiones éticas l BS>
Trabajadores empleados en la agricultura de Estados Unidos y en la exportación agrícola

..---·· ~
Q. r. _,...>··--~-·· ¡
: Cq.\ . · ·r"'"' .,•...- 5.6 milloneS'··--~
,./
~[j 2.1 millones
... -·-
en
' -··~í· arafamilias
.'·.<...~ de miembros·:--
p.

de 1
/~.
-.. ; agricultura r~--~ 1 ; .. ,. agricultores j
·~r-- - ·..J_,,.._ <
. ¡
,.
~
)

Figura S.9
Representación "impropia" de trabajos respaldados a través de la agricultura y
exportaciones agrícolas de Estados Unidos.
Fuente: The New York Times, 19 de octubre de 1993, Suplemento de publicidad, pág. Dl8.

TAMAÑO DEL DEPARTAMENTO


Personal por cada 1,000 residentes de las principales ciudades
de Estados Unidos. Calculado de las estadísticas del FBI sobre la
fuerza, octubre de 1992, y del censo de 1990

4.4 3.9 3.9 37


2.3 2.2

Figura s.10
Representación "impropia" del tamaflo del
departamento de policía por cada 1000
tttttt t
residentes de ciudades importantes de los
Estado Unidos.
Fuente: Extraída de Powell, R., "A Statistical Portrait of
the N. Y. P.D.", The New York Times, 10 de octubre de
1993, pág. 35.

En la figura 5.10, ¿el icono que representa el tamaño del departamento de


policía por cada 1000 residentes de Chicago realmente es el doble de tamaño que
el de Los Ángeles? Se supone que sí lo es, pero, ¿cómo puede concluirse esto apro-
piadamente? Este tipo de ilustración capta la atención pero no dice nada que una
tabla de resumen o una gráfica de barras, pastel o puntos o un diagrama de Pareto
no pudieran presentar mejor.
En resumen, somos consumidores activos de información, misma que
escuchamos o vemos diariamente a través de los diversos medios. Puesto que gran
parte de Jo que escuchamos o leemos es basura, debemos aprender a evaluar críti-

190 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


camente y discernir aquello que tenga un valor real. También debemos tener en
mente que algunas veces la basura que se nos proporciona está basada en la igno-
rancia; otras veces, como reiteraremos en la sección 5.7.3, es planeada y maliciosa.
Esencialmente, sea crítico y escéptico de la información proporcionada.

5.7.2 Uso del software de computadora para tablas y gráficas


En las secciones 3.8, 4.10 y 5.6 demostramos cómo el software de computadora
adecuado puede ayudamos en un análisis descriptivo de nuestros datos. Hemos obser-
vado que la computadora es una herramienta extremadamente útil que puede almace-
nar, organizar y procesar información fácil y rápida y proporcionarnos resultados,
tablas. y diagramas de resumen. No obstante, debemos tener en cuenta que la compu-
tadora es sólo una herramienta. Veremos, a lo largo de este texto, al demostrar e inter-
pretar una variedad de salidas de computadora correspondientes a los temas estudiados
en los capítulos siguientes, que es crucial que usemos la computadora de una manera
congruente con una metodología estadística correcta. Acuérdese de GIGO. La salida de
computadora que obtenemos dependerá de cuatro cosas: la capacidad del hardware
usado, la calidad de la impresora elegida, la capacidad del software estadístico selec-
cionado, así como de nuestra habilidad para elegir el software y usarlo de manera ade-
cuada y provechosa. Y cuando se le presente información tabular y gráfica proveniente
de la salida de algún paquete de software estadístico, tenga cuidado con los adornos
extra que pudieran estar ocultando lo que los datos pretenden transmitir.
Para interactuar apropiadamente con la computadora, debemos no sólo estar
familiarizados con un paquete de software particular, sino también seleccionar los
procedimientos estadísticos apropiados para las tareas requeridas. Por ejemplo, las
gráficas de pastel y las tablas de contingencias deben usarse con datos obtenidos a
partir de variables categóricas. Es inadecuado solicitar gráficas de pastel o clasifica-
ciones cruzadas para variables numéricas continuas a menos que éstas se hayan
clasificado primero en clases como en una distribución de frecuencia o en una
supertabla. Por otra parte, las mediciones descriptivas de resumen como las
medias, medianas o desviaciones estándar deben usarse sólo para variables numéri-
cas. Es completamente inadecuado instruir a la computadora para que produzca
tales resultados de resumen para variables categóricas como ocupación o género.
La salida carecería totalmente de sentido.

5.7.J Cuestiones éticas


Nuevamente, como se mencionó en las secciones 3.9.6 y 4.11.4, las consideraciones éti-
cas surgen cuando alguien está decidiendo qué datos presentar en formato tabular y
gráfico y cuáles no pfesentar. Es de vital importancia al conducir una investigación do- '

cumentar tanto los buenos como los malos resultados, para que aquellos que continúen
tal investigación no tengan que comenzar desde el principio. Además, al hacer pre-
sentaciones orales y presentar informes de investigación escritos, es esencial que los
resultados se den de una manera imparcial, objetiva y neutral. Por consiguiente, debe-
mos tratar de distinguir entre una mala presentación de resultados y una presentación
no ética. Una vez más, como en nuestras discusiones previas sobre consideraciones
éticas, la clave es la intención. A menudo, cuando se omite información pertinente,
simplemente se hace por ignorancia. Sin embargo, un comportamiento no ético ocurre
cuando un individuo oculta deliberadamente los hechos distorsionando una tabla o
diagrama o no reportando resultados pertinentes.

Reconocimiento y práctica de una adecuada presentación tabular de diagramas y exploración de cuestiones éticas 1V1
Problemas de la sección 5. 7
\J 5.42 Usted está planeando estudiar para su examen de estadística con un grupo de
compañeros, a uno de los cuales usted desea impresionar particularmente. Este
individuo se ha propuesto de voluntario para usar un paquete de software
estadístico y así obtener la información, tablas y diagramas de resumen nece-
sarios para un conjunto de datos que contiene varias variables numéricas y
categóricas asignadas por el profesor con propósitos de estudio. Esta persona
viene a usted con las impresiones y exclama: "Lo tengo todo: las medias,
medianas, desviaciones estándar, diagramas de tallo y hojas, gráficas de caja y
sesgos y gráficas de pastel para todas las nuestras variables. El problema es que
parte de la salida se ve extraña, como los diagramas de tallo y hojas y las gráfi-
cas de caja y sesgos para género y especialidad y las gráficas de pastel para el
índice de puntos de calificación y para la altura. Además, no entiendo por qué
el doctor Hunter dijo que no podríamos obtener las estadísticas descriptivas
para algunas de nuestras variables, ¡yo las tengo para todas! Mira, la media
para la altura es 68.23, la media para el índice de puntos de calificación es
2.76, la media para el género es 1.50, la media para la especialidad es 4.33."
Usted mira a su supuesto amigo a lo ojos, respira hondo y contesta ...
5.43 (Proyecto estudiantil) Traiga a clase un diagrama de un periódico o revista
que considere una mala representación de alguna variable categórica. Esté listo
para presentar el diagrama al profesor con comentarios respecto a por qué cree
que es inapropiado. Asimismo, esté preparado para presentarlo y comentarlo en
clase.

Presentación de datos categóricos:


una visión general
Como se muestra en el diagrama de resumen de la página 193, este capítulo trató
sobre la presentación de datos categóricos. La presentación de datos es un ele-
mento esencial para cualquier investigación estadística a gran escala y en este capí-
tulo nos hemos familiarizado con una variedad de técnicas para tabular y graficar
datos categóricos. Como vimos en la sección 5.6, el rápido desarrollo de la tec-
nología de computación durante la década pasada han tenido como resultado
avances importantes en las capacidades gráficas de las computadoras, así como
tablas y diagramas de alta calidad que ahora son accesibles a través de una diversi-
dad de paquetes de software de computación.
En la página 170 de la sección 5 .1 se le dio una lista que ponía énfasis en los
puntos importantes a analizarse en el capítulo. Revise la lista ahora para ver si
siente que tiene una comprensión de estos puntos clave. Para estar seguro, usted
debe poder responder las siguientes preguntas conceptuales:
l. ¿Por qué construiría una tabla de resumen de frecuencia y de por-
centaje?
2. ¿Cómo construye una tabla de resumen de frecuencia y de porcentaje?
3. ¿Cómo construye una gráfica de barras, gráfica de pastel, gráfica de
puntos y diagrama de Pareto?
4. ¿Cuáles son las ventajas y/o desventajas de usar una gráfica de barras,
gráfica de pastel, gráfica de puntos y diagrama de Pareto?
S. ¿Qué tipos de desgloses de porcentaje pueden ayudarlo a interpretar
los resultados hallados mediante la clasificación cruzada de datos
basándose en dos variables categóricas?
6. ¿Por qué la formación de una encuesta que se basa en la clasificación
cruzada de datos que contienen varias variables categóricas es una
representación útil?

192 Capítulo S Presentación de datos categóricos en tablas y diagramas


Presentación de
datos categóricos

>2

Tabla de Supertabla Tabulaciones cruzadas


resumen (Tabla de contingencias)

Diagrama
Gráfica de barras Gráfica de pastel Gráfica de puntos Fiia%
de Pareto

Columna%

Diagrama del resumen capítulo S.

7. ¿Cuáles son algunas de las cuestiones éticas por considerar al presen-


tar datos categóricos en formato tabular o gráfico?

Verifique la lista de preguntas para ver si verdaderamente conoce las respues-


tas y podría (1) explicar sus respuestas a alguien que no leyó este capítulo y (2) dar
referencia de lecturas o ejemplos específicos que apoyen su respuesta. Asimismo,
vuelva a leer cualquiera de las secciones que pudieran haber parecido confusas para
ver si ahora tienen sentido.

Juntando todo
TÉRMINOS CLAVE
"basura gráfica" 189 gráfica de puntos 173
diagrama de Pareto 176 supertabla 182
gráfica de barras 171 tabla de contingencias 180
gráfica de pastel 173 tabla de resumen 171

Términos clave 193


Problemas de repaso del capítulo
5.44 r·Ad'Ji•f·i·~ Escriba una carta a un amigo resaltando lo que considera las carac-
terísticas más interesantes o importantes de este capítulo.
5.45 Explique las diferencias entre
(a) histogramas y gráficas de barras.
(b) ojivas y diagramas de Pareto.
5.46 Describa las características principales de las gráficas de barras, gráficas de pas-
tel, gráficas de puntos y diagramas de Pareto para describir datos categóricos.
¿Cuál de estas representaciones grMicas prefiere? ¿Por qué?
5.47 Un artículo del Newsday indicaba que en un año reciente se distribuyeron más
de cien millones de cajas de cerveza en el estado de Nueva York. La siguiente
tabla desglosa las acciones de mercado L'n ese año:

Acciones de
mercado
Fábrica de cerveza (en (J'i>)

/\dol ph <:oors <:o. 6


/\llill'llSl'r-JluscJ¡ (:o. 46
(;. lil'ile111a11 Brewing Co. 3
l.atro!Je llrl'wi11g Co. 1
Miller llrewing Co. 20
Struh Brewing Co. 1
lmporled Beers 11
l.icor de malta 9
Otros ~~
Total "TO()
Fuente: Newsday, 21 de Mayo de 1990 (cxtraido
de Bfwrage World).

(a) Construya una gráfica de barras.


(b) Construya una gráfica de pastel.
(c) Construya una gráfica de puntos.
(d) Forme un diagrama de Pareto.
(e) ¿Cuál de estas gráficas prefiere usar aquí'? ¿Por qué'?
(f) t.t;¡il')l•J.f» Diseñe una encuesta para ser distribuida en el campus para
determinar las preferencias de cerveza entre los estudiantes.
5.48 La conservación ambiental es un asunto nacional de principal importancia. Se ha
dicho que los estadounidenses tiraron 227.1 millones de toneladas de basura en
un año reciente, suficiente para llenar una de las torres gemelas del World Trade
Center completa diariamente. Por lo general, el desecho de la basura se hace
mediante rellenos sanitarios (87'Vc>), incineración (7%) y reciclamiento (S'X>).
Suponga que la compañía consultora en la que usted trabaja proporciona la
siguiente tabla que muestra el desglose de porcentajes de las fuentes de desecho:

Fuente Porcentaje
Papel y cartón 37.1
Basura de jardín 17.9
Vidrio 9.7
Metales 9.6
Desechos 8.1
Plástico 7.2
Madera 3.8
Caucho y piel 2.5
Textiles 2.1
Otros 2.0
Total 100.0

194 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


(a) Forme la gráfica apropiada para señalar los "pocos vitales" de los "muchos
triviales".
(b) Analice los datos y resuma sus resultados.
(c) t-t;illJl·O·~ Escriba una carta a la Agencia de Protección Ambiental
basándose en sus resultados y solicite información gubernamental sobre el
potencial de reciclamiento de cada uno de los artículos.
5.49 Las serias lesiones cervicales sufridas por los jugadores de futbol profesional
en los últimos años han aumentado el interés por reducir las lesiones
espinales. Las siguientes tablas de resumen muestran respectivamente el por-
centajr de lesiones espinales clasificadas por causa y el porcentaje de lesiones
deportivas clasificadas por deporte particular:

Causas de lesiones
espinales Porcentaje

Caídas 20.8
Vehículos de motor 47.7
Deportess 14.2
Violencia 14.6
Otro 2.7
Total TffiI()

Causas de lesiones
espinales deportivas Porcentaje

Buceo 66.0
Futbol 6.1
Gimnasia 2.2
Equitación 2.0
Deportes de invierno de no esquí 2.3
Esquí de nieve :u
Surfing :u
Clavados 2.6
Lucha 2.3
Otro 9.6
Total 100.0
F11mte:rlw Nl'w York Ti111l's, 20 dL• Novil'mhrc dr
1991, pág. 111 l.

(a) Para los datos sobre causas de lesiones espinales, construya:


( 1) una gráfica de barras.
(2) una gráfica de pastel.
(3) una gráfica de puntos.
(b) ¿Qué gráfica prefiere para propósitos de presentación? ¿Por qué?
(c) Para los datos sobre causas de lesiones deportivas, desarrolle la gráfica
apropiada para señalar las "pocas vitales" de las "muchas triviales".
(d) Analice los datos y resuma sus resultados.
(e) t.f;il'J/•t.I» Escriba una carta al editor de deportes de su periódico local
explicando sus resultados.

Problemas de repaso del capítulo 195


5.50 Los siguientes datos representan las acciones de mercado de todas las
bebidas y una estratificación de las acciones del mercado de refrescos car-
bonatados, basándose en las ventas de supermercados:

Acciones de
Tipo de bebida mercado (en%)
Cerveza 12
Refrescos carbonatados 25
Café 11
Jugo 6
Leche 15
Agua de la llave 19
Otro 12
Total 100

Acciones de
Tipo de refresco carbonatado mercado (en%)
De cola cafeinado 48.0
De cola descafeinado 10.4
Sidra 3.4
Agua de seltz 0.4
Crema 1.4
DrPimienta 3.9
Uva 3.5
Toronja 1.2
Grapefruit 1.0
Lima-limón 9.8
Agua mineral 1.0
Naranja 3.7
Cerveza de raíz 3.7
Agua mineral endulzada 0.4
Agua tónica 0.7
Agua mineral no endulzada 2.2
Otro 5.3
Total 100.0
Fuente: The New York Times, 2 de Mayo de 1992, pág. 19.

(a) Para los datos sobre acciones del mercado de todo tipo de bebidas,
construya:
(1) una gráfica de barras.
(2) una gráfica de pastel.
(3) una gráfica de puntos.
(b) ¿Qué gráfica prefiere para propósitos de presentación? ¿Por qué?
(c) Para los datos sobre acciones del mercado de refrescos carbonatados,
desarrolle la gráfica apropiada para sefialar las "pocas vitales" de las
"muchas triviales".
(d) Analice los datos y resuma sus resultados.
(e) r.t;ijfJ/•i·i•P Escriba una carta al editor de comida de su periódico local
explicando sus resultados.
(f) (Proyecto de clase) Haga que todos los estudiantes de la clase
respondan a la pregunta: "¿Qué tipo de refresco carbonatado prefieres?",
para que el profesor pueda registrar los resultados en un tabla de resumen
en el pizarrón.
(1) Convierta los datos en porcentajes y construya un diagrama de
Pareto.
(2) Compare y contraste los resultados de la clase con los obtenidos
nacionalmente basándose en las acciones de mercado. ¿Qué puede
concluir? Analice.

196 Capítulo 5 Presentación de datos categóricos en tablas y diagramas


5.51 Los siguientes datos representan las ventas de mercado globales de todos los
productos fabricados por Motorola, lnc. en 1992 y una estratificación de su
ventas netas por segmento de negocios:

Acciones de
Región mercado (en%)
Asia-Pacífico 15
Europa 21
Japón 7
EU 48
Otra 9
Total 100

Segmentos de Ventas netas


negocios (en%)
Comunicaciones 29
Sistemas generales 26
Electrónica gubernamental 5
Sistemas de información 4
Semiconductor 32
Otro 4
Total 100
Fuente: The Nf!W York Times, 31 de octubre de
1993, Sec. 3, pág. 6.

(a) Para los datos sobre las ventas de mercado globales de todos los
productos, construya:
(1) una gráfica de barras.
(2) una gráfica de pastel.
(3) una gráfica de puntos.
(b) ¿Qué gráfica prefiere para propósitos de presentación? ¿Por qué?
(c) Para los datos sobre las ventas netas por segmento de negocios, desarrolle la
gráfica apropiada para señalar las "pocas vitales" de las "muchas triviales".
(d) Analice los datos y resuma sus resultados.
(e) t&iil'J!.i·i•P Escriba una carta a su profesor de comercialización
explicando sus resultados.
5.52 La siguiente tabla proporciona un desglose de porcentajes de los lugares en
que se vendieron computadoras personales en 1987 y 1993:

Porcentaje
de ventas
Tipo 1987 1993
Respuesta directa O 14
Vendedores directos 17 4
Orden por correo 4 3
Comerciantes al por mayor 3 8
Supertiendas O 6
Comerciantes 60 44
Vendedores de valor agregado 11 13
Otro 5 8
Totales 100 100
Fuente: The New Yorlc Times, 30 de Mayo de 1993
pág.FS.

Problemas de repaso del capitulo 197


(a) Para cada año construya una gráfica apropiada y analice los datos.
(b) f.t;d'Jl·f·f·» Escriba una carta a su profesor de comercialización analizando
las implicaciones de estas tendencias de cambio.
5.53 La planeación de instalaciones se ha vuelto un aspecto importante de la comer-
cialización del cuidado de la salud. Los hospitales deben considerar planes de
renovación con el fin de atraer y satisfacer a los pacientes. La siguiente tabla
muestra el desglose de porcentajes por región geográfica de las principales
razones que dieron los hospitales para renovaciones en un año reciente. La
encuesta contenía 2770 respuestas.

Respuesta porcentual
(región de EU)
Razones principales para
renovación de hospital Oeste medio Norte Sur Oeste
Anticuado 25.2 26.0 25.8 28.5
Demasiado pequeño 20.6 21.3 23.0 23.5
Nueva tecnología 15.6 12.8 15.2 13.6
Demanda de consumidores 12.6 10.6 11.4 12.4
Nuevo servicio 11.2 10.6 11.4 8.4
Constancia de D.M. 7.7 8.9 9.2 7.5
Otra 5.8 8.0 3.2 4.9
Sin respuesta 1.3 ---1&._ ___M__ 1.2
Totales 100.0 100.0 100.0 100.0
Fuente: Reimpreso de Hospitals, vol. 64, No. 4, con Autorización, 20 de Febrero de
1990. Copyright © 1990, American Hospital Publishing, Inc.

(a) Para cada región construya una gráfica apropiada y analice los datos.
(b) t.f;dW•f·I•>- Escriba una carta a su profesor de comercialización analizando
las implicaciones de su análisis.
5.54 (Proyecto de clase) Haga que todos los estudiantes de la clase formen parte de
una clasificación cruzada basándose en género (maculino, femenino) y situación
actual de empleo (sí, no) para que los resultados se registren en el pizarrón.
(a) Construya una tabla con porcentajes de fila o columna, dependiendo de
cuál considera más informativa.
(b) ¿Qué concluiría de este estudio?
(c) ¿Qué otras variables desearía conocer respecto al empleo con el fin de
ampliar sus resultados?
5.55 Desarrolle (en forma de borrador) una supertabla correspondiente a la promo-
ción en el trabajo basándose en género, raza, grupo de edad, situación de
empleo y nivel de ocupación.
5.56 Desarrolle (en forma de borrador) una supertabla correspondiente al propósito
de graduación basándose en género, raza, grupo de edad, situación de empleo,
especialidad universitaria y promedio de calificaciones.
5.57 Desarrolle (en forma de borrador) una supertabla correspondiente al hábito de
fumar cigarros basándose en género, grupo de edad, nivel de ocupación y nivel
de educación.

Proyecto de minicasos de aprendizaje


colaborativos

Nota: La clase debe dividirse en grupos de tres o cuatro estudiantes. Inicialmente se selec-
ciona un estudiante para que sea coordinador del proyecto, otro estudiante registra el
proyecto y un tercero es el cronometrador del mismo. Para que cada estudiante gane
experiencia en el desarrollo del trabajo de equipo y en las habilidades de liderazgo,

198 Capítulos Presentación de datos categóricos en tablas y diagramas


después de cada proyecto debe haber una rotación de posiciones. Al principio de cada
proyecto, los estudiantes deben trabajar silenciosa e individualmente durante un corto
periodo de tiempo especificado. Una vez que cada estudiante ha tenido la oportunidad de
estudiar los asuntos y reflejar sus posibles respuestas, el grupo se reúne y se sigue con una
discusión de grupo. Si todos los miembros de un grupo están de acuerdo con las solu-
ciones, el coordinador es responsable de presentar la solución del proyecto del equipo. al
instructor con las firmas de los estudiantes indicando tal acuerdo. Por otra parte, si uno
o más miembros del equipo no están de acuerdo con la solución ofrecida por la mayoría
del equipo, una opinión de minoría puede anexarse al proyecto presentado, con firma(s).

CL 5.1 Refiérase a CL 3.1 de la página 101 y CL 4.1 de la página 165. Su grupo, la


Corporación _ , ha sido contratado para ayudar al analista investigador de
la compañía de servicios de asesoría colegial a terminar su informe respecto a
las colegiaturas cobradas a residentes fuera del estado por colegios y universi-
dades en diferentes regiones del país. En particular, usando el Conjunto de
datos especiales 1 del apéndice D de las páginas Dl-D5 respecto a algunas car-
acterísticas de todos los colegios y universidades de los estados de Texas,
Carolina del Norte y Pennsylvania, la Corporación _ _ está preparada para:
(a) Formar una tabla de contingencias (basándose en porcentajes de fila) del
tipo de institución (privada o pública) y ubicación (rural, suburbana o
urbana) para cada uno de los tres estados.
(b) Analizar los datos mediante un análisis comparativo de los tres estados.
(c) Escribir y presentar un resumen ejecutivo, anexando todas las tablas.
(d) Preparar y ofrecer una presentación oral de diez minutos al gerente de
comercialización.
CL 5.2 Refiérase a CL 3.2 de la página 101yaCL4.2 de la página 165. Su grupo, la
Corporación _ _, ha sido contratado por el editor de la sección de comida de
una popular revista familiar para estudiar el costo y características nutri-
cionales de los cereales listos para servirse. Provista del Conjunto de datos
especiales 2 del apéndice D de las páginas D6-D7 que muestra información útil
sobre 84 de estos cereales, la Corporación _ _ está preparada para:
(a) Formar una tabla de contingencias con clasificaciones cruzadas del tipo de
cereal listo para servirse (alta fibra, moderada fibra, baja fibra) con nivel
de calorías por ración (menos de 155, 155 o más).
(b) Analizar a fondo los datos.
(c) Escribir y presentar un resumen ejecutivo, anexando todas las tablas.
(d) Preparar y ofrecer una presentación oral de diez minutos al editor de
comida de la revista.
CL 5.3 Refiérase a CL 3.3 de la página 102 y a CL 4.3 de la página 165. Su grupo, la
Corporación _ _, ha sido contratado por el director de comercialización de
un fabricante de conocidas fragancias de hombres y mujeres para estudiar las
características de fragancias actualmente disponibles. Provista del Conjunto de
datos especiales 3 del apéndice D de las páginas D8-D9 que muestra informa-
ción útil sobre 83 de estas fragancias, la Corporación _ _ está preparada para:
(a) Formar una tabla de contingencias con clasificaciones cruzadas del tipo de
fragancia (perfume, colonia u "otro") con intensidad (muy fuerte, fuerte,
media o suave).
(b) Construir una tabla basándose en porcentajes totales.
(c) Construir una tabla basándose en porcentajes de fila.
(d) Construir una tabla basándose en porcentajes de columna.
(e) Repetir de (a) a (d) para fragancias de mujer solamente.
(f) Repetir de (a) a (d) para fragancias de hombre solamente.
(g) Comparar y contrastar los resultados en (e) y (f).
(h) Escribir y presentar un resumen ejecutivo, anexando todas las tablas.
(i) Preparar y ofrecer una presentación oral de diez minutos al director de
comercialización.

Proyecto de minicasos de aprendizaje colaborativos 1 99


CL 5.4 Refiérase a CL 3.4 de la página 102 y a CL 4.4 de la página 166. Su grupo, la
Corporación _ _ , ha sido contratado por el editor de viajes de un conocido
periódico que está preparando un artículo especial sobre cámaras compactas
de 35 mm. Provista del Conjunto de datos especiales 4 del apéndice D de las
páginas DlO-Dl 1 que muestra información útil sobre 59 cámaras de 35 mm, la
Corporación _ _ está preparada para:
(a) Formar una tabla de contingencias con clasificaciones cruzadas del tipo de
cámara de distancia focal de 35 mm (múltiple largo, múltiple medio,
múltiple corto, automática simple, fija simple) con nivel de precio (menos
de $200, $200 o más).
(b) Construir una tabla basándose en porcentajes totales.
(c) Construir una tabla basándose en porcentajes de fila.
(d) Construir una tabla basándose en porcentajes de columna.

ESTUDIO DE CASO C: preparación de un programa de


televisión en red nacional
En preparación del siguiente afio electoral, "Karen, me emociona trabajar contigo y
Karen Miller, directora de una estación televi- con tu red en este importante proyecto y ansío
siva de red nacional, desea presentar un pro- emprenderlo. Realmente tenemos Ja oportu-
grama especial de hora estelar a finales de nidad de informar y educar al pueblo esta-
octubre, una semana antes que tenga lugar la dounidense sobre los asuntos actuales y poner
elección. Acaba de contratar los servicios de esto en perspectiva respecto a la elección pre-
consultoría del doctor William Gold, profesor sidencial del 92. Tendrás en tu escritorio un
de periodismo y política en una importante informe preliminar que analice la elección
universidad de Ivy League y conocido inter- presidencial del 92 dentro de un mes. Y tam-
nacionalmente, y le ha comisionado analizar bién incluiré un bosquejo de una encuesta
críticamente los resultados de la elección pre- para medir el pulso político actual que desearás
sidencial, vinculando esto con una opinión utilizar para la segunda mitad del programa."
política actual. "Cuando estemos al aire, Este semestre se le ha asigmu.lo para ser
quiero que la primera mitad del programa pre- asistente de investigación del doctor Gold. Él
sente los resultados de los dos puntos de vista, le ha explicado la esencia de la conversación
el republicano y el demócrata. Dejemos que el anterior que tuvo con la directora de progra-
auditorio reflexione sobre las dos perspectivas mas de la red, Karen Miller, y le ha propor-
históricas", dijo la señora Miller, y luego con- cionado una supertabla (véase la página 201)
tinuó-: "La segunda mitad del programa debe describiendo los aspectos clave de la elección
presentar el pulso político actual y analizar las presidencial del 92. Usted debe preparar el
razones potenciales de tendencias o cambios primer borrador y hacer una presentación oral
emergentes posibles en el comportamiento de de 15 minutos. Después de meditar un poco
votación actual. Asegúrese que se les dé una sobre esta cuestión y dándose cuenta que la
consideración apropiada a las cuestiones
supertabla (basada en una muestra de 15 490
económicas clave y de negocios, junto con las
votantes) le permitirá proporcionar un análi-
cuestiones sociales que tienen que ver con el
sis minucioso, usted decide:
cuidado de la salud, el bienestar social y la
delincuencia". El doctor Gold respondió:

200 Capitulo s Presentación de datos categóricos en tablas y diagramas


Supertabla de la elección presidencial de 1992
Clinton Bush Perot
(%) (%) (%)
Votos totales % 43 38 19
Genero:
46 Hombres 41 38 21
54 Mujeres 46 37 17
Raza:
87 Blancos 39 41 20
8 Negros 82 11 7
3 Hispánicos 62 25 14
1 Asiáticos 29 SS 16
Estado civil:
6S Casado 40 40 20
3S No casado 49 33 18
Grupo de edad:
22 18-29 años 44 34 22
38 30-44 años 42 38 20
24 4S-S9 años 41 40 19
16 60 años so 38 12
Educación:
6 Sin bachillerato 55 28 17
2S Bachillerato 43 36 20
29 Licenciatura parcial 42 37 21
24 Licencia tura 40 41 19
16 Educación posgrado 49 36 lS
Religión:
49 Protestante :n 46 21
27 Católica 44 36 20
4 Judía 78 12 10
17 Cristiana blanca de resurrección 23 61 lS
Ingresos familiares:
14 Menos de $1 SOOO 59 23 18
24 $15000-$29999 45 35 20
30 $30000-$49999 41 38 21
20 $S0000-$74999 40 42 18
13 $75000 y más 36 48 16
Situación financiera familiar:
25 Mejor ahora 24 62 14
41 Igual ahora 41 41 18
34 Peor ahora 61 14 25
Residencia:
24 Del Este 47 3S 18
27 Del Medio Oeste 42 37 21
30 Del Sur 42 43 16
20 Del Oeste 44 34 22
Situación de empleo:
68 Empleado 42 38 20
5 Estudiante de tiempo completo 50 35 15
6 Desempleado 56 24 20
8 Ama de casa 36 4S 19
13 Retirado 51 36 13
Afiliación partidaria y punto de vista:
13 Demócratas Liberales 8S 4 11
20 Demócratas Moderados 76 10 14
6 Demócratas Conservadores 60 24 16
5 Independientes Liberales S4 16 30
14 Independientes Moderados 42 28 30
7 Independientes Conservadores 18 54 28
2 Republicanos Liberales 17 54 29
15 Republicanos Moderados 15 63 21
18 Republicanos Conservadores s 82 14
Fuente: Los datos anteriores, extraídos de The New York Times, 5 de noviembre de 1992, pág. B9, fueron
recolectados por Voter Research a11d S11rveys, basándose en un cuestionario respondido por 15 490
votantes en 300 casillas electorales alrededor de la nación el día de la elección en 1992.

Estudio de caso C: preparación de un programa de televisión en red nacional 20 1


(a) Desarrollar un bosquejo de los com- categóricas enumeradas en las filas
ponentes de la supertabla que nece- de la supertabla.
sitan subrayarse: (c) Incluir tablas de contingencias apro-
(1) presentar el punto de vista piadas extraídas de la supertabla.
demócrata. (d) Preparar el borrador escrito y la ·
(2) presentar el punto de vista presentación oral.
republicano.
(b) Incluir diagramasapropiados.
Correspondientes a estas variables

Nota final
l. Una cuestión interesante es cómo representar una categoría observaciones? Puede argumentarse que una gráfica de pun-
para la que no hay observaciones registradas. Por ejemplo, tos sería superior a una gráfica de barras en tales circunstan-
la tabla 5.1 de la página 171 presenta cinco clasificaciones cias porque poner un gran punto en el origen refleja de
institucionales posibles. Al construir una de estas tablas de manera más precisa una categoría que no contiene observa-
resumen y registrar las observaciones en sus clasificaciones ciones, en vez de dibujar una línea vertical en el origen
institucionales apropiadas, ¿qué sucede si una de estas cate- para representar el ancho de una barra que no tiene longi-
gorías, digamos las "escuelas especiales" no contenía tud.

Referencias
l. Cleveland, W. S., "Graphs in Scientific Publications", The S. Microsoft EXCEL for Windows: Step by Step (Redmond, WA:
American Statistician, vol. 38 (noviembre de 1984), pp. 261· Microsoft Press, 1993).
269. 6. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
2. Cleveland, W. S., "Graphical Methods for Data Additional lnstructions for SPSS/PC+ (Chicago, IL: SPSS Jnc.,
Presentation: Full Scale Breaks, Dot Charts, and 1986).
Multibased Logging", The American Statistician, vol. 38 7. SAS User's Guide Version 6 (Raleigh, NC: SAS Institute, 1988).
(noviembre de 1984), pp. 270-280. 8. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
3. Cleveland, W. S. y R. McGill, "Graphical Perception: Software, !ne., 1992).
Theory, Experimentation, and Application to the 9. Tufte, E. R., The Visual Display of Quantitative lnformation
Development of Graphical Methods", Joumal ofthe (Cheshire, CT: Graphics Press, 1983).
Statistical Association, vol. 79 (septiembre de 1984), pp.
10. Tufte, E. R., Envisioning lnformation (Cheshire, CT:
531-554. Graphics Press, 1990).
4. Croxton, F., D. Cowden y S. Klein, Applied General Statistics,
3a. ed. (Englewood Cliffs, NJ: Prentice-Hall, 1967).

202 Capitulo S Presentación de datos categóricos en tablas y diagramas


capítulo

••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVO DEL Desarrollar una comprensión de los
conceptos básicos de probabllldad que
CAPÍTULO son la base necesaria para el estudio
de distribuciones de probabilidad e
inferencia estadística.

203
,.fi i Introducción
En este capítulo estudiaremos varias reglas de probabilidad básica que pueden
usarse para evaluar la posible ocurrencia de diferentes fenómenos. Comenzaremos
por analizar tres diferentes planteamientos para determinar probabilidades que
pueden usarse en diferentes situaciones. Después veremos cómo calcular una varie-
dad de diferentes tipos de probabilidades. Completaremos el capítulo estudiando
reglas para registrar diferentes tipos de contingendas, algunas de las cuales
volveremos a ver cuando se analice la distribución binomial en el capítulo 7.
Al terminar este capítulo, usted debe ser capaz de:
l. Comprender los diferentes planteamientos de la probabilidad.
2. Usar una tabla de contingencias o un diagrama de Venn para descubrir
probabilidades.
3. Comprender las reglas para encontrar probabilidades simples, conjuntas
y condicionales y usar la regla de la adición.
4. Distinguir entre eventos mutuamente excluyentes, colectivamente
exhaustivos e independientes.
5. Usar el teorema de Bayes para revisar probabilidades a la luz de nueva
información.
6. Usar las diversas reglas para contar el número total de resultados.

k·ll Probabilidad objetiva y subjetiva


¿Qué queremos decir con la palabra probabilidad? La probabilidad es la posibili-
dad u oportunidad de que suceda un evento particular. Se podría referir a
l. La posibilidad de sacar una carta con figura negra de una baraja.
2. La posibilidad de que un individuo seleccionado aleatoriamente de la
Encuesta sobre la satisfacción de los empleados esté satisfecho con su trabajo.
3. La posibilidad que tenga éxito un nuevo producto en el mercado.
En cada uno de estos ejemplos, la probabilidad involucrada es una proporción
o fracción cuyo valor varía entre O y 1 exclusivamente. Observamos que un evento
que no tiene posibilidad de ocurrir (es decir, el evento nulo) tiene una probabili-
dad de cero, mientras que un evento que seguramente ocurrirá (es decir, el evento
cierto) tiene una probabilidad de uno.
Cada uno de los ejemplos anteriores se refiere a uno de los tres planteamien-
tos del tema de la probabilidad. El primero a menudo se denomina como el
planteamiento de la probabilidad clásica a priori. Aquí la probabilidad de
éxito se basa en el conocimiento anterior al proceso involucrado. En el caso más
simple, cuando cada resultado es igualmente posible, esta posibilidad de ocurren-
cia del evento puede definirse de la siguiente manera:

Probabilidad de ocurrencia = X (6.1)


T

donde
X;,,, número de resultados en los que ocurre el evento que buscamos
T = número total de resultados posibles ·

104 Capítulo C5 Probabilidad básica


Figura G. I
Baraja estándar de 52 cartas de juego.

En la figura 6.1 se presenta una baraja estándar. Si queremos encontrar la proba-


bilidad de sacar una carta negra (donde definimos negro como "éxito") la respuesta
correcta sería 26/52 o 1/2, puesto que hay 26 cartas negras en una baraja estándar.
¿Qué nos dice esta probabilidad? Si reemplazamos cada carta después de
extraerla, ¿significa esto que una de las dos siguientes cartas seleccionadas será
negra? No, por el contrario, no podemos asegurar lo que sucederá en las siguientes
selecciones. Sin embargo, podemos decir que a largo plazo, si este proceso de selec-
ción se repite continuamente, la proporción de cartas negras seleccionadas se acer-
cará a .SO.
En este primer ejemplo, el número de éxitos y el número de resultados se cono-
cen a partir de la composición de la baraja. Sin embargo, en el segundo
planteamiento de probabilidad, llamado el enfoque de probabilidad clásica
empírica, aunque la probabilidad se sigue definiendo como la proporción entre
el número de resultados favorables y el número total de resultados, estos resulta-
dos se basan en datos observados, no en el conocimiento anterior a un proceso.
En nuestro segundo ejemplo, de la Encuesta sobre la satisfacción de los emplea-
dos, la probabilidad de que un empleado esté satisfecho con su trabajo puede encon-
trarse seleccionando una muestra aleatoria de empleados de la población completa.
En el capítulo 2 se seleccionó tal muestra de 400 empleados (véase la tabla 2.3 de las
páginas 33-40). De estos 400 empleados, 356 estaban satisfechos con su trabajo. Por
consiguiente, la probabilidad de que un empleado seleccionado aleatoriamente esté
satisfecho con su trabajo (es decir, la probabilidad de ocurrencia) es 356/400 o .89.
El tercer planteamiento de probabilidad se denomina el enfoque de
probabilidad subjetiva. Mientras que ~n los dos anteriores enfoques la
probabilidad de un evento favorable se calculaba objetivamente, ya fuera de un
conocimiento previo o de datos reales, la probabilidad subjetiva se refiere a la
posibilidad de ocurrencia asignada a un evento por un individuo particular.
Esta posibilidad puede ser bastante diferente de la probabilidad subjetiva asig-

Probabilidad objetiva y subjetiva 205


nada por otro individuo. Por ejemplo, el inventor de un nuevo juguete puede asig-
nar una probabilidad muy diferente a la oportunidad de éxito del juguete que el
presidente de la compañía que está considerando comercializar el juguete. La asig-
nación de probabilidades subjetivas a diversos eventos generalmente se basa en
una combinación de la experiencia del individuo, la opinión personal y el análisis
de una situación particular. La probabilidad subjetiva es especialmente útil para la
toma de decisiones en aquellas situaciones en que la probabilidad de diversos
eventos no puede determinarse empíricamente.

Problemas de la sección 6.2


6.1 Para cada uno de los siguientes eventos, indique si el tipo de probabilidad
involucrada es un ejemplo de una probabilidad clásica a príorí, una
probabilidad clásica empírica o una probabilidad subjetiva.
(a) Que el siguiente lanzamiento de una moneda no cargada caiga en cara.
(b) Que los Mets de Nueva York ganen la Serie Mundial del año entrante.
(c) Que la suma de las caras de dos dados sea siete.
(d) Que el tren que lleva un abonado al trabajo llegue más de diez minutos
tarde.
(e) Que un republicano gane la siguiente elección presidencial en Estados
Unidos.
6.2 Dé tres ejemplos de una probabilidad clásica a priori.
6.3 Dé tres ejemplos de una probabilidad clásica empírica.
6.4 Dé tres ejemplos de una probabilidad subjetiva.

k-11 Conceptos de probabilidad básica

6. 3. 1 Espacios de muestras y eventos


Los elementos básicos de la teoría de probabilidades son los resultados del proceso
o fenómenos bajo estudio. Cada tipo posible de ocurrencia se denomina un
evento .
. Un evento simple puede describirse mediante una característica sen-
i\ muestral.
cilla. La compilación de todos los eventos posibles se llama el espacio
~

Podemos lograr una mejor comprensión de estos términos refiriéndonos a dos


ejemplos. Primero, examinemos la baraja estándar de 52 cartas de juego (véase la
figura 6.1 de la página 205) en la que hay cuatro palos (espadas, corazones, tréboles
y diamantes), cada uno de los cuales tiene 13 cartas diferentes (as, rey, reina, sota,
10, 9, 8, 7, 6, 5, 4, 3, 2).
Si seleccionamos aleatoriamente una carta de la baraja
l. ¿Cuál es la probabilidad de que la carta sea negra?
2. ¿Cuál es la probabilidad de que la carta sea un as?
3. ¿Cuál es la probabilidad de que la carta sea un as negro?
4. ¿Cuál es la probabilidad de que la carta sea negra o un as?
S. Si supiéramos que la carta seleccionada es negra, ¿cuál es la probabilidad
de que también sea un as?

Como segundo ejemplo, refirámonos a los datos recolectados en la Encuesta


sobre la satisfacción de los empleados analizada en el capítulo 2. Suponga que de
la muestra total de 400 empleados, escogemos una sola persona aleatoriamente.

206 Capítulo 6 Probabilidad básica


l. ¿Cuál es la probabilidad que el empleado esté (muy o moderadamente)
satisfecho con su trabajo?
2. ¿Cuál es la probabilidad que el empleado haya "progresado" (rápido o
continuamente) en la organización?
3. ¿Cuál es la probabilidad que el empleado esté satisfecho y haya
"progresado" en la organización?
4. ¿Cuál es la probabilidad de que el empleado esté satisfecho o haya
"progresado" en la organización?
5. Suponga que sabemos que el empleado ha "progresado" en la organi-
zación. ¿Cuál sería la probabilidad que el empleado esté satisfecho con
su trabajo?

En el caso de la baraja, el espacio muestra} consiste en toda la baraja de 52


cartas, completado con varios eventos, dependiendo de cómo se clasifiquen. Por
ejemplo, si los eventos se clasifican por palo, hay cuatro eventos; espada,
corazón, trébol y diamante. Si los eventos se clasifican por valor de la carta, hay
trece eventos: as, rey, ... y 2. Por otra parte, de la Encuesta sobre la satisfacción
de los empleados, el espacio muestral se basa en las respuestas obtenidas de los
400 empleados. Los eventos simples para las dos preguntas que aquí interesan
son los siguientes:
l. Para la pregunta 9 referente a la satisfacción en el trabajo, existen cuatro
eventos simples: muy satisfecho, moderadamente satisfecho, un poco
insatisfecho y muy insatisfecho. Para nuestros propósitos en este
capítulo, desglosaremos éstos en dos eventos simples: (1) "satisfecho",
que consiste en muy satisfecho y moderadamente satisfecho, y (2)
insatisfecho, que consiste en un poco insatisfecho y muy insatisfecho.
2. Para la pregunta 20 referente al progreso, también existen cuatro eventos
simples: progreso rápido, progreso continuo, permanencia en el mismo nivel
y pérdida de cierto terreno. Para nuestros propósitos en este capítulo, los
reduciremos a dos eventos simples: (1) "progreso", que consiste en progreso
rápido y progreso continuo, y (2) "no progreso", que consiste en
permanencia en el mismo nivel y pérdida de cierto terreno.

La manera en que se subdivide el espacio muestra! depende de los tipos de


probabilidades que se han de determinar. Tomando esto en cuenta, resulta de interés
definir tanto el complemento de un evento como un evento conjunto de la siguiente
manera:

El complemento del evento A incluye todos los eventos que no son parte
del evento A. Está dado por el símbolo A'.

El complemento del evento negro consistiría en todas las cartas que no


fueron negras (es decir, todas las cartas rojas). El complemento de espada con-
tendría todas las cartas que no fueran espadas (es decir, diamantes, corazones
y tréboles). El complemento de satisfecho con el trabajo es no satisfecho con
el trabajo.

Un evento conjunto es un evento que tiene dos o más características.


El evento as negro es un evento conjunto, puesto que la carta debe ser negra y
as para calificar como as negro. De manera similar, el evento "el empleado está
satisfecho y ha progresado en la organización" es un evento conjunto, puesto que
el empleado debe estar satisfecho con el trabajo y también debe haber progresado
en la organización.

Conceptos de probabilidad básica 107


6.3.2 Tablas de contingencias y diagramas deVenn
Existen varias formas en las que puede verse un espacio muestral particular. El
primer método implica asignar los eventos apropiados a una tabla de clasifica-
ciones cruzadas. Tal tabla también se denomina tabl?- d,e_ contingencias
(véase la sección 5.5).
Si las dos variables de interés para el ejemplo de las cartas fueran "presencia de
as" y "color de carta", la tabla de contingencias tendría el aspecto que muestra la
tabla 6.1.

Tabla 6. 1 Tabla de contingencias para


variables de color de carta.
Rojo Negro Totales
As 2 2 4
No As 24 24 48
Totales 26 26 52

Los valores de cada celda de la tabla se obtuvieron subdiviendo el espacio


muestra! de 52 cartas de acuerdo con el número de ases y el color de la carta. Puede
observarse que si se conocen los totales de fila y columna (margen), sólo se nece-
sita una entrada de celda en esta tabla de 2 x 2 para obtener las entradas de las tres
celdas restantes.
La tabla de contingencias para los 400 empleados muestreados en Industrias
Kalosha se desarrolla utilizando un paquete de computadora para hacer una clasi-
ficación cruzada de las dos variables de interés, la satisfacción en el trabajo y el pro-
greso en la organización. Los resultados con las categorías desglosadas en
satisfecho y no satisfecho y progreso y no progreso, se representa en la tabla 6.2.

Tabla 6.l Tabla de contingencias para


satisfacción con el trabajo y
progreso en la organización.
Avance
Satisfacción con el trabajo Sí No Total
Sí 1.2.'.! 162 356
No -11 30 --"
Totales 208 192 400

Corno hemos visto en la sección 5.5, una tabla de contingencias proporciona


una clara presentación del número de resultados posibles de las variables rele-
vantes.
La segunda forma de presentar el espacio muestra! es usando un diagrama
de Venn. Este diagrama representa gráficamente los diversos eventos como
"uniones"· e '(intersecciones" de círculos.
La figura 6.2 representa un diagrama de Venn típico para una situación de dos
variables, en donde cada variable tiene sólo dos eventos (A y A', By B'). El círculo
de la izquierda (el más oscuro) representa todos los eventos que son parte de A. El
círculo de la derecha (el más claro) representa todos los eventos que son parte de
B. El área contenida dentro del círculo A y del círculo B (área central) es la inter-
sección de A y B (y se escribe A n /3), puesto que esta área es parte de A y también
parte de B. El área total de los dos círculos es la unión de A y B (y se escribe A u B)

108 Capítulo 6 Probabilidad básica


A

Figura 6.l
Diagrama de Venn para los eventos A y B.

y contiene todos los resultados que son parte del evento A, parte del evento B o
parte de ambos A y B. El área del diagrama fuera de A u B contiene aquellos resul-
tados que no son parte de A ni son parte de B.
Para desarrollar un diagrama 'de Venn, A y B deben estar definidos. No importa
qué evento se define como A o B, siempre y cuando seamos consistentes en eva-
luar los diversos eventos.
Para el ejemplo del juego de cartas, los eventos pueden definirse de la siguiente
manera:

A= as B =negra
A'= no as B' =roja
Al trazar el diagrama de Venn (véase la figura 6.3), el valor de la intersección
de A y B debe determinarse de manera que el espacio muestra! pueda dividirse en
sus partes. A n B consiste en todos los ases negros de la baraja (es decir, los dos
resultados as de espadas y as de tréboles).
Puesto que hay dos ases negros, lo restante del evento A (as) consiste en los ases
rojos (hay dos). Lo restante del evento B (cartas negras) consiste en todas las cartas
negras que no son ases (hay 24). Las cartas restantes son aquéllas que no son negras
ni ases (también hay 24).

A'n 8'=24 -----) ¡{J )


.1

Figura 6.l
Diagrama de Venn para el ejemplo de la baraja.

Problemas de la sección 6.3


• 6.5 En los últimos años, las compañías de tarjetas de crédito han hecho un
esfuerzo agresivo para atraer nuevas cuentas de estudiantes universitarios.
Suponga que una muestra de 200 estudiantes de su colegio apuntó la siguiente
información en términos de si el estudiante poseía una tarjeta de crédito y/o
una tarjeta de crédito de viajes y entretenimiento (véase la parte superior de la
página 210):

Conceptos de probabilidad básica 209


Tarjeta de
crédito de viajes y
entretenimiento
Tarjeta de crédito bancaria Sí No
Sí 60 60
No 15 65

-~·-S·,
(a) Dé un ejemplo de un evento simple.
(b) Dé un ejemplo de un evento conjunto.
(c) ¿Cuál es el complemento de tener una tarjeta de crédito bancaria?
(d) ¿Por qué "tener una tarjeta de crédito bancaria y tener una tarjeta de
crédito de viajes y entretenimiento" es un evento conjunto?
(e) Construya un diagrama de Venn.
6.6 Se han llevado a cabo numerosos estudios intensivos de la planeación de los
consumidores para la compra de bienes duraderos como televisores,
refrigeradores, lavadoras, estufas y automóviles. En uno de estos estudios, se le
preguntó a 1,000 individuos de una muestra aleatoriamente seleccionada si
estaban planeando comprar una nueva televisión en los siguientes 12 meses.
Un año después se entrevistó a las mismas personas para ver si realmente com-
praron una nueva televisión. La respuesta a ambas entrevistas se tabula de
manera cruzada a continuación:

Compradores No compradores Totales


Planeaban comprar 200 50 250
No planeaban comprar 100 650 750
Totales 300 700 1,000

· (a) Dé un ejemplo de un evento simple.


(b) Dé un ejemplo de un evento conjunto.
(c) ¿Cuál es el complemento de "planear comprar"?
(d) Construya un diagrama de Venn.
e 6. 7 En una gran área metropolitana se seleccionó una muestra de 500 encuestados
para determinar información diversa respecto al comportamiento de los
consumidores. Entre las preguntas formuladas estaba "¿disfruta comprar
ropa?" De 240 hombres, 136 respondieron que sí. De las 260 mujeres, 244
respondieron que sí.
(a) Construya una tabla de 2 x 2 o un diagrama de Venn para evaluar las
probabilidades.
(b) Dé un ejemplo de un evento simple.
(c) Dé un ejemplo de un evento conjunto.
(c) ¿Cuál es el complemento de "disfruta comprar ropa"?
6.8 Una compal'!.ia ha puesto a disposición de sus empleados (sin costo) amplias
instalaciones de un club deportivo que pueden usarse antes del trabajo,
durante la hora del almuerzo, después del trabajo y durante los fines de
semana. Los registros del último año indican que de 250 empleados, 110
usaron las instalaciones en algún momento. De los 170 hombres empleados
por la compañía, 65 usaron las instalaciones.
(a) Construya una tabla de 2 x 2 o un diagrama de Venn para evaluar las
probabilidades de usar las instalaciones.
(b) Dé un ejemplo de un evento simple.
(c) Dé un ejemplo de un evento conjunto.
(c) ¿Cuál es el complémento de "usar las instalaciones del club deportivo"?
6.9 Cada año se compilan porcentajes respecto al funcionamiento de automóviles
nuevos durante los primeros 90 días de uso. Suponga que los automóviles se han
clasificado de acuerdo con dos atributos, si el carro requiere reparaciones
relacionadas con la garantía (Sí o No) y el país en el que está asentada la

210 Capítulo 6 Probabilidad básica


compañía que fabrica el automóvil (Estados Unidos, no Estados Unidos).
Basándose en los datos recabados, la probabilidad de que el carro nuevo nece-
site una reparación amparada por la garantía es .04, la probabilidad que el
automóvil sea fabricado por una compañía asentada en Estados Unidos es .60
y la probabilidad que el automóvil nuevo necesite una reparación amparada
por la garantía y haya sido fabricado por una compañía asentada en Estados
Unidos es .025.
(a) Construya una tabla de 2 x 2 o un diagrama de Venn para evaluar las
probabilidades de una reparación amparada por la garantía.
(b) Dé un ejemplo de un evento simple.
(c) Dé un ejemplo de un evento conjunto.
(c) ¿Cuál es el complemento de "fabricado por una compañía asentada en
Estados Unidos"?

k·i 1 -~gJ~ªºJ!LcJ~sL(marginal} _S.~!!'J?le


Hasta aquí nos hemos concentrado en el significado de la probabilidad y en definir
e ilustrar varios espacios de muestra. Ahora comenzaremos a responder algunas de
las preguntas formuladas en las anteriores secciones desarrollando reglas para
obtener distintos tipos de probabilidad.
La regla más evidente para las probabilidades es que deben variar en valor de
Oa l. Un evento imposible tiene una probabilidad O de ocurrir, y un evento cierto
tiene una probabilidad 1 de ocurrir. La probabilidad simple se refiere a la proba-
bilidad de ocurrencia de un evento simple, P(A), como
• La probabilidad de seleccionar una carta negra.
• La probabilidad de seleccionar un as.
• La probabilidad que el empleado esté satisfecho con su trabajo.
• La probabilidad que el empleado haya progresado en la organización.
Ya hemos notado que la probabilidad de seleccionar una carta negra es 26/52
o 1/2, puesto que hay 26 cartas negras en la baraja de 52 cartas.
¿Cómo encontraríamos la probabilidad de seleccionar un as de la baraja?
Hallaríamos el número de ases de la baraja sumando los ases negros y los ases rojos
de la baraja:

número de ases en la baraja


P( As) =
número de cartas en la baraja
número de ases rojos+ número de ases negros
= total de número de cartas
2+2 4
= =
52 52

La probabilidad simple-también se denomina probabilidad marginal,


puesto que el número total de éxitos (ases en este caso) puede obtenerse del mar-
gen apropiado de la tabla de contingencias (véase la tabla 6.1 de la página 208).
La probabilidad de un as, P(A), también podría obtenerse a partir del diagrama
de Venn (figura 6.3 de la página 209) observando el número de resultados con-
tenidos en el círculo A. Hay cuatro: dos contenidos en A n B y dos fuera de A
n B . Esto, claro está, nos da el mismo resultado que el análisis de la tabla de
contingencias.

Probabilidad (marginal) simple 21 1


Refirámonos al segundo ejemplo. Queremos encontrar la probabilidad que un
empleado seleccionado aleatoriamente esté satisfecho con su trabajo. Esta proba-
bilidad puede determinarse refiriéndonos a la tabla de contingencias (tabla 6.2 de
la página 208):

número de empleados satisfechos con su trabajo


P (Satisfecho con su
trabajo) muestra total del número de empleados

= 356 = 89
400 .

Problemas de la sección 6.4


• 6.io Refiriéndonos al problema 6.5 de la página 209, si un estudiante se
selecciona aleatoriamente, ¿cuál es la probabilidad que
(a) El estudiante tenga una tarjeta de crédito bancaria?
(b) El estudiante no tenga una tarjeta de crédito bancaria? ,
(c) El estudiante tenga una tarjeta de crédito de viajes y entretenimiento~~.
(d) El estudiante no tenga una tarjeta de crédito de viajes y ·
· entretenimiento?
6.11 Refiriéndonos al problema 6.6 de la página 210, si un individuo se selecciona
aleatoriamente, ¿cuál es la probabilidad de que en el último año
(a) Haya comprado una nueva televisión?
(b) Haya planeado comprar una nueva televisión?
(c) No haya planeado comprar una nueva televisión?
(d) No haya comprado una nueva televisión?
• 6.12 Refiriéndonos al problema 6.7 de la página 210, ¿cuál es la probabilidad
que un encuestado elegido aleatoriamente
(a) Sea hombre?
(b) Disfrute comprar ropa?
(c) Sea mujer?
(d) No disfrute comprar ropa?
6.13 Refiriéndonos al problema 6.8 de la página 210, ¿cuál es la probabilidad
que un encuestado elegido aleatoriamente
(a) Sea hombre?
(b) Haya utilizado fas instalaciones del club?
(e) Sea mujer?
(d) No haya utilizado las instalaciones del club?
6.14 Refiriéndonos al problema 6.9 de la página 210, ¿cuál es la probabilidad
que un nuevo automóvil elegido aleatoriamente
(a) Necesite una reparación amparada por la garantía?
(b) No haya sido fabrícado por una compañía con base en Estados
Unidos?
(c) No necesite una reparación amparada por la garantía?
(d) Haya sido fabricado por una compañía con base en
Estados Unidos?

k-11 Probabilidad conjunta


M.ien~ras la probabilidad marginªl s_e.i:~fiere ·a Ja ocurrencia de eventos. $~I_llpl~$, la
a fenénµ~119s_ que contienen dos o mÍls ~_yen­
p~ºbabilidad c.onj:ain1:i!_S~_r.efi~re
tos, como la probabilidad de un as negro, una reina roja o un empleado que esté
satisfecho con el trabajo y haya progresado dentro de la organización.

212 Capítulo 6 Probabilidad básica


Recuerde que un evento conjunto A y B significa que ambos eventos A y JL
debe!! oc~rrfr.~l_iiiülf~neaffieµte-. R.eífrférictoriüs Ta fabfa 6: f a
la página 208, esas de
rartas que son negras y ases consisten sólo en los resultados de la celda simple "as
negro". Como hay dos ases negros, la probabilidad de escoger una carta que sea
as negro es

número de ases negros


P (As negro)
número de cartas en la baraja
2
52

Este resultado también puede obtenerse examinando el diagrama de Venn de


la figura 6.3 de la página 209. El evento conjunto A y B (as negro) consiste en la
intersección (A n B) de los eventos A (as) y B (negro), que contiene dos resultados.
En consecuencia, la probabilidad de un as negro es igual a 2/52.
La probabilidad de elegir un empleado que esté satisfecho con su trabajo y
haya progresado dentro de la organización se obtendría de la tabla 6.2 de la página .
208 de la siguiente manera:

. . 194
P(satisfecho y ha progresado) = - = .485
. ' 400

puesto que hay 194 empleados que están satisfechos con su trabajo y han pro-
gresado dentro de la organización.
Ahora que hemos analizado el concepto de probabilidad conjunta, la
probabilidad marginal de un evento particular puede verse de una manera alter-
nativa. Ya hemos mostrado que la probabilidad marginal de un evento consiste en
un conjunto de probabilidades conjuntas. Por ejemplo, si B consiste en dos even-
tos, B 1 y B2 , entonces podemos observar
T
que P(A), la probabilidad del evento A,
consiste en la probabilidad conjunta del evento A que ocurre con el evento B , y la
probabilidad conjunta del evento A que ocurre con el evento B.2 Por lo tanfo, en
general,

' '~ , ,: ,; ' . ' .¡' 1 / I 1 ¡' t ~· ! '' f~ \' ! <

donde B1, B2 , ••• , Bk son eventos mutuamente excluyentes y colectivamente exhaus-


tivos. ,

Dos even~Q$.~on 1Dt1t11a1De'1te excluyentes ~i a.i;nbo~ ~ventas f10.


puetj._en ocugjr_ª-t.flli$WO tl~mp_o.
Dos event9j__~Qp._~9J~!!Y.ª-!!!~.!!t~.~~~!!~~_i_y9§..~.i..Y.!l:.!L<!.~.!9..t~~.1.!~.
d~b.e__Q~urrir.

Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colec-
tivamente exhaustivos. Nadie es ambos (son mutuamente excluyentes) y todos son
uno u otro (son colectivamente exhaustivos).

Probabilidad conjunta 21 3
Por consiguiente, regresando a nuestro primer ejemplo, la probabilidad de un
as puede expresarse de la siguiente manera:

P (As)== P (As rojo)+ P (As negro)

2 2
== + -
52 52
4
=
52

Éste es, claro está, el mismo resultado que obtendríamos si sumáramos el


número de resultados que constituyeron el evento simple "as".

Problemas de la sección 6.5


e 6.15 Refiriéndonos al problema 6.5 de la página 209, ¿cuál es la probabilidad que si
un estudiante seleccionado aleatoriamente
(a) tenga una tarjeta de crédito bancaria y una tarjeta de crédito de viajes y
entretenimiento?
(b) no tenga una tarjeta de crédito bancaria y tenga una tarjeta de crédito de
viajes y entretenimiento?
(c) no tenga una tarjeta de crédito bancaria ni una tarjeta de crédito de viajes
y entretenimiento?
6.16 Refiriéndonos al problema 6.6 de la página 210, ¿cuál es la probabilidad que
en el último afio el individuo
(a) haya planeado comprar y realmente haya comprado una nueva televisión?
(b) haya planeado comprar y realmente no haya comprado una nueva
televisión?
(c) no haya planeado comprar y realmente no haya comprado una nueva
televisión?
e 6.17 Refiriéndonos al problema 6.7 de la página 210, ¿cuál es la probabilidad que
un encuestado elegido aleatoriamente
(a) sea una mujer y disfrute comprar ropa?
(b) sea un hombre y no disfrute comprar ropa?
(c) sea un hombre y disfrute comprar ropa?
6.18 Refiriéndonos al problema 6.8 de la página 210, ¿cuál es la probabilidad que
un encuestado elegido aleatoriamente
(a) sea mujer y haya utilizado las instalaciones del club?
(b) sea hómbre y no haya utilizado las instalaciones del club?
(c) sea mujer y no haya utilizado las instalaciones del club?
6.19 Refiriéndonos al problema 6.9 de la página 210, ¿cuál es la probabilidad de
que un nuevo automóvil elegido aleatoriamente
(a) necesite una reparación amparada por la garantía y haya sido fabricado
por una compaftía con base en Estados Unidos?
(b) necesite una reparación amparada por la garantía y no haya sido
fabricado por una compañ.ía con base en Estados Unidos?
(c) no necesite una reparación amparada por la garantía y no haya sido
fabricado por una compafiía con base en Estados Unidos?

k·*·i Regla de la adición


Habiendo desarrollado un medio de encontrar la probabilidad del evento A y la proba-
bilidad del evento "Ay B", desearíamos examinar una regla (la regla de la adición)
que se usa para encontrar la probabilidad del evento "A 2 B". Esta regla para obtener la

214 Capítulo a Probabilidad básica


Q!Qbal;Jilic!é!.~tci~...lé! .U!l.ic?~.cl~ A_yP._<::QI)~J.~i_~~élJ-ª_C?.9:1I:i:E.!.!!.C..i~_g~l_~y~D,tg_f.!_Q_9-_tl evento B__ _
.o OE!_ª:rp.gqs,/LY B.
El evento "negro o as" incluiría todas las cartas que fueran negras, que fueran
ases o que fueran ases negros. El evento "el empleado está satisfecho con el trabajo
o ha progresado en la organización" incluiría a todos los empleados que estuvieran
satisfechos con su trabajo, que hubieran progresado en la organización o que
tuvieran estas dos características.
Suponga que nos referimos a este último ejemplo. Cada celda de la tabla de
contingencias (tabla 6.2 de la página 208) puede examinarse para determinar si es
parte del evento en cuestión. Si deseamos estudiar el evento "el empleado está
satisfecho con el trabajo o ha progresado en la organización", de la tabla 6.2, la
celda "está satisfecho con el trabajo y no ha progresado en la organización" es
parte del evento, puesto que incluye a los empleados que están satisfechos con el
trabajo. La celda "no está satisfecho con el trabajo y ha progresado en la organiza-
ción" se incluye porque contiene a empleados que han progresado en la organi-
zación. Finalmente, la celda "está satisfecho con el trabajo y ha progresado en la
organización" tiene las dos características de interés.
Por lo tanto, la probabilidad puede obtenerse de la siguiente manera:

p (satisfecho o con progreso) P(satisfecho y no ha


progresado)
+ P(no está satisfecho y
ha progresado)
+ P(está satisfecho y ha
progresado)

= -162 14 194 370


- + - - + - - = --
400 400 400 400
= .925

siguiente regla
,...... .......
~-
de la
_...~ _ adición
................
_....,.,,,,,,.~ ,~ __
El cálculo de P (A u B), la probabilidad del evento A o B, puede expresarse en la
... ...general:
,,_
-

' i ·, ')¡

P(A:\..JP):::; .'f{(l o B)
:. < ·\;/ :, e ,: : . .
=, P(A) + P(B)
-.. ~ ·- . ", , .· ,· '..y : ~}·. ,.
>,.- P(A

Aplicando esta regla de la adición al ejemplo anterior, obtenemos el siguiente


resultado: ~~---·~-·-·----~

P (satisfecho o con progreso) = P (está satisfecho con su trabajo)


+ P (ha progresado en la
organización)
- P (está satisfecho~ ha
progresa~o)

356 208 194


= --+-----
'400 400 400
= 370 = .925
400

\
\
\
Regla de la adición 215
La regla de la adición consiste en tomar la probabilidad de A y sumarla a la
probabilidad ,de B; la intersei:t:Jfui de A_X B debe restarse entonces de este total

~rr~t~!j:~É~:~t~~~<lj!:iJi~i~~i~-a~~~~~;e1ie~f~~~~~*1ts<ia~i-~~i'ifl~~
tmgéñcias. Si los resultados del evento "está satisfecho con el trabajo" se suman
a los del evento "ha progresado en la organización", entonces el evento con-
junto "está satisfecho con el trabajo y ha progresado en la organización" (la
intersección) ha sido incluido en cada uno de estos eventos simples. Por lo
tanto, puesto que ésta se ha "contado dos veces", debe restarse para propor-
cionar el resultado correcto. De hecho, en este ejemplo, si el evento conjunto no
se resta, nuestro resultado sería

356 208 564


--+--=--
400 400 400

que es imposible, pues ninguna probabilidad puede exceder de 1.0.

6.6. 1 Eventos mutuamente excluyentes


En ciertas circunstancias, sin embargo, la probabilidad conjunta no necesita
restarse porque es igual a cero. Tales situaciones ocurren cuandq__g_<_:> existen resul-
tados para un evento particular. Por ejemplo, suponga que desea:rñOS--saber la
1>ú:>bafüHdad-de esfügeiuncfüazón o una espada si estuviéramos seleccionando
sólo una carta de una baraja estándar de 52 cartas de juego. Usando la regla de la
adición, tenemos lo siguiente:
P (corazón o espada) =P (corazón)+ P (espada) -P (corazón y espada)
13 13 o 26
=-+---=-
52 52 52 52

Nos damos cuenta que la probabilidad que una carta sea tanto un
corazón como una espada simultáneamente es cero. puesto que en una baraja
estándar cada carta puede tener sólo un palo particular. La .intersección en
este caso es no existen te (llamado el_c.anjunto nulQ)... pQrque . no. contt~~~
resultados, puesto que una carta no puede ser un corazón y una espada
simultáneamente.
Como se mencionó previamente, siempre que la probabilidad conjunta no
contenga ningún resultado, los eventos involucrados ~éqn.std~g1_n ."Jl:!:.t:lf_'!;_f1!f:T!~e__
e~~l~J:(!!':t.~..: Esto se refiere al hecho de que la ocurrencia de un evento (un corazón)·'
significa que el otro evento (una espada) no puede ocurrir. Así, la regla de la adi-
ción para eventos mutuamente excluyentes se reduce a

(6.4)

6.6.2 Eventos colectivamente exhaustivos


Ahora considere la probabilidad de seleccionar una carta que fuera roja o negra.
Puesto que rojo y negro son eventos mutuamente excluyentes, al usar la ecuación
(6.4) tendríamos

lUS Capítulo 6 Probabilidad básica


P (roja o blanca)= P (roja)+ P (negra) + f ( 0~ 1 {; p
...... .

26 26 52
= - + - = - = 1.0
52 52 52

La probabilidad de rojo o negro suma 1.0. Esto significa que la carta selec-
cionada debe ser roja o negra, puesto que éstos son los únicos colores en una baraja
estándar. Dado_9E.~_\.!no d~ es~Q~J~.v.~ntQ.~..Q~J:?~_Q<;:ll!tit..sg.rnn~ide.tan. ev.entos..cole.c.7
tivament§...~~ha1J,stivos.

Problemas de la sección 6.6


6.20 Explique la diferencia entre un evento colectivamente exhaustivo y uno
mutuamente excluyente y dé un ejemplo de cada uno.
~ 6.21 Para cada uno de los siguientes casos, diga si los eventos que se crean son (i)
mutuamente excluyentes, (ii) colectivamente exhaustivos. Si no lo son,
exprese con otras palabras las categorías para hacerlas mutuamente
excluyentes y colectivamente exhaustivas o diga por qué esto no sería útil.
(a) a los votantes registrados se les preguntó si estaban registrados como
republicanos o demócratas.
(b) los encuestados se clasificaron como propietarios de automóviles en las
categorías norteamericano, europeo, japonés, ninguno.
(c) a las personas se les preguntó: "¿Actualmente vive en (i) un
departamento, (ii) una casa?"
(d) un producto se clasificó como defectuoso o no defectuoso.
(e) a las personas se les preguntó:" ¿Tiene la intención de comprar una
televisión a colores en los siguientes seis meses?" (i) Sí, (ii) No.
61 6.22 La probabilidad de cada uno de los siguientes eventos es cero. En cada uno, diga
porqué. Diga qué característica común de estos eventos hace su probabilidad cero
(a) una persona que está registrada como republicana y demócrata.
(b) un producto que es defectuoso y no defectuoso.
(c) una casa que tiene calefacción por petróleo y por gas natural.
• 6.23 Refiriéndonos al problema 6.5 de la página 209, si un estudiante se selecciona
aleatoriamente, ¿cuál es la probabilidad de que
(a) tenga una tarjeta de crédito bancaria o tenga una tarjeta de crédito de
viajes y entretenimiento?
(b) no tenga una tarjeta de crédito bancaria o tenga una tarjeta de crédito de
viajes y entretenimiento?
(c) tenga una tarjeta de crédito bancaria o no tenga una tarjeta de crédito
bancaria?
6.24 Refiriéndonos al problema 6.6 de la página 210, si un individuo se selecciona
aleatoriamente, ¿cuál es la probabilidad de que en el último afio
(a) haya planeado comprar o realmente haya comprado una nueva televisión?
(b) no haya planeado comprar o realmente no haya comprado una nueva
televisión?
(c) haya planeado comprar o no haya planeado comprar una nueva televisión?
• 6.25 Refiriéndonos al problema 6.7 de la página 210, ¿cuál es la probabilidad que
un encuestado elegido aleatoriamente ·
(a) sea una mujer o disfrute comprar ropa?
(b) sea un hombre o no disfrute comprar ropa?
(c) sea un hombre o una mujer?
6.26 Refiriéndonos al problema 6.8 de la página 210, ¿cuál es la probabilidad que
un empleado elegido aleatoriamente
(a) sea mujer o haya utilizado las instalaciones del club?
(b) sea hombre o no haya utilizado las instalaciones del club?
(c) haya utilizado las instalaciones del club o no haya utilizado las
instalaciones del club?

Regla de la adición 21 7
6.27 Refiriéndonos al problema 6.9 de la página 210, ¿cuál es la probabilidad que
un nuevo automóvil elegido aleatoriamente
(a) necesite una reparación amparada por la garantía o haya sido fabricado
por una compañía con base en Estados Unidos?
(b) necesite una reparación amparada por la garantía o no haya sido
fabricado por una compañía con base en Estados Unidos?
(c) necesite una reparación amparada por la garantía o no necesite una
reparación amparada por la garantía?

k·Q Probabilidad condicional


Cada ejemplo que hemos estudiado hasta aquí en este capítulo ha involucrado la
probabilidad de un evento particular al tomar una muestra del espacio muestra}
completo. Sin embargo, ¿cómo hallaríamos diversas probabilidades si ya se
conociera cierta información respecto a los eventos involucrados? Por ejemplo, si
se nos hubiera dicho que una carta era negra, ¿cuál sería la probabilidad que la
carta fuera un as? O si se nos hubiera dicho que un empleado ha progresado en
la organización, ¿cuál sería la probabilidad que estuviera satisfecho con el trabajo?
Cuélnciq_esté!ffi9S.. ~ª!f!!lª-l!QfUUtQQ!Ü1fü9ª~J de ..ld!.l,.. ~Y.~I.lt9•. P.ªJ.tJs_1JlªLA~~da
i.nform!,KiQn_s.QJ;m:J1LPrn!I~n~iª. .9e. 9.trs>. eYentQ,'ª1.. ~~tJLPJP.b_~bili.d.ad. s.e.dJ•nQmimt
P!"~~~~!.!!~!'t~~'!~4iSJ~!ial, P(A 1B). La probabilidad condicional P(A 1B) puede
definirse de la siguiente manera:
r--..ú.9Vl {)U~~').~
· · ·· · . P (Ay B) · ..
P(AfB) ~ ' .P(~) ..· ·. · (6.5)
-, :- '
•'·

donde P (A y B) = probabilidad conjunta de A yB


P(B) = probabilidad marginal de B
En vez de usar la ecuación (6.5) para encontrar la probabilidad condi-
cional, podemos usar la tabla de contingencias o el diagrama de Venn. En el
primer ejemplo, deseamos encontrar P(as 1negro). Aquí se da la información
que la carta es negra. Por lo tanto, el espacio de muestras no consiste en las 52
cartas de la baraja; consiste sólo en las cartas negras. De las 26 cartas, dos son
ases. Por consiguiente, la probabilidad de un as, dado que sabemos que la carta
es negra, es

número de ases negros


P(as 1negro ) = - - - - - - - - -
número de cartas negras
2
26
Este resultado (2/26) también puede obtenerse usando la ecuación (6.5) de la
siguiente manera:
Si
P (Ay B)
P(AIB) =
P(B)

evento A= as
evento B = negro

218 Capitulo 6 Probabilidad básica


entonces

2/52
P( as ¡negro) = 26152

2
26
Examinemos ahora el segundo ejemplo mencionado, determinar P(está
satisfecho con el trabajo 1ha progresado en la organización). Puesto que la
información dada es que el empleado ha progresado en la organización, el
espacio muestral se reduce a esos 208 individuos. De esos 208 empleados, de
la tabla 6.2 de la página 208 podemos observar que 194 están satisfechos con
el trabajo. Por lo tanto, la probabilidad de que un empleado esté satisfecho
con el trabajo, dado que ha progresado en la organización, puede calcularse de
la siguiente manera:

número de empleados
que están satisfechos con su
P (están satisfechos 1han progresado)= _ _t_ra_b_a_jo_y_h_a_n_p_r_o_g_re_s_a_d_o_ _
número de empleados que ha
progresado con la organización
194
=--
208
Nuevamente, la ecuación (6.5) proporcionaría la misma respuesta, de la si-
guiente manera:

P(AyB)

P(B)

donde
evento A = está satisfecho con el trabajo
evento B = ha progresado en la organización

P (está satisfecho y ha progresado)


P (están satisfechos 1han progresado)
P (ha progresado)
194/400
208/400
194
208

• Árboles de decisión En la tabla 6.2 de la página 208, los empleados se


clasificaron según su satisfacción con el trabajo y también de acuerdo a si pro-
gresaron o no en la organización. Una forma alternativa de ver la descomposi-
9.Qn.•,de l~s .P.Q~ID.iful.Ml~un cuatro celdas es a través del uso de un árbol de
decisión. La figura 6.4 de la página 220 consiste en un árbol de decisión para
estos datos. '

Probabilidad condicional 219


P(AyB):: 1ª.1
400.

162
P(AyB')=
400
Todo el

-ªº-
400
Figura 6.4
Árbol de decisión para los datos de la
tabla 6.2

En la figura 6.4 comenzando a la izquierda con todo el conjunto de emplea-


dos, hay dos "ramas" relativas a si un empleado está satisfecho o no con el trabajo.
Cada una de estas ramas tiene dos subramas, correspondientes a si un empleado ha
progresado o no en la organización. Las probabilidades colocadas al final de las
ramas iniciales representan las probabilidades marginales de A [es decir, P (A)] y A'
[es decir, P(A')], y las probabilidades al final de cada una de las cuatro subramas
representan la probabilidad conjunta para cada combinación de los eventos A y B.
La probabilidad condicional puede obtenerse dividiendo la probabilidad conjunta
de interés entre la probabilidad marginal apropiada.
Por ejemplo, para obtener P (está satisfecho con el trabajo 1 ha progresado en
la organización) tomaríamos P (está satisfecho con el trabajo y ha progresado en la
organización) y la dividiríamos entre P(ha progresado en la organización). De
la figura 6.4, tendríamos

P (A y B)
P(B)
194/400
P (están satisfechos 1 han progresado)= - - -
208/400
194
208
Observe que el denominador, P(B), es la suma de las probabilidades de los dos
eventos conjuntos apropiados, P(A y B) + P(A' y B), la probabilidad de satisfecho
con el trabajo y haber progresado en la organización más la probabilidad de no
estar satisfecho con el trabajo y haber progresado en la organización.

• Independencia estadística En el primer ejemplo, observamos que la


probabilidad que la carta elegida sea un as, dado que sabemos que es negra, es 2/26.
Tal vez recordemos que la probabilidad de sacar un as de la baraja, P(as), era 4/52,
lo que se reduce a 2/26. Este resultado revela alguna información importante. El
conocimiento previo de que la carta era negra no afectó la probabilidad de que la

220 Capítulo 6 Probabilidad básica


'.1rta fuera un as. Esta característica se denomina independencia estadística y
¡111l·de definirse de la siguiente manera:

(6.6)

donde P (AIB) = probabilidad condicional de A dado B


P (A)= probabilidad marginal de A

;\,¡ podemos observar que dos eventos A y B son estadísticamente independientes


,¡ y sólo si P (A 1B) = P(A). En una tabla de contingencias de 2 x 2, una vez que esto
\l' cumple para una combinación de A y B, será cierto para todas las demás.' Aquí,

d "color de la carta" y "ser un as" son eventos estadísticamente independientes. El


'011ocimiento de un evento no afecta de ninguna manera la probabilidad del
\1·gundo evento.
También nos gustaría determinar si estar satisfecho con el trabajo es
i11dcpendiente de haber progresado en la organización. La proporción de esos
1·111pleados que están satisfechos con el trabajo, dado que han progresado en la
mganización es 194/208 = .933, y la proporción de todos los empleados que están
,;1tisfechos con el trabajo es 356/400 = .89. Este resultado revela cierta información
importante: el conocimíento de progreso en la organización afectó ligeramente
11uestra predicción de la satisfacción con el trabajo. Por lo tanto, desde una pers-
pectiva estadística podemos establecer que estos dos eventos pueden considerarse
rnmo asociados de alguna manera, es decir, Q.Q.).n.9_epe!]di~ntes. La proporción de
1·mpleados satisfechos con su trabajo no es precisamente la misma cuando éstos
;ivanzan en la organización.

Problemas de la sección 6. 7
• 6.28 Refiriéndonos al problema 6.5 de la página 209:
(a) suponga que sabemos que el estudiante tiene una tarjeta de crédito
bancaria. ¿Cuál es la probabilidad de que tenga una tarjeta de crédito de
viajes y entretenimiento?
(b) suponga que sabemos que el estudiante no tiene una tarjeta de crédito de
viajes y entretenimiento. ¿Cuál es entonces la probabilidad que tenga una
tarjeta de crédito bancaria'!
(c) ¿Son los dos eventos, tener una tarjeta de crédito bancaria y tener una
tarjeta de crédito de viajes y entretenimiento, estadísticamente
independientes? Explique.
6.29 Refiriéndonos al problema 6.6 de la página 210
(a) si el encuestado planeó comprar una nueva televisión, ¿cuál es la
probabilidad que realmente haya comprado una?
(b) si el encuestado no planeó comprar una nueva televisión, ¿cuál es la
probabilidad que no haya comprado una?
(c) ¿Planear comprar una nueva televisión y realmente comprar una son
estadísticamente independientes? Explique.
• 6.30 Refiriéndonos al problema 6.7 de la página 210,
(a) suponga que el encuestado elegido es una mujer. ¿Cuál es entonces la
probabilidad que no disfrute comprar ropa?
(b) suponga que el encuestado elegido disfruta comprar ropa. ¿Cuál es
entonces la probabilidad que sea un hombre?
(c) ¿Disfrutar comprar ropa y el género del individuo son estadísticamente
independientes? Explique.

Probabilidad condicional 221


6.31 Refiriéndonos al problema 6.8 de la página 210
(a) suponga que elegimos una empleada de la compañía. ¿Cuál es entonces la
probabilidad que haya utilizado las instalaciones del club?
(b) suponga que elegimos un empleado de la compañía. ¿Cuál es entonces la
probabilidad que no haya utilizado las instalaciones del club?
(c) ¿El género del individuo y el uso de las instalaciones del club son
estadísticamente independientes? Explique.
6.32 Refiriéndonos al problema 6.9 de la página 210
(a) suponga que sabemos que el automóvil fue fabricado por una compañía
con base en Estados Unidos. ¿Cuál es entonces la probabilidad que el
automóvil necesite una reparación amparada por la garantía?
(b) suponga que sabemos que el automóvil no fue fabricado por una
compañía con base en Estados Unidos. ¿Cuál es entonces la probabilidad
que el automóvil necesite una reparación amparada por la garantía?
(c) ¿La necesidad de una reparación amparada por la garantía y la ubicación
de la compañía fabricante del automóvil son estadísticamente
independientes?

k-j:I Regla de multiplicación


La fórmula para la probabilidad condicional puede manipularse algebraicamente
de forma tal que la probabilidad conjunta P(A y B) pueda determinarse a partir de
la probabilidad condicional de un evento. Usando la ecuación (6.5)

P(AyB)
P(B)

y resolviendo para la probabilidad conjunta P(A y B), tenemos la regla general


de la multiplicación:

Para demostrar el uso de esta regla de la multiplicación veamos un ejemplo.


Suponga que 20 marcadores se exhiben en una papelería. Seis son rojos y 14 son
azules. Debemos seleccionar dos marcadores aleatoriamente del conjunto de 20.
¿Cuál es la probabilidad que los dos marcadores seleccionados sean rojos? Aquí la
regla de la multiplicación puede usarse de la siguiente manera:
P (A y B) = P(AjB)P(B)
Por lo tanto, si
AR = segundo marcador elegido es rojo
BR = primer marcador elegido es rojo
tenemos

La probabilidad que el primer marcador sea rojo es 6/20, puesto que 6 de


los 20 marcadores son rojos. Sin embargo, la probabilidad que el segundo
marcador sea también rojo depende del resultado de la primera selección. Si
el primer marcador no se regresa al aparador después de determinar su color

111 Capitulo 6 Probabilidad básica


(muestreando sin reemplazo), entonces el número de marcadores restantes será
19. Si el primer marcador es rojo, la probabilidad que el segundo también sea rojo
es 5/19, puesto que 5 marcadores rojos continúan en el aparador. Por lo tanto, al
usar la ecuación (6.7), tenemos lo siguiente: ·

p (AR y B¡¡) = ( 159 )( 2~ J


= 30 = .079
380
Sin embargo, ¿qué sucede si el primer marcador seleccionado se regresa al
aparador después de determinar su color? Entonces la probabilidad de elegir un
marcador rojo en la segµnda selección es la misma que en la primera selección
(muestrear con reemplazo'), puesto que hay 6 marcadores rojos de 20 en el
aparador. Por lo tanto, tenemos lo siguiente:

P(AR y BR) = P(ARIBR)P(BR)·

= (2~ )(2~J
= 36 = .09
400
Este ejemplo de muestreo con reemplazo ilustra que la segunda selección es
)ndependiente de la primera, puesto que la segunda probabilidad no estuvo influi-
da por la primera selección. Así pues, la regla de la multiplicación para even-
tos independientes puede expresarse de la siguiente manera [sustituyendo P(A)
por P(A IB)]:

1,.:
::..
1'

Si esta regla se cumple para dos eventos, A y B, entonces A y B son estadística-


mente i,g~.~J?..~I,1.~i~_Qtes. Por lo tanto, hay dos formas de determinar la indepen-
dencia estadística.
l. Los eventos A y B son estadísticamente independientes si y sólo si
P (A 1B) = P (A). ·--------..-···--···
2. Los eventos A y B son es~a!Jí~!l~J!l!-1!!~.!.~,~.~~!l~!~Etes si y sólo si P (A y
B) = P (A) P (B).

Debe observarse que para una tabla de contingencias de 2 x 2, si esto se cumple


para un evento conjunto, se cumplirá para todos los eventos conjuntos. 1 Por ejem-
plo, si la probabilidad que una carta sea un as es independiente de que sea negra,
entonces la probabilidad que sea un as es independiente de que sea roja, la proba-
bilidad que no sea un as es independiente de que sea negra y la probabilidad que
no sea un as es independiente de que sea roja.
Ahora que hemos analizapo la regla de la multiplicación, podemos escribir la
fórmula para la probabilidad marginal [ecuación (6.1)] de la siguiente manera. Si

entonces, usando la regla de la multiplicación, tenemos

Regla de multiplicación 113


P(A} (6.9)

donde BJ! B 2 , _ .• , Bk son k eventos mutuamente excluyentes y colectivamente


exhaustivos.
Podemos ilustrar esta fórmula refiriéndonos a la tabla 6.1 de la página 208.
Usando la ecuadón (6.9), podemos calcular la probabilidad de un as de la siguiente
manera:

P(A) P(AIR )1>(H


1 1) + P(AiB 2 )P(B 2 )

(:6 )( ~~ ) :6 )( ~~ )
+(

2 2
-+-
52 52
4
52

Problemas de la sección 6.8


e 6.33 Refüiéndonos al problema 6.5 de la página 209, use la ecuación (6.8) para
determinar si tener una tarjeta de crédito bancaria es estadísticamente
independiente de tener una tarjeta de viajes y entretenimiento.
6.34 Refilriéndonos al problema 6.6 de la página 210, use la ecuación (6.8) para
determinar si planear comprar una nueva televisión y realmente comprar una
son estadísticamente independientes.
e 6.35 Refüiéndonos al problema 6.7 de la página 210, use la ecuación (6.8) para
determinar si disfrutar comprar ropa es estadísticamente independiente del
género del individuo.
6.36 Refiriéndonos al problema 6.8 de la página 210, use la ecuación (6.8) para
determinar si utilizar las instalaciones del club es estadísticamente
independiente del género del individuo.
6.37 Refiriéndonos al problema 6.9 de la página 210, use la ecuación (6.8) para
determinar si la necesidad de una reparación amparada por la garantía es
estadísticamente independiente de la ubicación de Ja compañía fabricante del
automóvil.
6.38 Suponga que usted cree que la probabilidad que obtenga una A en Estadística
es .6, y la probabilidad de que obtenga una A en Comportamiento
Organizacional es .8. Si estos eventos son independientes, ¿cuál es la
probabilidad que obtenga una A tanto en Estadística como en
Comportamiento Organizacional? Dé algunas razones plausibles por las que
estos eventos no pueden ser independientes, aun cuando los profesores de
estas dos materias no se puedan comunicar respecto a su trabajo.
6.39 Se utiliza una baraja estándar para jugar. Hay cuatro palos (corazones,
diamantes, tréboles y espadas), cada uno con 13 cartas (as, 2, 3, 4, 5, 6, 7, 8, 9,
10, sota, reina y rey), haciendo un total de 52 cartas. Toda la baraja se mezcla
completamente y usted recibe las primeras dos cartas de la baraja sin reemplazo.
(a) ¿Cuál es la probabilidad que ambas cartas sean reinas?
(b) ¿Cuál es la probabilidad que la primera carta sea un 10 y la segunda carta sea
un 5 o 6?
(c) si estuviéramos muestreando con reemplazo, ¿cuál sería Ja respuesta en la
parte (a)?

'124 Cnpltulo 6 Probabilidad básica


(d) En el juego de veintiuno, las cartas de imágenes (sota, reina y rey)
cuentan por 1O puntos y el as cuenta por 1 u 11 puntos. Las demás cartas
se cuentan por su valor frontal. El veintiuno se logra si sus dos cartas
suman 21 puntos. ¿Cuál es la probabilidad de obtener veintiuno en este
problema?
6.40 Una caja de nueve guantes de béisbol contiene dos guantes izquierdos y siete
guantes derechos.
(a) Si se seleccionan dos guantes aleatoriamente de la caja sin reemplazo,
¿cuál es la probabilidad de que
(1) ambos guantes seleccionados sean derechos?
(2) se seleccionen un guante derecho y uno izquierdo?
(b) Si se seleccionan tres guantes, ¿cuál es la probabilidad de que los tres sean
izquierdos?
(c) Si estuviéramos muestreando con reemplazo, ¿cuáles serían las respuestas
de (a)(l) y (b)?

La probabilidad condicional toma en cuenta información respecto a la ocurren- ¡·


da de un evento para encontrar la probabilidad de otro evento. Este concepto
puede ampliarse para revisar probabilidades basadas en nueva información y,
;isí, determinar la probabilidad que un efecto particular se deba a una causa
l'Specífica. El procedimiento para revisar estas probabilidades se conoce como
teorema de Bayes [puesto que fue originalmente desarrollado por el reve-
rendo Thomas Bayes (1702-1761); véase la referencia 2].
Una aplicación interesante del teorema de Bayes se relaciona con el área de
las pru.~.1:2ª~...Q!"_.9.i.?. &IJ.Q~tt.c=.Q._1:!1~4_i_cg. Suponga que la probabilidad que una per-
sona tenga cierta enfermedad es .03. Se dispone de pruebas de diagnóstico
médico para determinar si la persona realmente tiene la enfermedad. Si ésta real-
mente está presente, la probabilidad que la prueba de diagnosis médica dé un
resultado positivo (indicando que la enfermedad está presente) es .90. Si la
enfermedad realmente no está presente, la probabilidad de un resultado de
prueba positivo (indicando que está presente) es .02. Dada esta información, de-
searíamos saber lo siguiente:
l. Si la prueba de diagnóstico médico ha dado un resultado positivo
(indicando que la enfermedad está presente), ¿cuál es la probabilidad
que la enfermedad realmente esté presente?
2. ¿Qué proporción de todas las pruebas de diagnóstico médico indican
resultados positivos (que la enfermedad está presente)?
3. Si la prueba de diagnóstico médico ha dado un resultado negativo
(indicando que la enfermedad no está presente), ¿cuál es la
probabilidad que la enfermedad no esté presente?
El teorema d~ Bayes puede desarrollarse a partir de las defi11i~\Q.11_~-~_g_~
probA_~ifüla9
condicional y marginal de la siguiente mane~a:

P(AyB) = P(AIB)P(B) (6.lOa)

pero también

Teorema de Bayes 225


~(AyB) =P(BjA)P(A) (6.lOb)

De las ecuaciones (6.lOb) y (6.lOa) tenemos

P(BIA)P(A) = P(A IB)P(B)

así que, dividiendo entre P (A), obtenemos

( 1 )
_ P(AIB)P(B)
(6.lOc)
p BA - P(A)

De la ecuación (6.9), sin embargo,

P(AIB; )P(B1 )
P(B,jA) = -P(_A_IBi-)P_(_B1- )+-P-(A_i.:...._B2-)P--'-(B_2 _)+-.-
.. +-P-(A_J_Bk-)P-(B-k) (6.lOd)

donde B; es el íésimo evento de k eventos mutuamente excluyentes.


Ahora podemos usar el teorema de Bayes para determinar las probabilidades
deseadas enumeradas anteriormente para el problema de la prueba de diagnóstico
médico. Sea

evento D = tiene enfermedad evento T = la prueba es positiva


event D'= no tiene enfermedad evento T' =la prueba es negativa

P (D) = .03 P (TID) = .90


P (D') = .97 P (TID') = .02

Respondamos la primera pregunta. Si la prueba de diagnóstico médico ha dado un


resultado positivo (indicando que la enfermedad está presente), ¿cuál es la proba-
bilidad que la enfermedad realmente esté presente [P (D 1 T)]? Usando la ecuación
(6.lOd), tendríamos

226 Capitulo 6 Probabilidad básica


P(TiD)P(D)
P(DIT) = P(TID)P(D) + P(TID')P(D')
(.90)(.03)
(.90)(.03) + (.02)(.97)
.0270 .0270
.0270 + .0194 .0464
= .582
El cálculo de las probabilidades se resume en la tabla 6.3 y se muestra en la
forma de un ~!P_c;>l.2.~.~~ll!.9.!!_en la figura 6.5. La probabilidad que la enfermedad
esté presente dado que la prueba fue positiva es sólo .582. Este resultado puede
parecer sorprendentemente bajo, dado un 90% de posibilidades que la prueba
fuera positiva si la enfermedad está presente. Sin embargo, sólo 3% de la población
tiene la enfermedad y sólo hay un 2% de posibilidades que la prueba sea positiva
en el 97% de la población que no tiene la enfermedad. Si la compañía que fabrica
el equipo de prueba de diagnóstico deseara mejorar la probabilidad de que la enfer-
medad esté presente dado que la prueba es positiva, tendría que incrementar la
posibilidad de que la prueba fuera positiva si la enfermedad está presente y/o dis-
minuir la posibilidad de que la prueba fuera positiva en el 97% de la población que
no tiene la enfermedad (véanse los problemas 6.41 y 6.42 de la página 228, respec-
tivamente).

Tabla 6.3 Cálculo.del teorema de Bayes para el problema de diagnóstico médico.


Probabilidad Probabilidad Probabilidad Probabilidad
anterior condicional conjunta revisada
Eventos D, P(D¡) P(TID;) P(TID,)P(D¡) P(D 1i1)

D =Tiene una enfermedad .03 .90 .0270 .0270/.0464 = .582 = P(Dl1)


D' = No tiene una enfermedad .97 .02 .0194 .0194/.0464= .418=P(D'l1)
.0464 1.000

P (D' y T? = P (TID? P(D? Figura 6.5


(.98) (.97) = .9506 Árbol de decisión para el problema de
pruebas de diagnóstico médico

Teorema de Bayes 227


Para responder la segunda pregunta, referente a la proporción de todas las
pruebas de diagnóstico médico que indican resultados positivos (que la enfer-
medad está presente), examinamos el denominador del teorema de Bayes. Esto
representa la probabilidad marginal del evento T, un resultado de prueba positivo.
Por lo tanto, la probabilidad de un resultado de prueba positivo es .0464.
Respondamos ahora la tercera pregunta. Si la prueba de diagnóstico
médico ha dado un resultado negativo (indicando que la enfermedad no está
presente), ¿cuál es la probabilidad que la enfermedad no esté presente?
Tendríamos
P(T'ID) = 1- P(TID) = 1- .90 = .10
P(T'ID') = 1 - P(TID') = 1 - .02 = .98
Usando la ecuación (6. lOd), tenemos

P( T'I D' )P( D')


P(D'IT')
P(T'iD)P(D) + P(T'ID')P(D')
(.98)(.97)
(.10)(.03) + (.98)(.97)
.9506 .9506
=------
.0030 + .9506 .9536
= .997

Por eso, la probabilidad que la enfermedad no esté presente, dado que la prueba
fue negativa es .997.

Problemas de la sección 6. 9
6.41 En el problema de diagnóstico médico que se acaba de analizar en esta
sección, suponga que la probabilidad que la prueba de diagnóstico médico
dé un resultado positivo si la enfermedad realmente está presente se ha
incrementado de .90 a .95. Dada esta información, desearíamos saber lo
siguiente:
(a) Si la prueba de diagnóstico médico ha dado un resultado positivo
(indicando que la enfermedad está presente), ¿cuál es la probabilidad
que la enfermedad esté realmente presente?
(b) Si la prueba de diagnóstico médico ha dado un resultado negativo
(indicando que la enfermedad no está presente), ¿cuál es la
probabilidad que la enfermedad no esté presente?
6.42 En el problema de diagnóstico médico que se acaba de analizar en esta sección,
suponga que la probabilidad que la prueba de diagnóstico médico dé un
resultado positivo si la enfermedad realmente no está presente se reduce de .02 a
.01. Dada esta información, desearíamos saber lo siguiente:
(a) Si la prueba de diagnóstico médico ha dado un resultado positivo
(indicando que la enfermedad está presente), ¿cuál es la probabilidad
que la enfermedad esté realmente presente?
(b) Si la prueba de diagnóstico médico ha dado un resultado negativo
(indicando que la enfermedad no está presente), ¿cuál es la
probabilidad que la enfermedad no esté presente?
6.43 Una estación de televisión desearía medir la habilidad de su
pronosticador del clima. Se han recabado datos anteriores que indican lo
siguiente:

228 Capítulo 6 Probabilidad básica


l. La probabilidad que el pronosticador haya predicho sol en días
soleados es .80.
2. La probabilidad que el pronosticador haya predicho sol en días
lluviosos es .40.
3. La probabilidad de un día soleado es .60.
Encuentre la probabilidad de que
(a) Esté soleado dado que el pronosticador haya predicho que habría sol.
(b) El pronosticador prediga sol.
• 6.44 Un ejecutivo de publicidad está estudiando los hábitos de mujeres y hombres
casados de ver el televisor durante los horarios estelares. Basándose en registros
anteriores, ha determinado que durante ese horario los esposos ven el televisor
60<J1<, de este tiempo. También se ha determinado que cuando el esposo está viendo el
televisor, 400,1, del tiempo también lo hace la esposa. Cuando el esposo no está viendo
el televisor, 30% del tiempo la esposa sí lo hace. Encuentre la probabilidad que
(a) Si la esposa está viendo el televisor, el esposo también lo esté haciendo.
(b) La esposa está viendo el televisor durante los horarios estelares.
6.45 Olive Construction Co. está determinando si debe someter una licitación para la
construcción de un nuevo centro comercial. Anteriormente, el principal
competidor de Olive, Base Construction Co., sometió licitaciones 70% de las veces.
Si Base Construction Co. no somete una licitación de un trabajo, la probabilidad
de que Olive Construction Co. obtenga el trabajo es .50; si Base Construction Co.
sí somete una licitación de un trabajo, la probabilidad que Olive Construction
Co. obtenga el trabajo es .25.
(a) Si Olive Construction Co. obtiene el trabajo, ¿cuál es la probabilidad de que
Olive, Base Construction Co. no haya licitado?
(b) ¿Cuál es la probabilidad que Olive Construction Co. obtenga el trabajo?
• 6.46 Un servicio de tasación de bonos municipales tiene tres categorías de tasación (A, B
y C). Suponga que el aii.o pasado, de los bonos municipales emitidos a lo largo del
país, 70% fueron tasados como A, 20% fueron tasados como B y 10% fueron
tasados como C. De los bonos municipales tasados como A, 5ü<J.6 fueron emitidos
por ciudades, 40% por suburbios y 10% por áreas rurales. De los bonos
municipales tasados como B, 60% fueron emitidos por ciudades, 20% por
suburbios y 20% por áreas rurales. De los bonos municipales tasados como C, 90%
fueron emitidos por ciudades, 51Y<i por suburbios y 5% por áreas rurales.
(a) Si una ciudad ha de emitir un nuevo bono municipal, ¿cuál es la probabilidad
de que éste reciba una tasación A?
(b) ¿Qué proporción de los bonos municipales son emitidos por ciudades?
(c) ¿Qué proporción de los bonos municipales son emitidos por suburbios?
6.47 El gerente de comercialización cte una compañía fabricante de juguetes está
planeando introducir un nuevo juguete en el mercado. En el pasado, 40% de los
juguetes introducidos por la compañía han tenido éxito y 60% no lo han tenido.
Antes de.que se comercialice el juguete, se lleva a cabo un estudio de mercado y se
compila un informe, ya sea favorable o desfavorable. Anteriormente, 80% de los
juguetes exitosos recibieron informes favorables y 30% de los juguetes no exitosos
también recibieron informes favorables.
(a) Suponga que el estudio de mercado da un informe favorable sobre un nuevo
juguete. ¿Cuál es la probabilidad de que el nuevo juguete tenga éxito?
(b) ¿Qué proporción de los juguetes nuevos reciben informes favorables de
estudios de mercado?

f.fi (,] Reglas de conteo


<:acta regla de probabilidad que hemos estudiado ha involucrado el conteo del
11úmero de resultados favorables y el número total de resultados. En muchas
instancias, sin embargo, debido al gran número de posibilidades, no es factible
enumerar cada uno de los resultados. En estas circunstancias, se han desarrollado
reglas para el conteo. Aquí se analizarán cinco reglas de conteo diferentes.

Reglas de conteo 229


Primero que nada, suponga que una moneda se ha lanzado al aire 10 veces.
¿Cómo determinaríamos el número de diferentes resultados posibles (las secuen-
cias de caras y cruces)?

Regla de conteo 1: Si cualquiera de k eventos mutuamente excluyentes y colecti-


vamente exhaustivos puede ocurrir en cada uno de n intentos, el número de resul-
tados posibles es igual a

k" (6.11)

Si una moneda (con dos lados) se arroja 10 veces, el número de resultados es 2 10 =


1,024. Si un dado (con seis lados) se lanza dos veces, el número de resultados es 6 2 = 36.
La segunda regla de conteo es una versión más general de la primera. Para ilustrar
esta regla, suponga que el número de eventos posibles es diferente en algunos de
los intentos. Por ejemplo, una oficina estatal de vehículos automotores desearía
saber de cuántos números de placas policiacas se dispondría si la placa consistiera
en tres letras seguidas de tres dígitos. El hecho que tres valores sean letras (cada una
con 26 resultados posibles) y tres posiciones sean dígitos (cada uno con 10 resul-
tados) lleva a la segunda regla de conteo.

Regla de conteo 2: Si hay k 1 eventos del primer intento, k 2 eventos del segundo
intento, ... , y k0 eventos del n ésimo intento, entonces el número de resultados
posibles es

(k¡) (kJ ... (k,,) (6.12)

Por lo tanto, si una placa policiaca consistiera de tres letras seguidas de tres dígi-
tos, el número total de resultados posibles sería entonces (26)(26)(26)( 10)(1O)(10)
= 17,576,000. Tomando otro ejemplo, si un menú de restarán tuviera una cena com-
pleta de precio fijo que consistiera en un aperitivo, entrada, bebida y postre y hubiera
la opción de cinco aperitivos, diez entradas, tres bebidas y seis postres, el número total
de cenas posibles sería (5)(10)(3)(6) = 900.
La tercera regla de conteo involucra el cálculo del número de formas en que un con-
junto de objetos puede ordenarse. Si un conjunto de seis libros de texto se tiene que
colocar sobre una repisa, ¿cómo podemos determinar el número de formas en que los
seis libros pueden acomodarse? Podemos comenzar dándonos cuenta que cual-
quiera de los seis libros podría ocupar la primera posición en la repisa. Una vez que
se llena la primera posición, hay cinco libros por escoger para llenar la segunda. Este
procedimiento de asignación se continúa hasta que se ocupen todas las posiciones.
Esta situación puede generalizarse como la regla de conteo 3.

Regla de conteo 3: El número de formas en que los n objetos pueden ordenarse

n! = n(n-1) ··· (1) (6.13)

donde n ! se denomina n factorial y O ! se define como 1.

230 Capítulo 6 Probabilidad básica


El número de formas en que los seis libros pueden ordenarse es

n! = 6! = (6)(5)(4)(3)(2)(1) = 720

En muchos casos necesitamos saber el número de formas en que un subcon-


11111to del grupo completo puede ordenarse. Cada arreglo posible se llama una per-
mutación. Por ejemplo, modificando el problema anterior, si se tienen seis libros
d\' texto, pero sólo hay espacio para cuatro libros en el estante, ¿de cuántas formas
\l" pueden acomodar estos libros en el estante?

Regla de conteo 4: Permutaciones: El número de modos de ordenar X objetos


seleccionados de n objetos es

n!
(6.14)
(n - X)!

Por lo tanto, el número de arreglos ordenados de cuatro libros seleccionados


de seis libros es igual a

ni 6! 6! (6)(5)(4)(3)(2)(1) = 360
(n - X)! ( 6 - 4 )! 2! (2)(1)

Finalmente, en muchas situaciones no estamos interesados en el orden de los


resultados, sino sólo en el número de formas en que X objetos pueden seleccionarse
den objetos, sin tomar en cuenta el 01de11. Esta regla se llama de combinaciones.

Regla de conteo 5: Combinaciones: El número de modos de seleccionar X obje-


tos den objetos, sin tomar en cuenta el orden, es igual a

n! (6.15)
X!(n - X)!

Esta expresión puede denotarse mediante el símbolo ( ) . ~


Comparando esta regla con la anterior, vemos que difiere sólo en la
inclusión de un término X! en el denominador. Esto se debe a que cuando con-
tamos permutaciones, todos los arreglos de X objetos eran distinguibles; con las
combinaciones, los X! arreglos posibles de objetos no son importantes. Así, el
número de combinaciones de cuatro libros seleccionados de seis libros se
L'Xpresa mediante

n! 6! 6! ( 6)(5)( 4)(3)(2)(1) = 15
X!(n - X)! 4!(6-4)! 4!2! (4)(3)(2)(1)(2)(1)

Reglas de conteo lJ 1
Problemas de la sección 6. I O
6.48 Si hay diez preguntas de opción múltiple en un examen, cada una con tres
posibles respuestas, ¿cuántas posibilidades diferentes hay en términos de la
secuencia de respuestas correctas?
e 6.49 La cerradura de la bóveda de un banco consiste en tres discos, cada uno con 30
posiciones. Para que la bóveda se abra cuando está cerrada, cada uno de los tres
discos debe estar en la posición correcta.
(a) ¿Cuántas "combinaciones de discos" diferentes posibles existen para esta
cerradura?
(b) ¿Cuál es la probabilidad de que usted si seleccionó aleatoriamente una
posición en cada disco, sea capaz de abrir la bóveda del banco?
(c) Explique por qué las "combinaciones de discos" no son combinaciones
matemáticas expresadas por la ecuación (6.15).
6.50 (a) Si una moneda se lanza siete veces, ¿cuántos resultados diferentes son posibles?
(b) Si un dado se lanza siete veces, ¿cuántos resultados diferentes son posibles?
(c) Analice las diferencias en sus respuestas a (a) y (b).
6.51 Una marca particular de pantalones de mezclilla de mujer puede ordenarse en
siete tamaños diferentes, tres colores diferentes y tres estilos diferentes.
¿Cuántos pantalones diferentes tendrían que ordenarse si una tienda deseara
tener un par de cada tipo?
6.52 Si cada letra se usa una vez, ¿cuántas "palabras" de cuatro letras pueden hacer-
se de las letras E, L, O y V?
6.53 Existen siete equipos en la División Atlántica de la Liga Nacional de Hockey:
Florida, New Jersey, New York lslanders, New York Rangers, Philadelphia, Tampa
Bay y Washington. ¿Cuántas órdenes de anotación diferentes hay para estos siete
equipos? ¿Realmente cree que todas estas órdenes son igualmente posibles'! Analice.
6.54 Refiriéndose al problema 6.53, ¿cuántas órdenes de anotación diferentes son
posibles para las primeras cuatro posiciones?
• 6.55 Un jardinero tiene seis filas disponibles en su hortaliza para plantar tomates,
berenjenas, pimientos, pepinos, frijoles y lechugas. Cada verdura dispondrá
únicamente de una fila. ¿Cuántas formas hay de situar estas verduras en su hortaliza?
6.56 La gran triple del hipódromo local consiste en elegir el orden correcto de
terminación de los tres primeros caballos en la novena carrera. Si hay 12 caballos
inscritos en la novena carrera de hoy, ¿cuántos resultados de gran triple hay?
(1.57 La quiniela del hipódromo local consiste en elegir los caballos que quedarán
primero y segundo en una carrera sin importar el orden. Si se inscriben ocho
caballos en una carrera, ¿cuántas combinaciones de quiniela hay?
• 6.58 lJn estudiante tiene siete libros que desearía acomodar en un portafolios. Sin
embargo, sólo cuatro libros caben en el portafolios. Sin importar el arreglo,
¡_cuúntas formas hay de colocar cuatro libros en un portafolios?
6.59 Una !olería diaria debe llevarse a cabo de manera que dos números ganadores
deben seleccionarse de entre 100 números. ¿Cuántas combinaciones diferentes
de números ganadores son posibles'!
6.60 Una lista de lecturas de un curso contiene 20 artículos. ¿Cuántas formas hay
de elegir tres artículos de esta lista?

[.911 Comprensión de la probabilidad y


exploración de cuestiones éticas
Las cuestiones éticas pueden surgir cuando cualquier afirmación relacionada
con la probabilidad se presenta para el consumo público, particularmente
cuando estas afirmaciones son parte de una campaña publicitaria de un pro-
ducto o servicio. Desafortunadamente, una porción sustancial de la población
no está muy familiarizada con cualquier tipo de concepto numérico (véase la

131 Capítulo C5 Probabilidad básica


rdcrencia 4) y malinterpreta el significado de la probabilidad. En algunos casos, no
>l' pretende la malinterpretación, pero en otros, los anuncios pueden intentar sin
1·scrúpulo alguno malencaminar a los clientes potenciales.
Un ejemplo de una aplicación de probabilidad potencialmente no ética se
rl'laciona con las ventas de boletos para una lotería estatal en la que el cliente
ti picamente selecciona un conjunto de números (digamos seis) de una lista
111ayor de números (digamos 54). Aunque virtualmente todos los partici-
¡i;mtes saben que es improbable ganar la lotería, también tienen muy poca
idea qué tan improbable es que seleccionen, por ejemplo, los seis números
ganadores de la lista de 54 números. Además, tienen aún menos idea qué tan
probable es que puedan ganar un premio de consolación seleccionando cua-
l ro o cinco números ganadores. Dados estos antecedentes, nos parece que
1111a reciente campaña publicitaria en la que un comercial de una lotería
l'statal decía "No nos detendremos sino hasta hacer a todos millonarios" es
l'll el mejor de los casos engañosa y en el peor, no ética. De hecho, dado que
la lotería aporta millones de dólares de ingresos a la tesorería estatal, el
htado nunca dejará de administrarla, aun cuando nadie en la vida pueda
1·star seguro de llegar a ser un millonario al ganar la lotería.
Un segundo ejemplo de una aplicación potencialmente no ética tiene que
VL'r con un boletín de inversiones que promete una devolución anual de 20%
sobre inversión con un 90% de probabilidades. En tal situación, parece
i111perativo que el servicio de inversión necesita (1) explicar la base sobre la
mal descansa esta probabilidad, (2) proporcionar la afirmación de probabili-
dad en otro formato como sería 9 posibilidades de diez, y (3) explicar qué
sucede a la inversión en el 10% de los casos en los que no se logra el 20% de
1 IL'volución

Problemas de la sección 6. I I
6.61 t·f'ldf)j.i.f·> Escriba un anuncio para la lotería estatal que describa la
probabilidad de ganar de una manera ética.
6.62 t.t;df)j.1.f.) Escriba un anuncio para el boletín de inversiones que establezca
la probabilidad de una devolución anual de 20% de una manera ética.

[.fi Fj Probabilidad básica: un repaso y una visión


preliminar
< :omo se muestra en el diagrama de resumen del capítulo de la página 234, este
iapítulo trató sobre probabilidad básica. Examinamos varias reglas de probabilidad
;1sí como aplicaciones de estas reglas a una diversidad de problemas. En la página
}.04 de la sección 6.1 se le dio una lista que ponía énfasis en los puntos importantes
para ser analizados en el capítulo. Revise la lista ahora para ver si siente que tiene
una comprensión de estos puntos clave. Para estar seguro, usted debe poder
rl'sponder las siguientes preguntas conceptuales:
l. ¿Cuáles son las diferencias entre probabilidad clásica a priori,
probabilidad clásica empírica y probabilidad subjetiva?
2. ¿Cuál es la diferencia entre un evento simple y un evento conjunto?
3. ¿Cuál es la diferencia entre unión e intersección?
4. ¿Cómo puede usarse la regla de la adición para encontrar la
probabilidad de ocurrencia del evento A o B?
S. ¿Cuál es la diferencia entre eventos mutuamente excluyentes y
colectivamente exhaustivos?

Probabilidad básica: un repaso y una visión preliminar 23 3


6. ¿Cómo se relaciona la probabilidad condicional con el concepto de
independencia estadística?
7. ¿Cómo difiere la regla de la multiplicación para los eventos que son y
no son independientes?
8. ¿Cómo puede usarse el teorema de Bayes para revisar probabilidades a
la luz de información disponible?
9. ¿Bajo qué situaciones se usan las diversas reglas de conteo?
10. ¿Cuál es la diferencia entre una permutación y una combinación?

;, : ~· ; : ¡: ·'

',
. 1.;~ ·; '• }o

~ .'

:~ r , , ~1 :.

'•,' : ,.·

Sumarlo del repaso del capítulo 6.

234 Capítulo CS Probabilidad básica


La teoría de probabilidades es la base de la inferencia estadística. Los concep-
tos aprendidos en este capítulo se extenderán a una diversidad de situaciones en
capítulos posteriores con el fin de hacer inferencias respecto a poblaciones.

Juntando todo

Términos clave
árbol de decisión 219 probabilidad clásica empírica 205
colectivamente exhaustivo 213 probabilidad condicional 218
combinaciones 231 probabilidad conjunta 212
complemento 207 probabilidad marginal 211
conjunto nulo 216 probabilidad simple 211
diagrama de Venn 208 probabilidad subjetiva 205
evento cierto 204 regla de la adición 214
evento conjunto 207 regla de la adición general 215
evento simple 206 regla de la multiplicación general 222
espacio muestral 206 regla de la multiplicación para eventos
independencia estadística 221 independientes 223
intersección 208 reglas de conteo 229
mutuamente excluyente 213 teorema de Bayes 225
permutaciones 231 tabla de clasificaciones cruzadas 208
probabilidad 204 tabla de contingencias 208
probabilidad clásica a priori 204 unión 208

Problemas de repaso del capítulo


6.63 Al evaluar las probabilidades condicionales y usar el teorema de Bayes, ¿qué
prefiere, las tablas de resumen como la tabla 6.3 o árboles de decisión como la
figura 6.5, ambos en la página 227? ¿Por qué?
6.64 Al rodar una vez un dado, ¿cuál. es la probabilidad que
(a) la cara del dado sea impar?
(b) la cara sea par o impar?
(c) la cara sea par o un uno?
(d) la cara sea impar o un uno?
(e) la cara sea par y uno?
(f) dado que la cara es impar, es un uno?
e 6.65 El director de una gran agencia de empleo desea estudiar las diversas
características de sus solicitantes de trabajo. Se ha seleccionado una muestra de
200 solicitantes para su análisis. Setenta solicitantes habían tenido sus trabajos
actuales durante al menos cinco años; 80 de los solicitantes son graduados
universitarios; 25 de los graduados universitarios duraron en sus trabajos al
menos cinco años.
(a) ¿Cuál es la probabilidad que un solicitante escogido aleatoriamente
(1) Sea un graduado universitario?
(2) Sea un graduado universitario y haya tenido su trabajo actual menos
de cinco años?
(3) Sea un graduado universitario o haya tenido su trabajo actual al menos
cinco años?
(b) Dado que un empleado particular es un graduado universitario, ¿cuál es la
probabilidad que haya durado en su trabajo menos de cinco años?

Problemas de repaso del capítulo 2J5


(c) Determine si ser graduado universitario y haber durado en el trabajo al
menos cinco años son estadísticamente independientes. (Sugerencia:
establezca una tabla de 2 x 2 o un diagrama de Venn o un árbol de
decisión para evaluar las probabilidades.)
6.66 Suponga que se ha emprendido una encuesta para determinar si existe una
relación entre el lugar de residencia y la propiedad de un automóvil
extranjero. Se seleccionó una muestra aleatoria de 200 propietarios de
automóviles de grandes ciudades, 150 de suburbios y 150 de áreas rurales con
los resultados mostrados a continuación.

Tipo de área
Propiedad del atomóvil Ciudad grande Suburbio Rural Totales
Posee en automóvil
extranjero 90 60 25 175
No posee un automóvil
extranjero 110 90 125 325
Totales 2oO 150 150 500

(a) Si se selecciona aleatoriamente un propietario de automóvil, ¿c:Uál es la


probabilidad que éste
(1) posea un automóvil extranjero?
(2) viva en un suburbio?
(3) posea un automóvil extranjero o viva en un suburbio?
(4) viva en una gran ciudad o en un suburbio?
(5) viva en una gran ciudad y posea un automóvil extranjero?
(6) viva en un área rural o no posea un automóvil extranjero?
(b) Suponga que sabemos que la persona seleccionada vive en un suburbio.
¿Cuál es la probabilidad que posea un automóvil extranjero?
(c) ¿Es el área de residencia estadísticamente independiente de si la persona
posee un automóvil extranjero? Explique.
6.67 La sociedad de finanzas del colegio de comercio de una gran universidad
estatal desearía determinar si existe una relación entre el interés de un
estudiante en las finanzas y su habilidad en matemáticas. Se selecciona una
muestra aleatoria de 200 estudiantes y se les pregunta si su habilidad en
matemáticas y su interés en finanzas es bajo, medio o alto. Los resultados
fueron los siguientes:

Habilidad en matemáticas
Interés
en finanzas Bajo Promedio Alto Totales
Bajo 60 15 15 90
Promedio 15 45 10 70
Alto 5 10 25 40
Totales 80 70 50 200

(a) Dé un ejemplo de un evento simple.


(b) Dé un ejemplo de un evento conjunto.
(c) ¿Por qué "alto interés en finanzas" y "alta habilidad en matemáticas" es
un evento conjunto?
(d) Si se selecciona un estudiante aleatoriamente, ¿cuál es la probabilidad que
(1) tenga una alta habilidad en matemáticas?
(2) tenga un interés promedio en finanzas?
(3) tenga una baja habilidad en matemáticas?
(4) tenga un alto interés en finanzas?

Capítulo a Probabilidad básica


(S) tenga una baja habilidad en matemáticas y un bajo un interés en
finanzas?
(6) tenga una alta habilidad en matemáticas y un interés promedio en
finanzas?
(7) tenga una alta habilidad en matemáticas y un alto interés en finanzas?
(8)1 tenga un alto interés en finanzas y una alta habilidad en matemáticas?
(9)1 tenga un interés promedio en finanzas o una baja habilidad en
matemáticas?
(10) tenga un bajo interés en finanzas o un interés promedio en finanzas?
¿Son estos dos eventos mutuamente excluyentes? ¿Por qué?
(11) tenga una baja habilidad en matemáticas o una habilidad promedio en
matemáticas o una alta habilidad en matemáticas? ¿Son estos eventos
mutuamente excluyentes? ¿Por qué?
(e) Suponga que sabemos que la persona seleccionada tiene una alta habilidad
en matemáticas. ¿Cuál es la probabilidad de que este individuo tenga un
alto interés en finanzas? ·
(f) Suponga que sabemos que la persona seleccionada tiene una habilidad
promedio en matemáticas. ¿Cuál es la probabilidad que este individuo tenga
un bajo interés en finanzas?
(g) ¿Son estadísticamente independientes el interés en finanzas y la habilidad
en matemáticas?
6.68 Una compañía embotelladora de refrescos mantiene registros respecto al número
de botellas de refrescos inaceptables obtenidas de las máquinas de llenado y
coronado. Basándose en datos anteriores, la probabilidad que una botella
provinieira de la máquina I y fuera inaceptable era .01 y la probabilidad que una
botella prnviniera de la máquina II y fuera inaceptable era .025. La mitad de las
botellas se llena en la máquina I y la otra mitad se llena en la máquina II.
(a) Dé un ejemplo de un evento simple.
(b) Dé un ejemplo de un evento conjunto.
(c) Si se: selecciona aleatoriamente una botella de refresco, ¿cuál es la
probabilidad que
(1) siea una botella inaceptable?
(2) haya sido llenada en la máquina II?
(3) haya sido llenada en la máquina I y sea una botella aceptable?
(4) haya sido llenada en la máquina IIy sea una botella aceptable?
(5) haya sido llenada en la máquina I o sea una botella aceptable?
(d) Suponga que sabemos que la botella fue producida en la máquina l. ¿Cuál es
la probabilidad de que sea inaceptable?
(e) Suponga que sabemos que la botella es inaceptable. ¿Cuál es la probabilidad
de qiue fue producida en la máquina I?
(f) Explique la diferencia en las respuestas a (d) y (e).
(Sugerencia: Construya una tabla de 2 x 2 o un diagrama de Venn para
eval1Uar las probabilidades.)
6.69 Un director de arte de una revisfa tiene 12 fotografías de donde elegir para S
posiciones en su revista.
(a) ¿Cuántos conjuntos diferentes de 5 fotos podría elegir de las 12 disponibles?
(b) Una vez que eligió sus 5 fotos, ¿de cuántas maneras puede acomodarlas en
la revista?
(c) ¿Cuántas permutaciones hay de 12 objetos tomados 5 a la vez? [Sugerencia:
mue:stre cómo se relaciona esta respuesta con sus respuestas a (a) y (b).]

Proyecto de base de datos de encuesta


Los siguientes ptroblemas se refieren a los datos de muestra obtenidos del cues-
tionario de la figu.ra 2.6 de las páginas 28-29 y presentado en la tabla 2.3 en
las páginas 33-40. Deben resolverse con la ayuda de un paquete de
computadora disponible.

Proyecto de base de datos de encuesta 237


Tal vez recordemos que como asistente de investigación de Bud Conley, vicepresidente de
recursos humanos de Industrias Kalosha, se le pidió obtener clasificaciones cruzadas de las
preguntas que tienen que ver con variables categóricas en la Encuesta sobre la satisfacción de
los empleados (véanse los problemas 5.29-5.40 de la página 188). Suponga que con el fin de
comprender las relaciones entre las variables categóricas, desearíamos determinar lo siguiente:
6. 70 Refiriéndonos al genéro (pregunta 5) y a la satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad que un empleado seleccionado aleatoriamente:
(1) sea un hombre?
(2) esté muy satisfecho con el trabajo?
(3) sea un hombre y esté muy satisfecho con el trabajo?
(4) sea una mujer o esté muy satisfecho con el trabajo?
(b) Dado que el empleado seleccionado sea un hombre, ¿cuál es la probabilidad
que esté muy satisfecho con su trabajo?
(c) Dado que el empleado seleccionado sea una mujer, ¿cuál es la probabilidad
que esté muy satisfecha con su trabajo?
(d) ¿Es el género estadísticamente independiente de la satisfacción con el
trabajo? Explique.
6.71 Refiriéndonos a las características más importantes del trabajo (pregunta 11) y a
la satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad que un empleado seleccionado aleatoriamente:
(1) considere un alto ingreso como la característica más importante del
trabajo?
(2) esté un poco insatisfecho con el trabajo?
(3) considere un alto ingreso como la característica más importante del
trabajo y esté un poco insatisfecho con el trabajo?
(4) considere un alto ingreso como la característica más importante del
trabajo o esté un poco insatisfecho con el trabajo?
(b) Dado que el empleado seleccionado considere un alto ingreso como la
característica más importante del trabajo, ¿cuál es la probabilidad de que
esté un poco insatisfecho con el trabajo?
(c) ¿Es la característica más importante del trabajo estadísticamente
independiente de la satisfacción con el trabajo? Explique.
6.72 Refiriéndonos a la forma en que la gente sale adelante (pregunta 12) y a la
satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad de que un empleado seleccionado aleatoriamente:
(1) sienta que la forma en que la gente sale adelante es el trabajo duro?
(2) esté moderadamente satisfecho con su trabajo?
(3) sienta que la forma en que la gente sale adelante es el trabajo duro y esté
moderadamente satisfecho con su trabajo?
(4) sienta que la forma en que la gente sale adelante es el trabajo duro o esté
moderadamente satisfecho con su trabajo?
(b) Dado que el empleado seleccionado siente que la forma en que la gente sale
adelante es el trabajo duro, ¿cuál es la probabilidad que esté
moderadamente satisfecho cori su trabajo?
(c) ¿Es la forma en que la gente sale adelante estadísticamente independiente de
la satisfacción con el trabajo? Explique.
6.73 Refiriéndonos a la pertenencia a un sindicato laboral (pregunta 14) y a la
satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad de que un empleado seleccionado aleatoriamente:
(1) sea miembro de un sindicato laboral?
(2) esté moderadamente satisfecho con su trabajo?
(3) sea miembro de un sindicato laboral y esté moderadamente satisfecho
con su trabajo?
(4) sea miembro de un sindicato laboral o esté moderadamente satisfecho
con su trabajo?
(b) Dado que el empleado seleccionado sea miembro de un sindicato laboral,
¿cuál es la probabilidad que esté moderadamente satisfecho con su
trabajo?
(c) ¡j:s la pertenencia a un sindicato laboral estadísticamente independiente
de la satisfacción con el trabajo?

2J8 Capítulo CS Probabilidad básica


6.74 Refiriéndonos a la probabilidad de promoción (pregunta 18) y a la satisfacción
con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad que un empleado seleccionado aleatoriamente:
(1) sienta que es probable que sea promovido?
(2) esté moderadamente satisfecho con su trabajo?
(3) sienta que es probable que sea promovido y esté moderadamente
satisfecho con su trabajo?
(4) sienta que es probable que sea promovido o esté moderadamente
satisfecho con su trabajo?
(b) Dado que es probable que el empleado seleccionado sea promovido, ¿cuál
es la probabilidad que esté moderadamente satisfecho con su trabajo?
(c) ¿Es la probabilidad de promoción estadísticamente independiente de la
satisfacción con el trabajo?
6.75 Refiriéndonos a si su trabajo le permite participar en la toma de decisiones que
afectan su trabajo (pregunta 21) y a la satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad de que un empleado seleccionado aleatoriamente:
(1) algunas veces participe en la toma de decisiones que afectan su trabajo?
(2) esté muy satisfecho con su trabajo?
(3) algunas veces participe en la toma de decisiones que afectan su trabajo
y esté muy satisfecho con su trabajo?
(4) algunas veces participe en la toma de decisiones que afectan su trabajo
o esté muy satisfecho con su trabajo? ·
(b) Dado que el empleado seleccionado algunas veces participe en la toma de
decisiones que afectan su trabajo, ¿cuál es la probabilidad que esté muy
satisfecho con su trabajo?
(c) ¿Es la participación en la toma de decisiones estadísticamente
independiente de la satisfacción con el trabajo? Explique.
6.76 Refiriéndonos a si su trabajo le permite participar en decisiones
presupuestarias (pregunta 22) y a la satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad que un empleado seleccionado
aleatoriamente:
(1) participe en decisiones presupuestarias?
(2) esté muy satisfecho con su trabajo?
(3) participe en decisiones presupuestarias y esté muy satisfecho con su
trabajo?
(4) participe en decisiones presupuestarias o esté muy satisfecho con su trabajo?
(b) Dado que el empleado seleccionado participa en decisiones presupuestarias,
¿cuál es la probabilidad que esté muy satisfecho con su trabajo?
(c) ¿Es la participación en decisiones presupuestarias estadísticamente
independiente de la satisfacción con el trabajo? Explique.
6.77 Refiriéndonos a qué tan orgulloso está el empleado de trabajar para la
organización (pregunta 23) y a la satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad que un empleado seleccionado aleatoriamente:
(1) esté muy orgulloso?
(2) esté muy satisfecho con su trabajo?
(3) esté muy orgulloso y esté muy satisfecho con su trabajo?
(4) esté muy orgulloso o esté muy satisfecho con su trabajo?
(b) Dado que el empleado seleccionado esté muy orgulloso, ¿cuál es la
probabilidad de que esté muy satisfecho con su trabajo?
(c) ¿Es el orgullo de trabajar para la organización estadísticamente
independiente de la s,atisfacción con el trabajo? Explique.
6.78 Refiriéndonos a las relaciones entre gerencia y empleados (pregunta 25) y a la
satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad de que un empleado seleccionado aleatoriamente:
(1) describa las relaciones como muy buenas?
(2) esté muy satisfecho con su trabajo?
(3) describa las relaciones como muy buenas y esté muy satisfecho con su
trabajo?
(4) describa las relaciones como muy buenas o esté muy satisfecho con su
trabajo?

Proyecto de base de datos de encuesta 239


6.79 Refiriéndonos a las relaciones entre compañeros y colegas (pregunta 26) y a la
satisfacción con el trabajo (pregunta 9)
(a) ¿Cuál es la probabilidad que un empleado seleccionado aleatoriamente:
(1) describa las relaciones como muy buenas?
(2) esté muy satisfecho con su trabajo?
(3) describa las relaciones como muy buenas y esté muy satisfecho con su
trabajo?
(4) describa las relaciones como muy buenas o esté muy satisfecho con su
trabajo?
(b) Dado que el empleado seleccionado describe las relaciones como muy
buenas, ¿cuál es Ja probabilidad que esté muy satisfecho con su trabajo?
(c) ¿Son las relaciones entre compañeros y colegas estadísticamente
independientes de la satisfacción con el trabajo? Explique.
6.80 M;d'li•i·f•P Basándose en Jos resultados de los problemas 6.70-6.79, escriba
una carta a Bud Conley, el vicepresidente de recursos humanos de Industrias
Kalosha, detallando sus hallazgos.

Nota final
l. En una tabla de contingencias con R filas y C columnas, la
regla tendría que haber sido probada para (R-l)(C-1) com-
binaciones separadas de A y B.

Referencias
l. Hays, W. L., Statistics for the Social Sciences, 3a. ed. (Nueva 3:Mosteller, F. R. Rourke y G. Thomas, Probability with
York: Holt, Rinehart and Winston, 1980). Statistical Applications, 2a. ed. (Reading, MA: Addison-
2. Kirk, R. E., ed., Statistical lssues: A Reader for the Behavioral Wesley, 1970).
Sciences (Belmont, CA: Wadsworth, 1972). 4. Paulos, f. A. lnnumeracy (Nueva York: Hill and Wang, 1988).

240 Capitulo CS Probabilidad básica


capítulo

. 11tri'· 'buc1ones
ªI. gunas d.
~ •
importantes de
probabilidad discreta
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar una comprensión del
concepto de esperanza matemática y
CAPÍTULO sus aplicaciones en la toma de
decisiones y mostrar cómo ciertos
tipos de datos discretos pueden ser
representados por tipos particulares
de modelos matemáticos.

241
111 Introducción
En el capítulo 6 establecimos varias reglas de probabilidad y examinamos algunas
técnicas de conteo. En este capítulo, utilizaremos tal información para desarrollar
el concepto de esperanza matemática y elaborar algunos modelos de distribuciones
de probabilidad que representen fenómenos discretos de interés. En particular,
comenzaremos definiendo la distribución de probabilidad y luego analizando las
dos características básicas de cualquier distribución de probabilidad, su media o
valor esperado, [E(X)], y su varianza, cr;. Después desarrollaremos dos distribu-
ciones de probabilidad discreta importantes, la binomial y la Poisson, y también
indicaremos las circunstancias en las cuales se puede usar la distribución Poisson
para aproximar la binomial.
Al terminar este capítulo, usted debe ser capaz de:
l. Calcular el valor esperado y la varianza de una distribución de
probabilidad discreta.
2. Comprender los supuestos de la distribución binomial y saber cómo
encontrar cualquier probabilidad binomial.
3. Comprender los supuestos de la distribución de Poisson y saber cómo
encontrar cualquier probabilidad de Poisson.
4. Saber cuándo y cómo puede usarse la distribución de Poisson para
aproximar la distribución binomial.

111 La distribución de probabilidad


para una variable aleatoria discreta
Como se analizó en la sección 2.3, una variable aleatoria numérica es cierto fenó-
meno de interés cuyas respuestas o resultados pueden expresarse numéricamente.
Tal variable aleatoria también puede clasificarse como disqet¿¡ o coqtipua,_ origi-
nándose la primera de un proceso de conteo y la última de un proceso de medi-
ción. Este capítulo trata ciertaS--ClrStñbuciones de pfobabilid-ad que representan
variables aleatorias discretas. Como ejemplo de la Encuesta sobre la satisfacción de
los empleados desarrollada en el capítulo 2, las respuestas a la pregunta sobre el
número (total) de promociones recibidas se refieren a una distribución de proba-
bilidad para una variable aleatoria discreta.
Podemos definir la distribución de probabilidad para una variable aleatoria
dhcreta de la siguiente manera:
Una distribucitm de probabilidad para una variable aleatoria
discreta es un listado mutuamente excluyente de todos los resultados
posibles para esa variable aleatoria, tal que una probabilidad particular
de ocurrencia esté asociada con cada resultado.
Suponiendo que un dado no cargado de seis lados no se quedará parado en un
borde o rodará hasta perderse de vista (eventos nulos), la tabla 7.1 representa la dis-
tribución de probabilidad para los resultados de una sola vuelta del dado no car-
gado. Puesto que se incluyen todos los resultados posibles, este listado está
completo (o es exhaustivo colectivamente) y por tanto, las probabilidades deben
sumar l. Después podemos usar esta tabla para obtener diversas probabilidades
para cuando se arroja un dado no cargado.

242 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


Tabla 7 .1 Distribución de proba·
bilidad teórica de los
resultados de arrojar
un dado no cargado.
Cara del resultado Probabilidad

1 [] 1/6

2[] 1/6

3 IS] 1/6

4 i:;::;J 1/6

5 [Z] 1/6

..
6 !TI] 1/6

Total

La probabilidad de una cara IS] es

Usando la regla de la adición para eventos mutuamente excluyentes, la proba-


bilidad de una cara impar es

P(impar)=P([J) + P(IS]) + P(i:;::;))

= 1/6 + 1/6 + 1/6 = 3/6


/\demás, la probabilidad de una cara de l::J o menor es
P ( [J o menor)= P ( [ ] ) + P ( [J)

= 1/6 + 1/6 = 2/6


Y la probabilidad de una cara mayor que !TI] es

fil Esperanza matemática y valor monetario


esperado
Con el fin de resumir una distribución de probabilidad discreta, calcularemos sus
características importantes, la media y la desviación estándar.

7.J.1 Valor esperado de una variable discreta


La media(µ) de una distribución de probabilidad es el valor esperado de su varia-
ble aleatoria.

Esperanza matemática y valor monetario esperado 24:1


El valor esperado de una variable aleatoria discreta puede
considerarse como su promedio pesado sobre todos los resultados posibles,
siendo los pesos la probabilidad asociada con cada uno de los resultados.
Esta medición de resumen puede obtenerse multiplicando cada resultado posi-
ble X; por su probabilidad correspondiente P (X;) y luego sumando los productos
resultantes. Por tanto, el valor esperado de la variable aleatoria discreta X, sim-
bolizado como E(X), puede expresarse de la siguiente manera:

zX
N.

. µx = E(X) = 1PJ.X 1 ) (7.1)


l=l . . '. ·'' .

donde X= variable aleatoria discreta de interés


X¡ = iésimo resultado de X
P(X;) = probabilidad de ocurrencia del iésimo resultado de X
i = 1, 2, ... , N

Para la distribución de probabilidad teórica de los resultados de arrojar un


dado no cargado (tabla 7.1), el valor esperado de arrojarlo puede calcularse como
N
µX = E(X) = L X;P(X¡) = (1)(1/6) + (2)(1/6) + (3)(1/6) + (4)(1/6) + (5)(1/6) + (6)(1/6)
i =1

= 1/6 + 2/6 + 3/6 + 4/6 + S/6 + 6/6

= 21/6= 3.5

Observe que el valor esperado de los resultados de arrojar un dado no cargado


no es "literalmente significativo", puesto que nunca podremos obtener una cara
de 3.5. Sin embargo, podemos esperar observar las seis caras distintas con igual
probabilidad, así que deberíamos tener aproximadamente el mismo número de
unos, doses, ... y seises. A la larga, después de muchos tiros, el valor promedio sería
3.S.
Para hacer significativa esta situación particular, sin embargo, introducimos el
siguiente juego de feria: ¿cuánto dinero deberíamos estar dispuestos a pagar para
tener la oportunidad de arrojar un dado no cargado si se nos debiera pagar, en
dólares, la cantidad de la cara del dado? Puesto que el valor esperado de arrojar un
dado no cargado es 3.S, la gananciít esperada a la larga es $3.SO por tiro. Esto sig-
nifica que, en cualquier tiro particular, nuestra ganancia será de $1.00, $2.00, ... o
6.00, pero después de muchas veces de arrojar el dado, se puede esperar que las
ganancias promedien $3.SO por tiro. Ahora, si deseamos que el juego sea justo, ni:
nosotros ni nuestro oponente (la "casa") debería tener ventaja. Por consiguiente,:
deberíamos estar dispuestos a pagar $3.SO por tiro para jugar. Si la casa desea
cobrarnos $4.00 por tiro, podemos esperar perder de tal juego, en promedio, $.SO
por tiro con el tiempo y, a menos que derivemos alguna satisfacción intrínseca .
(que valga en promedio $.SO por tiro), debemos abstenernos de participar en tal
juego.
Por lo general, sin embargo, en cualquier casino o juego de feria, la ganancia espe-
rada de los participantes a la larga es negativa, de otra manera la casa no tendría nego-'.
cio (referencias 5 y 6). Juegos tales como el juego de dados, los sietes, el tiro de tres
dados o la ruleta (véase la referencia S) atraen grandes números de participantes y, en
cada caso, la ganancia esperada con el tiempo favorece a la casa. Éste es el caso porque;'

244 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


algo además del valor monetario esperado es el criterio final usado por los partici-
pantes. El concepto de la utilidad esperada del dinero se analiza en la referencia 2.
f·'.ste es el criterio que los participantes racionales consideran, implícita o explícita-
mente cuando toman parte en tales juegos. Por otra parte, sin embargo, la casa usa
l'l criterio del valor monetario esperado cuando participa en tales juegos.

7. 3 .1 Varianza y desviación estándar de una variable


aleatoria discreta
La varianza (cr;) de una variable aleatoria discreta puede
definirse como el promedio pesado de las diferencias cuadradas entre
cada resultado posible y su media, siendo los pesos las probabilidades de
cada uno de los resultados respectivos.
Esta medición de resumen puede obtenerse multiplicando cada diferencia
cuadrada posible (X; - µJ 2 por su probabilidad correspondiente P(X;) y luego
sumando los productos resultantes. Por tanto, la varianza de la variable aleatoria
discreta X puede expresarse de la siguiente manera:

N ,.

·cr; = L(X 1 -- µ") 2 P(X 1 ) (7.2)


1=1 ...

donde X= variable aleatoria discreta de interés


X; = iésimo resultado de X
P(XJ = probabilidad de ocurrencia del iesimo resultado de X
i = 1, 2, ... , N

Además, la desviación estándar (o) de una variable aleatoria discre-


ta está dada por

N ,·,, '
.. ·.,,
ax= L(X, :....µ,) 2 P(X 1) (7.3) ·.•·
¡=1

Para la distribución de probabilidad teórica de los resultados de arrojar un dado no


cargado (tabla 7.1) la varianza y la desviación estándar pueden calcularse mediante

N
o;= L(X¡ -µ,) 2 P(X;)
i =1

= (1- 3.5) 2 (1/6) + (2 - 3.5) 2 (1/6) + (3- 3.5) 2 (116) + (4- 3.5) 2 (1/6)
+ (5- 3.5) 2 (1/6) + (6 - 3.5) 2 (1/6)
= 2.9166

Esperanza matemática y valor monetario esperado 245


ax= 1.71
En términos de nuestro juego de feria, la ganancia media por tiro es de $3.50 con
una desviación estándar de $1.71. De acuerdo con la regla de Bienaymé-
Chebyshev ~ección 4.8.7), se esperaría que la mayoría de nuestras ganancias
estuviera a --l2= 1.414 desviaciones estándar de la medida (es decir, µx ± l.414crx).
De manera más probable, sobre una base por tiro, esperaríamos una ganancia
entre $2.00 y $5.00 [es decir, los resultados enteros entre los valores 3.50 ±
(1.414)(1.71)] y no ganar con mucha frecuencia si jugar nos está costando $4.00
el tiro.

7. 3. 3 Valor monetario esperado


Como presuntos participantes en el juego de feria, la pregunta más importante que
tuvimos que abordar fue si era o no rentable para nosotros participar en el juego.
Para responder esta pregunta, tuvimos que darnos cuenta que la variable aleatoria
de interés desde el "punto de vista del juego" no era realmente X, el resultado de
la cara del dado (como en la tabla 7.1 de la página 243), sino más bien V, el valor en
dólares asociado con el resultado de arrojar el dado. Por tanto, para participar en el
. juego, los valores para V variaban entre -$3.00 y +$2.00, puesto que cada tiro del
dado costaba $4.00 (véase la tabla 7.2).
Tabla 7.2 Distribución de probabilidad teórica
que representa el valor en dólares de
participar en un juego de feria.
Resultado (X) Valor en dólares (V) Probabilidad

1 c:J -3 1/6

2i:::J -2 1/6

3 [S] -1 1/6

4§ o 1/6

5~ 1 1/6

6[!} 2 1/6
1

Para propósitos de toma de decisiones, el objetivo es comparar los valores


monetarios esperados (denotados por EMV) entre estrategias alternativas
(como "entrar al juego de feria" contra "no jugar"). El valor monetario esperado
indica la ganancia promedio que se obtendría si se seleccionara una estrategia par-
ticular en muchas situaciones de toma de decisiones (como "jugar muchas veces").
Por tanto, participar en el juego
N
EMV(jugó) = E(V) = L V¡P(V 1) = (-3)(1/6) + (-2)(116) + L + (2)(1/6)
i =1

= -.50

246 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


mientras que no participar en el juego
EMV (no jugó)= E(V) =O
Así pues, nuestra ganancia esperada por participar es negativa a la larga. En prome-
dio, estaríamos perdiendo 50 centavos cada vez que decidimos arrojar el dado. Esto
significa que si jugáramos una tarde en la que el dado se arroja 100 veces, espe-
raríamos recolectar $350 pero pagaríamos $400. Por lo tanto, al final del juego
esperaríamos perder $50 en los 100 tiros, un promedio de SO centavos por tiro (o
12 t centavos por dólar apostado).

e Asignación de probabilidades Para calcular el valor monetario esperado


de las diversas estrategias, debe asignarse un conjunto de probabilidades al listado
mutuamente excluyente y colectivamente exhaustivo de resultados y eventos. En
muchos casos, no se dispone de ninguna información sobre la probabilidad de
ocurrencia de los diversos eventos y, por tanto, se asignan probabilidades iguales.
En primer lugar, se debe disponer de información de la experiencia pasada que
puede usarse para estimar las probabilidades. Segundo, los gerentes u otro personal
de supervisión pueden hacer evaluaciones subjetivas de la probabilidad de los
diversos eventos. Tercero, las probabilidades de los eventos podría seguir una dis-
tribución de probabilidad discreta particular como la distribución binomial o la
Poisson. Estas dos distribuciones de probabilidad serán el tema en lo que resta de
este capítulo.

Problemas de la sección 7.3


• 7.1 Dadas las siguientes distribuciones de probabilidad:

Distribución A Distribución B
X P(X) X P(X)
o .so o .os
1 .20 1 .10
2 .15 2 .lS
3 .10 3 .20
4 .os 4 .so

(a) Calcule la medida para cada distribución.


(b) Calcule la desviación estándar para cada distribución.
(c) t.SMl•wPCompare los resultados de (a) y (b). Analice lo que ha
aprendido.
7.2 Dadas las siguientes distribuciones de probabilidad:

Distribución e Distribución D
X P(X) X P(X)
o .20 o .10
1 .20 1 .20
2 .20 2 .40
3 .20 3 .20
4 .20 4 .10

Esperanza matemática y valor monetario esperado 247


(a) Calcule la media para cada distribución.
(b) Calcule la desviación estándar para cada distribución.
(c) r·fflil'}j,f:f•> Compare los resultados de (a) y (b). Analice lo que ha
aprendido
7.3 Usando los registros de la compañía de los últimos 500 días de trabajo, el
gerente de Torrisi Motors, un comerciante de automóviles suburbanos, ha
resumido el número de automóviles vendidos al día en la siguiente tabla:

Número de carros Frecuencia


vendidos al día de ocurrencia
o 40
1 100
2 142
3 66
4 36
5 30
6 26
7 20
8 16
9 14
10 8
11 2
Total 500

(a) Forme la distribución de probabilidad empírica (es decir, la distribución


de frecuencia relativa) para la variable aleatoria discreta X, el número de
automóviles vendidos diariamente.
(b) Calcule la media o número esperado de automóviles vendidos
diariamente.
(c) Calcule la desviación estándar.
(d) ¿Cuál es la probabilidad de que en un día determinado
(1) se vendan menos de 4 automóviles?
(2) se vendan a lo más 4 automóviles?
(3) se vendan al menos 4 automóviles?
(4) se vendan exactamente 4 automóviles?
(5) se vendan más de 5 automóviles?
(e) f.fOJdlJl•t·f•> Escriba una carta al gerente analizando el desempeño del
comerciante durante los últimos 500 días de trabajo.
7.4 Un empleado de una concesión de ventas en un estadio de béisbol debe elegir
entre trabajar de~rás del mostrador de hot dogs y recibir una suma fija de $50
por la tarde o andar en las tribunas vendiendo cerveza sobre una base de
comisión. Si se elige esto último, el empleado puede ganar $90 durante una
noche calurosa, $70 una noche moderada, $45 una noche fresca y$ 15
una noche fría. En esta época del año, las probabilidades de una noche
calurosa, moderada, fresca o fría son, respectivamente, 0.1, 0.3, 0.4 y 0.2.
(a) Determine la media o el valor esperado que se ganaría vendiendo cerveza
esa noche.
(b) Calcular la desviación estándar.
~ (e) ¿Qué producto vendería el empleado? ¿Por qué?
7.5 Se celebrará una lotería estatal en la que se deben vender 10 000 boletos a $1
cada uno. Se seleccionarán aleatoriamente seis boletos ganadores: un ganador
del gran premio de $5000, un ganador del segundo premio de $2000, un
ganador del tercer premio de $1000, y otros tres ganadores de $500 cada uno.
(a) Calcule el valor esperado de participar en este juego.
(b) r:t;Mi•t.f•> ¿Participaría en este juego? ¿Por qué?

248 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


7.6 Consideremos el juego de dos dados. La variable aleatoria de interés representa
el total de los dos números (es decir, caras) que ocurren cuando se arrojan los
dos dados no cargados, La distribución de probabilidad se da abajo:

X P(X)

2 1/36 ·L
3 2/36
4 3/36
5 4/36 -1
6 5/36
7 6/36 - '
8 5/36 ~·
9 4/36
10 3/36 \
11 2/36 \
12 1/36 -,f...
1

(a) Determine la media o suma esperada de arrojar un par de dados no


cargados.
(b) Calcule la varianza y la desviación estándar.
El juego de dados trata de hacer rodar un par de ellos, según las reglas.
Una apuesta llamada "field bet" (apuesta de campo) consiste en hacerlo
rodar una vez y se basa en los números que muestran los dados. Por cada
apuesta de $1.00 que usted haga, puede perder $1.00 si la suma es 5, 6, 7
u 8; usted puede ganar $1.00 si la suma es 3, 4, 9, 10 u 11; o puede ganar
$2.00 si la suma es 2 ó 12.
(c) Forme la función de distribución de probabilidad que represente los
diferentes resultados que son posibles en una apuesta de campo.
(d) Determine la media de esta distribución de probabilidad.
(e) ¿Cuál es la gananda (o pérdida) esperada, a la larga, del jugador de una
apuesta de campo de $1.00? Interprete.
(f) ¿Cuál es la ganancia (o pérdida) esperada, a la larga, de la casa de una
apuesta de campo de $1.00? Interprete.
(g) f.fOid'Jl•i·f•r ¿Jugaría este juego y haría una apuesta de campo?
7.7 En el juego de feria de sietes, se arroja una vez un par de dados no cargados y la
suma resultante determina si el jugador gana o pierde su apuesta. Por ejemplo,
el jugador puede apostar $1.00 a que la suma es menor que 7, es decir, 2, 3, 4, 5
o 6. Para esta apuesta, el jugador perderá $1.00 si el resultado es igual o mayor
que 7 o ganará $1.00 si el resultado es menor que 7. De manera similar, el
jugador puede apostar $1.00 a que la suma es mayor que 7, es decir, 8, 9, 10, 11
o 12. Aquí el jugador gana $1.00 si el resultado es mayor que 7, pero pierde
$1.00 si el resultado es 7 o menor. Un tercer método de juego es apostar $1.00
sobre el resultado de 7. Para esta apuesta, el jugador ganará $4.00 si el resultado
del tiro es 7 y perderá $1.00 de otra manera.
(a) Forme la función de distribución de probabilidad que represente los
diferentes resultados que son posibles para una apuesta de $1.00 de que
sea menor que 7.
(b) Forme la función de distribución de probabilidad que represente los
diferentes resultados que son posibles para una apuesta de $1.00 de que
sea mayor que 7.
(c) Forme la función de distribución de probabilidad que represente los
diferentes resultados que son posibles para una apuesta de $1.00 de que sea 7.
(d) Pruebe que la ganancia (o pérdida) esperada a la larga para el jugador es
igual, sin importar el método de juego que se utilice.
(e) f.fQil'Jl•t.f•r ¿Preferiría jugar sietes o hacer una apuesta de campo en el
juego del tiro perdedor (problema 7.6)? ¿Por qué?

Esperanza matemática y valor monetario esperado 249


'f 7.8 ¿Por qué el término valor esperado tiene ese nombre, aun cuando en muchos
casos (como en nuestro juego de feria de la página 244) nunca verá el valor
esperado como el resultado de cualquier experimento simple? (Es decir, ¿en
qué sentido se espera un valor que nunca ocurre?)
7.9 Sujponga que un escritor está tratando de elegir entre dos compañías editoras
que están compitiendo por los derechos de comercialización de su nueva
novela. Prentice Hall le ha ofrecido al autor $10 000 más $2.00 por cada libro
vendido. Random House le ha ofrecido al autor $2 000 más $4.00 por cada
libro vendido. El autor estima la distribución de la demanda de este libro de la
siguiente manera:

Número de libros vendidos Probabilidad


1,000 .45
2,000 .20
5,000 .15
10,000 .10
50,000 .10

h4ii91·M·> Usando el criterio del valor monetario esperado, determine si el


autor debe vender los derechos de comercialización a Prentice Hall o a
Random House. Analice.
e 7 .10 Isllander Fishing Co. compra almejas a $1.50 la libra a pescadores de Peconic
Bay para su venta a diversos restaurantes de Nueva York a $2.50 la libra. Las
almejas no vendidas a los restaurantes para finales de la semana pueden
venderse a una compañía local de sopas a $0.50 la libra. Las probabilidades de
los diversos niveles de demanda son los siguientes:

Demanda (libras) Probabilidad


500 .2
1,000 .4
2,000 .4
(Sugerencia: La compañía puede cambiar
500 libras, 1000 libras, o 2000 libras.)

Hiii'li·i·f·> Usando el criterio del valor monetario esperado, determine el


ntúmero óptimo de libras de almejas que la compañía debería comprarle a los
pescadores. Analice.
7.11 La cadena LeFleur Garden Center compra árboles de Navidad de un proveedor
para su venta durante la temporada de vacaciones. Los árboles se compran a
$10.00 cada uno y se venden a $25.00 cada uno. Los árboles no vendidos
p1Ueden venderse en $3.00 cada uno. La probabilidad de los diversos niveles de
dtemanda es la siguiente:

Demanda (número de árboles) Probabilidad


100 .2
200 .6
500 .2
(Sugerencia: La cadena puede comprar árboles en
lotes de 100, 200 o 500.)

250 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


f·fíiil'Jl•f.t•P Usando el criterio del valor monetario esperado, determine el
número de árboles que la cadena debería comprarle al proveedor. Analice.
7.12 Un inversionista tiene una cierta cantidad de dinero disponible para Invertir
. ahora. Se dispone de tres selecciones de cartera alternativas. Las ganancias
estimadas de cada agenda bajo cada una de las condiciones económicas se
indican en la siguiente tabla de ganancias:

Selección de cartera
Evento A B e
La economía declina $500 -$2,000 -$7,000
Ningún cambio $1,000 $2,000 -$1,000
La economía se expande $2,000 $5,000 $2,0000

Basándose en su propia experiencia anterior, el investigador asigna las


siguientes probabilidades a cada condición económica:
P (economía declina)= .30
P (ningún cambio) = .50
P (economía se expande)= .20

f·f&d'Jl•t.i•P Determine la mejor selección de cartera para el inversionista de


acuerdo con el criterio del valor monetario esperado. Analice.

Di Funciones de distribución de
probabilidad discreta
La distribución de probabilidad para una variable aleatoria discreta puede ser
l. Un listado teórico de resultados y probabilidades (como en la tabla
7.1), que pueden obtenerse de un modelo matemático que represente
algún fenómeno de interés.
2. Un listado empírico de resultados y sus frecuencias relativas
observadas.
3. Un listado subjetivo de resultados asociados con sus probabilidades
subjetivas que representan el grado de convicción del tomador de
decisiones respecto a la probabilidad de los resultados posibles (como
se analiza en la sección 6.2).
En este capítulo nos interesaremos principalmente en el primer tipo de
distribución de probabilidad, el listado obtenido de un modelo matemático que
representa algunos fenómenos de interés.
Un modelo se considera una representación en miniatura de algún
fenómeno subyacente. En particular, un modelo matemático es una
expresión matemática que representa cierto fenómeno subyacente. Para
variables aleatorias discretas, esta expresión matemática se conoce como
función de distribución de probabilidad.
Cuando se dispone de tales expresiones matemáticas, puede calcularse la
probabilidad exacta de ocurrencia de cualquier resultado particular de la variable
aleatoria. En tales casos, entonces, toda la distribución de probabilidad puede

Funciones de distribución de probabilidad discreta 251


obtenerse y enumerarse. Por ejemplo, en la función de distribución de probabili-
dád representada en la tabla 7.1, se dice que la variable aleatoria discreta de interés
sigue la distribución de probabilidad uniforme. La característica esencial de
la distribución uniforme es que es igualmente posible que ocurran todos los resul-
tados de la variable aleatoria. Por tanto, la probabilidad de que aparezca la cara [Z]
del dado no cargado es la misma que para cualquier otro resultado, 1/6, puesto que
hay seis resultados posibles.
Además, se han desarrollado otros tipos de modelos matemáticos para repre-
sentar diversos fenómenos discretos que ocurren en la ciencias sociales y naturales,
en investigación médica y en los negocios. Los más útiles representan datos carac-
terizados por la distribución de probabilidad binomial y la distribución de proba-
bilidad de Poisson. Ahora desarrollaremos estas dos distribuciones.

Di Distribución binomial
La distribución binomial es una distribución de probabilidad discreta que es
extremadamente útil para describir muchos fenómenos.
La distribución binomial posee cuatro propiedades esenciales:
l. Las observaciones posibles pueden obtenerse mediante dos métodos
de muestreo distintos. Cada observación puede considerarse como
seleccionada de una población infinita sin reemplazo o de una población
finita con reemplazo.
2. Cada observación puede clasificarse en una de dos categorías
mutuamente excluyentes y colectivamente exhaustivas, usualmente
denominadas éxito y fracaso.
3. La probabilidad de que una observación se clasifique como éxito, p, es
constante de observación a observación. Por tanto, la probabilidad de
que una observación se clasifique como fracaso, 1 - p, es constante
sobre todas las observaciones.
4. El resultado (es decir, el éxito o fracaso) de cualquier observación es
independiente del resultado de cualquier observación.
La variable aleatoria discreta o fenómeno de interés que sigue a la distribución.
binomial es el número de éxitos obtenidos en una muestra de n observaciones. Así
pues, la distribución binomial ha gozado de numerosas aplicaciones:
• En juegos de azar:
¿Cuál es la probabilidad de que el rojo salga 15 o más veces en 19
giros de la rueda de la ruleta?
• En el control de calidad de productos:
¿Cuál es la probabilidad de que en una muestra de 20 llantas del
mismo tipo, ninguna salga defectuosa si 8% de tales llantas
producidas en una planta particular son defectuosas?
• En educación:
¿Cuál es la probabilidad de que un.estudiante pueda pasar un examen
de diez preguntas de opción múltiple (cada pregunta conteniendo
cuatro opciones) si el estudiante adivina en cada pregunta? (Pasar se
define como obtener 60% de los puntos correctos, es decir, obtener al
menos seis de diez puntos correctos.)
• En fin_anzas:
¿Cuál es la probabilidad de que un valor particular muestre un
incremento en su precio de cierre diariamente durante las siguientes
diez sesiones de negocios (consecutivas), si el precio del mercado de
valores realmente cambia aleatoriamente?

2S2 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


En cada una de estos cuatro ejemplos, las cuatro propiedades de la distribución
binomial se satisfacen claramente. Para el ejemplo de la ruleta, se puede construir
1111 conjunto particular de giros como muestra tomada de un conjunto particular
dl• giros sin reemplazo. Al girar la rueda de la ruleta, cáda observación se clasifica
rnmo rojo (éxito) o no rojo (fracaso). La probabilidad de girar en rojo, p, en una
l'llt•da de ruleta norteamericana es de 18/38 y se supone que permanece estable
durante todas las observaciones. Por tanto, la probabilidad de fracaso (girar negro
o verde), l -p, es 20/38 cada vez que la rueda de la ruleta gira. Además, la rueda de
In ruleta no tiene memoria, el resultado de cualquier giro es independiente de los
~Iros precedentes o siguientes, así que, para el ejemplo, la probabilidad de obtener
rojo en el 320, giro, dado que los 31 giros anteriores fueron todos rojos, siguen
1'11l'ndo igual a p, 18/38, si la rueda de la ruleta está bien calibrada (véase la figu-
r11 7.1).

PIGURA 7.1
Rueda de ruleta americana.

. En el ejemplo del control de calidad, la muestra de llantas también se selec-


! clona sin reemplazo de un proceso de producción continuo, una población
( Infinita de llantas fabricadas. 1 Al inspeccionar cada llanta, se clasifica como defec-
: ,tuosa o no defectuosa, de acuerdo con la definición operacional de las especifica-
·~lones que se han desarrollado previamente. En toda la muestra de llantas, la
·probabilidad de que cualquier llanta se clasifique como defectuosa, p, es .08, así
'que la probabilidad de que cualquier llanta se clasifique como no defectuosa, p, es
,92. (Observe que cuando buscamos llantas defectuosas, el descubrimiento de tal
'evento se considera como éxito. Éste es uno de los casos a los que hicimos anterior-
,mente referencia en los que, por propósitos estadísticos, el término "éxito" puede
referirse a fracasos comerciales, decesos debidos a una enfermedad particular y
otros fenómenos que, en terminología no estadística, se considerarían fracasos.) El
:proceso de producción se supone estable. Además, para tal proceso de producción,

Distribución binomial 153


la probabilidad de que una llanta se clasifique como defectuosa o no defectuosa es
independiente de la clasificación de cualquier otra llanta.
También se pueden hacer afirmaciones similares referentes a las características
de la distribución binomia1 en el ejemplo de educación y en el ejemplo de finan-
zas. Esto se deja al lector. (Véanse los problemas 7.13 y 7.14 de la página 259.)
Los cuatro ejemplos de modelos de probabilidad binomial anteriormente
descritos se distinguen por los parámetros n y p. Cada vez que se especifica un con-
junto de parámetros, el número de observaciones en la muestra, n, y la probabili-
dad de éxito, p, puede generarse una distribución de probabilidad binomial
particular.

7.5.1 Desarrollo del modelo matemático


Como otro ejemplo de un fenómeno que satisface las condiciones de la distri-
bución binomial, y que es conveniente para inferir intuitivamente una expresión
para las probabilidaes que surgen en problemas binomidales, regresaremos al tiro
de un dado no cargado que se examinó en la sección 7.2. Aquí, sin embargo,
consideramos que el éxito es la cara 13] y el fracaso cualquier otro resultado.
Suponga que ahora estamos interesados en tres tiros de este mismo dado con el fin
de determinar la frecuencia con la que se obtiene la cara 13] .2 ¿Qué podría ocurrir?
Ninguno de los tiros podría caer en 13] ; uno de los tiros podría caer en 13] ; dos
de los tiros podría caer en 1Z] ¡ o los tres tiros podrían caer en IZ] . ¿Puede la va~
riable aleatoria binomial, el número de caras 13] que ocurren en tres tiros de un
dado no cargado, tomar cualquier otro valor? Eso sería imposible, puesto que si
tiramos el mismo dado tres veces y estamos interesados en la frecuencia con la que
ocurre un valor particular (la cara IZ] ) ese valor no puede exceder el mismo núme-
ro de tiros n, y tampoco puede ser menor que cero. Por tanto, el alcance de una
variable aleatoria binomial va de O a n.
Suponga entonces, por ejemplo, que arrojamos un dado no cargado tres veces
y observamos el siguiente resultado:

Primer tiro Segundo tiro Tercer tiro


r;:;i r;:;i
l!:!J l!:!J

Ahora deseamos determinar la probabilidad de esta ocurrencia; es decir, ¿cuál es la


probabiJidad de obtener dos éxitos (cara 13]) en tres tiros en la anterior secuencia
particular? Puesto que puede suponerse que arrojar dados es un proceso estable, la
probabilidad de que cada tiro ocurra de la manera anterior es

Primer tiro Segundo tiro Tercer tiro


p= 1/6 1-p=S/6 p= 1/6

154 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


l'uesto que cada resultado es independiente de los otros, la probabilidad de obtener
la secuencia dada es

p(l - p)p = p 2 (1 - p) 1 = p 2 (1 - p) = (1/6) 2 (5/6) = 5/216

Así, de 216 resultados posibles e igualmente probables de arrojar un dado no car-


gado tres veces, cinco tendrán la cara (3J como primer y último tiro, con una cara
distinta de (3J (es decir, i:::J,
[J, [S], [;:;) o [DJ) como tiro medio, y se obten-
drá la secuencia particular anterior.
Ahora, sin embargo, podemos preguntarnos cuentas secuencias diferentes hay
para obtener dos caras (3J , de n = 3 tiros del dado, usando la regla de combina-
ciones dada por la ecuación (6. 15) de la página 231, tenemos

(n ) - n! - 3! - 3
X - X! (n - X)! - 2! (3 - 2)! -

de tales secuencias. Estas tres secuencias posibles son

Secuencia 1 = (3J ~ (3J con probabilidad p (l - p) p = p 2 (1 - p) 1 = 5/216

Secuencia 2 = (3J (3J ~ con probabilidad pp (l - p) = p 2 (1 - p) 1 = 5/216

Secuencia 3 = ~ (3J (3J con probabilid~d (1 - p) pp = p 2 (1 - p) 1 = 5/216

Por consiguiente, la probabilidad de obtener exactamente dos caras de (3J de tres


tiros de un dado es igual a
(número de secuencias posibles) x (probabilidad de una secuencia particular)

(3) X (5/216) = 15/216 = .0694

Puede obtenerse una inferencia intuitiva similar para los otros tres resultados posi-
bles de la variable aleatoria, ninguna cara (3J , una cara [3J , las tres caras [3J . Sin
embargo, al crecer n, el número de observaciones, este tipo de enfoque intuitivo se
vuelve bastante laborioso, y es más apropiado un modelo matemático. En general,. el
siguiente modelo matemático representa la distribución de probabilidad binomial para
obtener el número de éxitos (X), dado un conocimiento de los parámetros n y p :

· ... ',•

donde P (X= x In, p) = la probabilidad de que X= x, dado un conocimiento de


nyp
n = tamafio de muestra
p = probabilidad de éxito
l-p =probabilidad de fracaso
x =número de éxitos en la muestra (X= O, 1, 2; ... , n)

Distribución binomial 255


Observamos, sin embargo, que la forma generalizada mostrada en la ecuación (7.4)
es simplemente una reformulación de lo que habíamos inferido intuitivamente.
La variable aleatoria binomial X puede tener cualquier valor entero de O a n.
En la ecuación (7.4) el producto

px (1 _ p)"-x
nos dice la probabilidad de obtener exactamente x éxitos de n observaciones en
una secuencia particular, mientras que el término

n!
x!(n - x)!

nos dice cuántas secuencias de arreglos (es decir, combinaciones, véase la sección
6.10) de los x éxitos de n observaciones son posibles. Por tanto, dado el número de
observaciones n y la probabilidad de éxito p, podemos determinar la probabilidad
de x éxitos:
P (X =xln, p) =(número de posibles secuencias)
x (probabilidad de una secuencia particular)

n!
x!(n- x)! p
x(l -
p
r-x
sustituyendo los valores deseados para n, p y x y calculando el resultado.
Por tanto, como se mostró anteriormente, la probabilidad de obtener exacta-
mente dQS caras de IZ] de tres tiros en un dado es

2 3 2
p ( X= 2 Jn= 3 ,p=
1) = 2!(3-2)!
63! (1) 6 (
l-61) -
= ~ (.!.)2 (~)1
2!1! 6 6

= 3( i) (i) (~) = 2\56 = .0694

Tales cálculos pueden ser bastante tediosos, especialmente al crecer n. Sin embargo,
podemos obtener las probabilidades directamente de la tabla E. 7 del apéndice E o
usar software estadístico, evitando así cualquier complicación de cálculo. La tabla
E.7 proporciona, para diversas combinaciones seleccionadas de los parámetros n y
p, las probabilidades de que la variable aleatoria binomial tome los valores de
X= O, 1, 2, ... , n. Sin embargo, el lector debe advertir que los valores para p en la
tabla E.7 se toman con sólo dos lugares decimales; por lo que, en algunas circuns-
tancias, debido a errores de redondeo, las probabilidades sólo serán aproxima-
ciones del resultado verdadero. En relación con esto, en nuestro experimento de
tiro de dados, primero encontramos en la tabla E. 7 la combinación n = 3 con p
redondeada a .17. Para obtener la probabilidad aproximada de exactamente dos
éxitos, leemos la probabilidad correspondiente a la fila X= 2, y el resultado es .0720
(como se demuestra en la tabla 7.3). 3 Por tanto, la tabla E.7 nos ha dado una
respuesta aproximada a la probabilidad real, .0694, obtenida de la ecuación (7.4)
usando la fracción 1/6 =p, en vez del valor decimal redondeado .17.

256 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


Table 7.J Otención de la probabilidad binomial
p
11 X 0.01 0.02 0.03 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.18
2 o 0.9801 0.9604 0.9409 0.8100 0.7921 0.7744 0.7569 0.7396 0.7225 0.7056 0.6724
1 0.0198 0.0392 0.0582 0.1800 0.1958 0.2112 0.2262 0.2408 0.2550 0.2688 0.2952
2 0.0001 0.0004 0.0009 0.0100 0.0121 0.0144 0.0169 0.0196 0.0225 0.0256 0.0324

I:'1 o 0.9703 0.9412 0.9127 0.7290 0.7050 0.6815 0.6585 0.6361 0.6141 0.5927 0.5 18 0.5514
1 0.0294 0.0576 0.0847 0.2430 0.2614 0.2788 0.2952 0.3106 0.3251 0.3387 0.3 13 0.3631
:~.~ 0.0003 0.0012 0.0026 0.0270 0.0323 0.0380 0.0441 0.0506 0.0574 0.0645' r~ 0.0797
3 0.0000 0.0000 0.0000 0.0010 0.0013 0.0017 0.0022 0.0027 0.0034 0.0041 0.0049 0.0058
/!11ente: Tomado de la tabla E.7.

7.5.2. Características de la distribución binomial


Cada vez que se especifica un conjunto de parámetros, n y p, puede generarse una
distribución de probabilidad binomial particular. Esto puede verse fácilmente
examinando la tabla E. 7 para diversas combinaciones de n y p.

e Forma Observamos que una distribución binomial puede ser simétrica o ses-
gada. Siempre que p = .5, la distribución binomial será simétrica sin importar qué
tan grande o pequeño sea el valor den. Sin embargo, cuando p -:t. .5, la distribución
estará sesgada. Mientras más cercana esté p de .5 y mayor sea el número de obser-
vaciones, n, menos sesgada será la distribución.
Así, la distribución del número de ocurrencias de rojo en 19 giros de la rueda
de la ruleta sólo está ligeramente sesgada a la derecha, puesto que p = 18/38. Por
otra parte, con una p pequeña, la distribución estará ligeramente sesgada a la
derecha, como se observa en la distribución del número de llantas defectuosas en
una muestra de 20, donde p = .08. Para p muy grandes, la distribución sería alta-
mente sesgada a la izquierda.
Le dejamos al lector verificar el efecto den y p en la forma de la distribución
graficando el histograma en el problema 7.19(c) de la página 260. Sin embargo,
para resumir las anteriores características, se describen tres distribuciones bino-
miales en la figura 7 .2 de la página 258. El panel A representa la probabilidad de
obtener la cara IZJ
en tres tiros de un dado no cargado; el panel B representa la
probabilidad de obtener "caras" en tres lanzamientos de una moneda no cargada;
y el panel C representa la probabilidad de obtener "caras" en cuatro lanzamientos
de una moneda no cargada. Por tanto, una comparación del panel A con el B
demuestra el efecto en la forma cuando los tamaños de muestras son iguales pero
las probabilidades de éxito difieren. Además, una comparación del panel B con el
C muestra el efecto de la forma cuando las probabilidades de éxitos son iguales
pero los tamaños de las muestras difieren.

• La media La media de la distribución binomial puede obtenerse fácilmente


como el producto de sus dos parámetros, n y p. Es decir, en vez de usar la ecuación
(7.1), que se cumple para todas las distribuciones de probabilidad discreta, para los
datos que se distribuyen binomialmente sólo calculamos

i.

Distribución binomidal 257


.., .
111
CD

111
,,;;n
~
i
... PBl!eiA Pan81c
Tres tirps de pn da~~ ~'<!.'Cargado.··~··· Cuatro LanzamientosJ/e una moneda cargada;
> ,. ·. ·. . .
.-
, " • X.-Numeco.de ;!.;;.~;,,
~- • • - - - • ' ·-," --. - . -- • -.
0
.0 ,,~. o',c --r· ,-
X= MJmero.de"caras"
~
::J
e¡ ~-''F )f,f'< 1 < 3l . L iº -1 3_ 1
Q. .. · ( . .·~· . . 1\ 41 (~1)º (1)4 1
!aº P!a~~~;'.R=~h=.0131 r,h) (2) -= 8 P X=O\n= 4 .P=z1=0141'."' 2 2·=1s
:l.
CT ~l y t. -.~ r ·-31 . ·.- f, 1_\2· . 3 .
e:
n .'.dx= 11.n~4.P=~)=·
5· '[~=1JA:;~a>=~~ 1121 ~(2} {~1= a 1~~1 ~{~f (~r=~ 1~
::J . . : : ···2 ·,. 2
111 . -.. ~r:"b'·~·:-~.;··t-~.~-· ~~,E-31 t(1)2 (-!)1 ~ ª-
"' !f.t ·~y·¡;tf>:\X= .?(lJ =j~· 8 """-2 7~2!11 t 2 •2 ~ 8 _f'(x~2Ín= 4.P=~).#.2i~1~~{~} (~J.~.:1~
~r
"1:1
o
a
::J !lt0,~tx~~w--j~.1F:. J{~' m'.. ~ p(x~;~1 ~.~ 4.·p=~=~3~~/s(~)~{~f ~- 1~
m :. <". >·.. 12\ ;4, 4
>(1) .(f)º· 1
Q.
111 .. "' ':é lf' (_X;: ,4ln #A;p =¿'g 41ÓI = -~ · 2 ".". 16
"1:1
a
CT
"'g
a:
[
Q.
¡;¡·
n

~ ·~
··ai
"C
·~.
;g· .4 . -Bi& -~ ~ ~ _,
:o... .
. al
' :o
ª ca
..e .·..e
·O
e~-­ ...
p.:. n.

o 1 •2 3 '4 -
Número de car51s:
' HISTOG~AMA

FIGURA 7.2
Comparación de tres distribuciones binomiales
Intuitivamente, esto tiene sentido. Por ejemplo, si giramos la rueda de la ruleta
l 1J veces, ¿con qué frecuencia debemos "esperar" que salga el color rojo? En prome-
dio, a la larga, teóricamente esperaríamos

11, =E(X)=np=(19{!:)=9

Ol'Urrencias de rojo en 19 giros, el mismo resultado que obtendríamos de la expre-


~lón más general mostrada en la ecuación (7.1).

• La desviación estándar La desviación estándar de la distribución binomial


se calcula usando la fórmula

ox.:·= ~np(l - p) . (7.6)

refiriéndose al ejemplo de nuestra ruleta, calculamos

ª· = (19)(~!)(~~) = ~4.7368 = 2.18


Ílste es el mismo resultado que obtendríamos de la expresión más general mostrada
en la ecuación (7.3).

e Resumen En esta sección hemos desarrollado el modelo binomial como una


distribución de probabilidad discreta por derecho propio. La distribución bino-
mial, sin embargo, juega un papel aún más importante cuando se usa en proble-
mas de inferencia estadística respecto a la estimación o prueba de proporciones
(como se analizará en los capítulos 10 y 15).

Problemas de la sección 7.5


7.13 Describa cómo las cuatro propiedades de la distribución binomial podrían
satisfacerse en el ejemplo de educación de la página 252.
7.14 Describa cómo las cuatro propiedades de la distribución binomial podrían
satisfacerse en el ejemplo de finanzas de la página 252.
7.15 Usando la tabla E.7, determine lo siguiente:
(a) Sin= 4.Y p = .12, entonces P (X= Din= 4, p = .12)?
(b) Sin= 10 y p = .40, entonces P (X= 9ln = 10, p = .40)?
(c) Sin= 10 y p = .50, entonces P (X= Bln = 10, p = .50)?
(d) Sin= 6 y p = .83, entonces P (X= Sin= 6, p = .83)?
(e) Sin= 10 y p = .90, entonces P (X= 9ln = 10, p = .90)?
7.16 En el juego de feria de tiro de tres dados no cargados, los dados se arrojan
después de que el jugador ha propuesto una apúesta sobre la ocurrencia de
una cara particular del dado, digamos (81 . Por cada apuesta de $ 1.00 que
usted coloca, puede perder el dólar si ninguno de los tres dados muestra la cara
[3] ¡ puede ganar $ 1.00 si un dado muestra la cara lZJ ;
puede ganar $ 2.00
si dos de los dados muestran la cara 13]; o puede ganar $ 3.00 si los tres dados
F.O]
muestran la cara l!:!l •

Distribución binomial 259


(a) Forme la función de distribución de probabilidad que representa los diferentes
valores monetarios (ganancias o pérdidas) que son posibles (de un tiro de los
tres dados). [Sugerencia: repase la sección 7.5.1 y vea la figura 7.2 (panel A).]
(b) Determine la media de esta distribución de probabilidad.
(c) ¿Cuál es la ganancia (o pérdida) esperada, a la larga, del jugador de una
apuesta de $1.00? Interprete.
(d) ¿Cuál es la ganancia (o pérdida) esperada, a la larga, de la casa? Interprete.
(e) f·flliiQM.f.)¿Jugaría un juego de tres dados y haría una apuesta? Analice.
7.17 Suponga que los registros de garantías muestran que la probabilidad de que un
carro nuevo necesite una reparación de garantía en los primeros noventa días
es .05. Si se selecciona una muestra de tres nuevos carros,
(a) ¿Cuál es la probabilidad de que
(1) ninguno necesite una reparación de garantía?
(2) al menos uno necesite una reparación de garantía?
(3) más de uno necesite una reparación de garantía?
(b) ¿Qué suposiciones son necesarias en (a)?
(c) ¿Cuáles son la media y la desviación estándar de la distribución de
probabilidad de (a)?
7.18 La probabilidad de que un vendedor venda una suscripción a una revista a
alguien que ha sido seleccionado aleatoriamente del directorio telefónico es
.20. Si el vendedor le habla a 10 individuos esta tarde, ¿cuál es la probabilidad
deque
(a) No se venda ninguna suscripción?
(b) Se vendan exactamente dos suscripciones?
(c) Se vendan al menos dos suscripciones?
(d) Se vendan a lo más dos suscripciones?
• 7.19 Una parte importante de las responsabilidades del servicio a clientes de una
empresa pública de gas natural se refiere a la rapidez con que se pueden
atender las llamadas relativas a la falta de calefacción en una casa. Suponga
que una variable de servicio de importancia _se refiere a si la persona de
reparaciones llega o no a la casa en un periodo de dos horas. Los datos pasados
indican que la probabilidad es de .60 de que la persona de reparaciones llegue
a la casa en un periodo de dos horas. Si se selecciona una muestra de cinco
llamadas de servicio de "falta de calefacción", ¿cuál es la probabilidad de que
una persona de reparaciones llegue a
(a) Las cinco casas en un periodo de dos horas?
(b) Al menos a tres casas en el periodo de dos horas?
(c) Encuentre la probabilidad de que la persona de reparaciones llegue a cero,
· una y dos casas y grafique el histograma para la distribución de
probabllidad.
(d) ¿Cuál es la forma de la distribución graficada en (c)? Explique.

Q.I Distribución de Poisson


La distribución de Poisson es otra función de distribución de probabilidad que
tiene muchas aplicaciones prácticas importantes. Un proceso de Poisson no sólo
representa numerosos fenómenos discretos, sino que el modelo de Poisson tam-
bién se usa para proporcionar aproximaciones a la distribución binomial (como se
describirá en la sección 7.6.4).
Los siguientes son algunos ejemplos de fenómenos con distribución de Poisson:
• Número de llamadas por hora que llegan al conmutador de una estación
de policía.

260 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


• Número de llegadas de carros al día en un puente de peaje
• Número de huelgas industriales importantes al año en el Reino Unido.
• Número de chispas por galleta en un paquete de galletas de chispas de
chocolate de Marilyn.
• Número de manchas en una yarda cuadrada de tela.
• Número de defectos por lote en un proceso de producción.
• Número de carreras por entrada de un juego de béisbol.
En cada uno de los casos anteriores, la variable aleatoria discreta, número de "éxi-
tos" por unidad (es decir, por intervalo de tiempo, longitud, área, etc.) es represen-
tante de un proceso de Poisson.
Se dice que un proceso de Poisson existe si podemos observar eventos dis-
cretos en un área de oportunidad, un intervalo continuo (de tiempo, longitud, área,
etc.), de tal manera que si acortamos el área de oportunidad o intervalo de manera
suficiente
l. La probabilidad de observar exactamente un éxito en el intervalo es
estable.
2. La probabilidad de observar exactamente más de un éxito en el inter-
valo es O.
3. La ocurrencia de un éxito en cualquier intervalo es estadísticamente
independiente de aquella en cualquier otro intervalo.
Para comprender mejor el proceso de Poisson, suponga que examinamos el
número de clientes que llegan durante la hora del almuerzo de 12 a 1 PM a un
banco localizado en el distrito comercial central de una ciudad grande. Cualquier
llegada de un cliente es un evento discreto en un punto particular sobre el inter-
valo continuo de una hora. Durante tal intervalo de tiempo puede haber un
promedio de 180 llegadas. Ahora, si tuviéramos que dividir el intervalo de una
hora en 3600 intervalos consecutivos de un segundo,
l. El número (o promedio) esperado de clientes que llegan en cualquier
intervalo de segundos sería .05.
2. La probabilidad de que más de un cliente llegue en cualquier intervalo
de un segundo es O.
3. La llegada de un cliente en cualquier intervalo de un segundo no tiene
efecto sobre (es decir, es estadísticamente independiente de) la llegada
de cualquier otro cliente en cualquier otro intervalo de un segundo.

7 .6. 1 El modelo matemático


Es interesante observar que la distribución de Poisson ha introducido un pará-
metro, que denominaremos A. (la letra minúscula griega lambda). Mientras que la
variable aleatoria de Poisson X se refiere al número de éxitos por unidad, el parámetro
A. se refiere al promedio o número esperado de éxitos por unidad. Además, observamos
que en teoría la variable aleatoria de Poisson varía en rangos de O a oo.
La expresión matemática para la distribución de Poisson para obtener X éxi-
tos, dado que se esperan A. éxitos, es

.. e~i..A.x
. P(X
.• . .
= xlk) ~ -·-
· '.. xi

Distribución de Poisson 261


donde P (X= x!A.) =la probabilidad de que X= x dado que se
conoce A.
A. = número esperado de éxitos
e= constante matemática aproximada por 2.71828
x =número de éxitos por unidad

7 .6.2 Características
• Forma Cada vez que se especifica el parámetro /.., puede generarse una dis-
tribución de probabilidad de Poisson específica. Una distribución de Poisson estará
sesgada a la derecha cuando /.. es pequeña, y se aproximará a la simetría (con un
pico en el centro) al crecer A..

• La media y la desviación estándar Una propiedad interesante de la dis-


tribución de Poisson es que la media µx y la varianza cr; son cada una iguales al
parámetro /... Por tanto,

.
' ~· '' '' ';;'ll
'• .(7.9)·.:~'5
' ·/:.~

7 .6. 3 Aplicaciones del modelo de Poisson


Para demostrar las aplicaciones del modelo de Poisson, regresemos al ejemplo de
la llegada de clientes al banco a la hora del almuerzo: si, en promedio, .OS clientes
llegan por segundo, ¿cuál es la probabilidad de que en un minuto dado lleguen exac-
tamente dos clientes? ¿Cuál es la probabilidad de que más de dos clientes lleguen
en un minuto dado?
Para resolver esto debemos convertir los segundos en minutos.

Conversiones
Llegadas Llegadas Llegadas Llegadas
por segundo por minuto por hora por día
.os 3.0 180.0 4,320.0

/..,el número esperado de llegadas por minuto, es 3.0. Ahora, usando la ecuación
(7.7), tenemos, para la primera pregunta

9- - == .2240
P(X = 2j/.. = 3.0) = e-3.o ( 3 .0) 2 == - - -
2! (2.71828) 3 (2)

262 Capitulo 1 Algunas distribuciones importantes de probabilidad discreta


Afortunadamente, los cálculos manuales no. son necesarios aquí. Refiriéndonos a la
tabla E.6 del apéndice E, las tablas de la distribución de Poisson, puede obtenerse el
rt•sultado. Como se muestra en la tabla 7.4, que es una réplica de la tabla E.6, sólo
Sl' necesitan los valores de ').,y X. Por tanto, la probabilidad de que lleguen exacta-
mente dos clientes, dado que se esperan 3.0, es .2240.

Tabla 7 .4 Obtención de una probabilidad de Poisson.


A.
X 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
o .1225 .1108 .1003 .0907 .0821 .0743 .0672 .0608 .0550
1 .2572 .24~8 .2306 .2177 .2052 .1931 .1815 .1703 .1596
.2700 .2681 .2652 .2613 .2565

'
.2510 .2450 .2384 .2314
.1890 .1966 .2033 .2090 .2138 .2176 .2205 .2225 .2237
4 .0992 .1082 .1169 .1254 .1336 .1414 .1488 .1557 .1662 .1680
5 .0417 .0476 .0538 .0602 .0668 .0735 .0804 .0872 .0940 .1008
6 .0146 .0174 .0206 .0241 .0278 .0319 .0362 .0407 .0455 .0504
7 .0044 .0055 .0068 .0083 .0099 .0118 .0139 .0163 .0188 .0216
8 .0011 .0015 .0019 .0025 .0031 .0038 .0047 .0057 .0068 .0081
9 .0003 .0004 .0005 .0007 .0009 .0011 .0014 .0018 .0022 .0027
10 .0001 .0001 .0001 .0002 .0002 .0003 .0004 .0005 .0006 .0008
11 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0002
12 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
fluente: Extraída de la tabla E.6.

Para responder la segunda pregunta, la probabilidad de que en cualquier mi-


nuto dado lleguen más de dos clientes, tenemos

P(X >21/.., = 3.0) = P(X = 31/.., = 3.0)+ P(X = 41/.., = 3.0)+L + P(X = ool/.., = 3.0)
Puesto que todas las probabilidades en una distribución de probabilidad deben
sumar 1, los términos a la derecha de la ecuación pueden expresarse como

1 - P(X ~ 21/.., = 3.0)

Por tanto,
P(X > 21')., = 3.0) = 1 - {P(X = OI')., = 3.0) + P(X = 11')., = 3.0) + P(X = 21')., = 3.0)}

Ahora, usando la ecuación (7.7), tenemos

P(X > 21 A, = 3.0) = 1 - { e-3.o b~.O)º + e-3.o i~.0)1 + e-3.o ~~.0)2 }

De la tabla E.6 (o su réplica, la tabla 7.4) podemos obtener fácilmente las probabil-
idades de O, 1 o 2 éxitos, dada una media de 3.0 éxitos. Así,

P(X > 21')., = 3.0) = 1 - (.0498 + .1494 + .2240}


= 1 - .4232 = .5768

Por consiguiente, vemos que existe apenas un 42.3% de probabilidad de que dos o
menos clientes lleguen al banco por minuto. Así pues, existe un 57.7% de que.-
lleguen tres o más clientes.

Distribución de Poisson 263


7 .6.4 Uso de la distribución de Poisson para aproximar
la distribución binomidal
Para aquellas situaciones en las que n es grande (;:: 20) y pes muy pequeña (:<=; .05),
la distribución de Poisson puede usarse para aproximar la distribución binomial.
En la ecuación (7.4) de la página 255 se ve claramente que al crecer n, los cálculos
para la distribución binomial se hacen tediosos. Sin embargo, en las situaciones en
las que p también es muy pequeña, puede usarse la siguiente expresión matemática
para el modelo de Poisson a fin de aproximar el resultado (binomial) verdadero:

e-"P (npr
P(X = x¡n, p) = ----''-- (7.10)
x!

donde P (X= x\n, p) =la probabilidad de que X= x dado que se conocen y p


n = tamaño de muestra
p = probabilidad verdadera de éxito
e= base del sistema Neperiano (natural), una constante
matemática aproximada por 2.71828
x = número de éxitos en la muestra

Se observó que la variable aleatoria de Poisson puede variar teóricamente de O a oo,


Sin embargo, cuando se usa como una aproximación a la distribución binomial, la
variable aleatoria de Poisson, el número de éxitos de n observaciones, claramente
no puede exceder el tamaño de muestra n. Además, con una gran n y una pequeña
p, la ecuación (7.10) implica que la probabilidad de observar un gran número de
éxitos se hace pequeña y se aproxima a cero bastante rápido. Debido al severo
grado de sesgo a la derecha en esta distribución de probabilidad, no surge ninguna
dificultad al aplicar la aproximación de Poisson a la binomial.

• Características Como se mencionó previamente, una característica intere-


sante sobre la distribución de Poisson es que la media µ,y la varianza cr_; son cada
una iguales a 'A. Por tanto, al usar la distribución de Poisson para aproximar la dis-
tribución binomial, podemos calcular la media

µ, = E(X) = A. = np (7.11)

y podemos aproximar la desviación estándar

(7.12)

264 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


Observamos que la desviación estándar dada por la ecuación (7.12) concuerda con
la dada para el modelo binomial [ecuación (7.9)] cuando p está cerca de cero, de tal
forma que (1 - p ) está cerca de uno.

• Aplicación Para ilustrar el uso de la aproximación de Poisson para la bino-


mial, calculamos la probabilidad de obtener exactamente una llanta defectuosa de
una muestra de 20 si 8% de las llantas fabricadas en una planta particular son
defectuosas. 4 Por consiguiente, de la ecuación (7.10) tenemos

e-<ZO)(.os1 [(20)(.08)]1 e-16 (1.6)'


P(X = l[n = 20 p = .08) := = ----'-----'--
' 1! 1!

Sin embargo, en vez de tener que usar el sistema logarítmico natural para determi-
nar esta probabilidad, pueden emplearse las tablas de la distribución de Poisson
(tabla E.6). Refiriéndonos a estas tablas, los únicos valores necesarios son el
parámetro A. y el número deseado de éxitos X. Puesto que ·en el ejemplo anterior
A.= 1.6 y X = 1, tenemos de la tabla E.6

P(X = 1¡1.. = 1.6) = .3230


Esto se muestra en la tabla 7.5 (que es una réplica de la tabla E.6).
Si se hubiera empleado la verdadera distribución, la binomial, en vez de la
aproximación, calcularíamos.

Este cálculo, sin embargo, es tedioso. Claramente, disponiendo de la tabla E.7, uno
podría argumentar que deberíamos buscar la probabilidad binomial directamente
para n = 20, p = .08 y X = 1 y no molestarnos en calcularla o usar la aproximación
de Poisson. Por otra parte, la tabla E. 7 muestra probabilidades binomiales sólo para
una n particular de 2 a 20, así que para n > 20 ciertamente debe usarse la aproxi-
mación de Poisson si p es muy pequeña.
Para resumir nuestros hallazgos, la figura 7.3 de la página 266 compara la dis-
tribución binomial (panel A) y su aproximación de Poisson (panel B) para el
número de llantas defectuosas en una muestra de 20. Las similitudes de los dos
resultados son claramente evidentes, demostrando así la utilidad de la aproxi-
mación de Poisson aun cuando pes tan grande como .08

Tabla 7 .5 Obtención de una probabilidad de Poisson.


'A
X 1.2 1.3 1.4 1.5
• 1.7 'i.s l.9 2.0

-
1.1
o .3329 .3012 .2725 .2466 .2231 .2di9 .1827 .1653 .1496 .1353
r::~ .3662 .3614 .3543 .3452 .3347 )
.3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 .0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 .0812 .0902
i:11ente: Extraída de la tabla E.6.

Distribución de Poisson 265


Panel A PanelB

Distribución binomiar ·.·

P (X= Oln = 20, p = .OS) = .lSS7 P (k=o1hi2~, 1p.~(.0S)= ·e-t.J11·6>º = ~2019 , •.


'. '. -1.6' 1
P·(X. = 11n=20, p= .OS) =.32S2 p (X= 1In= 2.ó, p = ;OS) =: •. e' ·. /,1·6). = .3230 .
-1.6 2
P (X= 21n= 20, p= .OS)= .2711 P (X= 21n = 20, P= .08) = 8 ··.
<
<(·6>'
2.
= .2584

P (X= 3Ín = 2d,p= .OS)= .1414 . . P (x;,, sin= 2ó, p:;. .os)=
' .• . ''.
~"': 1 ·\L 5>3 = · 131s.
·.., ·~! '¡ ' ··....~ ' . '
..:t:e···
p= .08) ;,.· · 8 . :111•6) ··,;. ,0551
··4.
P (X= 4(n ;;, 20, p = .OS) = .05~3 P (X~ 41n= 20,
e- 1·5(1.6)i;
P (X= Sin= 20, p =.OS)= .0145 P (X= Sin= 20, P= .OS)= . SI - .0176
·' ., -16 6
P (X= · 61n= 20, p = .08) = .0032. P (X= 61n = 20, p = .OS) = 8 ~f 1.6) - .0047
. ' . 7
p.6) ;::
~,~

P (X= 71n=20,p= .08):;: .QOOS: . ;; • P (X= 71n= 20, P= .OS).;= e ·7 .0011 ·


. -1.6 . á• ..
P (X= Sin= 20, p = .08) = .0001 p (X= Sin= 20, p= ,OS)= 8 16
81< · ) - .0002

P (X= 91.n = 20, p = .08) =.0000.


. P (X= 101~ = 20, p = ,Q8) = .0000

_.y,-_:-'. .
i

::,:." · :<<x.-,_i~
·.,,,,, . ··•1·eo
' .." ' .. '. >':.,,;)~1'~3.4!? 67S9J,o~·· .
, .:' '·,;
">-_· . . -d';f:::~~;;-:···.>· ·:-'.-·:>_,,:··.:.:. _.·- - -~:--·
NÚrnerode •. H¡¡ntai;defectuQ~~~:·'
i' .. - - '

. · · ·<~,,~·;.,™úrT1~r9·~-~U¡¡ntasde(~t,1osas·.
· , HlªT()~AAf<llA /:\/\•;>;i/4'·•:/t··· litlSTOGRAMA·
:)::)i'.Záf;,_:i\>:::'','. ·.: ~-'. · ·-J·;;. :· · ·, --·:-~ ,

Figura 7.J • Las probabilidades binomiales fueron tomadas de la tabla E.7.


Distribución _binomial y su aproximación de Poisson. t Las probabilidades de Poisson fueron tomadas .de la tabla E.6.

266 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


Problemas de la sección 7.6
7.20 7.20 Usando la tabla E.6, determine lo siguiente:
(a) Si A,= 2.5, entonces P (X= 2IA. = 2.5)?
(b) Si A,= 8.0, entonces P (X= 8jA, =8.0)?
(c) Si A,= 0.5, entonces P (X= 1IA.=0.5)?
(d) Si A,= 3.7, entonces P (X= OIA. = 3.7)?
(e) Si A,= 4.4, entonces P (X= 7IA. = 4.4)?
7.21 El número promedio de reclamos por hora hechos a la Gnecco & Trust
lnsurance Company por daños o pérdidas incurridas durante una mudanza es
3.1. ¿Cuál es la probabilidad de que en una hora dada
(a) Se hagan menos de tres reclamos?
(b) Se hagan exactamente tres reclamos?
(c) Se hagan tres o más reclamos?
(d) Se hagan más de tres reclamos?
7.22 Basándose en registros anteriores, el número promedio de accidentes de dos
carros en un distrito de policía de la ciudad de Nueva York es de 3.4 al día.
¿Cuál es la probabilidad de que haya
(a) Al menos seis de tales accidentes en este distrito en cualquier día dado?
(b) No más de dos de tales accidentes en este distrito en cualquier día dado?
(c) Menos de dos de tales accidentes en este distrito en cualquier día dado?
(d) Al menos dos pero no más de seis de tales accidentes en este distrito en
cualquier día dado?
e 7.23 El gerente de control de calidad de las galletas Marilyn está inspeccionando un
lote de galletas de chispas de chocolate que se acaban de hornear. Si el proceso
de producción está bajo control, el número promedio de chispas por galleta es
de 6.0. ¿Cuál es la probabilidad de que en cualquier galleta inspeccionada
(a} Se encuentren menos de cinco chispas?
(b) Se encuentren exactamente cinco chispas?
(c) Se encuentren cinco o más chispas?
(d) Se encuentren cuatro o cinco chispas?
7.24 Refiérase al problema 7.23. ¿Cuántas galletas de un lote de 100 que se están
muestreando debe esperar descartar el gerente si la política de la compañía
requiere que todas las galletas de chispas de chocolate vendidas deben tener al
menos cuatro chispas de chocolate?
7.25 Una compañía de exploración de gas natural promedia 4 descubrimientos (es
decir, se encuentra gas natural) por 100 pozos perforados. Si se deben perforar
20 pozos , ¿cuál es la probabilidad de que
(a) Se haga exactamente un descubrimiento?
(b) Se hagan al menos dos descubrimientos?
Resuelva este problema usando dos distribuciones de probabilidad diferentes
(la binomial y la Poisson) y compare y explique brevemente sus resultado~.
7.26 Basándose en la experiencia anterior, 2% de las cuentas telefónicas enviada¡ a
casas suburbanas son incorrectas. Si se selecciona una muestra de 20 cuentas,
encuentre la probabilidad de que al menos una cuenta sea incorrecta. Haga
esto usando dos distribuciones de probabilidad (la binomial y la Poisson) y
compare y explique brevemente sus resultados.

ill Algunas distribuciones de probabilidad


discreta: un repaso
Como se indica en el diagrama de resumen de la página 268, este capítulo trató
sobre algunas distribuciones de probabilidad discretas útiles. En la página 242 de
la sección 7.1 se le dio una lista que ponía énfasis en los puntos importantes a estu-
diarse en el capítulo. Verifique la lista para ver si siente que ha comprendido estos
puntos clave.

Algunas distribuciones de probabilidad discreta: un repaso 267


Gráfica de sumario del capítulo 7

Para estar seguro, usted debe poder contestar las siguientes preguntas conceptuales.
l. ¿Cuál es el significado del valor esperado de una distribución de probabilidad?
2. ¿Cuáles son las suposiciones de la distribución binomial?
3. ¿Cuáles son las suposiciones de la distribución de Poisson?
4. ¿Cuáles son las principales diferencias en las suposiciones de la
distribución binomial y de Poisson?
5. ¿Cuándo puede usarse la distribución de Poisson para aproximar la
distribución binomial?

Juntando todo

TÉRMINOS CLAVE
aproximación de Poisson a la probabilidad 251
distribución binomidal 264 proceso de Poisson 261
desviación estándar de una variable modelo 251
aleatoria discreta 245 valor esperado 243
distribución de probabilidad 242 varianza de una variable aleatoria
distribución de probabilidad binomial 252 discreta 245
distribución de probabilidad valor monetario esperado
uniforme 252 (EMV) 246
función de distribución de

268 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


Problemas de repaso del capítulo
7.27 Usando las reglas de sumatoria (véase el apéndice B) muestre que la expresión
para d, dada en la ecuación (7.2) también puede escribirse como

µ:
N
cr: :¿x;P(X;) -
i=I

Verifique sus resultados usando los datos presentados en la tabla 7.1 de la


página 243.
7.28 El productor de una marca de distribución nacional de papas fritas desearía
determinar la factibilidad de cambiar el paquete del producto de una bolsa de
celofán a un envase irrompible. El gerente de productos cree que habría tres
posibles respuestas del mercado nacional a un cambio en el paquete del
producto: débil, moderada y fuerte. Las utilidades proyectadas, en ganancias
aumentadas o disminuidas comparadas con el paquete actual del producto son
las siguien tes:

Estrategia
Evento Uso de nuevo paquete Mantener nuevo paquete
Respuesta nacional débil -$4,000,000 o
Respuesta nacional moderada +$1,000,000 o
Respuesta nacional fuerte +$5,000,000 o

Basándose en la experiencia anterior, el gerente de productos asigna las


siguientes probabilidades a los diferentes niveles de respuesta nacional
P (respuesta nacional débil) = .30
P (respuesta nacional moderada) = .60
P (respuesta nacional fuerte)= .10

Usando el criterio del valor monetario esperado, determine si debe adoptarse


el nuevo paquete del producto.
o// 7.29 El fabricante de una marca de plumines baratos mantiene un proceso de
producción de 10 000 piezas al día. Con el fin de mantener la mayor calidad
de este producto, el fabricante garantiza el reemplazo gratis de cualquier
plumín defectuoso vendido. Se ha calculado que el reemplazo de cada plumín
defectuoso producido le cuesta 20 centavos al fabricante. Basándose en la
experiencia anterior, son posibles cuatro clasificaciones de plumines
defectuosos producidos:
l. Muy baja: 1% de los plumines producidos son defectuosos.
2. Baja: 5% de los plumines producidos son defectuosos.
3. Moderada: 10% de los plumines producidos son defectuosos.
4. Alta: 20% de los plumines producidos son defectuosos.
El fabricante puede reducir la tasa de plumines defectuosos producidos
haciendo un ajuste a las máquinas al final del día. Este mecánico puede
reducir la tasa de defectos a 1%, pero sus servicios cuestan $80.
En la página 270 se presenta una tabla de utilidades después de la producción
diaria de 10 000 plumines, indicando los costos de reemplazo para cada una de
las dos alternativas (llamar al mecánico y no llamar al mecánico):

Problemas de repaso del capítulo 269


Acción
Tasa de defectos No llamar al mecánico Llamar al mecánico
Muy baja (1%) $ 20 $100
Baja (5%) $100 $100
Moderada (10%) $200 $100
Alta (20%) $400 $100

Basándose en la experiencia anterior, se supone que es igualmente probable


que ocurra cada tasa de defectos.
(a) Usando el criterio del valor monetario esperado, determine si debe llamar
al mecánico.
El fabricante decide que antes de una decisión final, debe estudiarse una
muestra aleatoria dé plumines. Por tanto, al final de la producción de un
día particular, se selecciona una muestra aleatoria de 15 plumines, de los
cuales 2 son defectuosos.
(b) El fabricante desea usar el planteamiento de toma de decisiones bayesiano
(referencia 7) revisando las probabilidades anteriores para tomar en
cuenta la información de la muestra. Use el criterio del valor monetario
esperado para determinar si se debe llamar al mecánico. [Sugerencia: use la
distribución binomial y el teorema de Bayes (sección 6.9) para
determinar la probabilidad condicional de este resultado de muestra, dada
una tasa de defectos particular.]
7.30 Basándose en la experiencia anterior, 15% de las facturas de una gran
compañía de libros por correo son incorrectas. Se selecciona una muestra
aleatoria de tres facturas actuales.
(a) ¿Cual es la probabilidad de que
(1) exactamente dos facturas sean incorrectas?
(2) no más de dos facturas sean incorrectas?
(3) al menos dos facturas sean incorrectas?
(b) ¿Cuántas veces se puede esperar que el dado caiga ,en una cara impar si el
dado realmente es "limpio"?
7.31 El gerente de control de calidad de Ruby's Gambling Equipment Company,
que fabrica dados para su venta en casinos, debe asegurar la "limpieza" de los
dados antes de su envío. Suponga que un dado particular se arroja 20 veces.
(a) ¿Cuál es la probabilidad de que el dado caiga en una cara impar (es decir,
[:], lSl o ~-~h
(1) exactamente 17 veces?
(2) al menos 17 veces?
(3) a lo más 17 veces?
(4) más de 17 veces?
(5) menos de 17 veces?
(b) ¿Cuántas veces se podrá obtener un número impar al arrojar un dado si
éste es verdaderamente no cargado?
7.32 Abe Lincoln dijo que "no puedes complacer a todos todo el tiempo". Suponga
que usted puede complacer a cada individuo nueve veces de diez y que hay
ocho personas que desea complacer.
(a) Calcule
(1) la probabilidad de que los complacerá a todos.
(2) la probabilidad de que complacerá al menos a seis de ellos.
(3) la probabilidad de que complacerá a cuatro o menos.
(b) ¿Cuál es el número esperado de personas que complacerá? ¿Qué tan
factible es que complazca exactamente ese número?
(e) ¿Cuál es la desviación estándar del número de personas que complacerá?
De ésta y del valor esperado, encuentre aproximadamente cuánta gente
complacerá al menos tres cuartas partes del tiempo

270 Capítulo 7 Algunas distribuciones importantes de probabilidad discreta


7.33 Basándose en la experiencia pasada, la impresora principal de un centro de
cómputo universitario opera adecuadamente 90% del tiempo. Si se hace una
muestra aleatoria de diez inspecciones
(a) ¿Cuál es la probabilidad de que la impresora principal esté operando ade-
cuadamente
(1) exactamente nueve veces?
(2) al menos nueve veces?
(3) a lo más nueve veces?
(4) más de nueve veces?
(5) menos de nueve veces?
(b) ¿Cuántas veces puede esperarse que la impresora principal opere
adecuadamente?
7.34 Los registros proporcionados por el vicepresidente de recursos humanos de un
gran hospital urbano indican que, en cualquier día de trabajo dado, 10% de la
fuerza de trabajo no clínica (es decir, cocina, mantenimiento y conserjería,
electricidad y plomería, seguridad, correo, lavandería, oficinas y
administración) falta al trabajo. ¿Cuál es la probabilidad de que en una
muestra aleatoria de 10 trabajadores no clínicos
(a) exactamente uno faltará hoy?
(b) al menos dos faltarán?
7.35 Suponga que en una prueba aritmética muy larga, Donna obtendría 70% de
aciertos.
(a) Para un examen de 10 preguntas, calcule la probabilidad de que Donna obtenga
(1) al menos siete preguntas bien.
(2) menos de seis preguntas bien (y por tanto, repruebe el examen).
(3) nueve o diez preguntas bien (y obtenga una A en el examen).
(b) Use una tabla apropiada para verificar sus cálculos de la distribución de
probabilidad.
(c) ¿Cuál es el número esperado de preguntas que Donna tendrá bien? ¿Qué
proporción del tiempo obtendrá ese número bien?
(d) ¿Cuál es la desviación estándar del número de preguntas que Donna
sacará bien? Compare la proporción del tiempo que Donna estará dentro
de las dos desviaciones estándar de acuerdo con la distribución que acaba de
calcular con la misma probabilidad calculada de la desigualdad de
Bienaymé-Chebyshev.
7.36 El fabricante de las unidades de disco usadas en una de las conocidas marcas
de microcomputadoras espera que 2% de las unidades de disco no funcionen
bien durante el periodo de garantía de las microcomputadoras.
(a) En una muestra de diez unidades de disco, ¿cuál es la probabilidad de que
(1) ninguna funcione mal durante el periodo de garantía?
(2) Exactamente una funcione mal durante el periodo de garantía?
(3) Al menos dos funcionen mal durante el periodo de garantía?
(b) Resuelva (a) (1), (a) (2) y (a) (3) usando la distribución de Poisson como
una aproximación de la distribución binomial y compare brevemente sus
resultados.
(c) En una muestra de 50 unidades de disco, ¿cuál es la probabilidad
aproximada de que
(1) ninguna funcione mal durante el periodo de garantía?
(2) exactamente una funcione mal durante el periodo de garantía?
(3) al menos dos funcionen mal durante el periodo de garantía?
(d) ¿Qué suposiciones se requieren con el fin de usar las dos distribuciones de
probabilidad en este problema?
7.37 Un actuario de la Egan Life Insurance Company ha determinado que .0001 de
la población de edad avanzada contrae una rara enfermedad cada afio. Se debe
evaluar una muestra aleatoria de 10 000 registros de pacientes de Medicare.
¿Cuál es la probabilidad de que
(a) Ninguno de estos pacientes de Medicare hayan contraído la rara enfermedad?
(b) Al menos dos de los pacientes de Medicare hayan contraído la rara enfermedad?
(c) No más de dos de los pacientes de Medicare hayan contraído la rara
enfermedad?

Problemas de repaso del capitulo 271


7.38 Uno de cada 100 focos de luz producidos por la Lori Lighting Co. falla antes
del final de un periodo de una semana, cuando se deja encendido de manera
continua. Se instala un foco en cada uno de los SO pisos de un gran edificio de
apartamentos en la ciudad de Nueva York. ¿Cuál es la probabilidad aproximada
de que
(a) Un foco se funda al final de la semana?
(b) Más de tres focos se fundan al final de la semana?
(c) Menos de tres focos se fundan al final de la semana?
(e) Tres focos se fundan al final de la semana?
·¡
------------------------------------------------;'
Notas finales
1. Como ejemplo de una variable aleatoria binomial que 3. Observe que para p > .5, leemos de abajo hacia arriba el
surge del muestreo con reemplazo de una población finita, lado derecho de la tabla.
considere la probabilidad de obtener dos tréboles en cinco 4. Aun cuando p >.OS, observamos en la figura 7.3 que la dis-
extracciones de una baraja mezclada aleatoriamente, donde tribución de Poisson proporciona una buena aproximación
la carta seleccionada se reemplaza y la baraja se mezcla de la distribución binomial.
bien después de cada extracción.
2. Tres tiros del mismo dado es equivalente a un tiro de cada
uno de los tres dados. Véase el problema 7.16 del juego de
tres dados (página 259).

Referencias
1. Derman, C., L. J. Gleser e l. Olkin, A Guide to Probability 4. Miller, l. y J. E. Freund, Probability and Statistics for
Theory and Application (Nueva York: Holt, Rinehart and Engineers, Sa ed. (Englewood Cliffs, NJ: Prentice-Hall,
Winston, 1973). 1994).
2. Eppen, G. D., F. J. Gould y C. P. Schmidt, Introductory S. Scarne, J., Scarne's New Complete Guide to Gambling (Nueva
Management Science, 4a ed. (Englewood Cliffs, NJ: Prentice- York: Simon and Schuster, 1974).
Hall, 1993). 6. Thorp, E. O., Beat the Dealer (Nueva York: Random House,
3. Larsen, R. J. y M. L. Marx, An Introduction to Mathematica/ 1962).
Statistics and Its Applications, 2a ed. (Englewood Cliffs, NJ: 7. Winkler, R. L., Introduction to Bayesian Inference and Decision
Prentice-Hall, 1986). (Nueva York: Holt, Rinehart and Winston, 1972).

l.72. Capitulo 7 Algunas distribuciones importantes de probabilidad discreta


capítulo

••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Mostrar cómo puede usarse la función
de densidad de probabilidad 'ormal
CAPÍTULO para representar ciertos tipoi de
fenómenos continuos y aproximar
varios modelos que representan
fenómenos discretos bajo condiciones
específicas.

273
l:H 1 1ntroducción
En el capítulo 7 desarrollamos el concepto de una distribución de probabilidad
para una variable aleatoria discreta y, en particular, estudiamos las distribuciones
binomial y de Poisson. En este capítulo, nuestro análisis girará sobre la distribución
de probabilidad más importante en estadística, la distribución normal. Comenza-
remos estudiando las propiedades de la distribución normal y luego desarrollare-
mos diversas aplicaciones. Después estudiaremos una herramienta gráfica simple,
la gráfica de la probabilidad normal, que puede usarse para evaluar si un conjunto
de datos se presenta normalmente distribuido. Concluiremos el capítulo mostran-
do cómo puede usarse la distribución normal para aproximar las distribuciones
binomial y de Poisson bajo ciertas circunstancias.

Al concluir este capítulo, usted deberá ser capaz de:


l. Comprender las propiedades de la distribución normal.
2. Encontrar un área bajo la curva normal.
3. Encontrar el valor que corresponda a cualquier punto de porcentaje de
la distribución normal.
4. Desarrollar e interpretar una gráfica de probabilidad normal.
5. Saber cuándo y cómo puede usarse la distribución normal para
aproximar las distribuciones binomial y de Poisson.

l:!j Modelos matemáticos de variables


aleatorias continuas: la función de
densidad de probabilidad
Ahora que hemos estudiado algunas distribuciones de probabilidad discretas,
dirigimos nuestra atención a las_funcio~J~S 4~.J.l~!!~lclªc;l ·4~ pr.obab.iJi4ad
.c()p.tj.1.111ªs, .aquellas que surgen debid,Q a alg(l.11 prq1::~s9 ci~ m~djció.n, s.91Jre__giver-
~9s_Jen.9J!!t:'.flQLd~.in~er_~s. Algunos ejemplos de fenómenos aleatorios continuos
son:léJ_ª-1.tmª'~~~o, el tiempo en!r.~.J~_gª9as (de clientes a un banco), y los tiem-
pQ.s__ de_se.rYi!;ios..a...clleutes. Además, de la Encuesta sobre la satisfacción de los
empleados, desarrollada en el capítulo 2, las respuestas a las preguntas relativas a
las horas trabajadas, edad e ingresos también pertenecen a funciones de densidad
para variables aleatorias continuas.
Cuando se dispone de una expresión matemática para representar algunos
fenómenos continuos subyacentes, se puede calcularla probabilidad .de.que-00.1:...
rran diversos Yalores de .la variable aleatoria dentro de ciertos rangos o intervalos.
Sin embargo, la probabilidad exacta de un valor particular de una distribución con-
tinua es cero.
Como ejemplo, la distribución de probabilidad representada en la tabla 8.1 se
obtiene clasificando una distribución en la que el fenómeno de interés aleatorio y
continuo se dice que sigue la función de densidad de probabilidad normal
"de campana" o gaussiana. Si el listado de no tra~lape (mutuamente excluyente)
contiene todos los intervalos de clase posibles (colectivamente exhaustivo), las
probabilidades nuevamente sumarán l. Esto se demuestra en la tabla 8.1. Tal dis-
tribución de probabilidad puede considerarse como una distribución de frecuencia
relativa según se describe en la sección 3.4, donde, excepto en las dos clases de
extremo abierto, el punto medio de cualquier otro intervalo de clase representa los
datos de ese intervalo.

274 Capítulo 8 La distribución normal


Tabla 8.1 Grosor de 10,000 lavado-
ras de metal fabricadas
por una gran compañía
Grosor
(pulgadas)
Frecuencia relativa
o probabilidad

Menor de .0180 48/10,000 = .0048
.0180 < .0182 122/10,000 = .0122
.0182 < .0184 325/10,000 = .0325
.0184 < .0186 695/10,000 = .0695
.0186 < .0188 1198/10,000 = .1198
.0188 < .0190 1664/10,000 = .1664
.0190 < .0192 1896/10,000 = .1896
.0192 < .0194 1664/10,000 = .1664
.0194 < .0196 1198/10,000 = .1198
.0196< .0198 695/10,000 = .0695
.0198 < .0200 325/10,000 = .0325
.0200 < .0202 122/10,000 = .0122
.0202 o mayor 48/10,000 = .0048
Total 1.0000

Desafortunadamente, la obtención de probabilidades o el cálculo de valores


1·sperados y desviaciones estándar para fenómenos continuos implica expresiones
111atemáticas que requieren un conocimiento de cálculo integral y que están más
;tllú del alcance de este libro. No obstante, una función de densidad de probabili-
dad continua que estudiaremos se ha considerado tan importante por sus aplica-
dones que se han diseñado tablas de probabilidad especial (como la tabla E.2 del
;tpéndice E) con el fin de eliminar la necesidad de lo que de otro modo requeriría
laboriosos cálculos matemáticos. E~!ªJ~~.Si.<?f1_ <.!~.. <.!~r.:!~Nilº-c:!~.J2IQ!:gl;¡lJj_\[,.gruon-
1111ua se conoce como la distribución gaussiana o normal.

1:81 La distribución normal

8.J. I Importancia de la distribución normal


l .a distribución normal es de vital importancia en estadística por tres razones
11rincipales:
l. Numerosos fenómenos continuos parecen seguirla o pueden a
proximarse mediante ésta.
2. Podemos usarla para aproximar diversas distribuciones de
probabilidad discreta y evitar así pesados cálculos (sección 8.6).
3. Proporciona la base de la inferencia estadística clásica debido a su
relación con el teorema del límite central (que se desarrollará en el
capítulo 9).

8. J .2 Propiedades de la distribución normal


l .a distribución normal tiene varias propiedades teóricas importantes. Entre éstas
1·.~tán

l. Tiene forma de campana y es simétrica en apariencia.

La distribución normal 275


2. Sus mediciones de tendencia central (media, mediana, moda, alcance
medio y eje medio) son todas idénticas.
3. Su "dispersión media" es igual a 1.33 desviaciones estándar. Es decir,
el alcance intercuartil está contenido dentro de un intervalo de dos
tercios de una desviación estándar por debajo de la media a dos tercios
de una desviación estándar por encima de la media.
4. Su variable aleatoria asociada tiene un alcance infinito (- oo <X<+ oo).
En la práctica, algunas de las variables que observamos sólo pueden aproximar·
estas propiedades teóricas. Esto ocurre por dos razones: (1) la distribución de
población subyacente sólo puede ser aproximadamente normal y (2) ·cualquier·
muestra real puede desviarse de las características teóricamente esperadas. Para
· algún fenómeno que puede aproximarse mediante el modelo de distribución nor~
mal:
l. Su polígono sólo puede ser aproximadamente de forma de campana y
simétrico en apariencia.
2. Sus mediciones de tendencia central pueden diferir ligeramente entre
sí.
3. El valor de su alcance intercuartil puede diferir ligeramente de 1.33
desviaciones estándar.
4. Su alcance práctico no será infinito pero generalmente caerá dentro de
3 desviaciones estándar por encima y por debajo de la media.
(Es decir, alcance = 6 desviaciones estándar.)
A este respecto, refirámonos a la figura 8.1, que describe el polígono e his•¡
tograma de frecuencia relativa para la distribución del grosor de 10 000 lavadoras.
de metal que se presenta en la tabla 8.1 de la página 275. Para estos datos, las,
primeras tres propiedades teóricas de la distribución normal parecen haberse satis•1
fecho; sin embargo, la cuarta no se cumple. La variable aleatoria de interés, el:
grosor, no puede tomar los valores de cero o menores, y una lavadora tampocot
puede ser tan gruesa que se vuelva inutilizable. De la tabla 8.1 observamos que sólo¡
48 de cada 10 000 lavadoras de metal fabricadas puede esperarse que tengan un.
grosor de .0202 pulgadas o más, mientras que puede esperarse que un número
igual tenga un grosor por debajo de .0180 pulgadas. Por tanto, la probabilidad d~:
obtener aleatoriamente una lavadora tan delgada o tan gruesa es de .0048 + .0048 ~1
.0096, o casi 1 en 100. "
Dejaremos al lector verificar (véase el problema 8.5 de la página 291) que
puede esperarse que 99 .04% de estas lavadoras fabricadas tengan un grosor cte;
entre .0180 y .0202 pulgadas, es decir, 2.59 desviaciones estándar (distancias) por
encima y por debajo de la media.

' ... ' ... ' :~ '\

Figura 8.1
Histograma y polígono de frecuencia relativa
Grosor (pulgadas)
del grosor de 1O 000 lavadoras de metal.
Fuente: Los datos se tomaron de la tabla 8.1.

276 Capítulo 8 La distribución normal


8. 3. 3 El modelo matemático
11.1 modelo o expresión matemática que representa una función de densidad de
probabilidad se denota mediante el símbolo f{X). Para la distribución normal, el
modelo usado para obtener las probabilidades deseadas es

(8.l):

donde
e es la constante matemática aproximada por 2.71828
7r: es la constante matemática aproximada por 3.14159
µx es la media de población
- ax es la desviación estándar de población
X es cualquier valor de la variable aleatoria continua, donde
-oo <X <+oo

Examinemos los componentes de la función de densidad de probabilidad


nomal de la ecuación (8.1). Puesto que e y 7t son constantes matemáticas, las pro-
babilidades de la variable aleatoria X c;lependen sólo de dos parámetros de la dis-
tribución normal, la media de la población µx y la desviación estándar de la
población ªx·
Cada vez que especificamos una combinación particular de µx y cr,, se
generará una distribución de probabilidad diferente. Ilustramos esto en la figura 8.2,
donde se describen tres distribuciones normales diferentes. Las distribuciones A y
B tienen la misma media (µ, ) pero tienen diferentes desviaciones estándar. Por otra
parte, las distribuciones A y C tienen la misma desviación estándar (cr,), pero tienen
diferentes medias. Además, las distribuciones By C describen dos funciones de den-
sidad de probabilidad normal que difieren tanto de µ, como de cr,.
Desafortunadamente, la expresión matemática de la ecuación (8.1) es tediosa
en cuanto a su cálculo. Para evitar tener que hacer tales cálculos, sería útil disponer
de un conjunto de tablas que proporcionaran las probabilidades deseadas. Sin
embargo, como existe un número infinito de combinaciones de los parámetros µ,
y ~x' se requeriría un número infinito de estas tablas.

·''
1 IYB

f.:;,I

~,'.: -=----"~-===--'----=-~!!!!IL--___:=- Figura 8.2


Tres distribuciones normales con
:1· P.arámetros diferentes µ_. y o_..

La distribución normal 277


8. 3 .4 Estandarización de la distribución normal
Afortunadamente, al estandarizar los datos, sólo necesitaremos una tabla. (Véase la
tabla E.2.) Al usar la fórmula de transformación

z = X - µ, (8.2)
(J X

cualquier variable aleatoria normal X se convierte en una variable aleatoria nor-


mal estandarizada Z. Mientras los datos originales para la variable aleatoria X
tenían una media µ, y una desviación estándar ax, la variable aleatoria estandari-
zada Z siempre tendrá una media µ, = O y una desviación estándar a, = 1.
l}na dis.tribución normal estandarizada es una .distribución cuya
variaJ?.le a1-eatoria Z siempre tiene una media µ,=O y una desviación
estándar a, ~ l.
Sustituyendo en la ecuación (8.1), vemos que la función de densidad de pro-
babilidad de una variable normal estándar Z es

f(Z) = _1_ e-(1/2Jz2 (8.la)


,¡zn

Por eso, siempre podemos convertir cualquier conjunto de datos normalmente dis-
tribuidos a su forma estandarizada y después determinar cualquier probabilidad
deseada a partir de una tabla de la distribución normal estandarizada.
Para ver cómo puede aplicarse la fórmula de transformación (8.2) y cómo
podemos usar entonces los resultados para leer probabilidades de la tabla de dis-
tribución normal estandarizada (tabla E.2), consideremos el siguiente problema.
Suponga que un consultor estaba investigando el tiempo que emplearon los
obreros de una planta automotriz en montar una parte específica después de su
entrenamiento para realizar la tarea usando un enfoque de aprendizaje individual.
El consultor determinó que el tiempo en segundos invertido por los obreros entre-
nados con este método para montar la parte se distribuía normalmente con una
media µx de 75 segundos y una desviación estándar crx de 6 segundos.

• Transformación de los datos De la figura 8.3 vemos que cada medición X


tiene una medición estandarizada correspondiente Z obtenida de la fórmula de
transformación (8.2). Así pues, de la figura 8.3 es claro que un tiempo de 81 segun-
dos requerido por un obrero para completar la tarea es equivalente a 1 unidad
estandarizada (es decir, 1 desviación estándar) por encima de la media, puesto que

z = 81 - 75 = +1
6
y un tiempo de 57 segundos requerido por un obrero para montar la parte es equi-
valente a 3 unidades estandarizadas (es decir, 3 desviaciones estándar) por debajo de
la media, puesto que

z = 57 - 75 = -3
6

l.78 Capítulo 8 La distribución normal


Transformación de escalas.
Planta automotriz con
capacitación individual

µx-3crx µx- 2crx µx-1crx µX µx+ 1crx µx+ 2crx µx+ 3crx X Escala
57 63 69 75 81 87 93 (µx= 75, ax= 6)
-3 -2 -1 o +1 +2 +3 ZEscala Figura 8.l
Transformación de escalas.

l'nr tanto, la desviación estándar se ha convertido en la unidad de medición. En


11tras palabras, un tiempo de 81 segundos es 6 segundos (es decir, 1 desviación
1·\t:1ndar) superior, o más lento que el tiempo promedio de 75 segundos y un tiem-
po de 57 segundos es 18 segundos (es decir, 3 desviaciones estándar) inferior, o más
111¡1ido que el tiempo promedio.
Ahora suponga que el consultor condujo el mismo estudio en otra planta auto-
111otriz, donde los obreros fueron entrenados para montar la parte usando un
111l'.·todo de aprendizaje basado en un trabajo de equipo. Suponga que en esta
planta el consultor determinó que el tiempo para realizar la tarea estaba normal-
111ente distribuido con una mediaµ, de 60 segundos y una desviación estándar a,
d\' :{ segundos. Los datos se ilustran en la figura 8.4 de la página 280. En compara-
ri<'m con los resultados de los obreros que tenían un método de aprendizaje indi-
vidual observamos, por ejemplo, que en la planta donde los obreros tuvieron un
('lllrenamiento de equipo, un tiempo de 57 segundos para terminar la tarea está
~<'>lo 1 desviación estándar por debajo de la media para el grupo, puesto que

z = 57 - 60 = -1
3
L11nbién podemos notar que un tiempo de 63 segundos está 1 desviación estándar
por encima del tiempo medio de montaje, ya que

z = 63 - 60 = +1
3
y un tiempo de 51 segundos está 3 desviaciones estándar por debajo de la media
dl'I grupo porque

z = 51 - 60 = -3
3

8.3.S Uso de las tablas de probabilidad normal


l.as dos curvas en forma de campana de las figuras 8.3 y 8.4 ilustran los polígonos
dl' frecuencia relativa para las distribuciones normales que representan el tiempo
segundos) de montaje de todos los obreros fabriles para ensamblar una parte
(l'll
dos plantas automotrices; una, empleando un método de entrenamiento indi-
1·11
vidual y otra en la que se utilizó un método de entrenamiento en equipo. Puesto
que en cada planta se conocen los tiempos de montaje de la parte de cada obrero,

La distribución normal 2 79
Planta áutomotrii
con capacitación de equipo

1
1
1
1
1
1
1
1
1
1
1
1
1
1
. 51 57 60 66 XEscal~ (µ~ = 60, ax= 3),
Figura 8.4
Una transformación de escalas < -2 -1 o +1 +2 +3 ZEscala (µz =ó,crz =1) ·
~ ;r_
distinta. '

los datos representan a la población entera de una planta particular, y por tanto,
las probabilidades o proporción de área bajo la curva entera deben sumar l.
Por consiguiente, el área bajo la curva entre cualesquier dos valores de tiempo
reportados representa sólo una porción del área total posible.
Suponga que el consultor desea determinar la probabilidad de que un obrero
seleccionado aleatoriamente entre aquellos que participaron en el entrenamiento
individual requiera entre 75 y 81 segundos para terminar la tarea. Es decir, ¿cuál es
la probabilidad de que el tiempo del obrero esté entre la media de la planta y una
desviación estándar por encima de esta media? Esta respuesta se encuentra usando
la tabla E.2.
La tabla E.2 representa las probabilidades o áreas bajo la curva normal calcu-
ladas desde la media µx hasta los valores particulares de interés X. Usando la
ecuación (8.2), esto corresponde a las probabilidades o áreas bajo la curva normal
estandarizada desde la media (µ, = O) hasta los valores transformados de interés Z.
Sólo se enumeran entradas positivas de Z en la tabla, puesto que para una dis-
tribución simétrica de este tipo con una media de cero, el área que va desde la
media hasta +Z (es decir, Z desviaciones estándar por encima de la media) debe ser
idéntica al área que va desde la media hasta -Z (es decir, Z desviaciones estándar
por debajo de la media).
Al usar la tabla E.2 observamos que todos los valores Z deben registrarse primero
con hasta dos lugares decimales. Por tanto, nuestro valor de interés particular Z se
registra como +l.00: Para leer el área de probabilidad bajo la curva desde la media
hasta Z = +1.00, podemos recorrer hacia abajo la columna Z de la tabla E.2 hasta que
ubiquemos el valor de interés Z (en décimas). Así pues, nos detenemos en la fila Z =
1.0. A continuación, leemos esta fila hasta que intersecamos la columna que con-
tiene el lugar de centésimas del valor Z. Por tanto, en el cuerpo de la tabla, la proba-
bilidad tabulada para Z = 1.00 corresponde a la intersección de la fila Z = 1.00 con la
columna Z = .00 como se muestra en la tabla 8.2 (que es una réplica de la tabla E.2).

280 Capítulo 8 La distribución normal


o.o
0.1
0.2
0.3
-
Tabla 8.2 Obtención de un área bajo la curva normal.
z
.00 bo
.03 f)8
.07 ~3
.11 ~9
.01
.0040
.0438
:0832
.1217
.02
.0080
.0478
.0871
.1255
.03
.0120
.0517
.0910
.1293
.04
.0160
.0557
.0948
.1331
.os
.0199
.0596
.0987
.1368
.06
.0239
.0636
.1026
.1406
.07
.0279
.0675
.1064
.1443
.08
.0319
.0714
.1103
.1480
.09
.0359
.0753
.1141
.1517
0.4 .15 $4 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .19 ~5 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .22 $7 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .25 so .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852

·- -
0.8 .28 ~1 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3IS9 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
.3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
Fuente: Extraída de la tabla E.2.

Esta probabilidad es .3413. Como se ilustra en la figura 8.5, existe una posibilidad
de 34.13% de que un obrero seleccionado aleatoriamente y que tenga un entrena-
miento individual requiera entre 75 y 81 segundos para montar la parte.
Por otro lado, sabemos de la figura 8.4 que la planta automotriz donde los
obreros recibieron un entrenamiento de equipo, un tiempo de 63 segundos está 1
unidad estandarizada por encima del tiempo medio de 60 segundos. Por tanto, la
probabilidad de que un obrero fabril seleccionado aleatoriamente que recibió un
entrenamiento de equipo complete el montaje en un tiempo de entre 60 y 63
segundos también es .3413. 1 Estos resultados se ilustran claramente en la figura 8.6
(página 282), lo que demuestra que sin importar el valor de la media µx y de la
desviación estándar ax de un conjunto particular de dátos distribuidos normal-
mente, siempre puede hacerse una transformación a una escala estandarizada par-
tiendo de la ecuación (8.2) y, usando la tabla E.2, puede obtenerse cualquier
probabilidad o porción de área bajo la curva. De la figura 8.6 vemos que la proba-
bilidad o área bajo la curva de 60 a 63 segundos para los obreros con un entre-
namiento de equipo es idéntica a la probabilidad o área bajo la curva de 75 a 81
segundos para los obreros con un entrenamiento individual.

, 1'1 1
Planta automotriz
con capacitación ,' ' \, '.¡ 1;

individual

' .-~ ' . .• ' .


l ''
Jr., ··'
.' 'J 1):

57 1 . ·93 · .. · )e Es~~la Figura a.s


Determinación del área entre la media
-3.00 -2.00 -1.00 o +1.00 +2.00 +3.00 Z Escala y Z a partir de una distribución normal
estandarizada.

l:i 1 Aplicaciones
Ahora que hemos aprendido a usar la tabla E.2 junto con la ecuación (8.2), pueden
resolverse muchos tipos distintos de cuestiones de probabilidad referentes a la dis-
tribución normal.

Aplicaciones 2·a· 1
·· ··capt1cita~lón
'·:··ÍI
de
,
equipe>'·
'. '· '
·

;. º,

Figura 8.6
Demostración de una transformación de
escalas por porciones correspondientes bajo •,•·.
dos curvas normales.

Para ilustrar lo anterior, supongamos que el consultor formula las siguientes pre-
guntas respecto al montaje de una parte particular por parte de obreros que tuvieron
un entrenamiento individual:
l. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en menos de 75 segundos
o en más de 81 segundos?
2. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en un tiempo de entre
68 a 81 segundos?
3. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en menos de 62 segundos?
4. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en un tiempo de entre 62 a 69
seg\indos?
5. ¿Cuántos segundos deben transcurrir antes de que 50% de los obreros
fabriles monten la parte?
6. ¿Cuántos segundos deben transcurrir antes de que 10% de los obreros
fabriles monten la parte?
7. ¿Cuál es el alcance intercuartil (en segundos) esperado para que los
obreros fabriles monten la parte?

8.4. 1 Encontrar las probabilidades correspondientes


a valores conocidos
Recordamos de la sección 8.3.4 que para los trabajadores con un entrenamiento
individual los datos de tiempo de montaje se distribuyen normalmente con una
media µx de 75 segundos y una desviación estándar ax de 6 segundos. En respuesta
a las preguntas 1 a 4, usaremos esta información al buscar determinar las proba-
bilidades asociadas con diversos valores medidos.

282 Capítulo 8 La distribución normal


e Pregunta 1: Hallando P(X < 75 o X> 81) ¿Cómo podemos determinar
In probabilidad de que un obrero fabril seleccionado aleatoriamente realice la tarea
t•n menos de 75 segundos o en más de 81 segundos? Puesto que ya hemos deter-
minado la probabilidad de que un obrero fabril seleccionado aleatoriamente nece-
site entre 75 y 81 segundos para montar la parte, de la figura 8.5 en la página 281
observamos que nuestra probabilidad deseada debe ser su complemento, es decir,
1 - .3413 = .6587.
Otra forma de ver este problema, sin embargo, es obtener por separado tanto
la probabilidad de montar la parte en menos de 75 segundos y la probabilidad de
montar la parte en más de 81 segundos y después usar la regla de la adición para
<'Ventos mutuamente excluyentes [ecuación (6.4)] para obtener el resultado deseado.
Esto se ilustra en la figura 8.7.
;,

1• Planta autoJnQ'triz «1 ,, , 1

, ·. con cal)~!(?ilf1Pió!".·-0r~r,
irycjiyi~1,1~I · , • .
,¡·.L.:·:. ,,
', :;,

, _ r..:-,,,..<:

.• á~:~#~~J;ffi¡~~{¡j~~·i;;rt¡,, ;~~~~··· Figura 8.7


Encontrando P(X < 75 o X> 81 ).

Puesto que la media y la mediana son teóricamente iguales para datos nor-
malmente distribuidos, se concluye que 50% de los obreros pueden montar la
parte en menos de 75 segundos. 2 Para mostrar esto, de la ecuación (8.2) tenemos

z =X - µ, = 75 - 75 = O.OO
ª· 6
Usando la tabla E.2, vemos ·que el área bajo la curva normal desde la media hasta
Z = 0.00 es .0000. Así pues, el área que está bajo la curva menor que Z = 0.00 debe
ser .5000 - .0000 = .5000 (que resulta ser el área para todo el lado izquierdo de la
distribución desde la media hasta Z = -oo, como se muestra en la figura 8.7).
Ahora deseamos obtener la probabilidad de montar la parte en más de 81
segundos. Pero la ecuación (8.2) sólo da las áreas que están bajo la curva desde la
media hasta Z, no desde Z hasta +oo. Por tanto, encontramos la probabilidad desde
la media hasta Z y restamos este resultado de .5000 para obtener la respuesta
deseada. Puesto que sabemos que el área o porción de la curva desde la media hasta
Z = +1.00 es .3413, el área que va desde Z =+1.00 a Z =+oo debe ser .5000 - .3413
= .1587. En consecuencia, la probabilidad de que un obrero fabril seleccionado
aleatoriamente realice la tarea en menos de 75 o más de 81 segundos, P(X < 75 o X
> 81), es .5000 + .1587 = .6587.

e Pregunta 2: Hallando P(69 :5: X :5: 81) . Suponga que ahora estamos intere-
sados en
determinar la probabilidad de que un obrero fabril seleccionado aleatoria-
mente pueda completar la parte en un tiempo de entre 69 a 81 segundos, es decir,
P(69 s; X~ 81). Observamos de la figura 8.8 de la página 284 que uno de los valores
de interés está por encima del tiempo de montaje medio de 75 segundos y que el
otro valor está por debajo de éste. Puesto que nuestra fórmula de transformación
(8.2) sólo nos permite encontrar probabilidades desde un valor particular de interés
hasta la media, podemos obtener nuestra probabilidad deseada en tres pasos:

Aplicaciories 281
l. Determine la probabilidad de la media a 81 segundos.
2. Determine la probabilidad de la media a 69 segundos. . 1
3. Sume los dos resultados mutuamente excluyentes.
Para este ejemplo, ya completamos el paso l¡ el área que está bajo la curva nornial
a partir de la media hasta 81 segundos es .3413. Para encontrar el área desdé la
media hasta 69 segundos (paso 2), tenemos

z == X - µX == 69 - 75 == -1.00 ··1:-1
"X 6
,'

J '
La tabla E.2 muestra sólo entradas positivas para Z. Debido a la simetría, es clarci>\
que el área que va de la media hasta Z == -1.00 debe ser idéntica al área que va d~'j
la media hasta Z == +l.00. Descartando el signo negativo, entonces, buscamos (e: J
la tabla E.2) el valor de Z == 1.00 y encontramos que la probabilidad es .3413. Po ~ 1

tanto, del paso 3, la probabilidad de que la parte pueda montarse en un tiempo d :¡


entre 69 a 81 segundos es .3413 + .3413 == .6826. Esto se muestra en la figura 8.8 ..:

93

Figura e.e o' +1.00 +2.00 +3.00


Encontrando P(69 ~ X~ 81 ).

• Generalización desde la distribución normal estándar El resultad~l


anterior es bastante importante. Si generalizamos por un momento, podemos vef:!
que para cualquier distribución normal existe un .6826 de probabilidad de que tirí.'.
elemento seleccionado aleatoriamente caiga dentro de ±1 desviación estándar póf;
arriba o por debajo de la media. Dejaremos al lector verificar de la tabla E.2 (véas~::
el problema 8.4 de la página 29~) que existe una probabilidad de .9544 de que~
cualquier ob~ervación distribuida normalmente y seleccionada aleatoriament4.
caiga dentro de ±2 desviaciones estándar por arriba o por debajo de la media y un¡
.9973 de probab~lidad de que la observación caiga entre ±3 desviaciones estándar
por arriba o por debajo de la media. >
Para la planta en que los obreros recibieron el entrenamiento individual, estq:'
nos dice que puede esperarse que poco más de dos de cada tres obreros fabriles'.
(68.26%) completen la tarea dentro de ±1 desviación estándar de la media:~
Además, de la figura 8.9, puede esperarse que poco más de 19 de cada 20 obreros)
fabriles (95.44%) completen la tarea dentro de ±2 desviaciones estándar de l~,'
media (es decir, entre 63 y 87 segundos}, y, de la figura 8.10, puede esperarse qu~.'.
prácticamente todos los obreros (99.73%) monten la parte en ± 3 desviacione$'
estánd~r de la media (es decir, entre 57 y 93 segundos). \
De la fig. 8.10, realmente es poco probable (.0027 o sólo 27 obreros de 10,000);
que un obrero seleccionado aleatoriamente sea tan rápido o tan lento que se puedª
esperar que complete el montaje de la parte en menos de 57 segundos o más de 93:

2e4 Capítulo e La distribución normal


. .
Área= .4772 puesto qúe Área= .4772 puesto que ·
X-µx . X-µx ·.
Z=-.-=-2.00 Z=.--=+2.00
ªx ªx
. ,,.

57
,,,. 93 x esc.at1:1
-3.00· -'-2.00 -.1.00: O · +LOO +2.00 +3.00 ZEscala Figura 8.9
Encontrando P(6l :<>X:<> 87).

Área = .49865 puesto qué Área = .49865 puestó que


X-'-µx " .: X-µ . . .
Z= -.-.-.- = -3,00 :Z=--·_x =+3.00
ºx . ªx.

57 63 6~ 75 81 87 93 X Escala
-3.oo: ':...e.oo ~1:00 o +1.00 +2.00 +3.00 iescala
,._, Figura 8.10
Encontrando P(57 :<> X:<> 93). "

segundos. Así, es claro por qué a menudo se usa 6cr, (es decir, 3 desviaciones están-
dar por arriba de la media a 3 desviaciones estándar por debajo de la media) como
una aproximación práctica del alcance de datos distribuidos normalmente.

• Pregunta 3: Hallando P(X < 62) Para obtener la probabilidad de que un


obrero seleccionado aleatoriamente pueda montar la parte en menos de 62 segun-
dos deberíamos examinar la región sombreada del extremo izquierdo de la figura
8.11. La fórmula de transformación (8.2) sólo nos permite encontrar áreas bajo la
distribución normal estandarizada desde la media hasta Z, no desde Z hasta -oo.
Por tanto, debemos encontrar la probabilidad desde la media hasta Z y restar este
resultado de .5000 para obtener la respuesta deseada.

;t:.
,,
1 Figura 8.11
Encontrando P(X < 62).

Aplicaciones 285
Para determinar el área bajo la curva desde la media hasta 62 segundos, tenemos

X - µX 62 - 75 = -13 = -2.17
Z=--~
6 6

Ignorando el signo negativo, buscamos el valor Z de 2.17 en la tabla E.2 haciendo


concordar la fila Z apropiada (2.1) con la columna Z apropiada (.07) como se mues-·
tra en la tabla 8.3 (una réplica de la tabla E.2). En consecuencia, la probabilidad
resultante o área bajo la curva desde la media hasta 2.17 desviaciones estándar
por debajo de ésta es .4850. Así pues, el área de Z = - 2.17 a Z = -oo debe ser .5000
- .4850 = .0150. Esto se indica en la figura 8.11 de la página 285.

Tabla 8.3 Obtención de un área bajo la curva normal.


z .00 .01 .02 .03 .04 .05 .06 .08 .09
o.o .oooo .0040 .0080 .0120 .0160 .0199 .0239 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1844 .1879 '


2.0

2.2
2.3
2.4
.4772
.4821
.4861
.4893
.4918
.4778
.4826
.4864
.4896
.4920
.4783
.4830
.4868
.4898
.4922
.4788
.4834
.4871
.4901
.4925
.4793
.4838
.4875
.4904
.4927
.4798
.484!
.4878
.4906
.4929
.4803
.4846
.4881
.4909
.4931
)-
.4

.4884
.4911
.4932
8 .4812
.4854
.4887
.4913
.4934
.4817 1
.4857 !
.4890
.4916
.4936
Fuente: Extraída de la tabla E.2.

e Pregunta 4: Hallando P(62 $;X$; 69) Como ilustración final de la deter-


minación de probabilidades a partir de la distribución normal estandarizada;
suponga que deseamos encontrar qué tan probable es que un obrero seleccionado
aleatoriamente pueda completar la tarea en un tiempo de entre 62 a 69 segundos,
Puesto que ambos valores de interés están por debajo de la media, vemos de la·
figura 8.12 que la probabilidad deseada (o área bajo la curva entre los dos valores)
es inferior a .5000.

Figura 8.12
Encontrando P(62 ~X~ 69).

286 Capítulo 8 La distribución normal


Puesto que nuestra fórmula de transformación (8.2) sólo nos permite encontrar
probabilidades desde un valor de interés particular a la media, podemos obtener
nuestra probabilidad deseada en tres pasos:
l. Determine la probabilidad o área bajo la curva desde la media hasta
62 segundos.
2. Determine la probabilidad o área bajo la curva de la media a 69 segun-
dos.
3. Reste el área menor de la mayor (para evitar doble conteo).
Para este ejemplo, ya hemos completado los pasos 1 y 2 al responder las preguntas
:4 y 2, respectivamente; el área que está a partir de la media hasta 69 segundos es
.3413. Por tanto, del paso 3, al restar el área menor de la mayor determinamos que
sólo hay .1437 de probabilidad de seleccionar aleatoriamente un obrero del que se
podría esperar que completara la tarea en un tiempo de entre 62 y 69 segundos. Es
decir,
P(62 :5 X :5 69) = P(62 :5 X :5 75) - P(69 :5 X :5 75)

= .4850 - .3413 = .1437

8.4 • .2 Encontrar los valores correspondientes a


probabilidades conocidas
En nuestras aplicaciones previas referentes a datos distribuidos normalmente,
hemos buscado determinar las probabilidades asociadas con diversos valores medi-
dos. Ahora, sin embargo, suponga que deseamos determinar valores numéricos de
las variables de interés que corresponden a probabilidades conocidas. Como ejem-
plos, respondamos las preguntas 5 a 7.

e Pregunta 5 Para determinar cuántos segundos transcurren antes de que el


50% de los obreros monten la parte, debemos examinar la figura 8.13. Puesto que
este valor de tiempo corresponde a la mediana, y la media y la mediana son iguales
en todas las distribuciones simétricas, la mediana debe ser de 75 segundos.

j¡.

Figura a.1 J
Encontrando X.

e Pregunta 6 Para determinar cuántos segundos transcurren antes de que el


10% de los obreros monten la parte, debemos centrarnos en la figura 8.14 de la
página 288. Puesto que se espera que 10% de los obreros completen la tarea en
menos de X segundos, entonces se esperaría que 90% de los obreros requirieran X
segundos o más para hacer el trabajo. De la figura 8.14 podemos observar que este
90% puede desglosarse en dos partes: tiempos (en segundos) por'arriba de la media
(es decir, 50% de los obreros) y tiempos entre la media y el valor deseado X (es
decir, 40% de los obreros).

Aplicaciones 287
'·.

' '
.
• 'Á t >
E! ~r~a,(, ,es.. .40,00:
1 ~ 1·,
1· ,; •

El área es .1000
,'·,<·; ... ,'. t 1

. XEscala .·
Figura 8.14
Encontrando Z para -1.28 o : ::,, 1
ZEscala
determinar X.

Tabla 8.4 Obtención de un valor Z correspondiente a un área particular bajo la curva normal •

o.o
0.1
z .00
.0000
.0398
.01
.0040
.0438
.02
.0080
.0478
.03
.0120
.0517
.04
.0160
.0557
.os
.0199
.0596
.06
.0239
.0636
.07
.0279
.0675

.o
.o
19
14
.09
.0359
.0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1 03 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1 80 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1 44 .1879

1.0 .3621


1.1 .3830
.4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
Fuente: Extraída de la tabla E.2.

Mientras no conozcamos X, podemos determinar el valor estandarizado corres-


pondiente a Z, puesto que el área que está bajo la curva normal desde la media
estandarizada O hasta esta Z debe ser .4000. Usando el cuerpo de la tabla E.2, bus-
camos el área o probabilidad .4000. El resultado más cercano es .3997, como se
muestra en la tabla 8.4 (una copia de la tabla E.2).
Trabajando desde esta área hacia los márgenes de la tabla, vemos que el valor
Z correspondiente a la fila Z particular (1.2) y columna Z (.08) es 1.28. Sin
embargo, de la figura 8.14, el valor Z debe registrarse como negativo (es decir, Z =
-1.28), puesto que está por debajo de la media estandarizada de O.
Una vez que se obtiene Z, podemos usar la fórmula de transformación (8.2)
para determinar el valor <fe interés, X. Como

entonces

288 Capítulo 8 La distribución normal


Sustituyendo, calculamos
X= 75 + (-1.28)(6) = 67.32 segundos
Por consiguiente, esperaríamos que 10% de los obreros fueran capaces de comple-
tar la tarea en menos de 67.32 segundos.
Como repaso, para encontrar un valor particular asociado con una probabili-
dad conocida, debemos adoptar los siguientes pasos:
l. Trazar la curva normal y luego colocar los valores para las medias (µx y
µ,) en las escalas X y Z respectivas.
2. Dividir la mitad apropiada de la curva normal en dos partes: la
porción de la X deseada a la media y la porción de la X deseada al
extremo.
3. Sombrear el área de interés.
4. Usando la tabla E.2, determinar el valor Z apropiado correspondiente
al área que está bajo la curva normal desde la X deseada hasta la
media µx.
5. Usando la ecuación (8.3), solucionar para X; es decir,

X = µx + Zcrx

e Pregunta 7 Para obtener el rango intercuartil primero debemos hallar el


valor para Q1 y el valor para Q¡; después debemos restar el primero del segundo.
Para hallar el valor del tercer cuartil, debemos determinar el tiempo (en segun-
dos) durante el cual puede esperarse que sólo 25% de los obreros monten la parte
más rápido. Esto se ilustra en la figura 8.15.

•. •I-:; .KJ:~q~I~¡
i,.:;. r.zesé~iá\. Figura 8.1 s
Encontrando Q 1•

Aunque no conocemos Q11 podemos obtener el valor Z estandarizado corres-


pondiente, puesto que el área que está bajo la curva normal desde la media
estandarizada O hasta esta Z debe ser .2500. Usando el cuerpo de la tabla E.2, bus-
camos el área o probabilidad .2500. El resultado más cercano es .2486, como se
muestra en la tabla 8.5 de la página 290 (que es una copia de la tabla E.2).
Trabajando desde esta área hacia los márgenes de la tabla, vemos que el valor
Z correspondiente a la fila Z particular (0.6) y columna Z (.07) es 0.67. Sin
embargo, de la figura 8.15, el valor Z debe registrarse como negativo (es decir, Z =
-0.67), puesto que está a la izquierda de la media estandarizada de O.

Aplicaciones 289
Tabla 8.5 Obtención de un valor Z correspondiente a un área particular bajo la curva normal .
z
o.o
0.1
.00 .01 .02 .03 .04 .os .06
• .08
.0319
.0714
.09
.0359
.0753
0.2 .1103 .1141
0.3 .1480 .1517
0.4 .1844 .1879


0.5 .2190 .2224
.2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
Fuente: Extraída de la tabla E.2.

Una vez que se obtiene Z, el paso final es usar la ecuación (8.3). Por tanto,
Q1 = X = µ x + Za•
= 75 + (-0.67)( 6)
= 75 - 4
= 71 segundos
Para encontrar el tercer cuartil, debemos determinar el tiempo (en segundos)
en el que puede esperarse que 75% de los obreros monten la parte más rápido (y
25% podrían terminar la tarea más despacio). Esto se muestra en la figura 8.16.

Fl111ra a.le
Encontrando Q,.

De la simetría de la distribución normal, nuestro valor Z deseado debe ser


+0.67 (puesto que Z cae a la derecha de la media estandarizada de O). Por tanto,
usando la ecuación (8.3), calculamos

Q3 = X = µ • + Za•
= 75 + ( +0.67)( 6)
= 75 +4
= 79 segundos
El rango intercuartil o dispersión media de la distribución es
rango intercuartil = Q3 - Q1
= 79 - 71
= 8 segundos

290 Captt11lo8 La distribución normal


Problemas de la sección 8.4
8.1 Dada una distribución normal estandarizada con una media de O y una
desviación estándar de 1 (tabla E.2)
(a) ¿Cuál es la probabilidad de que
(1) Z sea menor que 1.57?
(2) Z exceda 1.84?
(3) Z esté entre 1.57 y 1.84?
(4) Z sea menor que 1.57 o mayor que 1.84?
(5) Z esté entre -1.57 y 1.84?
(6) Z sea menor que -1.57 o mayor que 1.84?
(b) ¿Cuál es el valor de Z si 50.0% de todos los valores de Z posibles son
mayores?
(c) ¿Cuál es el valor de Z si sólo 2.5% de todos los valores de Z posibles son
mayores?
(d) ¿Entre qué dos valores de Z (simétricamente distribuidos alrededor de la
media) estarán contenidos 68.26% de todos los valores de Z posibles?
8.2 Dada una distribución normal estandarizada (con una media de O y una
desviación estándar de 1), determine las siguientes probabilidades:
(a) P(Z>+l.34)
(b) P (Z s; +1.17)
(c) P(O:SZ:S+l.17)
(d) P (Z < -1.17)
(e) P (-1.17 s; Z s; +l.34)
(f) P (-1.17 s; Z s; - O.SO)
• 8.3 Dada una distribución normal estandarizada con una media de O y una
desviación estándar de 1
(a) ¿Cuál es la probabilidad de que
(1) Z esté entre la media y+ 1.08?
(2) Z sea menor que la media o mayor que +1.08?
(3) Z esté entre - 0.21 y la media?
(4) Z sea menor que - 0.21 o mayor que la media?
(5) Z sea a lo más +1.08?
(6) Z sea al menos - 0.21?
(7) Z esté entre - 0.21 y +1.08?
(8) Z sea menor que - 0.21 o mayor que +l.08?
(b) Determine las siguientes probabilidades:
(1) P (Z > +1.08)
(2) P (Z < -0.21)
(3) p (-1.96 s; z s; -0.21)
(4) p (-1. 96 s; z s; +1.08)
(5)P (+1.08:SZ:S+l.96)
(c) ¿Cuál es el valor de Z si 50% de todos los valores de Z posibles son
menores?
(d) ¿Cuál es el valor de Z si sólo 15.87% de todos los valores de Z posibles son
menores?
(e) ¿Cuál es el valor de Z si sólo 15.87% de todos los valores de Z posibles son
mayores?
8.4 Verifique lo siguiente:
(a) El área bajo la curva normal entre la media y 2 desviaciones estándar por
arriba y por debajo de ésta es .9544.
(b) El área bajo la curva normal entre la media y 3 desviaciones estándar por
arriba y por debajo de ésta es .9973.
8.5 El grosor de un lote de 10,000 lavadoras de metal de cierto tipo fabricadas por
una gran compañía se distribuye normalmente con una media de .0191
pulgadas y con una desviación estándar de .000425 pulgadas. Verifique que se
puede esperar que 99.04% de esas lavadoras tengan un grosor de entre .0180 y
.0202 pulgadas.

Aplicaciones 291
8.6 Los gastos mensuales de comida de familias de cuatro miembros promedian
$420 con una desviación estándar de $80. Suponiendo que los gastos
mensuales de comida se distribuyen normalmente:
(a) ¿Qué porcentaje de estos gastos son inferiores a $3SO?
(b) ¿Qué porcentaje de estos gastos están entre $2SO y $3SO?
(c) ¿Qué porcentaje de estos gastos están entre $2SO y $4SO?
(d) ¿Qué porcentaje de estos gastos son inferiores a $2SO o mayores a $4SO?
(e) Determine Q1 y Q1 a partir de la curva normal.
• 8.7 Toby's Trucking Company determinó que sobre una base anual, la distancia
viajada por camión se distribuye normalmente con una media de SO.O mil
millas y una desviación estándar de 12.0 mil millas.
(a) ¿Qué proporción de camiones puede esperarse que viajen entre 34.0 y
SO.O mil millas al año?
(b) ¿Cuál es la probabilidad de que un camión seleccionado aleatoriamente
viaje entre 34.0 y 38.0 mil millas al año?
(c) ¿Qué porcentaje de camiones puede esperarse que viajen menos de 30.0 o
más de 60.0 mil millas al año?
(d) ¿Cuántos de los 1000 camiones de la flota se espera que viajen entre 30.0
y 60.0 mil millas al año?
(e) ¿Cuántas millas serán recorridas por al menos 80% de los camiones·!
8.8 Las bolsas de plástico usadas para empaque de productos se fabrican de tal
manera que la resistencia a la rotura de las bolsas se distribuye normalmente
con una media de S libras por pulgada cuadrada y una desviación estándar de
l.S libras por pulgada cuadrada.
(a) ¿Qué proporción ele las bolsas producidas tiene una resistencia de rotura de
(1) entre S y S.S libras por pulgada cuadrada?
(2) entre :~.2 y 4.2 libras por pulgada cuadrada?
(3) al menos 3.6 libras por pulgada cuadrada?
(4) menos de 3.17 libras por pulgada cuadrada?
(b) ¿Entre qué dos valores simétricamente distribuidos alrededor de la media
caerá 95'Ji• de las resistencias de rotura?
8.9 Se encontró que un conjunto de calificaciones de exámenes en un curso de
estadística introductoria se distribuía normalmente con una media de 73 y
una desviación estándar de 8.
(a) ¡Cuál es la probabilidad de obtener a lo más una calificación de 91 en este
examen?
(!>) i.<~u(· porcentaje de estudiantes sacaron una calificación de entre 6S y 89?
(1') i.C~u(· porcentaje de estudiantes sacaron una calificación de entre 81 y 89?
(!I) i.< :uiil t'S la calificación del examen final si sólo S% de los estudiantes que
hici\'ron la prueba tuvieron una calificación superior?
\/ (t·) Si d profesor califica por campana (otorga Aes al 10% superior de la clase
si11 i111portar la calilicacic"i11), ;.sl' contentaría usted con una calificación de
81 t•n este exallll'n o ron una calificación de 68 en otro examen en el que
la llll'dia t•s <>2 y la tksviacic'm estúndar es 3? Muestre estadísticamente y
explique.
8.10 En una conocida escuda comercial los índices de puntos de calificaciones de
sus 1000 estudiantes SL' distriliuyl'll aproximadamente normalmente con una
mediaµ"= 2.8:~ y una desviaci{m l'St<índar cr., = .38.
(a) ¿Cuál es la probabilidad de que un estudiante seleccionado aleatoriamente
tenga un índice de puntos de calificaciones entre 2.00 y 3.00?
(b) ¿Qué porcentaje del estudiantado está a prueba, es decir, tiene índices de
puntos de calificaciones por debajo de 2.00?
(c) ¿Cuántos estudiantes de esta escuela se espera que ingresen a la lista de
decanos, es decir, que tengan índices de puntos de calificaciones iguales o
mayores que 3.20?
(d) ¿Qué índice de puntos de calificaciones será excedido por sólo IS% del
estudiantado?

292 Capítulo 8 La distribución normal


8.11 Un análisis estadístico de 1,000 llamadas telefónicas de larga distancia
realizado por las oficinas centrales de Johnson & Shurgot Corp. indica que la
duración de estas llamadas se distribuye normalmente con µ,= 240 segundos y
cr, = 40 segundos.
(a) ¿Qué porcentaje de estas llamadas duró menos de 180 segundos?
(b) ¿Cuál es la probabilidad de que una llamada particular dure entre 180 y
300 segundos?
(c) ¿Cuántas llamadas duraron menos de 180 segundos o más de 300 segundos?
(d) ¿Qué porcentaje de las llamadas duró entre 110 y 180 segundos?
(e) ¿Cuál es la duración de una llamada particular si sólo t•V.1 de todas las
llamadas son más cortas?
(f) Si no pudiéramos suponer que los datos se distribuyen normalmente,
¿cuál sería la probabilidad de que una llamada particular durara entre 180
y 300 segundos? (Sugerencia: recuerde la regla de Bienaymé-Chebyshev de
la sección 4.8. 7.)
(g) Analice las diferencias en sus respuestas a (b) y (f).
(h) r.tOJdlJl·t.f·>- Si usted fuera contratado como consultor, escriba un memorán-
dum al vicepresidente de finanzas respecto a sus hallazgos en las partes (a)-(e).
8.12 Muestre que para datos normalmente distribuidos, el rango intercuartil es
aproximadamente igual a LB desviaciones estándar
8.13 Muestre que para datos normalmente distribuidos, la desviación estándar
puede aproximarse como .75 veces el alcance intercuartil.
8.14 Un contratista de construcción afirma que puede renovar un comedor y una
cocina de 200 pies cuadrados en 40 horas de trabajo, más o menos 5 (es decir,
la media y desviación estándar, respectivamente). El trabajo incluye plomería,
instalación eléctrica, armarios, revestimiento para el suelo, pintura y la
instalación de nuevos accesorios. Suponiendo, de la experiencia anterior, que
los tiempos para completar proyectos similares se distribuyen normalmente
con una media y una desviación estándar como las estimadas anteriormente
(a) ¿Cuál es la probabilidad de que el proyecto quede terminado en menos de
35 horas?
(b) ¿Cuál es la probabilidad de que el proyecto quede terminado entre 28 y
32 horas después?
(c) ¿Cuál es la probabilidad de que el proyecto quede terminado entre :~s y
48 horas después?
(d) ¿ 10% de tales proyectos requieran más de cuántas horas?
(e) Determine el eje medio para el tiempo de terminación.
(f) Determine el rango intercuartil para el tiempo de terminación.
8.15 Suponga que la cantidad de sodio por rebanada de pan blanco producido por
una compañía de procesamiento de comida particular se distribuye normal-
mente con una media de 110 mg y una desviación estándar de 25 mg.
(a) ¿Cuál es la probabilidad de que una rebanada seleccionada
aleatoriamente contenga entre 82 y 100 mg de sodio"?
(b) ¿Cuál es la probabilidad de que una rebanada seleccionada
aleatoriamente contenga al menos 100 mg de sodio?
(c) ¿Cuál debe ser la cantidad de sodio (en mg) en una rebanada particular
de pan si 50.0%1 de todas las rebanadas tienen más sodio?
(d) ¿Cuál debe ser la cantidad de sodio (en mg) en una rebanada particular
de pan si 2.5% de todas las rebanadas tienen más sodio?
(e) ¿83% de las rebanadas de pan producidas por la compañía de proce-
samiento de comida contendrán al menos cuántos mg de sodio?
8.16 Suponga que la cantidad de tiempo que lleva a la superintendencia de
contribuciones enviar reembolsos a los contribuyentes se distribuye
normalmente con una media de 12 semanas y una varianza de 9.
(a) ¿Qué proporción de contribuyentes debe obtener un reembolso
(1) en 6 semanas?
(2) en 9 semanas?
(b) ¿Qué proporción de reembolsos se enviarán más de 15 semanas después de
que la superintendencia de contribuciones reciba el reembolso de impuestos'?
(c) ¿Cuánto tardará el que 90% de los contribuyentes obtengan sus reembolsos·!

Aplicaciones 291
8.17 Los salarios de los trabajadores de una industria particular promedian $11.90
la hora y la desviación estándar es $.40. Si se supone que los salarios se
distribuyen normalmente:
(a) ¿Qué porcentaje de trabajadores reciben salarios de entre $10.90 y $11.90?
(b) ¿Qué porcentaje de trabajadores reciben salarios de entre $10.80 y $12.40?
(c) ¿Qué porcentaje de trabajadores reciben salarios de entre $12.20 y $13.10?
(d) ¿Qué porcentaje de trabajadores reciben salarios de menos de $11.00?
(e) ¿Qué porcentaje de trabajadores reciben salarios de más de $12.95?
(f) ¿Qué porcentaje de trabajadores reciben salarios de menos de $11.00 y
más de $12.95?
(g) ¿Cuál debe ser el salario si sólo 10% de todos los trabajadores de esta
industria ganan más?
(h) ¿Cuál debe ser el salario si sólo 25% de todos los trabajadores de esta
industria ganan menos?
(i) Determine el eje medio y el rango intercuartil de los salarios de esta
industria.

Estimación de la suposición de
normalidad: propiedades de evaluación y
construcción de gráficas de probabilidad
Ahora que hemos analizado la importancia de la distribución normal y descrito sus
propiedades (sección 8.3), y de haber demostrado cómo puede aplicarse (sección
8.4), debe considerarse un asunto muy práctico. Esto es, debemos ser capaces de
evaluar la probabilidad de que un conjunto de datos particular pueda suponerse
como proveniente de una distribución normal subyacente o pueda aproximarse
adecuadamente a ésta.

8. S. 1 Exploración de los datos: el arte del análisis de datos


El lector debe tener cuidado: ¡no todas las variables aleatorias continuas están nor-
malmente distribuidas! A menudo, el fenómeno aleatorio continuo que tal vez nos
interese estudiar no seguirá la distribución normal ni podrá aproximarse ade-
cuadamente con ésta. Aunque algunos métodos de estudio de estos fenómenos
continuos están fuera del alcance de este texto (véanse las referencias 1 y 3), las téc-
nicas libres de distribución (véase la referencia 4) que no dependen de la forma par-
ticular de la variable aleatoria subyacente se analizarán en los capítulos 12 a 15.
Por tanto, para un análisis descriptivo de cualquier grupo particular de datos,
subsiste la pregunta práctica: ¿cómo podemos decidir si nuestro conjunto de datos
parece seguir, o al menos se aproxima, a la distribución normal lo suficiente para
permitir que se examine usando la metodología de este capítulo? Aquí se tomarán
dos enfoques exploratorios para evaluar la bondad de ajuste.
l. Una comparación de las características del conjunto de datos con las
propiedades de una distribución normal subyacente.
2. La construcción de una gráfica de probabilidad normal.
Un tratamiento más formal confirmativo para la bondad de ajuste de una dis-
tribución normal solo del nivel de esta obra (véase las referencias 4 y 5).

8.S.1 Evaluación de las propiedades


En la sección 8.3.2 observamos que la distribución normal tiene varias propiedades
teóricas. Recordamos que tiene forma de campana y que es simétrica en aparien-
cia; sus mediciones de tendencia central son todas idénticas; su rango intercuartil

294 Capitulo 8 La distribución normal


t•s Igual a 1.33 desviaciones estándar¡ y su variable aleatoria es continua en forma
y llene un alcance infinito.
También advertimos que en la práctica real algunos de los fenómenos aleato-
rios continuos que observamos sólo pueden aproximar estas propiedades teóricas,
ya sea porque la distribución de población subyacente puede ser sólo aproximada-
mente normal o porque cualquier conjunto de datos de muestra obtenidos se
puede desviar de las características teóricamente esperadas. En tales circunstancias,
l'S posible que los datos no tengan una forma perfecta de campana ni sean simétri-
t'OS en apariencia. Además, las mediciones de tendencia central diferirán ligera-
mente y el rango intercuartil no será exactamente igual a 1.33 desviaciones
t•stándar. Asimismo, en la práctica, el alcance de los datos no será infinito, será
aproximadamente igual a 6 desviaciones estándar.
Sin embargo, muchos fenómenos continuos no están normalmente distribui-
dos ni tienen una distribución aproximadamente normal. ·Para estos fenómenos,
las características descriptivas de los conjuntos de datos respectivos no coincidirán
adecuadamente con las cuatro propiedades anteriores de una distribución normal.
¿Qué haremos entonces para investigar el supuesto de normalidad en nuestro
datos? Un enfoque consiste en comparar y contrastar las características reales de
los datos con las propiedades correspondientes de una distribución normal subya-
cente. Para lograr esto, se sugieren los siguientes tres pasos:

l. Hacer algunos cálculos y gráficas y observar su apariencia.


• Para grupos de datos de tamaño pequeño o moderado, construir un
diagrama de tallo y hojas y una gráfica de caja y sesgos.
• Además, para grandes grupos de datos, construir la distribución de
frecuencia y graficar el histograma y polígono.
2. Calcular mediciones de resumen descriptivas y comparar las
características reales de los datos con las teóricas subyacentes, así
como con las propiedades prácticas de la distribución normal.
• Obtener la media, mediana, moda, alcance medio y eje medio y
observar las similitudes o diferencias en estas cinco mediciones de
tendencia central.
• Obtener el rango intercuartil y la desviación estándar. Observe qué
tan bien se puede aproximar el rango intercuartil por 1.33 veces la
desviación estándar.
• Obtenga el alcance y observe qué tan bien se puede aproximar por
6 veces la desviación estándar.
3. Haga algunos cálculos para evaluar cómo se distribuyen las
observaciones en el conjunto de datos.
• Determine si aproximadamente dos tercios de las observaciones
caen entre la media más o menos 1 desviación estándar.
• Determine si aproximadamente cuatro quintos de las observaciones
caen entre la media más y menos 1.28 desviaciones estándar.
• Determine si aproximadamente 19 de cada 20 observaciones caen
entre la media más o menos .2 desviaciones estándar.

Como buenos analistas de datos, éste es el tipo de cosas que siempre debemos pen-
sar hacer: graficar, observar, calcular y describir. Muchas de las técnicas de estadística
descriptiva que hemos estudiado hasta ahora entran en acción aquí. Nada es
nuevo. Comparada con otras formas distribucionales, sabemos cómo se supone
que se debe ver una distribución normal [véase el panel (a) de la figura 4.8 de la
página 130 que compara el polígono con la gráfica de caja y sesgos].
Un segundo planteamiento para evaluar el supuesto de normalidad en nues-
tros datos es a través de la construcci6n de una gráfica de probabilidad normal.

Estimación de la suposición de normaUidad: propiedades de evaluación y construcción de gráficas de probabilidad 295


8.5.3 Construcción de la gráfica de probabilidad normal
Tal vez recordemos que los cuantiles se definieron como mediciones de ubi-
cación "no central" que generalmente se calculan para resumir grandes grupos de
datos numéricos [véase la nota final 2 (página 168) perteneciente a la sección 4.4].
En esa sección pusimos énfasis en la mediana (que divide las observaciones orde-
nadas a la mitad) y los cuartiles (que dividen las observaciones ordenadas en cuar-
tos) y en esa nota mencionamos otros cuantiles como los deciles (que dividen las
observaciones ordenadas en décimos) y los percentiles (que dividen las observa-
ciones ordenadas en cientos). Con esto en mente, podemos definir una gráfica de
probabilidad normal de la siguiente manera:
Una gráfica de prob~bilidad normal es una gráfica bidimensional de
los valores de datos observados sol;J_!_~_eL«=ie vertical con sus valores cuan-
tiles correspondientes de una distribución normal estandárizada sob_re el
eje horizontal (véanse las referencias 2 y 7).
Si los puntos graficados parecen quedar sobre o cerca de una línea recta imaginaria
que va de la esquina izquierda inferior de la gráfica a la esquina derecha superior,
tendríamos evidencias para creer que el grupo de datos obtenido está (al menos
aproximadamente) normalmente distribuido. Por otra parte, si los puntos grafica-
dos parecen desviarse de esta línea recta imaginaria de alguna manera modelada,
entonces tendríamos razones para creer que el conjunto de datos obtenido no se
distribuye normalmente y que la metodología presentada en este capítulo puede
no ser apropiada.
Para construir y usar una gráfica de probabilidad normal, deben tomarse.Jos
siguientes pasos:
l. Poner los valores del grupo de datos en un arreglo ordenado.
2. Encontrar los valores cuantiles normales estándar correspondientes.
3. Graficar los pares de puntos correspondientes usando los valores de
datos observados sobre el eje vertical y los valores cuantiles normales
estándar asociados sobre el eje horizontal.
4. Evaluar la probabilidad de que la variable aleatoria de interés esté (al
menos aproximadamente) normalmente distribuida, inspeccionando la
gráfica para buscar evidencias de linealidad (es decir, una línea recta).
Estos pasos se describirán con detalle.

• Obtención del arreglo ordenado Puesto que es probable que el lote


original de datos se obtenga en forma sin procesar, las observaciones deben vol-
verse a ordenar de menor a mayor con el fin de facilitar una concordancia con los
valores cuantiles norrnalt•s estándar correspondientes. Así, los datos originales se
colocan en un arreglo ordenado.

• Encontrar los valores cuantiles normales estándar Sabemos que una


distribución normal estándar se caracteriza por una media de O y una desviación
estándar de l. Debido a su simetría, la mediana o valor cuantil medio de una dis-
tribución normal estándar también debe ser O. Por lo que, al tratar con una distri-
bución normal estándar debe estar claro que los valores cuantiles por debajo de la
mediana serán negativos y que los valores cuan ti les por arriba de la mediana serán
positivos. Sin embargo, la pregunta que todavía tenemos que contestar es, ¿cómo
podemos obtener los valores cuantiles de esta distribución? El proceso mediante el
cual podemos lograr esto se conoce como una transformación normal inversa
de resultados (véase la referencia 4).
( Se observa lo siguiente: dado un grupo de datos que contienen n observaciones
de una distribución normal estandarizada, supongamos que el símbolo q,, repre-

296 Capítulo B La distribución normal


senta su primer (y menor) valor cuantil; q,,, su segundo valor cuantil menor; 'L ,su
iésimo valor cuantil menor; y el símbolo q,., , el valor cuantil mayor. Por simetría,
los cuantiles normales estándar q,, y q,., tendrán el mismo valor numérico, excepto
por el signo. Claro está que q,, será negativo y q,,, será positivo.

El primer cuantil normal estándar, q,,, es el valor en una distribu-


ción normal estándar por debajo del cual está contenida la proporción
l/(n + 1) del área bajo la curva.
El segundo cuantil normal estándar, q,,, es el valor en una dis-
tribución normal estándar por debajo del cual está contenida la propor-
ción 2/(n + 1) del área bajo la curva.
El iésimo cuantil normal estándar, q,11 es el valor en una distribu-
ción normal estándar por debajo del cual está contenida la proporción
i/(n + 1) del área bajo la curva.
El enésimo (y mayor) cuantil normal estándar, q,,,, es el valor en
una distribución normal estándar por debajo del cual está contenida la
proporción n/(n + 1) del área bajo la curva.

• Cálculo de la transformación normal inversa de resultados Como


en la sección 8.4.2, una vez que conocemos la probabilidad o área bajo la curva,
podemos usar el cuerpo de la tabla E.2 para localizar el área apropiada y luego su
valor cuantil normal estándar en los márgenes de esta tabla. Por tanto, en general,
para encontrar el iésimo valor cuantil normal estándar de un grupo de datos que
contiene n observaciones, trazamos la distribución normal estándar y ubicamos el
valor q de tal forma que la proporción i/(n + 1) del área bajo la curva esté con-
1,

tenida debajo de ese valor. Al restar, calculamos entonces el área bajo la curva
desde q hasta la media µ, de O. Después encontramos esta área en el cuerpo de la
1,

tabla E.2 y, trabajando hasta los márgenes de esa tabla, ubicamos el valor cuantil
normal estándar correspondiente.
Para demostrar esto, supongamos que deseamos obtener el conjunto de valores
cuan tites normales estándar correspondientes a una muestra de 19 observaciones. El
primer valor cuantil normal estándar, q,,, es ese valor debajo del cual la proporción
1 1 1
n+1 19+1 2 0 = .05 del área bajo la curva normal está contenida. En la figu-
ra 8.17 figura 8.17 de la página 298 vemos que el área desde q hasta la media es
1,

que del cuerpo de la tabla 8.6 de la página 298, q,, caería a la mitad entre - 1 .65 y
- 1.64. Como los valores cuan tites normales estándar generalmente se reportan
con dos lugares decimales, el valor -1.65 se elige aquí.
Continuando de una manera similar, por ejemplo, el segundo valor cuantil
normal estándar, q,,, es ese valor por debajo del cual se obtiene la proporción
- 2- = - 2- = ~ = .10 del área bajo Ja curva normal. De la figura 8.18 y de la
n+1 19 + 1 20
tabla 8.7 (véanse páginas 298 y 299), q,, caería entre -1.29 y -1.28, peromás
ce cano a este último. Por consiguiente, el valor -1.28 se elige aquí.
Continuando de una manera similar, por ejemplo, el décimo valor cuantil nor-
mal estándar, q,,.,, es ese valor por debajo del cual está contenida la proporción
10 10 10 ,
n + 1 = 19 + 1 = 20 =.SO del area bajo la curva normal. Puesto que hemos ubi-
cado la mediana, este valor cuantil normal estándar debe ser 0.00. Dejamos al lector
como ejercicio mostrar que el segundo valor cuantil normal estándar mayor, q, , es
+l.28 y que el mayor valor cuantil normal estándar, q,, es +l.65 (problema 8 '.18, 1

página 302). "

Estimación de la suposición de normalidad: propiedades de evaluación y construcción de gráficas de probabilidad 297


Figura 8.17
..ElireS: es .osoo
Encontrando el primer valor cuantil normal
ZEscala
estándar de un grupo de datos con 19
observaciones.

Tabla 8.6 Obtención de un valor cuantil normal estándar correspondiente


a un área particular bajo la curva normal .
z
o.o
0.1
.00
.0000
.0398
.01
.0040
.0438
.02
.0080
.0478
.03
.0120
.0517
• • .o
.o
99
96
.06
.0239
.0636
.07
.0279
.0675
.08
.0319
.0714
.09
.0359
.0753
0.2 .0793 .0832 .0871 .0910 .o 87 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1 68 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1 36 .1772 .1808 .1844 .1879

1.0 .3 31 .3554 .3577 .3599 .3621


1.1 .3 49 .3770 .3790 .3810 .3830
1.2 .3 44 .3962 .3980 .3997 .4015
1.3 .4 15 .4131 .4147 .4162 .4177
1.4 .4 65 .4279 .4292 .4306 .4319


1.5 .4406 .4418 .4429 .4441
.4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
Fuente: Extraída de la tabla E.2.

Figura 8.18
Encontrando el segundo valor cuantil normal
estándar de un grupo de datos con 19 .ZEscala ·,
observaciones.

298 Capitulo 8 La distribución normal


Tabla 8. 7 Obtención de un valor cuantil normal estándar correspondiente
a un área particular bajo la curva normal.
z .00 .01 .02 .03 .04 .os .06 .07 .09
o.o .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .. 1443 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1879

1.0 .3621


1.1 .38:i0
.4015
1.3 .4177
1.4 .4319
Fuente: Extraída de la tabla E.2.

8.5.4 Construcción de la gráfica de probabilidad normal


e interpretación de los resultados
• Aplicaciones hipotéticas La tabla 8.8 de la página 300 presenta arreglos
ordenados de resultados hipotéticos de pruebas de mitad de trimestre de 19 estu-
diantes en cada una de cinco secciones ("A" a "E") de un curso de cálculo intro-
ductorio. También se muestran en la tabla 8.8 los valores cuantiles normales
estándar correspondientes obtenidos de la anteriormente descrita transformación
normal inversa de resultados. Si tuviéramos que construir gráficas de probabili-
dad normal para estos cinco distintos conjuntos de datos, ¿qué nos mostrarían y
cómo podemos interpretar las gráficas?
Las gráficas de probabilidad normal para las cinco secciones de clase se ilustran
en los paneles (a) a (e) de la figura 8.19. Del panel (a) observamos que los puntos
parecen desviarse de una línea recta de manera aleatoria, así que podemos concluir
que el grupo de datos de la sección de clase A se distribuye normalmente de modo
aproximado.

'· ..
. ·.· (·; ; ~', '

. i .·¡
• ¡ • • •
··, .' 1

~· ') ,'' ..

Figura 8.19
. :(a) Distribución Normal· Gráficas de probabilidad normal
para 5 grupos de datos hipotéticos.

Estimatlóh de la suposición de normalidad: propiedades de evaluación y construcción de gráficas de probabilidad 299


Tabla 8.8 Arreglos ordenados de resultados de pruebas de mitad de trimestre obtenidos de
19 estudiantes en cada una de cinco secciones (A a E) de un curso de cálculo intro-
ductorio y valores cuantiles normales estándar correspondientes.
(A) (B) (C) (D) (E)
Distribución Distribución Distribución Distribución Distribución
normal de forma sesgada a sesgada a en forma en forma qz,
de campana la izquierda la derecha rectangular de U
48 47 47 38 41 -l.6S
S2 S4 48 41 42 -1.28
SS S8 so 44 43 -1.04
57 61 51 47 4S -0.84
58 64 52 so 47 -0.67
60 66 S3 S3 49 -0.S2
61 68 S3 S6 52 -0.39
62 71 54 S9 SS -0.2S
64 73 SS 62 S9 -0.13
65 74 S6 65 6S 0.00
66 75 S7 68 71 0.13
68 76 S9 71 7S 0.2S
69 77 62 74 78 0.39
70 77 64 77 81 O.S2
72 78 66 80 83 0.67
73 79 69 83 8S 0.84
75 80 72 86 87 1.04
78 82 76 89 88 1.28
82 83 83 92 89 l.6S

[Observ~ los correspondientes polígono y gráfica de caja y sesgos del panel (a)
de la figura 4.8 de la página 130.]
Por otra parte, del panel (b) observamos un patrón no lineal de la gráfica. Los
puntos parecen surgir de alguna manera más en pendiente al principio y luego
parecen incrementarse con una rapidez decreciente. Este patrón es un ejemplo de
un grupo de datos sesgados a la izquierda. La pendiente del lado izquierdo de la
gráfica es indicativo del alargamiento del extremo izquierdo de la distribución de
los resultados de la prueba de la sección de clase B. [Observe los correspondientes
polígono y gráfica de caja y sesgo del panel (b) de la figura 4.8 de la página 130.]
De modo interesante, del panel (c) observamos el patrón no lineal opuesto.
Los puntos aquí parecen surgir más lentamente al principio y luego parecen incre-
mentarse a una velocidad creciente. Este patrón es un ejemplo de un grupo de
datos sesgados a la derecha. La pendiente del lado derecho de la gráfica es indica-
tivo del alargamiento del extremo derecho de la distribución de los resultados de
la prueba de la sección de clase C. [Observe los correspondientes polígono y grá-
fica de caja y sesgo del panel (c) de la figura 4.8 de la página 130.]
Además, de los paneles (d) y (e) de la página 302 observamos gráficas simétri-
cas con patrones. El panel (d) es lineal sobre una gran porción media de la gráfica
y el panel (e) es lineal sólo sobre una pequeña porción media de la gráfica. Sin
embargo, de cada lado de estas dos gráficas, la curva parece enderezarse. Este
enderezamiento muestra el efecto opuesto a lo que se observó en las dos figuras
precedentes como resultado de un sesgo. Aquí no hay extremos alargados. De
hecho, en realidad no hay extremos, los resultados de la prueba de la sección de
clase D están distribuidos regularmente y los resultados de prueba en la sección
de clase E siguen una distribución en forma de U. [Observe los correspondientes
polígonos y gráficas de caja y sesgo de los paneles (d) y (e) de la figura 4.8 de la
página 130.]

JOO Capítulo 8 La distrib-ución normal


Figura 8.19
(continuación).

(b) Distribución sesgada a la izquierda

90
ü
al
.e 80
~
Q)
-o
.!!I 70
al
al
-o 60
al
Cl
en
Q)
en
e: 50
:Q
o
::i
.o 40
·e:
~
o
30
-1.8 -1.4 -1.0 '--0.6 . '--0.2 0.2 0.6
(c) Distribución sesgada a la derecha

• Aplicación real: comparación de las colegiaturas en dos estados


Ahora que hemos visto cómo interpretar la normalidad o la falta de ésta de un
conjunto de aplicaciones hipotéticas, es de interés demostrar la utilidad de la grá-
fica de probabilidad normal usando aplicaciones reales. Usando el conjunto de
datos especiales 1 del apéndice D, la figura 8.20 de la página 303 ilustra las gráfi-
cas de probabilidad normal obtenidas del paquete de software MINITAB de las
colegiaturas anuales de residentes fuera del estado en colegios y universidades de
Texas (véase tabla 3.1, página 55) y Carolina del Norte (véase tabla 3.6, página 69).
(Las características de estos dos conjuntos de datos han sido descritas en los capí-
tulos 3 y S.) Del panel (a) de la figura 8.20 observal!los que las colegiaturas
cobradas a residentes fuera del estado en Texas parecen incrementarse lentamente
al principio y luego a una velocidad creciente, confirmando nuestra opinión de
que el grupo de datos está sesgado a la derecha. Un fenómeno similar parece ocu-
rrir en el panel (b), que representa las colegiaturas en Carolina del Norte.

Estimación de la suposición de normalidad: propiedades de evaluación y construcción de gráficas de probabilidad 101


Figura 8.19
(continuación).
o 90
e
·o
"(3
(.)
Q)
80
(/)

~
~ 70
ctl
o.
(/)

1l
Q)
60
:l
a.
Q) 50
-o
(/)
o
~ 40
"S
(/)

~ 30~~~~~~~-'---'-~-'--~~~~~~-'---'-~-'--~~~~~
-1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 z
(d) Distribución en forma rectangular

w 90
e
'O
·0
(.)
Q)
80
(/)

~
~ 70
ctl
o.

(e) Distribución en forma de U

Problemas de la sección 8.5


8.18 Demuestre que para una muestra de 19 observaciones, el 180 valor cuantil
normal estándar (es decir, el segundo mayor) obtenido de la
transformación normal inversa de resultados es+ 1.28 y que el 190 valor
cuantil normal estándar menor (esto en, el mayor) es+ 1.65.
8.19 Demuestre que para una muestra de 39 observaciones, los valores cuantiles
normales estándar menor y mayor obtenidos de la transformación normal
inversa de resultados son, respectivamente, -1.96y+1.96, y que el valor
cuantil normal estándar medio (es decir, el 200) es 0.00.
• 8.20 Usando la transformación normal inversa de resultados sobre una muestra de
6 observaciones, enumere las 6 proporciones o áreas esperadas bajo la curva
normal estandarizada con sus correspondientes valores cuantiles normales
estándar.

301 Capítulo 8 La distribución normal


tuition
12.0+
*
**
12.0+

**
*
12.0+
*
*
*
12.0+
*
---------+---------+--------·-+---------+---------+----------nscores
-2.0 -1.0 -o.o 1.0 -2.0

(a) Normal Probability Plot for Texas

tuition
*
*
15.0+
*
*
10.0+ *** *
* **
* ** *
** **
5.0+ * *
- * **

---------+---------+---------+---------+---------+----------nscores
-1.60 -0.80 0.00 0.80 1.60

(b) Normal Probability Plot for North Carolina

Figura 8.20
Gráficas de probabilidad normal de las colegiaturas cobradas a residentes fuera del estado en
colegios y universidades de Texas y Carolina del Norte obtenidas con MINITAB.
Flle11te: Los datos se tomaron de las tablas 3.1 y 3.6.

e 8.21 Dado el arreglo ordenado (de izquierda a derecha) de la cantidad de dinero


retirada de un cajero automático por 25 clientes en un banco local:

$ 40 $ 50 $ 50 $ 70 $ 70 $ 80 $ 80 $ 90 $100 $100
$100 $100 $100 $100 $110 $110 $120 $120 $130 $140
$140 $150 $160 $160 $200

Decida si los datos parecen o no estar aproximadamente distribuidos de


manera normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Analizando los resultados obtenidos en (a) y (b).

Estimación de la suposición de normalidad: propiedades de evaluación y construcción de gráficas de probabilidad 303


8.22 Dados los siguientes datos sobre facturas de abarrotes pagadas por una muestra
aleatoria de 28 clientes en un supermercado local:
$44.24 $35.56 $45.93 $49.92 $38.94 $41.16 $44.84
$27.28 $50.66 $50.97 $45.93 $46.58 $28.73 $25.93
$24.21 $23.84 $54.58 $52.62 $47.36 $30.84 $48.62
$31.15 $38.58 $34.96 $45.32 $53.81 $40.22 $37.19

Decida si los datos parecen o no estar aproximadamente distribuidos de


manera normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Analizando los resultados obtenidos en (a) y (b).
8.23 Dado el siguiente arreglo ordenado (de izquierda a derecha) de resultados de
examen final obtenido de 19 estudiantes de una clase mercadotecnia introduc-
toria:
64 66 66 69 70 71 71 73 75 77
78 79 79 81 83 83 88 89 92

Decida si los datos parecen o no estar aproximadamente distribuidos de


manera normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Analizando los resultados obtenidos en (a) y (b).
8.24 Dados los siguientes datos sobre cantidad de gasolina (en galones) surtida por
un empleado de una gasolinería para una muestra aleatoria de 24 automóviles:
12.78 8.89 10.09 10.64 15.98 13.95 9.48 10.84
10.88 9.93 7.74 5.80 11.84 10.29 10.89 6.68
12.09 8.28 8.83 7.95 7.33 12.56 8.86 9.15
Decida si los datos parecen o no estar aproximadamente distribuidos de
manera normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(e) Analizando los resultados obtenidos en (a) y (b).

Problemas intercapitulares de la sección 8.5


Para los problemas 8.25-8.32, decida si los datos parecen o no estar aproximada-
mente distribuidos de manera normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Analizando los resultados obtenidos en (a) y (b).
8.25 Use los datos sobre tasas de flujo máximo de regaderas (problema 3.3, página 58).
8.26 Use los datos sobre tasas de incidencia de cáncer (problema 3.6, página 60).
8.27 Use los datos sobre contenido de sodio de marcas de mantequilla de cacahuate
(problema 3.7, página 60).
8.28 Use los datos ;;obre tarifas de electricidad y gas (problema 3.12, página 66).
8.29 Use los datos sobre la duración de focos para cada uno de dos fabricantes
(problema 3.18, página 66).
8.30 Use los datos sobre costo al mes de pasta de dientes (problema 3.71, página 96).
8.31 Use los datos sobre cantidad de fondos a través de donaciones (problema 4.10,
página 116).
8.32 Use los datos sobre el costo de los teléfonos de cordón (problema 4.76, página
162).

J04 Capítulo 8 La distribución normal


l:i.j La _º1~tribY_~J6_n __ n_Qcma_l __co__m_Q1n1.a
cw_rQ~J!!1-ª~Jp IJ__ª _Iª~ .distribY~LOJl~~-­
b_i nQm ial y de Poisson
En las primeras secciones de este capítulo demostramos la importancia de la fun-
ción de densidad de probabilidad normal debido a los numerosos fenómenos que
parecen seguirla o cuyas distribuciones pueden aproximarse mediante ésta. En la
presente sección mostraremos otro aspecto útil de la distribución normal, cómo
puede emplearse para aproximar diversas e importantes distribuciones de proba-
bilidad discreta como laJ:>jDQ.!Jl-1ª1.JU.a de Poi~

8.6. 1 Necesidad de una corrección para ajuste de


continuidad
Hay dos importantes razones para emplear aquí una corrección para ajuste de
continuidad.
Primero, recuerde que una variable aleatoria discreta puede adoptar sólo va-
lores específicos, mientras que una variable aleatoria continua puede tomar
cualquieL~lor dentro de un contipuQ_Qlntervalo alrededor de esos valores especí-
ficóS.Por tañtci;-aT usar-la-distribución normal para aproximar tales distrlbücicioo
discretas, como la binomial o la de Poisson, es probable obtener aproximacio-
nes más exactas de las probabilidades si se emplea una correción para el ajuste de
continuidad.
Segundo, recuerde que con una distribución continua (como la normal), la
probabilidad de obtener un valor particular de una variable aleatoria es cero. Por
otra parte, cuando la distribución normal se usa para aproximar una distribución
discreta, puede emplearse una correción para ajuste de continuidad de tal manera
que podamos aproximar la probabilidad de un valor específico de la distribución
discreta.
Como ejemplo de ello, considere un experimento en el que lanzamos una
moneda no cargada 10 veces y observamos el número de caras. Suponga que
deseamos calcular la probabilidad de obtener exactamente 4 caras. Mientras que
una variable aleatoria discreta sólo puede tener un valor específico (como 4), una
variable aleatoria continua usada para aproximarla podría tomar cualquier valor
dentro de un intervalo alrededor de ese valor específico, como se muestra en la
siguiente escala:

--+---+¡---1---t---11----+--+--·--X
3 4 5
2.5 3.5 4.5 4.5

La correción para ajuste de continuidad requiere sumar o restar 0.5 del valor o
valores de la variable aleatoria discreta X, según se requiera. Así pues, para usar la
distribución normal para aproximar la probabilidad de obtener exactamente 4 caras
(es decir, X= 4), encontraríamos el área bajo la curva normal desde X= 3.5 hasta
X= 4.5, los límites inferior y superior de 4. Para determinar la probabilidad aprox-
imada de observar al menos 4 caras, encontraríamos el área bajo la curva normal
desde X= 3.5 y arriba puesto que, en un continuo, 3.5 es el límite inferior de X. De
manera similar, para determinar la probabilidad aproximada de observar a lo más
4 C?ras, encontraríamos el área bajo la curva normal desde X= 4.5 y abajo pues, en
un continuo, 4.5 es el límite superior de X.

La distribución normal como una aproximación a las distribuciones binomial y de Poisson 305
Al usar la distribución normal para aproximar distribuciones de probabilidad
discretas, vemos que la semántica nuevamente cobra importancia. Para determi-
nar la probabilidad aproximada de observar menos de cuatro caras, encontraríamos
el área bajo la curva normal desde X= 3.5 y abajo; para determinar la probabilidad
aproximada de observar más de cuatro caras, encontraríamos el área bajo la curva
normal desde X = 4.5 y arriba; y para determinar la probabilidad aproximada de
observar de cuatro a siete caras, encontraríamos el área bajo la curva normal desde
X= 3.5 hasta X= 7.5. El lector tendrá la oportunidad de obtener estos resultados
en el problema 8.33 de la página 310.

8.6.2 Aproximación__c;ie.Ja_distrib!lciQn binomial


En la sección 7.5.2 establecimos que la distribución binomial será simétrica (como
la distribución normal) siempre que p = .5. Cuando p-:F- .S la distribución binomial
no será simétrica. Sin embargo, mientras más cerca esté p de .5 y mientras más
grande sea el número de observaciones de la muestra n, más simétrica se vuelve la
distribución.
Por otra parte, mientras más grande sea el número de observaciones de la
muestra, más tedioso resulta calcular las probabilidades exactas de éxito mediante
el uso de la ecuación (7.4). Afortunadamente, siempre que el tamaño de muestra
sea grande, puede usarse la distribución normal para aproximar las probabilidades
exactas de éxito que de otra manera se tendrían que haber obtenido mediante
laboriosos cálculos.
Como regla general, esta aproximación normal puede usarse siempre que np y
n(l - p) sean al menos S. Recordamos de la sección 7.5.2 que la media de la dis-
tribución binomial está dada por
µX = np
y la desviación estándar de la distribución binomial se obtiene de

crx = ~np(l - p)

Sustituyendo en la fórmula de transformación (8.2)

tenemos

z = X-np
~np(l - p)

así que, para n suficientemente grande, la variable aleatoria Z se distribuye aprox-


imadamente de manera normal.
Por tanto, para encontrar probabilidades aproximadas correspondientes a los
valores de la variable aleatoria discreta X tenemos

J','

·¡' ,(~.4).

JO& Capftulo 8 La distribución normal


donde
µx = np, media de la distribución binomial
crx = ~np(l - P), desviación estándar de la distribución binomial
x. =número ajustado de éxitos, x, para la variable aleatoria discreta X, de tal
forma que x. = x - .5 o x. = x + .5, según sea lo apropiado
y las probabilidades aproximadas de éxito se obtienen de la tabla E.2, la tabla de la
distribución normal estandarizada.

e Ejemplo Para ilustrar esto, suponga, en el ejemplo de control de calidad de


productos descrito en la página 252, que una muestra de n = 1,600 llantas del
mismo tipo se obtienen aleatoriamente a partir de un proceso de producción con-
tinuo en el que 8% de estas llantas producidas son defectuosas. ¿Cuál es la proba-
bilidad de que en tal muestra no más de 150 llantas sean defectuosas?
Puesto que tanto np = 1,600(.08) = 128 y n(l - p) = 1,600(.92) = 1,472 exceden
de 5, podemos usar la distribución normal para aproximar la binomial:

x. - np 150.5 - 128 = 22.5 = +2.07


z = ----;::::=====
~np(l - p) ~(1, 600)(.08)(.92) 10.85

Aquí, x., el número ajustado de éxitos, es 150.5 y la.probabilidad aproximada de


que X no exceda este valor corresponde, en la escala Z estandarizada, a un valor de
no más de +2.07. Esto se ilustra en la figura 8.21.

·. •. .El área es
.4808 puesto .
.· ·qu~,Z= +2.07

ZE$cá1a Figura 8.21


Aproximación de la distribución binomial.

Usando la tabla E.2, el área bajo la curva entre la media y Z = +2.07 es .4808,
de tal forma que la probabilidad aproximada está dada por .5000 + .4808 = .9808.
Bajo la distribución binomial, la probabilidad de obtener no más de 150 llan-
tas defectuosas consiste en todos los eventos incluyendo 150 defectuosas, es decir,
P(X $; 150) = P(X =O)+ P(X = 1) + ··· + P(X = 150), y la probabilidad verdadera puede
calcularse laboriosamente de

L 150 ( 1,~00 ) (.os( (. 92 )1,600-x


X=O

La distribución normal como una aproximación a las distribuciones binomial y de Poisson 307
Para apreciar la cantidad de trabajo ahorrado al usar la aproximación normal
al modelo binomial, en lugar de los cálculos de probabilidad exactos, simplemente
Imagine los siguientes 151 cálculos de la ecuación (7.4) antes de sumar los resultados:

( 1,8ºº ).os)º (. 92 )1,600 + ( 1,~00 )(.os)1 (. 92 )1,599 + ... + ( 1í~go ).o8 )150 (. 92 )1,4so

• Obtención de una aproximación de probabilidad para un valor indi-


vidual Suponga que ahora deseamos aproximar la probabilidad de obtener exac-
tamente 150 defectuosas. La corrección de continuidad define que el valor entero
de interés debe tener un alcance de media unidad por debajo y media unidad por
arriba. Así, la probabilidad de obtener 150 llantas defectuosas se definiría como el
área (bajo la curva normal) entre 149.5 y 150.5. Por tanto, al usar la ecuación (8.4),
la probabilidad puede aproximarse de la siguiente manera:

z= 150.5 - 128 = 22.5 = +2.07


~(1, 600)(.08)(.92) 10·85
y

z= 149.5 - 128 = +l.98


~(1, 600)(.08)(.92)

De la tabla E.2, observamos que el área bajo la curva normal de la media a X= 150.5
es .4808 y el área bajo la curva desde la media hasta X= 149.5 es .4761. Por con-
siguiente, como se ilustra en la figura 8.22, la probabilidad aproximada de obtener
150 llantas defectuosas es la diferencia en las dos áreas, .OÓ47.

X Escala
Figura 8.22
Aproximación de una probabilidad binomial +1.98 +2.07 zescala
exacta.

La distribución normal también puede usarse para aproximar el modelo de Poisson


siempre que el parámetl:O.A,....el.núm.er.o_~p.ei:ado ...de.fait.os,...s.esUgu.ªL~
__á:..Puesto que el valor de la media y la varianzgt de una distrib.JJ.ci..ón de Poisson son.
iguales, tenemos

µ, = A.

JOB Capitulo 8 La distribución normal


y

y sustituyendo en la fórmula de transformación (8.2),

tenemos

X-'A
Z=--
..fi.
así que, cuando "A es lo suficientemente grande, la variable aleatoria Z se distribuye
aproximadamente de manera normal.
Por tanto, para encontrar las probabilidades aproximadas correspondientes a
los valores de la variable aleatoria discreta X tenemos

''.:·;.~·..:/f.j
X - A
Z - a
'(8..S~k'
= ··¡-¡.··
' 1

donde
"A = número esperado de éxitos o media de la distribución de Poisson
crx = ..fi., desviación estándar de la distribución de Poisson
xª = número ajustado de éxitos, x, para la variable aleatoria discreta X, de tal
forma que x. =x - .5 o xª =x + .5, según sea lo apropiado

y las probabilidades aproximadas de éxito se obtienen de la tabla E.2.

e Ejemplo Para ilustrar esto, suponga que en una cierta planta automotriz el
número promedio de interrupciones de trabajo al día debidas a problemas con
el equipo durante el proceso de producción es 12.0. ¿Cuál es entonces la probabil-
idad aproximada de tener 15 o menos interrupciones de trabajo debido a problemas
del equipo en cualquier día dado? De la ecuación (8.5) tenemos

Z = x. - "A = 15.5 - 12.0 = +1.0l


- ,¡¡: .,) 12. o

Aquí x., el número ajustado de éxitos, es 15.5. En consecuancia, la probabilidad


aproximada de que X no exceda este valor corresponde, en la escala Z estanda-
rizada, a un valor de no más de +1.01. Esto se ilustra en la figura 8.23 de la página
310. De la figura 8.23 y de la tabla E.2, observamos que el área bajo la curva nor-
mal desde la media hasta 15.5 es .3438. Por tanto, el área hasta 15.5 es .5000 +
.3438 = .8438. Por tanto, la probabilidad aproximada de tener 15 o menos inte-
rrupciones de trabajo debido a problemas del equipo en cualquier día dado es
.8438. Esta aproximación se compara bastante favorablemente con la probabilidad
de Poisson exacta, .8445, obtenida de la ecuación (7.7) de la página 261.

La distribución normal como una aproximación a las distribuciones binomial y de Poisson 309
µX = 12.Q 15.5 X Escala
Figura 8.23
Aproximación de la distribución de µz =O +1.01 ZEscala
Po is son.

8.6.4 Grandes tamaños de muestra: ignorar la correción


para ajuste de continuidad
Hemos visto del segundo ejemplo de la sección 8.6.2 que si estamos interesados en
obtener aproximaciones de probabilidad para valores individuales de la variable
aleatoria, es necesario usar la correción para ajuste de continuidad. Por otra parte,
en cuanto a algunos tipos de aproximaciones de probabilidad, no existe ninguna
regla estricta y rápida para usar la correción de ajuste de continuidad. Como se sabe
que las ventajas de una mayor exactitud se minimizan con tamaños de muestras
mayores y como el empleo de la correción para ajuste de continuidad incrementa
la complejidad de cálculo de nuestro trabajo, dicha corrección no se usará en lo
que resta de este texto. En la mayor parte de los casos, nuestros tamaños de mues-
tra serán lo bastante grandes como para que las diferencias en las aproximaciones
obtenidas al usar o no la correción para ajuste de continuidad sean despreciables.

Problemas de la sección 8.6


• H.:n Considere un experimento en el que lanzamos una moneda no cargada 10
veces y observamos el número de caras.
(a) Use la ecuación (7.4) de la página 255 o la tabla E.7 para determinar la
probabilidad de observar
( 1) 4 caras
(2) al menos 4 caras
n¡ a lo más 4 caras
(4) menos de 4 caras
(5) más de 4 caras
(6) de 4 a 7 caras
(b) Use la aproximación normal a la distribución binomial [ecuación (8.4)1
para aproximar las probabilidades en (a)(l)-(a)(6).
(c) Compare y contraste sus hallazgos en (a) y (b). ¿Cree que la distribución
normal proporciona una buena aproximación a la distribución binomial
en (b)?
8.34 Para vuelos al extranjero, una aerolínea tiene tres distintas opciones en su
menú de postres: helado, pastel de manzana y pastel de chocolate. Basándose
en su experiencia, la aerolínea considera que cada postre tiene igual probabili-
dad de ser escogido
(a) Si se selecciona una muestra aleatoria de cuatro pasajeros, ¿cuál es la
probabilidad de que al menos dos elijan helado como postre?
(b) Si se selecciona una muestra aleatoria de 21 pasajeros, ¿cuál es la
probabilidad aproximada de que al menos dos elijan helado como postre?

J 10 Capítulo 8 La distribución normal


8.35 Basándose en la experiencia, 40% de todos los clientes de Miller's Automotiw
Service Station pagan sus compras con una tarjeta de crédito.
(a) Si se selecciona una muestra aleatoria de tres clientes, ¿cuál es la probabili-
dad de que
(1) ninguno pague con tarjeta de crédito?
(2) dos paguen con tarjeta de crédito?
(3) al menos dos paguen con tarjeta de crédito?
(4) no más de dos paguen con tarjeta de crédito?
(b) Si se selecciona una muestra aleatoria de 200 clientes, ¿cuál es la probabil-
idad aproximada de que
(1) al menos 75 paguen con tarjeta de crédito?
(2) no más de 70 paguen con tarjeta de crédito?
(3) entre 70 y 75 clientes, inclusive, paguen con tarjeta de crédito?
8.36 En promedio, 10.0 personas por minuto esperan el elevador en el vestíbulo de
un gran edificio de oficinas entre las 8 a.m. y las 9 a.m.
(a) ¿Cuál es la probabilidad de que en cualquier periodo de un minuto a lo
más cuatro personas estén esperando?
(b) ¿Cuál es la probabilidad aproximada de que en cualquier periodo de un
minuto a lo más cuatro personas estén esperando?
(c) Compare sus resultados de (a) y (b).
8.37 El número de automóviles que llegan por minuto a una caseta de peaje de un
puente particular tiene una distribución de Poisson con una media de 2.5.
(a) ¿Cuál es la probabilidad de que en cualquier minuto dado
(1) no llegue ningún automóvil?
(2) no lleguen más de dos automóviles?
(b) Si el número esperado de automóviles que llegan a la caseta de peaje en
un intervalo de diez minutos es 25.0, ¿cuál es la probabilidad aproximada
de que en cualquier periodo de diez minutos
(1) no lleguen más de dos automóviles?
(2) lleguen entre 20 y 30 automóviles7
8.38 A Kenny's Car Wash llegan automoviles a una velocidad de nueve cada media
hora
(a) ¿Cuál es la probabilidad de que en cualquier periodo dado de media hora
lleguen al menos tres automóviles?
(b) ¿Cuál es la probabilidad aproximada de que en cualquier periodo dado de
media hora lleguen al menos tres automóviles?
(c) Compare sus resultados de (a) y (b).
8.39 Suponga que el número de cintas de videocasetes defectuosas que son
devueltas a una tienda de renta de videos ha promediado siete al día.
(a) ¿Cuál es la probabilidad (exacta) de que dos cintas se devuelvan hoy?
(b) ¿Cuál es la probabilidad (exacta) de que al menos dos cintas se devuelvan
hoy?
(c) ¿Qué suposiciones se hicieron respecto a la distribución de probabilidad
seleccionada en (a) y (b)? Analice.
(d) Obtenga respuestas aproximadas para (a) y (b) usando un modelo de
distribución de probabilidad diferente. Analice las diferencias en sus
resultados.

l:ifJ La distribución normal: un repaso

Como se ve en el diagrama de resumen de la página 312, en este capítulo hemos


examinado a profundidad la distribución de probabilidad normal. En la página
274 de la sección 8.1 se proporcionó una lista que ponía énfasis en los puntos
importantes que se analizarían en el capítulo. Verifique la lista ahora para ver si
cree que comprende estos puntos clave. Para asegurarse, usted debe poder respon-
der las siguientes preguntas conceptuales:

La distribución normal: un repaso J 11


l. ¿Por qué se necesita sólo una tabla de la distribución normal con el
fin de hallar cualquier probabilidad bajo la curva normal?
2. ¿Cómo encontraría el área entre dos valores bajo la curva normal
cuando ambos valores están del mismo lado de la media?
3. ¿Cómo encontraría el valor X que corresponde a un percentil dado de
la distribución normal?
4. ¿Por qué tienen que convertirse las observaciones individuales a
valores cuantiles normales estándar para desarrollar una gráfica de
probabilidad normal?
( S. ¿Cuándo puede usarse la distribución normal para aproximar la
distribución binomial?
,6. ¿Cuándo puede usarse la distribución normal para aproximar la
'· distribución de Poisson?
En este capítulo, se mostró que la distribución normal es útil por sí misma y
también como una aproximación de diversos modelos discretos. En el siguiente
capítulo investigaremos cómo la distribución normal proporciona la base para la
inferencia estadística clásica.

Distribución
.. ;
normal
. ' ·..
;
1 "., 1

Aproximaciones
Propiedades Aplicaciones a distribuciones
discretás

1 1
"-. 1 1
Evaluación '
·P~ra la de Poisson
~:·,

de supuestos Para la binomial


· cÜando. · •. cuando
np)rn(1+P)?:Si 1-.:::s
1

. Gráfica ·de
probabilidad normal
..
Diagrama de resumen del capítulo 8.

Jll Capítulo 8 La distribución normal


Juntando todo

TÉRMINOS CLAVE
aproximación normal a la distribución distribución normal estandarizada 278
binomial 306 fórmula de transformación 278
aproximación normal a la distribución función de densidad de probabilidad
de Poisson 307 continua 274
corrección para ajuste de continuidad función de densidad de probabilidad
305 normal 274
cuantil normal estándar 297 gráfica de probabilidad normal 296
cuantiles 296 transformación normal inversa de
distribución normal 275 resultados 296

Problemas de repaso del capítulo


e 8.40 Suponga que un gobernador proyecta que, semanalmente, un programa
estatal de lotería de futbol que él ha propuesto promedie 10.0 millones de
dólares en ganancias (que se devolverán al estado para programas educativos)
con una desviación estándar de 2.5 millones de dólares. Suponga además que
se asume que los datos de las ganancias semanales se distribuyen normal-
mente. Las siguientes preguntas pueden formularse (o anticiparse) en la
siguiente conferencia de prensa del gobernador:
(a) ¿Cuál es la probabilidad de que en cualquier semana dada las ganancias
(1) estén entre 10.0 y 12.5 millones de dólares?
(2) estén entre 7 .5 y 10.0 millones de dólares?
(3) estén entre 7.5 y 12.5 millones de dólares?
(4) sean de al menos 7.5 millones de dólares?
(5) sean menores de 7.5 millones de dólares?
(6) estén entre 12.5 y 14.3 millones de dólares?
(b) ¿50% del tiempo las ganancias semanales (en millones de dólares) se
espera que estén por arriba de qué valor?
(c) ¿90% del tiempo las ganancias semanales (en millones de dólares) se
espera que estén por arriba de qué valor?
(d) ¿Cuál es el alcance intercuartil en las ganancias semanales esperadas del
programa estatal de lotería de futbol?
(e) r.t;ii'l/.l·I•> Usted ha sido contratado como consultor. Prepare respuestas
para el gobernador sobre estas nueve preguntas anticipadas y escriba un
informe analizando sus resultados globales.
8.41 Una máquina de coser industrial usa cojinetes de bolas cuyo diámetro
señalado es de 0.75 pulgadas. Los límites de especificación bajo los cuales
puede operar el cojinete de bolas son O. 74 pulgadas (inferior) y O. 76 (superior).
La experiencia ha indicado que el diámetro real de los cojinetes de bolas se
distribuye en forma aproximada normalmente con una media de .753 pulgadas
y una desviación estándar de .004 pulgadas. ¿Cuál es la probabilidad de que
un cojinete de bolas esté:
(a) ¿Entre la media objetivo y la real?
(b) ¿Entre el límite de especificación inferior y el objetivo?
(c) ¿Por arriba del límite de especificación superior?
(d) ¿Por debajo del límite de especificación superior?
(e) ¿Por arriba de qué valor de diámetro estará el 93% de los cojinetes de bolas?

Problemas de repaso del capítulo 3 13


8.42 Suponga que se ha encontrado que el contenido de unas botellas de refresco se
distribuye normalmente con una media de 2.0 litros y una desviación estándar
de .OS litros. Las botellas que contienen menos de 95% del contenido neto
enumerado (l.90 litros en este caso) pueden ocasionar que el fabricante quede
sujeto a multas por parte de la oficina estatal de asuntos del consumidor,
mientras que las botellas que tienen un contenido neto mayor a 2.10 litros
pueden ocasionar derrames al abrirse.
(a) ¿Qué proporción de las botellas contendrá:
(1) Entre 1.90 y 2.0 litros?
(2) Entre 1.90 y 2.10 litros?
(3) Menos de 1.90 litros?
(4) Menos de 1.90 litros o más de 2.10 litros?
(5) Más de 2.0 litros?
(6) Entre 2.05 y 2.10 litros?
(b) ¿Se esperaría que al menos 90% de las botellas contuviera al menos
cuánto refresco?
(c) ¿Se esperaría que al menos 90% de las botellas contuviera una cantidad
que está entre qué valores (simétricamente distribuidos)?
(d) Explique la diferencia en los resultados de (b) y (c)
(e) Suponga que en un esfuerzo por reducir el número de botellas que con-
tienen menos de 1.90 litros, el embotellador dispone la máquina surtidora
de forma tal que la media sea de 2.02 litros. Bajo estas circunstancias,
¿cuáles serían sus respuestas en (a), (b) y (c)?
8.43 Una agencia estatal que procesa permisos de renovación de construcciones
tiene una política que establece que el permiso está liberado si no está listo
después de cinco días hábiles a partir de que se hace la solicitud. El tiempo de
procesamiento se mide desde que se recibe el permiso (el tiempo se estampa)
hasta que la solicitud ha sido completamente procesada.
(a) Si el proceso tiene una media de tres días y una desviación estándar de un
día, ¿qué proporción de los permisos se liberará?
(b) Si el proceso tiene una media de dos días y una desviación estándar de 1.5
días, ¿qué proporción de los permisos se liberará?
(c) ¿Qué proceso [(a) o (b)] ocasionará más permisos liberados? Explique.
(d) Para el proceso descrito en (a), ¿sería mejor enfocarlo reduciendo el
promedio a dos días, o la desviación estándar a 0.75 de día? Explique.

• 8.44 Sally D. tiene 67 pulgadas de altura y pesa 135 libras. Si la altura de las mujeres
tiene una distribución normal conµ,= 65 pulgadas y cr, = 2.5 pulgadas, y si el
peso de las mujeres tiene una distribución normal con µ, = 125 libras y cr, = 10
libras, determine si la característica más inusual de Sally es su altura o su peso.
Analice.
8.45 El peso neto de las cajas de cereal empacado sigue la distribución normal con
una media µ, = 368 g. Encuentre la desviación estándar o, si 98% de las cajas
tienen un peso neto de menos de 400 g.
8.46 El cobro de larga distancia por llamadas telefónicas a Centroamérica sigue la
distribución normal con una media deµ,= $21.00. Encuentre la desviación
estándar o, si 80% de las llamadas tienen un cobro de larga distancia mayor a
$17.50.
• 8.47 Se sabe que una de cada tres personas que entran a Groshen's (una gran tienda
departamental) hará al menos una compra.
(a) Si se selecciona una muestra aleatoria de n. = 5 personas, ¿cuál es la
probabilidad de que
(1) dos o más hagan al menos una compra?
(2) a lo más cuatro hagan al menos una compra?
(b) Si se selecciona una muestra aleatoria den= 81 personas, ¿cuál es la
probabilidad aproximada de que
(1) 30 o más hagan al menos una compra?
(2) a lo más 40 hagan al menos una compra?

Jl4 Capítulo 8 La distribución normal


8.48 El famoso parasicólogo, profesor Sy Klops, decide investigar si las personas
pueden leer la mente. Inventa cinco cartas, cada una de las cuales porta un
símbolo diferente. Cuando se llega a probar un sujeto, Klops escoge una carta
aleatoriamente y le pide al sujeto que adivine qué símbolo está en la carta.
Klops registra entonces si el sujeto está en lo correcto o no, mezcla las cartas
nuevamente y repite el procedimiento. (Cada uno de estos ciclos en los cuales
uno de dos resultados puede ocurrir algunas veces se denomina un ensayo.)
(a) Suponga que cada sujeto tiene cinco ensayos. Calcule la proporción de
personas examinadas que se espera obtengan ninguno correcto, uno
correcto, etcétera.
(b) En la situación descrita en (a), si el profesor examina a 1,000 personas y
dice que cinco "presentan esperanzas de tener poderes telepáticos" porque
sus cinco ensayos fueron correctos, ¿estaría de acuerdo o no y por qué?
(c) Ahora suponga que el profesor usa más ensayos para cada sujeto, de forma
tal que todos son examinados en 50 ensayos. Analice si cree o no que él
puede usar la aproximación normal a la distribución binomial.
(d) Sin tomar en cuenta su respuesta en (c), use la aproximación normal a la
binomial para estimar la probabilidad de que alguien obtenga al menos
15 aciertos por casualidad.
8.49 Basándose en la experiencia pasada, el despachador de Toby's Trucking
Company estima que en cualquier día dado, 20% de los camiones llegarán a su
destino más de una hora tarde.
(a) Si se selecciona una muestra de diez camiones, ¿cuál es la probabilidad de
que a lo más uno llegue más de una hora tarde?
(b) Si se selecciona una muestra de 100 camiones, ¿cuál es la probabilidad
aproximada de que a lo más diez lleguen más de una hora tarde?

8.50 (a) ¿Cuál es la probabilidad (aproximada) de que un estudiante pudiera


aprobar un examen de 100 preguntas de cierto-falso si tuviera que
adivinar en cada pregunta? (Nota: para aprobar, el estudiante debe
obtener al menos 60 preguntas correctas.)
(b) ¿Cuál es la probabilidad (aproximada) de que un estudiante obtenga
exactamente 60 preguntas correctas en un examen de 100 preguntas de
cierto-falso si el estudiante tuviera que adivinar en cada pregunta?
8.51 El número promedio de accidentes al día en una fábrica de llantas es 4.0.
(a) ¿Cuál es la probabilidad de que en cualquier día
(1) ocurran exactamente cuatro accidentes?
(2) ocurran más de cuatro accidentes?
(3) ocurran al menos cuatro accidentes?
(4) ocurran tres o cuatro accidentes?
(b) ¿Cuál es la probabilidad de que en un periodo de cinco días
(1) ocurran exactamente 20 accidentes?
(2) ocurran más de 20 accidentes?
(3) ocurran al menos 20 accidentes?
(4) ocurran de 15 a 20 accidentes?
(c) ¿Cuál es la probabilidad (aproximada) de que en un periodo de cinco días
(1) ocurran exactamente 20 accidentes?
(2) ocurran más de 20 accidentes?
(3) ocurran al menos 20 accidentes?
(4) ocurran de 15 a 20 accidentes?
(d) Compare y contraste sus resultados en (a), (b) y (c). Analice.
8.52 El número promedio de interrupciones de trabajo por hora en un proceso de
producción es de 0.8.
(a) ¿Cuál es la probabilidad de que en cualquier hora
(1) ocurran exactamente dos interrupciones?
(2) ocurran a Jo más dos interrupciones?
(3) ocurran menos de dos interrupciones?
(4) ocurran una o dos interrupciones?

Problemas de repaso del capitulo 1 11


(b) ¿Cuál es la probabilidad de que en cualquier turno de ocho horas
(1) ocurran exactamente 16 interrupciones?
(2) ocurran a lo más 16 interrupciones?
(3) ocurran menos de 16 interrupciones?
(4) ocurran de 8 a 16 interrupciones?
(c) ¿Cuál es la probabilidad (aproximada) de que en cualquier tumo de ocho horas
(1) ocurran exactamente 16 interrupciones?
(2) ocurran a lo más 16 interrupciones?
(3) ocurran menos de 16 interrupciones?
(4) ocurran de 8 a 16 interrupciones?
(d) Compare y contraste sus resultados en (a), (b) y (c). Analice.
8.53 Basándose en la experiencia pasada, 7% de todos los comprobantes de gastos
de almuerzo tienen errores. Si se selecciona una muestra aleatoria de 400
comprobantes, ¿cuál es la probabilidad aproximada de que
(a) exactamente 25 tengan errores?
(b) menos de 25 tengan errores?
(c) entre 20 y 25 (inclusive) tengan errores?

Proyecto de base de datos de encuestas


Los siguientes problemas se refieren a los datos de muestra obtenidos del cues-
tionario de la figura 2.6 de las páginas 28-29 y presentado en la tabla 2.3 de las
páginas 33-40. Para cada problema, decida si los datos parecen o no estar aproxi-
madamente distribuidos normalmente
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Analizando sus resultados.
8.54 Refiérase a los datos sobre el número de horas (pregunta 1).
8.55 Refiérase a los datos sobre edad (pregunta 3).
8.56 Refiérase a los datos sobre ingresos personales (pregunta 7).
8.57 Refiérase a los datos sobre ingresos familiares totales (pregunta 8).
8.58 Refiérase a los datos sobre el número de añ.os trabajados (pregunta 15).

Proyectos de minicasos de aprendizaje


colaborativos
Para cada uno de los siguientes casos, refiérase a las instrucciones de la página 1O1.
CL8.l Refiérase al conjunto de datos especiales 1 (véase apéndice D) respecto a las
colegiaturas cobradas a residentes fuera del estado. Para los 90 colegios y uni-
versidades de Pennsylvania, decida si las colegiaturas parecen estar distribuidas
aproximadamente de manera normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Estableciendo sus conclusiones basándose en (a) y (b).
(d) Compare las conclusiones alcanzadas en (c) con las de Texas y Carolina
del Norte alcanzadas en la sección 8.5 y en los capítulos 3 y 4.
CL8.2 Refiérase al conjunto de datos especiales 2 (véase apéndice D) respecto a los
cereales preparados y las siguientes variables: costo, peso y azúcares. Por cada
una de estas variables numéricas decida si los datos parecen o no tener una
distribución aproximadamente normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Estableciendo sus conclusiones basándose en (a) y (b).
CL8.3 Refiérase al conjunto de datos especiales 3 (véase apéndice D) respecto a las
fragancias de hombres y mujeres. Decida si el costo por onza para las fragancias
de hombres y las fragancias de mujeres parece estar cada uno distribuido
aproximadamente de manera normal

316 Capítulo 8 La distribución normal


(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(e) Estableciendo sus conclusiones basándose en (a) y (b).
(d) Compare los resultados para las fragancias de hombres y mujeres. ¿Qué
conclusiones puede sacar?
CL8.4 Refiérase al conjunto de datos especiales 4 (véase apéndice D) respecto a las
cámaras de 35 mm. y las siguientes variables: precio, peso, menor campo de
visión, alcance, precisión de ensamblaje y duración de las baterías. Por cada
una de estas variables numéricas decida si los datos parecen o no tener una
distribución aproximadamente normal
(a) Evaluando las propiedades reales contra las teóricas.
(b) Construyendo una gráfica de probabilidad normal.
(c) Estableciendo sus conclusiones basándose en (a) y (b).

Estudio de caso D: jugando a la ruleta


Existen nueve estrategias básicas de apuesta en la
ruleta. Éstas se presentan a la derecha junto con las
probabilidades correspondientes de cada estrategia.
Como ejemplos, en la estrategia 1 una apuesta de
$1 sobre cualquier número particular tiene como
efecto la pérdida del dólar o una ganancia de $35 (es 2
decir, una ganancia de $36 incluyendo la apuesta de
$1) y en la estrategia 9, una apuesta de $1 sobre "par-
impar", "rojo-negro" o "la 18"-"19 a 36" da por resul-
tado en la pérdida del dólar o una ganancia de 1 dólar
(es decir, una ganancia de 2, incluyendo la apuesta de
$1). 4
Suponga que usted estaba planeando ir a un
casino que ofrece el juego de la ruleta con las referi-
das estrategias de apuesta y probabilidades. Un amigo
cuya área es la estadística matemática le ha sugerido
que tal vez no todas las estrategias de apuesta sean
iguales y que probablemente exista al menos una que
pueda darle al jugador una mayor ventaja o desven-
taja. Usando los resultados de la esperanza mate-
mática, usted decide verificar las diversas estrategias
de apuesta basándose en su tentativa de sólo hacer
apuestas de $1 y después escribe una carta a su amigo
explicándole sus resultados.
Al preparar su carta mientras se relaja en la
alberca del hotel, alcanza a oír una agitada conver-
sación sobre el mejor método de intentar maximizar
las ganancias en 200 juegos del juego de ruleta si uno
hace apuestas continuas de $1 en cada juego y no se
preocupa por las consecuencias (es decir, la posibili- Estrategias de Apuestas Prob11bllldodcN
dad de perder gran parte o los $200 completos). Las 1 Línea de 1 número 33-1
dos personas discutían si una mejor estrategia era 2 División de 2 números 17-1
apostar a "un número" (estrategia 1) en cada juego o 3 Vía de 3 números 11-1
apostar continuamente por "un camino de tres 4 Cuadro de 4 números 8-1
5 Apuesta de 5 números 6-1
números" (estrategia 3) en cada juego, o sobre un 6 Línea de 6 números 5-1
color particular como "rojo" (estrategia 9) en cada 7 1 docena: lo 1-12; 2o l3-24; 3o 23-36 2-1
8 Columna de 12 números 2-1
juego. Puesto que resulta que usted tiene su tabla de 9 Par-impar; rojo-blanco; 1a18-19 a 36 1-1
la distribución normal, decide analizar estas posibili-
dades e impresionar a su amigo con sus habilidades
matemáticas y estadísticas analizando la conver-
sación de la alberca y describiendo sus resultados en
su carta.

Estudio de caso D: jugando a la ruleta 3 17


Notas finales
l. Matemáticamente esto puede expresarse como 50% de los trabajadores pueden montar la parte en menos
P(60 :SX :5 63)= P(O :5 Z:S 1) de 75 segundos o podemos decir que 50% de los trabjad~res
= .3413. pueden montar la parte en 75 segundos o menos. La seman-
2. A diferencia del caso de variahll•s aleatorias discretas donde tica no es importante debido a que con las variables aleato-
la formulación del problema es tan esencial, observamos rias continuas la probabilidad de montar la parte en
que para variables aleatorias rnnt inuas existe mucha más exactamente 75 segundos (o en cualquier otro tiempo
flexibilidad en la formulal"iún. Por consiguiente, hay dos especificado) es O.
formas de establecer nuestro resultado: podemos decir que

Referencias
l. Derman, C., L. J. <llt•st•r l' l. Olkin, A Guide to Probability S. Ramsey, P. P. y P. H. Ramsey, "Simple Tests of Normality in
Theory ami Appllrnt/011 (Nueva York: Holt, Rinehart and Small Samples", foumal of Quality Technology, vol. 22, 1990,
Winston, 197:~). págs. 299-309.
2. Gunter, Jl., "Q-q l'lots", <l1111lity Progress (febrero, 1994), 6. Ryan, B. F., T. A. Ryan y B. L. Joiner, Minitab Student
págs. 81-86. Handbook, 3a ed. (North Scituate, MA: Duxbury Press,
3. Larsen, IL J. y M. 1.. Marx, 1\11 Introduction to Mathematical 1994).
Ste1tlslics 111111 lls A¡1¡1flrntl11m, 2a ed. (Englewood Cliffs, NJ: 7. Sievers, G. L., "Probability Plotting", en Kotz, S. y N. i.
Prentkt•-lfall, l l/lih). Johnson, Eds., Encyclopedía of Statistícal Sciences, vol. 7
4. Marasrnllo, l.. A. y M. McSweeney, Nonparametric and (Nueva York: Wiley, 1986), págs. 232-237.
I>istrl/111//011-/!1n• Ml'lltotls fiir the Social Sciences (Monterey,
CA: llrooks/< :oi1•, 1977).

318 Capítulo 8 La distribución normal


capítulo

••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar el concepto de una
distribución de muestreo para
CAPÍTULO variables tanto numéricas como
categóricas y examinar el teorema del
límite central para casos en los que
una población está normalmente
distribuida o no.

319
~~~.,('~.,.;,·:~';'" -~: ..~· '

\·.J:-~
i•j 1 Introducción
Un objetivo importante del análisis de datos es el uso de estadísticas como la media
de muestra y la proporción de muestra con el fin de estimar los parámetros corres-
pondientes en las poblaciones respectivas. Debemos darnos cuenta de que en estu-
dios enumerativos, uno se interesa por extraer conclusiones respecto a una
población, no respecto a una muestra. Como ejemplo, un encuestador político
estaría interesado en los resultados de muestra sólo como una forma de estimar la
proporción real de los votos que cada candidato recibirá de la población de
votantes. De igual forma, un auditor, al seleccionar una muestra de comprobantes,
está interesado sólo en usar la media de muestra para estimar la cantidad prome-
dio de población. Además, en nuestra Encuesta sobre la satisfacción de los emplea-
dos, un estadístico utilizaría la información de muestra como una forma de extraer
inferencias respecto al ingreso personal de la población de empleados de Industrias
Kalosha. En cada una de estas situaciones, la muestra se usa para extraer conclu-
siones respecto a la población.
En la práctica, se selecciona aleatoriamente una muestra simple de tamaño
predeterminado de la población. Los elementos que se deben incluir en la muestra
se determinan mediante el uso de un generador de números aleatorios, como
podría ser una tabla de números aleatorios (véase la sección 2.7). Hipotéticamente,
con el fin de poder usar la estadística de muestra para estimar el parámetro de
población, deberíamos examinar cada muestra posible que pudiera ocurrir. Si esta
selección de todas las muestras posibles realmente se tuviera que hacer, la dis-
tribución de los resultados se denominaría distribución de muestreo. El pro-
ceso de generalizar estos resultados de muestra para la población se refiere como
una inferencia estadística.
En los tres capítulos anteriores hemos examinado reglas básicas de probabili-
dad y hemos investigado diversas distribuciones de probabilidad como la bino-
mial, de Poisson y normal. En este capítulo usaremos estas reglas de probabilidad
junto con nuestro conocimiento de las distribuciones de probabilidad para comen-
zar a enfocarnos en cómo ciertas estadísticas (como la media o proporción) pueden
utilizarse en inferencias respecto a los parámetros de población reales. Comenza-
remos analizando las propiedades de los estimadores de muestra que se usan para
estimar los parámetros de población. Después desarrollaremos el concepto de la
distribución de muestreo y estudiaremos el teorema del límite central. Las dis-
tribuciones de muestreo para la media y para la proporción se desarrollarán para
situaciones en las que el muestreo ocurre con reemplazo y sin reemplazo.
Al terminar este capítulo, usted deberá ser capaz de:
l. Comprender las propiedades de la media aritmética.
2. Estar familiarizado con el concepto de distribución de muestreo.
3. Saber por qué la distribución de muestreo de la media se aproxima a una
distribución normal al incrementarse el tamaño de muestra.
4. Comprender el efecto sobre el error estándar del muestreo de una
población finita.

1·11 Distribución de muestreo de la media

9.2.1 Propiedades de la media aritmética


En el capítulo 4 analizamos varias mediciones de tendencia central. Indudable-
mente, la medición de tendencia central más ampliamente usada (si no siempre la

320 Capítulo 9 Distribuciones de muestreo


mejor) es la media aritmética. Éste es particularmente el caso si se puede suponer
que la población está normalmente distribuida.
Entre varias propiedades matemáticas importantes (véase la referencia 2) de la
media aritmética para una distribución normal están
l. Imparcialidad.
2. Eficiencia.
3. Consistencia.
La primera propiedad, la imparcialidad, implica el hecho de que el promedio de
todas las medias de muestra posibles (de un tamaño de muestra dado n) será igual
a la media de población µ,.
Esta propiedad puede demostrarse empíricamente viendo el siguiente ejemplo:
suponga que a cada uno de los mecanógrafos que comprenden una población de
servicio de apoyo secretaria! de un departamento particular de una compañía se le
pidiera mecanografiar la misma página de un manuscrito. El número de errores
cometidos por cada mecanógrafo fue el siguiente:

Mecanógrafo Número de
errores
A 3
B 2
e 1
D 4

Esta distribución de población se muestra en la figura 9. l.

"· ca
:'g 2
Q)
,, ., :::i.:
' ~'

''U:'

'2: 3 4
· :. Número de érrores
¡-.·'.·•
Figura 9.1
Número de errores cometidos por una población de cuatro
mecanógrafos.

Tal vez recordemos de la sección 4.8 que cuando los datos de una población
están disponibles, la media puede calcularse a partir de

'(9.1.)

Distribución de muestreo de la medida 321


y 11 desviación estándar puede calcularse a partir de

..... ,_.

!··. (~.2)
' ~ .
·'1·,'

Por tanto,

3+2+1+4
µx =- - - - - = 2.5errores
4
y

-- /(3 - 2.5) 2 + .4.. + (4 - 2.5) 2


ox ~ = 1.12 errores

Si se seleccionan muestras de dos mecanógrafos con reemplazo de esta pobla-


ción, hay 16 muestras posibles que podrían seleccionarse (N" = 42 = 16). Estos resul-
tados de muestra posibles se exhiben en la tabla 9.1.

Tabla 9.1 Las 16 muestras de n =2 mecanógrafos de una P.oblación


de N =4 mecanógrafos al muestrear con reemplazo.
Muestra Mecanógrafos Resultados de muestra Media de muestra X1
1 A,A 3,3 X1 =3
2 A,B 3,2 X2 = 2.5
3 A,C 3, 1 X3 =2
4 A,D 3,4 X4 = 3.5
5 B,A 2,3 Xs = 2.5
6 B,B 2,2 X6 =2
7 B,C 2, 1 X7 =u
8 B,D 2,4 X8 =3
9 C,A 1, 3 X9 =2
10 C,B 1, 2 x 10 =1.5
11 C,C 1, 1 x =1
11
12 C,D l, 4 x12 =2.5
13 D,A 4,3 X13 =3.5
14 D,B 4, 2 X14=3
15 D,C 4, 1 X 15 =2.5
16 D,D 4,4 X16=4
µx= 2.5

Si estas 16 medias de muestra se promedian, la media de estos valores (µx) es


igual a 2.5, que es la media de la población µx.
Por otra parte, si el muestreo se llevó a cabo sin reemplazo, habría seis mues-
tras posibles de dos mecanógrafos:

311 Capítulo 9 Distribuciones de muestreo


N! =~=6
11!(N -~)! 2!Z!

Estas seis m1Ie stras posible:s se Enume1an en la tabla 9.2.

=
T:alble SJ.~ Las & muestras posibles ele n 2 mecanógrafos de una
IJOblación· ele H = 4 rneca.nQzrafos al muestrear sin
ree mplaz().

Muestra MEca.nó~ra.fos. Restilta.dos de muestra Media de muestra X1


1 A,E 3, 2 X 1 =2.5
2 .A,C 3, 1 X2=2
3 .A, o 3, 4 X3 = 3.5
4 B,C 2,1 X4 = 1.5
5 B,D 2,4 X5 =3
6 <:,D 1,4 x = 2.5
6
µ,= 2.5

En e:ste caso, asimismo, d promeclio de t<Jdas las medias de muestra (µ:x) es igual
a la media dE pobla.ción, Z.5. Por tanto, hemos demostrado que la media aritmé-
tica de muestra es lln estimador imparcial dE la media de población. Esto nos dice
que aun cuan<lo n() sepam()s qtié tan cerca esté el promedio de cualquier muestra
particu.lar seleccionada a la media de población, al menos estamos seguros de que
el promeclio de todas las media.s de muest1a que se podrían haber seleccionado será
igual a la media de población.
La segunda prc>¡:>iedad que po:see la media, la eficiencia, se refiere a la pre-
cisión de la rnuEstra de estadística como un estimador del parámetro de población.
Para distribuciones como la normal, la media a1itmética se considera más estable
de muestra a muestra que ot1as mEdiciones de tendencia central. Para una mues-
tra de tamañ() n, la media de muestra se acercará más, en promedio, a la media de
poblacié>n que cualquie1 otro estimaclor imparcial, por lo que la media de muestra
es una mejor estimación de la media de población.
La tercera propie<lad, la c~nsistencia, se refiere al efecto del tamaño de mues-
tra sobre la utilidad dE un Estimador. Al incrementarse el tamaño de muestra, la
variación de la media de muestra de la media dE población se hace más pequeña,
de manera que la media aritmética de muestra se vuelve una mejor estimación de
la media de población.

9.2 . .2. Error estándar de la media


La fluctuación en el número promedio de. erro1es ele mecanografía que se obtuvo de las
muestras posibles al muestrear con reemplazo se ilustra en la figura 9.2 de la página 324.
En este pequeño ejemplo, aunque p<Jdemos observar una buena cantidad de
fluctuadón En la meclia de muEst1a, dependiendo de qué mecanógrafos se selec-
cionaron, no hay una cantidad similar de fluctuación en la población real misma. El
hecho de que las medias de muestra son menos variables que los datos de población
se desprende di1ectarnente de la ley de grandes números. Una media de muestra
particular promedia conjuntamente todos los valores de la muestra. Una población
puede cornistir en resultados individuales que pueden tener un amplio radio de va-
lores, de extremadamente pequeños a extremadamente grandes. Sin embargo, si un
valor extremo cae en la muestra, aunque tendrá un efecto en la media, el efecto se
reducirá pues se promediará con todos los demás valores de la muestra. Además, ál
incrementarse el tamaño de muestra, el efecto de un solo valor extremo se hace cada
vez menor, puesto que se está promediando con más observaciones.

Distribución de muestreo de.la media 323


5

4 -
-
~

Figura 9.2 ~

Distribución de muestreo
del número promedio de o 1 1
errores para muestras de o 2 3 4
dos mecanógrafos. Número de errores

Este fenómeno se expresa estadísticamente en el valor de la desviación están-


dar de la media de muestra. Ésta es la medición de variabilidad de la media de-
muestra a muestra y se denomina como el error estándar de la media, ª-'· Al
muestrear con reemplazo, el error estándar de la media es igual a

(9.3)

la qesviaci_ón ~stfodar de la población dividida entre la raíz cuadrada del tamaf19


de muestra. Por tanto, al incrementarse el tamaño de muestra, el error estándar de·
la med~ia cl1sminuirá .en un factor igual a la raíz cuadrada del tamaño de muestra.
Esta relación entre el error estándar de la media y el tamaño de muestra se exami-
nará más adelante en el capítulo 10 cuando abordemos el asunto de la deter-
minación del tamaño de muestra.

9.2.3 Muestreo de poblaciones normales


Ahora que hemos introducido la idea de una distribución de muestreo y men-
cionado el error estándar de la media, necesitamos explorar la pregunta de qué dis-
tribución seguirá la media de muestra X. Puede demostrarse que si muestreamos
con reemplazo de una población con distribución normal y una media µx y una
desviación estándar ax, la distribución de muestreo de la media también tendrá
una distribución normal para cualquier tamaño 11 con media µx = µx y tendrá un
error estándar de la media cr;;-.
En el caso más elemental, si extraemos muestras de tamaño 11 = 1, cada media
de muestra posible es una sola observación de la población, puesto que

11

L,x;
i= 1 X;
X= 11 1
X;

Si sabemos que la población tiene distribución norma~ con media µx y desvia-


ción estándar cr,, entonces la distribución de muestreo de X para muestras de 11 = 1
también debe seguir la distribución normal con media µx = µ, y error estándar de
la media. ª"= crx / ,rr"'° ax Además, observamos que al incrementarse el tamaño de
muestra, la distribución de muestreo de la media sigue teniendo una distribución
normal con media µ;;- = µx. Sin embargo, al incrementarse el tamaño de muestra,

324 Capítulo 9 Distribuciones de muestreo


el error estándar de la media disminuye, de forma tal que una mayor proporción
de medias de muestra están más cercanas a la media de población. Esto puede
observarse remitiéndonos a la figura 9 .3. En esta figura, se seleccionaron aleatoria-
mente 500 muestras de tamaño 1, 2, 4, 8, 16 y 32 de una población con distribu-
ción normal. Podemos ver claramente de los polígonos de la figura 9.3 que
mientras la distribución de muestreo de la media es aproximadamente 1 normal
para cada tamaño de muestra, las medias de muestra se distribuyen más apretada-
mente alrededor de la media de población al incrementarse el tamaño de muestra.

n=32l

'
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
n=16~
1

Figura 9.l
Distribución de mut•strco de la
media de 500 mu.,stras de
o z tamaño n = 1, 2, 4, 8, 16 y 3 2
seleccionadas d., una población
normal.

e Aplicación Podemos obtener una idea más profunda del concepto de la


distribución de muestreo de la media si examinamos lo siguiente: suponga que
el equipo de empacado de un proceso de fabricación que rellena cajas de cereal
de 368 g (13 oz) se adapta de tal forma que la cantidad de cereal de la caja tenga
una distribución normal con una media de 368 g. De la experiencia anterior, se
sabe que la desviación estándar de población para este proceso de relleno es de
15 g.

Distribución de muestreo de la media llS


:h -l'll·cciona ah•ulorlamente una mm•slru de 25 cajas de las muchas miles
· 1·cillman en 1111 día, y se calcula el pt•so promedio para esta muestra, ¿qué
idf m~ultado podría esperarse? .
. )lftll' l'jemplo, ¿cree que la. medlu de muestra sería 368 g? ¿200 g? ¿365 g? La
U••trn actúa como una represt•ntación en miniatura de la población, de modo
UI NI los valores de la poblncl(m estuvieran normalmente distribuidos, los valores
*' 111 muestra debetfan rstar en forma aproximada normalmente distribuidos.
Alll•111ás, si la media lll• población es 368 g, la media de muestra tiene una buena
111·ohabilidad de estur cerca de los 368 g.
Para explorar l'Ste problema con más detalle, ¿cómo podemos determinar la
probabilidad Ul' que la muestra de 25 cajas tenga una media entre 365 y 3d8 g?
Sabemos de nuestro estudio de la distribución normal (sección 8.3) que el área
entre cualt)Uk•r valor X y la media de población µx puede encontrarse convirtiendo
a unldadt'~ '/. t•standarizadas

(9.4)

y encontrando el valor apropiado en la tabla de la distribución normal (tabla E.2).


En los ejemplos de la sección 8.4 1 estudiamos cómo cualquier valor simple X se
desvía de la media. Ahora, en el ejemplo del llenado de cereales, el valor involu-
crado es una media de muestra, X, y deseamos determinar la probabilidad de
obtener una media de muestra entre 365 y la media de ·población de 368. Por lo
tanto, al sustituir X por X, µ, por µx y cr, por crx tenemos

x.:..µx
Z=--=--
X-µx
O'x O' X (9.5)

Observe que, basándonos en la propiedad de imparcialidad, siempre es cierto que


µx= µx. Para encontrar el área entre 365 y 368 g (figura 9.4) tenemos

z =X ::X = 365 1~ 368 = -33 = -1.00


f;; -J2s

Buscando 1.00 en la tabla E.2 encontramos un área de .3413. Por tanto,


34.13% de todas las muestras posibles de tamaño 25 tendrían una media de mues-
tra entre 365. y 368 gramos.
Debemos darnos cuenta de que esto no es lo mismo que decir que un cierto
porcentaje de cajas individuales tendrán entre 365 y 368 g. De hecho, ese por-
centaje puede calcularse de la ecuación (9.4) del modo siguiente:

Capítulo 9 Distribuciones de muestreo


Figura 9.4
365 368 Diagrama de la curva normal necesaria
-1.00 o para encontrar el área entre 365 y 368
gramos.

z = X - µX = 365 - 368 = -3 = -0.20


ax 15 15

El área correspondiente a Z = -0.20 en la tabla E.2 es .0793. En consecuencia, se


espera que 7.93% de las cajas individuales contengan entre 365 y 368 g. Este resulta-
do puede explicarse por el hecho de que cada muestra consiste en 25 valores distin-
tos, algunos pequeños, otros grandes. El proceso de promedio diluye la importancia
de cualquier valor individual, particularmente cuando el tamaño de muestra es
grande. Por tanto, la probabilidad de que la media de una muestra de 25 esté cerca
de la media de población es mayor que la probabilidad de que un solo valor indivi-
dual lo esté.
¿Cómo se verían afectados nuestros resultados al usar un tamaño de mues-
tra diferente, como por ejemplo 100 cajas en vez de 25? Aquí tendríamos lo si-
guiente:

365 - 368 = ~ = -2.00


15 1.5
-Jtoo

De la tabla E.2, el área bajo la curva normal desde la media hasta Z = -2.00 es
.4772. Por tanto, se esperaría que 47.72% de las muestras de tamaño 100 tuvie-
ran medias entre 365 y 368 g, comparado con sólo 34.13% para muestras de
tamaño de 25.
En lugar de determinar la proporción de medias de muestra que se espera
caigan en un cierto intervalo, podríamos estar más interesados en encontrar el
intervalo en el cual caería una proporción fija de las muestras (medias). Por ejem-
plo, suponga que deseamos encontrar un intervalo alrededor de la media de
población que incluya 95% de las medias de muestra basadas en muestras de 25
cajas. El 95% podría dividirse en dos partes iguales, la mitad por debajo de la media
y la mitad por arriba de la media (véase la figura 9.5 de la página 328). Análogo a
la sección 8.4, estamos determinando una distancia por debajo y por arriba de la
media de población que contiene un área específica de la curva normal. De
la ecuación (9.5) tenemos

Distribución de muestreo de la medida 327


Figura o.s
Diagrama de la curva
normal necesaria para
encontrar los límites
superior e inferior para
incluir 95% de medias de
muestra.

donde ZL =-Z
y

donde Zu = +Z.
Por consiguiente, el valor inferior de X es

y el valor superior de X es

V' ,••./,

Como ax= 15 y n = 25 y el valor de Z correspondiente a un área de .475 del


centro a la curva normal es 1.96, los valores inferior y superior de X pueden encon-
trarse de la siguiente manera:

XL = 368 - (1.96) ~ = 368 - 5.88 = 362.12


v25

Xu = 368 + (l.96) ~ = 368 + 5.88 = 373.88


v25

Nuestra conclusión sería que 95% de todas las medias de muestra basadas en mues-
tras de 25 cajas caerían entre 362.12 y 373.88 gramos.

328 Capf1tulo o Distribuciones de muestreo


9 • .2.4 Muestreo de poblaciones no normales
En la sección anterior exploramos la distribución de muestreo de la media para
el caso en que la población misma tenía una distribución normal. Sin embargo,
debemos darnos cuenta de que en muchos casos sabremos que la población no
se distribuye normalmente o podremos pensar que no es realista suponer una
distribución normal. Por tanto, necesitamos examinar la distribución de mues-
treo de la media para poblaciones que no están normalmente distribuidas.

Teorema del límite central: Al hacerse lo bastante grande el tamaño


de muestra (número de observaciones en cada muestra),
la distribución de muestreo de lamecITa puede aproximarse
mediante la distribución normal. Esto es cierto no importando
la forma de la distribución de los valores individuales de la
población.

¿Qué tamaño de la muestra es bastante grande? Una gran parte de la investi-


gación estádistica se ha hecho sobre este tema. Como una regla general, los ~stadís­
ticos han encontrado que en la mayoría de las distribuciones de población, un
tamaño de muestra adecuado es de por lo menos 30, la distribución de muestreo
de la media deberá ser aproximadamente normal. Sin embargo, podremos ser
capaces de aplicar el teorema del límite central para tamaños de muestra incluso
menores si se dispone de algún conocimiento de la población (por ejemplo, si la
distribución es simétrica).
La aplicación del teorema del límite central a diferentes poblaciones puede
ilustrarse refiriéndonos a las figuras 9.6 a 9.8 de las páginas 330-332. Cada una de
las distribuciones de muestreo ilustradas se ha obtenido usando la computadora
para seleccionar 500 muestras diferentes de sus distribuciones de población respec-
tivas. Estas muestras se seleccionaron con diversos tamañ.os (n =2, 4, 8, 16, 32) de
tres diferentes distribuciones continuas (normal, uniforme y exponencial).
La figura 9 .6 de la página 330 ilustra la distribución de muestreo de la media
seleccionada de una población normal. En la sección precedente establecimos que si
la población tiene una distribución normal, la distribución de muestreo de la media
tendrá una distribución normal sin importar el tamaño de la muestra. Un examen
de las distribuciones de muestreo mostradas en la figura 9.6 da evidencia empírica
de esta afirmación. Para cada tamaño de muestra estudiado, la distribución de
muestreo de la media está cerca de la distribución normal que se ha superpuesto.
La segunda figura, figura 9.7 de la página 331, presenta la distribución de
muestreo de la media basada en una población que sigue una distribución uni-
forme continua (rectangular). Como se ilustra en la parte (a), para muestras de
tamañ.o n = 1, cada valor de la población es igualmente posible. Sin embargo,
cuando se seleccionan las muestras de sólo dos, existe un pico o efecto de li-
mitación central actuando desde antes. En este caso podemos observar valores
más cercanos a la media de la población que hacia los extremos. Al incrementarse
el tamaño de muestra, la distribución de muestreo de la media rápidamente se
aproxima a la distribución normal. Una vez que hay muestras de al menos ocho
observaclones, la media de la muestra sigue próxima a una distribución normal.
Finalmente, la tercera figura, figura 9.8 de la página 332, ilustra la distribución
de muestreo de la media obtenida de una población altamente sesgada a la
~erecha, llamada la distribución exponencial (referencia 2). De la figura 9.8 obser-
vamos que al incrementarse el tamaño de muestra, la distribución de muestreo se
vuelve menos sesgada. Cuando se toman las muestras de tamaño 16, la distribu-
ción de la media está ligeramente sesgada, mientras que para muestras de tamaño
32, la distribución de muestreo de la media parece distribuida

Distribución de muestreo de la medida 119


n=1

(a)
-5crx --4crx
~"'";:'.:~ ..-
-3crx -2crx -1crx o 1crx 2crx 3crx 4crx 5ox

rlTh
n=.2
ºx-= .7071

(b)
--4ox -30x -2ox -10x o 1ox 2ox 3ox 4ox
Vn Vn Vn Vn Vn Vn Vn Vn

~
n=4
ºx= .sooo

(e)
-4crx -3crx -2crx -1ox o 1crx 2crx 3crx 4crx
Vn Vn Vn Vn Vn Vn Vn Vn

~
n=B
ªx = .3536

(d)
--4cr X -3crx -2ax -1crx o 1crx 2crx 3ox 4crx
Vn Vn Vn Vn Vn Vn Yn Vn

(e)
--4cr X -3ax
y([h
-2crx -1crx o 1crx 2crx 3ax
n= 16
ªx = .2500

4crx
Vn Vn Vn Vn Vn Vn Vn Vn

Figura 9.6
~"-~ ªx ~ .1768
Distribución normal y la
(1)
distribución de muestreo de la --4crx -3crx -2crx -1ox o 1ox 2crx 3crx 4ox
media de 500 muestras de tamaño
n = 2,4,8, 16,32. Vn Vn Vn Vn Vn Vn Vn Vn

Ahora podemos usar los resultados obtenidos de nuestras conocidas distribu-


ciones estadísticas (normal, uniforme, exponencial) para resumir nuestras conclu-
siones de la siguiente manera:
l. Para la mayoría de las distribuciones de población, sin importar la
forma, la distribución de muestreo de la media tendrá una distribu-
ción aproximadamente normal si se seleccionan muestras de al menos
30 observaciones.
2. Si la distribución de población es lo bastante simétrica, la distribución
de muestreo de la media será aproximadamente normal si se seleccio-
nan muestras de al menos 15 observaciones.

130 Capítulo 9 Distribuciones de muestreo


n=1
µx= .5

(a) _ _ _ _ _____.__ __._l__l.____.l_._ _._l_ __._l_ ____.__Ra_:~_:_:_eªo_ª:_1__

n= 16
ªx =.0122
(e) -~~~_¡____L____t___._c::::'~!!e..----
o

rñ. n:s2

(f) _ _ _ _ _ ___......,.,~==='--·-'--~·--'---··L--_.r:::="""'""--crx_-_=_.0_5_1_0_ __
Figura 9.7
Distribución uniforme continua
(rectangular) y distribución de
o muestreo de la media de 500
muestras de tamaño n = 2, 4, 8, 16, 3 2.

3. Si la población se distribuye normalmente, la distribución de


muestreo de la media se distribuirá normalmente sin importar el
tamaño de muestra.
El teor.ema ..deLlímite central, entonces, es de importancia decisiva al usar la
nferencia estadística para sacar conclusiones respecto a una población. NQ.s per-
Qlte hacer inferencias respecto a la media de población sin tener que conocer la
9.tlllª específica de la distribución de pobla<::ión,

Distribución de muestreo de la medida :J :J 1


Problemas de la sección 9.2
i> 9 .1 Explique por que un estadístico se interesaría en sacar conclusiones respecto a
una población en vez de simplemente describir los resultados de una muestra.
9 .2 Distinga entre una distribución de probabilidad y una distribución de
muestreo.
9.3 Para cada una de las siguientes tres poblaciones, indique en qué consistiría la
distribución de muestreo para muestras de 25:

332 Capítulo 9 Distribuciones de muestreo


(a) Comprobantes de gastos de viaje para una universidad en un ai\o
académico.
(b) Registros de faltas (días faltados/año) en 1994 para empleados de una gran
compañía de fabricación.
(c) Ventas anuales (en galones) de gasolina sin plomo en gasolinerías ubicadas
en un condado particular.
9 .4 Los siguientes datos representan el número de días faltados al año en una
población de seis empleados de una compañía pequeña:

1, 3, 6, 7, 7, 12
(a) Suponiendo que usted muestrea sin reemplazo
(1) Seleccione todas las muestras posibles de tamaño 2 y establezca la
distribución de muestreo de la media.
(2) Calcule la media de todas las medias de muestra y también calcule
la media de población. ¿Son iguales? ¿Cómo se llama esta propiedad?
(3) Haga las partes (1) y (2) para todas las muestras posibles de tamaño 3.
(4) Compare la forma de la distribución de muestreo de la media
obtenida en las partes (1) y (3). ¿Qué distribución de muestreo parece
tener menor variabilidad? ¿Por qué?
(b) Suponiendo que usted muestrea con reemplazo, haga las partes (1) a (4) de
(a) y compare los resultados. ¿Qué distribuciones de muestreo parecen
tener menor variabilidad, las de (a) o (b)? ¿Por qué?
9.5 Refiriéndose a la tabla 3.6 ·de la página 69 (colegiaturas cobradas a residentes
fuera del estado en colegios y universidades de Carolina del Norte), y
suponiendo que muestrea sin reemplazo
(a) Seleccione todas las muestras posibles de tamaño 2 y establezca la
distribución de muestreo de la media.
(b) Calcule la media de todas las medias de muestra y también calcule
la media de población. ¿Son iguales? ¿Cómo se llama esta propiedad?
9.6 Se espera que el diámetro de las pelotas de ping-pong manufacturadas en una
gran fábrica tengan una distribución aproximadamente normal con una
media de 1.30 pulgadas y una desviación estándar de .04 pulgadas. ¿Cuál es la
probabilidad de que una pelota de ping-pong seleccionada aleatoriamente
tenga un diámetro de
(a) Entre 1.28 y 1.30 pulgadas?
(b) Entre l.31y 1.33 pulgadas?
(e) Entré qué dos valores (simétricamente distribuidos alrededor de la media)
caerá 60% de las pelotas de ping-pong (en términos del diámetro)?
(d) Si se seleccionan muchas muestras de 16 pelotas de ping-pong
(1) ¿Cuáles se esperaría que fueran la media y el error estándar de la
media?
(2) ¿Qué distribución seguirían las medias de muestra?
(3) ¿Que proporción de las medias de muestras estaría entre 1.28 y 1.30
pulgadas?
(4) ¿Qué proporción de las medias de muestra estaría entre 1.31y1.33
pulgadas?
(5) ¿60% de las medias de muestra estarán ent!.e esos dos valores?
(e) Compare las resp.uestas de (a) con (d)(3) y (b) con (d)(4). Analice.
(f) Explique la diferencia en los resultados de (c) y (d)(S). ·

'
(g) ¿Qué es más probable que ocurra: una pelota individual mayor de
1.34 pulgadas, una media de muestra por arriba de 1.32 pulgadas en una
muestra de tamaño 4, o una media de fuuestra por arriba de 1.31 pulgadas
en una muestra de tamaño 16? Explique.
9.7 Las llamadas telefónicas de larga distancia se distribuyen normalmente con
µ, = 8 minutos y cr, = 2 minutos. Si se seleccionan muestras aleatorias de 25
llamadas
(a) (a) Calcule cr;
(b) ¿Qué proporción de las medias de muestra estaría entre 7.8 y
/ 8.2 minutos?

Distribución de muestreo de la medida JJJ


,, 1 ,., 1111· l''"I'"" '"" dt· las medias de muestra estaría entre 7.5 y
11 111l11ulos!
(d) Si se seleccionaran muestras de 100 llamadas, ¿qué proporción de las
medias de muestra estaría entre 7.8 y 8.2 minutos?
(e) Explique la diferencia en los resultados de (b) y (d).
(f) ¿Qué es más probable que ocurra: un valor individual mayor de
11 minutos, una media de muestra por arriba de 9 minutos en una mues-
tra de 25 llamadas, o una media de muestra por arriba de 8.6 minutos en
una muestra de 100 llamadas? Explique.
9.8 La cantidad de tiempo que un pagador tarda con cada cliente tiene una media
de poblaciónµ_,= 3.10 minutos y una desviación estándar ax= .40 minuto. Si
se selecciona una muestra aleatoria de 16 clientes
(a) ¿Cuál es la probabilidad de que el tiempo promedio por cliente sea de al
menos 3 minutos?
(b) ¿Existe un 85% de probabilidad de que la media de muestra esté por
debajo de cuántos minutos?
(c) ¿Qué supuesto se debe hacer con el fin de resolver (a) y (b)?
(d) Si se selecciona una muestra aleatoria de 64 clientes, existe 35<y¡, de
probabilidad de que la media de muestra esté por debajo de ¿cuántos
minutos?
(e) ¿Qué supuesto se debe hacer para resolver (d)?
(f) ¿Qué es más probable que ocurra: un tiempo individual menor de
2 minutos, una media de muestra por arriba de 3.4 minutos en una
muestra de 16 clientes, o una media de muestra por debajo de 2.9
minutos en una muestra de 64 clientes? Explique.

1·11 Distribución de muestreo de la proporción


Al tratar con una variable categórica en la que cada individuo o elemento de la
población puede clasificarse como poseedor o no poseedor de una característica
particular como masculino, femenino o "satisfecho con su trabajo o no satisfecho
con su trabajo", a los dos resultados posibles se les podrían asignar resultados de 1
o O para representar la presencia o ausencia de la característica. Si sólo se dispusiera
de una muestra aleatoria de n individuos, la media de muestra para tal variable
categórica se encontraría sumando todos los resultados 1 y O y luego dividiendo
entren. Por ejemplo, si en una muestra de cinco empleados, tres estuvieran satis-
fechos con su trabajo y dos no lo estuvieran, habría tres unos y dos ceros. Sumando
los tres unos y los dos ceros y dividiendo entre el tamaño de muestra de cinco nos
daría una media de 0.60, que también es la proporción de individuos de la mues-
tra que están satisfechos con su trabajo. Por tanto, al tratar con datos categóricos,
la media de muestra X (de los resultados 1 y O) es la misma proporción de muestra
Ps que tiene la característica de interés. Así pues, la proporción de muestra p, puede
definirse como

X número de sucesos
p, = n =tamaño de la muestra
(9.7)

La proporción de muestra p, tiene la propiedad especial de que debe estar entre O y


l. Si todos los individuos poseyeran la característica, a cada uno se le asignaría un
resultado de 1 y p, sería igual a l. Si la mitad de los individuos poseyeran la carac-
terística, a la mitad se le asignaría un resultado de 1, a la otra mitad se le asignaría

U4 Capítulo 9 Distribuciones de muestreo


t111 resultado de O y p, sería igual a 0.5. Si ninguno de los individuos poseyeran la
l·aracterística, a cada uno se le asignaría un resultado de O y p, sería igual a O.
Mientras que la media de muestra X es un estimador de la media de población
p,, la estadística p, es un estimador de la proporción de población p. Por analogía
;i la distribución de muestreo de la media, el error estándar de la proporción <Jp,

sería

(j = ~ p(I - p) (9.8)
Ps n

La distribución de muestreo de la proporción en realidad seguiría la distribución


binomial analizada en la sección 7.5. Sin embargo, como se estudió en la sección
8.6, la distribución normal puede usarse para aproximar la distribución binomial
cuando np y n(l - p) son cada uno al menos 5. En la mayoría de los casos en los
que se hacen inferencias respecto a la proporción, el tamaño de muestra es lo bas-
tante sustancial para satisfacer las condiciones para usar la aproximación normal
(véase la referencia 1). Así, en muchos casos, podemos usar la distribución normal
para evaluar la distribución de muestreo de la proporción. Para ilustrar esta dis-
tribución, refirámonos al siguiente ejemplo.

• Aplicación El gerente de la sucursal local de un banco de ahorro ha deter-


minado que 40% de todos los depositantes tienen cuentas múltiples en el banco.
Si se selecciona una muestra aleatoria de 200 depositantes, ¿cuál es la probabilidad
de que la proporción muestra de depositantes con cuentas múltiples esté entre .40
y .43?
Puesto que np = 200 (.40) = 80 y n (1 -p) = 200 (.60) = 120, la distribución de
muestreo de la proporción se puede suponer que está normalmente distribuida. 2
Así tenemos
X-µ X-µx
Z=---

y como estamos tratando con proporciones de muestra (no medias de muestra),


tenemos
p, = proporción de muestra
p = proporción de población
cr =~p(l-p)
Ps n

y sustituyendo p, por X, µp_. = p porµ,;¡ y ªr, = ~ p(l - p)/n por cr:;¡, tenémos

Z: Ps - P
~ p(l: p) (9.9)

Distribucion de muestreo de la proporción JJS


'.11'.lllll\Tllllc1
/,
/\ - p
~p(i~
.43 - .40 .03
z-
(.40)(.60) /.24
200 ~200
.03
.0346
0.87

Usando la tabla E.2, el área bajo la curva normal de Z =O a Z = 0.87 es .3078. Por
tanto, la probabilidad de obtener una proporción de muestra entre .40 y .43 es
.3078. Esto significa que si la proporción verdadera de éxitos en la población fuera
.40, entonces se esperaría que 30. 78% de las muestras de tamaño 200 tuvieran pro-
porciones de muestra entre .40 y .43. (Véase la figura 9.9.)

Figura 9.9
Diagrama de la curva normal p = .40 .43 Ps
necesaria para encontrar el área o .87 z
entre las proporciones .40 y .43.

Problemas de la sección 9.3


• 9.9 Históricamente, 10% de un gran envío de partes mecánicas están defectuosas.
Si se seleccionan muestras aleatorias de 400 partes, ¿qué proporción de las
muestras tendrá
(a) Entre 9<¡¡, y 10% de partes defectuosas?
(b) Menos de 8% de partes defectuosas?
(c) Si se hubiera seleccionado un tamaño de muestra de únicamente 100,
¿cuáles habrían sido las respuestas en (a) y (b)?
Q (d) ¿Qué es más probable que ocurra: un porcentaje defectuoso por arriba de
13% en una muestra de 100 o un porcentaje defectuoso por arriba de
10.5% en una muestra de 400? Explique.
9.10 Un encuestador político está conduciendo un análisis de resultados de muestra
con el fin de hacer predicciones en la noche de elecciones. Suponiendo una
elección de dos candidatos, si un candidato específico recibe al menos 55% de
los votos en la muestra, entonces ese candidato se pronosticará como el
ganador de la elección. Si se selecciona una muestra aleatoria de 100 votantes,
¿cuál es la probabilidad de que un candidato sea pronosticado como el
ganador cuando
(a) El porcentaje real de sus votos es 50.1%?
(b) El porcentaje real de sus votos es 60%?
(c) El porcentaje real de sus votos es 49% (y, de hecho, perderá la elección)?
(d) (d) Si el tamaño de muestra se incrementara a 400, ¿cuál sería su respuesta
en (a), (b) y (c)? Analice.
9.11 Basándose en datos anteriores, 30% de las compras con tarjeta de crédito en
una gran tienda departamental son por cantidades superiores a $100. Si se
seleccionan muestras aleatorias de 100 compras con tarjeta de crédito

J36 Capítulo 9 Distribuciones de muestreo


(a) ¿Qué proporción de muestra es probable que tenga entre 20% y 30'1h de
las compras con más de $100?
(b) ¿Dentro de qué límites simétricos del porcentaje de población caerá 95%
de los porcentajes de muestra?
9.12 Suponga que debe conducirse un experimento de comercialización en el que
los estudiantes deben probar dos marcas diferentes de refrescos. Su tarea es
identificar correctamente la marca probada. Si se seleccionan muestras de 200
estudiantes y se supone que éstos no tienen la habilidad de distinguir entre las
dos marcas
(a) ¿Qué proporción de las muestras tendrá entre 50'Y.1 y 60% de las
identificaciones correctas?
(b) ¿Dentro de qué límites simétricos del porcentaje de población caerá 90%
de los porcentajes de muestra?
(c) ¿Cuál es la probabilidad de obtener un porcentaje de muestra de
identificaciones correctas que sea superior a 65%?
o (d) ¿Qué es más probable que ocurra: más de 60% de identificaciones
correctas en una muestra de 200 o más de 55% en una muestra de 1,000"!
Explique.
(S11scrc11cia: si un individuo no tiene la habilidad de distinguir entre dos
refrescos, entonces es igualmente probable que cualquiera de los dos sea
seleccionado.)
9.13 Históricamente, 93% de las entregas de un servicio de correo nocturno llega
antes de las 1O::m de la mañana siguiente. Si se seleccionan muestras aleatorias
de 500 entregas, ¿qué proporción de las muestras tendrá
(a) Entre 9:{% y 95% de las entregas antes de las 1O::{O de la mañana
siguiente?
(b) Más de 9.S'Yí1 de las entregas antes de las JO::m de la mañana siguiente?
(e) Si se hubieran seleccionado muestras de tamaño 1,000, ¿cuáles habrían
sido las respuestas en (a) y (bf!
\) (d) i.Qué es más probable que ocurra: más de 95% de las entregas antes de las
1030 de la maiiana siguiente en una muestra de 500 o menos de 90% de
las entregas antes de las 10:30 de la mañana siguiente en una muestra
de l,OOO"t Explique.

l·!I Muestreo de poblaciones finitas


El.teorema del límite central y los errores estándar de la media y la proporción se
basaron en la premisa de que las muestras seleccionadas se eligieron rnn reemplazo.
Sin embargo, en casi toda investigación de encuesta, el muestreo es conducido sin
reemplazo de poblaciones que son de un tamaño finito N. En estos casos, particu-
larmente cuando el tamaño de muestra 11 no es pequeño comparado con el tamaño
de población N (es decir, se muestrea más de 51Yr> de la población), de manera que
11/N > .05, debe usarse un factor de corrección de población finita (fpc) en
la definición tanto del error estándar de la media como del error estándar de la pro-
porción. El factor de corrección de población finita puede expresarse como

fpc /~ (9.10)
~N - 1

donde n = tamaño de muestra


N = tamaño de población

Distribucion de muestreo de la proporción 3 37


i\•.i, 1111111do w trata de medias, tenemos

cr- = -cr, ~-n


--- (9.11)
x j;¡ N-1

y cuando nos referimos a proporciones, tenemos

cr = ~ p(l - p) ~N - n (9.12)
Ps n N - 1

Examinando la fórmula para el factor de corrección de población finita [ecuación


(9.10)], vemos que el numerador siempre será menor que el denominador, de
forma tal que el factor de corrección será menor que 1. Puesto que el factor de co-
rrección de población finita se multiplica por el error estándar, este error se hace
más pequeño al corregirse. Es decir, obtenemos estimaciones más exactas porque
estamos muestreando un gran segmento de la población.

• Aplicación Podemos ilustrar la aplicación del factor de corrección de po-


blación finita refiriéndonos nuevamente a los dos problemas estudiados en este
capítulo. En la sección 9.2.3 de la página 325, se seleccionó una muestra de 25 cajas
de cereal de un proceso de llenado. Suponga que una población de 2,000 cajas se
llenó en este día particular. Usando el factor de corrección de población finita ten-
dríamos

(J X 15, n = 25, N = 2000

~~N-n
j;¡ N -1

15 2,000 - 25
-!25 2,000 - 1

3-.J.988 = 2.982

La probabilidad de obtener una muestra cuya media está entre 365 y 368 gramos
de ganancia marginal se calcula de la siguiente manera:

z = X- µX = ---2_ = -1.01
Sx 2.982

De la tabla E.2 el área aproximada bajo la curva normal es .3438.


Es evidente en este ejemplo que el uso del factor de corrección de población
finita tuvo muy poco efecto sobre el error estándar de la media y la subsiguiente
área bajo la curva normal, puesto que la muestra sólo tuvo 1.25% del tamaño de la
población.
En el ejemplo referente al banco de ahorro local de la página 335, suponga que
hubo un total de 1,000 depositantes distintos en el banco. La anterior muestra de
tamaño 200 de esta población finita da como resultado lo siguiente:

:ue Capítulo S> Distribuciones de muestreo


~~
~--n-~~

(.4)(.6) 1,000 - 200


200 1,000 - 1

= ~ 24 ~soo = ~ 24 .J.sol
200 999 200

= (.0346)(.895) = .031

Usando crp, = .031 como el error estándar de la proporción de muestra en la ecua-


ción (9.9), Z = .03/.031=0.97 y, de la tabla E.2, el área apropiada bajo la curva nor-
mal es .3340. En este ejemplo, el uso del factor de corrección de población finita
tuvo un moderado efecto sobre el error estándar de la proporción y sobre el área
bajo la curva normal, puesto que el tamaño de muestra es 20% (es decir, n/N = .20)
de la población.

Problemas de la sección 9.4


e 9.14 Refiriéndose al problema 9.6 de la página 333, si la población consistía en una
caja de 200 pelotas de ping-pong, ¿cuál sería su respuesta a la parte (d)(4) de
ese problema?
9.15 Refiriéndose al problema 9.8 de la página 334, si había una población de 500
clientes, ¿cuáles respuestas serían para (a) y (b) de ese problema?
e 9.16 Refiriéndose al problema 9.9 de la página 336, si el envío incluía 5000 partes
mecánicas, ¿cuáles respuestas serían para (a) y (b) de ese problema?
9.17 Refiriéndose al problema 9.13 de Ja página 337, si la población consistía en 10
mil entregas, ¿cuáles respuestas serían para (a) y (b) de ese problema?

1·11 Distribuciones de muestreo: un repaso


Como se ve en el diagrama de resumen de la página 340, en este capítulo hemos
estudiado la distribución de muestreo de la media de muestra y la distribución de
muestreo de la proporción de muestra. La importancia de la distribución normal
en estadística se ha subrayado todavía más al examinar el teorema del límite cen-
tral. Hemos visto que el conocimiento de la distribución de una población no
siempre es necesario para sacar conclusiones de una distribución de muestreo de la
media o proporción.
En la página 320 de la sección 9 .1 se presentó una lista que ponía énfasis en
los puntos importantes a analizarse en el capítulo. Verifique la lista ahora para ver
si cree que comprende estos puntos clave. Para asegurarse, usted debe poder
responder las siguientes preguntas conceptuales:
l. ¿Por qué es la media aritmética de muestra un estimador imparcial de
la media aritmética de la población?
2. ¿Por qué el error estándar de la media disminuye al incrementarse el
tamaño de muestra n?
3. ¿Por qué la distribución de muestreo de la media sigue una distribución
normal para un tamaño de muestra lo bastante grande aun cuando la
población tal vez no esté normalmente distribuida?
4. ¿Bajo qué'circunstancias la distribución de muestreo de la proporción
sigue aproximadamente la distribución normal?

Distribuciones de muestreo: un repaso 1 lt


5. ¿Cuál es el efecto sobre el error estándar al usar el factor de corrección
de población finita?
Los conceptos relativos a distribuciones de muestreo son centrales para el desa-
rrollo de la inferencia estadística. El principal objetivo de la inferencia estadística
es tomar información basándose únicamente en una muestra y usar esta informa-
ción para sacar conclusiones y tomar decisiones respecto a diversos valores de
población. Las técnicas estadísticas desarrolladas para lograr estos objetivos se
analizan a fondo en los siguientes seis capítulos (intervalos de confianza y pruebas
de hipótesis).

Distiibucíones
dé, mtiestreo

Propiedades ' .· Definición Teorema del


de estimadores límite central

·imparcial ·Eficiente CCilnsistente

Con Sin
remplazo remplazo

Distribución d~, Distribución de Ditribución de Distribución de


muestreo ',d.e X· muestreo de p muestreo de X muestreo P
','/-',,_,

Diagrama de resumen del capítulo 9.

Juntando todo

TÉRMINOS CLAVE
consistencia 323 error estándar de la media 324
distribución de muestreo 320 factor de corrección de población
distribución de muestreo de la finita 337
media 324 imparcialidad 321
distribución de muestreo de la pro- inferencia estadística 320
porción 334 ley de grandes números 323
eficiencia 323 teorema del límite central 329

340 Capítulo 9 Distribuciones de muestreo


Problemas de repaso del capítulo
9.18 Una máquina automática de refrescos está regulada de tal manera que la
cantidad dispensada tiene una distribución normal conµ,= 7 onzas y cr, = .5
onzas. Si se toman muestras de nueve vasos, ¿qué valor será excedido en 95%
de las medias de muestra?
9.19 La duración de una batería de transistores tiene una distribución normalµ,=
100 horas y cr, = 20 horas.
(a) ¿Qué proporción de las baterías durará entre 100 y 115 horas?
(b) Si se seleccionan muestras de 16 baterías
(1) ¿Qué proporción de las medias de muestra estará entre 100 y 115
horas?
(2) ¿Qué proporción de las medias de muestra será de más de 90 horas?
(3) ¿Dentro de qué límites alrededor de la media de población caerá 90%
de las medias de muestra?
(c) ¿Es el teorema del límite central necesario para responder (b)(l), (2) y (3)?
Explique.
9.20 Un productor de jugo de naranja compra todas sus naranjas a un gran huerto
de naranjas. La cantidad de jugo extraída de cada una de estas naranjas tiene
una distribución aproximadamente normal con una media de 4. 70 onzas y
una desviación estándar de .40 onzas.
(a) ¿Cuál es la probabilidad de que una naranja seleccionada aleatoriamente
contenga
(1) Entre 4.70 y 5.00 onzas?
(2) Entre 5.00 y 5.50 onzas?
(b) ¿77% de las naranjas contendrá al menos cuántas onzas de jugo?
Suponga que se selecciona una muestra de 25 naranjas:
(c) ¿Cuál es Ja probabilidad de que la media de muestra sea de al menos 4.60
onzas?
(d) ¿Entre qué dos valores simétricamente distribuidos alrededor de Ja media
de población caerá 70% de las medias de muestra?
(e) ¿77% de las medias de muestra estarán por arriba de qué valor?
(f) ¿Son diferentes los resultados de (b) y (e)? Explique por qué.
9.21 (Proyecto de clase) La tabla de números aleatorios es un ejemplo de una
distribución uniforme puesto que es igualmente probable que ocurra cada
dígito. Comenzando con Ja fila que corresponde al día del mes en el que usted
nació, use la tabla de números aleatorios (tabla E.l) para tomar un dígito a Ja
vez. Seleccione muestras de tamaño n = 2, n = 5, n = 10. Calcule la media de
muestra X de cada muestra. Para cada tamaño de muestra, cada estudiante
debe seleccionar cinco muestras diferentes de manera tal que pueda
desarrollarse una distribución de frecuencia de las medias de muestra para los
resultados de toda la clase. ¿Qué puede decirse respecto a la forma de la
distribución de muestreo de cada uno de estos tamaños de muestra?
9.22 (Proyecto de clase) Una moneda con cara y cruz en sus lados, se debe lanzar
diez veces y registrar el número de caras obtenido. Si cada estudiante efectúa
este experimento cinco veces, puede desarrollarse una
distribución de frecuencia del número de caras de los resultados de toda la
clase. ¿Parece esta distribución aproximarse a la distribución normal?
9 .23 (Proyecto de clase) El número de automóviles que esperan en la cola de un
lugar de lavado de autos se distribuye de Ja siguiente manera:

Longitud de Íínea
(número de automóviles) Probabilidad
o .25
1 .40
2 .20
3 .10
4 .04
s .01

Problemas del repaso del capitulo 341


La tabla de números aleatorios puede usarse para seleccionar muestras de esta
distribución asignando números según se describe a continuación:
1. Comience en la fila correspondiente al día del mes en el que usted nació.
2. Se deben seleccionar números aleatorios de dos dígitos.
3. Si se selecciona un número aleatorio entre 00 y 24, registre una longitud
de O; entre 25 y 64, una longitud de 1; entre 65 y 84, una longitud de 2;
entre 85 y 94, una longitud de 3; entre 95 y 98, una longitud de 4; si es 99,
una longitud de 5.
Seleccione muestras de tamaño n = 2, n = 10, n = 25. Calcule la media de mues-
tra para cada muestra. Por ejemplo, si un tamaño de muestra 2 da como resul-
tado los números aleatorios 18 y 46, estos corresponderían a las longitudes de O
y 1, respectivamente, produciendo una media de muestra de 0.5. Si cada
estudiante selecciona cinco muestras diferentes para cada tamaño de muestra,
puede desarrollarse una distribución de frecuencia de las medias de muestra (por
cada tamaño de muestra) de los resultados de toda la clase. ¿Qué conclusiones
puede sacar respecto a la distribución de muestreo de la media al incrementarse
el tamaño de muestra?
9.24 (Proyecto de clase) La tabla de números aleatorios puede usarse para simular
la operación de selección de bolas de diferentes colores de un tazón de la
siguiente manera:
l. Comience en la fila correspondiente al día del mes en el que usted nació.
2. Se deben seleccionar números aleatorios de un dígito.
3. Si se selecciona un dígito aleatorio entre O y 6, considere que la bola es
blanca; si el dígito aleatorio es 7, 8 o 9, considere que la bola es roja.
Seleccione muestras de 10, 25 y 50 dígitos. En cada muestra, cuente el número
de bolas blancas y calcule la proporción de bolas blancas en la muestra. Si cada
estudiante selecciona cinco muestras diferentes para cada tamaño de muestra,
puede desarrollarse una distribución de frecuencia de la proporción de bolas
blancas (por cada tamaño de muestra) de los resultados de toda la clase. ¿Qué
conclusiones puede sacar respecto a la distribución de muestreo de la proporción
al incrementarse el tamaño de muestra?
9.25 (Proyecto de clase) Suponga que la parte 3 del problema 9.24 usa la
siguiente regla: si se selecciona un dígito aleatorio entre O y 8, considere que la
bola es blanca; si se selecciona un dígito aleatorio de 9, considere que la bola
es roja. Compare y contraste los resultados obtenidos en este problema y en el
problema 9.24.

Notas fi 1111lcs
l. Debemos r1•1·mdar que se han seleccionado "sólo" 500 2. Al trabajar con la distribución de muestreo de la propor-
muestras dt• 1111 11i'111wro infinito de muestras, de manera tal ción para muestras muy grandes, el factor de correción de
que las <llslrllml'iom·s de muestreo exhibidas son sólo continuidad (véase la sección 8.6) generalmente se omite,
aproximadorn·s dl' las distribuciones reales. puesto que tendrá mínimos efectos sobre Jos resultados.

References
l. Cochran, W. G., Su111pll11s Techniques, 3a. ed. (Nueva York: 2. Larsen, R. L. y M. L. Marx, An lntroduction to Mathematical
Wiley, 1977). Statistics and lts Applications, Za ed. (Englewood Cliffs, NJ:
Prentice-Hall, 1986).

341 Capítulo 9 Distribuciones de muestreo


capítulo

Estimación
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Utilizar la distribución de muestreo
para desarrollar una estimación del
CAPÍTULO intervalo de confianza para una media
o para una porción, y determinar el
tamaño de muestra necesario para
obtener un intervalo de confianza
deseado.

343
i (,8 j Introducción
La inferencia estadística es el proceso que consiste en utilizar los resultados de una
muestra para llegar a conclusiones acerca de las características de una población.
En el presente capítulo examinaremos los procedimientos estadísticos que nos per-
mitirán estimar ya sea la media de una población o una porción de población.
Existen dos tipos principales de estimaciones: estimaciones puntuales y esti-
maciones de intervalo. Una estimación puntual consiste en una sola estadística
de muestra que se utiliza para estimar el valor verdadero de un parámetro de po-
blación. Por ejemplo, la media de muestra, X, es una estimación puntual de la
media de población, µx, y la varianza de muestra, S2, es una estimación puntual de
la varianza de población, cr;. Recuerde, de la sección 9.2.1, que la media de mues-
tra, X, posee las mayores propiedades deseables de imparcialidad y eficiencia.
Aunque en la práctica solamente se seleccione una muestra, sabemos que el valor
promedio de todas las medias de muestra posibles es µx, el parámetro de población
verdadero 1 • Puesto que la estadística de muestra (X) varía de una muestra a otra (es
decir, depende de los elementos seleccionados en la muestra), necesitamos consi-
derar este hecho con el fin de proporcionar una estimación más significativa y ca-
racterística de la población. Para lograr lo anterior, debemos desarrollar una
estimación de intervalo de la media de población verdadera, tomando en
consideración la distribución de muestreo de la media. El intervalo que constru-
imos tendrá una confianza o probabilidad especificada de estimar correctamente
el valor verdadero del parámetro de población, µx. Desarrollaremos intervalos pare-
cidos para la porción de población, p. Luego analizaremos de qué manera podemos
determinar el tamaño de la muestra a ser seleccionada y mostraremos cómo una
población finita puede afectar el ancho del intervalo de confianza desarrollado y
el tamaño de muestra seleccionado.
Después de terminar el presente capítulo, usted deberá ser capaz de:
l. Interpretar el significado de una estimación de intervalo de confianza.
2. Establecer la estimación de intervalo de confianza de la media, cuando
se conoce crx o cuando no se conoce.
3. Establecer la estimación de intervalo de confianza de la porción.
4. Determinar el tamaño de muestra requerido para medias o para
porciones.
5. Utilizar el factor de corrección de población finita cuando se toman
las muestras de una población finita sin reemplazo.

1l•!J Estimación de intervalo de confianza


de la media (crx conocida)
En la sección 9.2 observamos que del teorema del límite central, o del
conocimiento de la distribución de la población, podemos determinar el por-
centaje de medias de muestra que caen dentro de ciertas distancias de la media de
población. Por ejemplo, en la sección 9.2.3, en el caso referente al llenado de cajas
de cereal (en el cual µx = 368, crx = 15 y n = 25), observamos que 95% de todas las
medias de muestra caerían entre 362.12 y 373.88 gramos.
El tipo de razonamiento que se usó en este planteamiento (razonamiento deduc-
tivo) es exactamente opuesto al tipo de razonamiento que se necesita ahora (razo-
namiento inductivo). En la inferencia estadística, debemos tomar los resultados de
una sola muestra y llegar a conclusiones acerca de la población, y no al contrario.
En la práctica, la media de población es la cantidad desconocida que se va a deter-
minar. Suponga, por ejemplo, en el proceso de empaque de la caja de cereal, que

344 Capítulo 10 Estimación


no se conoce la media de población verdadera, µx, pero se sabe que la desviación
estándar verdadera de la ,Población, crx, es de 15 gramos. Por consiguiente, en vez
de tomar µx ± (1.96) ( cr x /-¡;,)para encontrar los límites inferior y superior alrede-
dor de µx, como en la sección 9.2.3, determinemos las consecuencias de sustituir la
media de muestra, X, en lugar de la µx desconocida y utilizando X± (1.96) ( cr x / í1i
) como un intervalo dentro del que estimamos la µx desconocida. Aunque en la
práctica se selecciona una sola muestra de tamaño n, y se calcula la media X, nece-
sitamos obtener un conjunto hipotético de todas las muestras posibles, cada una
de tamaño n, con el fin de entender el significado completo de la estimación de
intervalo que obtendremos.
Suponga, por ejemplo, que nuestra muestra de tamaño n = 25 tenía una media
de 362.3 gramos. El intervalo desarrollado para estimar µx sería 362.3 ± (1.96)
(15)/(-J2s)o 362.3 ± 5.88. Esto es, la estimación de µx sería

356.42::::; µX::::; 368.18

Puesto que la media de población, µ, (igual a 368) se incluye dentro del intervalo,
observamos que esta muestra ha conducido a una afirmación correcta con respecto
a µx (véase figura 10.1).
Para continuar con nuestro hipotético ejemplo, suponga que para una mues-
tra diferente den= 25, la media fue de 369.5. El intervalo obtenido a partir de esta
muestra sería 369.5 ± (1.96)(15)/(-J2s) o 369.5 ± 5.88. Esto es, la estimación de µx
sería
363.62::::; µX::::; 375.38

Como la media de población verdadera, µx (igual a 368) también está incluida en este
intervalo, llegamos a la conclusión que esta afirmación respecto a µx es correcta.
Ahora bien, antes de empezar a pensar que siempre obtendremos afirmaciones
correctas acerca de µx a partir de la media de la muestra X, suponga que tomamos
una tercera muestra hipotética de tamaño n = 25, en la cual la media de muestra es
igual a 360 gramos. El intervalo desarrollado aquí sería de 360 ± (l.96)(15)/(-J2s)
o 360 ± 5.88. En este caso, la estimación de µx es ·

354.12::::; µX::::; 365.88

362.12

x 1 =362.3
,356.42· . 362.3 . . 36fl.18
x2 ::369.5 'I ,. ,.
363.62 1 369.5 375.38
i 3 =3&o li-'·-·_,..,.__,...............___--11 1
1
35•q2 360. 365.88 1
1

1 Figura 10.1
362.12. 3?8
.....,.._.,...-__........_____--1 Estimaciones de intervalo de
X5 =373.aa. confianza a partir de cinco mue1tra
368 · 373.as 379.76 =
diferentes de tamaño, n 25,
tomadas de una población en la que
= =
µ, 368 yª· 15.

Estimación de intervalo de confianza de la media (o. coliocldi) · Jtl


1 lh.~1·1·v1• q111• 1•\lit 1•\111111111111111111·s1111a co11dusión correcta, puesto que
la media de
l;i p111llal'i1111 1 p ,, 110 1•s1:i 1nclui<la en el intervalo desarrollado 1 partir
de la mues-
1ra (v(·asl' figura lü. l en la página 345). Por consiguiente, nos e,-:.frentamos a un
dilema. Para algunas muestras la estimación de intervalo deµ, será n,rrecta y para
otras no. Además, debemos damos cuenta de que en la práctica seleccionamos
solamente una muestra y, como no conocemos la verdadera media de la población,
no podemos determinar si nuestra conclusión particular es correcta.
Lo que podemos hacer para resolver este dilema es determinar la porción de
muestras que producen intervalos que tengan como resultado conclusiones co-
rrectas respecto a la media de población, µ,. Con el fin de hacerlo, necesitamos
examinar otras dos muestras hipotéticas: el caso en que X = 362.12 gramos y el
caso en que X = 373.88 gramos. Si X = 362.12, el intervalo será 362.12 ±
(l.96)(15)/( f2s) o 362.12 ± 5.88. Esto es,

356.24 $ µX $ 368.00

Como la media de población de 368 está en el límite superior del intervalo, la con-
clusión es correcta (véase figura 10.1).
Finalmente, si X= 373.88, el intervalo será 373.88 ± (1.96)(15)/( f2s) o 373.88
± 5.88. Es decir,

368.00 $µX$ 379.76

En este caso, puesto que la media de población de 368 está incluida en el límite
inferior del intervalo, la conclusión es correcta.
Por consiguiente, de estos ejemplos (véase figura 10.1) podemos determinar
que si la media de la muestra basada en una media de n = 25 cae entre 362.12 y
373.88 gramos, la media de la población estará incluida en alguna parte dentro del
intervalo. Sin embargo, del análisis que hicimos referente a la distribución de
muestreo en la sección 9.2.3, sabemos que 95% de las medias de muestra caen
entre 362.12 y 373.88 gramos. En consecuencia, 95% de todas las medias de mues-
tra incluirán a la media de población en el intervalo desarrollado. El intervalo com-
prendido entre 362.12 y 373.88 se conoce como un intervalo de confianza de 95
por ciento.

En general, una estimación de intervalo de confianza de 95%


puede interpretarse como si se tomaran todas las muestras posibles
del mismo tamaño, n, 95% de ellas incluirían la media de población
verdadera en alguna parte del intervalo alrededor de sus medias de
muestra, y solamente 5% de ellas no estarían incluidas.

Puesto que únicamente se selecciona una muestra en la práctica y que µ, no se


conoce, nunca estaremos seguros que el intervalo específico obtenido incluye a la
media de población. Sin embargo, podemos afirmar que tenemos 95% de con-
fianza de que hemos seleccionado una muestra cuyo intervalo incluye a la media
de población.
En nuestros ejemplos tenemos un 95% de confianza de haber incluido la
media de población en el intervalo. En algunas situaciones podemos desear tener
un grado mayor de certeza (como 99%) de haber incluido a la media de población
en el intervalo. En otros casos, podríamos estar dispuestos a aceptar una certeza
menor (como 90%) de haber estimado correctamente la media de población.
En general, el nivel de confianza se simboliza como (1 - a) x 100%, en donde a
es la porción que se encuentra en los extremos de la distribución que está fuera del

346 Capítulo 10 Estimación


intervalo de confianza. Por consiguiente, para obtener la estimación de intervalo de
confianza de (1 - a) x 100% de la media, con crx conocida, tenemos

- cr
X +z-x
- Fn
o (10.1)

en la que Z es el valor correspondiente a un área de (1 - a)/2 desde el centro de una


distribución normal estandarizada.
Para construir una estimación de intervalo de confianza de 95%, el valor Z,
correspondiente a un área de 0.95/2 = 0.4750 desde el centro de la distribución
normal estándar, es 1.96. El valor de Z elegido para construir tal intervalo de con-
fianza se conoce como el valor crítico de la distribución.
Existe un valor crítico diferente para cada nivel de confianza, 1 - a. Un ni-
vel de confianza de 95% conduce a un valor Z de± 1.96 (véase figura 10.2).
Si se deseara un nivel de confianza de 99%, el área de 0.99 se dividiría entre dos,
obteniendo 0.495 entre cada límite y µx (véase figura 10.3). El valor Z correspon-
diente a un área de 0.495 desde el centro de la curva normal es, aproximada-
mente, 2.58.

Figura 10.2
Curva normal para determinar el valor
de Z necesario para un nivel de
confianza de 95 por ciento.

X
Figura 10.3
Curva normal para determinar el valor
-2.58 2.58 z de Z necesario para un nivel de
confianza de 99 por ciento.

Estimación de intervalo de confianza de la media (cr, conocida) 147


.\11111.1 q1w 111·111"" lo111.1do 1·11 l'lll'llla diferentes niveles de confianza, uno po-
ol11.i 1•1•·1•.11111.11'.•' I'"' q1w 110 qunemos hacer el nivel de confianza lo más cercano
, ... ·.ll •lt- .il 100° ... H1·\ttlL1 que cualquier aumento en el nivel de confianza se logra
.111i¡>11.1111lo \i1nult<ÚH.'amente el intervalo de confianza obtenido (haciéndolo
1111·1111\ prl'l'iso y menos útil). Así pues, tendríamos más confianza en que la media
d1· población está dentro de un intervalo más amplio de valores. Este intercambio
l'll tre el ancho del intervalo de confianza y el nivel de confianza se analizará con
mayor profundidad cuando investiguemos cómo se determina el tamaño de la
muestra /1 (véase la sección 10. 7).

e Aplicación Podemos ilustrar la aplicación de la estimación del intervalo de


confianza con un ejemplo. Un fabricante de papel para computadora tiene un proceso
de producción que opera de manera continua a través de un turno de producción
completo. Se espera que el papel tenga una longitud promedio de 11 pulgadas y que
la desviación estándar tenga un valor conocido de 0.02 pulgadas. A intervalos perió-
dicos se seleccionan muestras para determinar si la longitud de papel promedio sigue
siendo de 11 pulgadas o si algo ha salido mal en el proceso de producción de modo
que haya cambiado la longitud del papel obtenido. Si, efectivamente, tal situación se
ha presentado, debe contemplarse la posibilidad de llevar a cabo acciones correctivas.
Se ha seleccionado una muestra aleatoria de 100 hojas y se tiene que la longitud
promedio de éstas es de 10.998 pulgadas. Si se deseara una estimación de intervalo de
confianza de 95%1 en cuanto a la longitud promedio del papel de la población, uti-
lizando la ecuación (10.1), con Z = 1.96 para una confianza de 95 1X1, tendríamos

x ± z f;
1
= 10.998 ± (1.96) j~¿Ó
= 10.998 ± .00392
10.99408 ~ µy ~ 11.00192

En consecuencia estimaríamos, con 95% de confianza, que la media de la


población se encuentra entre 10.99408 y 11.00192 pulgadas. Como el número 11,
valor que indica que el proceso de producción está funcionando correctamente,
está incluido en el intervalo, no existe razón alguna para creer que hay algo mal en
el proceso de producción. Existe una confianza de 95<¡;(¡ de que la muestra selec-
cionada sea una en la que la media de población verdadera esté incluida en alguna
parte del intervalo obtenido.
Si se deseara un intervalo de confianza de 99%, entonces, utilizando la ecua-
ción ( 10.1), con Z = 2.58, tendríamos

x ± z Fn = 10.998 ± (2.58) j~to


10.998 ± .00516
10.99284 ~ µX~ 11.00316

De nueva cuenta, como 11 está incluido en este intervalo más amplio, no hay
razón para creer que haya algo mal en el proceso de producción.

Problemas de la sección I 0.2


10.1 Un investigador de mercado afirma que tiene 95% de confianza en que las
ventas mensuales promedio verdaderas de un producto están entre $170,000 y
$200,000. Explique el significado de tal afirmación.

348 Capítulo 10 Estimación


10.2 ¿Por qué no puede el gerente de producción del ejemplo anterior de la página
348 tener una confianza de 100%? Explique su respuesta.
v 10.3 ¿Es verdad, en el ejemplo de la página 348 correspondiente a la producción de
papel de computadora, que 95% de las medias de muestra se encuentran entre
10.99408 y 11.00192 pulgadas? Explique su respuesta.
Q 10.4 ¿Es verdad, en el ejemplo de la página 348 correspondiente a la producción de
• papel de computadora, que no conocemos con certeza si la media de población
verdadera está entre 10.99408 y 11.00192 pulgadas? Explique su respuesta .
• 10.5 Suponga que el administrador de un almacén de suministro de pinturas desea
estimar la cantidad correcta de pintura contenida en los botes de un galón
adquiridos a un productor conocido a nivel nacional. Se sabe de las
especificaciones del fabricante que la desviación estándar de la cantidad de
pintura es igual a 0.02 galones. Se selecciona una muestra aleatoria de 50 botes
y se obtiene que la cantidad promedio de pintura por bote de un galón es de
0.995 galones.
(a) Establezca una estimación de intervalo de confianza de 99'*' de la canti-
dad promedio verdadera de la población de pintura incluida en un bote
de un galón.
(b) Basándose en sus resultados, ¿cree usted que el dueño del almacén tiene
derecho a quejarse con el fabricante? ¿Por qué?
(c) ¿La cantidad de pintura de la población por bote puede estar normal-
mente distribuida en este caso? Explique su respuesta.
(d) Explique por qué un valor observado de 0.98 galones para una lata en
particular no estaría fuera de lo normal, incluso si está fuera del intervalo
de confianza que calculó.
10.6 El gerente de control de calidad de una fábrica de bombillas de luz necesita
estimar la vida promedio de un gran cargamento de bombillas. Se sabe que la
desviación estándar del proceso es de 100 horas. En una muestra de 50 bombil-
las se encontró una vida promedio de muestra de 350 horas.
(a) Establezca una estimación de intervalo de confianza de 95% de la vida
promedio verdadera de las bombillas de luz del cargamento.
(b) La población de bombillas de luz, en este caso, ¿debe estar distribuida nor-
malmente? Explique su respuesta.
(c) Explique por qué un valor observado de 320 horas no estaría fuera de lo
normal, incluso si se encuentra fuera del intervalo de confianza que calculó.
10.7 El encargado de la división de inspección del Departamento de Pesas y
Medidas del Condado de Lee está interesado en estimar la cantidad real de
bebidas no alcohólicas que se embotella en envases de dos litros obtenidos en
la planta embotelladora local de una compañía refresquera conocida a nivel
nacional. La planta embotelladora ha informado a la división de inspección
que la desviación estándar de las botellas de dos litros es de O.OS litros. Una
muestra de 100 botellas de dos litros obtenida de la embotelladora tiene un
promedio de muestra de 1.99 litros.
(a) Establezca una estimación de intervalo de confianza de 95% de la cantidad
promedio verdadera de refresco en cada botella.
(b) La población de refresco embotellado, en este caso, ¿debe estar normal-
mente distribuida? Explique su respuesta.
Q (e) Explique por qué un valor observado de 2.02 litros no estaría fuera de lo
normal, incluso si se encuentra fuera del intervalo de confianza que calculó.

11.91 Estimacion de intervalo de confianza de


la media (ax desconocida)
Del mismo modo en que la media de la población µ,, por lo general, se desconoce,
es probable que la desviación estándar real de la población, a,, tampoco sea cono-
cida. Por tanto, necesitamos obtener una estimación de intervalo de confianza de

Estimación de intervalo de confianza de la media (cr, desconocida) 349


p, 1111111.ando solamente las estadísticas de muestra X y S. Para lograrlo estudiemos
l'I trabajo de Williarn S. Gosset.

1 O. 3. 1 Distribución t de Student
Al inicio del presente siglo, un estadístico llamado William S. Gosset, empleado
de la Guinness Breweries, de Irlanda (véase referencia 7), se interesó en hacer
inferencias acerca de la media cuando se desconocía a,. Como los empleados de
la Guinness no tenían permitido publicar trabajos de investigación utilizando
su verdadero nombre, Gosset adoptó el seudónimo de "Student". La distribu-
ción que desarrolló se conoce en la actualidad como distribución t de
Student. Si la variable aleatoria X está distribuida normalmente, entonces la
estadística

tiene una distribución t con n -l grados de libertad. Observe que esta expresión
tiene la misma forma que la ecuación (9.5) de la página 326, excepto que S se uti-
liza para estimar a,, que en este caso se supone desconocida.

10.3.2 Propiedades de la distribución t


En apariencia, la distribución t es muy parecida a la distribución normal. Ambas
distribuciones son simétricas y tienen forma de campana. Sin embargo, la distri-
bución t tiene más área en los extremos y menos en la parte central que en el caso
de la distribución normal (véase figura 10.4). Esto es así porque no se conoce a, y
estamos utilizando S para estimarla. Puesto que no tenemos certeza del valor de a,,
los valores de t que observamos serán más variables que para Z.
Sin embargo, a medida que aumentan los grados de libertad, la distribución t
gradualmente se aproxima a la distribución normal, hasta que ambas son virtual-
mente idénticas. Lo anterior sucede porque conforme se hace mayor el tamaño de
la muestra, S se va convirtiendo en una mejor estimación de a,. Con un tamaño
de muestra de aproximadamente 120 o mayor, S estima a ax con suficiente pre-
cisión, de modo que existe poca diferencia entre las distribuciones t y Z. Por esta
razón, la mayoría de los estadísticos utilizan la distribución Zen lugar de t, cuando
el tamaño de la muestra es mayor a 120.

- Normal estándar
- Distribución t para 5
grados de libertad

Figura 10.4
Distribución normal estándar y
distribución t para cinco grados
de libertad.

:uo Capítulo 10 Estimación


En la práctica, siempre y cuando el tamaño de la muestra no sea demasiado pe-
queño y la población no esté muy sesgada, la distribución t puede utilizarse en la
estimación de la media de población cuando no se conoce el valor de cr,. Los valo-
res críticos de t para los grados de libertad adecuados pueden obtenerse de la tabla
de la distribución t (véase tabla E.3). La parte superior de cada columna de la tabla t
indica el área que se encuentra en el extremo derecho de la distribución t (como se
dan entradas positivas de t, los valores corresponden al extremo superior); cada
renglón o hilera representa el valor particular de t para cada grado de libertad
específico. Por ejemplo, con 34 grados de libertad, si se deseara una confianza de
95%, el valor apropiado de tse encontraría de la manera siguiente (como se mues-
tra en la tabla 10.1). El nivel de confianza de 95% indica que habría un área de
0.025 en cada extremo de la distribución. Buscando en la columna un área de ex-
tremo superior de .025 y en la hilera correspondiente a 34 grados de libertad, se
tiene como resultado un valor de t de 2.0332. Puesto que t es una distribución
simétrica, con una media de O, si el valor del extremo superior es de +2.0332, el
valor del área del extremo inferior (inferior 0.025) sería de -2.0332. Un valor de t
de 2.0332 significa que la probabilidad de que t exceda +2.0332 es de 0.025 o 2.5%
(véase figura 10.5).

Tabla 10.1 Det:erminación del valor crítico a partir de la tabla t para un área de 0.025 en
cada extremo con 34 grados de libertad.

Areas de extremo superior


Grados de
libertad 0.25 0.10 o.os 0.025 0.01 0.005
1 1.0000 3.0777 6.3138 12.7062 31.8207 63.6574
2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041
5 0.7267 1.4759 2.0150 2 ..$706 3.3649 4.0322

31 0.6825 1.3095 1.6955 2.0395 2.4528 2.7440


32 0.6822 1.3086 1.6939 2.0369 2.4487 2.7385
33 0.6820 1.3077 1.6924 2.0345 2.4448 2.7333
34 0.6818 .. - -1.3070- ·- --l-;69()!}----> 2.0322 2.4411 ') ..,':84
35 0.6816 1.3062 1.6896 2.0301 2.4377 / 2.7Ú8

Fuente: Tomado de la tabla E.3.

Figura 10.s
Distribución t para 34 grados de libertad.

Estimación de intervalo de confianza de la media (crx desconocida) JS 1


1 O. 3. 3 El concepto de grados de libertad
Del capítulo 3 podemos recordar que para obtener la varianza de la muestra, 52, se
requiere el cálculo de

i
j =1
(X; - X )z

Por tanto, con el fin de calcular S2 , necesitamos conocer primero X. En conse-


cuencia, podemos decir que solamente n - 1 de los valores de la muestra son libres
de variar. Esto es, existen n - 1 grados de libertad.
Podemos ilustrar el concepto de la manera siguiente: suponga que tenemos
una muestra de cinco valores con una media de 20. ¿Cuántos valores distintos se
necesitarían conocer antes de que podamos obtener los restantes? El hecho de que
n 11

n = 5 y que X= 20, nos indica también que LX; = = 100, ya que LX;
j = 1 =
/n = X
i 1

= X. En consecuencia, una vez que se conocen cuatro de los valores, el quinto no


estaría en libertad de variar, puesto que la suma debe se igual a 100. Por ejemplo, si
cuatro de los valores son 18, 24, 19 y 16, el quinto solamente puede ser 23, de
modo que la suma es igual a 100.

1O. J .4 El establecimiento del intevalo de confianza


La estimación del intervalo de confianza del (1 - a) X 100% para la media, con crx
desconocida, se expresa de la manera siguiente:

o (10.2)

en la que t,,_1 es el valor crítico de la distribución t con n - 1 grados de libertad para


un área de a/2 en el extremo superior.
Para poder ver cómo los intervalos de confianza de una media pueden cons-
truirse cuando se desconoce la desviación estándar de la población, tomemos en
consideración la siguiente aplicación.

• Aplicación Suponga que el gerente de mercadotecnia de una compañía


que suministra petróleo para calefacción de uso doméstico desea estimar el con-
sumo promedio anual (en galones) en casas de una sola familia en un área geográ-
fica particular. Se selecciona una muestra aleatoria de 35 casas en las que vive una
sola familia y el consumo anual de éstas se resume en la tabla 10.2.

152 Capítulo 10 Estimación


Tabla 10.2 Cantidad anual de petróleo para calefacción consumida (en galones)
de una muestra de JS casas de una sola familia.

1150.25 1352.67 983.45 1365.11 942.71 1577.77 330.00


872.37 1126.57 1184.17 1046.35 1110.50 1050.86 851.60
1459.56 1252.01 373.91 1047.40 1064.46 1018.23 996.92
941.96 767.37 1598.57 1598.66 1343.29 1617.73 1300.76
1013.27 1402.59 1069.32 1108.94 1326.19 1074.86 975.86

Para estos datos podemos utilizar un paquete de software de estadística para


obtener el promedio de la muestra, X= 1, 122. 7 galones y la desviación estándar de
la muestra, S = 295.72 galones.
Si el gerente de mercadotecnia deseara tener 95% de confianza de que el in-
tervalo obtenido incluye la cantidad promedio de la población de petróleo para
calefacción consumido por año, utilizando X= 1, 122.7, S = 295.72, n = 35 y
t 34 = 2.0322, tenemos

X ± t,,_I Jn = 1,122.7 ± (2.0322) 2 ~ 2

1,122.7 ± 101.58
1,021.12 ~ µ, ~ 1,224.28

Concluimos con 95% de confianza que la cantidad promedio de petróleo con-


sumido al año está entre 1,021.12 y 1,224.28 galones. El intervalo de confianza de
95<11> establece que existe una seguridad de 95% de que la muestra que hemos selec-
cionado es una en la cual la media de población, µ,, está localizada dentro del
intervalo. Esta confianza de 95% realmente indica que si se seleccionaran todas las
muestras posibles de tamaño 35 (algo que nunca se hará en la práctica), 95% de los
intervalos desarrollados incluirían a la media de población verdadera en alguna
parte dentro del intervalo.

Problemas de la sección I 0.3


10.8 Determine el valor crítico de ten cada una de las siguientes circunstancias:
(a) 1 - a= .95, n = 10.
(b) 1 - a= .99, n = 10.
(c) 1 - a= .95, n = 32.
(d) 1 - a= .95, n = 65.
(e) 1 - a= .90, n = 16.
e 10.9 Se probó en el mercado un nuevo cereal para desayuno durante un mes en las
tiendas de una gran cadena de supermercados. Los resultados de una muestra
de 16 tiendas indicaron ventas promedio de $1,200, con una desviación
estándar de muestra de $180. Establezca una estimación de intervalo de
confianza de 99% de las ventas promedio verdaderas de este nuevo cereal para
desayuno.
10.10 El administrador de una sucursal de un banco de ahorro local desea estimar la
cantidad promedio que se tiene en las cuentas de ahorro de los clientes del
banco. Se seleccionó una muestra aleatoria de 30 depositantes y los resultados
indicaron un promedio de muestra de $4,750 y una desviación estándar de
$1,200.

Estimación de intervalo de confianza de la media (crx desconocida) 353


t: " ;(1) Establezca una estimación de intervalo de confianza de la cantidad
promedio que se tiene en todas las cuentas de ahorro.
SI un cliente tiene $4,000 en una cuenta de ahorro, ¿podría considerársele
(b) fuera de lo normal? Explique su respuesta.
;_, ,;·
"'''
(!k 10.11 [l,n una papelería les gustaría estimar el valor promedio de venta a menudeo de
,' las tarjetas de felicitación que tienen en inventario. Se tomó una muestra
aleatoria de 20 tarjetas y se obtuvo un valor promedio de $1.67 y una
desviación estándar de $0.32. Establezca una estimación de intervalo de
confianza de 95% del valor promedio de todas las tarjetas de felicitación que
se tienen en inventario.
10.12 En el departamento de personal de una compañía grande se quieren estimar
los gastos familiares en odontología de sus empleados para determinar la
factibilidad de proporcionarles un plan de seguro dental. Una muestra
aleatoria de 10 empleados reveló los siguientes gastos durante el año anterior:

$110,362,246,85,510,208, 173,425,316, 179

(a) Establezca una estimación de intervalo de confianza de 90% de los gastos


promedio familiares en odontología para todos los empleados de la
compañía.
(b) ¿Qué suposiciones acerca de la distribución de la población deben hacerse
en el inciso (a)?
(c) Dé un ejemplo de un gasto familiar en odontología que esté fuera del
intervalo de confianza, pero que no esté fuera de lo normal para una
familia individual y explique por qué esto no es una contradicción.
(d) t.1;¡¡1¡¡,z.f,p ¿Qué deberá decir el encargado del departamento de
personal al presidente de la compañía respecto a los gastos odontológicos
familiares? Redacte un memorándum.
e 10.13 Al gerente del departamento de servicios al cliente de una compañía gasera
local le gustaría estimar el tiempo promedio que transcurre entre la solicitud
de servicio y su conexión. Se seleccionó una muestra aleatoria de 15 casas de
los registros disponibles del año anterior. Los resultados obtenidos
en número de días se presentan de la manera siguiente:

114 78 96 137 78 103 117


126 86 99 114 72 104 73 86

(a) Establezca una estimación de intervalo de confianza de 95% del tiempo


de espera promedio de población durante el año anterior.
(b) ¿Qué suposiciones respecto a la distribución de población deben hacerse
en el inciso (a)?
(c) f·f4d'Ji.t.i•P Utilice los resultados obtenidos en el inciso (a) para proporcionar
información a su vecino, que está pensando en adquirir los servicios de la
compañía gasera. Escriba una carta.
10.14 El director del departamento de control de calidad de una organización de
salubridad desea evaluar el tiempo de espera de los pacientes en una clínica
local. Se selecciona una muestra aleatoria de 25 pacientes de un libro de citas.
El tiempo de espera se definió como el tiempo transcurrido desde que el
paciente se reporta con la enfermera hasta que es atendido por el médico. Los
datos siguientes representan el tiempo de espera (en minutos):

19.5 30.5 45.6 39.8 29.6


25.4 21.8 28.6 52.0 25.4
26.1 31.1 43.1 4.9 12.7
10.7 12.1 1.9 45.9 42.5
41.3 13.8 17.4 39.0 36.6

(a) Establezca una estimación del intervalo de confianza de 95% del tiempo
promedio de espera de la población.
(b) ¿Qué suposiciones respecto a la distribución de población deben hacerse
en el inciso (a)?

354 Capitulo ·1O Estimación


' 10.15 Establezca una estimación del intervalo de confianza de 95% para cada uno de
los siguientes conjuntos de datos:

Conjunto 1: 1, 1, 1, 1,8,8,8,8
Conjunto 2: 1, 2, 3, 4, 5, 6, 7, 8

Explique por qué poseen diferentes intervalos de confianza incluso si tienen el


mismo alcance y la misma media.
10.16 Obtenga un intervalo de confianza de 95% para los números 1, 2, 3, 4, 5, 6,
20. Cambie el número 20 por el 7, y vuelva a calcular el intervalo de confian-
za. Utilice estos resultados para describir el efecto de un externo (o valor
extremo) del intervalo de confianza.

Problemas intercapítulo de la sección I0.3


10.17 Refiérase a los datos del problema 3.3 de la página 58
(a) Obtenga la estimación del intervalo de confianza de 95% de la rapidez de
flujo promedio de todas las regaderas fijas.
(b) ¿Qué suposiciones respecto a la distribución de la población deben
hacerse en el inciso (a)?
(c) Utilice los resultados obtenidos en el inciso (a) para proporcionar
información a su vecino, quien está pensando adquirir una regadera
fija.
10.18 Refiérase a los datos del problema 3.12 de la página 66
(a) Obtenga la estimación del intervalo de confianza de 90% de los gastos
promedio de gas y de electricidad de la población para departamentos de
tres recámaras én Manhattan.
(b) ¿Qué suposiciones respecto a la distribución de la población deben
hacerse en el inciso (a)?
10.19 Refiérase a los datos del problema 4.5 de la página 115
(a) Obtenga la estimación del intervalo de confianza de 95% del promedio de
vida de baterías para las linternas.
(b) ¿Qué suposiciones respecto a la distribución de población deben hacerse
en el inciso (a)?·
(c) Dé un ejemplo de una batería cuya vida esté fuera del intervalo de
confianza y que no caiga fuera de lo normal para una batería individual,
y explique por qué lo anterior no es una contradicción.
(d) f.fOJd!li•n•> Escriba un borrador de un memorándum que una agencia de
publicidad pueda utilizar para vender las baterías.
10.20 Refiérase a los datos del problema 4.7 de la página 115
(a) Establezca una estimación del intervalo de confianza del precio promedio
de las cortadoras de pasto.
(b) ¿Qué suposiciones respecto a la distribución de la población deben
hacerse en el inciso (a)?
(c) t·fOld!li•i·f•> Utilice los resultados obtenidos en el inciso (a) para proporcionar
información a un vecino que está pensando adquirir una cortadora con
bolsa lateral. Escriba una carta.
10.21 Refiérase a los datos del problema 4.76 de la página 162
(a) Establezca una estimación de intervalo de confianza de 90% del precio a
menudeo promedio de todos los teléfonos alámbricos.
(b) ¿Qué suposiciones deben hacerse en el inciso (a) respecto a la distribución
de la población?

Estimación de intervalo de confianza de la media (cr, desconocida) l SS


Estimación mediante el mínimo esfuerzo

A pesar que las estimaciones de intervalos de confianza se han aplicado amplia·


mente para hacer inferencias respecto a los parámetros de la población, el procedi·
miento de estimación utilizado está basado en premisas que no siempre sor
verdaderas. Por ejemplo, la estimación de intervalo de confianza de µx anafüadé
en la sección 10.3, supone que la población subyacente está normalmente dis·
tribuida. Aunque el procedimiento para encontrar el intervalo de confianza es bas·
tante insensible a desviaciones ligeras de tal suposición, existe una irregularidac
bastante grande en la distribución de población, en particular si se utiliza una
muestra pequeña de tamaño n, la estimación de intervalo de confianza para lil
media puede no ser precisa. En la presente sección, consideraremos un plantea·
miento de estimación alternativo que se conoce como mínimo esfuerzo.
Los procedimientos de estimación de mínimo esfuerzo implican la sdec-
ción de una muestra inicial y un posterior muestreo de la muestra inicial. Estos
procedimientos, desarrollados por Efron (véanse referencias 2, 3 y 5), requieren el
uso intensivo de la computadora. Lo que hace que la estimación del mín;mo
esfuerzo sea de utilidad es que los procedimientos están basados en la muestra ini-
cial y no se hacen suposiciones respecto a la forma de la distribución de la pobla-
ción subyacente. Además, los procedimientos no requieren el conocimiento de
cualesquiera de los parámetros de la población.
Los pasos a seguir en la estimación de mínimo esfuerzo de la media se pre5en-
tan a continuación:
l. Seleccione una muestra aleatoria de tamaño n sin reemplazo de un
marco de población de tamaño N.
2. Tome un ejemplo de la muestra inicial, seleccionando iz observaciones
con reemplazo de las n observaciones de la muestra inicial.
3. De esta segunda muestra, calcule X, la estadística de interés.
4. Repita los pasos 2 y 3 m veces diferentes (m se elige normalmente entre
100 y 1,000, dependiendo de la velocidad de la computadora utilizada).
5. Forme la distribución de muestreo repetido de la estadística de
interés (es decir, la distribución de la media de muestra obtenida a
partir de las m muestras), utilizando un diagrama de tallo y hojas o
una presentación ordenada.
6. Para formar un intervalo de confianza de mínimo esfuerzo de (1 - a)
X 100% de la media de la población µx use el diagrama de tallo y hojas
o la presentación ordenada de la distribución de muestreo repetido y
encuentre el valor que interseca al menor a/2 x 100% y el valor que
intersecta al mayor a/2 x 100% de la estadística. Estos valores
constituyen los límites inferior y superior de la estimación de intervalo
de confianza de mínimo esfuerzo del parámetro desconocido.

Para mostrar el procedimiento de estimación de intervalo de confianza de mí-


nimo esfuerzo, regresemos al ejemplo que trata sobre el consumo de petróleo para
calefacción analizado en la página 352. Recordemos que el gerente de mercado-
tecnia desea estimar el consumo promedio anual de petróleo para calefacción por
parte de los clientes que viven en casas de una sola familia. Se seleccionó una
muestra aleatoria de 35 clientes sin reemplazo, y se utilizó la distribución t para ob-
tener una estimación de intervalo de confianza de 95% de µx. La estimación
obtenida se basó en la suposición de que la población subyacente de consumo de
petróleo estaba aproximadamente distribuida de manera normal, una suposición
que no es necesario hacer en el procedimiento de mínimo esfuerzo.
Siguiendo los seis pasos que acabamos de describir, los datos de muestra que se
presentan en la tabla 10.2 (página 353) fueron introducidos en un archivo de compu-

UG Capítulo 10 Estimación
tación y se seleccionaron muestras repetidas de 35 observaciones con reemplazo,
utilizando el paquete MlNITAB. La primera muestra se presenta en la tabla 10.3. La
media de ésta es 1,003.26 galones.

Tabla 10.3 Primera muestra repetida de tamaño J s, de la muestra de JS casas


de una sola familia (cantidad anual de petróleo para calefacción
consumida).

1326.19 1150.25 1184.17 1013.27 330.00 1126.57 1343.29


330.00 1013.27 996.92 1047.40 1018.23 1064.46 1598.66
941.96 767.37 1050.86 1459.56 975.86 373.91 1018.23
373.91 1050.86 1074.86 1326.19 1110.50 1402.59 1343.29
1110.50 373.91 1069.32 330.00 1365.11 1110.50 941.96

Observe que en esta primera muestra se repiten algunos valores de la muestra


original, como el 330.00, y otros, como el 1,352.67, no aparecen. Si este proceso
de muestras repetidas se efectúa m = 200 veces, se puede desarrollar la distribución de
muestreo repetido que contenga 200 medias de muestra repetida. Para obtener una
estimación de intervalo de confianza de mínimo esfuerzo de 95% de µx, es necesa-
rio identificar el menor 2.5% y el mayor 2.5% de las medias de las muestras (paso 6).

Tabla 10.4 Claslflcaclón ordenada de 100 medias de muestras repetidas obtenidas con el
paquete MINITAB, utilizado para formar una estimación de Intervalo de
confianza de mínimo esfuerzo de 9S% de µ,...

988.50 994.49 1003.26 1004.25 1006.53 1014.38 1018.62


1030.21 1030.73 1032.04 1032.77 1034.17 1035.21 1041.45
1042.23 1046.16 1050.01 1050.97 1052.73 1053.00 1054.58
1055.08 1055.39 1055.76 1059.57 1059.88 1060.51 1061.70
1061.79 1062.46 1062.86 1063.31 1066.91 1068.84 1070.53
1071.00 1071.38 1074.99 1077.18 1077.63 1078.62 1079.41
1079.46 1081.45 1083.40 1084.25 1085.21 1085.98 1086.22
1086.83 1089.45 1089.95 1092.37 1092.53 1094.48 1095.25
1095.35 1095.40 1095.88 1096.26 1097.59 1100.06 1100.19
1100.20 1101.59 1103.41 1104.07 1104.92 1105.19 1106.67
1106.84 1111.14 1112.46 1112.47 1112.53 1113.58 1115.09
1115.71 1116.46 1116.51 1117.94 1118.67 1119.17 1119.71
1119.98 1120.31 1121.01 1121.46 1121.68 1121.92 1122.40
1123.34 1123.73 1124.38 1124.98 1125.63 1126.01 1127.00
1127.15 1127.30 1127.55 1127.86 1128.06 1129.03 1129.66
1129.84 1132.30 1132.78 1133.39 1134.03 1134.43 1135.07
1136.67 1136.90 1138.24 1138.52 1139.53 1139.81 1140.60
1142.72 1142.73 1143.03 1143.32 1143.35 1143.70 1144.47
1145.72 1146.21 1149.77 1150.87 1152.88 1153.13 1153.25
1153.35 1156.35 1156.43 1158.49 1158.62 1159.14 1159.45
1159.55 1161.01 1161.16 1161.50 1162.12 1163.15 1163.24
1164.06 1164.39 1165.45 1167.87 1168.50 1170.06 1171.11
1171.21 1172.03 1172.19 1172.90 1173.00 1173.37 1174.25
1176.32 1176.73 1178.39 1178.63 1182.16 1182.37 1183.12
1183.99 1184.27 1184.68 1185.80 1185.97 1186.86 1187.01
1187.27 1188.03 1188.25 1188.53 1189.39 1190.20 1191.10
1191.28 1191.86 1192.90 1193.21 1196.66 1199.30 1206.23
1206.28 1209.61 1216.85 1225.20 1226.46 1226.67 1227.02
1230.11 1233.43 1233.97 1251.88

Cuando se obtienen 200 medias de muestras repetidas, el quinto valor más


pequeño (es decir, 200 x 0.025) intersecará al 2.5% menor, mientras que el quinto
valor más grande intersecará al mayor 2.5%. De la tabla 10.4, obtenemos los valo-
res de 1,006.53 galones, para el quinto más pequeño, y 1,227.02 galones, para el
quinto mayor. Por consiguiente, el intervalo de confianza de mínimo esfuerzo de
95% para la cantidad promedio de la población de petróleo para calefacción con-

Estimación mediante el mínimo esfuezo 3 57


1umldo es de 1,006.53 a 1,227.02 galones. Esta estimación está bastante cercana a la
eatlmaclón de intervalo de confianza tradicional de 1,021.12 a 1,224.28 galones
obtenida en la sección 10.3. Sin embargo, la estimación de mínimo esfuerzo requiere
menos suposiciones limitantes que la estimación de intervalo de confianza tradicional.

Problemas de la sección I0.4


10.22 Refiérase al problema 10.13 de la página 354
(a) Utilizando un paquete de software estadístico, genere 200 muestras
repetidas, cada una de 15 observaciones, y establezca una estimación de
intervalo de confianza de mínimo esfuerzo de 95% del tiempo de espera
promedio para la conexión del servicio de gas.
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 10.13(a).
10.23 Refiérase al problema 10.14 de la página 354
(a) Utilizando un paquete de software estadístico, genere 200 muestras
repetidas, cada una de 25 observaciones, y establezca una estimación de
intervalo de confianza de mínimo esfuerzo de 95% del tiempo de espera
promedio de los pacientes de la clínica local.
(b) Compare los resultados obtenidos en el inciso (a) con los del problema 10.14(a).

Problemas intercapítulo de la sección I 0.4


10.24 Refiérase al problema 3.3 de la página 58
(a) Utilizando un paquete de software de estadística, genere 200 muestras
repetidas de 34 observaciones cada una y establezca una estimación de
intervalo de confianza de mínimo esfuerzo de 95% del flujo promedio de
las regaderas fijas.
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
10.17(a) de la página 355.
10.25 Refiérase al problema 3.12 de la página 66
(a) Utilizando un paquete de software estadístico, genere 200 muestras
repetidas de SO observaciones cada una y establezca una estimación de
intervalo de confianza de mínimo esfuerzo de 90% de los gastos promedio
de electricidad y de gas para departamentos de tres recámaras en
Manhattan.
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
10.18(a) de la página 355.
10.26 Refiérase al problema 4.5 de la página 115
(a) Utilizando un paquete de software estadístico, genere 200 muestras
repetidas de 13 observaciones cada una y establezca una estimación de
intervalo de confianza de mínimo esfuerzo de 95% de la vida promedio
de las baterías de linterna.
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
10.19(a) de la página 355.
10.27 Refiérase al problema 4.7 de la página 115
(a) Utilizando un paquete de software de estadística, genere 200 muestras
repetidas de 15 observaciones cada una y establezca una estimación de
intervalo de confianza de mínimo esfuerzo del precio promedio de las
cortadoras de pasto.
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 10.20(a) de la página 355.
10.28 Refiérase al problema 4.76 de la página 162
(a) Utilice un paquete de software estadístico para generar 200 muestras
repetidas de 32 observaciones cada una y establezca un intervalo de
confianza de mínimo esfuerzo de 90% del precio a menudeo de población
de los teléfonos alámbricos.
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
10.21(a) de la página 355.

:ua Capítulo 10 Estimación


1(,!j Intervalo de predicción para
un valor individual futuro

Además de la necesidad de obtener una estimación de intervalo de confianza para


la media de población, es importante ser capaz de predecir el resultado de un valor
individual futuro (referencias 6 y 9). A pesar que la forma del intervalo de predic-
ción se parece a la estimación del intervalo de confianza de la ecuación (10.2), debe-
mos tener cuidado en observar que el intervalo de predicción es la estimación de un
valor individual futuro, Xfl y no la de un parámetro desconocido µx. Por consiguiente,
el intervalo de predicción de un valor individual futuro, x,, está dado poi' la
ecuación (10.3).

Si regresamos al ejemplo del consumo de petróleo para calefacción en casas


de una sola familia, suponga que deseamos obtener una estimación de intervalo de
predicción de 95% de la cantidad futura de petróleo para calefacción que una
casa individual de una sola familia utilizará al año. Mediante la ecuación (10.3),
se tendría:

X ± tn_ 1 S~l + ~ = 1,122.7 ± (2.0322)(29.5.72)~1 + 1


35
= 1,122.7 ± 609.45
513.25 ~ x, ~ 1,732.15
Observamos que este resultado difiere del obtenido cuando estimamos el intervalo
de confianza para la media de población. Observamos de nuevo, que estamos esti-
mando un valor individual futuro, x,, y no un parámetro desconocido µx.

Problemas de la sección 10.5


e 10.29 Refiérase al problema 10.9 de la página 353
(a) Establezca una estimación de intervalo de predicción de 99% de las ventas
mensuales que se tendrán en una tienda individual futura.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.9.
10.30 Refiérase al problema 10.10 de la página 353
(a) Establezca una estimación de intervalo de predicción de 95% de la cantidad
que tendrá en una cuenta de ahorros un futuro cliente individual.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.10.
J0.31 Refiérase al problema 10.12 de la página 354
(a) Establezca una estimación de intervalo de predicción de 90% de los
gastos familiares anuales en odontología que tendrá un futuro empleado
individual.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.12.

Intervalo de predicción para un valor individual futuro J St


e 10.32 Refiérase al problema 10.13 de la página 354:
(a) Establezca una estimación de intervalo de predicción de 95% del tiempo de
espera para que sea instalado el gas que tendrá un futuro cliente individual.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.13.
10.33 Refiérase al problema 10.14 de la página 354:
(a) Establezca una estimación de intervalo de predicción de 95% del tiempo de
espera para que sea atendido un paciente futuro individual en la clínica local.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.14.

Problemas intercapítulo de la sección I 0.5


10.34 Refiérase al problema 10.17 de la página 355
(a) Establezca una estimación de intervalo predicción de 95% de la rapidez de
flujo de una regadera fija individual futura.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.17.
10.35 Refiérase al problema 10.18 de la página 355
(a) Establezca una estimación de intervalo predicción de 90% de los gastos por
uso de gas y electricidad de un departamento individual de tres recámaras en
Manhattan.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.18.
10.36 Refiérase al problema 10.19 de la página 355
(a) Establezca una estimación de intervalo de predicción de 95% de la vida de
una batería individual futura.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.19.
10.37 Refiérase al problema 10.20 de la página 355
(a) Establezca una estimación de intervalo de predicción de 99% de una
cortadora de pasto individual futura.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.20.
10.38 Refiérase al problema 10.21 de la página 355
(a) Establezca una estimación de intervalo de predicción de 90% del costo de
un teléfono alámbrico futuro.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los del
problema 10.21.

i (1!.j Estimado del intervalo de confianza


de la porción
En la presente sección extenderemos el concepto de intervalo de confianza a datos
categóricos, para estimar la porción de la población, p, a partir de la porción de
muestra, p, = X/n. Recuerde de los capítulos 8 y 9 que cuando np y n(l - p) son al
menos cinco, la distribución binomial puede ser aproximada por la distribución
normal. En consecuencia, podemos establecer la siguiente estimación de intervalo
de confianza (1 - a.) x 100% para la porción de la población, p:

(10.4)
o

J60 Capítulo 10 Estimación


donde Ps = porción de la muestra
p = porción de la población
Z = valor crítico de la distribución normal
n = tamaño de la muestra

Para ver cómo puede utilizarse la estimación del intervalo de confianza de la


porción, examinaremos la siguiente aplicación. El gerente de producción de un
diario de una ciudad grande desea determinar la porción de periódicos impresos
que poseen atributos inaceptables, como manchas excesivas de tinta, paginación
incorrecta, faltante de páginas, páginas duplicadas, etcétera. Prácticas anteriores
han implicado el examen detallado del primer periódico que sale de la prensa, pero
sin hacer una evaluación de los otros miles de periódicos impresos. El gerente de
producción ha determinado que se debe seleccionar una muestra aleatoria de 200
periódicos para ser analizados. De esta muestra de 200, 35 tenían algún tipo de de-
fecto inaceptable. Si el gerente de producción deseara tener una confianza de 90%
en la estimación de la verdadera porción de la población, el intervalo de confianza
tendría que ser calculado de la manera siguiente:

Ps = 35/200 = 0.175, con un nivel de confianza de 90%, Z = 1.645


Utilizando la ecuación (10.4) se tiene:

Ps ± Z 1Ps (1: Ps) = .l 75 ± (1. 645 ) (.175)(.825)


~ 200
= .175 ± (1.645)(.0269)
= .175 ± .0442
.1308 :::; p ~ .2192

Por lo tanto, el gerente de producción estimaría, con un 90% de confianza, que


entre 13.08% y 21.92% de los periódicos impresos ese día tienen algún tipo de
defecto inaceptable.
Debemos observar que en este ejemplo, el número de éxitos y de fallas fue lo
suficiente grande para que la distribución normal sea una excelente aproximación
de la distribución binomial. Sin embargo, si el tamaño de la muestra no es grande
o si el porcentaje de éxitos es muy bajo o muy alto, entonces la distribución bino-
mial deberá utilizarse en vez de la normal (referencias 1 y 10). Los intervalos de
confianza exactos para varios tamaños de muestra y diferentes porciones de éxitos
han sido puestos en forma de tabla por Fisher y Yates (referencia 4).
Para un tamaño de muestra dado, los intervalos de confianza para las por-
ciones a menudo parecen ser más amplios que los correspondientes a variables
continuas. Con variables continuas, la medición en cada entrevista proporciona
más información que con una variable dicotómica. En otras palabras, una variable
categórica con solamente dos valores posibles es una medición bastante general,
en comparación con una variable continua, de modo que cada observación aporta
solamente una poca de información acerca del parámetro que estamos estimando.

Problemas de la sección I O. 6
e 10.39 Al gerente de un banco de una ciudad pequeña le gustaría determinar la
porción de sus clientes que reciben su salario semanalmente. Se selecciona una
muestra aleatoria de 100 clientes y 30 de ellos informa que recibe su salario
cada semana. Establezca una estimación de intervalo de confianza de 90%
de la porción verdadera de los clientes del banco a los que se les paga
semanalmente.

Estimado del intervalo de confianza de la porción 361


10.40 A un auditor del departamento de seguros del estado le gustaría determinar la
porción de reclamos que son pagados por una compañía de seguros médicos
dentro de los dos meses después de recibir el reclamo. Se selecciona una
muestra aleatoria de 200 reclamos y se determina que 80 de ellos fueron
pagados dentro de los dos meses después de recibir el reclamo.
(a) Establezca un intervalo de confianza de 99% de la porción verdadera de
los reclamos pagados en dos meses.
(b) ¿De qué manera se pueden utilizar los resultados obtenidos en el inciso (a)
en un informe al departamento de seguros del estado?
• 10.41 A un vendedor de automóviles le gustaría estimar la porción de clientes que
todavía poseen el mismo automóvil que adquirieron cinco años antes. En una
muestra aleatoria de 200 clientes, tomada de los registros del vendedor, se
obtuvo que 82 clientes todavía tenían el mismo auto adquirido cinco añ.os
antes. Establezca una estimación de intervalo de confianza de 95% de la
porción verdadera de todos los clientes que aún poseen el mismo
automóvil a cinco afios de haberlo comprado.
10.42 En una papelería se recibe, del fabricante, un envío de una cierta marca de
plumas estilográficas desechables. El duefio de la papelería desea estimar la
porción de plumas que tienen defectos. Se prueba una muestra aleatoria de
300 plumas, y se encuentra que 30 de ellas tienen defectos.
(a) Establezca una estimación de intervalo de confianza de 90% de la porción
de plumas defectuosas del envío.
(b) El envío puede ser regresado si tiene más de 5% de plumas defectuosas;
basándose en los resultados de la muestra, ¿puede el dueño regresar el
pedido?
10.43 El director de publicidad de una cadena de restaurantes de comida rápida
desearía estimar la porción de estudiantes de preparatoria que conocen un
comercial en particular que ha sido transmitido en radio y en televisión
durante el mes anterior. Una muestra aleatoria de 400 estudiantes de
preparatoria indicó que 160 de éstos conocían el comercial. Establezca una
estimación de intervalo de confianza de 95% de la porción verdadera de
población de estudiantes de bachillertato que conocen el comercial.
10.44 Al gerente de la compañía de teléfonos le gustaría estimar la porción de
familias que comprarían una línea adicional si ésta estuviera disponible a un
costo de instalación sustancialmente reducido. Se seleccionó una muestra
aleatoria de 500 familias. Los resultados indicaron que 135 de las familias
adquirirían la línea telefónica adicional a un costo de instalación reducido.
Establezca una estimación de intervalo de confianza de 99% de la porción
verdadera de la población de familias que adquirirían la linea telefónica
adicional a un costo de instalación reducido.
10.45 El decano de una escuela superior de administración de empresas desearía
estimar la porción de estudiantes de licenciatura inscritos que tienen acceso a
una computadora personal fuera de la escuela (ya sea en casa o en el trabajo).
Una muestra de 150 estudiantes reveló que 105 de ellos tienen acceso a una
computadora. Establezca una estimación de intervalo de confianza de 90%
de la porción verdadera de la población de estudiantes que tienen acceso
a una computadora personal fuera de la escuela (en casa o en el trabajo).

1i E1 Determinación del tamaño


de muestra para la media
En cada uno de nuestros ejemplos sobre estimación de intervalos de confianza, el ta-
maño de la muestra es determinado de manera arbitraria, sin tomar én cuenta el
tamaño del intervalo de confianza. En el mundo empresarial, la determinación del ta-
maño de muestra adecuado es un procedimiento complicado que está sujeto a las
restricciones de presupuesto, tiempo y facilidad de selección. Por ejemplo, si el ge-

362 Capítulo 10 Estimación


r(!ni:e ele rnErcad<ltecnia <1E una cC>mpañía que suministra petróleo para calefacción
cl<>rnéstica des(!ara estimar el consumo promedio anual en casas con una sola
fam i[ja, en un á1ea geográfica En pa1ticular, in ten ta ría determinar por adelantado
qué tan p1ecisa seria la e5timaciónque se requiere. Esto significaría que tendría que
d.e<idir <¡lié tanto em>r está dispuesto a permitir en la estimación del consumo
an u<il promedio de la ¡ioblación. ¿Se requiere que la precisión esté dentro de ±10
galc>().es, :±20 galones, :±25 galones, ±50 galones, ±100 galones, etc? El gerente de
mercadotecnia determinaría también, por adelantado, qué tan seguro desea estar
(qué confianza debe tener) de estimar correctamente el parámetro verdadero de la
¡>oblación. Al determinar el tamaño de la muestra para estimar la media, se deben
mant~ner en mente estos requisitos, junto con la información de la desviación
estáJl<lar.
P~ra desairnllar una formula y determinar el tamaño de la muestra, recuerde
la eruación (9.5):

en la c:¡ue Z es el valC>r crítico correspondiente a un área (1 - a)/2 del centro de una


distribuci<'>n normal estandarizada. Al multiplicar ambos lados de la ecuación (9.5)
por c;, ( ._rr;, tenemos

Z fncr =X- - µ,
Así pues, el valor de Z será positivo o negativo, dependiendo de si X es mayor o
menC>r que µx. La diferencia ent1e la media de la muestra, X, y la media de lapo-
blación, \1,, rep1esentada por e, se llama error de muestreo. El error de muestreo,
e, se puede definir como
.·.·.·¡: 'li·: <.~>s.~;··{(~

(to~saf:.':
. i·
:·.;.

:1
·.(,

lj.' ' ·, i;!i:tt:~t~~

Resolviendo esta ecuación paran, tenemos:

.. ; ~ '

Por consiguiente, para determinar el tamaño de la muestra, deben conocerse


tres factores:
l. El nivel de confianza deseado, que determina el valor de Z, que es el
valor crítico de la distribución normal. 2
2. El error de muestreo permitido, e.
3. La desviación estándar,ºx·
En la práctica, la determinación de estas tres cantidades puede no ser fácil.
¿Cómo es posible que uno pueda conocer el nivel de confianza a utilizar y qué
error de muestreo se desea? Típicamente, estas preguntas pueden ser respondidas
solamente por el experto en la materia, es decir, por el individuo que conoce las vari-
ables que se van a analizar. A pesar que 95% es el intervalo de confianza que más
se utiliza (en cuyo caso Z = 1.96), si uno desea una mayor confianza, 99% podría

Determinación del tamaño de muestra para la media JGJ


·o1·1 11111·, .1d1·111,1d11; .,¡ .,,. 111111.11rn110 ;in·pla!Jle una 1nenor confianza, entonces se
1'111111.1 lllilli.11 'l() por L°il'lllO.
En rna11lo al error de muestreo, podríamos no estar pensando en qué tanto
l'rrorde muestreo nos gustaría tener (en realidad no queremos tener nada de error),
sino pensar en qué tanto podemos aceptar y todavía seguir siendo capaces de
obtener conclusiones adecuadas sobre los datos.
Incluso en los casos en que el nivel de confianza y el error de muestreo están
especificados, debemos tener disponible una estimación de la desviación estándar.
Desafortunadamente, rara vez se conoce la desviación estándar de la población, u,.
En algunos casos, la desviación estándar puede ser estimada de datos anteriores. En
otras situaciones, uno puede desarrollar una estimación apropiada si se toma en
cuenta el alcance y la distribución de la variable. Por ejemplo, si uno supone que
la distribución es normal, el alcance es aproximadamente igual a 6u, (esto es, ±3u,
alrededor de la media), de modo que cr,, puede estimarse como el alcance dividido
entre 6. Si ax no puede ser estimada de esta manera, se puede llevar a cabo un estu-
dio piloto y estimarse la desviación estándar de los datos obtenidos.
Regresando al ejemplo anterior, suponga que al gerente de mercadotecnia le
gustaría estimar el consumo anual medio de petróleo para calefacción de la pobla-
ción, dentro de ±50 galones del valor verdadero, y desea estar 95%i seguro de esti-
mar correctamente Ja media verdadera. Basándose en un estudio anterior, llevado
a efecto el año anterior, el gerente de mercadotecnia siente que la desviación están-
dar debe ser estimada en 325 galones. Con esta información se puede determinar
el tamaño de la muestra de la siguiente manera, para e= 50, u,= 325 y un nivel de
confianza de 9s<Yci (Z = 1.96):

(1.96) 2 (325) 2
( 50 ) 2

( 3.8416)(105,625)
162.31
2,500

Por consiguiente, n = 163.


Hemos escogido el valor de 163 para el tamaño de la muestra porque la regla
general utilizada en la determinación del tamaño de la muestra consiste en redon-
dear siempre al entero mayor más cercano, con el fin de sobrepasar ligeramente la
expectativa del criterio deseado.
Podemos observar que si el gerente de mercadotecnia utilizara estos criterios,
debería tomar una muestra de 163, no de 35. Sin embargo, la desviación estándar
que se ha utilizado fue estimada en 325, basándose en una investigación anterior.
Si la desviación estándar obtenida en la investigación real es muy diferente de este
valor, el error de muestreo calculado se verá afectado de manera directa.

Problemas de la sección I O. 7
10.46 Se planea hacer una investigación para determinar los gastos médicos prome-
dio anuales por familia de los empleados de una empresa grande. El gerente de
la empresa desea tener una confianza de 950!.1 de que el promedio de la mues-
tra es correcto, dentro de ±$50 de los gastos médicos promedio por familia. Un
estudio piloto indica que la desviación estándar puede estimarse en $400.
¿Qué tan grande se necesita tomar la muestra?
10.47 Si el administrador del almacén de suministro de pintura del problema 10.5 de
la página 349 deseara estimar la cantidad promedio que hay en un bote de un
galón, dentro de ±0.004 galones, con una confianza de 95%i, suponiendo que
la desviación estándar sigue siendo de 0.02 galones, ¿qué tamaño de muestra
sería necesario?

364 Capítulo 10 Estimación


e 10.48 Si el gerente de control de calidad del problema 10.6 de la página 349 deseara
estimar la vida promedio, dentro de ±20 horas, con una confianza de 95%,
suponiendo que la desviación estándar del proceso sigue siendo de 100 horas,
¿qué tamaño de muestra necesita?
10.49 Si el encargado de la división de inspección del problema 10.7, de la página
349, desea estimar la cantidad promedio de refresco envasado dentro de ±0.01
litros, con una confianza de 95%, suponiendo que la desviación estándar sigue
siendo de 0.05 litros, ¿qué tamaño de muestra sería necesario?
e 10.50 Un grupo de consumidores desearía estimar el monto mensual promedio del
servicio eléctrico para el mes de julio que se paga en casas de una sola familia
en una ciudad grande. Basándose en estudios efectuados en otras ciudades, se
supone que la desviación estándar es de $25. Al grupo le gustaría estimar el
pago promedio para julio, dentro de ±$5 del promedio verdadero, con una
confianza de 99'Jú. ¿Qué tamaño de muestra se necesita?
10.51 El director de un laboratorio farmacéutico está considerando hacer una petición
para que se pague la educación continua de sus investigadores científicos. Le
gustaría estimar la cantidad promedio gastada por tales científicos en membresías
profesionales. ¿_Qué tamaño de muestra se necesita para tener una confianza
de 95'Yi> de estar en lo correcto, dentro de ±$1 O"! Basándose en un estudio
piloto, la desviación est{mdar se estima en $:{5.
10.52 Al gerente de una agencia de publicidad que presta sus servicios a una estación
radiodifusora grande le gustaría estimar la cantidad promedio de tiempo que
la audiencia de la estación pasa escuchando el radio diariamente. ¿Qué
tamaf'io de muestra se necesita si el gerente de la agencia desea tener una con-
fianza de 90%> de estar en lo correcto, dentro de ±5 minutos"? De estudios ante-
riores, se t•stima la desviación estándar en 45 minutos.
10.53 Suponga que el gerente de una competidora de la cadena de supermercados
descrita en el problema 10.9, de la página :~53, desea estimar sus ventas
promedio de población para el cereal de desayuno, dentro de ±$100, con una
confianza de 99'%. Puesto que no tiene acceso a los resultados de muestra del
problema 10.9, el gerrnte hace su propia estimación independiente de la
desviación estándar, la cual queda establecida en $200. ¿Qué \amaño de muestra
se necesita"?
10.54 Suponga que el gerente de una compañía gasera, que presta sus servicios en un
área geográfica diferente a la de la compañía del problema 10.13, de la página
:{54, desea estimar el tiempo promedio que sus clientes tienen que esperar,
dentro de ±5 días, con una confianza de 95'Yc1. Puesto que no tiene acceso a los
resultados de muestra del problema 10.13, el gerente hace su propia esti-
mación independiente de la desviación estándar, la cual queda establecida en
20 días. ¿Qué tamaño de muestra necesita?

1i fi:J
1 Determinación del tamaño
de muestra para una porción
En la sección 10. 7 analizamos la determinación del tamaño de muestra necesario para
la estimación de una media de población. Ahora suponga que el gerente de produc-
ción desea determinar el tamaño de muestra necesario para estimar la porción de la
población de periódicos impresos que tienen algún defecto inaceptable, como man-
chas excesivas, paginación incorrecta, páginas faltantes, etc. Los métodos para la
determinación del tamaño de muestra que se utilizaron en la estimación de una por-
ción de población son parecidos a los empleados en la estimación de una media.
Al desarrollar una fórmula para determinar el tamaño de muestra, recuerde de
la ecuación (9.9) que
z "' P, - P
- ~ p(l .=.J)
11

Determinación del tamaño de muestra para una porción 36S


en laque Les el valor crítico correspondiente a un área de (1 - a)/2 a partir del cen-
tro de una distribución normal estandarizada. Multiplicando ambos lados de la

ecuación ~ p(l; P) tenemos

Z~=p,-p
~~
El error de muestreo, e, es igual a (p, - p), la diferencia entre la porción de la
muestra (p) y el parámetro que se va a estimar (p). Este error de muestreo puede
definirse como

e = Z /p(l - p) (10.6a)
f n

Resolviendo para n, obtenemos

n = (10.6b)

Al determinar el tamaño de la muestra para estimar una porción se deben


definir tres incógnitas:
l. El nivel de confianza deseado.
2. El error de muestreo permitido, e.
3. La porción verdadera de "éxitos", p.

En la práctica, la selección de estas tres cantidades es, a menudo, difícil. Ya que


hemos determinado el nivel deseado de confianza, seremos capaces de obtener el va-
lor adecuado de Z de la distribución normal. El error de muestreo, e, indica la can-
tidad de error que estamos dispuestos a aceptar o tolerar en la estimación de la
porción de la población. La tercera cantidad, la porción verdadera de éxitos, p, es
en realidad el parámetro de población ¡que estamos intentando encontrar! Así
pues, ¿de qué manera podemos establecer el valor de la misma cosa por la cual esta-
mos tomando una muestra?
En este caso tenemos dos alternativas. Primero, en muchas situaciones, se pue-
de tener disponible información pasada o experiencia relevante que nos permita
proporcionar una estimación estudiada de p. Segundo, si no se tiene disponible
información pasada o experiencia relevante, tratamos de proporcionar un valor de
p que nunca subestime el tamaño de muestra que necesitamos. Refiriéndonos a la
ecuación (10.6b), observamos que la cantidad p(l -p) aparece en el numerador. Por
tanto, necesitamos determinar el valor de p que hará que p(l - p) sea lo más grande
posible. Se puede mostrar que cuando p = 0.5, entonces el producto p(l - p) logra
su valor máximo. Varios valores de p junto con el correspondiente valor del pro-
ducto p(l - p) son

P= .5, p (1 - p) = (.5)(.5) = .25


p = .4, p (1 - p) = (.4)(.6) = .24
P= .3, p (1 - p) = (.3)(.7) = .21
p= .1, p (1 - p) = (.1)(.9) = .09
p= .01, p (1 - p) = (.01)(.99) = .0099

366 Capítulo 10 Estimación


Por consiguiente, cuando no tenemos un conocimiento o una estimación pre-
via de la porción verdadera, p, podemos utilizar p = 0.5 como la forma más con-
servadora de determinar el tamaño de la muestra. Esto produciría el mayor tamaño
de muestra posible y, en consecuencia, tendría como resultado el costo más alto
posible. Sin embargo, el uso de p = 0.5 puede tener como resultado una sobres-
timación del tamaño de la muestra, puesto que la porción real de la muestra se uti-
liza en el intervalo de confianza. Si la porción de muestra real es muy diferente de
0.5, el ancho del intervalo de confianza puede ser sustancialmente más estrecho
que lo que se pensó originalmente.
En nuestro ejemplo, suponga que el gerente de producción desea tener 90% de
confianza al estimar la porción de periódicos defectuosos dentro de ± 0.04 de su
valor verdadero. Además, como el editor del periódico no ha realizado previa-
mente ninguna investigación, no se tiene información disponible de datos ante-
riores. Por consiguiente, p se tomará igual a 0.5.
Con estos criterios en mente, el tamaño de muestra necesario puede ser determi-
nado de la siguiente manera con 90% de confianza (Z = 1.645), e= 0.04 y p = 0.5:

n =
(1.645)2 (.5)(.5) = 422.82
2
(.04)

Así pues, n = 423.


Por consiguiente, con el fin de tener un nivel de confianza de 90<Y<i de estimar
la porción dentro de ±0.04 de su valor verdadero, se necesitaría un tamaño de
muestra de 423.

Problemas de la sección I0.8


10.55 A un encuestador político le gustaría estimar la porción de votantes que votarán
por el candidato democrático en una campaña presidencial. El encuestador
desea tener un 90<X1 de confianza de que su predicción es correcta, dentro de
±0.04 de la verdadera porción. ¿Qué tamaño de muestra se necesita'!
e 10.56 Al director de una compañía de televisión por cable le gustaría estimar la porción
de sus clientes que adquirirían una guía de los programas de televisión que
transmite la compañía. Le gustaría tener un nivel de confianza de 95% de que
su estimación es correcta dentro de ±0.05 de la porción verdadera. Experiencia
pasada en otras áreas indica que 30% de los clientes adquirirán el programa
guía. ¿Qué tamaño de muestra se necesita?
e 10.57 Un gerente de banco desea tener una confianza de 90% de estar en lo correcto,
dentro de ±0.05 de la porción verdadera de depositantes que tienen tanto
cuenta de ahorro como de cheques. ¿Qué tamaño de muestra necesita?
10.58 Se debe realizar una prueba de auditoría para establecer la frecuencia de
presentación de fallas en el seguimiento de un procedimiento específico
de control interno. El auditor decide que la tasa de error máximo tolerable
es de 5%. ¿Qué tamaño de muestra se requiere para lograr una precisión de
muestra de ±2%, con un nivel de confianza de 99 por ciento?
10.59 Un gran envío de filtros de aire se recibe en la compañía Joe's Auto Supply Co.
Los filtros de aire deben muestrearse con el fin de estimar la porción de ellos
que no son utilizables. De experiencias pasadas, la porción de filtros de aire no
utilizables se estimó en O.JO. ¿De qué tamaño se debe tomar una muestra
aleatoria para estimar la porción verdadera de filtros no utilizables, dentro de
±0.07, con un nivel de confianza de 99 por ciento?
10.60 Suponga que Milt's Motors, competidor del vendedor de automóviles del
problema 10.41, de la página 362, también desea llevar a cabo una encuesta
para determinar la porción de sus clientes que todavía poseen el automóvil
que adquirieron hace cinco años. Suponga que desea tener una confianza de
95% de estar correcto en su estimación de la porción verdadera, con ±0.025.
Observe que en este caso, el vendedor no tiene acceso a los resultados de
muestra del problema 10.41. ¿Qué tamaño de muestra se necesita?

Determinación del tamaño de muestra para una porción 367


l l1i•) Estimación y determinación
del tamaño de muestra para
poblaciones finitas

10.9.1 Estimación de la media


En la sección 9.4, vimos que cuando se toman muestras sin reemplazo de una pobla-
ción finita, el factor de corrección de población finita fpc (por sus siglas en
Inglés, finite population correction factor) sirve para reducir el error estándar
en un valor igual a ~ (N - n) / (N - 1) . Cuando se estiman parámetros de población
de tales muestras sin reemplazo, debe utilizarse el factor de corrección de pobla-
ción finita para desarrollar las estimaciones de intervalo de confianza.
Por consiguiente, la estimación de intervalo de confianza de (1 - a) x 100%
para la media quedaría:

X +t. ~~N-n (10.7)


, :-- , n.-1 .fn .N - 1

En el ejemplo del consumo de petróleo para calefacción del gerente de mercado-


tecnia, se seleccionó una muestra de 35 casas de una sola familia. Suponga que se
tiene una población de 500 casas de una sola familia que son atendidas por la
compañía. Utilizando el factor de corrección de población finita, tendríamos, con
X= 1,127.7 galones, S = 295.72, n = 35, N = 500 y t34 = 2.0322 (para un nivel de
confianza de 95%):

X ± tn-l ~ ~N -
-vn N -
n = 1,122.7 ± (2.0322)
1
2~ 2
35
500 - 35
500 - 1
= 1,122.7 ± (101.58)(.9653)

= 1,122. 7 ± 98.05

1,024.65 ~ µ, ~ 1,220.75

En este caso, puesto que más de 5% de la población fue muestreada, el factor


de corrección de población finita tiene un efecto moderado en la estimación del
intervalo de confianza.

10.9.2 Estimación de la porción


Cuando muestreamos sin reemplazo, la estimación de intervalo de confianza de
(1 - a) x 100% de la porción es:

1 ~' . '.· " ~ ¡

p:,> !.-!: ~: >.


.i~S~i':! , ~. 1,' 1 '' (10.8)
~ • ; ~1 ''

·.le,

368 Capítulo 10 Estimación


En el estudio del gerente de producción sobre periódicos con defectos
inaceptables, se seleccionó una muestra de 200 periódicos de una población de
100 000 que fueron impresos. La estimación de intervalo de confianza de 90%
sería determinada de la siguiente manera, cuando el muestreo se hace sin reem-
plazo. Tenemos ps = 35/200 = 0.175, Z = 1.645, n = 200 y N = 100 000. Por con-
siguiente

± Z / Ps (1 - Ps) ~ N - n = . 175 ± (1. 645 ) (.175)(.825) 100, 000 - 200


Ps V n N- 1 200 100, 000 - 1
= .175 ± (1.645)(.oz69H.998
= .175 ± .0442(.999)
= .175 ± .0442
.1308 :::; p :::; .2192

Aquí, como la muestra constituye una fracción muy pequeña de la población,


el factor de corrección virtualmente no tiene ningún efecto en la estimación del
intervalo de confianza (en comparación con el cálculo hecho en la página 361).

10.9.3 Determinación del tamaño de muestra


Del mismo modo en que se utilizó el factor de corrección en el desarrollo de las
estimaciones del intervalo de confianza, se le puede utilizar también en la deter-
minación del tamaño de muestra cuando se toman muestras sin reemplazo. Por
ejemplo, cuando se estima la media, el error de muestreo debe ser

y cuando se estima la porción, el error de muestreo es

; ·)'(10: 1'0)"· :

Al determinar el tamaño de muestra cuando se estima la media, de la ecuación


(10.5b), tendríamos:

en la que n 0 es el tamaño de la muestra sin· considerar el factor de corrección de


población finita.

Estimación y determinación del tamaño de muestra para poblaciones finitas 1a9


La aplicación del factor de corrección, en este caso, tiene como resultado el
ta111ai"10 de 111ucstra real, n, calculado con la ecuación

(10.11)

En la encuesta del gerente de mercadotecnia para estimar el consumo anual de


pl'l rúko para calefacción, el tamaño de muestra que se necesita para tener una
rn1 ili;i111.a de 95% de estar en lo correcto, con ±$50 (suponiendo una desviación
\'SL'irrdar de 325 galones) es de 163, puesto que se calculó un valor de n0 de 162.31.
l J l i1izando el factor de corrección de la ecuación 10.11, obtenemos lo siguiente:

11 = (162.31)(500) = 122.72
162.31 + (500 - 1)
Por tanto, n = 123.
En este caso, puesto que más de 30!Jlr> de la población fue muestreada, el factor
de corrección de población finita tuvo un efecto sustantivo sobre el tamaño de la
muestra, reduciéndolo de 163 a 123. Sin embargo, en general, éste puede no ser el
caso. Por ejemplo, recordemos que con el fin de estimar la porción verdadera de
periódicos con defectos inaceptables, el gerente de producción necesitaba un
tamaño de muestra de 423 (puesto que 110 se calculó en 422.82). Al utilizar el fac-
tor de corrección se tiene

n0 N
n = ---'---
n0 + ( N - 1)

( 422.82)(100,000) = 421.04
n =
422.82 + (100,000 - 1)

Por tanto, n = 422.


En este caso, el uso del factor de corrección prácticamente no tiene ningún
efecto en el tamaño de la muestra seleccionada.

e Investigación sobre la satisfacción de los empleados de Kalosha


Industries Podemos recordar también que en la Investigación sobre la Satisfac-
ción de los Empleados de Kalosha Industries, vista en el capítulo 2, establecimos que
se debe seleccionar una muestra de 400 empleados. Este tamaño de muestra está
basado en la satisfacción de los requisitos de las preguntas que se consideran las más
importantes. En este estudio, Bud Conley, vicepresidente de recursos humanos, y el
estadístico de la empresa B & L, han determinado que las preguntas 7 y 9 son las
preguntas numéricas y categóricas más esenciales, respectivamente.
Como la variable aleatoria correspondiente a los ingresos del personal,
pregunta 7, es numérica, para determinar el tamaño de muestra requerido para la
estimación de la media de la población, utilizamos las ecuaciones (10.5b) y (10.11).
Se necesitan tres cantidades: el nivel de confianza deseado (Z), el error de muestreo
(e) y la desviación estándar (o). Después de pensarlo mucho y de una consulta
intensiva, Bud Conley decidió que le gustaría tener un nivel de confianza de 9591>
en que la estimación de los ingresos promedio del personal estén correctos, dentro de
±1.5 miles de dólares del valor verdadero. Basándose en encuestas pasadas, se estima
que la desviación estándar en los ingresos del personal es de 15.62 miles de dólares.

370 Capítulo 10 Estimación


( :on esta información, el tamaño de la muestra puede determinarse de la siguil'll-
ll' manera, con e = 1.5, crx = 15.62 (estimado) y un nivel de confianza de 9S%
(Z = 1.96):

z 2 cr~ (1.96)2 (15.62) 2


no = 416.57
e (1.5)2
por consiguiente,

n0 N (416.57)(9,800)
n = 399.62
no + (N -1) 416.57 + (9,800 - 1)

En consecuencia, /1 = 400.
Sin embargo, antes de decidir sobre el tamaño de muestra que se necesita para
la encuesta completa, debemos evaluar el tamaño de muestra requerido para la pre-
gunta 9, la variable categórica "¿qué tan satisfecho se encuentra usted con su traba-
jo?" Éste puede hallarse utilizando las ecuaciones (10.6b) y (10.11) después de haber
determinado tres cantid.ades: el nivel de confianza deseado (Z), el error de mues-
treo (e) y una estimación de la porción verdadera de empleados que están satis-
fechos con su trabajo. De nuevo, al igual que con la variable numérica, se ha
pensado mucho para determinar los valores deseados. Bud Conley llegó a la con-
clusión de que le gustaría tener un 90% de confianza en que la estimación de la
porción verdadera de empleados que estaban satisfechos con su trabajo (pregunta
9, códigos 1 y 2) es correcta con ±0.045. Basándose en la experiencia con encues-
tas parecidas, se supone que la porción de la población de empleados que están sat-
isfechos con su trabajo es de al menos 0.80. Con esta información, el tamaño de
muestra puede determinarse de la siguiente manera, con e= 0.045, p = 0.80 y un
nivel de confianza de 90<J.'f> (Z = 1.645):

Z 2 p(I-p) (1.645) 2 (.80)(1 - .20)


no == 213.81
ez (.045) 2
Así pues,
n0 N ( 213.81)(9,800)
n = = 209.27
110 +(N-1) 213.81 + (9,800 - 1)

Por consiguiente, n = 210.


Hemos visto que se necesita una muestra de 400 empleados para satisfacer los
requerimientos de la pregunta más importante que implica una variable numérica
(ingresos personales) y se requiere una muestra de 210 empleados para satisfacer
los requisitos de la pregunta más importante respecto a una variable categórica
(satisfacción con el trabajo). Sin embargo, puesto que debemos satisfacer ambos
requerimientos de manera simultánea con solamente una muestra, debe utilizarse
el tamaño de muestra más grande, 400, para la encuesta sobre la satisfacción de los
empleados.

Problemas de la sección I O. 9
e 10.61 Refiérase a los problemas 10.6 y 10.48 de las páginas 349 y 365. Si el envío
contiene un total de 2,000 bombillas de luz.
(a) Establezca una estimación de intervalo de confianza de 95% del promedio
de vida verdadero de las bombillas del envío.
(b) Determine el tamaño de muestra necesario para estimar la vida promedio
con ±20 horas y un nivel de confianza de 95 por ciento.

Estimación y determinación del tamaño de muestra para poblaciones finitas l 71


lf),f\2 lll-l'lfrase al problema 10.46 de la página 364. ¿Qué tamafio de muestra es
necesario si la compañía tiene 3,000 empleados?
e 10.6:-l Refiérase al problema 10.39 de la página 361. Si el banco tiene 100 ahorradores.
(a) Establezca una estimación de intervalo de confianza de 90% de los
ahorradores que reciben su sueldo semanalmente.
(b) Determine el tamaño de muestra necesario para estimar la porción
verdadera con ±O.OS y un nivel de confianza de 90 por ciento.
10.64 Refiérase a los problemas 10.41y10.60 de las páginas 362 y 367. Suponga que
la población consiste en 4,000 personas que adquirieron su automóvil por
cada vendedor.
(a) Del problema 10.41, establezca una estimación de intervalo de confianza
de 95% de la porción verdadera de clientes que todavía poseen su
automóvil después de cinco afios de haberlo adquirido.
(b) Del problema 10.60, determine qué tamafio de muestra se necesita para
estimar la porción verdadera con ±0.025 y una nivel de confianza de 95
por ciento.
10.65 Refiérase a los problemas 10.7 y 10.49 de las páginas 349 y 365. Si la población
consiste en 2,000 botellas.
(a) Establezca una estimación de intervalo de confianza de 95% de la cantidad
promedio verdadera de población de refresco en cada botella.
(b) Determine el tamaño de muestra que es necesario para estimar la cantidad
promedio verdadera con± 0.01 litros y un nivel de confianza de 95 por
ciento.
10.66 Refiérase al problema 10.11 de la página 354. Si el número de tarjetas de
felicitación en su inventario es de 300.
(a) Establezca una estimación de intervalo de confianza de 95% del valor
promedio de la población de todas las tarjetas de felicitación que se
encuentran en su inventario.
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
10.11.

11.a1.i Nueva consíderación.de la .


' 1<
investigación so.l:>re la satisfacción de
. lc;>s emplados de Kalosha Industries
•<' .·? . •, ..··•
.,. ·~ ' ,_
. ':'.·, . : : :•·' t::: <. .·;,' :':' :' : ~: ;.·\,,.'',·":\'.' ' ,· '.
.,,,_, . ' -:·
¡
. )',"·º''·
., ';,~·,,
"···!''"'.)~,·~· ... :.':·.:~' ..
¡' ) '. ::.\i,.
'
".:
~.-
'I
'
·,'.\. 1:

Bel'a.s secciones 4.10'.2 y 5.6.2, poqemos recordar que Bud Conley, el vicepresidert-
.te de recursos humanos, se está preparando para una reuQióp. C()Il et .repr,es~ntaq..te .
\il~;l~J\~9~P.~~.;Jlfi~J~ ·G91¡'.P9J~~i~m,~p~rn: a1~fli~Mlgs,· cont~nido.sippte1"c~~!~.s :qe up.
p~,q9$.t~¿~!Ji' Y.~~~ ,:· c;,iQ~ ~~,:,¡l, .~l:~m:P~~aqo ,q11~:J~..~s~á. c;iesí!tre>ganqp. f;n,tr,e, ~as. :P~e" .
gl;l~\él~;i a_µ~ .1~!~P,i;,4~.:J?.~J'¡1;i,C,ttlitl1 :IIl.!~~~S .f,~~élbap;;¡ ··'.(: · ' •!. ~:<;: "!; , :e , 1!

''i~;¡~F': 1·· · · :J~8~.~;t,d.:"J.~n~~:.·em.B!~~~9(r4e.·,'~a.J,~~h~· },Aªµ~iji~~.\· ?~~e~'1.·'..'.1J~i?):'. ·


,\¡· .· ,:·..i·:2~· ·1:.·~'~··'
.:,~;.·0ta
..·,·.:· ~.· .· '.· . e'em"'J.eadosde i<arosnalñ(histrtes Ue~stah·m: .,,, satisfetnós·. ..•
,.. i
1

.:}j~·l)~h~l~áfisíé~iii¿;~:·¿3JJSUtr:b~':6}'rlr~'' :·~tfef''¡ i·,lF"2):'JiY''.:T'


, •• •. 1•..•.•••.

'·~Lt::'!'. ·'···, . i."'·':'''''.''h'W•'•\·,'~y~~t'.'"Y,''':'~·[fi,'. 1 )~'•··~',;i'..Jt•p,:~1::;¡, 1'.t .·', . ;;··:Jf;'IHt:J.: f ',


Ya 'q)1e; erre{ presente capítulo; h~mós. de~auollá,4.~;eJpr~nJearnientO 'Cfe esti~
, macióR 'dé fntefvalo dg i:óiltian:Za; ·pódei'D:Qs'ha~er·Jfifer(!ncias're~pectO alits cá~ac­
tetístitas vetdalieras' dé la ,pobláción ,en' ,;Sé~tj~~.r,d~kl~,~~~q; ~e~~Q~~l~ l')~$.,l~
sattsfácdón en el ttábajo .· ,,. ·. · · ·: ..,, ·''~~·1 ~ 1~1 1:1~~:;;,,,,, ¡;:;¡l ...., ,,,. ··' ,.J .. ,....... :i·.i. ,, '"·:
·'. oe:l'1:figu~~·~·?4, b~~;s:(i~t,er4ii#Mqij 1 ';"~;~;..i:\ ...... : /~~· p~~~()#a.i.,pt~tri~~~~"(~~
Ffine~ &e,:aóiaresreti riuest~a'Tu~~~a;; ~~\~~:,~ . j~~ 1~,~~~;v~~~m~;.~st~ti,~a(~~ .
'l~;:mMt~tr~/.:S; e,sA~. H.:W!?~',.~~ ~~.~~~~·él:!~:~~; I'<W 9~ 1gt~ff'.~Jo 1 ~.e confian,za
de ':~5%, el valor erítico, d~·t·~~~~~'l::¡apt9~~· ...· . .~~;°Q~:l.9(:?, 1 .p(\~sfc:f:guela dís~ .
ttill);tj~ló~ 1 f1. ~()ri 409:0'. ·1. ;: ;~~9, gta,do~ q~. Jt~~~~.·~$r~J)ro~iQ:rnq~1:Mnte:eqú,ivalente
a·Ia distrlbudóiinoimaI.,:Vtillzancle. ·~~edüaCio.ü:n@.2) 1 tenemos '.: · · ·' : ·>'· ·

372 Capftulo 10 Estimación


x. ± tn-1
-vn
~n = ?9.555,±

29.555
. . ·.
± 1.382 .
(i.96) 1 m ~00
6

28,173 ::;; µX ::;; 30~937

Concluiiíamos con un nivel de to11fializa de 959'.'o que el ingresq personal prÓme-


dio de los empleados de tiempo completo de i<alósha Industtl~s está entre $2~ 1 173
$30 937. . ..·· ' . . . .. . . . . '
y , ·. . ,. ,. . : ··" ..
Regresando a nuestra segunda pregunta, cuyo interés está re,acionado con la
satisfacción en el trabajo, en ia tabfa 6.2; indicamos que 365 de 40.0 empleados de
la muestra habían afirmado que estaban muy satisfechos ~ mcideradai;nente satis-
fechos con su trabajo. Una estimación de.intervalo d.e confianza de 95% de la por-
ción de población de e1llpleadqs ~u~ están satisfe,chos cqn ~.u trabajo, se, puede
desarrollar de la manera siguient~: .. ,, · .
·,, '.f ;'.
' ,
Ps :;::,356/400 = .~9, con una confi~za q~,95% .Z = 1..96

De la ecuaci(m (lOA) "', ,

Ps ·± z / Ps (i- Ps). = ,89 ~ (r;~~).:'(.89)~11)


~ n , · 40
= .89 ± (1.96)(.0156)
, •• "~, ... ,;.~,·,,,·, 1.': ''"'.l!''~\·,,:1 '·· . . ' ' .

•; .' 3·,.7;';¡i~g·:t;rf).31;,· .··


,. ,;,.:~§~t:~.·p;·~}~9;2i: ~! •... • .

Por consiguiente, podemos. ~on~lttif, ~~P: un. IJ.~vel d~. confianza. de. 95%; que el;ltre
ffS ~ 9% y 92,. 1'% .de: lo~ e.~Pl~a<ló~, ~~ ~~lp,sh,lí industrie~ está,9 ~aHsíechÓs co# :¿~.t:ra:
b,a.··1·0., ·. ·· · · · ·· ....... ··· ... ' · ·· '
.• _:~, .~-,l~:l. \''~ •' ,. ' r,,·~ 1"'

Proyecto de investigación de una base de datos


para la sección IO. IO
Los siguientes problemas se refieren a los datos de muestra obtenidos con el cuestio-
nario de la 'figura 2.6, páginas 28-29, y presentados en la tabla 2.3, de las páginas
33-40. Deben resolverse con la ayuda de un paquete de computación estadístico.
Suponga que usted ha sido contratado por Bud Conley, vicepresidente de recursos
humanos de la empresa Kalosha Industries. Le ha proporcionado una lista de pre-
guntas (véanse problemas 10.67-10.83) para las cuales desea hacer inferencias res-
pecto a la población entera de los empleados de tiempo completo de la empresa. Ha
decidido utilizar un nivel de 95% de con'{ianza.
M&d'Ji•i·f•P Escriba un resumen ejecutivo para Bud Conley, en el cual analice sus
hallazgos, basándose en:
10.67 .El número promedio de horas trabajadas la semana pasada en todos los tipos
de trabajo (pregunta 1).
10.68 La edad promedio (pregunta 3).
10.69 El ingreso familiar total promedio antes de pagar impuestos (pregunta 8).
10.70 El número promedio de años trabajados como empleado de tiempo completo
(pregunta 15).
10.71 El número promedio de afios empleados por Kalosha Industries (pregunta 16).
10.72 La porción de empleados que están clasificados como administrativos o
profesionales (pregunta 2, códigos 1 y 2).

Nueva consideración de la investigación sobre la satisfacción de los empleados de Kalosha Industries J 73


10.?:l l.a porción de empleados que dejarían de trabajar y se retirarían si se volvieran
11111y rirns (pregunta 10, código 1).
1O.7 ,¡ l .a porción de empleados para quienes disfrutar de su trabajo es lo más
i111portante (pregunta 11, código 5).
I< l./ S L1 porción de empleados que sienten que tienen una probabilidad alta o
111odcrada de ser promovidos en Jos siguientes cinco años (pregunta 18,
cúdigos l y 2).
1O. /li l.a porción de empleados que han avanzado rápidamente o que han avanzado
de manera consistente (pregunta 20, códigos 1 y 2).
1o.77 La porción de empleados cuyo trabajo les permite participar en la toma de
decisiones todo el tiempo o parte de éste (pregunta 21, códigos 1 y 2).
10. "18 La porción de empleados que participan en decisiones presupuestales (pregunta
22, código 1).
1O.7'! La porción de empleados que están muy orgullosos o algo orgullosos de trabajar
para Kalosha Industries (pregunta 23, códigos 1 y 2).
10.80 La porción de empleados que rechazarían un empleo de mayor remuneración
para quedarse en Kalosha Industries (pregunta 24, códigos 1 y 2).
10.81 La porción de empleados que describen las relaciones entre empleados y
administradores como muy buenas o buenas (pregunta 25, códigos 1 y 2).
10.82 La porción de empleados que describen las relaciones entre compañeros de
trabajo y colegas como muy buenas o buenas (pregunta 26, códigos 1 y 2).
10.83 La porción de empleados que afirman que el entrenamiento para asumir el
trabajo fue muy importante o importante para el trabajo (pregunta 28, códigos
1y2).

m11.a11 Estimación de terminación de tamaño


de muestra y cuestiones éticas
Cuestiones éticas concernientes a la selección de muestras y a las inferencias que
las acompañan a partir de las encuestas de muestra pueden surgir en varias formas.
La mayor cuestión ética se refiere a si se debe o no proporcionar una estimación de
intervalo de confianza junto con las estimaciones puntuales de la estadística
de muestra obtenidas con una encuesta. Únicamente indicar una estimación pun-
tual de una estadística de muestra sin incluir también los límites del intervalo de
confianza (típicamente con un nivel de confianza de 95%), el tamaño de muestra
utilizado y una interpretación del significado del intervalo de confianza en térmi-
nos que una persona que no sepa estadística pueda entender, puede dar lugar a
cuestiones éticas por su omisión. El no incluir una estimación de intervalo de con-
fianza puede conducir al usuario de los resultados de la encuesta a pensar que la
estimación puntual obtenida de la muestra es todo lo que se necesita para prede-
cir las características de la población con certeza. Por tanto, es importante que se
indique una estimación de intervalo en una parte relevante de cualquier comuni-
cación escrita, junto con una explicación sencilla del significado del intervalo de
confianza. Además, el tamaño de la muestra debe resaltarse de modo que el lector
entienda claramente la magnitud de la encuesta que se ha llevado a cabo.
Una de las áreas más comunes en donde se presentan cuestiones éticas con-
cernientes a estimaciones a partir de investigaciones de muestra, es en la publi-
cación de los resultados de las encuestas políticas. Muy a menudo, los resultados
de las encuestas se resaltan en la primera página de los periódicos, y el error de
muestreo implicado se publica en la página donde, normalmente, continúa el
artículo (con frecuencia en la parte media del periódico). Durante la campaña pre-
sidencial estadounidense de 1992, el New York Times (7 de octubre de 1992) incu-
rrió en algunas de estas cuestiones éticas al publicar los resultados de cinco
encuestas diferentes que fueron efectuadas los días 1y4 de octubre de 1992. En la
tabla 10.5 se resumen los resultados de tales encuestas.

374 Capítulo 10 Estimación


Tabla 1 O. S Cinco encuestas sobre la elección presidencial de 1992 en
Estados Unidos, llevada a cabo entre el
1 y el 4 de octubre de 1992.

Candidato
Encuesta Bush Clinton Perot
New York Times/CBS News 38'X• 46% 7%
Washington Post/ ABC News 35% 48% 9%
Opinión para CNN/USA Today 35 1X1 47% 10%
Harris 361Y.1 53% 9%
Opinión para Newsweek 36% 44% 14%
Fumte: Tl1e New York Times, 7 de octuhre de 1992, p. A.. 1.

A pesar de que hay muchas razones posibles para explicar las diferencias en los
resultados, incluyendo las analizadas en la sección 2.11, también es bastante posi-
ble que la mayoría de las diferencias se deban a errores de muestreo. Si suponemos
que los tamaños de las muestras fueron lo suficiente grandes para proporcionar un
error de muestreo de ±3.5%1 con un nivel de confianza de 95 1Yíi, se podrían obtener
intervalos de confianza para cada una de las cinco diferentes encuestas. En la tabla
10.6 se presentan los intervalos de confianza para el porcentaje de votantes en
favor de Bill Clinton.

Tabla 1 0.6 Estimaciones de intervalo de confianza basadas en cinco


encuestas sobre la elección presidencial de 1992 en Estados Unidos, llevada a
cabo entre el 1 y el 4 de octubre de 1992.

Candidato
Encuesta Clinton Límite inferior Límite superior
New York Ti111es/CBS News 46% 42.S 49.S
Was/1i11gto11 Post/ ABC: News 48% 44.S 51.S
Opinión para CNN/USA Tuday 47°1<i 43.5 50.5
Harris 53% 49.5 56.5
Opinión para Newswffk 44% 40.5 47.5

Podemos observar, de la tabla 10.6, que todas las encuestas tienen como
resultado intervalos de confianza cuya diferencia principal parece deberse a error
de muestreo. Así pues, en resumen, con el fin de asegurar una interpretación ética de
los resultados estadísticos, deben darse los niveles de confianza, el tamaño de la
muestra y los límites del intervalo de confianza, de cualquier investigación que se
esté llevando a cabo.

Estimación e inferencia estadística:


repaso y preliminares
Como se observa en el resumen presentado en el diagrama de la página 376, en el
presente capítulo hemos desarrollado dos planteamientos para la estimación de las
características de una población, la estimación de intervalo de confianza y el pro-
cedimiento de mínimo esfuerzo. Investigamos también de qué manera podemos
determinar el tamaño de muestra necesario para efectuar una investigación y
tomamos en cuenta el factor de corrección de población finita.

Estimación e interferencia estadística: repaso y preliminares 37 S


M1dl1, Proporción,
fl)I p

Diagrama de reaumen del capítulo 1O

En la página 344 de la sección 10.1 se presenta una lista en la que se resaltan


los puntos importantes que se analizan en el capítulo. Verifique dicha lista ahora
para ver si ha entendido esos puntos clave. Para asegurarse de ello, debe poder
responder las siguientes preguntas conceptuales:
l. ¿Por qué nunca podemos tener realmente una confianza de 100% de
estimar correctamente la característica de población de interés? '
2. ¿Cuándo se utiliza la distribución ten el desarrollo de la estimación
de intervalo de confianza para la media?
3. ¿En qué circunstancias podría usarse el planteamiento de mínimo
esfuerzo en vez de la estimación tradicional del intervalo de
confianza?
4. ¿En que se diferencia el intervalo de predicción del intervalo de
confianza?
5. ¿Por qué es cierto que para un tamaño de muestra dado, n, un
aumento en la confianza se logra ampliando (y, por tanto, haciendo
menos preciso) el intervalo de confianza obtenido?
6. ¿De qué manera el muestreo sin reemplazo de una población finita
afecta a la estimación de intervalo de confianza y al tamaño de
muestra necesario?

376 Capítulo 10 Estimación


Ahora que hemos hecho estimaciones de las características de la población,
como la media y la porción, utilizando intervalos de confianza, en los siguientes
cinco capítulos pondremos nuestra ater:tción en un planteamiento de prueba de
hipótesis en el cual estamos tomando decisiones respecto a los parámetros de la
población.

Juntando todo

TÉRMINOS CLAVE
distribución de muestreo repetido estimación puntual 344
356 factor de corrección de población
distribución t de Student 350 finita 368
error de muestreo 363 grados de libertad 352
estimación de intervalo 344 intervalo de predicción 359
estimación de intervalo de nivel de confianza 347
confianza 346 valor crítico 347
estimación de mínimo esfuerzo 356

Problemas de repaso del capítulo

10.84 Refiriéndose al problema 10.6 (página 349), establezca estimaciones de


intervalo de confianza de 99% y de 90% de la vida promedio verdadera de las
bombillas del envío. Compare y analice el significado de las tres
estimaciones de intervalo de confianza.
e 10.85 A un investigador de mercados que trabaja para una compañía de aparatos
electrónicos grande le gustaría estudiar los hábitos televisivos de los residentes
de una cierta ciudad pequeña. Seleccionó una muestra aleatoria de 40 personas
y a cada una de ellas se le dieron instrucciones de mantener un registro
detallado de todo el tiempo que ven televisión durante una semana en
particular. Los resultados se muestran en la página 378:

Tiempo de observación por semana:


X= 15.3 horas, S = 3.8 horas.
27 personas observaron las noticias de la tarde
durante al menos tres noches en la semana.

(a) Establezca una estimación de intervalo de confianza de 95% para el


tiempo de observación de televisión por semana en la ciudad.
(b) Establezca una estimación de intervalo de confianza de 95% para la porción
de personas de la muestra que observan las noticias de la tarde durante al
menos tres noches por semana.
(c) Establezca una estimación de intervalo de predicción de 95% del tiempo
de observación de televisión por semana de un futuro observador individual
que responda a la encuesta.
(d) Hid'Jl,i·f•) ¿De qué manera el investigador de mercados utiliza los
resultados obtenidos en los incisos (a) y (c) para determinar un plan de
publicidad por televisión? Escriba una carta al vicepresidente de
mercadotecnia.

Problemas de repaso del capítulo -


SI l'I investigador de mercados deseara hacer otra investigación en una ciudad
diferente.
(e) ¿Qué tamaño de muestra se requiere si desea tener un nivel de confianza
de 95% de estar en lo correcto dentro de ±2 horas y supone que la
desviación estándar de la población es igual a cinco horas?
(f) ¿Qué tamaño de muestra se necesita si desea tener una confianza de 95%
de estar dentro de ±0.035 de la porción verdadera de personas que obser-
van las noticias de la tarde durante al menos tres noches a la semana, si
no se tiene disponible una estimación previa?
10.86 El asesor de bienes raíces del gobierno de un condado en Estados Unidos
desea estudiar varias características concernientes a casas de una sola familia
en el condado. Se tomó una muestra de 70 casas y ésta reveló lo siguiente:

Área caliente de la casa:


X= 1,759 pies cuadrados, S = 380 pies cuadrados.
42 casas tienen aire acondicionado central.

(a) Establezca una estimación de intervalo de confianza de 99% del área


caliente promedio de población de la casa.
(b) Establezca un intervalo de confianza de 95% de la porción de población
de casas que tienen aire acondicionado central.
(c) Establezca una estimación de intervalo de predicción del área caliente de
una futura casa individual.
10.87 El director de personal de una compañía grande desea estudiar el ausentismo
entre los empleados de la oficina central de la compañía durante el año anterior.
Una muestra aleatoria de 25 oficinistas reveló lo siguiente:

Ausentismo:
X= 9.7 días, S = 4.0 días.
12 empleados faltaron más de 10 días.

(a) Establezca una estimación de intervalo de confianza de 95% del número


promedio de días que faltan los trabajadores de oficina durante el año
anterior.
(b) Establezca una estimación de intervalo de confianza de 95% de la porción
de oficinistas que faltaron más de 10 días durante el año anterior.
(c) Establezca una estimación de intervalo de predicción del número de días
que faltará un empleado individual de oficina futuro.
(d) ¿De qué manera el director de personal utiliza los resultados obtenidos en
los incisos (a) y (c) para determinar cómo puede reducirse el ausentismo
durante el año entrante?
Si el director de personal también desea hacer una investigación en una oficina
secundaria.
(e) ¿Qué tamaño de muestra se necesita si el director desea tener una
confianza de 95% de estar en lo correcto en ±1.5 días, y si se supone que
la desviación estándar de la población es de 4.5 días?
(f) ¿Qué tamaño de muestra se necesita si el director desea tener un nivel de
confianza de 90% de estar en lo correcto dentro de ±0.075 de la porción
verdadera de los oficinistas que faltan más de 10 días, si no existe una
estimación previa?
10.88 Al director de investigación de mercados de la tienda de departamentos Dotty
le gustaría estudiar las compras hechas por mujeres al año en cosméticos. Se va
a mandar una encuesta a una muestra seleccionada entre los poseedores de
tarjeta de crédito de la tienda para determinar:
• La cantidad promedio anual que las mujeres gastan en cosméticos.
(a) Si el investigador de mercados desea tener un nivel de confianza de
99% de estimar el promedio de población verdadero dentro de ±$5, y
si se supone que la desviación estándar es de $18 (basándose en
encuestas anteriores), ¿qué tamaño de muestra se necesita?

378 Capítulo 10 Estimación


• La porción de población de mujeres que principalmente adquieren sus
cosméticos en la tienda de departamentos Dotty.
(b) el investigador de mercados desea tener un nivel de confianza de 90%
de estimar la porción verdadera dentro de ±0.045, ¿qué tamaño de
muestra necesita?
(c) r·fiid'l/.t.i•> Basándose en los resultados obtenidos en los incisos (a)
y (b), ¿a cuántos poseedores de tarjeta de crédito se debe muestrear?
Explique su respuesta.
10.89 El gerente de una sucursal de una cadena grande de librerías desea estudiar las
características de los clientes de su tienda, que está localizada cerca del campus
de una importante universidad estatal. En particular, ha decidido centrarse en
dos variables: la cantidad de dinero gastada por sus clientes y si los clientes
estarían en disposición de adquirir cintas de video educativas sobre cursos
específicos, corno estadística, contabilidad o cálculo, o exámenes de
preparación de grado como GMAT, GRE o LSAT. Los resultados obtenidos con
una muestra de los clientes son los siguientes:

Cantidad de dinero gastado:


x = $28.52, s = 11.39.
Un total de 28 clientes afirmaron que estarían
en disposición de adquirir cintas de video educativas.

(a) Establezca una estimación de intervalo de confianza de la cantidad


promedio de población de dinero gastado en la tienda.
(b) Establezca una estimación de intervalo de confianza de 90% de la porción
de clientes que estarían en disposición de adquirir cintas de video educativas.
(c) Establezca una estimación de intervalo de predicción de 95% de la cantidad
de dinero que gastaría un futuro estudiante.
Suponga que el gerente de la sucursal de una tienda perteneciente a una librería
diferente desea efectuar un estudio parecido en su tienda (situada cerca de otra
universidad).
(d) Si desea tener un nivel de confianza de 95% de estimar correctamente la
cantidad promedio verdadera de población de la cantidad gastada con
±$2, y suponiendo que la desviación estándar es de $10, ¿qué tamaño de
muestra se necesita?
(e) Si deseara tener un nivel de confianza de 90% de estimar correctamente la
porción verdadera de clientes que estarían en posibilidad de adquirir cintas
de video educativas con ±0.04, ¿qué tamaño de muestra necesitaría?
(f) Basándose en las respuestas obtenidas en los incisos (d) y (e), ¿qué tamaño
de muestra debería tomarse?
10.90 El gerente de una sucursal (tienda #1) de una gran cadena de tiendas de
suministros para mascotas de cobertura nacional desea hacer un estudio de las
características de los clientes de la tienda. En particular, decide centrarse en dos
variables: la cantidad de dinero gastado por los clientes, y si éstos son dueños
de solamente un perro, sólo un gato o poseen más de un perro y/o un gato. A
continuación se presentan los resultados obtenidos con una muestra de 70
clientes:
Cantidad de dinero gastado:
x = $21.34, s = $9.22
Un total de 37 clientes poseían solamente un perro;
26 clientes poseían solamente un gato;
7 clientes poseían al menos un perro y un gato.
(a) Establezca una estimación de intervalo de confianza de 95% de la cantidad
promedio de población de dinero gastado en la tienda de mascotas.
(b) Establezca una estimación de intervalo de confianza de 90% de la porción
de clientes que sólo poseen un gato.
(c) Establezca una estimación de intervalo de predicción de 95% de la
cantidad de dinero que gastaría un futuro cliente particular.

Problemas de repaso del capítulo 3 79


Suponga que el gerente de otra sucursal (tienda #2) de la misma cadena desea
efectuar un estudio parecido en su tienda (y no tiene acceso a la información
generada por el g~rente de la tienda #1).
(d) Si deseara tener un nivel de confianza de 95% de estimar correctamente la
cantidad promedio de población del dinero gastado con ±$1.50 y
suponiendo que la desviación estándar es de $10, ¿qué tamaño de mues-
tra necesitaría?
(e) Si deseara tener una confianza de 90% de estimar la porción verdadera de
clientes que poseen solamente un gato, dentro de ±0.045, ¿qué tamaño
de muestra necesitaría?
Q (f) Basándose en los resultados obtenidos en los incisos (d) y (e), ¿qué
tamaño de muestra se necesitaría?
10.91 La dueña de un restaurante que sirve comida continental desea estudiar las
características de sus clientes. En particular, decide centrarse en dos
variables: la cantidad de dinero gastada en su restaurante y si los clientes
piden postre o no. Los resultados obtenidos de una muestra de 60 clientes son
los siguientes:
Cantidad gastada:
x = $38.54, s = $ 7.26.
18 clientes pidieron postre.

(a) Establezca una estimación de intervalo de 95% de la cantidad promedio


de población de dinero gastado por cliente en el restaurante.
(b) Establezca una estimación de intervalo de confianza de 90% de la porción
de clientes que piden postre.
(c) Establezca una estimación de intervalo de predicción de 95% del dinero que
gastaría un futuro cliente individual.
Suponga que el dueño de un restaurante competidor del anterior desea efectuar
un estudio parecido en su restaurante (y no tiene acceso a la información
obtenida por el dueño del primer restaurante).
(d) Si deseara tener 95% de confianza en que está estimando la cantidad
promedio verdadera de dinero gastado en su restaurante dentro de ±$1.50
y suponiendo que la desviación estándar es de $8, ¿qué tamaño de muestra
necesitaría?
(e) Si deseara tener un nivel de confianza de 90% de estimar la porción
verdadera de clientes que piden postre, dentro de ±0.04, ¿qué tamaño de
muestra necesitaría tomar?
(f) Basándose en los resultados obtenidos en los incisos (d) y (e), ¿qué
tamaño de muestra debería tomarse?
10.92 Un representante de una gran cadena de ferreterías está interesado en probar
la afirmación de un fabricante de "fundidores de hielo" que supuestamente
funde hielo y nieve que están a temperaturas de hasta 15 grados Fahrenheit.
La cadena de ferreterías adquirió un lote de 400 bolsas de cinco libras para su
distribución. El representante desea saber, con un intervalo de confianza de
95%, y ±O.OS, qué porción de bolsas de fundidor de hielo cumplirán su
función de la manera en que afirma el fabricante.
(a) ¿Cuántas bolsas necesita probar el representante? ¿Qué suposición debe
hacerse respecto a la porción verdadera de la población? (A este proceso
se le conoce como prueba destructiva, esto es, el producto que se está
probando es destruido por la prueba y, entonces, ya no es posible su
venta.)
(b) Si el representante en realidad prueba 50 bolsas, de las cuales 42 cumplie-
ron como se afirma, construya una estimación de intervalo de confianza
de 95% para la porción de población que cumplirá con su cometido como
se estipula.
Q (c) ¿De qué manera puede el representante utilizar los resultados obtenidos
" en el inciso (b) para determinar si vende o no el producto "fundidor de
hielo"?

380 Capítulo 10 Estimación


Problemas intercapítulo
10.93 Refiérase al problema 3. 7 de la página 60
(a) Establezca una estimación de intervalo de confianza de 95% del costo
promedio de población y de la cantidad promedio de sodio por ración de
mantequilla de cacahuate.
(b) Establezca una estimación de intervalo de predicción de 95'Y.1 del costo y
de la cantidad de sodio por ración de una futura marca de mantequilla de
cacahuate.
(c) t.tiJd'J/•t·f» Utilice los resultados obtenidos en los incisos (a) y (b) como
parte de un artículo periodístico sobre la mantequilla de cacahuate.
1O.94 Refiérase a los datos del problema 3.8 de la página 61
(a) Establezca estimaciones de intervalo de confianza de 90% de la cantidad
promedio de tiempo invertido en pasar de O a 60 millas por hora, para un
modelo de automóvil fabricado en Alemania y para uno hecho en Japón.
(b) Establezca estimaciones de intervalo de predicción de 90% del tiempo
invertido por un futuro modelo de automóvil fabricado en Alemania y un
modelo futuro hecho en Japón.
(c) t.tiJdiJ/.t·I» Basándose en los resultados obtenidos en los incisos (a) y (b),
¿qué le diría a su amigo, que está interesado en esta caracterís-
tica para decidir sobre la adquisición de un automóvil? Escriba una carta.
10.95 Refiérase a los datos del problema 3.9 de la página 62
(a) Establezca estimaciones de intervalo de confianza de 95% del costo
promedio por onza de los champúes etiquetados para cabello normal y
para cabello fino.
(b) Establezca estimaciones de intervalo de predicción de 95% del costo por
onza de un futuro champú etiquetado para cabello normal y un futuro
champú etiquetado para cabello fino.
10.96 Refiérase a los datos del problema 3.18 de la página 66
(a) Establezca estimaciones de intervalo de confianza de 95% del promedio
de vida de las bombillas de luz producidas por el fabricante A y por el·
fabricante B.
(b) Establezca estimaciones de intervalo de confianza de 95'Yt1 del promedio
de vida de una futura bombilla hecha por el fabricante A y una futura
bombilla hecha por el fabricante B.
10.97 Refiérase a los datos del problema 4.80 de la página 163
(a) Establezca estimaciones de intervalo de confianza de 95% de la matrícula
promedio de población de las escuelas preparatorias del noreste y de las
escuelas preparatorias del medio oeste estadounidense.
(b) Establezca estimaciones de intervalo de predicción de 95% de la matrícula
en futuras escuelas preparatorias del noreste y del medio oeste.
(c) t.f;d?j,].I» Basándose en los resultados obtenidos en los incisos (a) y (b),
¿qué le diría a su primo que está pensando en solicitar su ingreso a una
escuela preparatoria del noreste o a una del medio oeste? Escriba una
carta.

~ Proyecto minicaso de aprendizaje colectivo


Nota: La clase debe dividirse en grupos de tres o cuatro estudiantes. Uno de ellos se
elige, al principio, como coordinador del proyecto, otro como anotador y un tercero
como tomador de tiempo. Con el propósito de que cada estudiante adquiera expe-
riencia en habilidades de desarrollo de trabajo en equipo y de liderazgo, después de
cada proyecto deberá haber rotación de puestos. Al inicio de cada proyecto, los estu-
diantes deberán trabajar en silencio y de manera individual durante un corto tiempo
espec¡-ficado de antemano. Cuando todos los estudiantes han tenido la oportunidad

Proyecto minicaso de aprendizaje colectivo 381


de estudiar las cuestiones y de reflexionar sobre sus posibles respuestas, se reúne el
grupo y se inicia una discusión grupal. Si todos los miembros de un grupo están de
acuerdo con las soluciones, el coordinador es el responsable de entregar la solución
del equipo al instructor, en ésta debe estar la firma de los demás integrantes para
avalar su acuerdo. Por otro lado, si uno o más de los miembros del equipo no están
de acuerdo con la solución ofrecida por los demás, puede anexarse la opinión de éstos
en el proyecto entregado, incluyendo las firmas.

CLI0.1 Refiérase al CL3.2 de la página 101. Establezca todas las estimaciones


apropiadas de las características nutricionales de los cereales listos para
comerse. Incluya dichas estimaciones en cualquier presentación oral y escrita
que se tenga que hacer al editor de la sección de alimentos de la revista.
CLl0.2 Refiérase al CL3.3 de la página 102. Establezca todas las estimaciones
apropiadas de las características de población de las fragancias. Incluya tales
estimaciones en cualquier presentación oral y escrita que se tenga que hacer al
director de mercadotecnia.
CLl0.3 Refiérase al CL3.4 de la página 102. Establezca todas las estimaciones
adecuadas de las características de población de las cámaras. Incluya estas
estimaciones en cualquier presentación oral y escrita que tenga que hacer al
editor de viajes.

Not11 ftnale1
1, 11 por tita ru6n que el denominador de la varianza de la 2. Utilizamos Zen lugar de t porque (1) para determinar el
mu11tr1 11 n- 1 en vez de n, de modo que S2 será un esti- valor crítico de t necesitaríamos conocer el tamaño de la
mador tmparc:lal de (12x• esto es, si . muestra, que todavía no conocemos, y (2) porque para
la mayoría de los estudios el tamaño de muestra necesario
será lo suficiente grande para que la distribución normal
sea una buena aproximación de la distribución t.
~(X,-K) 2
,....~-----
11 • 1
Y cr'.=-----
N
3. El factor de corrección de población finita no se utiliza en
este caso ya que el tamaño de la muestra, 400, es menor
que el So/o de la población, 9,800.

Entonces B(s') • a 2, y, por consiguiente, s2 es un estimador


lmp1rcl1l de á2x•

Referencias
l. Cochran 1 W. G., Sampling Techníques, 3a. ed. (Nueva York: 6. Hahn, G. J., y W. Nelson, "A Survey of Prediction Intervals
Wlley1 1977). and Their Applications," foumal. of Quality Technology, S,
2. Dlaconls, P., y B. Efron, "Computer-Intensive Methods in 1973, pp. 178-188.
Statlstlcs", Sclentific American, 248, 1983, pp. 116-130. 7. Kirk, R. E., ed., Statístical lssues: A Reader for the Behavíoral
3. Efron, B., The fackknífe, the Bootstrap, and Other Resampling Scíences (Belmont, CA: Wadsworth, 1972).
Plans (Phlladelphia: Society for Industrial and Applied 8. Larsen, R. L., y M. L. Marx, An Introduction to Mathematical
Mathematlcs, 1982). Statistics and Its Applícatíons, 2a ed. (Englewood Cliffs, NJ:
4. Flsher, R. A., y F. Yates, Statístical Tables for Biologícal, Prentice-Hall, 1986).
Agricultura/ and Medica/ Research, Sa ed. (Edinburgh: Oliver 9. Scheuer, E.M., "Let's Teach More about Prediction",
& Boyd, 1957). Proceedíngs of the Statístical Education Section ofthe
S. Gunter, B. "Bootstrapping: How to Make Something from American Statistica/ Assocíation, 1990.
Almost Nothing and Get Statistically Valid Answers. Part 10. Snedecor, G. W., y W. G. Cochran, Statistical Methods, 7a
1: Brave New World", Quality Progress, 24 de diciembre de ed. (Ames, IA: Iowa State University Press, 1980).
1991, pp. 97-103.

J82 Capftulo 10 Estimación


capítulo

Fundamentos de la
pruebadehí
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar la metodología de prueba
de hipótesis como una técnica para
CAPÍTULO analizar diferencias y tomar
decisiones; determinar los rie1101
implicados al ~ornar tales decisiones si
nos basamos únicamente en la
información de muestra; y estudiar la
interrelación de estos riesgos con el
tamaño de la muestra utilizada.

JSJ
Introducción
' ;· . .
~\i:.:·:·:
En ~1 capitulo 9 iniciamos nuestro análisis de la inferencia estadística con el desarro-
llo del concepto de distribución de muestreo. En el capítulo 10 tomamos en con-
sld~rac•6n estudios enumerativos en los que se utiliza una estadística (como la
me~lá de la muestra o la porción de la muestra) obtenida de una muestra aleatoria
para éstimar su parámetro de población correspondiente.
En el presente capítulo, empezaremos poniendo nuestra atención en otra fase
de la inferencia estadística que también se basa en la información de muestra: la
prueba de hipótesis. En particular, desarrollaremos una metodología paso a paso
que nos permitirá hacer inferencias con respecto al valor específico de un
parámetro de población, mediante el análisis de diferencias entre los resultados que
en realidad observamos (es decir, nuestra estadística de muestra) y los resultados
que esperaríamos obtener si alguna hipótesis subyacente fuera realmente verda-
dera. Además del desarrollo de la metodología de prueba de hipótesis como
una técnica para analizar diferencias y tomar decisiones, también evaluaremos los
riesgos implicados al tomar tales decisiones basándonos únicamente en la ihfor-
mación de la muestra y estudiaremos la interrelación de dichos riesgos con el
tamaño de la muestra utilizada. Aquí, el énfasis se pone en las bases conceptuales
y fundamentales de la metodología de prueba de hipótesis. En los cuatro capítulos
que siguen, se presentarán numerosos procedimientos de prueba de hipótesis que
se utilizan con frecuencia en el análisis de datos obtenidos a partir de estudios y
experimentos diseñados en una variedad de condiciones.
Al terminar el capítulo, usted será capaz de:
l. Distinguir entre las hipótesis nula (Ho) y alternativa (HJ
2. Distinguir entre los riesgos de cometer un error del tipo 1 y un error
del tipo 11.
3. Entender el concepto de potencia de una prueba.
4. Distinguir entre pruebas de un extremo y de dos extremos.
S. Entender el planteamiento de valor p de la prueba de hipótesis.
6. Apreciar la conexión entre intervalos de confianza y pruebas de
hipótesis.
7. Entender la interrelación entre a, p, n y el tipo de prueba.
8. Aplicar la metodología paso a paso de la prueba de hipótesis.

11 IJ Metodología de la prueba de hipótesis


Con el propósito de desarrollar la metodología, paso a paso, de la prueba de hipóte-
sis, enfocaremos nuestra atención en algunas cuestiones referentes al proceso de
empaque de cajas de cereal analizado en los capítulos 9 y 10. Por ejemplo, el gerente
de producción está preocupado por evaluar si el proceso está funcionando o no de
una manera que asegure que, en promedio, la cantidad adecuada de cereal (es decir,
368 gramos) está siendo depositada en cada caja. Decide seleccionar una muestra
aleatoria de 25 cajas del proceso de empaque y examinar su peso para determinar
qué tanto se acerca cada una de tales cajas a la especificación de la compañía de 368
gramos en promedio en cada caja. El gerente de producción espera encontrar que el
proceso está funcionando apropiadamente. Sin embargo, podría encontrar que las
cajas muestreadas pesan demasiado poco o, quizá, mucho y tener la sensación de
que debería detener la producción hasta que el personal de mantenimiento pueda
examinar las máquinas y, si fuera necesario, reparar o sustituir una parte de máquina.
Por consiguiente, al analizar las diferencias entre los pesos obtenidos de la muestra
y los 368 gramos esperados, obtenidos de la especificación de la compañía, se tomará
una decisión basada en la información de muestra y se llegará a una de las siguientes
dos conclusiones:

384 Capítulo 11 Fundamentos de la prueba de hipótesis


l. El contenido promedio en el proceso completo de empaque de cajas de
cereal es de 368 gramos. No es necesario realizar acciones correctivas.
2. El contenido promedio no es de 368 gramos; es menor a esta cantidad
o es mayor. Se necesitan acciones correctivas.

1 1.2. 1 Hipótesis nula y alternativa


La prueba de hipótesis empieza con algo de teoría, afirmación o aserción con
respecto a un parámetro particular de una población. Para fines de análisis estadís-
tico, el gerente de producción escoge como hipótesis inicial que el proceso está
bajo control; esto es, el contenido promedio es de 368 gramos y no es necesario
efectuar acciones correctivas. La hipótesis de que el parámetro de la población es
igual a la especificación de la compañía se conoce como la hipótesis nula.
Una hipótesis nula es siempre una de status quo o de no diferencia. Por lo gene-
ral se le identifica con el símbolo H 0 • Nuestro gerente de producción establecería
como hipótesis nula que el proceso de llenado está bajo control y funcionando
apropiadamente, que la cantidad media de cereal por caja es la especificación de la
compañía de 368 gramos. Esto se puede establecer como:

H 0 : µx = 368
Observe que a pesar de que el gerente de producción solamente tiene información
de la muestra, la hipótesis nula se escribe en términos del parámetro de la
población. Esto es así debido a que está interesado en el proceso de empaque com-
pleto, es decir, (la población de) todas las cajas de cereal que se están llenando. Las
estadísticas de muestra se utilizarán para hacer inferencias acerca de la condición
del proceso completo de llenado, De manera parecida al sistema legal norteameri-
cano, en el cual se supone la inocencia del inculpado hasta que se pruebe lo con-
trario, la base teórica de la prueba de hipótesis requiere que la hipótesis nula sea
considerada verdadera hasta que las evidencias, como los resultados observados a
partir de los datos de la muestra, indiquen que ésta es falsa. Si la hipótesis nula se
considera falsa, alguna otra cosa debe ser verdadera.
Siempre que especifiquemos una hipótesis nula, también debemos especificar
una hipótesis alternativa, o una que debe ser verdadera si se encuentra que la hi-
pótesis nula es falsa. La hipótesis alternativa (H1) es lo opuesto a la hipótesis nula
(H0 ). Para el gerente de producción, la hipótesis alternativa se puede establecer
como:

La hipótesis alternativa representa la conclusión a la que se llegaría si hubiera suficiente


evidencia de la información de la muestra para decidir que es improbable que la hipóte-
sis nula sea verdadera y, por tanto, rechazarla. En nuestro ejemplo, si el peso de las cajas
muestreadas estuvieran lo suficiente por arriba o por abajo del promedio de 368 gr(µllos
especificado por la compañía, el gerente de producción rechazaría la hipótesis nula en
favor de la hipótesis alternativa que establece que la cantidad promedio de contenido
es diferente de 368 gramos. Por consiguiente, detendría la producción y llevaría a efecto
cualquier acción necesaria para corregir el problema.
La metodología de prueba de hipótesis está diseñada de modo que nuestro re-
chazo de la hipótesis nula esté basado en evidencias, aportadas por la muestra, de que
es más probable que nuestra hipótesis alternativa sea verdadera. Sin embargo, el
hecho de no rechazar la hipótesis nula no es una prueba de que ésta sea verdadera.
Nunca podemos probar que.tal hipótesis sea correcta porque estamos basando nues-
tra decisión únicamente en la información de la muestra, no en la población entera.

Metodología de la prueba de hipótesis 385


En consecuencia, si no rechazamos la hipótesis nula, lo único que podemos decir
es que la evidencia fue insuficiente para garantizar su rechazo.
Resumamos algunos puntos clave:
• La hipótesis nula (H0) es la hipótesis que siempre se va a probar.
• La hipótesis alternativa (H1) se establece como lo opuesto de la hipóte-
sis nula y representa la conclusión a la que se llegaría si la hipótesis
nula fuera rechazada.
En lo que se conoce como metodología de prueba de hipótesis clásica (véanse
referencias 1 y 2),
• La hipótesis nula siempre se refiere a un valor especificado del
parámetro de población (como µx), no a una estadística de muestra
(como X).
• El planteamiento de la hipótesis nula siempre contiene un signo de
igualdad con respecto al valor especificado del parámetro (es decir, H0 :
µx = 368 gramos).
• El planteamiento de la hipótesis alternativa nunca contiene un signo
de igualdad con respecto al valor especificado del parámetro (es decir,
H1 : µx * 368 gramos).

1 1 .2.2 Valor crítico de la estadística de prueba


Podemos desarrollar la lógica que se encuentra detrás de la metodología de la
prueba de hipótesis mediante el estudio de la manera en que podemos determinar,
basándonos solamente en la información de la muestra, la plausibilidad de la
hipótesis nula. Nuestro gerente de producción ha establecido como su hipótesis
nula que la cantidad promedio de cereal por caja, de todo el proceso de llenado, es
de 368 gramos (es decir, el parámetro de población especificado por la compañía).
Luego toma una muestra de cajas del proceso de llenado, pesa cada caja y calcula
la media de la muestra. Recordemos que una estadística obtenida de una muestra
es una estimación del parámetro correspondiente de la población de la cual se
tomó la muestra y es probable que difiera del valor real del parámetro debido al
error de posibilidad o de muestreo. Por consiguiente, incluso si la hipótesis nula
fuera, de hecho, verdadera, la estadística de la muestra no necesariamente tendría
que ser igual al correspondiente parámetro de la población. Sin embargo, en tales
circunstancias, esperaríamos que sus valores fueran muy parecidos entre sí. En tal
situación, no habría evidencia para rechazar la hipótesis nula. Si, por ejemplo, el
promedio de la muestra fuera de 367.6, nos veríamos inclinados a concluir que el pro-
medio no ha cambiado (es decir, µx = 368), puesto que la media de la muestra está
muy cercana al valor supuesto de 368. De una manera intuitiva, podríamos pensar
que no es probable que pudiéramos obtener una media de muestra de 367.6 de una
población cuya media es de 368. Por otro lado, si hubiera una gran discrepancia
entre el valor de la estadística y su correspondiente parámetro hipótetico, nuestro
instinto nos llevaría a la condusión de que la hipótesis nula no es plausible o que
es improbable que sea verdadera. Por ejemplo, si el promedio de la muestra fuera
de 320, nuestra intuición nos llevaría a la conclusión de que el promedio no es de
368 (es decir, µx * 368), puesto que la media de la muestra está muy alejada del
valor supuesto de 368. En este caso, podríamos pensar que es muy improbable que
se pueda obtener una media de muestra de 320 si la media de la población fuera
realmente de 368 y, en consecuencia, sería más razonable concluir que la media de
la población no es igual a 368. En esta circunstancia rechazaríamos la hipótesis
nula. En cualquier caso, nuestra decisión sería tomada debido a nuestra creencia
de que las muestras seleccionadas de manera aleatoria son representantes ver-
daderos de las poblaciones subyacentés de donde se tomaron.

J86 Capítulo 11 Fundamentos de la prueba de hipótesis


Desafortunadamente, el proceso de toma de decisiones no siempre es tan directo
y no puede dejarse en manos del juicio subjetivo de un individuo con respecto al sig-
nificado de "muy cercano" o "muy diferente". Sería algo arbitrario, de nuestra parte,
determinar qué es muy cercano y qué es muy diferente sin utilizar definiciones
operacionales. La metodología de prueba de hipótesis proporciona definiciones ope-
racionales para la evaluación de tales diferencias y nos permite cuantificar el proceso
de toma de decisiones, de modo que se pueda encontrar la probabilidad de obtener
un resultado de muestra dado si la hipótesis nula fuera verdadera. Esto se logra deter-
minando, primero, la distribución de muestreo de la estadística de muestra (es decir,
de la media de la muestra) y luego calculando la estadística de prueba particular,
basándose en el resultado de muestra dado. Como la distribución de muestreo de la
estadística de prueba, a menudo, sigue una distribución estadística bien conocida,
como la distribución normal o la t, podemos utilizar estas distribuciones para deter-
minar la probabilidad de que una hipótesis nula sea verdadera.

1 1.2. J Regiones de rechazo y de no rechazo


La distribución de muestreo de la estadística de prueba se divide en dos regiones,
una región de rechazo (en ocasiones conocida como región crítica) y una
región de no rechazo (véase la figura 11.1). Si la estadística de prueba cae dentro
de la región de no rechazo, no se puede rechazar la hipótesis nula. En nuestro ejem-
plo, el gerente de producción llegaría a la conclusión de que la cantidad promedio
de contenido no ha cambiado. Si la estadística de prueba cae en la región de rechazo,
la hipótesis nula será rechazada. En este caso el gerente de producción llegaría a la
conclusión de que la media de la población no es 368.
La región de rechazo puede considerarse como el conjunto de valores de la
estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula
es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si
la hipótesis nula es falsa. En consecuencia, si observamos un valor de la estadística
de prueba que cae en esta región crítica, rechazamos la hipótesis nula porque el valor
sería improbable si ésta fue!a verdadera.
Con el fin de tomar una decisión con respecto a la hipótesis nula, primero
debemos determinar el valor crítico de la .estadística de prueba. El valor crítico
separa la región de no rechazo de la de rechazo. Sin embargo, la determinación de
este valor crítico depende del tamaño de la región de rechazo. Como veremos en
la siguiente sección, el tamaño de la región de rechazo está relacionado directa-
mente con el riesgo implicado en el uso de una sola evidencia de muestra para
tomar decisiones con respecto a un parámetro de población.

Figura 11.1
Regiones de rechazo y de no
rechazo en la prueba de
hipótesis.

Metodología de la prueba de hipótesis 387


11 1.2.4 Riesgos en la toma de desiciones al utilizar la
metodología de prueba de hipótesis
CCuando usamos una estadística de muestra para tomar decisiones acerca de un
pmarámetro de población, existe el riesgo de llegar a una conclusión incorrecta. De
hoecho, se pueden presentar dos tipos diferentes de error cuando se aplica la
mnetodología de prueba de hipótesis:
Un error del tipo 1 se presenta si la hipótesis nula, H 0 , es rechazada
cuando, de hecho, es verdadera y debía ser aceptada.
Un error del tipo 11 se presenta si la hipótesis nula, H0 , es aceptada
cuando, de hecho, es falsa y debía ser rechazada.
Er~n nuestro ejemplo del empaque de cajas de cereal, el error del tipo 1 se presentaría
si ;i el gerente de producción llegara a la conclusión (basándose en la información de
mnuestra) de que el contenido promedio de la población de cajas no es de 368,
cu:uando de hecho sí lo es. Por otro lado, el error del tipo II se presentaría si llegara
a l. la conclusión (basándose en la información de muestra) de que el contenido
pnromedio de la población es de 368, cuando, de hecho, no lo es.

e• ·Nivel de significación La probabilidad de cometer un error del tipo I, deno-


tacada con ex (la letra griega minúscula alfa), se conoce como nivel de signifi-
ca::ación de la prueba estadística. Tradicionalmente, un estadístico controla la tasa
dde errores del tipo 1 determinando el nivel de riesgo ex que estaría dispuesto a per-
mnitir, en términos de rechazar la hipótesis nula cuando ésta es verdadera. Puesto
qque el nivel de significación se especifica antes que se lleve a efecto la prueba de
hhipótesis, el riesgo de cometer un error del Tipo 1, ex, está directamente bajo el con-
trcrol del individuo que lleva a cabo la prueba. Los investigadores, tradicionalmente,
h21an escogido niveles ex de .5 o más pequeños La alternativa de elegir un nivel de
rkiesgo particular de cometer un error del tipo 1 depende del costo que implica
co:ometerlo. Ya que se ha especificado el valor de a, se conoce el tamaño de la región
dde rechazo, puesto que a es la probabilidad de un rechazo de la hipótesis nula. A
pa;>artir de este hecho se pueden determinar el o los valores críticos que separan la
re;egión de rechazo de la de no rechazo.

• • Coeficiente de confianza El complemento, (1 - ex) de la probabilidad de


co:ometer un error del tipo 1 se conoce como coeficiente de confianza, que, cuando
se;e le multiplica por 100 por ciento, produce el nivel de confianza que se estudió en
la.a sección 10.2.
El ·coeficiente de confianza, representado por 1 - a, es la probabilidad
de que la hipótesis nula, H0, no sea rechazada cuando de hecho es
verdadera y debería ser aceptada.
ErE.n términos de la metodología de la prueba de hipótesis, este coeficiente repre-
se>enta la probabilidad de llegar a la conclusión de que el valor especificado del
pa;>arámetro que se está probando con la hipótesis nula pueda ser plausible. En nues-
trcrro ejemplo del llenado de las cajas de cereal, el coeficiente de confianza mide la
prprobabilidad de llegar a la conclusión de que el contenido promedio por caja sea
dde 368 gramos cuando, de hecho, sí lo es.

•• Riesgo ~ La probabilidad de cometer un error del tipo 11, denotada como ~


(l~la letra griega minúscula beta), a menudo se conoce como nivel de riesgo del con-
summidor. A diferencia del error del tipo 1, en el cual las pruebas estadísticas nos per-
mmiten controlar nuestra elección de ex, la probabilidad de cometer un error del tipo
11 [I depende de la diferencia entre los valores supuesto y real del parámetro de
p<población. Como es más fácil encontrar diferencias grandes, si la diferencia entre
lala estadística de muestra y el correspondiente parám.etro de población es grande,

388 Capítulo 11 Furundamentos de la prueba de hipótesis


p, la probabilidad de cometer un error del tipo II, probablemente sea pequen.a. Por
ejemplo, si el promedio de población verdadero (que no conocemos) fuera de 320
gramos, habría una pequeña posibilidad (p) de llegar a la conclusión de que el
promedio no ha cambiado de 368. Por el contrario, si la diferencia entre la estadís-
tica y el valor correspondiente del parámetro es pequeña, la probabilidad de come-
ter un error del tipo II tendrá una alta probabilidad. Así pues, si el promedio de
población verdadero fuera realmente de 367 gramos, habría una alta probabilidad
de llegar a la conclusión de que la cantidad promedio de población de contenido no
ha cambiado de los 368 gramos especificados (y cometeríamos un error del tipo II).

• Potencia de una prueba El complemento (1 - p) de la probabilidad de


cometer un error del tipo 11 se conoce como la potencia de una prueba estadística.
La potencia de una prueba estadística, representada con 1 - p, es la
probabilidad de rechazar la hipótesis nula cuando, de hecho, ésta es falsa
y debería ser rechazada.
En nuestro ejemplo de empaque de las cajas de cereal, la potencia de la prueba es
la probabilidad de llegar a la conclusión de que la cantidad promedio de contenido
no es de 368 gramos, cuando de hecho no lo es. En la sección 11.9 presentaremos
un análisis más detallado de la potencia de una prueba estadística.

• Riesgos de la toma de decisiones: un delicado equilibrio En la tabla


11.1 se ilustran los resultados de las dos decisiones posibles (rechazar H 0 o no recha-
zarla) que se pueden obtener de cualquier prueba de hipótesis. Dependiendo de la
decisión específica, uno de dos clases de error se puede cometer 1, o se puede llegar
a una de dos conclusiones correctas.

Tabla 1 1.1 Prueba de hipótesis y toma de


decisiones.
Situación
Decisión
estadística H 0 Verdadera H0 Falsa
No rechazar Ho Confianza Error del tipo II
(1 - ex) (~)
Rechazar H0 Error del tipo 1 Potencia
(ex) (1 - ~)

Una manera en que podemos controlar la probabilidad de cometer un error del


tipo 11 en un estudio, consiste en aumentar el tamaño de la muestra. Tamaños más
grandes de muestra, por lo general, nos permitirán detectar diferencias incluso muy
pequeñas entre las estadísticas de la muestra y los parámetros de la población. Para
un nivel dado de a, aumentar el tamaño de la muestra disminuirá p y, por consi-
guiente, aumentará la potencia de la prueba para detectar si la hipótesis nula es falsa.
Desafortunadamente, sin embargo, existe siempre un límite para nuestros recursos.
Así pues, para un tamaño de muestra dado, debemos considerar los pros y los contras
de los dos posibles tipos de error. Puesto que podemos controlar directamente los ries-
gos de cometer un error del tipo 1, podemos reducir nuestro riesgo si seleccionamos
un nivel más bajo de a (por ejemplo, .01 en vez de .05). Sin embargo, cuando se dis-
minuye a, paumentará, de modo que una reducción en el riesgo de cometer un error
del tipo 1 tendrá como resultado un aumento en el riesgo de cometer un error del tipo
11. Si, por otro lado, deseamos reducir p, nuestro riesgo de incurrir en un error del tipo
11, podríamos elegir un valor más alto de a (por ejemplo, .05 en lugar de .01).
En nuestro ejemplo del contenido de las cajas de cereal, el riesgo de cometer
un error del tipo I implica llegar a la conclusión de que el contenido promedio por

Metodología de la prueba de hipótesis 389


caja es diferente de los 368 gramos supuesto, cuando de hecho no es diferente. El
riesgo de cometer un error del tipo 11 implica llegar a la conclusión de que la can-
tidad promedio de cereal por caja no es diferente al valor supuesto de 368 gramos
cuando, en verdad, sí es diferente. La opción de tener valores razonables de a y ~
depende de los costos inherentes a cada tipo de error. Por ejemplo, si fuera muy
costoso hacer cambios del statu qua, entonces desearíamos estar muy seguros de
que un cambio sería benéfico, de modo que el riesgo de cometer un error del tipo
I podría ser más importante y debería mantenerse muy bajo. Por otro lado, si
deseamos estar muy seguros de detectar los cambios con respecto a la media su-
puesta, el riesgo de cometer un error del tipo II sería más importante y deberíamos
escoger un nivel más alto de a.

Problemas de la sección 11.2


11.1 ¿Por qué es posible que la hipótesis nula sea rechazada cuando, de hecho, es
verdadera?
11.2 Para un tamaño de muestra dado, si a se reduce de O.OS a 0.01, ¿qué le
sucederá a 13?
11.3 ¿Por qué es posible que la hipótesis nula no siempre sea rechazada cuando es falsa?
11.4 ¿Cuál es la relación de a con el error del tipo I?
11.5 ¿Cuál es la relación de 13 con el error del tipo II?
11.6 Para H0 : µx = 100, H 1: µx ~ 100, y para un tamaño de muestran, 13 será más
grande si el valor real de µx es de 90 que si fuera de 75, ¿por qué?
11. 7 En el sistema legal norteamericano, un acusado se presume inocente hasta que
se demuestre culpable. Considere una hipótesis nula, H 0 , de que el acusado es
inocente y una hipótesis alternativa, H 1, de que el acusado es culpable. El
jurado tiene dos opciones posibles: declarar culpable al acusado (es decir,
rechazar la hipótesis nula) o no declararlo culpable (es decir, no rechazar la
hipótesis nula). Explique el significado de los riesgos de cometer un error del
tipo I o un error del tipo II en este ejemplo.
11.8 Suponga que el acusado del problema 11.7 se supone culpable hasta que se
pruebe lo contrario. ¿Cómo diferirían las hipótesis nula y alternativa de las del
problema 11. 7? ¿Cuál sería el significado de los riesgos de cometer un error
del tipo I o un error del tipo II, en este caso?
11. 9 ¿De qué manera está relacionada la potencia con la probabilidad de cometer
un error del tipo ll?

1181 Prueba de hipótesis Z para la media


(ax conocida)
Ahora que hemos descrito la metodología de la prueba de hipótesis, regresemos a la
pregunta de interés para el gerente de producción de la planta de empaque de cereal.
Podemos recordar que el gerente deseaba determinar si el proceso de llenado de las
cajas de cereal se encontraba bajo control o no, es decir, si el contenido promedio
por caja en todo el proceso de llenado seguía siendo de 368 gramos como está especi-
ficado o si había que efectuar acciones correctivas. Para estudiar la situación, planeó
tomar una muestra aleatoria de 25 cajas, pesar cada una y luego evaluar la diferen-
cia entre la estadística de la muestra y el parámetro supuesto de la población, me-
diante la comparación del peso medio (en gramos) de la muestra con respecto a la
media esperada de 368 gramos, especificada por la compañía. Para este proceso de
empaque de cajas de cereal, las hipótesis nula y alternativa son:
H 0: µx = 368
H¡: µX ;f. 368

390 Capítulo 11 Fundamentos de la prueba de hipótesis


Si suponemos que la desviación estándar, crxt es conocida, entonces, basú11dos1•
en el teorema del límite central, la distribución de muestreo de la media debería
tener una distribución .normal y la estadística de prueba Z sería

(11.1)

En esta fórmula, el numerador es una medida de qué tan lejos (en un sentido
absoluto) la media de muestra observada, X, se encuentra de la media supuesta, µr
El denominador es el error estándar de la medía, de modo que Z representa cuán-
tos errores estándar X está de µx.
Si el gerente de producción decide escoger un nivel de significación de .OS, el
tamaño de la región de rechazo sería de .OS y los valores críticos de la distribución
normal podrían determinarse. Estos valores críticos se pueden expresar en unidades
de desviación estándar. Dado que la región de rechazo está dividida en los dos ex-
tremos de la distribución (se le conoce como prueba de dos extremos), el valor
de .05 está dividido en dos partes iguales, de .025 cada una. Una región de rechazo de
.025 en cada extremo de la distribución normal tiene como resultado un área de .475
entre la media supuesta y cada valor crítico. Al buscar esta área en la distribución
normal (tabla E.2), encontramos que los valores críticos que separan la región de
rechazo de la de no rechazo son (en unidades de desviación estándar) +1.96 y
-1.96. En la figura 11.2 se ilustra este caso; en ella se muestra que si la media es
realmente 368 gramos, como se afirma en H 0 , entonces los valores de la estadística
de prueba, Z, tendrán una distribución normal estándar centrada en µx = 368. Los
valores observados de Z mayores que 1. 96 o menores que -1. 96 indican que X está
tan alejada de la media hipotetizada, µx = 368, que es improbable que tal valor se
presente si H0 fuera verdadera.

rechazar
Ho
1
Z= +1.96 z Figura 11.2
Prueba de una hipótesis con
µX =368 respecto a la media (crx conocida)
al nivel de significación de O.OS.

Por consiguiente, la regla de decisión sería

Rechazar H 0 si Z > +1.96


o si Z < -1.96;

en cualquier otro caso, no rechazar H 0 •

Suponga que la muestra de 25 cajas de cereal arrojaron una media de muestra


(X) de 372.5 gramos, y se asume que la desviación estándar de la población (crx)

Prueba de hipótesis Z para la media (O'x conocido) 3 91


''11\lt Mltmlo dt• 1S gramos, como lo especificó la compañía (véase sección 9.2.3).
Uillbmndo In l't:uación (11.1) tenemos

z =
X-µ X

Fn
372.5 - 368 = 1 50
15 + .
55
Como Z = +l.50, nos damos cuenta de que -1.96 < +l.50 < +l.96. Así pues,
nuestra decisión es no rechazar H 0 • Llegaríamos a la conclusión de que la cantidad
promedio de contenido es de 368 gramos. Alternativamente, al tomar en cuenta la
posibilidad de haber cometido un error del Tipo II, podemos expresar la conclusión
como "no hay evidencia de que el contenido promedio sea diferente a 368 gramos".

Problemas de la sección 11.3


11.10 Suponga que el director de manufactura de una fábrica de telas necesita
determinar si una nueva máquina está produciendo un tipo particular de tela
según las especificaciones del fabricante, que indican que la tela debe tener
una resistencia de rompimiento de 70 libras y una desviación estándar de 3.5
libras. Con una muestra de 36 piezas se obtuvo una media de muestra de 69. 7
libras. ¿Existe evidencia de que la máquina no está cumpliendo con las
especificaciones del fabricante en términos de la resistencia de rompimiento
promedio? (Utilice un nivel de significación de .05.)
11.11 Un empresario potencial está considerando la adquisición de una lavandería
automática. El dueño actual de la lavandería afirma que durante los pasados
cinco años el ingreso diario promedio fue de $675, con una desviación
estándar de $7S. Se tomó una muestra de 30 días y ésta reveló un ingreso
diario promedio de $625. ¿Hay evidencia de que la afirmación del presente
dueño no sea válida? (Utilice un nivel de significación de .01.)
e 11.12 Un fabricante de aderezos para ensalada utiliza una maquinaria que introduce
el líquido en botellas que se mueven a lo largo de una línea de llenado. La
máquina que proporciona el aderezo funciona apropiadamente cuando
proporciona ocho onzas. La desviación estándar del proceso es de .lS onzas. Se
selecciona periódicamente una muestra de SO botellas, y la línea de llenado es
detenida si existe evidencia de que la cantidad promedio de aderezo
proporcionada es diferente de ocho onzas. Suponga que la cantidad promedio
dada por la máquina en una muestra particular de SO botellas es de 7.983
onzas. ¿Existe evidencia de que la cantidad promedio de población sea
diferente de ocho onzas? (Utilice un nivel de significación de .05.)
11.13 Suponga que se sabe que los resultados de una prueba de aptitudes, utilizada
para determinar la admisióp a una escuela superior de comercio, están
distribuidos normalmente, con una media de población de SOO y una
desviación estándar de 100. Si una muestra de 12 solicitantes a ingresar al
colegio Stephan tiene unamedia de muestra de 537, ¿existe evidencia de que
·su resultado medio es diferente de la media esperada de todos los aspirantes?
(Utilice un nivel de significación de .01.)

Problemas intercapítulo de la sección· 11.3


11.14 Refiriéndose al ejemplo relacionado con la longitud de papel de computadora
de la página 348, ¿existe evidencia de que la longitud promedio es diferente de
11 pulgadas? (Utilice un nivel de significación de .05.)

392 Capítulo 11 Fundamentos de la prueba de hipótesis


11.15 Refiriéndose al problema 10.5 de la página 349, ¿hay evidencia de que la
cantidad promedio es diferente de 1.0 galones? (Utilice un nivel de
significación de 0.01.)
• 11.16 Refiriéndose al problema 10.6 de la página 349, se dice que el proceso de
producción está "bajo control" (es decir, funcionando apropiadamente) cuando
la vida promedio de la población de las bombillas de luz es de 375 horas.
(a) Establezca las hipótesis nula y alternativa.
(b) Utilizando un nivel de significación de .05, ¿a qué conclusión debería
llegar el gerente de control de calidad con respecto al proceso, si se basa
en los resultados de la muestra?
11.17 Refiriéndose al problema 10. 7 de la página 349, ¿existe evidencia de que la
cantidad promedio en las botellas no es igual a 2.0 litros? (Utilice un nivel de
significación de .05.)

1111 Resumen de los pasos de la prueba


de hipótesis
Ahora que ya hemos utilizado la metodología de la prueba de hipótesis para llegar
a una conclusión con respecto a la media de la población en situaciones en las que
se conoce la desviación estándar de la población, será de utilidad resumir los pasos
implicados. ·
l. Establezca la hipótesis nula, H0 •
2. Establezca la hipótesis alternativa, H 1•
3. Seleccione el nivel de significación, a.
4. Seleccione el tamaño de la muestra, n.
S. Determine la técnica estadística apropiada y la correspondiente
estadística de prueba que va a utilizar.
6. Establezca los valores críticos que separan la región de rechazo de la
de no rechazo.
7. Recolecte los datos y calcule el valor de muestra de la estadística de
prueba apropiada.
8. Determine si la estadística de prueba cae en la región de rechazo o
en la de no rechazo.
9. Tome la decisión estadística.
10. Exprese la decisión estadística en términos del problema.

• Pasos 1 y 2. Las hipótesis nula y alternativa deben establecerse en términos


estadísticos. Al probar si la cantidad promedio de contenido es de 368 gramos, la
hipótesis nula es que µx es igual a 368, y la hipótesis alternativa es que µx es dife-
rente a 368 gramos.

e Paso 3. El nivel de significación se especifica de acuerdo con la importancia


relativa de los riesgos de cometer errores del tipo I y del tipo II en el problema.
Escogemos a= .05. (Esto, junto con el tamaño de la muestra, determina el valor de ¡3.)

e Paso 4. El tamaño de la muestra se determina después de tomar en cuenta


los riesgos especificados de cometer un error del tipo I o uno del tipo II (esto es, ele-
gir niveles de a y de 13) y considerar las restricciones de presupuesto para efectuar
el estudio. En este caso, se seleccionaron al azar 25 cajas de cereal.

e Paso 5. Debe escogerse la técnica estadística que se utilizará para probar la


hipótesis nula. Puesto que crx se conoce (es decir, está especificada por la compafi.ía
en 15 gramos), se eligió una prueba Z.

Resumen de los pasos de la prueba de hipótesis 393


e Paso 6. Ya que se han especificado las hipótesis nula y alternativa y que se
ha determinado el nivel de significación y el tamaño de la muestra, se pueden
encontrar los valores críticos de la distribución estadística apropiada, de modo que
se puedan especificar las regiones de rechazo y de no rechazo. En este caso, se uti-
lizaron los valores+ 1.96 and -1.96 para definir tales regiones, ya que la estadística
de prueba Z se refiere a la distribución normal estándar.

• Paso 7. Se reúnen los datos y se calcula el valor de la estadística de prueba.


Aquí, X= 372.5 gramos, de modo que Z =+l.50. -

• Paso 8. El valor calculado de la estad~--~ica de prueba se compara con los va-


lores críticos de la distribución de mUl apropiada para determinar si el
primero cae en la región de rechazo o no. lm este caso, Z = +1.50 se encuentra en
la región de no rechazo, ya que -1.96 < Z = +l.50 < +l.96.

• Paso 9. Se toma la decisión de prueba de hipótesis. Si la estadística cae en la


región de no rechazo, no se puede rechazar la hipótesis nula, H0 . Si la estadística
de prueba cae en la región de rechazo, entonces se rechaza la hipótesis nula. En este
caso, H0 no es rechazada.

• Paso 1O. Las consecuencias de la decisión de prueba de hipótesis deben ex-


presarse en términos del problema real que se esté tratando. En nuestro ejemplo del
contenido de las cajas de cereal, llegamos a la conclusión de que no había eviden-
cia de que la cantidad promedio de contenido de cereal es diferente de 368 gramos.

11 HJ Planteamiento del valor p para la prueba


de hipótesis: prueba de dos extremos
En los últimos años, con el advenimiento de los paquetes de software estadístico
ampliamente disponibles, se ha desarrollado un planteamiento de la prueba de
hipótesis que ha adquirido una aceptación cada vez mayor, y que involucra el con-
cepto de valor p.
El valor p es la probabilidad de obtener una estadística de prueba igual
o más exacta que el resultado obtenido a partir de los datos de la mues-
tra, dado que la hipótesis nula, H 0 , es realmente verdadera.
A menudo, al valor p se le conoce como nivel de significación observado, que es
el mínimo nivel al cual H0 puede ser rechazada para un conjunto dado de datos.
• Si el valor p es mayor o igual a a, la hipótesis nula no es rechazada.
• Si el valor de p es menor que ex, la hipótesis nula es rechazada.
Para entender el planteamiento del valor p, refirámonos al ejemplo del
empaque de cajas de cereal de la sección 11.3. En dicha sección, probamos si la
cantidad promedio de contenido de cereal es igual o no a 368 gramos (página 392).
Obtuvimos un valor Z de +l.50 y no rechazamos la hipótesis nula, ya que +l.50 es
mayor que el valor crítico inferior, -1.96, pero menor que el valor crítico superior,
+1.96.
Podemos, ahora, utilizar el planteamiento del valor p para encontrar la proba-
bilidad de obtener una estadística de prueba Z que sea más exacta que +l.50.
Cuando utilizamos una prueba de dos extremos, esto significa que necesitamos calcu-
lar la probabilidad de obtener un valor de Z mayor que +l.50, junto con la proba-
bilidad de obtener un valor de Z menor que -1.50. De la tabla E.2, la probabilidad
de obtener un valor de Z por arriba de +1.50 es de .5000 - .4332 = .0668. Puesto

394 Capítulo 11 Fundamentos de la prueba de hipótesis


que la distribución normal estándar es simétrica, la probabilidad de obtener un
valor abajo de -1.50 es también .0668. Así pues, el valor p para esta prueba de dos
extremos es de .0668 + .0668 = .1336 (véase figura 11.3). Este resultado puede inter-
pretarse como que la probabilidad de obtener un resultado igual o más exacta que
el observado es de 0.1336. Puesto que éste es mayor que a= .OS, la hipótesis nula
no es rechazada.

Figura 11.3
Búsqueda del valor p para una
prueba de dos extremos.

A menos que estemos tratando con una estadística de prueba que siga la dis-
tribución normal, el cálculo de p es muy difícil. En consecuencia, es una suerte que
paquetes de software estadístico como MINITAB, SAS, SPSS y STATISTIX (véanse
referencias 6, 7, 9 y 10) presenten, de manera rutinaria, el valor de p como parte
del resultado de muchos procedimientos de prueba de hipótesis.
Ahora que hemos analizado el planteamiento de valor p para la prueba de
hipótesis, nos será de utilidad resumir los pasos implicados.
l. Establezca la hipótesis nula, H 0
2. Establezca la hipótesis alternativa, H 1 •
3. Seleccione el nivel de significación, a.
4. Seleccione el tamaño de la muestra, n.
5. Determine la técnica estadística apropiada y la correspondiente
estadística de prueba que va a utilizar.
6. Reúna los datos y calcule el valor de muestra de la estadística de
prueba apropiada.
7. Calcule el valor de p basándose en la estadística de prueba. Esto
implica
(a) Hacer un diagrama de la distribución bajo la hipótesis nula, H 0 •
(b) Situar la estadística de prueba en el eje horizontal
(c) Sombrear el área apropiada bajo la curva,
basándose en la hipótesis alternativa, H 1•
8. Compare el valor de p con a.
9. Tome la decisión estadística.
10. Exprese la decisión estadística en términos del problema.

Problemas de la sección 11.5


11.18 Calcule el valor de p del problema 11.10 de la página 392 e interprete su
significado.
11.19 Calcule el valor de p del problema 11.11 de la página 392 e interprete su
significado.

Planteamiento del valor p para la prueba de hipótesis: prueba de dos extremos 395
e 11.20 Calcule el valor de p del problema 11.12 de la página 392 e interprete su
significado.
11.21 Calcule el valor de p del problema 11.13 de la página 392 e interprete su
significado.

Problemas intercapítulo de la sección 11.5


11.22 Calcule el valor de p del problema 11.14 de la página 392 e interprete su significado.
11.23 Calcule el valor de p del problema 11.15 de la página 393 e interprete su significado.
• 11.24 Calcule el valor de p del problema 11.16 de la página 393 e interprete su significado.
11.25 Calcule el valor de p del problema 11.17 de la página 393 e interprete su significado.

11 H.J Relación entre la estimación de intervalos


de confianza y la prueba de hipótesis
En el capítulo 10 y en el presente hemos examinado los dos componentes princi-
pales de una inferencia estadística: la estimación de intervalo de confianza y la
prueba de hipótesis. A pesar de que están basadas en el mismo conjunto de con-
ceptos, las hemos utilizado para propósitos diferentes. En el capítulo 10, utilizamos
los intervalos de confianza para estimar parámetros, en este capítulo hemos visto
que podemos usar la prueba de hipótesis para tomar decisiones con respecto avalo-
res especificados de los parámetros de población.
En muchas situaciones podemos utilizar intervalos de confianza para realizar
una prueba de una hipótesis nula. Esto se puede ilustrar para la prueba de una
hipótesis sobre una media. Refiriéndonos de nuevo al proceso de llenado de las
cajas de cereal, primero intentamos determinar si la cantidad promedio de
población era diferente de 368 gramos. Probamos lo anterior en la sección 11.3 uti-
lizando la ecuación (11.1)

En lugar de probar la hipótesis nula de que µx = 368 gramos, también podemos re-
solver el problema mediante la obtención de una estimación de intervalo de confian-
za de µx. Si el valor supuesto de µx = 368 se encuentra dentro del intervalo, la hipótesis
nula no deberá ser rechazada. Esto es, el valor de 368 no debería considerarse fuera de
lo normal para los datos observados. Por otro lado, si el valor supuesto no se encuen-
tra dentro del intervalo, la hipótesis nula deberá rechazarse, pues 368 gramos serían
considerados como un valor no usual. Utilizando la ecuación (10.1), la estimación de
intervalo de confianza se podría establecer a partir de los siguientes datos:

n =25, X= 372.S gramos, ªx = lS gramos (i:specificados por la compañía)


Para un nivel de confianza de 9S% (correspondiente a un nivel de significación de
.OS, es decir, a= .OS) tenemos

X+Z~
- Fz
15
372.S ± (1.96) ~
-v2S
372.S±S.88

Capitulo 11 Fundamentos de la prueba de hipótesis


de modo que

366.62 $µX$ 378.38

Puesto que el intervalo incluye al valor supuesto de 368 gramos, no recha-


zaríamos la hipótesis nula y llegaríamos a la conclusión de que no existe evidencia
de que el contenido medio, con respecto al proceso de llenado completo, no es de
368 gramos. Ésta es la misma conclusión a la que llegamos utilizando la metodo- ·
logía de la prueba de hipótesis.

Problemas intercapítulo de la sección 11.6


11.26 Compare las conclusiones a las que llegó en los problemas 10.5 y 11.15 de las
páginas 349 y 393. ¿Son éstas las mismas? ¿Por qué?
11.27 Compare las conclusiones a las que llegó en los problemas 10.6 y 11.16 de las
páginas 349 y 393. ¿Son éstas las mismas? ¿Por qué?
11.28 Compare las conclusiones a las que llegó en los problemas 10.7 y 11.17 de las
páginas 349 y 393. ¿Son éstas las mismas? ¿Por qué?

11 i) Pruebas de un extremo
En la sección 11.3 utilizamos la metodología de la prueba de hipótesis para exami-
nar la pregunta de si la cantidad promedio de contenido con respecto al proceso
completo de llenado (esto es, la población) fue de 368 gramos o no. La hipótesis
*
alternativa (H1: = 368) contenía dos posibilidades: el promedio podía ser menor
que 368 gramos o podría ser mayor que 368. Por esta razón fue que dividimos la
región de rechazo en los dos extremos de la distribución de muestreo de la media.
Y, como acabamos de ver en la sección anterior, puesto que una estimación de
intervalo de confianza de la media contiene un límite inferior y uno superior
correspondientes a los valores críticos del extremo izquierdo y del extremo dere-
cho de la distribución de muestreo de la media, somos capaces de utilizar el inter-
valo de confianza para realizar una prueba de la hipótesis nula que establece que
la cantidad promedio de contenido, con respecto al proceso completo de llenado,
es de 368 gramos.
En algunas situaciones, sin embargo, la hipótesis alternativa se enfoca en una
dirección en particular. Por ejemplo, la ejecutivo de finanzas en jefe (CFO, por sus
siglas en inglés, Chief Financia! Officer) de la compañía empacadora de comida se
estaría preocupando por el exceso, pues, si realmente se empacaran más de 368
gramos de cereal por cája, y el predo al consumidor fuera por los 368 gramos que
dice el empaque, la compañía estaría perdiendo dinero de manera innecesaria. En
consecuencia, debería estar interesada en el hecho de si la cantidad promedio de
contenido, con respecto al proceso completo de llenado, está por arriba de los 368
gramos. Para ella, y desde un punto de vista estrictamente financiero con respecto
a su responsabilidad como CFO de la compañía (cuya ética se analizará en la sec-
ción 11.11), a menos que la media de la muestra estuviera significativamente por
arriba de los 368 gramos, se consideraría que el proceso funciona apropiadamente.
Para la CFO, las hipótesis nula y alternativa se plantearían de la siguiente manera:

H0 : µx ::> 368 (el proceso funciona adecuadamente)


Hi= µx > 368 (el proceso ria funciona adecuadamente)

La región de rechazo, en este caso, estaría completamente contenida en el extre-


mo superior de la distribución de muestreo de la media, ya que deseamos rechazar

Pruebas de un extremo 397


110 ú11k:amcnte cuando la media de la muestra sea significativamente mayor a 368
gramos. Cuando se presenta dicha situación, en la cual la región completa derecha-
zo está contenida en un extremo de la distribución de muestreo de la estadística de
prueba, se dice que se trata de una prueba de un extremo. Si, de nu~va cuenta,
escogemos un nivel de significación a = .05, podemos determinar el valor crítico
en la distribución Z. Como se observa en la tabla 11.2 y en la figura 11.4, como la
región de rechazo completa está en el extremo superior de la distribución normal
estándar y contiene un área de .05, el área comprendida entre la media y el valor
crítico debe ser de .45; así pues, el valor crítico de la estadística de prueba Z es de
+l.645, el promedio de +l.64 y +1.65. (Deberíamos observar, aquí, que algunos
estadísticos redondearían a dos lugares decimales y tomarían el valor de +l.64
como el valor crítico, mientras que otros redondearían a +l.65. Preferimos hacer
una interpolación entre las áreas 0.4495 y 0.4505, de modo que seleccionamos el
valor crítico con un área de extremo superior tan cercana a O.OS como sea posible.
Así pues, tomamos el promedio de +l.64 y +1.65.)

Tabla 1 1.2 Obtención del valor crítico de la estadística de prueba Z de la distribución normal estándar para
una prueba de un extremo con a= .OS .

z
o.o
0.1
.00
.0000
.0398
.01
.0040
.0438
.02
.0080
.0478
.03

.0120
.0517
• •
.01 pO
.os ~7
.01 99
.os 96
.06

.0239
.0636
.07

.0279
.0675
.08

.0319
.0714
.09

.0359
.07S3
0.2 .0793 .0832 .0871 .0910 .09 8 .09 67 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .13 1 .13 D8 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .17 lO .17 ~6 .1772 .1808 .1844 .1879

1.0 .3413 .3438 .3461 .3485 .3S 08 .3531 .3S54 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .37 9 .37 ~9 .3770 .3790 .3810 .3830

..
1.2 .3849 .3869 .3888 .3907 .39 5 .39 ~4 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .40 9 .41 ~5 .4131 .4147 .4162 .4177

-
1.4 .4192 .4207 .4222 .4236 .42pl .42 ~5 .4279 .4292 .4306 .4319


1.5 .4332 .4345 .4357 .4370 .43B2 .43 ~4 .4406 .4418 .4429 .4441
. - - --
''-'
--- . - -. . - --- .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
Fuente: Tomado de la tabla E.2.

La regla de decisión seria:

Rechazar H 0 si Z > +1.645;

en cualquier otra circunstancia no rechazar H0

Utilizando la prueba Z dada por la ecuación (11.1) con la información obtenida


de la muestra tomada por el gerente de producción

n = 25, x = 372.5, ax= 15 gramos (especificados por la compañía)


tenemos

z = x - µ,
~
Fn
372.51~ 368 = +1.50
{25

398 Capítulo 11 Fundamentos de la prueba de hipótesis


+1.645 z Figura 11.4
Prueba de un extremo de hipótesis
sobre una media (crx conocida)
al nivel de significación de 0.05.

Puesto que Z = +l.50 < +1.645, nuestra decisión debería ser la de no rechazar
H0 y llegaríamos a la conclusión de que no existe evidencia de que la cantidad
promedio de contenido de cereal por caja, con respecto al proceso comp!eto de
llenado, está por arriba de 368 gramos. Esto es, a pesar de que la media, X, de la
muestra es mayor a 368 gramos, el resultado obtenido de la muestra se considera
debido a la casualidad o a error de muestreo; no es significativo desde el punto de
vista estadístico.

Problemas de la sección 11. 7


e 11.29 La empresa Glen Valley Steel Company fabrica barras de acero. Si el proceso de
producción está funcionando de manera adecuada, entonces se producen barras de
acero con una longitud promedio de al menos 2.8 pies, con una desviación
estándar de .20 pies (determinada por especificaciones ingenieriles con respecto
al equipo de producción implicado). Las barras más largas pueden ser utilizadas
o ser alteradas¡ las barras de menor longitud deben desecharse. Se seleccionó
una muestra de 25 barras de la línea de producción. La muestra indica una
longitud promedio de 2.73 pies. La directiva de la compañía desea determinar si
el equipo de producción necesita ajustes o no.
(a) Establezca las hipótesis nula y alternativa.
(b) Si la compañía desea probar la hipótesis a un nivel de significación de .OS,
¿qué decisión debería tomar?
11.30 Refiriéndose al problema 11.10 de la página 392
(a) Al nivel de significación de .OS, ¿ex:iste evidencia de que la resistencia de
rompimiento promedio es menor que 70 libras?
(b) ¿De qué manera difiere el inciso (a) del problema 11.10? Explique su
respuesta.
11.31 Refiriéndose al problema 11.12 de la página 392
(a) Al nivel de significación de .OS, ¿existe evidencia de que la cantidad
promedio proporcionada es menor que 8 onzas?
(b) ¿De qué manera difiere el inciso (a) del problema 11.12? Explique su
respuesta.

Problemas intercapítulo de la sección 11. 7


11.32 Refiriéndose al ejemplo concerniente a Ja longitud de papel de computadora
de la página 348, al nivel de significación de .05, ¿existe evidencia de que la
longitud promedio sea menor que 11 pulgadas?

Pruebas de un extremo 399


11.33 Refiriéndose al problema 10.S de la página 349
(a) Al nivel de significación de .01, ¿existe evidencia de que la cantidad
promedio es menor que 1.0 galón?
(b) ¿De qué manera difiere el inciso (a) del problema 11.lS de la página 393?
Explique su respuesta.
11.34 Refiriéndose al problema 10.6 de la página 349
(a) Al nivel de significación de .OS, ¿existe evidencia de que la vida promedio
es menor que 37S horas?
(b) ¿De qué manera difiere el inciso (a) del problema 11.16 de la página 393?
Explique su respuesta.
1 l.3S Refiriéndose al problema 10.7 de la página 349, basándose en los datos de la
muestra
(a) Al nivel de significación de .OS, ¿existe evidencia de que la cantidad
promedio de refresco en las botellas es menor que dos litros?
(b) ¿De qué manera difiere elinciso (a) del problema 11.17 de la página 393?
Explique su respuesta.

11 H:J Planteamiento del valor p para la prueba


de hipótesis: pruebas de un extremo
Para entender el planteamiento de valor p para la prueba de un extremo, necesita-
mos darnos cuenta de que en tales situaciones calculamos la probabilidad de
obtener un valor más grande que la estadística de prueba calculada o menor que
ésta, dependiendo de la dirección de la hipótesis alternativa. Para ejemplificar los
cálculos del valor p para la prueba de un extremo, nos referiremos al ejemplo del
empaque de cajas de cereal analizado en la sección anterior. Para la ejecutivo
financiero en jefe (CFO), las hipótesis nula y alternativa son:

H0: µx :S: 368 (el proceso funciona adecuadamente)

H 1: µx > 368 (el proceso no funciona adecuadamente)

Puesto que la hipótesis alternativa indica una región de rechazo completamente


contenida en el extremo superior de la distribución de muestreo de la estadística de
prueba Z, necesitamos solamente encontrar la probabilidad de obtener un valor
de Z mayor a + 1.50 (véase figura 11.5). De la tabla E.2, la probabilidad de obtener
un valor de Z por arriba de +1.50 es de .5000 - .4332 = .0668 Como este valor de
p es mayor que el nivel elegido de significación (a= .05), la hipótesis nula no es
rechaza.da.

Figura 11.5
Determinación del valor p
para una prueba de un extremo.

400 Capítulo 11 Fundamentos de la prueba de hipótesis


Problemas de la sección 11.8
e 11.36 Refiriéndose al problema 11.29 de la página 399, calcule el valor de p
e interprete su significado.
11.3 7 Refiriéndose al problema 11.30 de la página 399, calcule el valor de p
e interprete su significado.
11.38 Refiriéndose al problema 11.31 de la página 399, calcule el valor de p
e interprete su significado.

Problemas intercapítulo de la sección 11.8


11.39 Refiriéndose al problema 11.32 de la página 399, calcule el valor de pe interprete
su significado.
11.40 Refiriéndose al problema 11.34 de la página 400, calcule el valor de p e interprete
su significado.
11.41 Refiriéndose al problema 11.35 de la página 400, calcule el valor de p e interprete
su significado.

111·1 La potencia de una prueba


En nuestros análisis iniciales de la prueba estadística de hipótesis, definimos los dos
tipos de riesgos que se corren cuando se toman decisiones con respecto a paráme-
tros de población basados únicamente en evidencias de muestra. Podemos recordar
de la sección 11.2 que ex representa la probabilidad de que la hipótesis nula sea recha-
zada cuando de hecho es verdadera y debería ser aceptada, y que ~ representa la
probabilidad de que la hipótesis nula no sea rechazada cuando de hecho es falsa y
debería rechazársele. La potencia de la prueba, 1 - ~(es decir, el complemento de~),
representa la sensibilidad de la prueba estadística para detectar cambios que se pre-
sentan al medir la probabilidad de rechazar la hipótesis nula cuando de hecho es
falsa y debería ser rechazada. La potencia de la prueba estadística depende de qué tan
diferente en realidad es la media verdadera de la población del valor supuesto (bajo
H 0 ). Si existe una diferencia grande entre la media real de la población y la media
supuesta, la potencia de la prueba será mucho mayor que en el caso en que dicha
diferencia fuera pequefia.
En la presente sección desarrollaremos con más detalle el concepto de poten-
cia de una prueba estadística, refiriéndonos de nuevo al ejemplo del empaque de
las cajas de cereal. Suponga que el proceso de llenado está sujeto a una inspección
periódica por parte de un representante local de la Oficina de Asuntos del Consu-
midor, que solamente se preocupa de posibles cajas con menos contenido del
especificado. Si esto estuviera sucediendo, el consumidor no estaría recibiendo la
cantidad estipulada (es decir, los 368 gramos especificados), por la que se supone
está pagando. Así pues, el representante solamente estaría interesado en determi-
nar si existe evidencia de que las cajas de cereal tienen un contenido promedio
menor a los 368 gramos. Las hipótesis nula y alternativa se establecen de la manera
siguiente:

H0 : µx;;::: 368 (el proceso funciona adecuadamente)


H 1: µx < 368 (el proceso no funciona apropiadamente)

El representante de la Oficina de Asuntos del Consumidor está dispuesto a aceptar


la afirmación de la compañía de que la desviación estándar, crx, sobre el proceso

Potencia de una prueba 40 1


completo de llenado, es igual a 15 gramos, de modo que la prueba Z será apropia-
da. Si se elige un nivel de significación (a) de .05, y se obtiene una muestra aleato-
ria de 25 cajas, el valor de X que nos permitirá rechazar la hipótesis nula se puede
encontrar a partir de la ecuación (9.6a), de la manera siguiente:

Puesto que tenemos una prueba de un extremo con un nivel de significación


de .05, se puede obtener el valor de Z, igual a 1.645 desviaciones estándar por
debajo de la media supuesta, en Ja tabla E.2 (véase figura 11.6). Por tanto,

XL= 368 - (1.645) ~ = 368 - 4.935 = 363.065


-v25
La regla de decisión, para esta prueba de un solo extremo, sería:

Rechazar H 0 si X< 363.065; en cualquier otro caso no rechazar H 0 .

La regla de decisión establece que si una muestra aleatoria de 25 cajas revela una
media de muestra menor a 363.065 gramos, Ja hipótesis nula será rechazada y el
representante llegará a la conclusión de que el proceso no está funcionando apro-
piadamente. Si, de hecho, éste es el caso, la potencia de la prueba mide la probabili-
dad de llegar a la conclusión de que el proceso no está funcionando adecuadamente,
para valores que difieren de la media de población verdadera.
Suponga, por ejemplo, que nos gustaría determinar la posibilidad de rechazar
la hipótesis nula cuando la media de población es realmente de 360 gramos.
Basándonos en nuestra regla de decisión, necesitamos determinar la probabilidad
o el área bajo Ja curva normal que se encuentra por debajo de 363.065 gramos. Del
teorema del límite central y de la suposición de normalidad de la población,
podemos suponer que la distribución de muestreo de la media sigue una distribu-
ción normal. Por consiguiente, el área bajo la curva normal que se encuentra a la
izquierda de 363.065 gramos puede expresarse en unidades de desviación estándar,
puesto que estamos calculando la probabilidad de rechazar la hipótesis nula
cuando la media verdadera se ha corrido a 360 gramos. Utilizando la ecuación
(11.1), tenemos:

en la que µ 1 es la media de población real. Así pues,

z = 363.0~~ - 360 = 1.02

rzs
De la tabla E.2, existe una posibilidad de 34.61% de observar un valor de Z entre
la media y +1.02 desviaciones estándar. Como deseamos determinar el área a la
izquierda de 363.065, debemos añadir el área bajo la curva que está a la izquierda
de la media (50%) a este valor, y se tiene que la potencia de la prueba es de 84.61%
(véase figura 11.7). p, la probabilidad de que la hipótesis nula (µx = 368) no sea re-
chazada, es 1 - .8461 = .1539 (o 15.39%). Ésta es la probabilidad de cometer un
error del tipo ll.

402 Capítulo 11 Fundamentos de la prueba de hipótesis


Figura 11.6
~=368 z Determinación del valor crítico
inferior de una prueba de un
extremo para la media de población
al nivel de significación de .05.

XL= 363.065 Figura 1 1.7


1 Determinación de la potencia de
Potencia =0.8461 1 ~ = 0.1539 la prueba y de la probabilidad de
cometer un error del tipo 11
cuando µ 1 = 360 gramos•

.Ahora que hemos determinado la potencia de la prueba, si la media de pobla-


ción fuera realmente de 360, podemos calcular también la potencia para cualquier
otro valor que µx pueda tener. Por ejemplo, ¿cuál sería la potencia de la prueba si la
media de la población fuera realmente de 352 gramos? Suponiendo que se tiene
la misma desviación estándar, y los mismos tamaños de muestra y nivel de signifi-
cación, la regla de decisión seguiría siendo:

Rechazar H0 si X< 363.065; en cualquier otro caso no rechazar H0 .


De nuevo, puesto que estamos probando una hipótesis para una media, de la
ecuación (11.1) tenemos:

Si la media de población se corre hacia 352 gramos (véase figura 11.8 en la página
404), entonces

z 363.0~~ - 352 = 3.69

fiS

La potencia de una prueba 401


X'L =363.065
Figura 11.s 1

•I'~= .00011
Detennlnación de la potencia de la Potencie = .99989
prueba y la probabilidad de un error
del tipo 11, cuando µ 1 = 352 gramos.

De la tabla E.2, existe un 49.989% de posibilidad de observan un valor Z entre la media


y +3.69 desviaciones estándar. Puesto que deseamos deternninar el área que se encuen-
tra a la izquierda de 363.065, el área bajo la curva a la izcquierda de la media (50%)
debe agregarse a este valor, y se tiene que la potencia de lea prueba es de 99.989%. ~,
la probabilidad de que la hipótesis nula (µx =368) no sea rrechazada, es de 1 - .99989
= .00011 (o .011 %). Ésta es la probabilidad de cometer um error del tipo II.
En los dos casos anteriores hemos encontrado que léa potencia de la prueba es
bastante alta, mientras que, por el contrario, la posibilidaad de cometer un error del
tipo 11 es bastante baja. En nuestro siguiente ejemplo cailcularemos la potencia de
la prueba en el caso en que la media de población es reallmente de 367 gramos, un
valor muy cercano a la media supuesta de 368 gramos.
De nueva cuenta, de la ecuación (11.1), como estannos probando una hipóte-
sis con respecto a una media (con crx conocida), tenemms

Si la media de población fuera realmente de 367 gramos (wéase figura 11.9), entonces

z = 363.065 - 367 = -1 31
15 .
Es

Figura 11.v J(L = 363.065 lil1 = 367


Determinación de la potencia de 1
la prueba y la probabilidad de un Potencia= .095~ 13 = .9049
=
error del tipo 11,cuando µ 1 367
gramos.

404 Capítulo 11 Fundamentos de la prueba de hipótesis


de modo que
.5000
-.4049
.0951 =potencia 1 - ~

De la tabla E.2, podemos observar que la probabilidad (área bajo la curva) entre la
media y -1.31 unidades de desviación estándar es de .4049 (o 40.49%). Como, en este
ejemplo, la región de rechazo está en el extremo inferior de la distribución, la potencia
de la prueba es de 9.51 %, y la probabilidad de cometer un error del tipo II es de 90.49%.
En la figura 11.10 se ilustra la potencia de la prueba para varios valores posi-
bles de µ 1 (incluyendo los tres casos que hemos examinado). A la gráfica se le
conoce como curva de potencia. Los cálculos hechos en nuestros tres ejemplos
se resumen en la figura 11.11 de la página 406 .

.99961 .9964 .9783


1.00
.99989 .99874 .9909
0.90

0.80

0.70

al 0.60
'(3
ái 0.50
o
a.. 0.40

0.30

0.20

0.10

o.oo '---35.1-2-35,_3_3_5._4_3_,5_5_3_.5_6_3_.5_7_3.....5_8_3_,_5_9_3....60_3......61_3.._62-36'-3-36._4_3_,6_5_3.....6_6_3_,_6_7-.3..L.6_8-
Valores verdaderos posibles de µ 1 (gramos)

Figura 1 1.1 O
Curva de potencia del proceso de llenado de cajas de cereal para la hipótesis alternativa H 1: µx <
368.
De la figura 11.10, observamos que la potencia de esta prueba de un extremo
aumenta abruptamente (y se aproxima a 100%) conforme la media de población real
toma valores cada vez más pequeños que la media supuesta de 368 gramos. Es claro
que, para esta prueba de un extremo, cuanto más pequeña sea la media real µ 1, en
comparación con la media supuesta, mayor será la potencia para detectar esta dis-
paridad.2 Por otra parte, para valores de µ 1 cercanosa368 gramos, la potencia es bas-
tante pequeña, pues la prueba no puede detectar, de manera efectiva, las diferencias
entre la media de población real y el valor supuesto de 368 gramos. Resulta intere-
sante que si la media de población fuera realmente de 368 gramos, la potencia de la
prueba sería igual a a, el nivel de significación (que es de O.OS en el presente ejem-
plo), ya que la hipótesis nula sería, en realidad, verdadera.
Los cambios drásticos en la potencia de la prueba para diferentes valores de las
medias reales de población pueden observarse si revisamos los diferentes paneles
de la figura 11.11. De los paneles A y B, podemos ver que, cuando la media de
población no difiere grandemente de 368 gramos, la posibilidad de rechazar la
hipótesis nula, basándonos en la regla de decisión implicada, no es grande. Sin
embargo, cuando la media de población se corre sustancialmente por debajo de la
media supuesta de 368 gramos, la potencia de la prueba aumenta bastante, aproxi-
mándose a su valor máximo de 1(o100%).

La potencia de una prueba 401


X=363.065

Dado: a= .05, ax= 15, n = 25


Prueba de un extremo RechazarH0 NorechazarH0
µ1 = 368 (la hipótesis nula es verdadera)

XL= 368 - (1.645) -1L ,;, 363.065


i/25 ·•
Regla de decisión: Rechazar H0 si X <363.065; en cualquier
otro caso no la rechace ·

PanelB 368

Dado: a=.05,ax=15,n=25
Prueba de un extremo
H0 : µx=368
Rec.hazar H0 No rechazar H0
µ 1 = 367 (la media verdadera se corre a 367 gramos)
z= x- µ 1 363.065 -367 = _ 1.31
ªx 3
Yn
Potencia= .5000 - .4049 = .0951

PanelC 367

Dado: a= .05, ax= 15, n = 25


Prueba de un extremo
H0 :µx=368
Rechazar H0 No rechazar H0
µ 1 = 360 (la media verdadera se corre a 300 gramos)

Z=--
x-µ1 ' 363.0~ -360 = +1.02
ªx ' '3, '
..¡¡¡
Potencia = .5000 + .3461 i: .8461

Panel O

Dado: a= .05, crx= 15, n = 25


Prueba de un extremo
H0 : mx;.;368

µ 1 = 352 (la me~ia v~;~ader~ sé c;ore·a 352 gra~os)


· Rechazar H0 No rechazar H0
363.065 -352 = +3.69
·• . .3·' • ' ''' '"

Potencia = .500Ó + .499~9


' . '=:;:~.9~9S9

Figura 11.11
Determinación de la potencia estadística para valores variables de la media de población verdadera.

406 Capítulo 11 Fundamentos de la prueba de hipótesis


En nuestro análisis de la potencia de una prueba estadística hemos utilizado una
prueba de un exfremo, un nivel de significación de .OS y un tamaño de muestra de
25 cajas. Con esto en mente, podemos determinar el efecto de la potencia sobre la
prueba si variamos, uno a_ la vez:
• El tipo de prueba estadísti~a: de un extremo o de dos extremos.
• El ,Aivel de significación, a.
• El tamaño de la muestra, n.
Dejaremos esto como ejercicios al lector (véanse los problemas 11.42 a 11.48 de las
páginas 407-408, y problemas 11.49 y 11.50 en la página 410), mientras observa-
mos lo siguiente:
• Una prueba de un extremo es más poderosa que una de dos extremos,
y se debería utilizar siempre que sea adectrado especificar la dirección
de la hipótesis alternativa.
• Puesto que la probabilidad de cometer un error del tipo 1 (a) y la
probabilidad de cometer un error del tipo 11 (p) tienen una relación
inversa, y esta última es el complemento de la potencia de la prueba
(1 - p), entonces a y la potencia de la prueba varían en proporción
directa. Un aumento en el valor del nivel de significación (a) escogido
tendría como resultado un aumento en la potencia, y una disminución
en a tendría como resultado una disminución en la potencia.
• Un aumento en el tamaño de la muestra escogida tendría como
resultado un aumento en la potencia de la prueba; una disminución
en el tamaño de la muestra seleccionada tendría como resultado una
disminución en la potencia.

Problemas de la sección 11. 9


• 11.42 Una máquina tragamonedas de refrescos fue diseñ.ada para servir, cuando
funciona de manera adecuada, al menos siete onzas de bebida por vaso, con
una desviación estándar de .2 onzas. Si un estadístico selecciona una muestra
aleatoria de 16 vasos servidos para llevar a cabo un estudio sobre servicios al
consumidor, y está dispuesto a correr el riesgo de cometer un error del tipo 1
con a= .OS, calcule la potencia de la prueba y la probabilidad de cometer un
error del tipo II (p), si la cantidad promedio de población servida es en realidad:
(a) 6.9 onzas por vaso.
(b) 6.8 onzas por vaso.
e 11.43 Refiérase al problema 11.42. Si el estadístico solamente está dispuesto a correr
un riesgo de a= .01 de cometer un error del tipo 1, calcule la potencia de la
prueba y la probabilidad de cometer un error del tipo II (p), si la cantidad
promedio de población servida es en realidad de
(a) 6.9 onzas.
(b) 6.8 onzas.
(c) Compare los resultados obtenidos en el inciso (a) y (b) de este problema
con los correspondientes del problema 11.42. ¿A qué conclusión puede
llegar?
• 11.44 Refiérase al problema 11.42. Si el estadístico selecciona una muestra aleatoria
de 2S vasos servidos y está dispuesto a correr un riesgo de a = .OS de cometer
un error del tipo 1, calcule la potencia de la prueba y la probabilidad de
cometer un error del tipo Il (p), si la cantidad promedio de población servida
es en realidad de
(a) 6.9 onzas.
(b) 6.8 onzas.
(e) Compare los resultados obtenidos en el inciso (a) y (b) de este problema
con los correspondientes del problema 11.42. ¿A qué conclusió'n puede
llegar?

La potencia de una prueba 407


'11.45 Un fabricante de neumáticos produce llantas que aguantan, en promedio, al
menos 25,000 millas cuando el proceso de producción está funcionando
apropiadamente. Basándose en experiencia pasada, la desviación estándar de
las llantas se supone que es de 3,SOO millas. El gerente de producción detendrá
el proceso de producción si existe evidencia de que la vida promedio de las
llantas está por debajo de 2S,OOO millas. Si se selecciona una muestra aleatoria
de 100 llantas (que se someterá a una prueba destructiva), y el gerente de pro-
ducción está dispuesto a correr un riesgo con a = .OS de cometer un error del
tipo 1, calcule la potencia de la prueba y la probabilidad de cometer un error
del tipo 11 (~), si la vida promedio de población es en realidad de
(a) 24,000 millas.
(b) 24,900 millas.
11.46 Refiérase al problema 11.45. Si el gerente de producción solamente está dis-
puesto a correr un riesgo con a = .01 de cometer un error del tipo 1, calcule la
potencia de la prueba y la probabilidad de cometer un error del tipo 11 (~), si la
vida promedio de población es en realidad de
(a) 24,000 millas.
(b) 24,900 millas.
(c) Compare los resultados obtenidos en los incisos (a) y (b) de este problema
con los correspondientes del problema 11.4S. ¿A qué conclusión puede
llegar?
11.47 Refiérase al problema 1 l.4S. Si el gerente de producción selecciona una muestra
aleatoria de 2S llantas y está dispuesto a correr un riesgo con a = .OS de
cometer un error del tipo 1, calcule la potencia de la prueba y la probabilidad
de cometer un error del tipo 11 (~), si la vida promedio de población es en
realidad de
(a) 24,000 millas.
(b) 24,900 millas.
(c) Compare los resultados obtenidos en los incisos (a) y (b) de este problema
con los correspondientes del problema 11.4S. ¿A qué conclusión puede
llegar?
11.48 Refiérase al problema 11.4S. Si el gerente de producción detendrá el proceso
cuando exista evidencia de que la vida promedio es distinta de 2S,OOO millas
(ya sea menor o mayor), y se selecciona una muestra aleatoria de 100 llantas
junto con un nivel de significación de o:= .05, calcule la potencia de la prueba
y la probabilidad de cometer un error del tipo 11 (~), si la vida promedio de
población es en realidad de
(a) 24,000 millas.
(b) 24,900 millas.
(c) Compare los resultados obtenidos en los incisos (a) y (b) de este problema
con los correspondientes del problemii 11.4S. ¿A qué conclusión puede
llegar?

Planeación de un estudio: determinación


del tamaño de muestra basándose en a y ~
En la planeación de un estudio estadístico ya hemos visto, en la secdón 10.7, que
el tamaño de la muestra necesario puede ser determinado para un nivel de confian-
za y para un error de muestreo específicos. Sin embargo, en un procedimiento de
toma de decisiones, como en el caso de la prueba de hipótesis, suponiendo que se
tiene una prueba de un extremo, podemos determinar el tamaño de la muestra
necesario para un nivel de significación, a, especificado y una potencia de prueba,
(1 - ~), deseada, de la manera siguiente:

n
cr; (Z,,. - Z13 ) 2
~ ~~~~~~
(11.2)
(µo - µ1) 2

408 Capítulo 11 Fundamentos de la prueba de hipótesis


en la que CJ; = la varianza de la población
Za. =valor de Z para un nivel, a, de significación dado
Z~ = valor Z para una probabilidad dada, ¡3, de cometer un error del tipo II
~ = valor de la media de población bajo la hipótesis nula
µ1 =valor de la media de población bajo la hipótesis alternativa.
Para mostrar de qué manera podemos determinar el tamaño de muestra nece-
sario para un nivel de significación, a, especificado y una potencia deseada de
prueba, (1 - p), podemos referirnos, otra vez, a nuestro proceso de llenado de las
cajas de cereal. Suponga que el representante de la Oficina de Asuntos del
Consumidor desea tener una posibilidad de 80% (potencia) de rechazar la afirma-
ción de la compañía de que la cantidad promedio de cereal por caja es de 368
gramos (es decir, la hipótesis nula), cuando la media de la población es en realidad
igual a 360 gramos, y está dispuesto a correr un riesgo de 5% de cometer un error
del tipo I, al rechazar la hipótesis nula de que el contenido promedio es de 368
gramos, cuando de hecho sí es tal cantidad (es decir, utiliza un nivel de signifi-
cación de a= .05). ¿Cuántas cajas de cereal es necesario seleccionar para la mues-
tra? Utilizando la ecuación (11.2), tenemos

cr: (Z
n = -----'---
0 - Z~) 2
(µo - µ¡)2

y, para el proceso de llenado de cajas de cereal,

crx = 15 gramos
µ0 = 368 gramos

µ 1 = 360 gramos
Utilizando un nivel de significación de a= .05, para una prueba de un extremo, la
región de rechazo puede establecerse de la siguiente manera (véase figura 11.12).
El valor Za obtenido de la tabla E.2 es igual a -1.645, porque la región de rechazo
contiene O.OS del área bajo la curva normal (de modo que el área entre el valor
crítico inferior y la media de la hipótesis nula de 368 gramos es de .45).

Figura 1 1.1 2
Determinación del valor crítico
inferior en una prueba de un
extremo para la media de la
población cuando el tamaño de la
muestra no se conoce.

Planeación de un estudio: determinación del tamaño de muestra basándose en a y 13 409


,, ) 'Jl{ fd 360 gfétn()S 1 ' ¡.·
i ' ' ' .: .1 .~· f ',
Figura 1 1• 13 .. <] '' ·, . , ; ;·

' J ,.
Determinación del valor crítico
=
para µ 1 360 gramos, cuando no . -4'p.~ +.~
se conoce el tamaifo de muestra.

Si se desea una potencia de 80%, cuando la media real de la población es de


360 gramos, también se puede obtener el valor de Z~ de la tabla E.2 (véase figura
11.13). Como deseamos tener una potencia de 80% de rechazar una hipótesis nula
falsa (y por tanto de aceptar un 20% de riesgo de cometer un error del tipo II),
observamos que esto tiene como resultado un área de .30 entre la media de pobla-
ción real de 360 gramos y el valor crítico (que corresponde a .84 unidades de
desviaciones estándar por encima de la media de población real).
Utilizando la ecuación (11.2), el tamaño de la muestra se obtendría de la ma-
nera siguiente:

(15) (-1.645 - .84)


2 2
n = -"--'---'--------'--
(368 - 360)
2

(225)(-2.485) 2
= """-----'-'----"'-- = 21. 71
82

Por consiguiente, n = 22.


Se requeriría un tamaño de muestra de 22 cajas, si el representante de la
Oficina de Asuntos del Consumidor estuviera dispuesto a correr un riesgo de .OS
de cometer un error del tipo 1 y deseara una posibilidad de 80% de rechazar la
hipótesis nula de 368 gramos y detectar que la media de población real se ha corri-
do, de hecho, a 360 gramos. El hecho de que el gerente de producción del proceso
de alimentos de la compañía ofreciera al representante una muestra todavía más
grande (n era de 25 cajas) es un signo de "buena voluntad" por parte de la com-
pañía.

Problemas de la sección I 1.1 O


• 11.49 Refiérase al problema 11.42 de la página 407. Si el estadístico desea tener 99%
de potencia para detectar un corrimiento de la media de población de 7.0
onzas a 6.9 onzas, ¿qué tamaño de muestra debe seleccionar? (Nota: Suponga
que los datos están distribuidos normalmente.)
11.50 Refiérase al problema 11.45 de la página 408. Si el gerente de producción desea
tener 80% de potencia para detectar un corrimiento en la media de la
población de 25,000 millas a 24,000 millas, ¿qué tamaño de muestra debe
seleccionar? (Nota: Suponga que los datos están distribuidos normalmente.)

410 Caprtulo 1 1 Fundamentos de la prueba de hipótesis


11.51 Una compañía de servicios de entrega está probando .un software de
computación recién desarrollado con el propósito de aumentar la eficiencia a
través de horarios de rutina mejorados. Se intenta disminuir los gastos de
pagos de horas extras a los mensajeros. Con el fin de determinar si el paquete
de computación deberá ser adoptado o no por la compañía, el director de
planeación desea probar el paquete basándose en su aplicación. ¿Cuántos
mensajeros debe seleccionar para que participen en el estudio, si el director de
planeación desea tener una potencia de 95% para detectar una reducción de
30 minutos en los tiempos de entrega globales diarios, y está dispuesto a
aceptar un riesgo de ex= .01 (es decir, 1%), si el software utilizado actualmente
para hacer la programación indica que la desviación estándar de los tiempos
de entrega globales diarios es de 45 minutos? (Nota: Suponga que los datos
están normalmente distribuidos.)
• 11.52 La presión sistólica sanguínea representa la presión en el sistema arterial del
cuerpo humano cuando el corazón se contrae y expulsa la sangre. Los
individuos con hipotensión o baja presión sanguínea pueden requerir que su
presión sistólica sea regulada. Suponga que una compañía farmacéutica está
planeando probar una nueva medicina destinada a elevar y estabilizar la
presión sistólica sanguínea de los individuos hipotensos. ¿A cuántas personas
con esta condición médica debe seleccionarse para que participen en el
estudio si el director de planeación de la compañía desea tener una potencia
de 90% para detectar un corrimiento en la media de la población de 85
mg/mm a 90 mg/mm, y está dispuesto a aceptar un riego de ex de .OS (es decir,
5%), si estudios similares anteriores indican que la desviación estándar es de 7
mg/mm? (Nota: Suponga que los datos están distribuidos normalmente.)

Riesgos potenciales de la prueba


de hipótesis y cuestiones éticas
Hasta este punto, hemos estudiado los conceptos fundamentales de la metodología
de la prueba de hipótesis. Hemos aprendido cómo se le utiliza para el análisis de
diferencias entre estimaciones de muestra (es decir, estadísticas) de características
de población supuestas (es decir, parámetros), con el propósito de tomar decisiones
con respecto a las características subyacentes. Hemos aprendido también cómo
evaluar los riesgos implicados al tomar tales decisiones.
En particular, cuando tratamos con los resultados numéricos obtenidos de una
muestra aleatoria tomada de alguna población cuya varianza, cr;, sea conocida o se
suponga conocida, aprendimos cómo probar una hipótesis concerniente a que la
media de población, µx, es igual a algún valor especificado. El procedimiento
estadístico apropiado para llevar a cabo tal prueba de hipótesis es la prueba Z dada
en la ecuación (11.1), y la distribución de muestreo de la estadística de prueba, Z,
obedece a una distribución normal estándar. En el capítulo siguiente, introducire-
mos otros dos procedimientos de prueba estadísticos, la prueba t y la prueba de
rangos con signo de Wilcoxon, cada uno de los cuales será más apropiado que
nuestra prueba Z, si se tiene un conjunto dado de circunstancias. Parte de un buen
análisis de los datos consiste en entender las suposiciones subyacentes en cada uno
de los procedimientos de prueba de hipótesis que tenemos disponibles, y en selec-
cionar el más apropiado para un conjunto dado de condiciones.

1 1• 1 1• 1 Evitar riesgos
Cuando planeamos efectuar una prueba de hipótesis basados en algún experi-
mento diseñ.ado o en algún estudio de investigación, es necesario plantear varias
preguntas con el fin de asegurar el uso de la metodología apropiada:

Riesgos potenciales de la prueba de hipótesis y cuestiones éticas 41 1


l. ¡_Cuál es el objetivo del experimento o de la investigación? ¿Puede
traducirse en una hipótesis nula y una alternativa?
2. ¿l.a prueba de hipótesis es de un extremo o de dos?
:i. ;,Puede tomarse una muestra aleatoria de la población adyacente de
Interés?
4. ;,Qué tipo de mediciones se obtendrán de la muestra? ¿Los resultados
obtenidos a partir de la muestra de la variable aleatoria son numéricos
o categóricos?
t;. ¿A qué nivel de significación o riesgo de cometer un error del tipo 1
debe llevarse a efecto la prueba de hipótesis?
6. ¿Cuál es la potencia deseada para detectar una diferencia de un
tamaño especificado?
7. ¿El tamaño de la muestra que se intenta tomar es lo suficientemente
grande para lograr la potencia de la prueba deseada, para el nivel de
significación escogido?
8. ¿Qué procedimiento de prueba estadística se va a utilizar en los datos
muestreados y por qué?
9. ¿A qué tipo de conclusiones se puede llegar y qué interpretación se le
puede dar a los resultados de la prueba de hipótesis?
Preguntas como las anteriores necesitan ser planteadas y respondidas durante la
etapa de planeación de un experimento o de una investigación, de modo que debe
consultarse a una persona que posea un buen entrenamiento estadístico e involu-
crarla en el trabajo al inicio del proceso. Con mucha frecuencia, tal individuo es con-
sultado demasiado tarde, cuando el proceso está muy avanzado, después de que la
investigación ha sido efectuada y ya se recolectaron los datos. Típicamente, todo lo
que se puede hacer en una etapa tan avanzada es inútil. Uno podría escoger el pro-
cedimiento de prueba estadística que sería el más adecuado para los datos obtenidos
bajo la suposición de que ciertas tendencias que se han suscitado en el estudio
(debidas a una pobre planeación) son despreciables. Pero ésta es una gran suposi-
ción; una buena investigación implica una buena planeación. Para evitar tenden-
cias, deben instrumentarse los controles adecuados desde el principio. Una buena
investigación, por naturaleza, siempre mira hacia adelante, hacia el futuro, no hacia
atrás, no es retrospectiva. Recuerde el término GIGO.

1 1.1 1.2 Cuestiones éticas


Debemos intentar diferenciar entre lo que es una metodología de investigación
pobre y un comportamiento no ético. Las consideraciones éticas surgen cuando
un investigador manipula el proceso de prueba de hipótesis. Las siguientes son algu-
nas de las consideraciones éticas que surgen cuando se trata con la metodología de
prueba de hipótesis:
• Método de recolección de datos: aleatorización.
• Consentimiento informado de los sujetos humanos que son "tratados".
• Tipo de muestra: de dos extremos o de un extremo.
• Selección del nivel de significación, a.
• Curioseo de datos.
• Depuración y eliminación de datos.
• Información de los resultados.
• Meta-análisis.

• Método de recolección de datos: aleatorización Para eliminar la posi-


bilidad de tendencias potenciales en los resultados, debemos utilizar los métodos
adecuados de recolección de datos. Para ser capaces de llegar a conclusiones signi-
ficativas, los datos que obtengamos deberán ser el resultado de una muestra aleato-
ria tomada de alguna población subyacente, o el resultado de algún experimento

412 Capítulo 11 Fundamentos de la prueba de hipótesis


en el cual se empleó un proceso de aleatorización. No debe permitirse que Jos suje-
tos potenciales se autoseleccionen para un estudio. De manera parecida, no debe
permitirse que un investigador seleccione los sujetos de estudio. Además de las
potenciales cuestiones éticas que puedan surgir, tal falta de aleatorización puede
tener como resultado severos errores de cobertura o desviaciones de selección que
destruyan el valor de cualquier estudio.

• Consentimiento informado de los sujetos humanos que son "trata-


dos" Las consideraciones éticas requieren que cualquier individuo que va a ser
sometido a algún "tratamiento" en un experimento, sea informado del esfuerzo de
investigación y de cualquier efecto secundario físico o de comportamiento que pueda
existir, y obtener un consentimiento informado con respecto a su participación.
No se permite que un investigador engañe o manipule a los sujetos del estudio.

• Tipo de prueba: de dos extremos o de un extremo Si tenemos infor-


mación previa que nos lleva a probar la hipótesis nula contra una alternativa especí-
ficamente dirigida, entonces una prueba de un solo extremo será más potente que
una de dos extremos. Por el otro lado, debemos darnos cuenta de que si estamos
interesados solamente en las diferencias con respecto a la hipótesis nula, no en la
dirección de la diferencia, el procedimiento apropiado sería una prueba de dos
extremos. Éste es un punto importante. Por ejemplo, si en investigaciones y pruebas
estadísticas anteriores ya se ha establecido la diferencia en una dirección particular,
o si una teoría científica establecida afirma que solamente es posible que los resulta-
dos se presenten en una dirección, entonces se puede emplear una prueba de un
extremo o direccional. Sin embargo, estas condiciones no siempre se satisfacen en la
práctica y se recomienda que Ja prueba de un solo extremo se utilice con precaución.
Usando argumentos basados en principios éticos, Fleiss (véase referencia 3) y otros
estadísticos han establecido que, en la enorme mayoría de estudios de investigación,
se deberá emplear una prueba de dos extremos, particularmente si la intención es
informar los resultados a colegas profesionales en congresos o en artículos publica-
dos. Una de las principales razones de este planteamiento de prueba más conser-
vador es permitirnos llegar a conclusiones adecuadas sobre los datos que pueden
producir resultados no esperados y que contradicen la intuición.

• Selección del nivel de significación, a En un estudio o experimento bien


diseñado, el nivel de significación, a, se selecciona antes de la recolección de los
datos. De hecho, hemos visto, de la ecuación (11.2), de la sección 11.10, que el
nivel de significación deseado, junto con el nivel requerido de potencia estadística
determinan el tamaño de la muestra. Uno no se puede permitir alterar el nivel de
significación, después del hecho, con el propósito de lograr un resultado especí-
fico. Esto sería cometer "curioseo de datos".

• Curioseo de datos El curioseo de datos nunca se debe permitir. Sería no


ético efectuar la prueba de una hipótesis sobre un conjunto de datos, observar el
resultado y luego elegir si la prueba es de dos extremos o de uno, y/o elegir el nivel
de significación. Estos pasos deben realizarse primero, como parte del experimento
o del estudio planeados, antes de recolectar los datos, con el fin de que las conclu-
siones a las que se lleguen tengan un significado. En aquellas situaciones en las que
un investigador consulta a un estadístico ya avanzado el proceso, con los datos ya
disponibles, es imperativo que las hipótesis nula y alternativa sean establecidas y
se seleccione el nivel de significación antes de realizar la prueba de hipótesis.

• Depuración y eliminación de datos La depuración de datos no es


curioseo de datos. Es una parte importante de un análisis global, recuerde el pro-
cedimiento GIGO. Podemos recordar, de los capítulos 2 y 3, que ya que se recogió
un conjunto de datos numéricos sin procesar, éstos deben ser preparados, intro-
ducidos y organizados para un análisis mayor. En la etapa de preparación de datos,

Riesgos potenciales de la prueba de hipótesis y cuestiones éticas 41 1


rn11sistente en la edición, codificación y transcripción, uno tiene la oportunidad
de revisar los archivos o registros en busca de cualquier observación cuya medida
parezca ser extremosa o inusual. Ya que el conjunto de datos es introducido a un
archivo de computadora, éste debe cotejarse con la lista original, lo cual da una
segunda oportunidad de corregir errores. Después de que se haya hecho lo ante-
rior, deben organizarse los resultados de las variables numéricas del conjunto de
datos en diagramas de tallo y hojas y en gráficas de caja y bigotes, preparándose
para la presentación de más datos y para realizar un análisis de confirmación. Esta
etapa de análisis exploratorio de datos nos da una tercera oportunidad de depurar el
conjunto de datos mediante el señalamiento de las observaciones que salen de lo
común y que necesitan ser revisadas con respecto a los archivos o registros origi-
nales. Además, el análisis exploratorio de datos nos permite examinar los datos de
una manera gráfica con respecto a las suposiciones que subyacen en un procedi-
miento particular de prueba de hipótesis, necesarias para realizar el análisis de con-
firmación.
El proceso de depuración de datos hace surgir una de las principales preguntas
éticas. ¿Debe eliminarse una observación de un estudio? La respuesta es un "sí" cali-
ficado. Si se puede determinar que una medición es incompleta o que es errónea
debido a algún problema con el equipo de medición o debido a un compor-
tamiento inusual no relacionado con el estudio, se puede tomar la decisión de
eliminar la observación correspondiente. En ocasiones no queda otra alternativa:
un ratón en un experimento de laboratorio muere inadvertidamente antes de que
se tome una medición final, o un individuo decide abandonar un estudio particu-
lar en el cual ha estado participando antes de que se pueda tener una medición
final. El análisis de tales datos censurados es algo común en el campo de la
bioestadística, en donde regularmente se llevan a cabo experimentos que tratan
sobre la posible efectividad de alguna medicina o de algún tratamiento utilizado
ya sea en animales de laboratorio o en seres humanos (véase referencia S). En un
experimento o en un estudio bien diseñados, el investigador planifica, por ade-
lantado, las reglas de decisión correspondientes a la posible eliminación de datos.

• Información de resultados Cuando se efectúa una investigación, es de vital


importancia documentar los resultados, buenos y malos, de modo que los indivi-
duos que continúen tal investigación no tengan que "reinventar la rueda Sería 11

poco apropiado informar los resultados de las pruebas de hipótesis que muestren
significación estadística y no hacerlo con aquellos para los cuales existe insuficiente
evidencia en los resultados. El informar de todos los resultados sobre una materia
en particular es de especial importancia cuando se va a efectuar un meta-análisis.

• Meta-análisis El meta-análisis es una controvertida metodología que uti-


liza el marco de la prueba de hipótesis como su fundamento.
El Meta-análisis es una metodología objetiva y cuantitativa que se
utiliza para combinar y resumir esfuerzos de investigación previos sobre
una materia en especial, para conformar un resultado general o global.
Los propulsores del meta-análisis argumentan que en realidad no hay una meto-
dología alternativa objetiva para sintetizar resultados de investigación anteriores
(véanse referencias 4 y 11). Siempre que un investigador planea un experimento
para investigar alguna hipótesis teórica, es esencial, como parte de la base del pro-
yecto, emprender una revisión de literatura en busca de resultados anteriores. Se
ha argumentado que estudios múltiples de la misma materia o tópico deben con-
siderarse como un complejo conjunto de datos que requieren el mismo tipo de
análisis estadístico detallado que el que sería necesario llevar a cabo en cualquier
estudio que contenga numerosas observaciones. Irónicamente, sin el meta-análisis
las búsquedas de literatura tradicionales se han llevado a efecto de manera no cien-
tífica, sujetas a las parcialidades e interpretaciones del investigador que las realiza.

414 Capítulo 11 Fundamentos de la prueba de hipótesis


Un meta-análisis bien hecho no tiene estas deficiencias; y, como lm lídert•s dl'lt•11
sores de la metodología argumentan, existe una necesidad real de utilizar el meta-
análisis para integrar los resultados de investigaciones anteriores, pues es raro que
un solo experimento o estudio proporcione suficientes respuestas definitivas sobre
las cuales basar políticas gubernamentales o empresariales.
Sin embargo, el meta-análisis tiene su ración de escépticos que piensan que la
metodología contiene muchos escollos y da lugar a varias cuestiones éticas. Mientras
que se tiene la intención de proporcionar una compilación o síntesis objetiva de di-
ferentes estudios o experimentos, presumiblemente relacionados entre sí, con el pro-
pósito de llegar a una sola conclusión general, hay muchos investigadores que creen
que la metodología del meta-análisis, a menudo, no es otra cosa que una "ensalada
de frutas estadística", una compilación de estudios llevados a cabo bajo diferentes
condiciones y que pudieron haber utilizado métodos diferentes, distintas defini-
ciones operacionales y escalas de medición, y diferentes tipos de sujetos (es decir,
manzanas, naranjas, peras y uvas), y que ninguna conclusión lógica puede obtenerse
de tal conglomerado. Incluso uno de los principales defensores de la metodología,
Ingram Olkin, ha advertido que "efectuar un meta-análisis es fácil, hacerlo bien es
difícil" (referencia 8). Así pues, debemos ser precavidos con respecto a los resultados
de un estudio meta-analítico, debemos documentarnos acerca de éste y analizar de
manera crítica la forma en que fue hecho, antes de aceptar las conclusiones.

• Consideraciones éticas: resumen De nuevo, cuando analizamos las cues-


tiones éticas concernientes a la metodología de prueba de hipótesis, la clave es
intentar. Debemos diferenciar entre un análisis de datos pobremente confirmativo
y una práctica no ética. El comportamiento no ético se presenta cuando un inves-
tigador, premeditadamente, hace que haya una selección tendenciosa de los datos
de la muestra, manipula el trato de los seres humanos sin conseguir su consen-
timiento informado, utiliza el curioseo de datos para elegir el tipo de prueba (de
dos extremos o de un extremo) y/o el nivel de significación para sus propósitos,
esconde los hechos mediante la eliminación de observaciones que no apoyan una
hipótesis establecida o no informa sobre los resultados pertinentes.

Metodología de la prueba de hipótesis:


un repaso y una visión preliminar
En el diagrama de la página 416, se presenta un resumen del capítulo 11. Este capí-
tulo presenta la estructura fundamental de la metodología de la prueba de hipóte-
sis. En la página 384 de la sección 11.1, se presentó una lista con los puntos
principales que se analizaron a lo largo del capítulo. Revise ahora la lista para ver
si ha adquirido un entendimiento de tales puntos clave. Para estar seguro, debería
ser capaz de responder las siguientes preguntas conceptuales:
l. ¿Cuál es la diferencia entre una hipótesis nula (H0) y una hipótesis
alternativa (H1 )?
2. ¿Cuál es la diferencia entre un error del tipo 1 y uno del tipo 11?
3. ¿Qué se quiere decir con la potencia de una prueba?
4. ¿Cuál es Ja diferencia entre una prueba de un extremo y una de dos
extremos?
S. ¿Qué se quiere decir con valor p?
6. ¿De qué manera una estimación de intervalo de confianza para la
media de la población proporciona conclusiones con respecto a la
correspondiente prueba de hipótesis para la media de la población?
7. ¿Cuáles son las interrelaciones entre a, p, n y el tipo de prueba (es
decir, de un extremo o de dos extremos)?

Metodología de la prueba de hipótesis: un repaso y una visión preliminar 41 5


416 Capítulo 11 Fundamentos de la prueba de hipótesis
8. ¿Cuál es la metodología paso a paso de la prueba de hipótesis?
9. ¿Cuáles son algunas de las cuestiones éticas de las cuales se debe uno
preocupar al realizar una prueba de hipótesis?
Verifique la lista de preguntas para ver si, efectivamente, conoce las respuestas
y puede (1) explicar sus respuestas a alguna persona que no haya leído el capítulo
y (2) proporcionar referencias o ejemplos específicos que apoyen su respuesta.
También, vuelva a leer cualquiera de las secciones que le parecieron menos claras
para ver si ahora tienen sentido.
En los siguientes cuatro capítulos, construiremos sobre los cimientos de la
prueba de hipótesis que hemos analizado aquí. Presentaremos un conjunto de pro-
cedimientos que pueden ser empleados para verificar o confirmar de manera
estadística los resultados de estudios y experimentos diseñados en una variedad de
condiciones distintas.

Uniéndolo todo

Términos clave
aleatorización 412 metodología de prueba de hipótesis 384
coeficiente de confianza (1 - a) 388 potencia de una prueba (1 - p) 389
curioseo de datos 413 probabilidad de un error del tipo 11 @) 388
curva de potencia 405 prueba de dos extremos 391
datos censurados 414 prueba direccional o de un extremo 398
a (nivel de significación) 388 pruebaZ 390
error del tipo 1 388 región crítica 387
error del tipo 11 388 región de no rechazo 387
estadística de prueba Z 391 región de rechazo 387
hipótesis alternativa (H1) 385 riesgo p 388
hipótesis nula (H0) 385 valor crítico 387
meta-análisis 414 valor p 394

Problemas de repaso del capítulo


11.53 tNdlJl·i·I» Escriba una carta a un amigo que no ha tomado un curso de
estadística y explíquele de qué se trata el presente capítulo. Para resaltar el
contenido del capítulo, asegúrese de incorporar las respuestas que dio a las
nueve preguntas de repaso de la página 415 y del inicio de la presente página.
f 11.54 Cuando planea efectuar una prueba de hipótesis basándose en algunos experi-
mentos diseñados o en estudios de encuesta bajo investigación, ¿cuáles son
algunas de las preguntas que necesitan ser planteadas con el fin de asegurar el
uso de la metodología adecuada?
e 11.55 Un hombre de negocios está considerando el establecimiento de un servicio de
venta a domicilio de desayunos y roscas de pastel, los domingos, en un subur-
bio local, y desea efectuar una encuesta. Basándose en el costo del servicio y de
las ganancias que obtendría, ha llegado a la siguiente conclusión: Si hay evi-
dencia de que el promedio de pedidos es de más de $14 por familia en el área
suburbana escogida, entonces establecería el servicio de venta a domicilio. Si

Problemas de repaso del capítulo 417


no se obtiene ninguna evidencia, el servicio de venta no se establecería.
Basado en experiencias pasadas en otros suburbios diferentes, estima que la
desviación estándar es de $3. El hombre de negocios está dispuesto a correr un
riesgo de 0.01 de cometer un error del tipo 1 y establecer el negocio cuando el
promedio de pedidos sea en realidad de al menos $14 por familia.
(a) Si el negociante desea tener una posibilidad de 97.S% de establecer el ser-
vicio de venta de comida cuando el promedio real de pedidos de
población es de $17, ¿qué tamaño de muestra debe seleccionar? (Nota:
Suponga que los datos están normalmente distribuidos.)
El hombre de negocios decide que se debe encuestar una muestra aleatoria de
36 familias.
(b) Calcule la probabilidad de establecer el servicio de venta de comida
cuando el promedio de pedidos es en realidad de $1S por familia.
(c) Calcule la probabilidad de establecer el negocio de venta de comida
cuando el promedio de pedidos es en realidad de 17 por familia.
(d) Analice las diferencias en los resultados obtenidos en los incisos (a) y (c).
Si el negociante está dispuesto a aceptar un riesgo de O.OS (en lugar de un
riesgo de 0.01) de que se establezca el servicio de venta de comida a domicilio
cuando el promedio de pedidos sea de al menos de $14 por familia, calcule la
probabilidad de establecer el negocio cuando, en realidad, el promedio de
pedidos es de:
(e) $1S por familia.
(f) $17 por familia.
(g) Compare los resultados obtenidos en los incisos (e) y (f) con los obtenidos
en los incisos (b) y (c). ¿A qué conclusiones puede llegar en este punto?
Si el hombre de negocios está dispuesto a seleccionar una muestra aleatoria de
64 familias y está dispuesto también a correr un riesgo de a = .01 de cometer
un error del tipo 1, calcule la probabilidad de establecer el negocio de venta de
comida a domicilio cuando el promedio real de pedidos es de:
(h) $1S por familia.
(i) $17 por familia.
(j) Compare los resultados obtenidos en los incisos (h) e (i) con los resultados
obtenidos en (b) y (c). ¿A qué conclusiones puede llegar en este punto?
En realidad se encuesta una muestra de 36 familias. De esta muestra, X, el
promedio de pedidos prometidos, es de $1S.66. Suponiendo que la desviación
estándar de la población (crx) en este suburbio es de $3:
(k) Estime con un 99% de confianza el promedio de pedidos de población
prometidos.
(1) Utilizando un nivel a de .01, determine si existe evidencia de que µx, el
promedio de población de pedidos prometidos, es mayor que $14.
(m) Basándose en los resultados obtenidos en el inciso (l), ¿qué decisión
debería tomar el hombre de negocios con respecto al establecimiento del
servicio de venta de comida a domicilio? ¿Por qué?
ll.S6 Al director de una gran cadena de tiendas de descuento que vende juguetes le
gustaría determinar si debe venderse un cierto juguete, y está considerando la
posibilidad de llevar a cabo una encuesta. Basándose en experiencias pasadas
con juguetes parecidos, el director de comercialización de la cadena ha deci-
dido que el juguete debe venderse solamente si se tiene evidencia de que los
ingresos por la venta bruta mensual del juguete tengan un promedio mayor a
$10,000, en toda la cadena de tiendas. Basado en su experiencia anterior, la
desviación estándar se estima en $1,000. El director de comercialización está
dispuesto a correr un riesgo de O.OS de cometer un error del tipo l y comer-
cializar el juguete cuando los ingresos promedio mensuales por la venta del
producto no son realmente de más de $10,000.
(a) Si el director de comercialización desea tener una posibilidad de 80% de
poner a la venta el juguete cuando el promedio de ingresos mensuales por
la venta del producto es de $10,SOO, ¿qué tamaño de muestra debe selec-
cionar? (Nota: Suponga que los datos están distribuidos normalmente.)
Una muestra aleatoria de ZS almacenes seleccionada para un periodo de
prueba de comercialización de un mes.

418 Capitulo 1 1 Fundamentos de la prueba de hipótesis


(b) Calcule la probabilidad de que el juguete sea puesto a la venta cuando los
ingresos promedio mensuales por la venta del producto sean realmente de
$10,500.
(c) Calcule la probabilidad de que el juguete sea puesto a la venta cuando los
ingresos promedio mensuales por la venta del producto sean realmente de
$10,800.
(d) ¿Cuál podría ser la explicación de las pequeñas discrepancias que hay en
los resultados obtenidos en los incisos (a) y (b)?
Si el director de comercialización está dispuesto a correr un riesgo de 0.10 (en
lugar de un riesgo de .05) de poner a la venta el juguete cuando los ingresos
mensuales por su venta no sean mayores a $10,000, calcule la probabilidad de
que el juguete sea puesto a la venta cuando los ingresos promedio mensuales
por la venta del producto sean realmente de:
(e) $10,500.
(f) $10,800
(g) Compare los resultados obtenidos en los incisos (e) y (f) con los obtenidos
en los incisos (b) y (c). ¿A qué conclusiones puede llegar en este punto?
Si el director de comercialización solamente pudiera seleccionar una muestra
de 16 tiendas, en las cuales probar la comercialización del juguete, y estuviera
dispuesto a correr un riesgo de a = .05 de cometer un error del tipo I, calcule la
probabilidad de comercializar el juguete cuando los ingresos mensuales
promedio por la venta del producto sean en realidad de:
(h) $10,500
(i) $10,800
(j) Compare los resultados obtenidos en los incisos (h) e (i) con los obtenidos
en los incisos (b) y (c). ¿A qué conclusiones puede llegar en este punto?
De la muestra de 25 tiendas que, de hecho, se investigaron, X, los ingresos
promedio por la venta del producto, durante el periodo de prueba de un mes,
es de $10 420. Suponiendo que la desviación estándar de la población (ax),
basándose en la experiencia pasada con la comercialización de juguetes
parecidos, es de $1,000:
(k) Estime con una confianza de 95% los ingresos mensuales promedio por la
venta de juguetes.
(1) Utilizando un nivel a de O.OS, determine si existe evidencia de que µx, los
ingresos promedio mensuales de población por la venta del juguete, es
mayor que $10,000.
(m) Basado en sus resultados del inicio anterior, ¿qué decisión debería tomar
el director de comercialización respecto a este juguete? ¿Por qué?

No tas finales
l. Una forma sencilla de recordar qué probabilidad corre- 2. Para situaciones que implican pruebas de un extremo en
sponde a qué tipo de error consiste en observar que a es la las que la media real, µ1, realmente excede a la media
primera letra del alfabeto griego, y se le utiliza para repre- supuesta, lo inverso sería verdadero. Cuanto más grande
sentar la probabilidad de cometer un error del tipo I. La sea la media real, µ 1, comparada con la media supuesta,
letra f3 es la segunda letra del alfabeto griego y se le utiliza mayor será la potencia. Por el otro lado, para pruebas de
para representar la probabilidad de cometer un error del dos extremos, mientras más grande sea la distancia entre la
tipo Il. (Si tiene problemas para recordar el alfabeto griego, media real, µ 1, y la media supuesta, mayor será la potencia
observe que la palabra alfabeto indica sus dos primeras de la prueba.
letras.)

Notas finales 419


lfofürnncioH
1. Hercnson, M.L., D.M. Levine y M. Goldstein, Inter- 7. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
nwúlate Statlstical Methods and Applications: A Computer Additional lnstructions for SPSS/PC+ (Chieago, IL: SPSS
l'Clckage Approach (Englewood Cliffs, NJ: Prentiee Hall, !ne., 1986).
19!!3). 8. Olkin, l., "Meta-Analysis: Current Issues in Research
2. Dlxon, W.J. y F.J. Massey, Jr., Introduction to Statistical Synthesis" ponencia invitada en el Memorian-Sloan
Analysis 4a. ed. (Nueva York: MeGraw-Hill, 1983). Kettering Caneer Center, Ciudad de Nueva York, 5 de
diciembre de 1990.
:t Fleiss, J.L., Statistical Methods for Rates and Proportions,
2a. ed. (Nueva York: Wiley, 1981). 9. SAS User's Guide Version 6 (Raleigh, NC: SAS lnstitute,
1988).
4. Glass, G.V., "Primary, Seeondary, and Meta-Analysis of
Researeh" Educational Researcher, 1976, vol. 5, pp. 3-8. 10. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
Software, !ne., 1992).
5. Lee, E.T., Statistical Methods for Survival Data Analysis
(Belmont, CA: Wadsworth, 1980). 11. Wolf, F.M., Meta-Analysis: Quantitative Methods for
Research Synthesis, Serie de artículos de la Universidad
6. MINITAB Reference Manual Release 8 (State College, PA: Sage sobre aplicaciones cuantitativas en las ciencias
MINITAB, !ne., 1992). sociales (Beverly Hills, CA: Sage, 1986).

420 Capítulo 11 Fundamentos de la prueba de hipótesis


capítulo

Pruebas de una muestra


con datos numéricos
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Extender los principios básicos de la
metodología de prueba de hipótesis
CAPÍTULO hacia las pruebas de una muestra más
comúnmente utilizadas, que Implican
datos numéricos. Se desarrollan y
utilizan las pruebas de hipótesis para
la media, para la mediana, para la
varianza o la desviación estándar y
para la aleatorización, con el
propósito de mostrar las diferencias
existentes entre los procedimientos
paramétricos, los procedimientos
libres de distribución y los no
paramétricos, así como indicar sus
ventajas y desventajas.

421
1111 Introducción
En el capitulo 11 se expusieron los conceptos fundamentales de la metodología de
prueba de hipótesis. Cuando tratamos con una muestra que contiene datos nu-
méricos, utilizamos una prueba Z para determinar si la media de la población, µx,
es igUal a algún valor especificado (es decir, supuesto). La prueba Z que se emplea
esté basada en la condición de que la desviación estándar real de la población, ax,
es conocida o se supone que toma un valor específico. Tales situaciones de prueba
de hipótesis, sin embargo, no son comunes. Se presentan con más frecuencia las
situaciones de prueba de hipótesis que implican la toma de decisiones basándose
solamente en la información de la muestra.
En el presente capítulo, extenderemos los principios básicos de la metodología
de la prueba de hipótesis a las pruebas, empleadas más a menudo, de hipótesis de
una sola muestra que implican datos numéricos. En particular, describiremos cua-
tro procedimientos útiles de prueba de hipótesis que pueden ser empleados.
Desarrollaremos las pruebas de hipótesis para la media, para la mediana, para la
varianza o desviación estándar y para la aleatoriedad. Se pondrá énfasis en las
suposiciones que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de
l. Saber cuándo y cómo utilizar la prueba t para la media de la población, µx.
2. Saber cuándo y cómo utilizar la prueba de rangos con signo de
Wilcoxon para la mediana de la población, Mx.
3. Entender el concepto de robustez.
4. Saber cuándo y cómo utilizar la prueba x2 para la varianza de la
población, rr;,
o para la desviación estándar ªx·
5. Entender el concepto de aleatorización y la idea de "corridas".
6. Saber cuándo y cómo utilizar la prueba de corridas de una muestra de
Wald-Wolfowitz para la aleatorización.
7. Diferenciar entre las pruebas paramétricas clásicas, las pruebas libres
de distribución y las pruebas no paramétricas, incluyendo sus ventajas
y sus desventajas.
8. Entender la importancia del escalamiento nominal, ordinal, de intervalo
y de cociente en la selección de un procedimiento de prueba estadística.

1fij Elección del procedimiento


de prueba apropiada
Podemos recordar, de la sección 11.4, que cuando resumimos los pasos implicados
en la metodología de la prueba de hipótesis (véanse las páginas 393-394), una de
las principales consideraciones es la selección de la técnica estadística apropiada y
su correspondiente estadística de prueba. Parte de un buen análisis de datos con-
siste en entender las suposiciones que subyacen en cada uno de los procedimien-
tos de prueba de hipótesis-con los que nos vamos a encontrar, y seleccionar el más
apropiado para un conjunto dado de condiciones. Como veremos en el presente
capítulo, todos los procedimientos de prueba de hipótesis pueden ser descritos
ampliamente como paramétricos, libres de distribución o no paramétricos.

11.1.1 Procedimientos paramétricos


En el capítulo 11 utilizamos un procedimiento paramétrico, la prueba Z [dada por
la ecuación (11.1)] para probar una hipótesis con respecto a una media de pobla-
ción. En este capítulo examinaremos dos procedimientos paramétricos más, la

422 Capítulo 12 Pruebas de una muestra con datos numéricos


prueba t para una media de población y la prueba x2 para una varianza de pobla-
ción o una desviación estándar. Todos los procedimientos paramétricos tienen tres
características distintivas:
Los procedimientos de prueba paramétricos pueden definirse
c.mn_q_aquellos que (1) requieren que el nivel de medición obtenido con
los datos recolectados esté en forma de una escala de intervalo o de una
escala de cociente (véase sección 2.3), (2) implican la prueba de hipótesis
de valores de parámetro especificados (como µx = 368 gramos) y (3)
requieren un conjunto limitante de suposiciones.
Sin embargo, debemos. decidir qué tipos de procedimientos escoger si
l. Las mediciones obtenidas con los datos son solamente categóricas (es
decir, están escaladas nominalmente) o en rangos (es decir, están escala-
das ordinalmente).
2. Las suposiciones subyacentes en el uso de los métodos paramétricos
pueden no cumplirse.
3. La situación requiere el estudio de características tales como aleatoriza-
ción, independencia, simetría o bondad de ajuste en lugar de la prueba de
hipótesis con respecto a valores específicos de parámetros de
población en particular.

1 2.2.2 Procedimientos sin distribución y no paramétricos


Cuando no se pueden aplicar los métodos paramétricos de la prueba de hipótesis,
como en circunstancias iguales a éstas, se pueden elegir métodos libres de dis-
tribución o no paramétricos de prueba de hipótesis (referencias 2 y 3).
Los procedimientos de prueba sin distribución pueden definirse
ampliamente como (1) aquellos cuya estadística de prueba no depende
de la forma de la distribución de la población subyacente de la cual se
tomó la muestra de datos o como (2) aquellos para los cuales los datos
no tienen fuerza suficiente (es decir, están escalados nominalmente u
ordinalmente) para garantizar operaciones aritméticas significativas.
Los procedimientos no _paramétricos pueden definirse como
aquellos que no tienen que ver con los parámetros de una población.
En el presente capítulo describiremos un procedimiento libre de distribución, la
prueba de rangos con signo de Wilcoxon para una mediana supuesta, y un proce-
dimiento no paramétrico, la prueba de corridas de una muestra de Wald-Wolfowitz
para la aleatoriedad.
Existen cinco principales ventajas del uso de procedimientos sin distribución
o de procedimientos no paramétricos:
l. Pueden utilizarse en todo tipo de datos: categóricos (escalados nominal-
mente), en forma de rangos (escalados ordinalmente), así como en datos que
han sido medidos con más precisión (escalados de intervalo o de cociente).
2. Por lo general son fáciles de aplicar y rápidos de calcular, cuando los ·
tamaños de muestra son pequeños. En algunas ocasiones son tan
sencillos como el hecho de contar qué tan a menudo aparece alguna
característica en los datos.
3. Implican un menor número de suposiciones menos limitantes (que se
pueden cumplir con más facilidad) que los métodos paramétricos.
En consecuencia, tiepen una mayor aplicabilidad y producen un
conjunto de conclusiones más general y con una base más amplia.
4. Los métodos no paramétricos permiten la resolución de problemas
que no implican la prueba de parámetros de la población.
5. Dependiendo del procedimiento particular elegido, los métodos sin ·
distribución pueden ser igualmente (o casi) poderosos que el procedimiento
paramétrico correspondiente cuando las suposiciones del último se
cumplen, y cuando no se cumplen pueden ser bastante más poderosos.

Elección del procedimiento de prueba apropiado 423


A pesar de que los procedimientos sin distribución y los no paramétricos
pueden ser empleados de manera ventajosa en una variedad de situaciones, poseen
tres principales desventaja's:
l. Resulta desventajoso utilizar métodos libres de distribución cuando se
pueden cumplir todas las suposiciones del procedimiento paramétrico.
2. Conforme aumenta el tamaño de la muestra, la manipulación de
datos requerida para efectuar los procedimientos sin distribución y los
no paramétricos es, a menudo, laboriosa, a menos que se disponga de
un paquete de software adecuado.
3. Con frecuencia se necesitan tablas especiales de valores críticos para las
estadísticas de prueba obtenidas mediante el uso de procedimientos sin
distribución o de procedimientos no paramétricos, y no es tan fácil
disponer de tales tablas como en el caso de las requeridas para obtener
los valores críticos para las estadísticas de prueba de los procedimientos
paramétricos (Z, t y x 2).

12.2.J Importancia de las suposiciones en la selección


de la prueba
La sensibilidad de los procedimientos paramétricos a la violación de las suposi-
ciones ha sido tema de consideración en la literatura estadística (referencias 1y2).
Se dice que algunos procedimientos de prueba paramétricos son robustos porque
son relativamente insensibles a ligeras violaciones en las suposiciones. Sin embar-
. go, cuando las violaciones son grandes, tanto el nivel de significación (a) como la
potencia de la prueba (1 - ~) reales pueden diferir grandemente de lo que cabría
esperar en otras circunstancias. En tales casos, una prueba paramétrica sería no vá-
lida y debería seleccionarse, en su lugar, un procedimiento sin distribución.
Por otro lado, no es ventajoso utilizar un procedimiento libre de distribución
cuando todas las suposiciones de la correspondiente prueba paramétrica pueden
lograrse. A menos que se utilice un procedimiento paramétrico en estos casos, no
se estarían aprovechando los datos en toda su capacidad. Algo de la información se
pierde cuando convertimos los datos recabados (de una escala de intervalo o de
cociente) a rangos (escala ordinal) o a categorías (escala nominal). En particular, en
tales circunstancias, algunas pruebas sin distribución, que son muy rápidas y sen-
cillas de aplicar, tienen mucha menos potencia y, por lo general, deben evitarse.
Conforme investiguemos una variedad de procedimientos de prueba de
hipótesis a lo largo de los capítulos 12 a 15, veremos cómo parte de un buen análi-
sis de datos consiste en entender las suposiciones que subyacen en cada uno de los
procedimientos de prueba de hipótesis que encontraremos, y en seleccionar el pro-
cedimiento más apropiado para un conjunto dado de condiciones.

lfll Prueba t de hipótesis para la


media (rrx desconocida)

12.J. I Introducción
En la mayoría de las situaciones de prueba de hipótesis en las que se tratan datos
numéricos, se desconoce la desviación estándar, ax, de la población. Sin embargo,
la desviación estándar real de la población se estima mediante el cálculo de S, la
desviación estándar de la muestra. Si se supone que la población está normalmente
distribuida, de la sección 10.3, podemos recordar que la dishibución de muestreo
de la media seguirá una distribución t, con n - 1 grados de libertad. En la práctica,
se tiene que, siempre y cuando el tamaño de la muestra no sea muy pequeño y la

414 Capítulo 11 Pruebas de una muestra con datos numéricos


población no esté muy sesgada, la distribución t da una buena aproximación de la
distribución de muestreo de la media. La estadística de prueba para determinar
la diferencia entre la media de la muestra, X, y la media de la población, µx, cuando
la desviación estándar de la muestra, S, está dada por

::
·'
1'.• , (12.1)

12. 3 .2 Applicación
Para ilustrar el uso de la prueba t (de una muestra), suponga que un fabricante de
baterías afirma que la capacidad promedio de un cierto tipo de batería, producida
por la compañía, es de al menos 140 amperios-hora. Una agencia independiente de
protección al consumidor desea probar la credibilidad de la afirmación del fabri-
cante y mide la capacidad de una muestra aleatoria de 20 baterías, tomadas de un
lote producido recientemente. Los resultados, en amperios-hora, son los siguientes:

137.4 140.0 138.8 139.1 144.4 139.2 141.8 137.3 133.5 138.2
141.1 139.7 136.7 136.3 135.6 138.0 140.9 140.6 136.7 134.1

Como la agencia de protección al consumidor está interesada en saber si la afirma-


ción del fabricante es exagerada o no, la prueba es de un extremo; se establecieron
las siguientes hipótesis nula y alternativa:

H 0 : µx ~ 140 amperios -horas


H 1 : µ x < 140 amperios -horas

Si se selecciona un nivel de significación de ex.= .05, el valor crítico de la distribu-


ción, con 20 - 1=19 grados de libertad, puede obtenerse de la tabla E.3, como se
ilustra en la figura 12.1 y en la tabla 12.1 de la página 426. Puesto que la hipótesis
alternativa, H1, de que µx < 140 amperios-hora es direccional, la región de rechazo

Figura 12.1
Prueba de una hipótesis con
respecto a la media (a,.
desconocida) al nivel de
significación de .05, con
19 grados de libertad.

Prueba t de hipótesis para la media (a,. desconocida) 425


Tabla 12.1 Determinación del valor crítico de la tabla t para un área de .OS en un
extremo, con 19 grados de libertad.
Áreas del extremo superior
Grados de
libertad .25 .10 .os .025 .01 .005
1 1.0000 3.0777 6.3 38 12.7062 31.8207 63.6574
2 0.8165 1.8856 2.9 00 4.3027 6.9646 9.9248
3 0.7649 1.6377 2.3 34 3.1824 4.5407 5.8409
4 0.7407 1.5332 2.1 18 2.7764 3.7469 4.6041
5 0.7267 1.4759 2.0 so 2.5706 3.3649 4.0322

16 0.6901 1.3368 1.7 59 2.1199 2.5835 2.9208


17 0.6892 1.3334 1.7 96 2.1098 2.5669 2.8982
18 0.6884 1.3304 1.7 41 2.1009 2.5524 2.8784
)
l9 0.6876 1.3277 1.7291, 2.0930 2.5395 2.8609
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453
Fuente: Extraída de la Tabla E.3.

completa de .OS está contenida en el extremo izquierdo de la distribución t. De la


tabla t, dada en la tabla E.3, cuya réplica reproducimos a continuación, el valor
crítico es -1.7291. La regla de decisión es

Rechazar; H 0 si t< t19 = -1.7291;


en cualquie~otro caso, no rechazar H 0 •

Para este conjunto de datos


n n
LX¡
i=l
= 2, 769.4 L X¡
i=l
2 = 383, 613.16 n = 20
Así,

X= _i=_I_ = 2, 769.4 = 138.47


n 20
y
n 2
:¿x; -nX
Sz = _i_=_I~~~~ 383, 613.16 - (20)(138.47) 2
-----'----'-------'-- = 7.0706
n-1 20 - 1
de modo que

S= 2.66

Utilizando la ecuación (12.1), tenemos

t = = 138.47 - 140 = -2 57
2.66 .
5<)

426 Capitulo 12 Pruebas de una muestra con datos numéricos


Como t = -2.5 7 < t 19 = -1. 7291, la decisión es rechazar H0 • Existe evidencia para
creer que la afirmación del fabricante es exagerada, y la agencia de protección al
consumidor debería iniciar alguna medida correctiva en contra de la compañía.

l l.3.3 Aproximación del valor p


A menos que podamos utilizar un paquete de software estadístico, la obtención del
valor p de la distribución t es extremadamente difícil. Sin embargo, podemos uti-
lizar tablas de la distribución t (tabla E.3) para aproximar el valor p. El valor calcu-
lado de la estadística de prueba con 19 grados de libertad es de -2.5 7. De la tabla
E.3, observamos que, debido a la simetría de la distribución t, sólo se muestran los
valores críticos del extremo superior. En consecuencia, si despreciamos el signo
negativo con el propósito de utilizar la tabla, observamos que el valor crítico para
un área de extremo superior de .01 es de 2.5395, y el valor crítico para un área de
extremo superior de .005 es de 2.8609. Como 2.57 está entre estos dos valores,
sabemos también que la probabilidad de obtener un valor t igual o mayor a 2.5 7
está entre .005 y .01. Debido a la simetría de la distribución t, la probabilidad de
obtener un valor t igual o menor que -2.5 7, también, se encuentra entre .005 y .O l.
Así pues, podemos establecer que el valor p para esta prueba t de una muestra está
entre .005 y .01. Puesto que cada uno de estos valores es menor que .OS, el nivel
escogido de significación, la hipótesis nula es rechazada.

l l. 3 .4 Suposiciones de la prueba t de una muestra


Para un tamaño de muestra dado, n, la estadística de prueba, t, sigue una distribu-
ción t, con n - 1 grados de libertad. Como observamos en la tabla E.3, basada en
los grados de libertad disponibles, cada una de las hileras corresponde a una dis-
tribución t en particular.
La prueba t de una muestra está considerada como un procedimiento paramé-
trico clásico. Como tal, requiere de un cierto número de suposiciones limitantes
que deben cumplirse si queremos estar seguros de que los resultados obtenidos al
emplear la prueba son válidos. En particular, para utilizar la prueba t de una mues-
tra se supone que los datos numéricos obtenidos son tomados de manera inde-
pendiente y representan una muestra aleatoria de la población que está distribuida
normalmente.
Como vimos en la sección 8.5, la suposición de normalidad puede verificarse
de varias maneras. Se puede hacer una determinación de qué tanto los datos reales
se ajustan a las propiedades teóricas de la distribución, mediante un análisis
descriptivo de las estadísticas obtenidas junto con un análisis gráfico para propor-
cionar una interpretación visual. Así pues, mediante la exploración de los datos de
. la muestra a través de un estudio de sus medidas sumarias descriptivas, junto con
un análisis gráfico (es decir, una representación de tallo y hojas, una gráfica de caja
y bigotes y una curva de probabilidad normal), podemos llegar a nuestras propias
conclusiones sobre la posibilidad de que la población subyacente esté, al menos,
aproximadamente distribuida de manera normal. Utilizando los datos de la capaci-
dad de las baterías en amperios-hora, en la figura 12.2 de la página 428 se muestra
el resultado obtenido con el paquete MINITAB, en ésta se observan las medidas
sumarias descriptivas, el diagrama de tallo y hojas, la gráfica de caja y sesgos y una
curva de probabilidad normal. A partir de éstos, se puede llegar a la conclusión.,de
que no existe razón para creer que la suposición de una población subyacente nor-
mal sea violada de manera significativa, y podemos concluir que los resultados
obtenidos por la agencia de protección al consumidor son válidos.

Prueba de hipótesis t para la media (crx desconocida) 427


MEAN
138 .47''' ··~~~~~: '.:~~?' ·sfüw·
1 ~!;~6 :
s~
·:·ci~~!f"'
}; i:~· ;~(.; h' ; . :.~:.~·~:',\·'.: \. ·:· · . '. >-..:·:-../
MAX
144.40

m,-and-leaf of . am~.~i:s..
'~f''úrlit= 0'.10
·e~:· . .· .
~,,¡;;.4 ·:'
~kivt 1 1 133 5
i;,1t U+ , 2 134; 1
3 135 6
)!~)¡:, ' 6 136 377
~·im; "'" a· ·13 7 34
f i .- _ ,

,¡, .•:· (3) 138 0'28


;.··_,'. 9· 139 127 .
(' 6 140 069
e:);; , 3' 141 18 • 1'· ''
1 142
1 143
,_,_,,.
1 144 4
/,
Boxplot 'amphrs' N 20

144. o +
amphrs·-

140.0'+

2
136.Q+, * *

'- *
132. o +

Figura 12.2
Resultado obtenido con MINITAB para el estudio de las suposiciones necesarias para emplear la
prueba t.

A pesar de que la prueba t es robusta, si la forma de la población de la cual se


tomó la muestra difiere un poco de la distribución normal, en particular cuando el
tamaño de la muestra es lo suficientemente grande para permitir que la estadística
de prueba t se vea influida por el teorema del límite central (véase la sección 9.2),
se puede llegar a conclusiones erróneas y perderse la potencia estadística si la
prueba t se utiliza de manera incorrecta. Así pues, si el tamaño de la muestra, n, es

428 Capítulo 12 PruP.bas de una muestra con datos numéricos


pequeño (esto es, menor que 30), y no podemos hacer la suposición de que la
población subyacente, de la cual se tomó la muestra, está normalmente distribui-
da, entonces es más probable que los procedimientos libres de distribución sean
más poderosos. Uno de tales procedimientos alternativos, la prueba de una mues-
tra de rangos con signo de Wilcoxon, será descrita en la siguiente sección.

Problemas de la sección 12.3


e 12.1 Un grupo de defensoría del consumidor desearía evaluar la tasa promedio de
eficiencia de energía (ERR, por sus siglas en inglés, Energy Efficiency Rating) de
las unidades de aire acondicionado de capacidad grande (es decir, mayores a
7000 Btu), montadas en ventanas. Se seleccionó una muestra aleatoria de 36
de tales unidades de aire acondicionado y se les probó durante un periodo fijo¡
sus registros de EER se muestran a continuación:
8.9 9.1 9.2 9.1 8.4 9.5 9.0 9.6 9.3
9.3 8.9 9.7 8.7 9.4 8.5 8.9 8.4 9.5
9.3 9.3 8.8 9.4 8.9 9.3 9.0 9.2 9.1
9.8 9.6 9.3 9.2 9.1 9.6 9.8 9.5 10.0

(a) Utilizando el nivel de significación de .05, ¿existe evidencia de que la ERR


promedio sea diferente de 9.0?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los límites inferior y superior para el valor p e interprete su
significado.
12.2 Un fabricante de plásticos desea evaluar la durabilidad de los bloques de plástico
moldeados en forma de rectángulo que se utilizan en la fabricación de muebles.
Se examina una muestra aleatoria de 50 de tales bloques y sus mediciones de
dureza (en unidades Brinell) se presentan a continuación:
283.6 273.3 278.8 238.7 334.9 302.6 239.9 254.6 281.9 270.4
269.1 250.1 301.6 289.2 240.8 267.5 279.3 228.4 265.2 285.9
279.3 252.3 271.7 235.0 313.2 277.8 243.8 295.5 249.3 228.7
255.3 267.2 255.3 281.0 302.1 256.3 233.0 194.4 291.9 263.7
273.6 267.7 283.1 260.9 274.8 277.4 276.9 259.5 262.0 263.5

(a) Utilizando el nivel de significación de .OS, ¿existe evidencia de que la


dureza promedio de los bloques de plástico sea mayor a los 260 (en
unidades de Brinell)?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los límites inferior y superior para el valor pe interprete su
significado.
e 12.3 Al gerente del departamento de crédito de una compaftía petrolera le gustaría
determinar si el saldo promedio mensual en contra de los tarjetahabientes es
igual a $75. Un auditor selecciona una muestra aleatoria de 100 cuentas y
encuentra que la deuda promedio es de $83.40, con una desviación estándar
de la muestra de $23.65.
(a) Utilizando el nivel de significación de .05, ¿debería el auditor llegar a la con-
clusión de que existe evidencia de que el saldo promedio es diferente de $75?
(b) Encuentre los límites inferior y superior para el valor p e interprete. su significado.
12.4 Un fabricante de detergentes afirma que el peso medio de una caja particular de
detergente es de 3.25 libras. Una muestra aleatoria de 64 cajas reveló un prome-
dio de muestra de 3.238 libras, con una desviación estándar de .117 libra·s.
(a) Utilizando el nivel de significación de .01, ¿existe evidencia de que el peso
promedio de las cajas es diferente de 3.25 libras?

Prueba t de hipótesis para la media (ax desconocida) 429


(b) Encuentre los limites inferior y superior para el valor p e interprete su significado.
12.5 Al director de admisión de una universidad le gustaría aconsejar a los padres
de los estudiantes que solicitan ingreso acerca de los costos de los libros de
texto, durante un semestre normal. Una muestra de 100 estudiantes que cur-
san sus estudios en la universidad reveló un costo promedio de muestra de
$315.40, con una desviación estándar de $43.20.
(a) Utilizando el nivel de significación de .10, ¿existe evidencia de que el
promedio de la población es mayor a $300?
(b) Encuentre los limites inferior y superior para el valor p e interprete su significado.

Problemas intercapítulo de la sección 12.3


12.6 Refiriéndose al problema 4.7 de la página llS,
(a) Con un nivel de significación de 0.01, ¿existe evidencia de que el precio
promedio de las cortadoras de pasto sea diferente a $17 5?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los límites inferior y superior para el valor pe interprete su
significado.
12.7 Refiriéndose al problema 10.10 de la página 353,
(a) ¿Existe evidencia de que la cantidad promedio en las cuentas de ahorro
sea diferente de $SOOO? (Utilice el nivel de significación de .OS)
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los limites inferior y superior para el valor pe interprete su significado.
12.8 Refiriéndose al problema 10.11 de la página 3S4,
(a) Con un nivel de significación de O.OS, ¿existe evidencia de que el precio
promedio de las tarjetas de felicitación sea diferente a $1.SO?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los limites inferior y superior para el valor pe interprete su significado.
12.9 Refiriéndose al problema 10.12 de la página 3S4,
(a) Con un nivel de significación de 0.01, ¿existe evidencia de que le permita
al gerente de personal llegar a la conclusión de que los gastos dentales
familiares de todos los empleados sea diferente de $320?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los límites inferior y superior para el valor pe interprete su significado.
e 12.10 Refiriéndose al problema 10.13 de la página 354,
(a) Con un nivel de significación de 0.05, ¿existe evidencia de que el tiempo
promedio de espera entre la entrada de la solicitud de servicio y la conexión
del mismo sea mayor que 90 días? :
(b) ¿Qué suposiciones se hacen con el propósito be efectuar esta prueba?
(c) Encuentre los límites inferior y superior para e1 valor pe interprete su
significado.
12.11 Refiriéndose al problema 10.14 de la página 354,
(a) Con un nivel de significación de O.OS, ¿existe evidencia de que el tiempo
promedio de espera de los pacientes en la clínica local sea menor a 30
minutos?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) Encuentre los limites inferior y superior para el valor p e interprete su significado.

1Fi1 Prueba de hipótesis de rangos


con signo de Wilcoxon para la mediana

12.4.1 Introducción
La prueba de rangos con signo de Wilcoxon puede utilizarse cuando desea-
mos probar una hipótesis con respecto a la mediana de la población, Mx. Este pro-
cedimiento libre de distribución, que no implica ninguna suposición acerca de la

4JO Capitulo 12 Pruebas de una muestra con datos numéricos


forma específica de la distribución de población subyacente, excepto que sea aproxi·
madamente simétrica, puede escogerse en lugar de su contraparte paramétrica, la
prueba t, cuando somos capaces de obtener datos que se miden a un nivel más alto
que el de la escala ordinal, pero no creemos que las suposiciones del procedimiento
paramétrico se cumplan lo suficiente. Cuando se violan las suposiciones de la prueba
t, es más probable que el procedimiento de Wilcoxon, que hace pocas suposiciones
menos limitantes que la prueba t, sea más poderoso para detectar la existencia de
diferencias significativas que su correspondiente contraparte paramétrica. Además,
incluso en condiciones apropiadas para efectuar la prueba t paramétrica, la prueba de
rangos con signo de Wilcoxon ha resultado ser casi tan poderosa (véanse referencias
3y4).

12.4.2 Desarrollo
La prueba de rangos con signo de Wilcoxon puede utilizarse si estamos interesados
en probar una hipótesis con respecto a una mediana de población específica, M0,
basándonos en datos obtenidos de una sola muestra. La prueba de la hipótesis nula
puede ser de un extremo o de dos extremos:

Prueba de Prueba de Prueba de un


dos extremos un extremo extremo
H0 : Mediana·= Mo H0: Mediana ~ Mo H0: Mediana $ M0
Hi= Mediana* M0 H 1: Mediana< M0 H 1: Mediana>Mo

Las suposiciones necesarias para llevar a cabo la prueba de rangos con signo de
Wilcoxon son:
l. Que los datos observados (X11 X2, ••• ,X") constituyan una muestra
aleatoria de n valores independientes de una población con una mediana
desconocida.
2. Que el fenómeno aleatorio subyacente de interés sea continuo.
3. Que los datos observados sean medidos a un nivel más alto que la
escala ordinal.
4. Que la población subyacente sea (aproximadamente) simétrica.
La última suposición representa una diferencia principal entre este procedimiento
sin distribución y su contraparte paramétrica, la prueba t. Una suposición de sime-
tría no es tan limitante como una suposición de normalidad. Deberíamos darnos
cuenta, de los polígonos de las figuras 4.19 (distribución en forma rectangular) y
4.20 (distribución en forma de U), de la página 144, que no todas las distribuciones
simétricas tienen forma de campana, aunque todas las distribuciones normales son
simétricas y con forma de campana.

1 2.4. J Procedimiento
Para llevar a cabo la prueba de rangos con signo de Wilcoxon, debe seguirse el si-
guiente procedimiento de seis pasos:
l. Obtenemos un conjunto de resultados de diferencia .Q;"entre cada uno
de los valores observados X¡ y el valor especificado de la mediana
supuesta, M0-que es, D¡ =X¡ - M0 donde i = 1, 2, ... , n.
2. Después despreciamos los signos"+" y 11 - 11 y obtenemos un conjunto de
n diferencias absolutas IDJ
3. Omitimos, en un análisis posterior, cualquier diferencia absoluta cuyo
resultado sea cero, lo cual tiene como resultado un conjunto den'
diferencias absolutas diferentes de cero, con n' ~ n.

Prueba de hipótesis de rangos con signo de Wilcoxon para la niédiana 43 1


·l. l.1wg11 ;1signa111os rangos, U;, de 1 a n' a cada una de las ID;I, de modo
t;il que l;1 diferencia absoluta más pequeña obtenga el rango de 1 y la
mayor el rango n'. Debido a una falta de precisión en el proceso de
medición, si dos o más de las ID;I son iguales, a cada una se le asigna
un rango promedio de los rangos que tendrían asignados de manera
individual, de no haberse presentado empates en los datos.
5. Ahora reasignamos el signo"+" o a cada uno de los n' rangos R;,
11
-
11

dependiendo de si D; era originalmente positiva o negativa.


6. La estadística de prueba de Wilcoxon, W, se obtiene como la suma de
los rangos positivos.

11'

w = L R~+) (12.2)
í = l

Puesto que la suma de los primeros n' enteros (1, 2, ... , n') está dada por 11' (n'
+ 1)/2, la estadística de prueba de Wilcoxon, W, puede ir desde un mínimo de O (en
el cual todas las diferencias observadas son negativas) a un máximo den' (n' + 1)/2
(en el que todas las diferencias observadas son positivas). Si la hipótesis nula fuera
verdadera, esperaríamos que la estadística de prueba, W, tomara un valor cercano a
su media, µw = n' (n' + 1)/4. Si la hipótesis nula fuera falsa, podríamos esperar que el
valor observado de la estadística de prueba esté cercano a uno de los extremos.
En muestras con 11' ~ 20, se puede utilizar la tabla E.10 para obtener los valores
críticos de la estadística de prueba, W, en pruebas de un extremo y de dos
extremos, a varios niveles de significación. Para una prueba de dos extremos y un
nivel particular de significación, si el valor observado de W es igual o mayor que
el valor crítico superior o es igual o menor que el valor crítico inferior, la hipótesis
nula puede ser rechazada. Para una prueba de un extremo en la dirección positiva,
la regla de decisión consiste en rechazar la hipótesis nula si el valor observado de
W es igual o mayor que el valor crítico superior. Para una prueba de un extremo en
la dirección negativa, la regla de decisión consiste en rechazar la hipótesis nula si
el valor observado de W es igual o menor que el valor crítico inferior.
Para muestras con n' > 20, la estadística de prueba, W, está distribuida de ma-
nera aproximadamente normal, y puede utilizarse la siguiente fórmula de aproxi-
mación de muestra grande para probar la hipótesis nula:

(12.3)

,,.
donde W es la suma de los rangos positivos, W = L R\ +)

i =1

. n'(n' + 1)
µ 11, es el valor med10 de W; µ11 = 4

n'(n' + 1)(2n' + 1)
a"' es la desviación estándar de W; a w =
24

n' es el tamaño real de la muestra después de eliminar las observaciones


con diferencias absolutas de cero.

4J2 Capítulo 12 Pruebas de una muestra con datos numéricos


Esto es,

W _ ( n'(n: + 1))
Z= (12.4)
n'(n' + 1)(2n' + 1)
24

y, basándonos en el nivel de significación seleccionado, la hipótesis nula puede ser


rechazada si el valor Z calculado cae en la región de rechazo apropiada, dependien-
do de si se utiliza una prueba de dos extremos o una de un extremo (véase figura
12.3).

Rechazar
Ha

-Z o z -Z o

Panel A (prueba de dos extremos) Panel B (prueba de un extremo) Panel C (prueba de un extremo)
H0 : Mediana = M0 H0 : Mediana ?: Ma Ha: Mediana ':O. Ma
*
H1: Mediana M0 H1: Mediana < Ma H 1 : Mediana > Ma

Figura 12.3
Determinación de la región de rechazo utilizando la prueba de rangos con signo de Wilcoxon.

12.4.4 Aplicación
Para ilustrar el uso de la prueba de rangos con signo de Wilcoxon, regresemos a
los datos sobre la capacidad de las baterías (en amperios-hora) presentados en la
sección 12.3.2, en la página 425. Suponga que la agencia independiente de pro-
tección al consumidor desea utilizar la muestra aleatoria de 20 baterías, tomada
de un lote recientemente producido, para probar la credibilidad de la afirmación
del fabricante de que la capacidad promedio es de al menos 140 amperios-hora.
Sin embargo, no quiere hacer la suposición limitante de que la población subya-
cente, es decir, la capacidad en amperios-hora de todas las baterías del lote, está
normalmente distribuida. En tal situación, la prueba sin distribución de rangos
con signo de Wilcoxon puede emplearse para probar una hipótesis con respecto
a la mediana de la población, Mx. Puesto que la agencia de protección al con-
sumidor está interesada en saber si la afirmación del fabricante es exagerada o no,
la prueba es de un extremo. Se establecen las siguientes hipótesis nula y alterna-
tiva:

H0 : Mediana::::>: 140 amperios-hora

H 1 : Mediana< 140 amperios-hora

Para efectuar la prueba de un extremo, el primer paso consiste en obtener un


conjunto de registros de diferencia, D¡, entre cada uno de los valores observados,
X¡, y el valor especificado de la mediana hipotetizada, M 0 , esto es,

Prueba de hipótesis de rangos con signo de Wilcoxon para la mediana 43 3


D¡=X¡ - M 0
en la que i = 1, 2, ... , n.

Los pasos restantes del procedimiento de seis pasos se desarrollan en la tabla 12.2.

Tabla 12.2 Establecimiento de la prueba de rangos con signo de


Wilcoxon (una muestra).
Capacidad X; D¡=X¡ - 140.0 ID¡I R¡ Signo de D;
137.4 -2.6 2.6 11.0
140.0 .o .o Elimine
138.8 -1.2 1.2 7.0
139.1 -0.9 0.9 4.5
144.4 +4.4 4.4 16.5 +
139.2 -0.8 0.8 3.0
141.8 +1.8 1.8 8.5 +
137.3 -2.7 2.7 12.0
133.5 -6.5 6.5 19.0
138.2 -1.8 1.8 8.5
141.1 +1.1 1.1 6.0 +
139.7 -0.3 0.3 1.0
136.7 -3.3 3.3 13.5
136.3 -3.7 3.7 15.0
135.6 -4.4 4.4 16.5
138.0 -2.0 2.0 10.0
140.9 +0.9 0.9 4.5 +
140.6 +0.6 0.6 2.0 +
136.7 -3.3 3.3 13.5
134.1 -5.9 5.9 18.0

La estadística de prueba, W, se obtiene como la suma de los rangos positivos.


19
W = Ít Rj+l = 16.5 + 8.5 + 6 + 4.5 + 2 = 37.5
j = 1

De la tabla 12.2, observamos que después de eliminar la segunda observación de la


muestra original, solamente cinco de los restantes 19 resultados de diferencia abso-
luta diferentes de cero exceden a la mediana supuesta de al menos 140 amperios-
hora. Así pues, para probar la significación, comparamos el valor observado de la
estadística de prueba, W = 37.5, con el valor crítico inferior presentado en la tabla
E.10, paran'= 19 y para un nivel de significación, a, seleccionado en 0.05. Como
se muestra en la tabla 12.3 (que es una réplica de la tabla E.10), este valor crítico es
de 53. Como W = 37.5 < WL = 53, la hipótesis nula puede ser rechazada al nivel de
significación de 0.05. Existe evidencia para creer que la afirmación del fabricante
es exagerada, y la agencia de protección al consumidor debería iniciar alguna
medida correctiva en contra del fabricante.
Resulta interesante hacer notar que la fórmula de aproximación de muestra
grande [ecuación (12.4)], para la prueba estadística produce excelentes resultados
para muestras de tamaño hasta de 8. Con los datos de la tabla 12.2, para una mues-
tra den'= 19 (diferencias distintas de cero),

W _ ( n'(n: + 1))
= 37.5 - 95 = -57.S = _2 .31
Z=
) n'(n' + 1)(2n' + 1) ~617.S 24.89
24

4:14 Capítulo 12 Pruebas de una muestra con datos numéricos


Table 12.J Obtención del valor crítico de extremo inferior,
W, para la prueba de rangos con signo de una
muestra de Wilcoxon, en la que n' 19 y =
a= .OS.
Un extremo: a=.05 a= .025 a= .01 a= .005
Dos extremos: C1. .10 a= .OS a=.02 a= .01
n' (Inferior, superior)
5 ,15 _,_
6 ,19 0,21
7 ,25 2,26 0,28

17 4 ,112 34,Ü9 27,126 23,130


18 4 ,124 40,131 32,139 27,144
19 53,137 46,144 37,153 32,158
20 60,150 52,158 43,167 37, 173
Fuente: Extraído de la tabla E.10.

Como Z =-2.31 es menor que el valor crítico Z de -1.645, la hipótesis nula tam-
bién sería rechazada. Sin embargo, puesto que se tiene disponible la tabla E.10 para
n' ~ 20, resulta más sencillo y más preciso solamente tomar el valor crítico de la
tabla y evitar hacer los cálculos cuando sea posible.
Deberíamos observar, en este punto, que para estos datos la agencia indepen-
diente de protección al consumidor ha llegado a la misma conclusión, de que
existe suficiente evidencia para rechazar la afirmación del fabricante con respecto
a la capacidad de sus baterías, independientemente de si se utiliza la prueba para-
métrica, t, de la sección 12.3 o la prueba libre de distribución de rangos con signo
de Wilcoxon. En esta situación, la viabilidad de la suposición de normalidad en la
población subyacente de datos no afecta la decisión alcanzada, sin importar el pro-
cedimiento utilizado. Si, como lo sospechamos del análisis exploratorio de los
datos, dado en la figura 12.2 de la página 428, la población subyacente está apro-
ximadamente distribuida de manera normal, la prueba t de la sección 12.3 sería li-
geramente más poderosa que la prueba de rangos con signo de Wilcoxon, en la
capacidad de detectar una hipótesis nula falsa. Este fenómeno puede observarse
mediante la comparación de los valores p de ambas pruebas. El procedimiento de
prueba más poderoso tendría como resultado un valor de p más pequefio. Utili-
zando el paquete de computación MINITAB (véase figura 12.4), el valor p asociado
con la prueba tes de 0.0093, mientras que el valor p asociado con la prueba de ran-
gos con signo de Wilcoxon es de 0.011.

TEST OF MU= 140.000 VS .MU L.T. 140.000


1

N MEAN STDEV SE MEAN T P VALUE


arnphrs 20 138.470 2.659 10.595 -2.57 ' o. 0093
TEST OF MEDIAN = .· 140. O VERSUS MEDIAN L.T. 140.0
·,
N FOR WILCOXON ESTIMATED
N TEST. STATISTIC P-VALUE MEDIAN
amphrs 20 19 37.5 o. 011 138.5

Figura 12.4
Comparación de los valores fJ obtenidos con la prueba t y con la prueba de rangos con signo de
Wilcoxon, utilizando MINITAB.

Prueba de hipótesis de rangos con signo de Wilcoxon para la mediana 43 5


Problemas de la sección 12.4
e 12.12 Un fabricante de cigarrillos afirma que el contenido de alquitrán de una nueva
marca de cigarrillos es de 17 miligramos. Se seleccionó una muestra aleatoria
de 24 cigarrillos y se midió el contenido de alquitrán. Los resultados se presen-
tan en miligramos:
16.9 16.6 17.3 17.S 17.0 17.2 16.1 16.4 17.3 lS.9 17.7 18.3
lS.6 16.8 17.1 17.2 16.4 18.1 17.4 16.7 16.9 16.0 16.S 17.8
Utilizando un nivel de significación de a= 0.01, ¿existe evidencia de que la
mediana del contenido de alquitrán de esta nueva marca sea diferente de 17
miligramos?
12.13 Un actuario que trabaja para una compañía de seguros desea examinar los
registros de reclamos por robo hechos por las personas aseguradas bajo una
póliza de bienes familiares. En el pasado, la mediana de los reclamos fue de
$12S. Se tomó una muestra aleatoria de 18 reclamos y los resultados obtenidos
son los siguientes:
$180 $132 $7S $242 $120 $127 $120 $140 $87
$6S $200 $108 $90 $10S $3SO $130 $11S $160
Utilizando un nivel de significación de a= O.OS, ¿existe evidencia de que la
mediana de los reclamos haya aumentado significativamente?
e 12.14 Refiérase al problema 12.1 de la página 429:
(a) Utilizando el nivel de significación de O.OS, ¿existe evidencia de que la
mediana de las EER de las unidades de aire acondicionado sea diferente de
9.0?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) ¿Existe alguna diferencia entre los resultados actuales y los obtenidos
cuando se utilizó la prueba t en el problema 12.1? Analice su respuesta.
12.lS Refiérase al problema 12.2 de la página 429:
(a) Utilizando el nivel de significación de O.OS, ¿existe evidencia de que la
mediana de la dureza (en unidades de Brinell) de los bloques de plástico
exceda a 260?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) ¿Existe alguna diferencia entre los resultados actuales y los obtenidos
cuando se utilizó la prueba ten el problema 12.2? Analice su respuesta.

Problemas intercaf>ítulo de la sección 12.4


12.16 Refiérase al problema 4.7 de la página llS:
(a) Utilizando el nivel de significación de 0.01, ¿existe evidencia de que la
mediana del precio de las podadoras de pasto sea diferente de $175?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) ¿Existe alguna diferencia entre los resultados actuales y los obtenidos
cuando se utilizó la prueba ten el problema 12.6, de la página 430?
Analice su respuesta.
12.17 Refiérase al problema 10.10 de la página 353:
(a) ¿Qué información necesitaría usted para efectuar uria prueba de rangos
con signo de Wilcoxon? Analice ampliamente su respuesta.
(b) ¿Por qué desearía, en este caso, realizar una prueba de rangos con signo de
Wilcoxon?
(c) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
12.18 Refiérase al problema 10.12 de la página 354:
(a) Utilizando el nivel de significación de 0.10, ¿existe evidencia que le permita
al gerente de personal llegar a la conclusión de que la mediana de los gastos
familiares en dentista de todos los empleados sea diferente de $320?

436 Capítulo 12. Pruebas de una muestra con datos numéricos


(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba'/
(c) ¿Existe alguna diferencia entre los resultados actuales y los obtenidos
cuando se utilizó la prueba ten el problema 12.9, de la página 430?
Analice su respuesta.
e 12.19 Refiérase al problema 10.13 de la página 354:
(a) Utilizando el nivel de significación de 0.05, ¿existe evidencia de que la
mediana del tiempo de espera entre la colocación de la solicitud y la
conexión del servicio sea mayor alos 90 días?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) ¿Existe alguna diferencia entre los resultados actuales y los obtenidos
cuando se utilizó la prueba ten el problema 12.10, de la página 430?
Analice su respuesta.
12.20 Refiérase al problema 10.14 de la página 354:
(a) Utilizando el nivel de significación de 0.05, ¿existe evidencia de que la
mediana del tiempo de espera de los pacientes en la clínica local sea
menor a 30 minutos?
(b) ¿Qué suposiciones se hacen con el propósito de efectuar esta prueba?
(c) ¿Existe alguna diferencia entre los resultados actuales y los obtenidos
cuando se utilizó la prueba ten el problema 12.11, de la página 430?
Analice su respuesta.

lfiJ Prueba de hipótesis X2 para la


varianza (o desviación estándar)

1.2.5.1 Introducción
Cuando se analizan datos numéricos, en ocasiones es importante llegar a conclu-
siones con respecto a la variabilidad y al promedio de una característica de interés. Por
ejemplo, recuerde que en el ejemplo del llenado de las cajas de cereal (descrito en la
sección 11.2), el gerente de producción supuso que la especificación de 15 gramos de
la compañ.ía para la desviación estándar, ªx• del proceso subyacente, era correcta, y se
utilizó este valor de parámetro para realizar una prueba Z sobre el hecho de que la
media de la población, µx, era de 368 gramos. Suponga, sin embargo, que al revisar si
el equipo utilizado (en el proceso de llenado de cereal) está funcionando apro-
piadamente o no, el gerente de producción está interesado en determinar si existe evi-
dencia de que la desviación estándar ha cambiado con respecto al nivel especificado
de 15 gramos. En tal situación, el gerente de producción estaría interesado en llegar a
conclusiones con respecto a la desviación estándar de la población, ªx·

1.2.5.2 Desarrollo
Al intentar llegar a conclusiones con respecto a la variabilidad de la población,
primero debemos determinar que estadística de prueba puede utilizarse para repre-
sentar la distribución de la variabilidad de los datos de la muestra. Si la variable
(cantidad de contenido de cereal en gramos) se supone que está distribuida nor-
malmente, entonces la estadística de prueba para probar si la varianza de la pobla-
ción es igual o no a un valor especificado es

,1, "" , '··.,;., ..·


en la que n = tamaño de la muestra
S2 = varianza de la muestra
O"; = varianza supuesta de la población

Prueba de hipótesis x2 para la varianza (o desviación están~ar) 417


y J;i l'Sladística de prueba x2 sigue una distribución chi-cuadrada con (n - 1) gra-
dos dl' libertad.
Si, como se muestra en el panel A de la figura 12.5, la prueba de hipótesis es de
dos extremos, la región de rechazo se divide en el extremo inferior y el extremo
superior de la distribución chi-cuadrada. Sin embargo, si la prueba es de un
extremo, la región de rechazo se encuentra en el extremo inferior (panel B de la
figura 12.5) o en el extremo superior (panel e de la figura 12.5) de la distribución
chi-cuadrada, dependiendo de la dirección de la hipótesis alternativa.

x2 o
Panel A - Prueba de dos extremos Panel B - Prueba de un extremo Panel C - Prueba de un extremo
H0 : cr; = cr~ H0 : ifx ::: a~ H0 : cr; '.: ag
H1 : cr; ~ cr~ H1 : o; < o~ H 1: a; > a~

Figura 12.5
Prueba de una hipótesis acerca de la varianza de la población, pruebas de un extremo y de dos
extremos: Panel A, prueba de dos extremos; Panel B, prueba de un extremo; Panel C, prueba de un
extremo.

Para un tamaño de muestra dado, n, la estadística de prueba, x2 , sigue una


distribución chi-cuadrada con n - 1 grados de libertad. Una distribución chi-
cuadrada es una distribución sesgada cuya forma depende exclusivamente del
número de grados de libertad. Conforme ésta aumenta, la distribución chi-
cuadrada se vuelve más simétrica. La tabla E.4 contiene varias áreas de extremo
superior para distribuciones chi-cuadradas con diferentes grados de libertad. Una
parte de esta tabla se presenta como tabla 12.4.

Tabla 12.4 Obtención del valor crítico de la distribución chi-cuadrada, con un grado de libertad y utilizando un
nivel de significación de a = .1 O.
Grados Área de extremo superior
de
libertad .995 .99 .975 .95 .90 .75 .25 .10 .OS .025
1 - ()_()()l (). ()()zt ().()15 ('J.t()2 1.32:1-'> 2.706 :1.841 5.024
2 O.ülO 0.020 0.051 0.103 0.211 0.575 2.773 4.605 5.991 7.:F8

3 0.072 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9348

2:1 9.260 10.196 11.689 13.091 14.848 18.137 27.141 32.007 35.172 :~8.076
24 9.886 10.856 12.401 13.848 15.659 19.037 28.241 33.196 36.415 39.364
2S 10.520 11.524 13.120 14.611 16.473 19.939 29.339 34.382 37.652 40.646
/·úm/1•: Fxl raid a de la tabla E.4.

El valor que se haya en la parte superior de cada columna indica el área de la


parte superior (o lado derecho) de una distribución chi-cuadrada particular. Por
ejemplo, con un grado de libertad, el valor crítico de la estadística de prueba, x2 ,
correspondiente a un área de extremo superior de 0.10 es de 2.706 (véase figura
12.6). Esto significa que, para un grado de libertad, la probabilidad de exceder este

438 Capítulo 12 Pruebas de una muestra con datos numéricos


valor crítico de 2. 706 es de .10. Por consiguiente, una vez que hemos determinado
el nivel de significación y los §rados de libertad, se puede encontrar el valor crítico
de la estadística de prueba x a partir de una distribución chi-cuadrada en par-
ticular.

Figura 12.6
Determinación del valor crítico de la
x
estadística de prueba 2 a partir de una
distribución chi-cuadrada, con un grado
de libertad y utilizando un nivel de
significación de 0.1 O.

1 2.S.3 Aplicación
Para aplicar la prueba de hipótesis regresemos de nuevo al ejemplo del empaque de
cajas de cereal. El gerente de producción está interesado en determinar si existe
evidencia de que la desviación estándar ha cambiado con respecto al nivel de 15
gramos, especificado con anterioridad. Así pues, tenemos una prueba de dos extre-
mos en la cual las hipótesis nula y alternativa pueden establecerse de la manera
siguiente:

J-/0 : 0,, = 15 gramos (o u;= 225 "gramos al cuadrado")


J-/ 1: <Jx * 15 gramos (o u;* 225 "gramos al cuadrado")
Puesto que se trata de una prueba de dos extremos basada en una muestra de 25
cajas, la hipótesis nula sería rechazada si la estadística de prueba x2 cayera en el
extremo inferior o en el superior de una distribución chi-cuadrada, con 24 grados
de Ji bertad, como se muestra en la figura 12. 7.

Figura 12.7
Determinación de los valores
o 12.401 críticos inferior y superior de una
xi distribución chi-cuadrada con 24
grados de libertad, para una prueba
.025 .975
de dos extremos de una hipótesis
.975 .025 acerca de la desviación estándar
de población, utilizando un nivel de
significación de O.OS.

Como hay 24 grados de libertad (esto es, 25 - 1 = 24), si se selecciona un nivel


de significación de .05, los valores críticos inferior (Xi) y superior (X ~) podrían
obtenerse de la tabla de la distribución chi-cuadrada (tabla E.4). El valor que se
encuentra en la parte superior de la tabla índica las áreas de extremo superior de
una distribución chi-cuadrada, esto es, la parte bajo la curva del lado derecho de la
distribución chi-cuadrada. Así pues, podemos obtener el valor crítico inferior de xi

Prueba de hipótesis x2 par:a la varianza (o desviación estándar) 4JS>


12.401 de la tabla E.4, si observamos la columna etiquetada "0.975", para 24 gra-
dos de libertad, y podemos obtener el valor crítico superior xi= 39.364, si obser-
vamos la columna etiquetada con "0.025", para 24 grados de libertad.
Por consiguiente, la regla de decisión sería:

Rechazar H0 si X2 >Xi= 39.364


o si x2 >xi= 12.401;
en cualquier otro caso no rechazar H0 •

Suponga que, de la muestra tomada por el gerente de producción de 25 cajas, la


desviación estándar (S) se calcula en 17. 7 gramos. Para probar la hipótesis nula al
nivel de significación de O.OS, utilizando la ecuación (12.5), tenemos:

2 = (n-1)5 2 = (25-1)(17.7) 2 = 33 .42


X crz 15 2
X

Puesto quexf = 12.401<x2 =33.42 <xi= 39.364, no rechazamos la hipótesis nula.


Utilizando la aproximación del valor p, la probabilidad de obtener una estadística
de prueba x2 de 33.42 o más grande, es ligeramente menor que .10. Como este
valor es mayor que el área de extremo superior de .025 (para la prueba de dos
extremos), la hipótesis nula no puede ser rechazada. El gerente de producción lle-
garía a la conclusión de que no existe evidencia de que la desviación estándar real
del proceso (es decir, la población) sea diferente de 15 gramos.
Cuando probamos una hipótesis con respecto a una varianza o a una desvia-
ción estándar de población, con frecuencia se da el caso de que estemos interesados
en detectar si la variación de un proceso ha aumentado. En tales circunstancias, se
utilizaría una prueba de hipótesis de un extremo (véase referencia 5). La hipótesis
nula sería rechazada a un nivel de significación, a, seleccionado si la estadística
calculada de prueba, x2,
excede el valor crítico de extremo superior (Xi) de una dis-
tribución chi-cuadrada, con n - 1 grados de libertad, como se muestra en el Panel
e de la figura 12.5, de la página 438.
e Precaución Al probar una hipótesis con respecto a una varianza o a desvia-
ción estándar de población, debemos estar conscientes de que hemos supuesto que
los datos de la población están distribuidos de manera normal. Desgraciadamente,
esta estadística de prueba, x2 , es bastante sensible a los alejamientos de tal suposi:.
ción (es decir, no es una prueba robusta), de tal modo que si la población no está
distribuida normalmente, en particular para tamaños de muestra pequeños, la pre-
cisión de la prueba se puede ver seriamente afectada (véase referencia 1). Otros pro-
cedimientos que se pueden utilizar para atacar este problema están más allá del
nivel del presente texto (véase referencia 9).

Problemas de la sección 12.5


e 12.21 Un fabricante de dulces debe inspeccionar la temperatura a la cual se cocinan
los dulces. Una variación excesiva produciría inconsistencia en el sabor del
dulce. Registros anteriores muestran que la desviación estándar de la temperatura
fue de 1.2ºF. Se selecciona una muestra aleatoria de 30 lotes de dulces y se
obtiene que la desviación estándar de muestra de la temperatura es de 2.1 ºF.
(a) Al nivel de significación de .05, ¿existe evidencia de que la desviación
estándar de la población ha aumentado por encima de 1.2'F?
(b) ¿Qué suposiciones se hacen para efectuar esta prueba?
(c) Calcule el valor p del inciso (a) e interprete su significado.

440 Capítulo 12. Pruebas de una muestra con datos numéricos


12.22 Un investigador de mercados que trabaja para un comerciante de automóviles
intenta efectuar una encuesta a nivel nacional con respecto a la reparación de
autos. Entre las preguntas que se van a inc;luir en la encuesta está la siguiente:
"¿cuál fue el costo de todas las reparaciones que le hizo a su automóvil el año
pasado?" Con el fin de determinar el tamaño de muestra necesario, se requiere
obtener una estimación de la desviación estándar. Utilizando su experiencia
pasada y su criterio, estima que la desviación estándar de la cantidad de dinero
gastado en reparaciones es de $200. Suponga que en un estudio piloto de 25
dueños de automóvil, seleccionados al azar, se obtiene una desviación estándar
de $237.S2.
(a) Al nivel de significación de .OS, ¿existe evidencia de que la desviación
estándar de la población es diferente de $200?
(b) ¿Qué suposiciones se hacen para efectuar esta prueba?
(c) Calcule el valor p del inciso (a) e interprete su significado.
12.23 Al gerente de comercialización de una sucursal de una compañía de teléfonos
local le gustaría estudiar las características de los clientes residenciales que
atiende su sucursal. En particular, le gustaría determinar el costo mensual
promedio de las llamadas locales hechas en la región. Con el propósito de
determinar el tamaño de muestra necesario, se requiere obtener una
estimación de la desviación estándar. Basándose en su experiencia pasad¡¡ y en
su criterio, estima que la desviación estándar es igual a $12. Suponga que en
un estudio piloto de 15 clientes residenciales se obtiene una desviación
estándar de $9.25.
(a) Al nivel de significación de .10, ¿existe evidencia de que .la desviación
estándar de la población sea diferente de $12?
(b) ¿Qué suposiciones se hacen para efectuar esta prueba?
(c) Calcule el valor p del inciso (a) e interprete su significado.
12.24 Un fabricante de perillas para puertas tiene un proceso de producción que está
diseñado para elaborar perillas con un diámetro proyectado de 2.S pulgadas.
En el pasado, la desviación estándar del diámetro era de .035 pulgadas. En un
esfuerzo por reducir la variación del proceso, se han llevado a cabo varios estudios
que han tenido como resultado el rediseño del proceso. Una muestra de
2S perillas producidas con el nuevo proceso indica una desviación estándar de
.025 pulgadas.
(a) Al nivel de significación de .OS, ¿existe evidencia de que la desviación
estándar de la población sea menor a .035 pulgadas en el nuevo proceso?
(b) ¿Qué suposiciones se hacen para efectuar esta prueba?
(c) Calcule el valor p del inciso (a) e interprete su significado.
12.25 Refiérase a los datos de la capacidad de las baterías de la página 425.
(a) Al nivel de significación de .05, ¿existe evidencia de que la desviación
estándar de la población sea mayor a 2.5 amperios-hora?
(b) ¿Qué suposiciones se hacen para efectuar esta prueba?
(c) Calcule el valor p del inciso (a) e interprete su significado.

Problemas intercapítulo de la sección I2.5


12.26 En el problema 10.5 de la página 349, observamos que se esperaba que la
desviación estándar de la población fuera igual a .02 galones. Si con una mues-
tra aleatoria de 2S latas de pintura de un galón se obtiene una desviación
estándar de .02S galones,
(a) Al nivel de significación de .OS, ¿existe evidencia de que la desviación:
estándar de la población haya cambiado?
(b) ¿Qué suposiciones se hacen para efectuar esta prueba?
(c) Calcule el valor p del inciso (a) e interprete su significado.

Prueba de hipótesis X. 2 para la varianza (o desviación estándar) 441


e 12.27 En el problema 10.6 de la página 349,observamos que la desviación estándar
del proceso de la vida de las bombilla5de luz era de 100 horas. Si una muestra
aleatoria de 20 bombillas indica una resviación estándar de 110 horas,
(a) Al nivel de significación de .05, ¿existe evidencia de que la desviación
estándar del proceso haya cambiaio?
(b) ¿Qué suposiciones se hacen para !fectuar esta prueba?
(c) Calcule el valor p del inciso (a) e hterprete su significado.
e 12.28 En el problema 10.7 de la página 349,observamos que la desviación estándar
de las botellas de refresco de dos litrosera de .05 litros. Como parte del proceso
de control de calidad, la compañía errbotelladora desea saber si la desviación
estándar ha aumentado por arriba de 05 litros. Con una muestra aleatoria de
diez botellas de dos litros se obtuvo ma desviación estándar de muestra de
.083 litros.
(a) Al nivel de significación de .01, txiste evidencia de que la desviación
estándar del proceso haya aumertado?
(b) ¿Qué suposiciones se hacen para ~fectuar esta prueba?
(c) Calcule el valor p del inciso (a) e nterprete su significado.

1f!.) ·Prueba de corridas de una muestra


de Wald-Wolfwitz

12.6. 1 Introducción
Por lo general se supone que los datos recole<tados en un estudio constituyen una
muestra aleatoria, de modo que cada obsenación o medida es tomada de la po-
blación de manera aleatoria e independientE. Tal suposición, sin embargo, puede
ser probada mediante el empleo de un procedimiento no paramétrico conocido
como prueba de corridas de una mtJestra de Wald-Wolfowitz para
aleatoriedad. Este procedimiento no paranétrico no tiene que ver con la prueba
de cualquier parámetro en particular y, por 1anto, no tiene una contraparte para-
métrica.
Para probar la aleatoriedad, la hipótesis mla sería:

H0 : El proceso que genera el conjuntode datos numéricos es aleatorio.

Y la hipótesis alternativa sería:

H 1: El proceso que genera el conjunto d~ datos numéricos no es aleatorio.

La hipótesis nula de aleatoriedad puede probarse mediante la observación del


orden o de la secuencia en que se obtienen los elementos de la muestra. Si a cada
elemento se le asigna t:no de dos términos, como E y F (por "éxito" y "fracaso"),
dependiendo de si la medida cae por arriba e por abajo de un cierto valor (es decir,
por arriba o por abajo de la mediana), la aeatoriedad de la secuencia puede ser
investigada. Si ésta es generada de manera aleatoria, el valor (E o F) de un elemento
será independiente tanto de su posición en h secuencia como del valor de los ele-
mentos que le preceden. Por otra parte, si el valor de un elemento de la secuencia
es afectado por los valores de los demás elenentos, o si la probabilidad de su ocu-
rrencia depende de su posición en la secuenda, el proceso que la genera no es con-
siderado aleatorio. En los casos no aleatorics los elementos parecidos tenderán a
agruparse (del mismo modo que cuando ha~ una tendencia presente en los datos)

442 Capítulo 12 Pruebas de una muestra con datos numéricos


o se mezclarán de manera alternada, de modo que se presentaría algún efecto pe·
riódico sistemático.
Para estudiar si una secuencia observada es aleatoria o no, consideraremos
como estadística de prueba el número de corridas presentes en los datos.
Una corrida se define como una serie consecutiva de elementos· simi-
lares que están limitados por elementos de un tipo diferente o por el
inicio o el fin'al de la secuencia.
Por ejemplo, suponga que la siguiente representa los resultados observados de un
experimento en el cual se lanza una moneda 20 veces:
HHHHHHHHHH 1111 TT 1TT 1
En esta secuencia hay dos corridas: una corrida de diez caras (H) seguida de una
corrida de 10 cruces (T). Como los elementos parecidos tienden a agruparse, la
secuencia no sería considerada aleatoria, a pesar de que, como cabría esperarse
teóricamente cuando una moneda legal es lanzada, diez de los resultados son caras
y los otros diez son cruces.
En el otro extremo, suponga que la siguiente secuencia se obtiene cuando se
lanza una moneda 20 veces:
HTHTHTHTHTHTHTHTHTHT
En la secuencia hay 20 corridas: 10 corridas de una cara y otras 10 de una cruz. Con
este patrón sistemático de caras y cruces alternadas, no se puede considerar que la
secuencia sea aleatoria, pues existen demasiadas corridas.
Por otro lado, como se muestra más adelante, si la secuencia de respuestas a los
20 lanzamientos de la moneda está mezclada completamente, el número de corri-
das será muy bajo o demasiado grande, y el proceso, entonces, puede considerarse
aleatorio:
HHTTHHHHTTTTTHTHTTHH

Por consiguiente, al probar la aleatoriedad, lo esencial es el ordenamiento o la


colocación de los elementos de la secuencia, no nada más la frecuencia de los ele-
mentos de cada tipo.

12.6.2 Desarrollo
Para probar la hipótesis nula de aleatoriedad, podemos dividir el tamaño completo
de la muestra, n, en dos partes, n11 el número de éxitos, y n2, el número de fracasos.
La estadística de prueba, representada con el símbolo U, el número total de corri-
das, se obtiene, entonces, por conteo. Para una prueba de dos extremos, si U es
mayor o menor de lo que cabría esperar en una serie aleatoria de datos, rechaza-
ríamos la hipótesis nula de aleatoriedad en favor de la hipótesis alternativa que
afirma que la secuencia no es aleatoria. Si tanto n 1 como n2 son menores o iguales
a 20, en la tabla E.9, partes 1y2, se presentan los valores críticos para la estadística
de prueba U al nivel de significación de ex= .OS (dos extremos). Si, para una com-
binación dada de n1 y n2 , U es mayor o igual al vaior crítico superior, o menor o
igual al valor crítico inferior, la hipótesis nula de aleatoriedad puede ser rechazada
al nivel de significación de ex = .OS. Sin embargo, si U se encuentra entre estos
límites, la hipótesis nula de aleatoriedad no puede rechazarse.
Por otra parte, las pruebas de aleatoriedad no siempre son de dos extremos. Si
estamos interesados en probar la aleatoriedad contra una alternativa específica de
un efecto de tendencia (de que hay una tendencia de agrupamiento de los ele-

Prueba de corridas de una muestra de Wald-Wolfowitz 443


mentas parecidos), se necesita una prueba de un extremo. En este caso, recha-
zamos la hipótesis nula solamente si se presentan muy pocas corridas: si el valor
observado de U es menor o igual al valor crítico presentado en la tabla E.9, parte 1,
al nivel de significación de a = .025. En el otro extremo, si estamos interesados en
probar la aleatoriedad contra un efecto sistemático o periódico, utilizamos
una prueba de un extremo que rechaza la hipótesis nula sólo si se presentan
demasiadas corridas: si el valor observado de U es mayor o igual al valor crítico
dado en la tabla E.9, parte 2, al nivel de significación de a= .025.
Independientemente de si la prueba es de un extremo o de dos extremos, sin
embargo, para una muestra de tamaño n, mayor a 40 (o cuando n 1 o n 2 se pasan de
20) la estadística de prueba U está distribuida de manera aproximadamente nor-
mal. Por consiguiente, la siguiente fórmula de aproximación de muestra grande
puede utilizarse para probar la hipótesis nula de aleatoriedad:

(12.6)

donde U= número total de corridas observadas


l d iodeU; 2n n
µ 11 = vaorme µ
u
= -n1-2 + 1
2n 1 n 2 (2n 1n 2 - n)
cr,, = desviación estándar de U; a,, =
n 2 (n - 1)
n1 = número de "éxitos" en la muestra
n2 = número de "fracasos" en la muestra
n = tamaño de la muestra; n = n 1 + n2

Esto es,

u-(~+1)
Z= (12.7)
2n 1 n 2 (2n1 n 2 - n)
n 2 (n - 1)

y, basándonos en el nivel de significación escogido, la hipótesis nula puede ser re-


chazada si el valor calculado de Z cae en la región apropiada de rechazo, depen-
diendo de si se utiliza una prueba de dos extremos o una de un extremo (véase
figura 12.8).

12.6.3 Aplicación
Para ilustrar el uso de la prueba de corridas de una muestra de Wald-Wolfowitz
para aleatoriedad, en la tabla 12.5 se presentan las tasa de desempleo (por miles)
de trabajadores de oficina en los Estados Unidos de-Norteamérica, de 1960 a
1993.
Una característica distintiva de la prueba de corridas de una muestra de Wald-
Wolfowitz para aleatoriedad es que puede utilizarse no solamente en los datos que

444 Capítulo 12 Pruebas de una muestra con datos numéricos


-Z o z -Z o o
Panel A PanelB Panel C

Figura 12.s
Determinación de la región de rechazo; Panel A, prueba de dos extremos; Panel B, prueba de un
extremo; Panel C, prueba de un extremo.

Tabla 12.s Tasas de desempleo de los trabajadores de oficina de los Estados Unidos de
Norteamérica* (1960-1993).
Tasa de Relación con Tasa de Relación con
desempleo la tasa mediana desempleo la tasa mediana
Año (por mil) de 4.6t Año (por mil) de 4.6t
1960 3.8 B 1977 5.9 A
1961 4.6 A 1978 4.9 A
1962 4.0 B 1979 4.6 A
1963 4.0 B 1980 5.3 A
1964 3.7 B 1981 5.7 A
1965 3.3 B 1982 7.0 A
1966 2.9 B 1983 6.4 A
1967 3.1 B 1984 5.1 A
1968 3.0 B 1985 4.9 A
1969 3.0 B 1986 4.7 A
1970 4.0 B 1987 4.2 B
1971 4.8 A 1988 3.9 B
1972 4.7 A 1989 3.9 B
1973 4.2 B 1990 4.1 B
1974 4.6 A 1991 5.0 A
1975 6.6 A 1992 5.7 A
1976 6.4 A 1993 5.1 A
ºEn 1983, las clasificaciones ocupacionales fueron cambiadas. Desde ese año hasta el presente, los trabajadores de oficina canfor-
man la componente principal de los servicios de apoyo administrativo.
t A, igual o mayor: B, menor.
Fuentes: Los datos fueron extraídos de la tabla 28, Handbook ofLabor Statistics Bul/etin 2175, U.S. Department of Labor, Bureau of
Labor Statistics, diciembre de 1984; y de la tabla 10, Employment & Eamings, V.S. Department of Labor, Bureau of Labor Statistics,
enero de 1986, 1988, 1990, 1992, 1994.

constituyen una escala nominal, en la que cada uno de los elementos está clasifi-
cado como éxito o fracaso, sino también en los datos medidos con base en una
escala de intervalo o de cociente. Cuando se utilizan datos escalados en intervalo
o en cociente, cada uno de los elementos es clasificado de acuerdo con su posición
con respecto a Ja mediana de la secuencia. Por ejemplo, de la tabla 12.5 podemos
desear hacer la prueba de la hipótesis nula sobre el hecho de que las tasas de desem-
pleo de Jos trabajadores de oficina están distribuidas, en el tiempo, de manera
aleatoria con respecto a la mediana, contra la alternativa de que tales tasas, en el
tiempo, no estén distribuidas de manera aleatoria con respecto a la mediana; esto es:
H 0 : Las tasas de desempleo de los trabajadores de oficina son aleatorias
en el tiempo.
H 1 : Las tasas de desempleo de los trabajadores de oficina no son aleato-
rias en el tiempo (dos extremos).

Prueba de corridas de una muestra de Wald-Wolfowitz 441


Para efectuar la prueba de corridas, asignamos el símbolo A a cada tasa que sea
igual o exceda a la tasa mediana, y el símbolo B a cada tasa que se encuentre por
debajo de la tasa mediana. Con los datos presentados en la tabla 12.5 calculamos
la mediana de las tasas como 4.6. Así pues, como se muestra en la tabla 12.5, para
el periodo de 34 años, 19 tasas anuales de desempleo son iguales o mayores que la
mediana, y 15 están por debajo de ella.
Las partes 1 y 2 de la tabla E.9 presentan los valores críticos de la estadística de
prueba de corridas, U, al nivel de significación de .05. Como se muestra en la tabla
12.6 (que es una réplica de la tabla E.9), como n 1 = 19 y n2 = 15, rechazaríamos la
hipótesis nula, al nivel de .05, si U :5: 11 o si U'?. 24, para esta prueba de dos extremos.
Como el número observado de corridas es de 8, podemos rechazar la hipótesis nula
de aleatoriedad en favor de la alternativa. Aparentemente, existe un patrón en el
tiempo con respecto a las tasas de desempleo anuales de los trabajadores de oficina.
Si la hipótesis nula fuera verdadera, el valor de p o la probabilidad de obtener un
resultado como el presente o uno más extremoso, sería menor que .05.
Resulta interesante observar que la fórmula de aproximación de muestra gran-
de [ecuación (12.7)] para la est~dística de prueba, U, produce excelentes resultados
cuando el tamaño de muestra, n, es menor de 40. Por ejemplo, utilizando los datos
de la tabla 12.5 de la página 445, para una muestra den= 34 tasas de desempleo
anuales, con n1 = 19 en la tasa mediana, de 4.6, o por encima de ella, y n2 = 15 por
debajo de la tasa mediana,

u-(~+1)
Z=
2n 1 n 2 (2n 1 n 2 - n)
n 2 (n - 1)

8 - ( (2)(1:1(15) + 1)

[(2)(19)(15)][(2)(19)(15) - 34]
(34 2 )(33)

-9.765
~8.0088
= -3.45
Como Z = -3.45 < -1.96, el valor crítico de extremo inferior de la distribución nor-
mal estándar, utilizando un nivel de significación de a= .05, la hipótesis nula de
aleatoriedad puede ser rechazada. Existe un patrón en las tasas anuales de desem-
pleo de los trabajadores de oficina. Si la hipótesis nula fuera verdadera, el valor p o
la probabilidad de obtener un resultado como éste (es decir, 3.45 desviaciones
estár.dar de µu, el número esperado de corridas) o uno más extremoso sería de
.00056 (esto es, el área total de los dos extremos de la distribución normal están-
dar, el área que se encuentra a la izquierda de Z = -3.45 desviaciones estándar y el
área que está a la derecha de Z = +4.45 desviaciones estándar).

Problemas de la sección I 2.6


12.29 Empezando desde el inicio de la tabla de números aleatorios (tabla E.l), para
los primeros 100 dígitos observados, registre la secuencia de dígitos altos (es
decir, 5, 6, 7, 8 o 9) y dígitos bajos (es decir, O, 1, 2, 3 o 4), basándose en el
hecho de que los dígitos estén ya sea por arriba o por abajo del valor mediano
de 4.5. ¿Puede considerarse que la secuencia resultante de dígitos altos y bajos
sea aleatoria? (Utilice un nivel a = .05.)

446 Capítulo 12 Pruebas de una muestra con datos numéricos


Tabla 1 2.6 Obtención de los valores críticos de extremos inferior y superior. u. para la prueba de corrld11 IR 11
que n 1 = 19,n 2 = 15 y a= .05.
Parte l. Extremo inferior
(a= .025)
"'"""''""""'"····... ~ , ,.,.

~1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

2 2 2 2 ~ 2 2 2 2 2
3 2 2 2 2 2 2 2 2 2 B 3 3 3 3 :~
4 2 2 2 3 3 3 3 3 3 3 ~ 4 4 4 4 4
5 2 2 3 3 3 3 3 4 4 4 4 ~ 4 4 5 5 s
6 2 2 3 3 3 3 4 4 4 4 5 5 ~ 5 5 5 6 6
7 2 2 3 3 3 4 4 5 s s 5 5 p 6 6 6 6 6
8 2 3 3 3 4 4 s 5 5 6 6 6 I> 6 7 7 7 7
9 2 3 3 4 4 5 5 5 6 6 6 7 ~ 7 7 8 8 8
10 2 3 3 4 5 5 5 6 6 7 7 7 ~ 8 8 8 8 9
11 2 3 4 4 5 5 6 6 7 7 7 8 ~ 8 9 9 9 9
12 2 2 3 4 4 5 6 6 7 7 7 8 8 ) 9 9 9 10 10
13 2 2 3 4 5 5 6 6 7 7 8 8 9 l 9 10 10 10 10
14 2 2 3 4 5 5 6 7 7 8 8 9 9 ) 10 10 10 11 11
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
16 2 3 4 4 5 6 6 7 8 8 9 9 10 ID 11 11 11 12 12
17 2 3 4 4 5 6 7 7 8 9 9 10 10 u 11 11 12 12 13
18 2 3 4 5 5 6 7 8 8 9 9 10 10 H 11 12 12 13 13
- .
19
20
--
2
v

3
~

4
-
v

5
-
V

6
V

6
-
7
-
V

8
-
V

9
-
/

9
-
LV

10
-
LV

10
LL

11
11
12
12
12
12
13
13
13
13
13
13
14

Parte 2. Extremo inferior


(a= .025)

~1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

2
3
4 9 9
5 9 10 10 11 11
6 9 10 11 12 12 13 13 13 13
7 11 12 13 13 14 14 14 14 15 15 lp
8 11 12 13 14 14 15 15 16 16 16 1~ 17 17 17 17 17
9 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 13 14 15 16 16 17 17 18 18 1$ 19 19 19 20 20
11 13 14 15 16 17 17 18 19 19 1~ 20 20 20 21 21
12 13 14 16 16 17 18 19 19 20 2p 21 21 21 22 22
13 15 16 17 18 19 19 20 20 2 21 22 22 23 23
14 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 15 16 18 18 19 20 21 22 212 23 23 24 24 25
16 17 18 19 20 21 21 22 213 23 24 25 25 25
17 17 18 19 20 21 22 23 23 24 25 25 26 26
18 17 18 19 20 21 22 23 24 25 25 26 26 27
19 ·-
H ·-
LU --
-V -·
"-L
--22 -v --
.,., 24 25 26 26 27 27
20 17 18 20 21 23 24 25 25 26 27 27 28
Fuente: Extraída de la tabla E.9, partes 1 y 2.

12.30 Seleccione una página del directorio telefónico y, examinando solamente el


último dígito de cada número telefónico, registre la secuencia de dígitos altos
(5, 6, 7, 8, 9) y de dígitos bajos (O, 1, 2, 3, 4). ¿La secuencia resultante puede
considerarse aleatoria? (Utilice un nivel a= .05.) Presente el resultado
obtenido y discútalo en su clase.

Prueba de corridas de una muestra de Wald-Wolfowltz 447


t,i e 12.31 Durante el periodo comprendido entre 1960 y 1993, en los Estados Unidos de
Norteamérica, hubo un incremento en las partidas de presupuesto federal para
servicios en beneficio de los veteranos. Durante este periodo, sin embargo,
también aumentaron todas las partidas federales. Los datos de la siguiente
tabla presentan el porcentaje de las partidas federales totales en servicios en
beneficio de los veteranos durante el periodo de 34 años, comprendido entre
1960 y 1993. Con respecto a las fluctuaciones por debajo o por encima de la
mediana, ¿existe evidencia de alguna tendencia en el periodo de 34 años?
(Utilice un nivel a= .025.)

Porcentaje de gastos federales totales en servicios


de beneficio a los veteranos
Año Porcentaje Año Porcentaje
1960 5.9 1977 4.5
1961 5.8 1978 4.2
1962 5.3 1979 4.0
1963 5.0 1980 3.6
1964 4.8 1981 3.4
1965 4.8 1982 3.2
1966 4.4 1983 3.1
1967 4.4 1984 3.0
1968 3.9 1985 2.8
1969 4.1 1986 2.7
1970 4.4 1987 2.6
1971 4.6 1988 2.8
1972 4.6 1989 2.6
1973 4.9 1990 2.3
1974 5.0 1991 2.4
1975 5.1 1992 2.5
1976 5.0 1993 2.4
Fuente: Los datos fueron extraídos de la tabla 512, Statistical Abstract
ofthe United States, U.S. Department of Commerce, 1993.

12.32 Refiérase a los datos sobre la capacidad de las baterías de la página 42S. Las
capacidades (en amperios-hora) se presentan de izquierda a derecha en dos
hileras, esto es, en la secuencia en que se seleccionó la muestra aleatoria de 20
baterías, tomadas de un lote de reciente producción. Con respecto a las
fluctuaciones por arriba y por abajo de la mediana de la muestra de 138.5
amperios-hora, ¿existe evidencia de que la secuencia resultante no sea aleatoria?
(Utilice el nivel a= .OS.)

Problemas intercapítulo de la sección 12.6


12.33 En la figura 3.10 de la página 79 se enumera la cantidad de tiempo (en
minutos) que le lleva a un cajero atender a 24 clientes consecutivos de un banco
comercial, durante la hora del almuerzo. En la figura 3.13 de la página 81, se
muestra una gráfica digipunto para estos datos. Con respecto a las fluctuaciones
alrededor de la mediana de la cantidad de tiempo de 1.60 minutos, ¿puede
considerarse la secuencia resultante aleatoria? (Utilice un nivel a.= .OS.)
e 12.34 Utilice los datos del problema 3.41 de la página 82. ¿De la secuencia resultante
de 30 pares consecutivos de jeans producidos, existe evidencia de que el
proceso de manufactura esté fuera de control? (Utilice el nivel a= .OS.)
12.35 , Utilice los datos del problema 3.42 de la página 82. Con respecto a las
fluctuaciones alrededor de la mediana, ¿existe evidencia de una tendencia en
los tiempos de práctica de Victor Sternberg durante el periodo de 27 días?
(Utilice el nivel a= .025.)

448 Capitulo 12 Pruebas de una muestra con datos numéricos


1FJJ ;Uso deda,-coniputadora>para la prueba de. .: •'

· • · .· '~i.P9~é$i$; ta· '~:ne uesta q~ satisf~cción'. de


_,: :,los empleados·d~. Industrias Kalosha ' .... '.,
,'·:' 1 ': '•:

; ,,, '1

l ·2. 7.1 ·· Introducción 'Y resumen· .,·


' ' ., • ,,.. '. ~ (" '\ ¡ ., ' .. ', ·, . . . ;. ' . " '. .º ' ·. ', . ' .

Cuando tratámos«:'on.conjurifos graneles de'.,<;Iatos, podemos utilizar \a C:Qmputapóra


para ayudamos no sólo en nuestro análisis de estadística descriptiva, sino también en
nuestro análisis de confirmación. En la. presente sección, rppstra,remos. cómo lo.s
paquetes de software estadísticos pueden ser usados para efectuar'díferentes pruebas
de hipótesis, cuando estudiamos los resultados de una muestra de datos numéricos.
Obtendremos una mejor apreciacióµ de la a~ist~p.d.a qµe la, computadora puede ofre~
cernos al resolver problemas estádístieos, en particular aquellos que implican variables
con valores muy grandes o conjµntosmuy grand~s de datos. (Véanse referencias 6 a 8
y 10.) Para llevar a cabo ,19 anterior, regresemos al· ejemplo de la EnCÍ.lesta sobre la sa-
tisfacción de lbs emplead:of de Industrias Kalosha que desarrollamos en el capitulo 2.
_,: .... ·:::-;·, ·.. ,.·. -: . . , ··,!.

12.7.2 Encuesta sobre la·satisfacdóri de los .


· enipléad,Os ..Oe)nCl.l.Jstrias K~dosha · .1
.·' ..,.··'·' · ......... ,·:'..:,'.' ....·::.~...·:--· .., .. ·: ':;:.:·:·:.,_.,:·..~·~"::::::··.·(',>;!·~,., .. :::-'·:,' . ' ·t',- ,1. '.'"J'',:"• ..' .{ .: . l

Podemos tetordat,'de la sección 3.8:2, que Bud Conley, el vicepresidehte deteCUr"'


sos humanos, está preparánciose p¡ua un;:t.teunión con tifr reprt!se~ta~~e .4eJa ,~~L
Corporation .~ fin. ~e analiZar 'lós contenidos ¡>o.tendales de un paquete. cte. pJ:~sta~
dones para empleados que lacompañ.ía·está consideranoo .instrumentar..Incluso.
antes de planear la Encuesta. de satisfacción de los empleados, .Conley c;leseaba
determinar: · · · ·
··: ·· 1. :Si e:dstí~:~Y.idene.l~.:cie q9:e la. ~(;la~: promeqip de todos Jos. ero,p.leac;lG>~, ,•
. . . de ·tiempo completp. de. :KalQsbaJndustries er¡¡1 difere11te d~ 4:0 añ.Qs.
, .. : ·2~, Si,éXi~tí'a ~~4eti.Qi,*:dé q»el'.í!-ioA~4íá~a:efe Jos in~e~os fa~Hi~r~s ;:.. ·. .·.· ·.•. · • ::•
· : . (ti;>tales) de los eµipleaq{)$ d~:petÍtpo, (;qmpleto de Kalosba In,d~sttie,si •:·;:,
era mayor a $~9:;Q.ÓQ;. ,, " ' ./... ' . . . . ,' . . .. ::.:1i'
.. ',.···." ...,. '·,~,.: ..;:.' . ,..'(": ', .' .. ·'·:',;.<:: ·:,. -~··¡ : .. '/·'": .~1-: . . :- .. ::.~· ....
Basado. en su ·iqtuición,
• • 1. 1 ·l.{'.

Btid' Córiley ha· afirmado que,la . édá:d promedfo'·.e~ª-·de •,<'I• ., ,;. , · '• , 1

alrededor de .40. añ,~~ y que cre~a ·que, la median,~. qe, Jqs .i:Qgtesos fatn4liares (tota.les).
¡,•,' '· ¡li' , >.(· ;·¡ . '• • • ,,. '¡

~s· m.ay9r qµe. ~~91PQO.'. ~~~p~~,s;t:as de' ~Qrt.ffrri~,516~:ª '~stas ~~"s,.~;eg¡in!á~;';así,:có~q


~ •?tra~, 9u~. le, ~a~;·.~11~~cip; ~yras~., ~g ¡jt~y~~!?, d~'.E!pc~l)st~fb~~:t::. jl~ 1 • ?~tos ~~,e ~e
encuentra al fmal de Ja ,secq:on)' sen~nde utilidad para Col)ley,'ysO'n;nec;esarias.
ahtes de tene~ Ja ~eu#ióri córi 'el repr~sentante de' fa 1B~L .c~rí>or~Bt>,d;\í~ rriodo qtf~
pue~a.¡ t,~pet ~lgcfpí~s, 1~~ 'vé~t~Já ~#'.~a~ ·~~~~~í~~es}91?f~ .é,l pa~4e~~)~t~'pr~s~a~~~.~~.
pai:a los e'~Rleados. Las. respuesta.s ptiedE!n ,óbt.eqerse 'attaVE;~ d~ 'un ap.áhs1s <!E! ~o~~
fhniadóii de:1~ 40ó resptíéstas a la e.ric:Uélta (Véa:sé tiibia 2:3 de:las 'páginas 331~40)' !.
.·. · ·• ... :'' ,.,,•;:,;:,, , . '·. <-.•• . /F'··1:'··',·',::···· ,::·;:''../.:;;¡!)~~~;~:

p:.·p::~~~fl~~~f~:;;¡~~."~:":'1~·
empleados (le tH~rn:po ~céitilpletp de I<:alosha l~dustfies es ap~px~m.~~¡iµí
afios1las .hlpótE!sis:ri\l~ª.Yi!Ít~rna.tiya, s~tía*···'. . .·.·
. .. . •... ··.
·'· ' < /.~'···
n . V,1~ •• ci~~~~if •
Uso de la computadora para la prueba de hipótesis: la encuesta de satisfacción de los empleados de industrias Kalosha 44~
Puesto que estamos tratando con una muestra que contiene datos numéricos, se
empleará una prueba t y ésta se llevará a cabo con el tradicional nivel de signifi-
cación de a= .05. Se utiliza una prueba de dos extremos debido a que Bud Conley,
sencillamente, hizo la hipótesis de que la edad promedio era de aproximadamente
40 años. La alternativa es que la edad promedio no es de 40 años, ya sea significa-
tivamente menor o significativamente mayor. Como hay 400 empleados en la mues-
tra, tenemos 400 - 1 =399 grados de libertad. Debido a que el tamaño de la muestra
es muy grande, los valores críticos al nivel de significación de .05 serían aproxi-
mados por ±1.96, tomados de la parte inferior de la tabla E.3, como se muestra en
la figura 12.9. La regla de decisión sería

Rechazar: H0 si t > +l. 96


o si t< -1.96;
En cualquer oti'o caso rechazar H0 .

Figura 12.S>
Prueba de dos extremos para
hipótesis sobre la media (crx
desconocido) para una muestra de 1

tamafio 400 al nivel de 1


significación de .OS. µx=40

Sin embargo, primero debemos determinar qué tan apropiada resulta la prueba
t llevando a cabo un análisis descriptivo exploratorio completo. Introduciendo los
datos en MINITAB, obtenemos varias estadísticas de resumen,·una representación
de tallo y hojas, un histograma, una gráfica de caja y bigotes y una de probabilidad
normal con respecto a las edades de los empleados de tiempo completo. Parte del
resultado obtenido con MINITAB se ilustra eri la figura 12.10.
Los datos de la figura 12.10 parecen estar apenas sesgados hacia la derecha
porque la media es ligeramente µlayoí ala mediana; la longitud del sesgo entre ~
y Xn:iayov en la gráfica de caja y sesgos, es mayor a la longitud del sesgo entre Xmenor y
Q11 y la gráfica de probabilidad normal tiene algo de curvatura en sus extremos. Sin
embargo, la. pruepa t Iio es robusta con respecto a estas violaciones moderadas de
la suposición de normalidad, en particular, con tamaños de muestra grandes. En
este caso, para muestras aleatorias de tamaño tan grande como 400, el teorema del
límite· central (véase sección 9 .2) tendría como resultado una distribución de
muestreo aproximadamente normal, y la prueba t parecería ser el procedimiento
apropiado que se debe utilizar.
Pero, ¿es nuestra ·muestra aleatoria? La suposición de aleatoriedad y de inde-
pendencia de las observaciones que comprenden la muestra es importante para
decidir si utilizamos la prueba, t, la de Wilcoxon o la x2 , desarrolladas en el pre-
sente capítulo. Con el paquete MINITAB, empleamos la prueba de corridas de una
muestra de Wald-Wolfowitz para aleatoriedad. Las hipótesis nula y alternativa son:

H0 : La secuencia de edades de la muestra es aleatoria.

H 1: La secuencia de edades de la muestra no es aleatoria (dos extremos).

450 Capítulo 12 Pruebas de una muestra con datos numéricos


N MEAN MEDIAN TRMEAN STDEV SEMEAN
age 400 39.410 38.000 39.075 10. 611 0.531
MIN MAX Ql Q3
age 18.000 69.000 32.000 46.000

Boxplot of age N = 400

-----------I + I--------------- *
---+-------+-------+-------+-----~-+---~---+--age

20 30 40 50 60 70

age
*
54 3 2
60 + 77
486
+96
++
+++
40 + +++
+++
+9++
++++
354+
20 + * 3 4

-------+-------+-------+-------+-------+-------Normal
-2.4 -1.2 O.O 1.2 2.4 Seores
Figura 12.1 O
Parte del resultado obtenido con MINITAB en donde se muestra alguna información
descriptiva acerca de la edad de los empleados.

De la información sumaria presentada en. el resultado de. MINITAB de .la figura


12.10, la mediana de la muestra es de 38.0 años. Utiljzando un nivel de signifi-
cación ex. de .05, la hipótesis nula de aleatoriedad se prueba de la manera en que se
muestra en la figura 12.11.

age

K = 38.QOOO
THE OBSERVED NO. OF.RUNS =: 201
THE EXPECTED NO. OF RUNS =: 2 O.O . 9 8 00 Figura 12.1 1
198 OBSERVATIONS ABOVE K 202 BELOW Resultado obtenido con
THE TEST IS SIGNIFICANT AT 0.9984 MINITAB en donde se
CANNOT REJECT AT ALPHA =: 0.05 muestra la prueba de corridas
para aleatoriedad.

Uso de la computadora para la prueba de hipótesis: la encuesta de satisfacción de los empleados de industrias Kalosha 4S 1
Del resultado obtenido con MINITAB, la suposición de aleatoriedad (es decir, la
hipótesis nula) no puede ser rechazada . El valor p de la prueba de corridas es de
0.9984, mucho más grande que el nivel de significación escogido, a= .05. Así pues,
podemos proceder con la prueba t.
Utilizando la ecuación 12.1 sobre la estadística sumaria tomada de la figura
12.10, tenemos

t =
X-µ X
39.41 - 40 = -111
s 10.611 .
..¡;:, _,¡ 400

Como -1.96 < t = -1.11 < + 1.96 no réchazamos la hipótesis nula, HO. Se llega a
la misma conclusión si usamos MINITAB para efectuar la prueba t (véase figura
12.12).

TEST OF MU= 40.000 V MU N.E. 40.000


N MEAN STDEV SE MEAN T P VALUE
age 400 39.410 10.611 0.531 -1.11 0.27

Figura 12. 12
Resultado obtenido con MINITAB para una prueba t.

Podemos observar, de la figura 12.12, que MINITAB presenta las hipótesis nula
y alternativa, y el nivel en que la prueba tes significativa (es decir, el valor p). Aquí
observamos que el valor pes de .27. Como éste es mayor que el nivel de signifi-
cación escogido de a= .OS, la hipótesis nula no puede ser rechazada. En consecuen-
cia, podemos concluir que, al nivel de significación de .05, no existe evidencia para
refutar la afirmación de Bud Conley con respecto a la edad promedio de los emplea-
dos de tiempo completo.
Para probar la segunda afirmación de Bud Conley, acerca de que la mediana del
ingreso familiar total de los empleados de tiempo completo de Kalosha Industries
es mayor que $39 000, las hipótesis nula y alternativa serían:

H0 : Mediana ::;; 39 mil dólares


H1: Mediana> 39 mil dólares
Puesto que estamos tratando con una muestra que contiene datos numéricos y
estamos interesados en probar una hipótesis con respecto a un valor mediano,
emplearemos la prueba de rangos con signo de Wilcoxon, y se efectuará en el
tradicional nivel de significación de a= .OS. Se utiliza una prueba de un extremo
debido a que la afirmación de Bud Conley es direccional. Estableció la hipótesis de
que la mediana del ingreso familiar total es mayor a los $39 000. Esta afirmación
es la hipótesis alternativa. La hipótesis nula que vamos a probar (que debe incluir
un signo de igual) establece que la mediana del ingreso familiar total es menor o
igual a $39 000. Puesto que se tienen 400 empleados en la muestra, la estadística
de prueba de Wilcoxon, W, está distribuida de manera aproximadamente normal,
y se puede utilizar la ecuación (12.4) de la página 433 para probar la hipótesis nula.
Para una prueba de un extremo al nivel de significación de .05, el valor crítico
obtenido de la distribución normal estándar (tabla E.2) e~ + 1.64S (véase la figura
12.13). La regla de decisión sería

Rechazar H0 si Z > + 1.645;

en cualquier otro caso, no rechazar H0 •

452 Capítulo 12 Pruebas de una muestra con datos numéricos


Figura 12. 1 J
1 +1.645 Prueba de un extremo de una
1 hipótesis acerca de la mediana de
Mx= $39,000 una muestra de tamaño 400, al
nivel de significación de O.OS.

Para determinar qué tan apropiada es la prueba de Wilcoxon, efectuamos un


análisis exploratorio descriptivo completo sobre el ingreso familiar de los emplea-
dos de tiempo completo. Parte del resultado obtenido utilizando MINITAB se
muestra en la figura 12.14.

N MEAN MEDIAN TRMEAN STDEV SEMEAN


fincome 400 42. 492 39. 200 41. 346 19 .188 o. 959
MIN MAX Ql Q3
fincome 14.300 98.700 27.600 52.175

Boxplot of 'fincome' N = 400

------I + !------------------*******

---+-------+-------+-------+-------+-------+-- fincome
16 32 48 64 80 96

***** *
90 + 42*
*53
fincome - 5
*86
+9·
60 + ++
7+4
6++8
+++
+++7
30 + 6++5
.4+++9
3*5454778
* 2*

------+-------+-------+-------+-----~-+------- Normal
-2.4 -1.2 O.O 1.2 2.4 Seores

Figura 12.14
Parte del resultado obtenido con MINITAB que muestra alguna información descriptiva sobre
los ingresos familiares totales de los empleados.

Uso de la computadora para la prueba de hipótesis: la encuesta de satisfacción de los empleados de industrias Kalosha 45 J
A pesar de que los datos de la figura 12.14 parecen estar sesgados a la derecha, la
prueba de Wilcoxon es robusta con respecto a violaciones a la suposición de
simetría, en particular con tamaños de muestra grandes. En este caso, para mues-
tras aleatorias de tamaños tan grandes corno 400, el teorema del límite central (sec-
dún 9.2) daría como resultado una distribución de muestreo aproximadamente
normal, y la prueba de Wilcoxon sería un procedimiento apropiado.
Usando MINITAB para efectuar la prueba de Wilcoxon (véase figura 12.15) tenernos:

TEST OF MEDIAN= 39.00 VERSUS MEDIAN G.T. 39.00


N FOR WILCOXON ESTIMATED
N TEST STATISTIC P-VALUE MEDIAN
fincome 400 400 44657.0 0.024 41.00
Figura 1 2. 1 s
Resultado obtenido con MINITAB para la prueba de rangos con signo de una
muestra de Wilcoxon.

De la figura 12.15, podemos observar que MINITAB muestra las hipótesis nula y
alternativa y el nivel al cual la prueba es significativa (esto es, el valor p). En este caso,
vemos que la estadística de prueba, W, es de 44 657, Jo que tiene corno resultado un
valor de p de .024. Como éste es menor que el nivel elegido de significación, ex= .05,
la hipótesis nula es rechazada. [Si se hubiera utilizado la ecuación (12.4), tendríamos
que Z = +l.97 > +l.645, el valor crítico del extremo superior, como se muestra en la
figura 12.13 de la página 453, y H 0 hubiera sido rechazada.] En consecuencia,
podemos llegar a la conclusión de que, al nivel de significación de .05, existe evi-
dencia para apoyar la afirmación de Bud Conley acerca de que la mediana del ingreso
familiar total de los empleados de tiempo completo es mayor a $39,000.

Proyecto de encuesta/base de datos de la sección 12. 7


Los siguientes problemas se refieren a los datos de muestra obtenidos con el westio-
nario de la figura 2.6, de las páginas 28-29, y presentados en la tabla 2.3, de las
páginas 33-40. Deberán resolverse con la ayuda de un paquete de computación.
Suponga que usted fue contratado como investigador asistente de Bud Conley,
vicepresidente de recursos humanos de Ka/osha Industries. Éste le ha pedido que
pruebe dos hipótesis (véanse problemas 12.36 y 12.37) antes de tener su reunión
con un representante de la B&L Corporation, la empresa consultora sobre presta-
ciones laborales que ha contratado. A partir de las respuestas a las dos preguntas
que tienen que ver con variables numéricas en la Encuesta sobre satisfacción de los
empleados, y pertenecientes a las hipótesis descritas en los problemas 12.36 y
12.37 que se presentan a continuación,
(a) Obtenga un conjunto de estadísticas descriptivas.
(b) Desarrolle la representación de tallo y hojas.
(e) Trace la grá"(ica de caja y sesgos.
(d) Trace la gráfica de probabilidad normal.
(e) Pruebe la hipótesis de interés.
(f) t.t;Mi.t·I•> Escriba un memorándum a Bud Con ley en donde analice
sus resultados.
12.36 Al nivel de significación de a= .05, ¿existe evidencia de que el número prome-
dio de horas que pasan los empleados de tiempo completo de Kalosha
Industries en el trabajo en todas las actividades (véase pregunta 1) es diferente
de 42?
12.37 Al nivel de significación de a= .05, ¿existe evidencia de que la mediana del
ingreso personal anual (véase pregunta 7) de los empleados de tiempo com-
pleto de Kalosha Industries es mayor a $26,000?

454 Capftulo 12 Pruebas de una muestra con datos numéricos


1fij:J Trampas potenciales de la prueba
de hipótesis y cuestiones éticas

12.8.1 Riesgos Potenciales


En el presente capítulo introdujimos cuatro procedimientos estadísticos que
pueden ser empleados cuando se maneja una sola muestra con datos numéricos:
la prueba t para una media supuesta, la prueba de rangos con signo de Wilcoxon
para una mediana supuesta, la prueba x2 para una varianza o una desviación están-
dar supuesta y la prueba de corridas de Wald-Wolfowitz para la aleatoriedad. Parte
de un buen análisis de datos consiste en entender las suposiciones que subyacen
en cada uno de los procedimientos de prueba de hipótesis y, utilizando esta infor-
mación y otros criterios, también seleccionar el procedimiento más apropiado para
un conjunto dado de condiciones.
Las características más prominentes y distinguibles de los procedimientos de
prueba descritos en el presente capítulo, en relación con los que describiremos en
los tres siguientes capítulos, son los hechos de que hemos estado tratando con
situaciones en las que se selecciona una sola muestra aleatoria de tamaño n y los
resultados son numéricos, en lugar de ser categóricos. Como se puede observar en
el diagrama de resumen del capítulo 12, en la página 457, si se tiene interés en la
tendencia central, entonces, dependiendo de ciertas suposiciones, se seleccionaría
la prueba t para una media hipotetizada o la prueba de rangos con signo de Wilcoxon
para una mediana supuesta. Si el interés recae en el estudio de la variación y se puede
suponer que la muestra proviene de una población subyacente normal, podría
emplearse la prueba x2 para una varianza o una desviación estándar supuesta. Si se
tiene interés en la aleatoriedad, se utilizaría la prueba de corridas de una muestra de
Wald-Wolfowitz.

1 2.8.2 Cuestiones éticas


Las consideraciones éticas surgen cuando un investigador manipula el proceso de
la prueba de hipótesis. Como se analizó en la sección 11.11.2 (páginas 412-415),
algunas de las cuestiones éticas que surgen cuando se trata con la metodología de
la prueba de hipótesis son:
• Método de recolección de datos: aleatorización.
• Consentimiento informado por parte de los sujetos humanos que son
probados.
• Tipo de prueba: de dos extremos o de un extremo.
• Elección del nivel de significación, a.
• Curioseo de datos.
• Depuración y eliminación de datos.
• Informe de resultados.
• Meta-análisis.
Muchas vidas pueden depender de la aceptación y de la aplicación de una investi-
gación fallida. Esto se vuelve de mayor importancia cuando se ve implicada la
ética. Vuelva a leer la sección 11.11, de modo que quede arraigada en su proceso
de pensamiento. De nuevo, cuando analizamos cuestiones éticas concernientes a
la metodología de la prueba de hipótesis, Ja clave es la intención. Debemos distin-
guir entre un pobre análisis de confirmación y ciertas prácticas no éticas. El com-
portamiento no ético se presenta cuando un investigador, por propia voluntad,
hace que haya parcialidad en la recolección de datos, manipula el tratamiento de
Jos sujetos humanos sin conseguir su consentimiento informado, utiliza el curioseo

Trampas potenciales de la prueba de hipótesis y cuestiones éticas 45 5


de datos para seleccionar el tipo de prueba (de dos extremos o de un extremo) y/o
el nivel de significación para su provecho, esconde los hechos mediante la elimi-
nación de observaciones que no apoyan una cierta hipótesis establecida, y no
informa de los hallazgos pertinentes.

1f!·) Prueba de hipótesis basada en una


muestra de datos numéricos:
repaso y visión preliminar
Como se presenta en el diagrama del resumen del capítulo 12, en dicho capítulo
se presentaron cuatro procedimientos de prueba de hipótesis de uso común que
implican una sola muestra que contiene datos numéricos. En la página 422 de la
sección 12.1, se presentó una lista en la que se pone énfasis en los puntos impor-
tantes que se analizan en el capítulo. Revise la lista ahora, para ver si siente que
tiene un entendimiento de estos puntos clave. Para estar seguro, deberá ser capaz
de responder las siguientes preguntas conceptuales:
l. ¿Cómo y cuándo utilizaría usted la prueba t para la media de
población, µ)
2. ¿Cómo y cuándo utilizaría usted la prueba de rangos con signo de
Wilcoxon para Ja mediana de la población, M)
3. ¿Cuál es el significado del concepto de robustez?
4. ¿Cómo y cuándo utilizaría usted la prueba x2 para la varianza, u-;, o
para la desviación estándar de la población, cr)
S. ¿Cuál es el significado del concepto de aleatoriedad y de la idea de cm-ricias·?
6. ¿Cómo y cuándo utilizaría usted la prueba de corridas de Wald-
Wolfowitz para la aleatoriedad?
7. ¿Cuáles son las características distintivas entre las pruebas paramétricas
clásicas, las pruebas libres de distribución y las pruebas no paramétricas?
8. ¿Cuáles son las ventajas y las desventajas de las pruebas paramétricas
clásicas, de las pruebas libres de distribución y de las no paramétricas?
9. ¿Cuáles son algunas de las cuestiones éticas por las que se debe uno
preocupar cuando se lleva a cabo una prueba de hipótesis?
Verifique la lista de preguntas para ver si, efectivamente, conoce las respuestas
y puede (1) explicarlas a alguna persona que no haya leído el capítulo y (2) de re-
ferencias sobre lecturas específicas o ejemplos que apoyen su respuesta. También,
vuelva a leer cualquiera de las secciones que le hayan parecido confusas para ver
si, ahora, ya tienen sentido.
Seguiremos construyendo los fundamentos de la prueba de hipótesis que he-
mos estudiado hasta este punto. En el capítulo que sigue, presentaremos un con-
junto de procedimientos que pueden emplearse para el análisis de las diferencias
entre dos grupos cuando los datos son de carácter numérico.

Juntando Todo
TÉRMINOS CLAVE
corrida 443 prueba de rangos con signo de
distribución chi-cuadrada 438 Wilcoxon (una muestra) 430
efecto de tendencia 443 prueba libre de distribución 423
efecto sistemático o périodico 444 prueba no paramétrica 423
prueba de corridas de una muestra de prueba paramétrica o clásica 423
Wald-Wolfowitz 442 prueba t de una muestra 425

456 Capítulo 12 Pruebas de una muestra con datos numéricos


~-----------------------·--

Procedimientos de
una muestra

Cuestiones éticas
Categóricos Numéricos

Véase
capítulo 15 Variación Aleatoriedad

Prueba X2 para cr; rueba de corrida


o para crx e Wald-Wolfowits

Sí No

Prueba de rangos
Sí No con signo de
Wilcoxon para Mx

Prueba z Prueba t
(capítulo 11) paraµx

Diagrama del resumen del capitulo 12.

prueba x2 para una varianza o una resultados de diferencia 431


dcsviacibn estándar hipotetizadas 437 robusta 424

Problemas de repaso del capítulo


12.:rn t.f'iil!Ji•i·I» Escriba una carta a un amigo que no ha tomado ningún curso
de estadística y explíquele de que se ha tratado el presente capítulo. l'ara
resaltar su contenido, asegúrese de incorporar la respuesta que dio a las nueve
preguntas de repaso que se encuentran en la página 456.
1239 Una máquina que se utiliza para empacar pasas doradas sin semilla ha sido
calibrada de modo que en promedio se empaquen IS onzas del producto por
caja. El ingeniero de control de calidad desea probar la calibración de la
máquina y selecciona una muestra de :m paquetes consecutivos de pasas
llenados durante el proceso de producción. El peso de cada paquete se registra
en la tabla siguiente siguiendo el orden de las columnas (de arriba hacia abajo
y de izquierda a derecha):
1S.2 153 15.1 15.7 15.3 15.0 15.1 143 14.6 14.5
15.0 1.'i.2 15.4 15.6 15.7 15.4 15.3 14.9 14.8 14.6
14.3 14.4 15.5 15.4 15.2 15.5 15.6 15.1 15.3 15.1

Problemas de repaso del capítulo 4S7


(a) ¿Estos datos indican una falta de aleatoriedad en la secuencia de
contenidos menores y mayores, o puede considerarse que el proceso de
producción está "bajo control"? (Utilice el nivel, a= .OS.)
(b) Dependiendo de la respuesta que haya obtenido en el inciso (a), si es
adecuado, responda las siguientes preguntas:
(1) ¿Existe evidencia de que la media del peso por caja sea diferente de lS
onzas? (Utilice a= .05.)
(2) ¿Existe evidencia de que la mediana del peso por caja sea diferente de
lS onzas? (Utilice a= 0.05.)
(3) ¿Existe evidencia de que la desviación estándar del peso por caja sea
diferente de lS onzas? (Utilice a= .OS.)
(c) Para efectuar las pruebas de los incisos (b)(l) a (3), debemos suponer que
la secuencia observada en la cual fueron tomados los datos es aleatoria.
¿Qué otras suposiciones debemos hacer para llevar a cabo cada uria de
estas pruebas? Discuta su respuesta.
e 12.40 En el pasado, una tarea que se realiza en una línea de producción requería 30
segundos para llevarse a cabo. Una ingeniero industrial ha desarrollado un
nuevo método para efectuar la tarea que, según ella, acelerará el proceso. Se
selecciona una muestra aleatoria de lS trabajadores que fueron entrenados
con el nuevo método, y los tiempos que necesitaron para termin,ar la tarea se
presentan a continuación:
27.2 31.1 29.0 26.7 28.1 27.3 29.6 30.5
30.0 30.2 2S.9 31.3 28.8 27.4 27.0
(a) ¿Es razonable suponer que esta muestra ha sido tomada de una población
que está distribuida de manera aproximadamente normal?
(b) Existe evidencia para sugerir que el tiempo medio utilizado con el nuevo
método es significativamente menor que 30 segundos? (Use el nivel
a= .OS.)
(c) ¿Existe evidencia para sugerir que la mediana del tiempo utilizado con el
nuevo método sea significativamente menor que 30 segundos? (Use el
nivel a= .OS.)
(d) Compare los resultados obtenidos en los incisos (b) y (c), con respecto a
su estimación de la suposición de normalidad. Discuta su respuesta.
(e) t.r;¡M.t.f ... ¿Qué recomendación le haría a la administración con
respecto al nuevo método? Redacte un memorándum.
(f) ¿Existe evidencia para sugerir que la desviación estándar con el nuevo
método es diferente de 1.2 segundos? (Utilice el nivel a= O.OS.)
12.41 El director de admisión de una reconocida escuela de negocios afirma que las
calificaciones en el examen GMAT entre los solicitantes al nivel de licenciatura
aumentaron de manera significativa durante el año anterior. La calificación
promedio de todos los solicitantes del afio anterior es de S20 puntos. Los datos
dados a continuación representan las calificaciones de GMAT correspondientes
a una muestra aleatoria de 20 solicitantes en el presente año:
560 500 670 460 590 490 S40 550 750 620
SlO S20 380 S80 600 sso S70 640 490 600

(a) ¿Existe evidencia para apoyar la afirmación del director de admisión?


(Utilice el nivel ex= .OS.)
(b) ¿Qué prueba seleccionó en el inciso (a) y por qué?
(c) ¿Qué suposiciones deben ser válidas con el propósito de efectuar la prueba
del inciso (a)?
(d) Evalúe formalmente las suposiciones del inciso (c) mediante una prueba
de hipótesis (utilice el nivel a= .05) y un planteamiento gráfico. Discuta
su respuesta.
12.42 Un fabricante de ropa para niños le ha pedido a un asesor de la Sociedad
Norteamericana de Pruebas y Materiales (American Society for Testing and
Materials) que evalúe la inflamabilidad potencial del material que se está uti-
lizando para confeccionar trajes para bebés. El asesor toma una muestra aleato-
ria de 20 tiras idénticas de material y somete cada tira a una prueba especial.

458 Capítulo 12 Pruebas de una muestra con datos numéricos


Los datos que se presentan a continuación indican la longitud de material
carbonizado (en centímetros) de cada una de las 20 tiras.
6.92 8.39 9.31 9.90 10.63 9.32 9.80 8.98 8.88 8.42
9.47 8.95 8.92 9.44 9.91 8.75 9.24 9.35 11.17 8.01
(a) ¿Existe evidencia de que la longitud promedio (en centímetros) del material
carbonizado sea diferente de 9 .25? (Utilice el nivel u= .05.) Discuta su respuesta
(b) ¿Qué prueba seleccionó en el inciso (a) y por qué?
(c) ¿Qué suposiciones deben ser válidas con el propósito de efectuar la prueba
del inciso (a)?
(d) Evalúe formalmente las suposiciones del inciso (c) mediante una prueba
de hipótesis (utilice el nivel a = .05) y un planteamiento gráfico. Discuta
su respuesta.
12.43 Un fabricante de baterías para automóvil afirma que su producto durará, en
promedio, al menos cuatro años (48 meses). Un grupo de defensoría del
consumidor desea evaluar la afirmación del fabricante y selecciona una muestra
aleatoria de 28 de las baterías en cuestión para ser probadas. Los datos presentados
a continuación corresponden a la duración (en meses) de cada una de las
baterías (es decir, el tiempo que funcionaron adecuadamente antes de fallar).
42.3 39.6 25.0 56.2 37.2 47.4 57.5
39.3 39.2 47.0 47.4 39.7 57.3 51.8
31.6 45.1 40.8 42.4 38.9 42.9 34.1
49.0 41.5 60.1 34.6 50.4 30.7 44.1
(a) ¿Existe evidencia de que la vida promedio de las baterías sea menor de 48
meses? (Utilice el nivel a = .05)
(b) ¿Qué prueba seleccionó en el inciso (a)? ¿Por qué?
(c) ¿Qué suposiciones deben ser válidas con el propósito de efectuar la prueba
del inciso (a)?
(d) Evalúe formalmente las suposiciones del inciso (c) mediante una prueba
de hipótesis (utilíce el nivel a= .05) y un planteamiento gráfico. Discuta
su respuesta.
Q 12.44 Usted está departiendo amigablemente con una cliente. Alguien le ha sugerido
que las técnicas libres de distribución o las no paramétrícas deben ser de ayuda
para su actual proyecto. Como su asesor estadístico, ella le pregunta a usted:
"¿Qué son las técnicas sin distribución y las no paramétricas, y cuándo o por qué
pueden ser de utilidad? Usted le da un trago a su bebida y le responde ........ .

B Proyecto ~inicaso de aprendizaje


~ colaborativo

Para cada uno de los proyectos siguientes, refiérase a las instrucciones de la página 101.
CL12.1 Refiérase al CL3.2 de la página 101 y la CL4.2 de la página 165. Su grupo, la
empresa ha sido contratada por el editor de la sección de alimentos de
una popular revista familiar para estudiar el costo y las características de nutri-
ción de los cereales que se venden listos para comerse. Armada con el
Conjunto de datos especiales 2, del apéndice D de las páginas 06 y 07, la
Empresa está lista para:
(a) Determinar sí existe evidencia de que el costo promedio de todos los
cereales listos para comer es diferente de 30 centavos.
(b) Determinar si existe evidencia de que el peso medio de los cereales ricos
en fibra es mayor a l. 7 onzas.
(c) Determinar si existe evidencia de que la mediana del contenido de
calorías de los cereales moderadamente ricos en fibra es mayor que 150.
(d) Determinar si existe evidencia de que la desviación estándar del
contenido de azúcar (en gramo por ración) de los cereales bajos en fibra es
diferente de 0.4 gramos.

· Proyecto minicaso de aprendizaje colectivo 4S9


(e) Escriba y entregue un resumen ejecutivo en el cual se describan los resultados
obtenidos en los incisos (a) a (d), especificando claramente todas las
hipótesis hechas, los niveles seleccionados de significación y las suposi-
ciones hechas para elegir los procedimientos de prueba.
(f) Prepare y presente una exposición oral de cinco minutos al editor de la
sección de alimentos de la revista.
CLl2.2 Refiérase a los proyectos CL3.3, de la página 102, y CL4.3, de la página 165. Su
grupo, la empresa ha sido contratada por el director de comercialización
de una reconocida empresa fabricante de perfumes y lociones para hacer un estu-
dio de las características de las fragancias disponibles en la actualidad. Armados
con el Conjunto de datos especiales 3 del apéndice D de la página D8-D9, la Em-
presa está lista para:
(a) Determinar si existe evidencia de que el costo medio de las fragancias para
mujeres es diferente de $120.
(b) Determinar si existe evidencia de que la mediana del costo de los perfumes
es mayor a $200.
(e) Determinar si existe evidencia de que la desviación estándar del costo de
las fragancias suaves excede los $90.
(d) Escriba y entregue un resumen ejecutivo en el cual se describan los resultados
obtenidos en los incisos (a) a (c), especificando claramente todas las
hipótesis hechas, los niveles seleccionados de significación y las
suposiciones hechas para elegir los procedimientos de prueba.
(e) Prepare y presente una exposición oral de cinco minutos al director de
comercialización.
CL12.3 Refiérase a los proyectos CL3.4, de la página 102, y CL4.4 de la página 166. Su
grupo, la Empresa ha sido contratada por el editor de la sección de
viajes de un reconocido periódico, el cual está preparando un artículo sobre
cámaras compactas de 35 mm. Armados con el Conjunto de datos especiales 4
del apéndice D, páginas DlO-Dl 1, la Empresa está lista para:
(a) Determinar si existe evidencia de que el precio promedio de todas las
cámaras compactas de 35 mm es diferente de $150.
(b) Determinar si existe evidencia de que el peso medio de las cámaras "de
longitud múltiple" de 35 mm es mayor a 17 onzas.
(e) Determinar si existe evidencia de que la mediana de la precisión de
encuadre de las cámaras "automáticas" de 35 mm es mayor de 80
porciento.
(d) Determinar si existe evidencia de que la desviación estándar de la vida de
las baterías de las cámaras "fijas" de 35 mm es diferente de 10 rollos de
exposición.
(e) Escriba y entregue un resumen ejecutivo en el cual se describan los
resultados obtenidos en los incisos (a) a (d), especificando claramente
todas las hipótesis hechas, los niveles seleccionados de significación y las
suposiciones hechas para elegir los procedimientos de prueba.
(f) Prepare y presente una exposición oral de cinco minutos al editor de la
sección de viajes del periódico. ·

RefercuccH

l. Berenson, M.l.., D.M. Levine y M. Goldstein, Intermediate 6. MINITAB Reference Manual Release 8 (State College, PA.:
Statislirnl Metlwds and Applications: A Computer Package Minitab, !ne., 1992).
Approach (Englcwood Cliffs, NJ: Prentice-Hall, 1983). 7. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
2. Bradley, j.V., JJistribution-Free Statistical Tests (Englewood Additional Instructions for SPSSIPC+ (Chicago, IL: SPSS !ne.,
Cliffs, NJ: Prenticc-Hall, 1968). 1986).
3. Conover, W.J., Practica/ Nonparametric Statistics, Za ed. 8. SAS User's Guide Version 6 (Raleigh, NC: SAS Institute, 1988).
(Nueva York: Wiley, 1980). 9. Solomon, H. y M.A. Stephens, "Sample variance", en
4. Daniel, W., Applied Nonparametric Statistics, Za ed. (Boston, Encyclopedia of Statistical Sciences, Vol. 9, Editada por Kotz,
MA: Houghton Mifflin, 1990). S. y N.L.Johnson (Nueva York: Wiley, 1988), pp. 477-480.
S. Dixon, W.J. y F.J. Massey, Jr., Introduction to Statistical 10. STATISTIX version 4.0 (Tal!ahassee, FL: Analytical
Analysis, 4a ed. (Nueva York: McGraw-Hill, 1983). Software, !ne., 1992).

460 Capítulo 12 Pruebas de una muestra con datos numéricos


capítulo

Pruebas de dos muestras


1

con datos n.uméricos


••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Extender los principios básicos de la
prueba de hipótesis a pruebas de dos
CAPÍTULO muestras que impliquen variables
numéricas. Se consideran tanto
procedimientos de muestras
independientes como relacionadas.

461
lfHI Introducción
En el capítulo anterior enfocamos nuestra atención sobre una variedad de proce-
dimientos de prueba de hipótesis de uso común, que tenían que ver con una sola
muestra de datos numéricos tomados de una población. En el presente capítulo,
extenderemos nuestro estudio de la prueba de hipótesis al análisis de proce-
dimientos de uso común que nos permiten comparar estadísticas calculadas a par-
tir de dos muestras de datos numéricos, con el propósito de hacer inferencias con
respecto a posibles diferencias en los parámetros de las dos poblaciones respecti-
vas. En particular, como se puede ver en el diagrama resumen de este capítulo,
página 519, describiremos varios procedimientos de prueba de hipótesis útiles que
pueden ser empleados, dependiendo de la situación que se tenga. Se analizan pro-
cedimientos de muestras independientes y de muestras relacionadas. Se pone énfa-
sis en las suposiciones que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de:
l. Diferenciar entre los diferentes criterios utilizados en la selección de
un procedimiento de prueba de hipótesis en particular.
2. Saber cuándo y cómo utilizar la prueba t de varianza conjunta para
examinar diferencias posibles en las medias de dos poblaciones
independientes.
3. Saber cuándo y cómo utilizar la prueba t' de varianza independiente
para examinar diferencias posibles en las medias de dos poblaciones
independientes.
4. Saber cuándo y cómo utilizar la prueba de sumas de rangos de
Wilcoxon para examinar posibles diferencias en las medianas de dos
poblaciones independientes.
S. Saber cuándo y cómo utilizar la prueba F para examinar posibles difer-
encias en las varianzas de dos poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba t para una posible diferencia
media, µD, en dos poblaciones relacionadas.
7. Saber cuándo y cómo utilizar la prueba de rangos con signo de
Wilcoxon para una posible diferencia mediana, MD, en dos poblaciones
relacionadas.

l f !j Elección del procedimiento de pruebas


apropiado al comparar dos muestras
independientes
A través de los años han sido desarrollados muchos procedimientos de prueba
estadística que nos permiten hacer comparaciones y examinar las diferencias entre
dos grupos, basándose en muestras independientes que contienen datos numé-
ricos. Así pues, una cuestión importante a la que se enfrenta cualquiera que esté
implicado en la prueba de hipótesis, son los criterios ql,le se van a utilizar para la
selección de un procedimiento estadístico en particular, de entre los muchos que
se tienen disponibles. Parte de un buen análisis consiste en entender las suposi-
ciones subyacentes en cada una de las técnicas de prueba de hipótesis y en selec-
cionar aquella que sea más apropiada para un conjunto de condiciones dado.
Otros criterios para la selección de pruebas tienen que ver con la simplicidad del
procedimiento, el grado de generalización de las conclusiones a las que se lleguen,
la accesibilidad de las tablas de valores críticos de la estadística de prueba, la dispo-
nibilidad de paquetes de software de computación que contienen el procedi-
miento de prueba y, finalmente, pero no el menos importante, la capacidad
estadística del procedimiento.

462 Capítulo 13 Pruebas de dos muestras con datos numéricos


En cada una de las siguientes cuatro secciones, describiremos un prrn·l•dl
miento de prueba de hipótesis que examina diferencias entre dos grupos indepen-
dientes, basándonos en muestras de datos numéricos.

1181 Prueba t de varianza conjunta para


diferencias entre dos medias

13.3.1 Introducción
Primero extendamos los conceptos de la prueba de hipótesis desarrollados en los
capítulos 11 y 12 a situaciones en las que nos gustaría determinar si existe alguna
diferencia entre las medias de dos poblaciones independientes. Suponga que con-
sideramos dos poblaciones independientes, cada una con una media y una desvia-
ción estándar (representadas simbólicamente de la manera siguiente):

Población 1 Población 2

Supongamos también que se toma una muestra aleatoria de tamaño 11 1 de la


primera población y una muestra aleatoria de tamaño 11 2 de la segunda población,
y, además, que los datos recolectados en cada muestra pertenecen a alguna variable
aleatoria de interés.
La estadística de prueba utilizada para determinar la diferencia entre las medias
de las poblaciones está basada en la diferencia entre las medias de las muestras
(X1 - X2 ). Debido al teorema del límite central, estudiado en la sección 9.2, esta
estadística de prueba seguirá la distribución normal estándar para tamaños de
muestra lo suficientemente grandes. La estadística de prueba Z es:

(13.1)

en donde X, = media de la muestra tomada de la población 1


µ 1 = media de la población 1
cr; = varianza de la población 1
11 1 = tamaño de la muestra tomada de la población 1
x 2 = media de la muestra tomada de la población 2
µ2 =media de la población- 2
cri = varianza de la población 2
11z = tamaño oe la muestra tomada de la poblacíón 2

1 3.3.2 Desarrollo de la prueba t de varianza conjunta


Sin embargo, como lo mencionamos anteriormente, en la mayoría de los casos no
conocemos la desviación estándar real de ninguna de las dos poblaciones. La única
información que, por lo general, se puede obtener son las medias de las muestras
(..'.\\ y X2 ), y las desviaciones estándar de las muestras (S 1 y 52 ). Si se hacen suposi-

Prueba t de varianza conjunta para diferencias entre dos medias 463


dones acerca de que las muestras fueron tomadas de manera aleatoria e indepen-
diente, de sus respectivas poblaciones, que están distribuidas normalmente, y,
además, que las varianzas de la población son iguales (esto es, cr~ = cr ~), se puede uti-
lizar una prueba t de varianza conjunta para determinar si existe alguna dife-
rencia significativa entre las medias de las poblaciones.
La prueba que se va a llevar a cabo puede ser de dos extremos o de un extremo,
dependiendo de si estamos probando si las dos medias de población son mera-
mente diferentes o si una de ellas es mayor que la otra.

Prueba de dos extremos Prueba de un extremo Prueba de un extremo


Ho: µ¡ = µz 'º µ¡ - µz = O Ho: µ¡ ;:: µz o µ¡ - µz ;:: O Ho: µ¡ s; µ2 o µ¡ - µ2 s; O
H¡: µ¡ * µz 'º µ¡ - µz *O H 1: µ 1 < µ 2 o µ1 - µ 2 < O H¡: µ¡ > µ2 o µ¡ - µ2 > O
En la que µ 1 = media de la población 1
µ 2 = media de la población 2

Para probar la hipótesis nula de no diferencia en las medias de dos poblaciones


independientes

contra la alternativa de que las medias no son iguales

se puede calcular la siguiente estadística de prueba t de varianza conjunta:

•. . •. ·~.X
t = . 1....:. . •X):-;(µ .,:_ •µ 2 )..
2.. : .... l. ·. .
; ¡

.' (1'. nl). .


·.S!-"--:-t-
..
. .
n¡ .
. 2
(13.2)
d, '

en donde

52p (n 1 - 1)5; + (n 2 - 1)5;


(n 1 - 1) + (n 2 - 1)

5p2 varianza aunada


X1 media de la muestra tomada de la población 1
5f = varianza de la muestra tomada de la población 1
n1 tamaño de la muestra tomada de la población 1
X1 media de la muestra tomada de la población 2
5; = varianza de la muestra tomada de la población 2
n2 tamaño de la muestra tomada de la población 2

464 Capítulo 13 Pruebas de dos muestras con datos numéricos


De la ecuación (13.2) podemos observar que la prueba t de varianza conjunta
debe su nombre a que la estadística de prueba requiere la unión o la combinación
si
de dos varianzas de muestra, y s~, para obtener s;,
la mejor estimación de la va-
rianza común a las dos poblaciones, bajo la suposición de que las dos varianzas de
población son iguales.
La estadística de prueba t de varianza conjunta sigue una distribución t con
n 1 + n2 - 2 grados de libertad. Para un nivel de significación, a, dado, podemos re-
chazar la hipótesis nula si la estadística de prueba t calculada es mayor que el valor
crítico de extremo superior tn 1+n 2_ 2, de la distribución t, o si la estadística de prueba
calculada cae por debajo del valor crítico de extremo inferior - tn 1+n 2_ 2 de la dis-
tribución t. Es decir, la regla de decisión es

Rechazar H 0 si t > tn,+n,-z

o en cualquier otra situación no rechazar H0 .

La regla de decisión y las regiones de rechazo se muestran en la figura 13.1.

µ1 =µ2
1
1 Figura U.I
Regiones de rechazo para una
·Ó t prueba de dos extremos entre dos
media.

1 3.3.3 Aplicación
Para demostrar el uso de la prueba t de varianza conjunta, suponga que un analista
financiero desea comparar los réditos de dividendo promedio de las acciones nego-
ciadas en la Bolsa de Valores de Nueva York con los producidos por las acciones
negociadas directamente en el listado del mercado nacional NASDAQ. Se selec-
ciona una muestra aleatoria de 21 compañías de la Bolsa de Valores de Nueva York
y otra de 25 acciones del listado NASDAQ, y los resultados se presentan en la tabla
13.1 de la página 466.
Si el analista financiero desea determinar si existe evidencia de una diferencia
en los réditos de dividendo promedio entre las dos poblaciones de acciones, las
hipótesis nula y alternativa serían:
Ho: µ1 = µz o µ1 - µz = O
H1: µ1 * µz o µ1 - µz *O
Suponiendo que las muestras fueron tomadas de poblaciones normales con
varianzas iguales, se puede hacer uso de la prueba t de varianza conjunta. Si la
prueba se efectuara al nivel de significación de a = .OS, la estadística de prueba t
seguiría

Prueba t de varianza conjunta para diferenc,ias entre dos medias 4e5


Tabla 1 l .1 Comparación de los réditos de dividendo* de las compañías seleccionadas
de la Bolsa de Valores de Nueva York y del listado de mercado nacional
NASDAQ (25 de mayo, 1994).
l\olsa de Valores de Nueva York (n 1 = 21) Listado NASDAQ (n 2 = 25)
< :ornpai'íía Réditos de dividendo Compañía Réditos de dividendo
i\rnl'rican Express 3.4 Atlantic SE Airlines 1.2
i\11 IH'llSl'r-Busch 2.7 Boral Ltd 5.1
llrht<>l-Myers-Squibb 5.4 Cathay Bancorp 4.3
11.1yton-Hudson 2.1 Cit Fed Bancorp 0.8
1ln·s~L'r Industries 3.0 CPB 3.2
h 1rd Motor 3.1 First Essex Banccnp 3.0
( ;t·ncral Electric 3.0 Goulds Pumps 3.8
( ;l'rwral Milis 3.5 Harper Group 1.3
lllM 1.6 Innovex 2.2
l<dlogg Co. 2.6 Intel Corp. 0.4
Merck & Co. 3.6 Lindberg Corp. 2.7
NYNEX 6.4 Nature's Sunshirne Prod. 1.5
( kcidental Petroleum 5.3 Newcor 2.1
l'fizer !ne. 3.0 PCA lnternational 3.3
PPG !ne. 3.0 T Rowe Price As;soc. 1.8
Sara Lee Corp. 2.9 PSB Holdings Ctorp. 2.4
Texaco !ne. 5.0 Research Inc. 4.6
Texas lnstruments 0.9 Seacoast Bankiíl\g Corp. 2.8
Whirlpool Corp. 2.2 Span-America l\vfed. Sys. 1.8
Winn-Dixie 3.1 Sumitomo Banlk of Cal. 3.6
Xerox Corp. 2.9 TCACableTV 2.2
United Fire & Casualty 2.8
West Coast Baíl\corp 1.7
Whitney Holdiing Corp. 2.6
Worthington lrndustries 2.1
* El rédito de dividendo es el cociente del dividendo anual por acción entre <el precio de cierre por acción,
expresado como porcentaje.

una distribución t con 21 + 25 - 2 = 44 grados de lib1ertad. De la tabla E.3 del


apéndice E, los valores críticos de esta prueba de dos; extremos son +2.0154 y
-2.0154, y, como se muestra en la figura 13.2, la regla d(e decisión es

Rechace H0 si t > t 44 = +2.0154


o si t< -t44 = -2.01~54;

en cualquier otro caso, no rechiace H 0 .

1
Figura 11.2 1
1
Prueba de dos extremos entre la
1
hipótesis concerniente a la
-2.0154
diferencia entre las medias, al
nivel de significación de .05.

466 Capítulo 1 l Pruebas de dos muestras con datos numéricos


Utilizando los datos de la tabla 13.1, calculamos un conjunto de estadística~
sumarias que presentamos en la tabla 13.2:

Tabla 1 J.l Algunas estadísticas sumarias sobre


réditos de dividendo
Bolsa de Valores de Nueva York Listado NASDAQ

n 1 =21 11 2 = 25
.X 1 =3.27 x2 = 2.53
sf = 1.698 s; = 1.353
5 1 =1.30 52 = 1.16
xll/CllOr¡ = Ü.9 x111f'11orz = 0.4
Q1, = 2.65 Q¡, = 1.75
Mediana 1 = 3.0 Mediana 2 = 2.4
Q¡, = 3.55 ~-= 3.25
xll1Cl,VOf1 = 6.4

Para nuestros datos tenemos

t =

en la que

(n 1 - l)S~ + (n 2 - l)S~
(n 1 - 1) + (n 2 - 1)

20(1.30) 2 + 24(1.16) 2
21 + 25 - 2
66.432
44
= 1.510

y, por consiguiente

3.27 - 2.53
t
f 510( ;1 + 2~)
0.74
,Jo.132
0.74
0.364
= 2.03
Utilizando un nivel de significación de .05, la hipótesis nula (H0) es rechazada debido
a que t = + 2.03 > t44 = +2.0154. Si la hipótesis nula fuera verdadera se tendría una

Prueba t de varianza conjunta para diferencias entre dos medias 467


probabilidad de a = O.OS de obtener una estadística de prueba t ya sea mayor a
+2.0154 desviaciones estándar del centro de la distribución to menor que -2.0154
desviaciones estándar del centro de la distribución t. El valor p, que es la probabili-
dad de obtener una diferencia entre las dos medias de muestra mayor que el valor
de O. 74 observado en este caso, que se traduce a una estadística de prueba t con una
distancia todavía mayor a ±2.03 desviaciones estándar, a partir del centro de la dis-
. tribución t, tendría un valor ligeramente menor a .05, si la.hipótesis nula de no
diferencia fuera verdadera. (Utilizando el paquete MINITAB, el valor p realmente
se calcula en .048.) Puesto que el valor pes menor que a, tenemos suficiente evi-
dencia de que la hipótesis nula no es verdadera y la rechazamos.
La hipótesis nula es rechazada porque la estadística de prueba t ha caído en la
región de rechazo. El analista financiero llegaría a la conclusión de que existe evi-
dencia de una diferencia en los réditos de dividendo promedio de los dos grupos.
Las compañías inscritas en la Bolsa de Valores de Nueva York parecen tener réditos
de dividendo un poco mayores que las compañías cuyas acciones se comercializan
directamente en el lista de mercado nacional de NASDAQ.
Observemos que en nuestro estudio del analista financiero, los dos grupos poseen
tamaños de muestra distintos. Cuando las dos muestras son del mismo tamaño (es
decir, n1 = n2), la fórmula para la varianza conjunta puede simplificarse a:

sp2 =
st + s;
--=----=-
2

13.3.4 Resumen
En la prueba de la diferencia entre las medias, hemos supuesto que estamos tomando
las muestras de poblaciones distribuidas normalmente que tienen la misma varianza.
Debemos examinar las consecuencias que tienen las violaciones a esta suposición
sobre la prueba t de varianza conjunta. En situaciones en las que no podemos o no
deseamos hacer la suposición de que las dos poblaciones con igual varianza realmente
están distribuidas de manera normal, la prueba t de varianza conjunta es robusta (es
decir, no sensible) con respecto a violaciones moderadas de la suposición de norma-
lidad, siempre y cuando el tamaño de las muestras sea grande. En tales situaciones, la
prueba t de varianza conjunta puede utilizarse sin que se vea seriamente afectada en
su potencia. Por otro lado, si el tamaño de las muestras es pequeño y no podemos o
no deseamos hacer la suposición de que los datos de cada grupo fueron tomados de
una población normalmente distribuida, se tienen dos alternativas. Ya sea que se lleve
a cabo, en cada uno de los resultados, alguna transformación normalizante (véase refe-
rencia 11), y después se utilice la prueba t de varianza conjunta, o que se siga un pro-
cedimiento libre de distribución, como la prueba de suma de rangos de Wilcoxon (que
se estudiará en la sección 13.5), que no depende de la suposición de normalidad de
las dos poblaciones.
En situaciones en las que no podamos o no deseemos hacer la suposición de
que las dos poblaciones, normalmente distribuidas, de las cuales se tomaron las
muestras tienen varianzas iguales, se dice que se tiene un problema de Behrens-Fisher
(véase referencia 9), y se puede utilizar la prueba t de varianza separada, desarrollada
por Satterthwaite (véase referencia 8) y que describiremos en la siguiente sección.

Problemas de la sección 13.3


e 13.1 El gerente de control de calidad de una fábrica de bombillas de luz desearía
determinar si existe alguna diferencia en la vida promedio de las bombillas
fabricadas en dos tipos diferentes de máquina. La desviación estándar de
proceso de la máquina 1 es de 110 horas, y la de la máquina 11 es de 125 horas.

468 Capítulo 1J Pruebas de dos muestras con datos numéricos


Una muestra aleatoria de 25 bombillas obtenidas con la máquina I dio como
resultado una media de muestra de 375 horas, y una muestra parecida de 25
bombillas tomada de la máquina 11 tuvo una media de muestra de 362 horas.
Utilizando el nivel de significación de .OS
(a) ¿Existe alguna evidencia de que haya diferencia en la vida promedio de
las bombillas producidas por los dos tipos de máquina?
(b) Calcule el valor p del inciso (a) e interprete su significado.
13.2 La directora de adquisiciones de una fábrica de componentes industriales está
investigando la posibilidad de adquirir un nuevo tipo de máquina fresadora.
Ha determinado que se comprará la nueva máquina si existe evidencia de que
los componentes producidos tienen una resistencia al rompimiento en
promedio mayor que los fabricados por la vieja máquina. La desviación
estándar de proceso de la resistencia al rompimiento de las partes fabricadas
por la máquina actual es de 10 kilogramos y la correspondiente a las fabricadas
con la nueva máquina es de 9 kilogramos. Una muestra de 100 componentes
fabricados con la máquina vieja tuvo como resultado una media de muestra de
65 kilogramos, mientras que una muestra parecida de 100 partes obtenidas
con la máquina nueva tuvo como resultado una media de muestra de 72 kilo-
gramos. Utilizando el nivel de significación de a= 0.01
(a) ¿Existe alguna evidencia que apoye la compra de la nueva máquina por
parte de la directora de adquisiciones?
(b) Calcule el valor p del inciso (a) e interprete su significado.
13.3 La administración de Sycamore Steel Co. desea determinar si existe alguna
diferencia en el desempeño entre el turno matutino de trabajadores y el turno
vespertino. Una muestra de 100 trabajadores del turno matutino reveló una
producción promedio de 74.3 partes por hora, con una desviación estándar de
16 partes por hora. Con una muestra de 100 trabajadores del turno vespertino
se obtuvo una producción promedio de 69.7 partes por hora, con una
desviación estándar de 18 partes por hora. Al nivel de significación de 0.10
(a) ¿Existe alguna evidencia de que haya diferencia en la producción prome-
dio entre el turno matutino y el turno vespertino?
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.4 Una agencia de pruebas independiente ha sido contratada para determinar si
existe alguna diferencia en la producción de kilometraje de gasolina de dos
gasolinas diferentes sobre el mismo modelo de automóvil. La gasolina A fue
probada en 200 autos que produjeron un promedio de muestra de 18.5 millas
por galón, con una desviación estándar de 4.6 millas por galón. La gasolina B
fue probada en 100 automóviles que produjeron un promedio de muestra de
19.34 millas por galón, con una desviación estándar de muestra de 5.2 millas
por galón. Al nivel de significación de O.OS
(a) ¿Existe alguna evidencia de que haya diferencia en la producción promedio
entre el turno matutino y el turno vespertino?
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e interprete
su significado.
13.5 Un fabricante de alfombras está estudiando las diferencias entre dos de sus
principales almacenes de ventas. La compañía está interesada especialmente
en el tiempo que transcurre antes de que un cliente reciba su alfombra' que fue
ordenada desde la planta. Los datos concernientes a una muestra de tiempos . '
de entrega para el tipo más popular de alfombra se resumen a continuación:

Almacén A Almacén B
X 34.3 días 43.7 días
s 2.4 días 3.1 días
n 41 31

Prueba t de varianza conjunta para diferencias entre dos medias 469


(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en el
tiempo de entrega promedio para los almacenes?
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.6 Suponga que el gerente de una tienda de accesorios para mascotas desea
determinar si existe una diferencia significativa en la cantidad de dinero
gastada por los dueños de perros y por los dueños de gatos. (En el análisis se
eliminan los dueños de perros y gatos.) Los resultados obtenidos con una
muestra de 37 dueños de perros y 26 dueños de gatos se resumen a
continuación:

Adquisiciones para perros Adquisiciones para gatos


X $26.47 $19.16
s $ 9.45 $ 8.52
n 37 26

(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en la


cantidad promedio de dinero gastada en la tienda de accesorios para
mascotas entre los dueños de perros y los dueños de gatos?
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.7 Un psicólogo industrial desea estudiar los efectos de la motivación en las
ventas de una empresa en particular. De 24 vendedores nuevos que están en
entrenamiento, a 12 se les va a pagar por hora de trabajo y a los otros 12 se les
pagará por comisión. Los 24 individuos fueron asignados de manera aleatoria
a los dos grupos. Los datos siguientes representan el volumen de ventas (en
miles de dólares) logrado durante el primer mes de trabajo.

Salario por hora Comisión


256 212 224 261
239 216 254 228
222 236 273 234
207 219 285 225
228 225 237 232
241 230 277 245

(a) ¿Existe evidencia de que los incentivos salariales (a través de comisiones)


produce un volumen de ventas promedio más grande? (Utilice a= 0.01.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
e 13.8 Un fabricante está desarrollando una batería de hidruro de níquel-metal que se
va a utilizar en teléfonos celulares en lugar de las baterías de níquel-cadmio. El
director de control de calidad decide evaluar la batería recién desarrollada en
comparación con la ampliamente utilizada batería de níquel-cadmio, con
respecto a su desempeño. Se colocan en teléfonos celulares de la misma marca
y modelo una muestra aleatoria de 25 baterías de níquel-cadmio y una mues-
tra aleatoria de 25 baterías de hidruro de níquel-metal. La medida del desem-
peño que interesa es el tiempo de comunicación (en minutos) antes de que se
necesiten recargar las baterías. Los resultados son los siguientes:

470 Capitulo IJ Pruebas de dos muestras con datos numéricos


Batería de níquel Batería de níquel
cadmio hidruro de metal
54.5 71.0 78.3 103.0
67.0 67.8 79.8 95.4
41.7 56.7 81.3 91.1
64.5 69.7 69.4 46.4
86.8 70.4 82.8 87.3
40.8 74.9 82.3 71.8
72.5 75.4 62.5 83.2
76.9 64.9 77.5 85.0
81.0 104.4 85.3 74.3
83.3 90.4 85.3 85.5
82.0 72.8 86.1 72.1
71.8 58.7 41.1 74.1
68.8 112.3

(a) ¿Existe evidencia de una diferencia en los réditos efectivos promedio


sobre las cuentas de mercado de dinero de los dos tipos de bancos del área
de Nueva York? (Utilice el nivel de a = .05.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a)
e interprete su significado.
13.9 Los datos siguientes representan los réditos anuales efectivos, en porcentaje,
sobre cuentas de mercado de dinero de una muestra de 10 bancos comerciales
de Nueva York y de una muestra de 10 bancos de ahorro de Nueva York:

Bancos comerciales Rédito Bancos de ahorro Réditos


Banco Popular 2.25 Anchor Savings 2.43
Bank of N.Y. 2.32 Apple Bank Savings 2.53
Chase Manhattan 2.02 Carteret Savings (N.J.) 2.38
Chemical 1.92 Crossland Savíngs 2.50
Citibank 2.02 Dime Savings Bank 3.00
EAB 1.82 Emigrant Savings 2.50
First Fídelity (N.J.) 2.10 First Fed (Rochester) 2.55
Marine Midland 2.38 Green Point Savings 3.20
Midlantic Bank (N.J.) 2.30 Home Savings Amer 2.50
Republic Nat'l 2.28 People's Bank (Conn.) 2.02
Fuente: New Yurk Times, 25 de mayo de 1994, p. 06.

(a) ¿Existe evidencia de una diferencia en los réditos efectivos promedio


sobre las cuentas de mercado de dinero de los dos tipos de bancos del área
de Nueva York? (Utilice el nivel de (J.= .05.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(e) Encuentre los límites inferior y superior del valor p del inciso (a) e inter-
prete su significado.

Problemas intercapítulo para la sección 13.3


13.10 Refiérase a los precios de renta mensual de los departamentos no amueblados
en las áreas de Manhattan y de Brooklin Heights (véase problema 4.77 de la
página 162).

Prueba t de varianza conjunta para diferencias entre dos medias 471


(a) ¿Existe evidencia de que el precio de renta promedio sea mayor en
Manhattan que en Brooklin Heights? (Utilice el nivel de a= .01.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a)?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
e 13.11 Refiérase al problema 4.80 de la página 163.
(a) ¿Existe evidencia de una diferencia en los gastos escolares promedio en las
preparatorias del noreste y del medio oeste de Estados Unidos de
Norteamérica? (Utilice el nivel de a= .01.)
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
(c) ¿Qué informaría usted al consejero guía de su escuela con respecto a los
gastos escolares en estas dos regiones?
13.12 Refiérase a los datos del problema 3.9 (costo de champúes convencionales) de
la página 62.
(a) ¿Existe evidencia de una diferencia en los costos promedio entre los
champúes para cabello normal y los destinados a cabello fino? (Utilice el
nivel de a= .05.)
(b) Encuentre los límites inferior y superior del valor p del inciso (a)
e interprete su significado.
(c) Si usted fuera designado para escribir un artículo en una revista en el que
comparara los dos tipos de champúes, ¿a qué conclusiones llegaría?

ifi i Prueba t' de varianza separada para


diferencias entre dos medias

13.4.1 Introducción
En nuestro análisis de la prueba de la diferencia entre medias de dos poblaciones
independientes, hecho en la sección anterior, juntamos las varianzas de muestra
en una sola estimación, s}, porque supusimos que las varianzas de población eran
iguales (es decir, crf = cr~). Esta situación se presenta en el panel A de la figura 13.3,
para el caso en el cual la población 1, normalmente distribuida, tiene una media
mayor que la de la población 2, también distribuida de manera normal. Sin
embargo, si, como se muestra en el panel B de la figura 13.3, no estamos dispuestos
a suponer que las dos poblaciones, distribuidas normalmente, tienen varianzas
iguales, o si tenemos evidencia de que éstas en realidad no lo son, entonces se pre-
senta el problema de Fisher-Behrens (véase referencia 9) y la prueba tde varianza
conjunta resulta inapropiada en este caso; por consiguiente, podemos emplear una
prueba t' de varianzas independientes, desarrollada por Satterthwaite (véase
referencia 8). En el procedimiento de aproximación de Satterthwaite, se incluyen
las dos varianzas de muestra independientes en el cálculo de la estadística de
prueba t' de ahí el nombre de prueba t' de varianzas independientes.

13.4.2 Desarrollo
Para probar la hipótesis nula de no diferencias en las medias de dos poblaciones in-
dependientes
Ha: µ1 = µz o µ1 - µz = O
contra la hipótesis alternativa de que las medias no son iguales

H1: µ1 * µz o µ1 - µz *O
se puede calcular la siguiente estadística de prueba t' de varianzas independientes:

472 Capítulo 13 Pruebas de dos muestras con datos numéricos


Población 2

µ2 µ1
Panel A: µ 1 > µ2 y crf =cr/

Figura IJ.J
Panel B: µ 1 > ~ y cr 2 > crl Comparación de las medias
de dos poblaciones
distribuidas normalmente

(13.3)

en la que
X_r media de la muestra tomada de la población 1
s¡ varianza de la muestra tomada de la población 1
n1 = tamañ.o de la muestra tomada de la población 1
X2 media de la muestra tomada de la población 2
s; = varianza de la muestra tomada de la población 2
n2 = tamaño de la muestra tomada de la población 2

La estadística de prueba t' de varianzas independientes puede ser aproximada


por una distribución t con los grados de libertad, v, tomados como la parte entera
del cálculo

( _s~ + _s; J
n¡ nz
2

(!: r (!: r
V: ~~~~~~~

(13.4)

---+--·-
nl - 1 n2 - 1

Prueba t de varianza separada para diferencias entre dos medias 47J


Para un 11iwl dado de significación, a, podemos rechazar la hipótesis nula si la
l'st;1díst ica de prueba t' calculada es mayor que el valor crítico de extremo superior,
1,,, de la distribución t, o si la estadística de prueba calculada cae por debajo del
v;ilor nít ico de extremo inferior, -tv, de la distribución t. Es decir, la regla de
lkcisiú11 es

Rechazar H0 si t > tv

en cualquier otro caso no rechazar H0 .

l.a regla de decisión y las regiones de rechazo se presentan en la figura 13.4.

1 1
1 1
1
Figura 1 l.4 1

1 1
Regiones de rechazo de una
-!,, +!,,
prueba de dos extremos para la
diferencia entre dos medias.

1 3 .4. 3 Aplicación
La prueba t' de varianzas independientes puede mostrarse refiriéndonos al pro-
blema de interés para el analista financiero (véase la página 465). Recordamos que
el analista financiero desea determinar si existe cualquier diferencia en los réditos
de dividendo medios de las acciones negociadas en la Bolsa de Valores de Nueva
York en comparación con los valores negociados" al contado" en el listado del mer-
cado nacional NASDAQ. Para comparar las diferencias en los réditos de dividendo
promedio entre las dos poblaciones de listas de acciones, las hipótesis nula y alter-
nativa serían:

Ho: µ¡ = µz o µ¡ - µz = O
H 1:µ 1 7'µ 2 oµ 1 -µ 2 7'0

Los réditos de dividendo para una muestra aleatoria de 21 compañías inscritas


en la Bolsa de Valores de Nueva York y otra de 25 acciones del listado de mercado
nacional NASDAQ se muestran en la tabla 13 .1 (página 466), y las estadísticas
sumarias se presentan en la tabla 13.2 (página 467).
Si podemos suponer que las muestras son tomadas de poblaciones dis-
tribuidas normalmente, pero no estamos dispuestos a suponer que tales pobla-
ciones tienen la misma varianza, entonces podemos emplear la prueba t' de
varianzas independientes. Si la prueba fuera llevada a cabo al nivel de signifi-
cación a= O.OS, utilizando la ecuación 13.4, la estadística de prueba t' puede ser
aproximada por una distribución t con v = 40 grados de libertad, la parte entera
de los cálculos siguientes:

474 Capítulo l l Pruebas de dos muestras con datos numéricos


(l.~~8 r (l.~~3 r
- - - - + ------
20 24

.018219
.006538 .002929
20 + 24

.018219
.000449
40.58

De la tabla E.3 del apéndice E, los valores críticos superior e inferior para esta
prueba de dos extremos son, respectivamente, +2.0211 y-2.0211, y, como se mues-
tra en la figura 13.5, la regla de decisión es

Rechazar Ha si t > t 40 = +2.0211


o si t< -t40 = -2.0211;
en cualquier otro caso no rechazar Ha.

1 1
1 1
1 1 Figura 13.S
1 1 Prueba de dos extremos de la
-2.0211 +2.0211 hipótesis concerniente a la
diferencia entre las medias, al
nivel de significación de .05.

Utilizando los datos de la tabla 13.2 de la página 467, tenemos, de la ecuación(13.3)

(X1 - Xz ) - (µ1 - µz)


t'
52 52
_! +-2
n1 n2

Prueba t de varianza separada para diferencias entre dos medias 47S


3.27 - 2.S3
1_l.698 + l.3S3
~ 21 2S
0.74
0.3674
= 2.01

Utilizando un nivel de significación de .OS, la hipótesis nula (H0 ) no puede ser


rechazada en este caso, pues t' = 2.01 < t40 = 2.0211. El valor p, o la probabilidad de
obtener una diferencia entre las dos medias de muestra todavía mayor que el valor
de .74 observado aquí, lo cual se traduce en una estadística de prueba t' con una
distancia desde el centro de la distribución t todavía mayor que ±2.01 desviaciones
estándar, sería ligeramente más grande que .05, si la hipótesis nula de no diferen-
cias en las medias fuera verdadera. (Utilizando el paquete MINITAB, el valor p es,
en realidad, de .OSl.) Puesto que el valor pes mayor que a= .OS, no tenemos evi-
dencia para refutar la hipótesis nula.
En este caso no rechazamos la hipótesis nula porque la estadística de prueba t'
no se encuentra en la región de rechazo, como se muestra en la figura 13.5 de la
página 47S. El analista financiero llegaría a la conclusión de que no existe eviden-
cia de que haya diferencia en los réditos de dividendo medios de los dos grupos.

1 3 .4.4 Dilema: resultados conflictivos


Se nos presenta ahora un interesante dilema. Utilizando la prueba t de varianzas
conjuntas de la sección 13.3, el analista financiero llegaría a la conclusión de que
hay evidencia de una diferencia en los réditos de dividendo medios para los dos
grupos, pero utilizando la prueba t' de varianzas independientes no se puede llegar
a la misma conclusión. La principal diferencia entre las pruebas t y t' es que la
primera supone que las poblaciones de las cuales se tomaron las muestras están dis-
tribuidas normalmente y tienen la misma varianza, mientras que la última sola-
mente supone que las poblaciones están distribuidas de manera normal (véanse
paneles A y B de la figura 13.3 página 473). Como vimos en la sección 11.2 (véase
tabla 11.1 página 389), si Ja hipótesis nula fuera realmente verdadera y no hubiera
diferencia en los réditos de dividendo promedio de los dos grupos, el uso de la
prueba t, en este caso, nos produciría un error del tipo 1; mientras que el uso de la prue-
ba t' tendría como resultado una decisión correcta. En el otro extremo, si la hipó-
tesis nula fuera en realidad falsa y si hubiera una diferencia en los réditos de
dividendo promedio de las dos poblaciones, el uso de la prueba t tendría como
resultado la decisión correcta de rechazar una hipótesis nula falsa (es decir, poten-
cia estadística); mientras que el empleo de la prueba t' haría que cometiéramos un
error del tipo II, no seríamos capaces de detectar una diferencia promedio ver-
dadera en los dos grupos.
Resolver un dilema como éste es parte de un buen análisis de datos. ¿Qué prue-
ba estadística , to t', es más verosímil para la situación del analista financiero? Para
llegar al núcleo de la cuestión, deberíamos llevar a efecto un análisis de datos ex-
ploratorio y evaluar la plausibilidad de las suposiciones necesarias para utilizar las
pruebas t y t'. Además, en la sección 13.6 desarrollaremos la prueba F para deter-
minar si existe evidencia de una diferencia en las dos varianzas de la población.
Basándose en los resultados de tal prueba, podemos guiarnos en la decisión de cuál
de nuestras pruebas anteriores, t o t', es más adecuado que utilice el analista
financiero.
Por otro lado, si nuestro análisis exploratorio de datos revela que la suposición
de normalidad de las poblaciones muestreadas es cuestionable, esto podría guiar-

476 Capítulo 1 J Pruebas de dos muestras con datos numéricos


nos a la conclusión de que ni la prueba t ni la t' son apropiadas. En tal situaci('>n,
se llevaría a cabo una transformación de datos (véase referencia 11) (y entonces se
revisarían las suposiciones para determinar si la prueba to la t' es la más adecuada),
o se emplearía un procedimiento libre de distribución que no tuviera la necesidad
de hacer estas suposiciones limitantes. Uno de tales procedimientos libres de dis-
tribución, la prueba de suma de rangos de Wilcoxon, se presentará en la sección
siguiente.
En la figura 13.6 se presenta el resultado obtenido con MINITAB sobre las
medidas sumarias descriptivas, representaciones de tallo y hojas, gráficas de caja y

N MEAN MEDIJ\N TRMEAN STDEV SEMEAN


NYSE 21 3 .271 3.000 3.232 1.303 0.284
NASDAQ 25 2.532 2.400 2.513 l.163 0.233

MIN M1\X Ql 03
NYSE 0.900 6.400 2.650 3.550
NJ\SDAQ 0.400 5.100 l.750 3.250

Stem-and-leaf of NYSE N = 21
Leaf Unit = 0.10

1 o 9
1 l
2 1 6
4 2 12
B 2 6799
(7) 3 0000114
6 3 56
4 4
4 4
4 5 034
1 5
1 6 4

Stem-and-leaf of NASDJ\Q N = 25
Leaf Unit = 0.10

1 o 4
2 O B
4 1 23
B l 5798
(5) 2 11224
12 2 6788
B 3 023
5 3 68
3 4 3
2 4 6
l 5 1

t-fl'B > boxplot NYSE

* -----------! + I- * ** o
+---------+---------+---------+---------+---------+---------+------Dyielde
O.O l.O 2.0 3.0 4.0 5.0 6.0

MI'B > boxplot NASDJ\Q


Figura 1 J.6
Resultado obtenido con
--·-----------! !···--- --- - -----·--- MINITAB en el que se
ilustra una comparación
+-. ___ . __ -.+-- ______ ·+·- ___ -- _ -+- - - •. -- - -+-- - - - . -- - +-- - - - - - - -+- -- - - -Dyielde
descriptiva entre dos
o.o 1.0 2.0 3.0 4.0 s.o 6.0
grupos de muestra.

Prueba t de varianza separada para diferencias entre dos medias 477


. Í)yields NYSB

Cl.l :, ',: ···•·..< • , '

4,,0+

-. 2
* 2 '
. ·' :·;,

* *
*
*
..
- - - - -•- ~+- - ~ -- -- - -+• -- ~--e-·-+- -- · • -~~ .:::.,- - -·~· ~ ~ --~~- • • - - • - -No~ 'acélres
·. ,L4.0 · •0.10 Q.oo . 0.10. . l.~4..ó .. •. .

·•
4.5+
' - '•
... *
·- * *'

Figure 13.6
(Continuacl6n)

sesgos y gráficas de probabilidad normal para los dos grupos. De este análisis de
datos exploratorio, podemos cuestionar la validez de la suposición de normalidad
de la primera población: los réditos de dividendo de las compañ.ías inscritas en la
Bolsa de Valores de Nueva York. La muestra tomada de este grupo solamente es de
21, y puede ser que sea demasiado pequeña para suponer que el teorema del límite
central (véase sección 9.2) se puede aplicar. Si este es el caso, debería utilizarse la
prueba de suma de rangos de Wilcoxon.

Problemas de la sección 13.4


e 13.13 Una agencia de bienes raíces desea comparar los valores de avalúo de las casas
para una sola familia en dos comunidades del Condado de Nassau, en Nueva
York. Una muestra de 60 casas situadas en Farmingdale y otra de 99 casas
situadas en Levittown produjeron los siguientes resultados (en miles de
dólares):

Farmingdale Levittown
x 191.33 172.34
s 32.60 16.92
n 60 99

478 Capitulo 13 Pruebas de dos muestras con datos numéricos


Suponiendo que las varianzas de población no son iguales, al nivel de
significación de .05, ¿existe evidencia de una diferencia en el valor de avalúo de
las casas de una sola familia en las dos comunidades del Condado de Nassau?
13.14 Los envíos de carne, productos cárnicos y otros ingredientes son mezclados en
varias líneas de llenado en una fábrica de enlatado de comida para animales.
Dos de las líneas de llenado, en particular, deben ser comparadas pues, a pesar
de que el contenido promedio de la lata es, por lo general, el mismo, la
variabilidad del contenido de las latas en la línea A es, usualmente, mucho
mayor que el de la línea B. Los siguientes datos de muestra se obtuvieron de
las dos líneas (con latas de ocho onzas de contenido):

Línea A Línea B
x 8.005 7.997
s 0.012 0.005
n 11 16

Suponiendo que las varianzas de población no son iguales, al nivel de


significación de .05, ¿existe evidencia de una diferencia en el peso promedio
de las latas llenadas en las dos líneas?
13.15 Refiérase al problema 13.5 de la página 469. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de ,01, ¿existe evidencia de una diferencia en el
tiempo promedio de entrega para los dos almacenes de comercialización?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.5.
13.16 Refiérase al problema 13.6 de la página 470. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la
cantidad promedio de dinero gastado en la tienda de accesorios para
mascotas entre dueños de perros y dueñ.os de gatos?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.6.
13.17 Refiérase al problema 13.7 de la página 470. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .01, ¿existe evidencia de que los incentivos
salariales (por medio de comisiones) producen un volumen de ventas
promedio mayor?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.7.
e 13.18 Refiérase al problema 13.8 de la página 470. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en los
dos tipos de baterías con respecto al tiempo de comunicación
promedio (en minutos) antes de necesitar recargarse?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(e) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.8.
13.19 Refiérase al problema 13.9 de la página 471. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .OS, ¿existe evidencia de que haya diferencia en
los réditos efectivos promedio sobre las cuentas de mercado de dinero en
los dos tipos de bancos del área de Nueva York? (Utilice el nivel a= .05.)

Prueba t de varianza separada para diferencias entre dos medias 479


(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare Jos resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.9.
13.20 Un funcionario público que trabaja en Ja política de salud pública desea
comparar las tasas de ocupación (es decir, el porcentaje anual promedio de
camas ocupadas) en hospitales urbanos con respecto a los hospitales
suburbanos dentro de su estado. Se seleccionó una muestra aleatoria de 16
hospitales urbanos y una muestra aleatoria de 16 hospitales suburbanos, y las
tasas de ocupación obtenidas se registran de la manera siguiente:

Hospitales Hospitales
urbanos suburbanos
76.5 73.3 71.5 63.0
75.9 77.4 73.4 76.0
79.6 79.0 74.6 75.5
77.5 79.9 74.3 70.7
79.4 70.4 71.2 67.4
78.7 77.7 67.8 62.6
78.6 78.1 76.9 73.0
79.3 75.9 60.0 76.5

(a) Suponga que las varianzas en la población de los dos tipos de hospital (es
decir, urbanos y suburbanos) no son iguales. Utilizando el nivel de .05 1
¿existe evidencia de una diferencia en las tasas promedio de ocupación
entre hospitales urbanos y suburbanos en el estado?
(b) ¿Qué otras suposiciones deben hacerse con el fin de realizar el inciso (a)
de este problema?
13.21 La directora de entrenamiento de una compañía fabricante de equipo
electrónico está interesada en determinar si diferentes métodos de
entrenamiento tienen un efecto sobre la productividad de Jos empleados de la
línea de ensamblaje. La directora asignó aleatoriamente 42 empleados recién
contratados en dos grupos de 21, de Jos cuales los primeros siguieron un
programa de entrenamiento basado en el trabajo individual y asistido por
computadora, y los otros 21 siguieron un programa basado en el trabajo de
equipo. Después de terminar el entrenamiento, los empleados fueron
evaluados con respecto al tiempo (en segundos) que les llevó ensamblar un
componente. Los resultados son los siguientes:

Programa asistido, Programa basado


por computadora, de en trabajo en
trabajo individual equipo

19.4 16.7 22.4 13.8


20.7 19.3 18.7 18.0
21.8 16.8 19.3 20.8
14.1 17.7 15.6 17.1
16.l 19.8 18.0 28.2
16.8 19.3 21.7 20.8
14.7 16.0 30.7 24.7
16.5 17.7 23.7 17.4
16.2 17.4 23.2 20.1
16.4 16.8 12.3 15.2
18.5 16.0

(a) Suponga que las varianzas en la población de los métodos de


entrenamiento no son iguales. Utilizando un nivel de significación de .05,

480 Capítulo 13 Pruebas de dos muestras con datos numéricos


¿existe evidencia de una diferencia en los tiempos de ensamblaje prome·
dio (en segundos) entre los empleados entrenados con un
programa asistido por computadora y basado en el trabajo individual y los
entrenados en un programa apoyado en el trabajo en equipo?
(b) ¿Qué otras suposiciones deben hacerse con el fin de realizar el inciso (a)
de este problema?

Problemas intercapítulo de la sección 13.4


13.22 Refiérase al problema 4.77 de la página 162. Suponga que las varianzas de la
población no son iguales.
(a) ¿Existe evidencia de que el precio de renta promedio en Manhattan es
mayor que en Brooklin Heights? (Utilice el nivel de significación de .01.)
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
13.10.
e 13.23 Refiérase al problema 4.80 de la página 163. Suponga que las varianzas de la
población no son iguales.
(a) ¿Existe evidencia de que los gastos escolares promedio son mayores en las
escuelas preparatorias del noreste que en las del medio oeste
estadounidense? (Utilice a= .01.)
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
13.11.
13.24 Refiérase al problema 3.9 de la página 62. Suponga que las varianzas de la
población no son iguales.
(a) ¿Existe evidencia de una diferencia en el costo promedio de los champúes
etiquetados para cabello "normal" con respecto a los destinados a cabello
"fino"? (Utilice el nivel de significación de a= .05.)
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
13.12.

l f #j Prueba de sumas de rangos de Wilcoxon


para diferencias entre dos medianas

13.5.1 Introducción
Si los tamaños de las muestras son pequeños y no podemos o no deseamos hacer
la suposición de que los datos de cada grupo son tomados de poblaciones dis-
tribuidas normalmente, entonces tenemos dos alternativas. Se puede utilizar la
prueba t de varianzas conjuntas o la prueba t' de varianzas independientes, la que
sea más apropiada, después de realizar alguna transformación nonnalizante sobre los
datos (véase referencia 11), o se puede seguir algún procedimiento libre de dis-
tribución, que no depende de la suposición de normalidad para las dos pobla-
ciones. En la presente sección introduciremos la prueba de suma de rangos de
Wilcoxon, un procedimiento libre de distribución poderoso, muy sencillo y
ampliamente utilizado, para probar las diferencias entre las medianas de dos
poblaciones. La prueba de suma de rangos de Wílcoxon ha resultado ser casi tan
poderosa como su contraparte paramétrica (las pruebas t y t') en condiciones
apropiadas para esta última, y es probable que sea más poderosa cuando las suposi-
ciones limitantes de tales pruebas no se cumplen.
Además, la prueba de suma de rangos de Wilcoxon es un procedimiento exce-
lente a escoger cuando solamente se pueden obtener datos de tipo ordinal, como
sucede a menudo cuando tratamos con estudios' sobre comportamientos de con-
sumo, investigaciones de mercado y psicología experimental. Las pruebas paramétri-
cas t y t' no deberían utilizarse en tales situaciones ya que estos procedimientos
requieren que los datos obtenidos sean medidos en al menos una escala de intervalo.

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 481
1 J.S.2 Procedimiento
Para efectuar la prueba de suma de rangos de Wilcoxon debemos sustituir las obser-
vaciones de las dos muestras de tamaños n 1 y n2 por sus rangos combinados (a
menos que los datos obtenidos, inicialmente, incluyan a los rangos). Los rangos
son asignados de tal manera que el rango 1 se asigna a la más pequeña de las
n = n 1 + n2 observaciones combinadas, el rango 2 se le asigna a la siguiente más alta
y así sucesivamente, de modo que el rango n queda asignado a la observación más
grande. Si varias observaciones tienen el mismo valor, asignamos a cada una de
éstas el promedio de los rangos que, en otra circunstancia, se les habría asignado.
Por cuestiones de comodidad, siempre que los dos tamaños de muestra sean
distintos, haremos que n 1 represente el de la muestra más pequeña y que n2 corres-
ponda al de la más grande. La estadística de prueba de suma de rangos de Wilcoxon,
T1, es simplemente la suma de los rangos asignados a las n 1 observaciones de la
muestra más pequeña. (En el caso de muestras de igual tamaño, cualquiera de los
grupos puede elegirse para determinar T1.)
Para cualquier valor entero n, la suma de los n primeros enteros consecutivos
puede calcularse fácilmente como n(n + 1)/2. La estadística de prueba, T1, más la
suma de los rangos asignados a los n2 elementos de la segunda muestra, T2 , por
consiguiente, debe ser igual a este valor; es decir,

n(n + 1)
(13.5)
2

de modo que la ecuación (13.5) puede servir como una verificación del proce-
dimiento de asignación de rangos.
La prueba de la hipótesis nula puede ser de dos extremos o de un extremo,
dependiendo de si estamos probando si las dos medianas de población son exclu-
sivamente diferentes o si una de ellas es mayor que la otra.

Prueba de dos extremos Prueba de un extremo Prueba de un extremo


Ho:M¡ =Mz Ho: M¡ ~Mz Ho:M1SMz
H 1: M1 ;éMz H1: M1 <Mz H1: M1 >Mz
en la que M1 = mediana de población 1 con n1 observaciones de muestra
M2 =mediana de población 2 con n2 observaciones de muestra

Cuando los tamaños de ambas muestras n 1 y n2 son s; 10, se puede usar la tabla
E.11 para obtener los valores críticos de la estadística de prueba T1 para pruebas de
uno y dos extremos, a varios niveles de significación. Para una prueba de dos
extremos y para un nivel particular de significación, a., si el valor calculado de T1
es igual o mayor que el valor crítico superior o si es menor o igual que el valor
crítico inferior, la hipótesis nula puede ser rechazada. Para pruebas de un extremo
que tienen la hipótesis alternativa H 1: M1 < M2, la regla de decisión consiste en re-
chazar la hipótesis nula si el valor observado de T1 es menor o igual que el valor
crítico inferior. Para las pruebas de un extremo cuya hipótesis alternativa sea H1:
M1 > M2 , la regla de decisión consiste en rechazar la hipótesis nula si el valor obser-
vado de T1 es igual o mayor que el valor crítico superior.
A fin de mostrar cómo utilizar la tabla E.11 para obtener los valores críticos de
la estadística de prueba Tv supongamos que los tamaños de muestra de nuestros
dos grupos son 8 y 10, y que deseamos escoger un nivel de significación de a.= .05.
De la tabla 13.3, que es una réplica de la tabla E.11, si n 1 = 8, n2 = 10 y a.= .05, obser-

482 Capítulo 13 Pruebas de dos muestras con datos numéricos


Table 13.J Obtención de los valores críticos de extremo inferior y superior, T1 para la prueba do 1uma d• l'lft•
=
gos de Wilcoxon, con n 1 8, n2 = 1O y a O.OS =
a n1
4 5 6 7 8 9 10
nz Un extremo Dos extremos (Inferior, superi r)
9 .025 .05 14,42 22,53 31,65 40,79 62,109
.01 .02 13,43 20,55 28,68 37,82 59,112
.005 .01 11,45 18,57 26,70 35,84 56,115

.OS .10 17,43 26,54 35,67 45,81 5 6 69,111 82,128


10 .05 15,45 23,57 32,70 42,84 ) 53,99 65,115 78,132
.01 .02 13,47 21,59 29,73 39,87 49,103 61,119 74,136
.005 .01 12,48 19,61 27,75 37,89 47,105 58,122 71,139
Fuente: Tomado de la tabla E.11.

vamos que los valores críticos inferior y superior para una prueba de dos extremos
son 53 y 99, respectivamente. Si el valor calculado de la estadística de prueba T1
cae entre estos valores críticos, la hipótesis nula podría no ser rechazada. Sin
embargo, si el valor calculado de la estadística de prueba es igual o mayor que 99
o es igual o menor que 53, la hipótesis nula sería rechazada.
Para tamaños de muestra grandes, la estadística de prueba, T1, está distribuida
de manera aproximadamente normal. Se puede emplear la siguiente fórmula de
aproximación de muestra grande para probar la hipótesis nula cuando los tamaños
de muestra se encuentran fuera del alcance de la tabla E.11:

T¡ - µT¡
z = ---- (13.6)

donde
suma de los rangos asignados para las observaciones n, en la muestra 1
valor medio de T1
cry1 desviación estándar de T1

µT 11 el valor medio de la estadística de prueba T1, puede calcularse con

n1 (n + 1)
µT1 =
2

y cr r11 la desviación estándar de la estadística de prueba T1, se puede calcular con

de modo que la ecuación (13.6) puede volverse a escribir como

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 483
(13.7)

Basándonos en a, el nivel de significación seleccionado, la hipótesis nula


puede ser rechazada si el valor Z calculado cae en la región de rechazo apropiada,
dependiendo de si se trata de una prueba de dos extremos o de uno solo (véase
figura 13.7).

Rechazar
Ho

-Z o z -Z. o
Panel A PanelB PanelC
Figura 1J.7
Determinación de la región de rechazo: panel A prueba de dos extremos (M 1 ""'M 2); panel B, prueba de un extremo
(M 1 < M 2); panel C, prueba de un extremo (M 1 > M 2).

1 J.5.3 Aplicación
Para mostrar el uso de la prueba de suma de rangos de Wilcoxon, refirámonos de
nuevo al problema que tiene que enfrentar nuestro analista financiero (véase
página 465) quien desea determinar si existe alguna diferencia en los réditos de
dividendo promedio de valores comercializados en la Bolsa de Valores de Nueva
York con respecto a las negociadas directamente en el listado de mercado nacional
NASDAQ. En la tabla 13.1 se muestran los réditos de dividendo de una muestra
aleatoria de 21 acciones de la Bolsa de Valores de Nueva York y de otra muestra alea-
toria de 25 acciones del listado de mercado nacional NASDAQ (página 466), y en
la tabla 13.2 se presentan las estadísticas sumarias (página 467).
Si, como resultado de un análisis de datos exploratorio (véase figura 13.6 en las
páginas 477-478), el analista financiero no desea hacer la suposición limitante de
que las muestras fueron tomadas de poblaciones que están distribuidas normal-
mente, se puede utilizar la prueba de suma de rangos de Wilcoxon para evaluar
posibles diferencias en las medianas de los réditos de dividendo. 1 Puesto que el
analista financiero no especifica cuál de los dos grupos es más probable que posea
una mediana de réditos de dividendo mayor, la prueba es de dos extremos, y se
establecen las siguientes hipótesis nula y alternativa:

H0 : M1 = M2 (las medianas de los réditos de dividendo son iguales)


H 1: M1 t:- M2 (las medianas de los réditos de dividendo son diferentes)

Para efectuar la prueba de suma de rangos de Wilcoxon, formamos los rangos


combinados de los réditos de dividendo obtenidos de las n 1 = 21 compañías de la
Bolsa de Valores de Nueva York y de las n2 = 25 compañías del listado de mercado

484 Capítulo IJ Pruebas de dos muestras con datos numéricos


nacional NASDAQ. Los rangos combinados de los réditos de dividendo se mues-
tran en la tabla 13.4. (Observamos que un rango de 1 se le asigna a Intel, la com-
pañía con el menor rédito de dividendo, y que se le asigna un rango de 46 a
NYNEX, la compañía que posee el mayor rédito de dividendo de los rangos com-
binados.)

Tabla 13.4 Formación de rangos combinados


Bolsa de Valores de Nueva York (n 1 = 21) Listado NASDAQ (n 2 = 25)
Rango combinado Rango combinado
Compañía de réditos de dividendo Compañía de réditos de
dividendo
American Express 35 Atlantic SE Airlines 4
Anheuser-Busch 20.5 Boral Ltd 43
Bristol-Myers-Squibb 45 Cathay Bancorp 40
Dayton-Hudson 12 Cit Fed Bancorp 2
Dresser Industries 28 CPB 33
Ford Motor 31.5 First Essex Bancorp 28
General Electric 28 Goulds Pumps 39
General Milis 36 Harper Group 5
IBM 7 Innovex 15
Kellogg Co. 18.5 Intel Corp 1
Merck& Co. 37.5 Lindberg Corp 20.5
NYNEX 46 Nature's Sunshine Prod. 6
Occidental Petroleum 44 Newcor 12
Pfizer Inc. 28 PCA International 34
PPG Inc. 28 T Rowe Price Assoc. 9.5
Sara Lee Corp. 24.5 PSB Holdings Corp. 17
Texaco Inc. 42 Research Inc. 41
Texas Instruments 3 Seacoast Banking Corp. 22.5
Whirlpool Corp. 15 Span-America Med. Sys. 9.5
Winn-Dixie 31.5 Sumitomo Bank of Cal. 37.5
Xerox Corp. 24.5 TCA Cable TV 15
United Fire & Casualty 22.5
West Coast Bancorp 8
Whitney Holdings 18.5
Worthington Industries 12
Fuente: Los datos fueron tornados de la tabla 13.1.

Entonces obtenemos la estadística de prueba T1, que es la suma de los rangos


asignados a la muestra más pequeña:

T1 = 35 + 20.5 + ... + 24.5 = 585.5


Como verificación de proceso de asignación de rangos, obtenemos también T 2
y utilizamos la ecuación (13.5) para mostrar que la suma de los primeros n = 46
enteros de los rangos combinados es igual a t 1 + T2 :

n(n + 1)
T1 + Tz = 2

585.5 + 495.5 = 46 (47 ) = 1,081


2

Para probar la hipótesis nula de no diferencia en las medianas de los réditos de


dividendo de las dos poblaciones, utilizamos la fórmula de aproximación de mues-

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas ~; 481
tra grande [ecuación (13.7)]. Escogiendo el nivel de significación de O.OS, los va-
lores críticos de la distribución normal estándar (tabla E.2) son ±1.96 (véase figura
13.8). La regla de decisión sería

Rechazar H 0 si Z > +l.96


o si Z < -1.96;
en cualquier otro caso, no rechazar H0 .

1
Figura 13.8 1
Prueba de dos extremos de la 1
.1
hipótesis concerniente a la
diferencia de medianas, al nivel
+1.96 z
de significación de .05.

Utilizando la ecuación (13.7) tenemos

T _ n 1 (n + 1)
1 2
z= ---,,=====-
n¡ nz (n + 1)
12

585.5 - 21 ~ 7 )
=·-=====-
21(25)(47)
12
585.5 - 493.5
= 45.35
= 2.03
Puesto que Z = +2.03 > +l.96, la decisión es rechazar H 0 • El valor p, o la probabili-
dad de obtener una estadística de prueba W incluso mayor que el valor observado
de 585.5, que se traduce en una estadística de prueba Z con una distancia todavía
más grande, medida del centro de la distribución normal estándar, que ±2.03
desviaciones estándar, es de .0424, si la hipótesis nula de no diferencia en las media-
nas fuera verdadera. Como el valor de p es menor que a. = .05, no creemos que la
hipótesis nula sea verdadera y la rechazamos.
La hipótesis nula es rechazada porque la estadística de prueba Z ha caído en la
región, de rechazo. Así pues, sin tener que hacer la suposición limitante de nor-
malidad en las poblaciones originales, el analista financiero puede llegar a la con-
clusión de que existe evidencia de una diferencia en las medianas de los réditos de
dividendo de los dos grupos. Las compañías que se comercializan en la Bolsa de
Valores de Nueva York parecen tener réditos de dividendo ligeramente mayores

486 Capítulo 13 Pruebas de dos muestras con datos numéricos


que las compañías que cotizan directamente en el listado de mercado nacional
NASDAQ.

1 3.S.4 Reflexiones
Esta conclusión concuerda con el resultado obtenido con la prueba t de varianzas con-
juntas, no con la prueba t' de varianzas separadas. Si ahora podemos demostrar que no
hay evidencia de una diferencia en la variabilidad de los dos grupos, podríamos tener
razones suficientes para llegar a la conclusión de que los resultados de la prueba t y de
la prueba de suma de rangos de Wilcoxon son plausibles. La prueba de la diferencia
entre dos varianzas de población será el tema a tratar en la sección 13.6.

Problemas de la sección I3.5


e 13.2S Una profesora de estadística impartió clase a dos grupos especiales del nivel
básico, los 10 integrantes de cada grupo están considerados como alumnos
sobresalientes. La maestra utilizó un método "tradicional" de enseñanza (T) en
un grupo y un método "experimental" en el otro. Al final del semestre, clasificó a
los estudiantes sobre la base de su desempeño, desde 1 (peor) hasta 20 (mejor).
T 1 2 3 S 9 10 12 13 14 lS
E 4 6 7 8 11 16 17 18 19 20

Para la profesora, ¿existe evidencia de que haya una diferencia en el


desempeño de los alumnos que siguieron un método con los del otro? (Utilice
el nivel a= O.OS.)
13.26 El director de recursos humanos de un hospital de 1,200 camas de la ciudad de
Nueva York se encuentra evaluando a los candidatos para el puesto a
administrador del departamento de facturas y pagos del hospital. Entre los
solicitantes, 22 fueron seleccionados para ser entrevistados. Siguiendo las
entrevistas, los rangos (1 = más idóneo) obtenidos por los candidatos
(basándose en la entrevista, su nivel académico y su experiencia anterior) se
presentan a continuación, divididos según el "tipo" de grado académico
obtenido: maestro en ciencias (MC) o maestro en filosofía (MF).

Candidatos MC Candidatos MF
1 2 3 6
4 5 7 10
8 9 13 14
11 12 16 18
15 17 19 20
21 22

¿Existe evidencia de que los candidatos con maestría en ciencias sean más
idóneos que los candidatos con maestría en filosofía? (Utilice el nivel a= O.OS.)
13.27 La directiva de una estación televisiva de Nueva York decidió realizar una
historia en la que se compararan dos rutas de trenes del área: el Long Island
Rail Road (LIRR) y el New Jersey Transit (NJT). Los investigadores tomaron una
muestra en la estación del funcionamiento de varias de las corridas programadas
de los trenes de cada línea, 10 de la LIRR y 12 de la NJT. Los datos con respecto
al tiempo (en minutos) adelantado (números negativos) o atrasado (números
positivos) de cada tren se presentan a continuación:
LIRR: S -1 39 9 12 21 lS S2 18 23
NJT: 8 4 10 4 12 s 4 9 lS 33 14 7

Prueba de sumas de rangos de Witcoxon para diferencias entre dos medianas 487
(a) ¿Existe evidencia de que las líneas difieren en sus medianas de la tendencia
a llegar tarde (Utilice el nivel a= .01.)
(b) ¿A qué conclusiones con respecto a los retrasos de las dos líneas se pueden
llegar?
13.28 Refiérase a los datos del problema 13.7 de la página 470. Utilizando un nivel
de 0.01 de significación, ¿existe evidencia de que los incentivos salariales (a
través de comisiones) produzcan una mediana mayor en el volumen de
ventas?
• 13.29 Refiérase a los datos del problema 13.8 de la página 470.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer-
encia en los dos tipos de baterías con respecto a la mediana del tiempo de
comunicación (en minutos) antes de necesitar recargárselas?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.8 de la página 470 y con los obtenidos en el problema 13.18
de la página 479. Discuta el resultado.
13.30 Refiérase al problema 13.9 de la página 471.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer-
encia en la mediana de los réditos efectivos sobre las cuentas de
mercado de dinero en los dos tipos de bancos del área de Nueva York?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.9 de la página 471 y con los obtenidos en el problema 13.19
de la página 479. Discuta el resultado.
13.31 Refiérase al problema 13.20 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer-
encia en la mediana de las tasas de ocupación entre hospitales urbanos y
suburbanos del estado?
(b) ¿Qué otras suposiciones deben hacerse con el fin de llevar a cabo el inciso
(a) de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.20. Discuta el resultado.
13.32 Refiérase al problema 13.21 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una
diferencia en la mediana de los tiempos de ensamblado (en segundos)
entre los empledos entrenados con un programa asistido por computadora
y de índole individual y los entrenados en un programa basado en el
trabajo en equipo?
(b) ¿Qué otras suposiciones deben hacerse con el fin de llevar a cabo el inciso
(a) de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.21. Discuta el resultado.

Problemas intercapítulo de la sección 13.5


13.33 Refiérase al problema 4.77 de la página 162.
(a) Pruebe si existe evidencia de que la mediana de la renta pagada por los
departamentos no amueblados en Manhattan es mayor que la de los
departamentos no amueblados de Brooklin Heights. (Utilice un nivel
a= .01.)
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.10 (página 471) y los del problema 13.22 (página 481).
e 13.34 Refiérase al problema 4.80 de la página 163.
(a) Pruebe si existe evidencia de que la mediana de los gastos escolares es
mayor en las escuelas preparatorias del noreste estadunidense que las del
medio oeste. (Utilice un nivel a= .01.)

488 Capítulo 13 Pruebas de dos muestras con datos numéricos


(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.11 (página 472) y los del problema 13.23 (página 481).
13.35 Refiérase al problema 3.9 de la página 62.
(a) Pruebe si existe evidencia de que la mediana del costo de los champúes
destinados a cabello "normal" con respecto a los champúes para cabello
"fino". (Utilice un nivel a= .OS.)
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.12 (página 472) y los del problema 13.24 (página 481).

l f i.) Prueba Fpara diferencias


entre dos varianzas

1 3 .6. 1 Introducción
En las tres secciones anteriores, examinamos algunos procedimientos para probar
las diferencias en la tendencia central (es decir, diferencias en las medias o en las
medianas) entre dos poblaciones independientes. En muchas situaciones, sin
embargo, podemos estar interesados también en probar si dos poblaciones inde-
pendientes tienen la misma variabilidad. Podemos estar interesados en estudiar las
varianzas je dos poblaciones como un "medio para llegar a un fin", es decir, pro-
bar la suposición de varianzas iguales con el propósito de determinar si la prueba t
de variamas conjuntas o la prueba t' de varianzas independientes es la más
apropiada para utilizarse en la comparación de dos medias (secciones 13.3 y 13.4);
o podemos estar realmente interesados en el estudio de las varianzas de dos pobla-
ciones como un "fin en sí mismo".

1 3 .6.l Desarrollo
Con el fin de probar la igualdad de las varianzas de dos poblaciones indepen-
dientes, S( ha diseñado un procedimiento estadístico basado en el cociente de dos
varianzas de muestra. Si se supone que los datos obtenidos de cada población están
distribuidos normalmente, entonces el cociente SifS~ sigue una distribución cono-
cida como distribución F (véase la tabla E.5), llamada así en honor al famoso
estadístico R. A. Fisher. De la tabla E.5 (una réplica de la cual, la tabla 13.5, aparece
en la página 491), podemos ver que los valores críticos de la distribución F depen-
den de dm conjuntos de grados de libertad. Los grados de libertad que aparecen en
el numerador del cociente se refieren a la primera muestra, y los del denominador
pertenecen a la segunda muestra. La estadística de prueba F para probar la igual-
dad entre dos varianzas sería

'' ¡

~í, .
(1,3.8)

en la que n 1 = tamaño de la muestra tomada de la población 1


n2 = tamafio de la muestra tomada de la población 2
n1 - 1 =grados de libertad de la muestral (es decir los grados de libertad
del numerador)
n2 - 1 = grados de libertad de la muestra 2 (es decir los grados de libertad
del denominador)

Prueba F para diferencias entre dos varianzas 480


S~ = varianza de la muestra 1
S~ =varianza de la muestra 2
Al probar la igualdad de dos varianzas, se pueden emplear pruebas de dos
extremos o de un extremo, dependiendo de si estamos probando si las varianzas
de las dos poblaciones son diferentes o si una de ellas es mayor o igual que la otra.
Estas situaciones se presentan en la figura 13.9.

o F ;O ..
Panel A: de dos-extremos . ,P~n~I ~: de un-E!xtrf¡lrno . . PaneLC: de un-extremo>;
H0: sf= cr~ 'Ho:sf:i:..cr[ Ho: sf :s.cr[ •
H1 : sf;t cr~ ·i','
·'H1:·sf< a: : ; '~
H1: sf >·a~

Figura 1 J.9
Determinación de la región de rechazo de la prueba de hipótesis con respecto a la igualdad de dos varianzas de población:
panel A, prueba de dos extremos, panel B, prueba de un extremo; panel C, prueba de un extremo

Para un nivel dado de significación, a, para probar la hipótesis nula de igual-


dad de varianza
H.O·. O'¡=
2 2
O'z

contra la hipótesis alternativa de que las dos varianzas de poblaciones no son


iguales
H1·. cr12 ..-
.... 2
O'z

podemos rechazar la hipótesis nula si la estadística de prueba calculada, F, es


mayor que el valor crítico de extremo superior, Fucn.-IJ,(n,-I)' de la distribución F, o
si la estadística de prueba calculada cae por debajo del valor crítico de extremo
inferior, FL(n,-l),(n,-l) de la distribución F. Esto es, la regla de decisión es

Rechazar H0 si F > Fucn.-1),(n,-l)


o si F < FL(n.-1),(n,-1);
en cualquier otro caso no rechazar H0 •

Esta regla de decisión y la región de rechazo se muestran en el panel A de la


figura 13.9

1 3 .6. 3 Aplicación
Con el propósito de mostrar cómo probaremos la igualdad de dos varianzas, po-
demos regresar al estudio del analista financiero de los réditos de dividendo de dos
grupos de acciones. Los datos del ejemplo se muestran en la tabla 13.1 de la página
466, y las medidas sumarias de las dos muestras se presentan en la tabla 13.2 de la
página 467.

490 Capitulo 1 J Pruebas de dos muestras con datos numéricos


Para probar la igualdad de las dos varianzas de población, tenemos las sigulen·
tes hipótesis alternativa y nula:
2 2
Ho: <T1 = <Tz
H1: <T~ :;t <T~
Debido a que se trata de una prueba de dos extremos, la región de rechazo se
divide en los extremos inferior y superior de la distribución F. Si se selecciona un
nivel de significación de a= .OS, cada región de rechazo contendrá 0.025 de la dis-
tribución.
El valor crítico de extremo superior de la distribución F, con 20 y 24 grados de
libertad se puede obtener directamente de la tabla E.S, de la cual la tabla 13.S es
una réplica. Puesto que hay 20 grados de libertad en el numerador y 24 en el
denominador, el valor crítico de extremo superior puede encontrarse buscando en
la columna etiquetada con "20" y en la hilera etiquetada con "24", que pertenece
a un área de extremo superior de .025. Por consiguiente, el valor crítico de extremo
superior de esta distribución F es 2.33.

Tabla 13.5 Obtención del valor crítico de F con 20 y 24 grados, para un área de extremo superior de 0.025.
Numerador df1
Denominador
dfz 1 2 3 15 I& 24 30
1 647.8 799.5 864.2 984.9 99 .1 997.2 1001
2 38.51 39.00 39.17 39.43 3 .45 39.46 39.46
3 17.44 16.04 15.44 14.25 1 .17 14.12 14.08
4 12.22 10.65 9.98 8.66 .56 8.51 8.46

15 6.20 4.77 4.15 2.86 .76 2.70 2.64


16 6.12 4.69 4.08 2.79 .68 2.63 2.57
17 6.04 4.62 4.01 2.72 .62 2.56 2.50
18 5.98 4.56 3.95 2.67 .56 2.50 2.44
19 5.92 4.51 3.90 2.62 .51 2.45 2.39
20 5.87 4.46 3.86 2.57 .46 2.41 2.35
21 5.83 4.42 3.82 2.53 .42 2.37 2.31
22 5.79 4.38 3.78 2.50 .39 2.33 2.27


23 5.75 4.35 3.75 2.47 .36 2.30 2.24
s.;z:a 4.32! 3.n 2!.44 2.27 2.21
Fuente: Tomado de la tabla E.5.
"ªll

• Obtención de los valores críticos de extremo inferior Cualquier valor


crítico de extremo inferior de la distribución F se puede obtener con
......

1
.. F_L{n1 -1),(nz~l)
. = ·'""t,.-··-.,.,-,-.-,-... · ' (13.9)
,U(~;~l),(~¡-,1):: ,

en la que FL<ni-l),(nz-l) =valor crítico de extremo inferior de la distribución F


con n 1 -1 y n2 -1 grados de libertad
Fu(nz-l),(ni-l) =valor crítico de extremo superior de la distribución F
cong n2 -1 y n1 -1 grados de libertad
n 1 -1 = grados de libertad de la muestra 1
nz-1 = grados de libertad de la muestra 2

Prueba F para diferencias entre dos varianzas 49 1


Por consiguiente, en este ejemplo tenemos

1
F1.t20, z41
-- -
F ---
U!24, 20)

Para calcular el valor crítico de extremo inferior dado, necesitamos obtener el


valor superior .025 de F con 24 grados de libertad en el numerador y 21 grados de
libertad en el denominador, y tomar su recíproco. De la tabla E.5, este valor de ex-
tremo superior es de 2.41. Por tanto, de la ecuación (13.9)

1 1
FL{ZO, 24) = F = 0.415
U(24, 201 2.41

Como se presenta en la figura 13.10; la regla de desición es

Rechazar H0 si F > Fu< 2 u, 24 ¡ = 2.33


o si F < F1.t 2 o, 24 ¡ = 0.415;

en cualquier otro caso, no rechazar H 0 •

df1 = 21 - 1 = 20
df2 = 25 - 1 = 24

Rechazar
rechazar Ho
Figura 1 3. 1O Ho
Regiones de rechazar y de no
rechazar de una prueba de dos
extremos para la igualdad de dos
varianzas, al nivel de significación FL (20, 24) = 0.415 Fu(20,24) = 2.33
de .05 y con 20 y 24 grados de
libertad.

Utilizando la ecuación ( 13.8) para los datos del analista financiero (véase la
tabla 13.2 página 467), calculamos la siguiente estadística de prueba F:

sz
F = 521
2

1.698
1.25
1.353

Por consiguiente, puesto que FL< 20, 24 ¡ = 0.415 < F = 1.25 < Fu 120 , 24 ¡ = 2.33, no
rechazamos la hipótesis nula, H 0 . El analista financiero llegaría a la conclusión de
que no hay evidencia de una diferencia en la variabilidad de los réditos de divi-
dendo de las dos poblaciones. Así pues, si podemos suponer que las dos pobla-
ciones están distribuidas de manera normal, la prueba t de varianzas conjuntas
sería más apropiada que la prueba t' de varianzas independientes, para la com-
paración de diferencias entre los réditos de dividendo promedios, debido a que no

492 Capítulo 13 Pruebas de dos muestras con datos numéricos


hay evidencia de que las varianzas de población sean diferentes. l'or otro lad<>, \i
no sentimos que la suposición de normalidad es viable, deberíamos uliliz<ir l;1 pruv-
lla de suma de rangos de Wilcoxon para determinar si existen diferencias en la
mediana de los réditos de dividendo de las dos poblaciones.

1 3 .6.4 Precaución
Al probar la igualdad de dos varianzas de población, debernos tener en cuenta que
la prueba supone que cada una de las dos distribuciones están distribuidas de ma-
nera normal. Esto es, si se cumple con la suposición de normalidad para cada·
población, la estadística de prueba F sigue una distribución F con 11 1 - 1 y 11 2 - 1
grados de libertad. Desafortunadamente, esta estadística de prueba F no es robusta
con respecto a violaciones a esta suposición (referencia 2), en particular cuando los
tamaños de muestra de los dos grupos no son iguales. Por tanto, si las poblaciones
no están, por lo menos, distribuidas de manera aproximadamente normal, la pre-
cisión del procedimiento puede verse afectada seriamente (las referencias 2 a 4
presentan otros procedimientos para probar la igualdad de dos varianzas).

Problemas de la sección 13.6

e 1:136 Suponga que se tiene disponible la siguiente información para dos grupos:

S~=l3.7 11 2 = 10 5~= 16.9

(a) /\1 nivel de significación de O.OS, ¿_existe evidencia de una diferencia entre
0~ y a~?
(bJ ¿Cuál es la relación en el inciso (a) entre el valor crítico inferior y el valor
crítico superior? ¿En qué condiciones será válida esta relación? Explique
su respuesta.
(c) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de O.OS, ¿cuál es el valor crítico de extremo superior de la
estadística de prueba F para determinar si hay evidencia de que 0~ > 0~?
(d) Suponga que deseáramos llevar a cabo una prueba de un extremo. Al
nivel de significación de .OS, ¿cuál es el valor crítico de extremo
inferior de la estadística de prueba F para determinar si hay evidencia de
que<>~ > 0~?
133 7 Suponga que se tiene disponible la siguiente información correspondiente a
dos grupos:

sf = 473 11 2 = 13 s~ = 36.4

(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia entre


0~ and 0~?
(b) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de .OS, ¿cuál es el valor crítico de extremo inferior de la
estadística de prueba F para determinar si hay evidencia de que~ >a~'?
(c) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de .05, ¿cuál es el valor crítico de extremo superior de la
estadística de prueba F para determinar si hay evidencia de que~ > 0~?
13.38 Un profesor del departamento de contabilidad de una escuela de negocios
afirma que existe mucha más variabilidad en los resultados del examen final
de los estudiantes que toman el curso de introducción a la contabilidad como
prerrequi~ito que en los obtenidos por estudiantes que toman el curso como

Prueba F para diferencias entre dos varianzas 491


parte de su especialización. Se tomaron muestras aleatorias de 13 estudiantes
del curso como prerrequisito y de 10 estudiantes de especialización de la lista
de clase del profesor, y se obtuvieron los siguientes resultados:
nNA =13 s~A =210.2 nA =10 si= 36.S
(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en las
varianzas de los tiempos de envío entre los dos almacenes?
(b) Encuentre los límites inferior y superior del valor p.
13.39 Refiérase al problema 13.S de la página 469.
(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en las
varianzas de los tiempos de envío entre los dos almacenes?
(b) Encuentre los límites inferior y superior del valor p.
13.40 Refiérase al problema 13.6 de la página 470.
(a) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en las
varianzas de la cantidad gastada entre los dueños de perros y los de gatos?
(b) Encuentre los límites inferior y superior del valor p.
e 13.41 Refiérase a los datos del problema 13.8 de la página 470.
(a) Utilizando un nivel de significación de .OS, ¿existe evidencia de una
diferencia en las varianzas del tiempo de comunicación (en minutos)
antes de que las baterías necesiten recargarse entre los dos tipos de
baterías?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t del problema 13.8, la prueba t' del
problema 13.18 (página 479) o la prueba de suma de rangos de Wilcoxon
del problema 13.29 (página 488)? Discuta su respuesta.
13.42 Refiérase a los datos del problema 13.9 de la página 471.
(a) Utilizando un nivel de significación de O.OS, ¿existe evidencia de una
diferencia en las varianzas de los réditos efectivos sobre las cuentas de
mercado de dinero entre los dos tipos de bancos del área de Nueva York?
(b) Basán.dose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t del problema 13.9, la prueba t' del
problema 13.19 (página 479) o la prueba de suma de rangos de Wilcoxon
del problema 13.30 (página 488)? Discuta su respuesta.
13.43 Refiérase a los datos del problema 13.20 de la página 480.
(a) Utilizando un nivel de significación de .OS, ¿existe evidencia de una difer-
encia en las varianzas de las tasas de ocupación entre hospitales urbanos y
suburbanos del estado?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t' del problema 13.20 (página 480) o la
prueba de suma de rangos de Wilcoxon del problema 13.31 (página 488)?
Discuta su respuesta.
13.44 Refiérase a los datos del problema 13.21 de la página 480.
(a) Utilizando un nivel de significación de O.OS, ¿existe evidencia de una
diferencia en las varianzas de los tiempos de ensamblado (en segundos)
entre los empleados entrenados con un programa asistido por computadora
y de trabajo individual o los entrenados con un programa de trabajo en
equipo?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t' del problema 13.21 (página 480) o la
prueba de suma de rangos de Wilcoxon del problema 13.32 (página 488)?
Discuta su respuesta.

Problemas intercapítulo de la sección I3.6


13.45 Refiérase al problema 4.77 de la página 162.
(a) ¿Existe evidencia de que la varianza de las rentas en Manhattan es mayor
que las de Brooklin Height? (Utilice el nivel a= .01.)
(b) Encuentre los límites inferior y superior del valor p.

494 Capítulo 13 Pruebas de dos muestras con datos numéricos


• 13.46 Refiérase a los datos del problema 4.80 de la página 163.
(a) ¿Existe evidencia de que la varianza de los costos escolares difiere entre las
escuelas preparatorias del noreste estadounidense y las preparatorias del
medio oeste? (Utilice el nivel a.= .01.)
(b) Encuentre los límites superior e inferior del valor p.
13.47 Refiérase a los datos del problema 3.9 de la página 62.
(a) ¿Existe evidencia de que haya una diferencia en las varianzas entre los
costos de los champúes destinados a cabello "normal" y los champúes
destinados a cabello "fino"? (Utilice el nivel a.= .05.)
(b) Encuentre los límites superior e inferior del valor p.

111) Uso de la computadora para la prueba


de hipótesis con dos muestras .
independientes: la encuesta de
satisfacci(>n de los empleados de.
Kalosha Industries ·
Bud Conley, .el vicepresidente .de recursos human()S oe Kalosha Industries,· está
preparando otra reunión con un representante de·Ja empresá B & L Corporation
para analizar los contenidos de un paquete de prestaciones laborales que se está
desarrollando. Antes de tener la reunión, una respuesta a la siguiente pregunta
sería, de particuiar preocupación en un análisis confimzatorio de l.o~ datos de Ja'
encuesta (tabla 2.3 de las páginas 33 a 40): l.Existe evidencia dé 'una diferencia de
género con respecto a la cantidad promedio dé tiempo (err apos) que los emplea-
dos de tiempo completo han estado trabajando en Kalosha Industries? (Véanse
preguntas l6 y 5 de la encuesta.· · .
Ésta y otras preguntas planteadas por Bud Conley (véase el proyecto de encues-
ta/base de qatos ~l finru ,de la sección) requieren un aná~isis es~adístico descriptivo
detalládo :delas 400 respuestiis a la encuesta a fo largó de un análisis confirmatorio.

1 3 .1. 1 Uso de paquetes··estadís1:1¿os paHt.datos numéricos .


Para determinar si existen. diferencias'' d~ gériero signi~r;:a.tivas c:on: respectb :a la
antigüedad, es decir, en la cantidad promedio de ~i~nipo~(en añ()s) que lps etnpleá••
<los de tiempo completo han estado trabajando en Kak>sha Indu~trles, :se debe ele-
gir una a~ternativa. ¿Cµál de los procedimientos dé pfueba· d~ hipótesis, la prueba
t, la prueba t' o !aprueba de sumade rangos de Wilcoxoh, se .debe utiUzar en este
caso? Para ayµdarse enJa selección de la prueba más aprppiada, se llevará a Cabo
un análisis descriptivo, de mocio que las suposkiones que hay que hacer.para efec~
tuar los diferentes pro.cedirriientos ·de prueba pu~d,an ser evaluadas.
La figura· lJ.11' ptoporcioria .·el resulta.do obtenido . cqmputadóra de• las con.
medidas·desqiptjvascón·respf!cto
. .. ~. ..
,, ' .
a·1a
.
antigüedad
'
en
'.
Kafoshá.Industries
.. ..
para tra~ ' '

aex · N 'MBM . BDIN ~. ·SToEV . ·sP.MBAN


···:,;M·
9 ·:·:·.•.•.l:•.... ,· . 233 9;218 6,.doo > e, •.360 . 9;141 .0.599

·= .
.,, .l.'67 ' 7.812 05;000•· 7·,¡95 •.• 7~Íl7 . 0.55l.

•.J".. ·.·.o·.~.··
o.i6o
F.
~·.· · s~. ..
30.000'
L.<'Qj_>
... ,;;l~Q40.
. 2;330
Q3,.
13;000. ,•
ll~OOÓ
Figura 1 J.11
Resultado obtenido con MINITAB de las medidas sumarias.
Nota: Deberíamos estar familiarizados con todas las medidas sumarias obtenidas con el programa MlNITAB,
excepto TRMEAN (que está más allá del propósito del presente extremo).

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 491
bajadores, hombres y mujeres. Este resultado fue obtenido mediante el uso de
MINITAB (véase referencia 5). Además, la figura 13.12 representa las gráficas de ca-
ja y sesgos de la antigüedad, basadas en el sexo de los empleados, e ilustra las corres-
pondientes gráficas de probabilidad normal, todo esto obtenido con el paquete de
computación STATISTIX (véase referencia 10).

Box and Whisker Plot


••
o

....................
••
¡

~· :::~:
20 ......

1) •..•.

1
MALBS •
FEMALBS
Sl!lC
fOO ~UH

MALES

'º .....................,. . ··-···. ····· ···t


!
•¡

.......... ]

......i ..
-3 ·2 ·1
Naokits
Approúaat• W11k·Shapbo 0.8''1 231 Cll.H•

FEKALES

Rankit Plot of EMPY:RS2


30

••
i 18

l 12
-i
..¡........... ;.:.~ ................
,..:-
¡
!. . . ..

•..¡..... ······t.--Yt·· ¡
'
.. J .................. ,. ..................
i
i'''''''"'''''"'''"~ ················+····"··-··-·····!·.,·
......... -~ ..
i
·····-~--
·3 ·2 ·1
RaDldta

Figura U.12
Resultado obtenido con STATISTIX de las gráficas de caja y sesgo y las gráficas de probabilidad
normal.
Nota: Los externos y los posibles externos están representados separadamente fuera de los sesgos de la gráfica
de caja y sesgo. El símbolo "o" se utiliza para externo; el símbolo "*" se utiliza para posibles externos.

4S>6 Capítulo 1 :1 Pruebas de dos muestras con datos numéricos


1 J.7.2 El arte del análisis de datos
Las diferentes medidas sumarias, representaciones y diagramas indican que las dis-
tribuciones de antigüedad de empleados de tiempo completo hombres y mujeres
de Kalosha Industries están bastante sesgadas a la derecha. La media, claramente,
excede a la mediana con respecto a la antigüedad en el empleo (en años) tanto para
hombres (9.28 contra 6.0) y mujeres (7.81 contra 5.0), y los bigotes del extremo
superior de ambas gráficas de caja y bigotes son alargados y contienen varios posi-
bles externos. Además, la curvatura hacia arriba de las dos gráficas de probabilidad
normal se desvía sustancialmente de una línea recta.
Sin embargo, incluso a pesar de que los datos sobre la antigüedad obtenidos de
las muestras indican que las poblaciones subyacentes están sesgadas hacia la
derecha, los tamaños de muestra (233 para los hombres y 167 para las mujeres) son,
por lo general, lo suficientemente grandes para que el efecto de limitación central
normalice las dos distribuciones de muestreo respectivas de las medias. Así pues, en
la selección de un procedimiento de prueba de hipótesis para comparar la
antigüedad promedio considerando el sexo de los empleados de Kalosha Industries,
muchos investigadores no excluirían las pruebas to la t' en este momento. De ma-
nera alternativa, algunos investigadores simplemente seleccionarían la prueba de
suma de rangos de Wilcoxon, que es libre de distribución, y evitarían por completo
la cuestión de la normalidad, mientras que otros preferirían utilizar una transfor-
mación de datos (véase referencia 11) para normalizar los dos conjuntos de datos
antes de aplicar las pruebas clásicas to t'.
En la figura 13.13 se presenta el resultado parcial obtenido con el paquete de
software SAS, en el que se muestran las pruebas t y t' sobre posibles diferencias en
las medias, así como la prueba F para posibles diferencias en las varianzas (véase

TTEST PROCEDURE
Variable: EMPYEARS
SEX N Mean Std Dev Std Error
MALES 233 9.27781116 9.14078799 0.59883293
FEMALES 167 7.81191617 7.11661961 0.55070056

Variances T DF Prob>ITI Figura 13.U


---------------------------------------
Unequal 1.8018 395.3 0.0723
Resultado obtenido con SAS
para las pruebas t y t' para
Equal 1.7302 398.0 0,0844
investigar diferencias en la
For HO: Variances are equal, F' = l . 65 DF = (232, 166) Prob>F' 0.0007 antigüedad promedio,
basadas en el sexo del
trabajador.

- - - - - Mann-Whitney U - Wilcoxon Rank Sum W Test


EMPYEARS
by SEX

Mean Rank Cases


204.73 233 SEX =MALES
194.60 167 SEX = FEMALES Figura IJ.14
Resultado obtenido con
400 Total SPSS para la prueba de
suma de rangos de Wilcoxon
Corrected fer ties para investigar diferencias
u w z 2-Tailed P en la antigüedad mediana
18470.5 32498.5 - .8645 .3873 basados en el sexo del
trabajador.

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 407
referencia 7). Además, en la figura 13.14 se muestra el resultado parcial, obtenido
con el paquete de computación SPSS; en el que se ilustra la prueba de suma de ran-
gos de Wilcoxon para posibles diferenc:ias en las medianas (véase referencia 6). Aún
más, en la figura 13.15 se presenta el result<ctdo obtenido con el paquete STATISTIX
donde se muestran las gráficas de caja y sesgos y las gráficas de probabilidad nor-
mal para demostrar los- ~fectos de una transformación normalizan te con logari'tmos
naturales sobre los dos grupos de muestra original. Y en la figura 13.16 se muestra
el resultado obtenido con el paquete MINITAB donde se ilustran las pruebas t y t'
para posibles diferencias en las medias transformadas, basadas en el sexo de los
empleados. ·
De las figuras 13.11y13.13 observamos que, con respecto a la antigüedad de
los trabajadores, la muestra de 233 hombres tuvo una media de 9.28 años, con una

Box imd Wbisker Plot.


• 'o ··-···· .. -·-· .. ·-"·-·--·· ·····-··-·-..---···-"·-········· ·-··--···....-................................

l.Z ............................................................................................ ···-····················-······

r:: ·: ·: :. : : ·: :. : ·: : .: : :. : : :·:·. : :.: :.· :. _. _


.-..
SRI
400 CUff

Wilk-Sba1>iro / Rarikit Plot of LEMPYRS1


... o ··t''""'""'-··-··+··-····-··-···!····-····. ···-··l··""'' '"' '""'' "¡.............._...t..·········-·. ··t··
1 ¡ ! 1 1 • ~ :

.....J..................,................ ¡. . . . . . . . .1......:...........1... ...::r.'..:_. . . . . i.


1 1 1 • 1 !

·l -a -1 o
Ronlllb
Awrodat:• W11k-sb.Q1.zo o .nH au cu••

PllmUI

Wilk-Sba1>iro / Rankit Plot of LEMPYRS2


•.• -1·-..·--··. :··1·"-'' '"' ' ' ' i'-"""""·--·l"'"""'""'"'t-'""'' ::t•"''"""''t'
1 ¡ : ! i .-- 1 1

Figura 13.1 S
Resultado obtenido con
STATISTIX en el que se
ilustran las gráficas de caja
y sesgo y las gráficas de
probabilidad normal,
correspondientes a los
datos sobre antigüedad en
el trabajo de los dos· -· ·• ·l

grupos, seguidas de una


transformación
normalizante con
logaritmos naturales.

498 Capítulo 13 Pruebas de dos muestras con datos numéricos


·Note the adjueted natural log tranefo:rmation 'Whan original ~euranerit.e are near O.
Ml'B > let c38 = loge(cl7 + 1)

Ml'B > twot 95 c38 c6;


SUBC> alt o.

TWCSAMPLE T FOR C38


eex N MEllN STDEV SE MEAN
M 233 1.935 0.925 0.061
F 167 1.858 0.817 0.063

95 PC!1' CI FOR MU l - MU 21 (-0.095, 0.249)

'l'l'EST MU l = MU 2 (VS NE) 1 T= O. 88 P=O. 38 DF= 380

Ml'B > twot 95 c38 c6;


SUBC> alt O;
SUBC> pooled.

'1WJSJ\MPLE T FOR C38


eex N MEAN STDEV SE MEAN
M 233 1.935 0.925 0.061
F 167 1.858 0.817 0.063

95 PC!1' CI FOR MU l - MU 21 (-0.099, 0.253)

'l'l'EST MU 1 =MU 2 (VS NE) 1 T= 0.96 P=0.39 DF"~ 399

POOLED STDEV s O• 882

Figura 13. 16
Resultado obtenido con MINITAB para las pruebas t y t' para investigar diferencias en la
"antigüedad transformada" promedio, basados en el sexo de los trabajadores, después de una
transformación de logaritmo natural.

desviación estándar de 9.14 años, mientras que la muestra de 167 mujeres tuvo
una media de 7.81 años con una desviación estándar de 7.12 años.
Antes de probar las diferencias entre las medias de los dos grupos, resulta apro-
piado que la suposición de igualdad de varianzas sea evaluada mediante el uso de
la prueba F analizada en la sección anterior. Nuestras hipótesis nula y alternativa
serían
2 2
U)J=<J'F
2 2
<J'M:F<J'p

De la figlira 13.13, observamos que la estadística de prueba Fes 1.65 y, con 232
y 166 grados de libertad, el valor p está dado como .0007. Si se seleccionara un
nivel de significación de a= .05, la hipótesis nula sería rechazada, ya que 0.0007 <
O.OS. Por consiguiente, llegaríamos a la conclusión de que existe evidencia de una
diferencia entre las varianzas de los dos grupos. 2 Desafortunadamente, nuestro
resultado, que indica una falta de homogeneidad de varianza, podría ser confun-
dido con el hecho de que hay una falta de normalidad. Así pues, la precisión de
nuestro resultado puede verse afectada por el hecho de que las dos poblaciones
muestreadas parecen estar sesgadas hacia la derecha, y entonces, para comparar la
variabilidad de los dos grupos, sería más apropiado utilizar otros procedimientos
libres .de distribución cuyo estudio está más allá de nivel del presente texto (véanse·.
referencias 2 a 4).
Sin embargo, si asumimos la posición de que las dos varianzas de la.s pobla~
dones subyacentes no son iguales, pero sentimos que los tamaños de las muestras
son lo suficientemente grandes para que el efecto de limitación central normalice
las dos distribuciones de muestreo respectivas de las medias, podemos utilizar el
resultado obtenido con SAS, presentado en la figura 13.13, para obten~r la estadís-
tica de prueba t' de varianzas separadas para probar la hipótesis nula. ·

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 499
contra la. hipótesis alternativa

Observamos que la estadística t' es igual a +1.80 y, con 39S grados de libertad, el co-
rrespondiente valor p de dos extremos es .0723. Para una prueba de dos extremos
con un nivel seleccionado de a.= .OS, como .0723 > .05, no estaríamos en disposi-
ción de rechazar la hipótesis nula. La estadística de prueba t' de + 1.80 cae dentro
de la región de no rechazo, entre los valores críticos inferior y superior de ±1.96, de
la distribución t, con 395 grados de libertad. Llegaríamos a la conclusión de que no
hay evidencia de que la antigüedad promedio en el trabajo en Kalosha Industries
sea diferente entre los hombres y mujeres que laboran de tiempo completo.
Los investigadores que no deseen efectuar la prueba t', debido a la aparente
falta de normalidad de las poblaciones subyacentes, podrían escoger la prueba de
suma de rangos de Wilcoxon en lugar de la primera. En la figura 13.14 se presenta
el resultado obtenido con el paquete SPSS, y se ilustra la prueba de suma de rangos
de Wilcoxon utilizada para investigar diferencias en la mediana de la antigüedad
basándose en el sexo de los trabajadores. Para probar la hipótesis nula

contra la hipótesis alternativa

observamos que la estadística de prueba, W, es de 32,498.S con un valor de p de


0.3873 . Utilizando un nivel de significación de a. = .OS, como .3873 > .05, no po-
demos rechazar la hipótesis nula. No existe evidencia de que la mediana del tiempo
de empleo en Kalosha Industries sea diferente entre los trabajadores de tiempo com-
pleto hombres y mujeres.
Cuando parece que se viola la suposición de normalidad, algunos investigado-
res preferirían utilizar las pruebas paramétricas clásicas t y t', después de emplear
una transformación de datos normalizante (véase referencia 11), en lugar de la prue-
ba de suma de rangos de Wilcoxon, que es libre de distribución. En la figura 13.15
se presenta el resultado obtenido con el paquete STATISTIX~ en el cual se repre-
sentan las gráficas de caja y sesgos y las gráficas de probabilidad normal para las
dos muestras, después de efectuar una transformación de logaritmo natural sobre los
datos de la antigüedad. 3
Si observamos cuidadosamentelos conjuntos de gráficas de la figura 13.15, es-
taremos de acuerdo en que la transformación logarítmica parece normalizar a las
dos muestras de datos, eliminando una cantidad. sustantiva del sesgo original. Con-
siderando los tamaños de muestra grandes, ahora .resulta razonable concluir que ya
no existe ninguna violación seria de la suposición ele normalidad y, en consecuen-
cia, podemos seguir adelante con una prueba parainétrica clásica. ·
En la figura 13.16 se presenta el resultado obtenido con el paquete MINITAB;
en éste se muestran la prueba t de varianzas combinadas y la prueba t' de varian-
zas separadas para los datos transformados mediante logaritmos naturales.
, Aplicando la prueba F para la suposici6n de igualdad de varianza a los datos
del panel A, observamos que · ·

F = S~ = (0.9250) 2 = 1.Z8
s; (0.8172) 2

500 Capitulo 1 J Pruebas de dos muestras con datos numéricos


Seleccionando un nivel de significación, a, de .05, como F = 1.28 < Fu(232,166i =
1.43, no podemos rechazar la hipótesis nula. La transformación logarítmica ha
normalizado los datos y, mediante la reducción del sesgo, ha estabilizado la va-
riabilidad entre los dos grupos.
Con la suposición de que las varianzas de los datos transformados de las dos
poblaciones son parecidas, se puede emplear la prueba t de varianzas conjuntas
para comparar las medias de los dos grupos. Utilizando un nivel de significación
de .05, la estadística de prueba t = +0.86 cae entre ±1.96, los valores críticos infe-
rior y superior de la distribución t, con 398 grados de libertad, y la hipótesis nula
de no diferencia en las medias (transformadas) no puede ser rechazada. El valor p
es de .39. De nuevo, no existe evidencia de una diferencia en las medias (de los
datos transformados) entre los dos grupos.

13.7.3 Resumen
Independientemente de qué procedimiento de prueba se seleccione, podemos in-
formar a Bud Conley que no hay evidencia de una diferencia en la cantidad prome-
dio de tiempo que llevan trabajando en Kalosha Industries los empleados de
tiempo completo, hombres y mujeres. Por otro lado, al examinar los diferentes va-
lores p, podemos ver qué tan importante es explorar los datos mediante un análisis
descriptivo completo, con el propósito de evaluar las suposiciones de los procedi-
mientos de prueba que tenemos en mente emplear. Muchos investigadores hu-
bieran escogido, inicialmente, la prueba t'. Algunos hubieran elegido la prueba de
suma de rangos de Wilcoxon. Otros más hubieran preferido transformar los datos,
siguiendo un análisis descriptivo, y después hubieran seleccionado una prueba t. A
pesar de que las soluciones a las que se llegaron fueron las mismas en todas las si-
tuaciones, es un poco perturbador darse cuenta de la falta de estabilidad de las
pruebas t y t', incluso cuando los tamaños de muestra en este caso (233 y 167) no
son pequeñqs. Observe, de las figuras 13.13 y 13.16, qué tan variados fueron los
respectivos valores p para las pruebas efectuadas sobre los datos originales, en con-
traste con los valores obtenidos en pruebas sobre los datos transformados. Por el
otro lado, la prueba de suma de rangos de Wilcoxon, que sencillamente transforma
las mediciones en rangos, no se ve afectada en lo absoluto por tales transforma-
ciones de datos.

Proyecto de base de datos/encuesta de la sección 13. 7

Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestionario de
la figura 2.6, páginas 28 y 29, y presentados en la tabla 2.3 de las páginas 33 a 40.
Deben resolverse con la ayuda de algún paquete de computación que se tenga disponible.
Suponga que usted fue contratado corno asistente de investigación de Bud
Conley, el vicepresidente de recursos humanos de Kalosha Industries. Éste le ha
dado una lista de preguntas (véanse problemas 13.48 a 13.60) cuya respuesta
necesita tener antes de la reunión con el representante de la empresa B&L
Corporation, la firma asesora sobre prestaciones laborales que él ha
contratado. Un análisis estadístico confirmatorio, basado en las respuestas a las
preguntas relativas a las variables numéricas de la Encuesta de Satisfacción de
los Empleados, le proporcionará un mejor entendimiento de la composición de
la fuerza de trabajo de tiempo completo de Kalosha Industries, y le será de
utilidad en sus deliberaciones con el representante de la B&L Corporation
orientadas a la obtención de un paquete de prestaciones para los empleados.
De las respuestas a las preguntas que tratan sobre variables numéricas de la
Encuesta de Satisfacción de los Empleados (véanse páginas 33 a 40), en los
problemas 13.48 a 13.60 que se presentan a continuación,

Uso de la computadora para la prueba de hipótesis con dos muestras independientes SO 1


(a) Construya la presentación de tallo y hojas para cada una de las dos
muestras.
(b) Para cada una de las dos muestras, obtenga
(1) la media (5) el alcance
(2) la mediana (6) el alcance intercuartil
(3) el alcance medio (7) la desviación estándar
(4) el eje medio (8) el coeficiente de variación
(c) Enumere el sumario de cinco números para cada una de las dos muestras.
(d) Trace la gráfica de caja y bigotes para cada una de las dos muestras.
(e) Basándose en un análisis descriptivo de lo encontrado en los incisos (a) a
(d) con respecto a las suposiciones de los diferentes procedimientos de
prueba de hipótesis, seleccione el procedimiento apropiado y efectúe la
prueba de hipótesis al nivel de significación de a= O.OS.
(f) t.f!id'Jl.f.t,r Escriba un memorándum a Bud Conley en el que se analice
su selección de prueba y lo encontrado.
13.48 ¿Existe evidencia de una diferencia de sexo en el número promedio de horas
trabajadas típicamente por semana por los empleados de tiempo completo de
Kalosha Industries? (Véanse preguntas 1 y S.)
13.49 ¿Existe evidencia de una diferencia de sexo con respecto a la edad promedio
de los trabajadores de tiempo completo de Kalosha Industries? (Véanse
preguntas 3 y S.) ·
13.50 ¿Existe evidencia de una diferencia de sexo con respecto al ingreso personal
promedio de los trabajadores de tiempo completo de Kalosha Industries?
(Véanse preguntas 7 y 5.)
13.51 ¿Existe evidencia de una diferencia con respecto a la edad promedio de los
trabajadores de tiempo completo de Kalosha Industries basándose en si son
miembros o· no de un sindicato laboral? (Véanse preguntas 3 y 14.)
13.52 ¿Existe evidencia de una diferencia con respecto al ingreso personal promedio
de los trabajadores de tiempo completo de Kalosha Industries basándose en si
son miembros o no de un sindicato laboral? (Véanse preguntas 7 y 14.)
13.53 ¿Existe evidencia de una diferencia en la antigüedad promedio (es decir, el
tiempo de trabajo en años) de los empleados de tiempo completó de Kalosha
Industries, basándose en si son miembros o no de un sindicato laboral?
(Véanse preguntas 16 y 14.)
13.54 ¿Existe evidencia de una diferencia en el número promedio de horas
trabajadas típicamente por semana por los trabajadores de tiempo completo de
Kalosha Industries, basándose en la participación individual en decisiones
presupuestarias? (Véanse preguntas 1 y 22.)
13.55 ¿Existe evidencia de que el ingreso personal promedio de los trabajadores de
tiempo completo de Kalosha Industries es mayor si ellos participan en
decisiones presupuestarias que cuando no participan en tales decisiones?
(Véanse preguntas 7 y 22.)
13.56 Existe evidencia de que la antigüedad promedio (es decir, la cantidad de
tiempo de empleo en añ.os) es mayor para aquellos empleados de tiempo
completo de Kalosha Industries que participan en decisiones presupuestarias
que para los que no participan en tales decisiones? (Véanse preguntas 16 y 22.)
13.57 ¿Existe evidencia de una diferencia en el número de.horas que típicamente
trabajan por semana todos los empleados de Kalosha Industries (pregunta 1),
basándose en si éstos están muy satisfechos (pregunta 9, código 1) o no muy
satisfechos (pregunta 9, códigos 2 a 4) con su trabajo?
13.58 ¿Existe evidencia de una diferencia con respecto al promedio de edad de los
empleados de tiempo completo de Kalosha Industries (presunta 3), basándose
en si éstos están muy satisfechos (pregunta 9, código 1) o no muy satisfechos
(pregunta 9, códigos 2 a 4) con su trabajo?
13.59 ¿Existe evidencia de una diferencia con respecto al ingreso personal promedio
de los trabajadores de tiempo completo de Kalosha Industries (pregunta 7),
basándose en si éstos están muy satisfechos (pregunta 9, código 1) o no muy
satisfecho (pregunta 9, códigos 2 a 4) con su trabajo?

502 Capftulo 13 Pruebas de dos muestras con datos numéricos


13.60 ¿Existe evidencia de que el ingreso personal promedio (pregunta 7) es mayor
para los empleados de tiempo completo de Kalosha Industries que sienten que
un entrenamiento formal sobre el empleo es importante para realizar su
trabajo (pregunta 28, código 1) que para aquellos que no piensan del mismo
modo (pregunta 28, códigos 2 a 4)?

1f !:i Elección del procedimiento de prueba


apropiado al comparar dos muestras
relacionadas
En las secciones anteriores del presente capítulo, hemos examinado varios proce-
dimientos de prueba de hipótesis que nos permiten hacer comparaciones y exami-
nar diferencias entre dos poblaciones independientes basados en muestras que
contienen datos numéricos. En particular, en las secciones 13.3 a 13.5 enfocamos
nuestra atención en probar la diferencia entre las medias o las medianas de dos
poblaciones independientes. En las siguientes dos secciones desarrollaremos procedi-
mientos para analizar la diferencia entre medias o medianas de dos grupos, cuando
los datos de la muestra son obtenidos de poblaciones que están relacionadas, es
decir, 1 d del rimer ru o no son inde e · cs-4€-los.obtenidos del
segundo grupo. Esta característica de " ependencia" de los dos grupos se presenta
porque los elementos o individuos están apareados o equilibrados de acuerdo
con alguna característica, o debido a que mediciones repetida.s...,rnQbte.nldas
dJ mismo conjunto de elementos o individuos. En cualquier caso, la variablede.
interés es ahora la diferencia entre los valores de las observaciones en lugar de las
------- ~--'<---~~-
o bse rvac1o ne s mismas.
-En la investigación financiera, a menudo, es de interés examinar las diferen-
cias entre dos grupos relacionados. Por ejemplo, en la comercialización de prueba
de un producto con dos condiciones de publicidad diferentes, una muestra de mer-
cados de prueba puede equilibrarse (es decir, aparearse) sobre la base del tamaño de
la población del mercado de prueba y/o otras variables socioeconómicas y demo-
gráficas. Aún más, cuando se efectúa un experimento de prueba de sabor, cada su-
jeto de la muestra puede ser utilizado como su propio control, de modo que se
obtienen mediciones repetidas del mismo individuo.
El primer planteamiento del problema de muestras relacionadas implica el (
eql!ilibrio de elementos o de indiyjdu~_ª9:_1erdQ..f-º!!..ª!gµ:rgt_~!l:~~g~~ístJ~~ de in-
ter~s. Por ejemplo, si el gerente de producción a cargo del proceso de llenadodelas
cajas de cereal (analizado en los capítulos 9 a 11) deseara estudiar el efecto de dos
máquinas de llenado diferentes, una vieja y una nueva, sobre la cantidad de cereal
que se tira (y por tanto que se desperdicia), debe establecerse un control de las dife-
rencias entre los distintos tipos de cereales (que pueden tener diferentes patrones
de desperdicio). En esta situación, se pueden probar dos cajas de cada tipo de cereal
que se empaqueta, con una caja asignada a la nueva máquina y la otra a la máquina
vieja.
El segundo planteamiento del problema de muestras relacionadas implica to- 1
U@" medicionf.s_repetidas de los mismos eleme11to1u1.indiv.iduos. Bajo la teoría_de
~ismos eleme_Q_!_~nd!yJduou.~om.p.01Jarán de..manera.par.ecida.si.son
tratados deiañlISiñaforma el ob ·eti ' · · .consiste...e.n-mG&t-Far-q.ue-eua.1-
ql!_ig_-.!_erencia entr~Jpediciongs de los...mismruu~lf.!!1~.n!QS__o.individuos..se
de e a diferentes condieiones de tratamiento. Por ejemplo, suponga que un fabri-
cante e ap icaciones e so tware para computación está desarrollando un nuevo
paquete financiero que se pretende utilizar en la educación y en los negocios.
Como el tiempo de procesamiento de computadora es costoso, el fabricante desea
que el nuevo paquete tenga las mismas características y capacidades que el líder de
mercado actual, al tiempo que se puedan obtener resultados más rapido que con
dicho paquete líder. Como prueba del valor del nuevo paquete de software, se diseña

Elección del procedimiento de prueba apropiado al comparar dos muestras relacionadas SOJ
un experimento en el que proyectos de aplicación financiera particulares deben ser
tratados con el nuevo paquete así como por el paquete líder actual. Mediante el uso
de un conjunto particular de proyectos de aplicación financiera en ambos paquetes,
de hecho estamos utilizando cada proyecto como su propio control. Por consi-
guiente, sencillamente podemos evaluar diferencias en los tiempos requeridos para
lograr los resultados deseados mediante la compara(ión de la media (o de la me-
diamtl de las diferencias delos dos n~gi~tr_os de tiempo, en vez de comparar la dife-
r~~ii!Tüii~Q_l~_i9.e11 la mediana)_ de los ti~ropos~dg_t~-ññinación de dos muestras
i11-~--P-~D-~fü~I1!~~--c:l.~- los P!<J.yect_ps de -ªpEg¡,__Q.Q_f.!._fin.ªns:iera, .YD-ª--.Q~)as _c_uales debe
acc:_e_~a,r~e en_ ~l nuevo~_paql!ete de softw:'l..-!!. l'J~~!ª- ~p_el_pag:µ~!~l_~eLEste último
planteamiento de comparación de dos muestras independientes fue visto en nuestro
análisis de las secciones 13.3 a 13.6. En este caso, sin embargo, debernos observar
que la obtención de los dos registros de tiempo (uno para el nuevo paquete de compu-
tación y otro para el paquete líder) para cada proyecto de aplicación financiera sirve
para reducir la variabilidad en las lecturas de tiempo comparada con la que se pre-
sentaría si se utilizaran dos conjuntos independientes de proyectos de aplicación
financiera. También nos permite enfocar nuestra atención en las diferencias entre los
dos registros de tiempo para cada proyecto de aplicación financiera con el propósito
de medir la efeetividad del nuevo paquete de software.
Independientemente de si se emplean muestras equilibradas (apareadas) o me-
diciones repetidas, tlOOjetivo es estudiarla difer~n5ia entre_dQ~ffie_dkiones me_dian-
te la reducción del efecto ~-lª-Y_arial!ilid~d _debido a los elementos o individuos
En
mismos. Tas dos secciones siguientes, desarrollaremos dos procedimientos amplia-
mente utilizados: la prueba t para la diferencia media en muestras relacionadas y la
prueba de rangos con signo de Wilcoxon para la diferencia mediana en muestras rela-
cionadas. Como se estudió en la sección 13.2, se pueden emplear varios criterios para
la selección de un procedimiento en particular. Parte de un buen análisis de datos
consiste en entender las suposiciones que subyacen en cada una de las técnicas de
prueba de hipótesis y en seleccionar la más apropiada para un conjunto dado de con-
diciones. Otros criterios para la elección de la prueba tienen que ver con la sencillez
del procedimiento, la capacidad de generalización de las conclusiones a las que se
llegue, la accesibilidad de las tablas de valores críticos para la estadística de prueba,
la disponibilidad de paquetes de software de computación que contengan el pro-
cedimiento de prueba, y la potencia estadística del procedimiento.

118·1 Prueba t para la diferencia de medias

1 3 .9. 1 Introducción y fundamentos


Con el propósito de determinar cualquier diferencia que exista entre dos grupos
relacionados, deben obtenerse las diferencias en los valores individuales de cada
grupo, como se muestra en la tabla 13.6. Para leer esta tabla, sean X11 , X 12, ••• , X111
las n observaciones de una muestra. Ahora hagamos que Xw X 221 ... , X211 represen-
ten las correspondientes n observaciones apareadas de una segunda muestra, o las
correspondientes n mediciones repetidas de la muestra inicial. Además, hagamos
que D 1, D 2, ... , 15_11 representen el correspondiente conjunto den resultados de difer-
encia, tales que D 1 = X 11 - X21 , D2 = X 12 - X22, ... y D11 = X111 - X 211 •
Del teorema del límite central, la diferencia promedio D sigue una distribución
normal, cuando la desviación estándar de población de la diferencia cr0 es conocida
y el tamaño de muestra es lo suficientemente grande. La estadística de prueba Z es

15-µD
Z=--- (13.10)
ªn
..rn

504 Capítulo 1J Pruebas de dos muestras con datos numéricos


en la que

i=l
i5
n
µD =diferencia media supuesta
cr D = desviación estándar de población de los resultados de diferencia
n = tamaño de la muestra
Table 13.6 Determinación de la diferencia
entre dos grupos relacionados
Grupo
Observación 1 2 Diferencia
1 X¡¡ D 1 =X 11 - X 21
2 X12 D2=X12 -Xzz

X¡; D;=X 1; -X 2 ;

13.9.l Desarrollo de la prueba t para la diferencia media


Sin embargo, como se mencionó previamente, en la mayoría de los casos no cono-
cemos la desviación estándar real de una población. La única información que, por
lo general, se puede obtener son las estadísticas sumarias como la media y la des-
viación estándar de muestra. Si se hacen las suposiciones de que la muestra de re-
sultados de diferencia es tomada de manera aleatoria e independientemente de
una distribución que está distribuida normalmente, se puede utilizar una prueba t
para determinar si existe una diferencia media de población significativa. Así pues,
de manera análoga a la muestra t (de una muestra), desarrollada en la sección 12.3
[véase ecuación (12.1)], la estadística de prueba que desarrollaremos aquí seguirá la
distribución t, con n - 1 grados de libertad. A pesar de que se supone que la pobla-
ción está distribuida normalmente, se ha encontrado en la práctica que siempre y
cuando el tamaño de muestra @e.a muy_pequeño, y la_.Q_Q.\;?Jª<:~.ón @)~.~!~IIlJ!Y._~e~­
gada, lacfü:trj.1>.llción t da una buena aproximación a la distribución de muestreo
de la diferencia promedio, D. Por consiguiente, para probar la hipótesis nula de no
diferencia en las medias de dos poblaciones relacionadas (es decir, la diferencia
media de la población, µD, es O)

contra la alternativa de que las medias no son iguales (es decir, la diferencia media
de población, µD, no es O)

se puede calcular la siguiente estadística de prueba t

Prueba t para la diferencia de medias 505


t = (13.11)

en donde

n
n
LD;z -nf>z
i ~ 1

n-1

suma de los cuadrados de cada resultado de diferencia


i ~ 1

n D 2 = tamaño de la muestra por el cuadrado de la diferencia media de la muestra

y, para un nivel de significación dado, a, podemos rechazar la hipótesis nula si la


estadística de prueba, t, calculada es mayor que el valor crítico de extremo supe-
rior, tn-I de la distribución t, o si la estadística de prueba t, calculada cae por debajo
del valor crítico de extremo inferior, -tn-v de la distribución t. Es decir, la regla de
decisión es

Rechazar H0 si t > t11 _ 1

en cualquier otro caso, no rechazar H0 •


Sin embargo, la prueba que se debe efectuar puede ser de dos extremos o de un
extremo, dependiendo de si estamos probando si las dos medias de población son
meramente diferentes (es decir, la diferencia media de población, µD, es cero) o si
una de las medias es mayor que la otra (es decir, la diferencia media de población,
µD, es diferente de cero). Los tres paneles de la figura 13.17 presentan las hipótesis
nula y alternativa y las regiones de rechazo para las posibles pruebas de dos
extremos y de un extremo. Si, como se muestra en el panel A, la prueba de hipóte-
sis es de dos extremos, la región de rechazo se divide en los extremos inferior y
superior de la distribución t. Sin embargo, si la prueba es de un extremo, la región
de rechazo está en el extremo inferior (panel B de la figura 13 .17) o en el extremo
superior (panel e de la figura 13.17) de la distribución t, dependiendo de la direc-
ción de la hipótesis alternativa.

13.9.3 Aplicación que implica apareamiento o balanceo


Para aplicar la prueba de la diferencia entre las medias de dos grupos relacionados,
refirámonos de nuevo al primer ejemplo de la sección 13.8. El gerente de produc-
ción deseaba determinar si existía evidencia de que el desperdicio es menor cuando
los paquetes son llenados en una máquina nueva que cuando son llenados por una
máquina vieja. Con el fin de reducir la influencia de la variabilidad en el tipo de

506 Capítulo 1 J Pruebas de dos muestras con datos numéricos


_______________________________________ ,_,,. __,

Panel A PanelB PanelC


Ho: µo= o Ho: µo?: O Ho: µo :SO
H1:µo ;éO H1: µo<O H1:µo >O

Figura 1 J.17
Prueba de la diferencia entre las medias de muestras relacionadas: panel A, prueba de dos
extremos; panel B, prueba de un extremo; panel C, prueba de un extremo.

cereal, se seleccionaron, de manera aleatoria, un par de · is de cada 10 tipos dife-


rentes de cereal. Una caja de cada tipo de cereal fue lle; .1 con la máquina nueva
y la otra con la máquina vieja. La asignación de un miembro de cada par de cajas
a una de las máquinas (nueva o vieja) se hizo de manera aleatoria. Los resultados
se muestran en la siguiente tabla:

Tabla U.7 Cantidad de cereal desperdiciado (en


gramos) para una muestra aleatoria
de 1O tipos de cereal empacados en
dos máquinas distintas
Tipo de Máquina Diferencia D;
Tipo de cereal Nueva Vieja (Xli-Xz¡)
1 12.73 13.89 -1.16
2 9.75 10.32 -0.57
3 13.78 17.01 -3.23
4 8.37 10.43 -2.06
5 11.71 11.39 +0.32
6 15.47 17.99 -2.52
7 14.56 16.02 -1.46
8 11.74 11.90 -0.16
9 9.76 13.11 -3.35
10 12.47 13.88 -1.41

Para estos datos,


n n
L D; = -15.60, L D~ = 38.1676, n = 10
i =1 ; =.l

Así pues

-15.60 = -1.56
n 10

Prueba t para la diferencia de medias 107


i = 1 38.1676 - 10(-1.56) 2
1.537
n-1 9

de modo que

s/) = i.24

Puesto que el gerente de producción desea determinar si el desperdicio prome-


dio es menor con la nueva máquina que con la vieja, tenemos una prueba de un
extremo en la que las hipótesis nula y alternativa pueden establecerse de la manera
siguiente:

Como se tomaron muestras de 10 tipos de cereal, si se selecciona un nivel de


significación de 0.01, la regla de decisión es:

Rechazar H 0 si t < t9 = -2.8214;


en cualquier otro caso, no rechazar H 0 •
Las regiones de rechazo y de no rechazo se muestran en la figura 13.18.

Figura 1 l.18
Prueba de un extremo para la
diferencia apareada, al nivel de
significación de .O 1, con nueve
grados de libertad.

De la ecuación (13.11) tenemos

de modo que

t
-1.56 - o -3.978
1.24
Fo
Como t = -3.978 < t9 = -2.8214, rechazamos H 0 •

sos Capítulo 1 J Pruebas de dos muestras con datos numéricos


Utilizando el planteamiento del valor p, la probabilidad de obtener una esta-
dística t por debajo de -3.978 con nueve grados de libertad es menor que 0.005.
Como ésta es menor que 0.01, el nivel de significación, a, escogido, la hipótesis
nula es rechazada. Llegaríamos a la conclusión de que hay evidencia de que la can-
tidad promedio de desperdicio de cereal es menor con la nueva 111{1quina que con
la vieja.

Problemas de la sección 13. 9


13.61 El gerente de una conocida agencia nacional de bienes raítTs ;H"alla d\·
terminar una sesión de entrenamiento sohre evaluacione\ de i111111wl>I\'\ dl' dos
agentes recién contratados. Para evaluar la eficacia de su e11lrl'11a111i\·1110, l'I
gerente desea determinar si existe alguna diferencia en los valor\'s \'SI irnadm
de casas que hicieron estos dos agentes. El gerente sden-io11ú 1111<1 111rn°\lr;1 de
12 casas y a cada uno de los agentes se le asignó la larea dl' l'v;1l11ar (l'll 111ill's
de dólares) las 12 casas.
Los resultados se presentan a conlimraciún:

Casa Agente 1 Agente 2


1 181.0 182.0
2 179.9 180.0
3 163.0 161.5
4 218.0 215.0
5 213.0 216.5
6 175.0 175.0
7 217.9 219.5
8 151.0 150.0
9 164.9 165.5
10 192.5 195.0
11 225.0 222.7
12 177.5 178.0

(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en las


evaluaciones promedio dadas por los dos agentes?
(b) ¿Qué suposición es necesaria para efectuar esta prueba'!
(c) Encuentre los límites inferior y superior del valor de p en el inciso (a) e
interprete su significado.

13.62 Suponga que una compañía fabricante de zapatos desea probar el material que
se destina a la suela de los zapatos. En cuanto a cada par de zapatos, el material
nuevo fue colocado en un zapato y el material viejo en el otro. Después de un
periodo dado, se seleccionó una muestra aleatoria de 10 pares de zapatos y se
les midió el desgaste con una escala de 10 puntos (el más alto es mejor) con
los siguientes resultados

Número de par
Material II III IV V VI VII VIII IX X
Nuevo 2 4 5 7 7 s 9 8 8 7
Viejo 4 5 3 8 9 4 7 8 s 6
Diferencias -2 -1 +2 -1 -2 +1 +2 o +3 +1

(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia en el


desgaste promedio para el nuevo material y para el viejo?

Prueba t para la diferencia de medias S09


(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
e 13.63 Un grupo de estudiantes de ingeniería decide ver si los automóviles que
supuestamente no necesitan gasolina de alto octanaje rinden más millas por
galón, utilizando gasolina regular o de alto octanaje. Prueban varios
automóviles (en condiciones de carretera, clima y otras de manejo similares)
usando ambos tipos de gasolina en cada automóvil en tiempos diferentes. El
kilometraje (en millas) para cada tipo de gasolina es:

Automóvil
Tipo de
gasolina #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Regular 15 23 21 35 42 28 19 32 31 24
Alto octanaje 18 21 25 34 47 30 19 27 34 20

(a) ¿Existe evidencia de una diferencia en el kilometraje promedio entre las


gasolinas regular y de alto octanaje? (Use a= O.OS.)
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.64 Con el fin de medir los efectos de una campaña de venta general sobre los
artículos que no se venden, el director de investigación de una cadena de
supermercados a nivel nacional tomó una muestra aleatoria de 13 pares de
tiendas que fueron comparadas de acuerdo con su volumen de ventas
semanal. Una tienda de cada par (el grupo experimental) fue expuesto a la
campaña de ventas, y el otro miembro del par (el grupo de control) no. Los
siguientes datos corresponden a los resultados en un periodo semanal:

Ventas ($000) de productos


no vendidos pronto
Con campaña Sin campaña
Tienda de ventas de ventas

1 67.2 65.3
2 59.4 54.7
3 80.1 81.3
4 47.6 39.8
5 97.8 92.5
6 38.4 37.9
7 57.3 52.4
8 75.2 69.9
9 94.7 89.0
10 64.3 58.4
11 31.7 33.0
12 49.3 41.7
13 54.0 53.6

(a) Al nivel de significación de O.OS, ¿puede el director de investigación llegar


a la conclusión de que existe evidencia de que la campaña de ventas ha
aumentado las ventas promedio de los productos no vendidos?
(b) ¿Qué suposición es necesaria hacer para realizar la prueba?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.65 Un profesor de una escuela de negocios desea investigar los precios de los
nuevos libros de texto que se venden en la tienda del campus universitario en
comparación con los precios que da una librería que no está en el campus y
que pertenece a una cadena nacional de librerías. El profesor selecciona aleato-

510 Capítulo 13 Pruebas de dos muestras con datos numéricos


riamente los libros requeridos en 12 cursos de la escuela y compara los precios
de las dos librerías. Los resultados son los siguientes:

Libro Tienda en el campus Tienda fuera del campus


#1 $55.00 $50.95
#2 47.50 45.75
#3 so.so 50.95
#4 38.95 38.50
#5 58.70 56.25
#6 49.90 45.95
#7 39.95 40.25
#8 41.50 39.95
#9 42.25 43.00
#10 44.95 42.25
#11 45.95 44.00
#12 56.95 55.60

(a) Al nivel de significación de 0.01, ¿existe evidencia de una diferencia en el


precio promedio de los libros de texto sobre negocios entre las dos
tiendas?
(b) Encuentre los límites inferior y superior del valor p en el inciso (a) e
interprete su significado.

1f Hl•l Prueba de hipótesis de rangos con


signo de Wilcoxon para la diferencia
de medias

1J.I0.1 Introducción
En situaciones que implican elementos pareados o mediciones repetidas del mis-
mo elemento, se puede utilizar la prueba de rangos con signo de Wilcoxon
para la diferencia mediana, cuando su respectiva contraparte paramétrica, la
prueba t para la diferencia media, que fue descrita en la sección anterior, no es
apropiada. Esto es, la prueba de rangos con signo de Wilcoxon puede elegirse sobre
la prueba t cuando somos capaces de obtener datos medidos a un nivel superior
que la escala ordinal, pero no creemos que las suposiciones del procedimiento pa-
ramétrico sean lo suficientemente verdaderas. Cuando las suposiciones de la prue-
ba t son violadas, es probable que el procedimiento de Wilcoxon (que hace pocas
y menos suposiciones limitantes que la prueba t) sea más poderoso en detectar la
existencia de diferencias significativas que su contraparte paramétrica. Aún más,
incluso en condiciones apropiadas para la prueba paramétrica, la prueba de rangos
con signo de Wilcoxon ha probado ser casi tan poderosa que la prueba t.

1 J. 10.2 Desarrollo
La prueba de la hipótesis nula con respecto a que la diferencia mediana de la
población, Mv, es cero, puede ser de dos extremos o de un extremo:

Prueba de dos extremos Prueba de un extremo Prueba de un extremo


H 0 : M 0 =0 H 0 : M0 ~0 H 0 : M0 ~0
H 1 : M0 ~0 H 1: M 0 <0 H 1 : M 0 >0

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias 5 11


Las suposiciones necesarias para efectuar la prueba son:
1. Los datos observados constituyen una muestra aleatoria de n elementos
o individuos independientes, cada uno con dos mediciones (X 11 , X21 ),
(X 12 , X22 ), •.• (X 1,,, X211 ), o los datos observados constituyen una muestra
aleatoria de n pares independientes de elementos o individuos tales
que (X 1¡, X2;) representa los valores observados de cada miembro del
par balanceado (i = 1, 2, ... , n).
2. La variable subyacente de interés es continua.
3. Los datos observados son medidos a un nivel mayor que la escala
ordinal, es decir, al nivel de intervalo o de cociente.
4. La distribución de la población de resultados de diferencia entre
mediciones repetidas o entre elementos o individuos apareados es
aproximadamente simétrica.
Para llevar a cabo la prueba de rangos con signo de Wilcoxon para la diferen-
cia mediana debe seguirse el procedimiento de seis pasos que presentamos a con-
tinuación:
l. Para cada elemento de una muestra de n elementos, obtenemos un
resultado de diferencia D¡ (que será descrito en la sección 13.10.3).
2. Luego despreciamos los signos"+" y"-" y obtenemos un conjunto de
11 diferencias absolutas 1D; 1.
3. Eliminamos del análisis posterior cualquier resultado de diferencia
absoluto igual a cero, en consecuencia obtenemos un conjunto de n'
resultados de diferencia no cero, en donde 11' ~ n.
4. Después asignamos rangos R; desde 1 a n' a cada uno de los 1D; I, de
modo que al resultado de diferencia absoluto más pequeño se le
asigna el rango 1 y el mayor queda con el rango n'. Debido a la falta
de precisión en el proceso de medición, si dos o más 1D;1 son iguales,
se les asignará a cada una el rango promedio de Jos que obtendrían de
manera individual de no haberse presentado los resultados iguales.
5. Ahora asignamos el símbolo "+" o "-" a cada uno de los n' rangos R;,
dependiendo de si D; era originalmente positiva o negativa.
6. La estadística de prueba de Wilcoxon, W, se obtiene como la suma de
los rangos positivos:

n'
w = LR~+) (13.12)
i =1

Puesto que la suma de los primeros n' enteros (1, 2, ... , n') está dada por n'(n' +
1)/2, Ja estadística de prueba de Wilcoxon, W, puede tener un valor que va desde
un mínimo de cero (en el que todos los resultados de diferencia observados son
negativos) hasta un máximo de n'(n' + 1)/2 (en el cual todos los resultados de dife-
rencia observados son positivos). Si la hipótesis nula fuera verdadera, esperaríamos
que la estadística de prueba, W, tomara un valor cercano a su media, µw = n'(n' +
1)/4. Si Ja hipótesis nula fuera falsa, esperaríamos que el valor observado de la
estadística de prueba estuviera cercano a uno de los extremos.
Del mismo modo que con la prueba de rangos con signo de Wilcoxon (de una
muestra), analizada en Ja sección 12.4, se puede utilizar la tabla E.10 para obtener
los valores críticos de la estadística de prueba, W, para pruebas de un extremo y
para pruebas de dos extremos a varios niveles de significación, para muestras con
n' ~ 20. Para una prueba de dos extremos y un nivel de significación particular, si
el valor observado de W es igual o mayor que el valor crítico superior o es igual o

Sil Capítulo 1 J Pruebas de dos muestras con datos numéricos


menor que el valor crítico inferior, la hipótesis nula podría ser rechazada. Para 1111;1
prueba de un extremo en la dirección negativa, la regla de decisión consiste en rec-
hazar la hipótesis nula si el valor observado de W es menor o igual al valor crítico
inferior. Para una prueba de un extremo en la dirección positiva, la regla de
decisión consiste en rechazar la hipótesis nula si el valor observado de W es igual
o mayor que el valor crítico superior.
Para muestras con n' > 20, la estadística de prueba, W, está distribuida de
manera aproximadamente normal, y se puede utilizar la siguiente fórmula de
aproximación de muestra grande para probar la hipótesis nula:

Z =W - µw (13.13)
cr w

en la que
,,.
W es la suma de los rangos positivos; W== L, R~' 1
i '::; 1

. n'(n' + 1)
µ w es el valor medio de W; µ w = 4

. .,
o es la desv1ac10n
\\'
,
estandar W; a
w
= J·---
(
---··---- --··
n' n' + 1 2n' + 1
)( 24
)

n' es el tamaño real después de eliminar las observaciones que tienen resultados
de diferencia absolutos de cero
que es,

W _ ( n'(n~ + 1) J
Z= (13.14)
n' (n' + 1)(2n' + 1)
24

y, basándose en el nivel de significación elegido, la hipótesis nula puede ser re-


chazada si el valor calculado, Z, cae en la región apropiada de rechazo, depen-
diendo de si se está efectuando una prueba de dos extremos o de un extremo (véase
la figura 13.19 página 514).

13.10.3 Aplicación con mediciones repetidas


La prueba de desarrollo es una fase importante para llevar un nuevo producto al
mercado. Un fabricante debe saber cuáles son las fortalezas y debilidades de su pro-
ducto, de modo que puedan planearse estrategias de promoción adecuadas. Por
consiguiente, para demostrar el uso de la prueba de rangos con signo de Wilcoxon
para la diferencia mediana, refirámonos al segundo ejemplo mencionado en la sec-
ción 13.8.

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias S 1J


" '.Rechazar R~9ha~ar .. ·
Ha Ho

Panel A f'arelB ... PanelC

Panel A PanelB PanelC


Procedimiento de diferencias apareadas: (prueba de dos (prueba de un (prueba de un
extremos) extremo) extremo)
M0 =0 M0 <0 Mo>O
Figura U.19
Determinación de la región de rechazo utilizando la prueba de rangos con signo de Wilcoxon.

Un fabricante de aplicaciones de software que está desarrollando un nuevo


paquete financiero destinado a usuarios de los ramos educativo y financiero, desea
probar el valor del nuevo paquete de software comparando las diferencias en los
tiempos de procesamiento en computadora para proyectos de aplicación finan-
ciera particulares introducidos para ser procesados por el nuevo paquete de soft-
ware, así como por el actual paquete líder en el mercado. Si el nuevo paquete
financiero es efectivo, proporcionará los mismos resultados que el actual líder en
el mercado, pero será más rápido que éste. Esto es, el nuevo paquete de software
requerirá, en promedio, menos tiempo de procesamiento en computadora.
Por consiguiente, podemos, simplemente, evaluar diferencias en los tiempos
requeridos para lograr los resultados deseados, mediante la comparación de las
diferencias medias (o medianas) de los dos registros de tiempo, en lugar de compa-
rar la diferencia de los tiempos de terminación medios (o medianos) de dos mues-
tras independientes de proyectos de aplicación financiera, una de las cuales debe
ser procesada con el nuevo paquete de software, mientras que la otra deberá proce-
sarse con el paquete de software líder en el mercado. Este último planteamiento de
comparar dos muestras independientes fue considerado en el análisis que hicimos
en las secciones 13.3 a 13.6. En este caso, sin embargo, debemos observar que
obtener los dos registros de tiempo (uno para el nuevo paquete de software y otro
para el paquete líder en el mercado) para cada proyecto de aplicación financiera
sirve para reducir la variabilidad en los registros de tiempo, en comparación con lo
que ocurriría si se utilizaran dos conjuntos independientes de proyectos de apli-
cación financiera. También nos permite enfocar la atención en las diferencias entre
los dos registros de tiempo para cada proyecto de aplicación financiera, con el
propósito de medir la efectividad del nuevo paquete de software.
Los resultados que se muestran en la tabla 13.8 corresponden a una muestra de
n =10 proyectos de aplicación financiera utilizados en el experimento.
La pregunta que debe responderse es si el nuevo paquete de software es más
rápido o no. Es decir, ¿hay evidencia de que el tiempo promedio de procesamiento
es significativamente mayor cuando los proyectos de aplicación financiera se
procesan con el paquete de software líder que cuando se procesan con el nuevo
paquete de software? Se establecen las siguientes hipótesis nula y alternativa:

H0 : Mv~O

H 1: Mv >0

y la prueba es de un extremo.

514 Capítulo 13 Pruebas de dos muestras con datos numéricos


Tabla 13.8 Mediciones repetidas del tiempo, en
segundos, para llevar a cabo proyectos
de apllcacl6n financiera procesados en
dos paquetes de software que están
compitiendo en el mercado
Tiempo de terminación
(en segundos)
Usuario de Con líder Coa paquete
proyecto de actual en el de software
aplicaciones mercado nuevo
C.B. 9.98 9.88
T.F. 9.88 9.86
M.H. 9.84 9.75
R.K. 9.99 9.80
M.O. 9.94 9.87
D.S. 9.84 9.84
s.s. 9.86 9.87
C.T. 10.12 9.86
K.T. 9.90 9.83
s.z. 9.91 9.86

Para llevar a cabo la prueba de muestra apareada, el primer paso del procedi-
miento de seis consiste en obtener un conjunto de resultados de diferencia, D 1,
entre cada una de las n observaciones apareadas:

D¡=Xli - X 2¡
en donde i = 1, 2, ... , n

En nuestro ejemplo, obtenemos un conjunto den resultados de diferencia a partir


de la fórmula, D¡ = Xcurrent, - Xnew,·
Si el nuevo paquete de software es efectivo, se espera que el tiempo de proce-
samiento en computadora baje, de modo que los resultados de diferencia tiendan
a adquirir valores positivos (y H0 sea rechazada). Por otra parte, si el nuevo paquete
de software no es efectivo, podemos esperar que algunos resultados de diferencia,
D¡, sean positivos, otros negativos y algunos más no muestren cambio (es decir, D;
=O). Si éste es el caso, los resultados de diferencia tendrán un promedio cercano a
cero (esto es, D =O) y H 0 no será rechazada.
Los pasos restantes del procedimiento se desarrollan en la tabla 13.9 de la pá-
gina 516. Observe que se trata exactamente de los mismos pasos que para la prueba
de rangos con signo de Wilcoxon (una muestra) que describimos en la sección
12.4. En esta tabla observamos que el usuario del proyecto D.S. es descartado del
estudio (debido a que su resultado de diferencia es cero) y que ocho de los restantes
n' = 9 resultados de diferencia tienen signo positivo. La estadística de prueba W se
obtiene sumando los rangos positivos:

n'
W = :2i Ri + l = 7 + 2 + 6 + 8 + 4.5 + 9 + 4.5 +3 = 44
i =1

Como n' = 9, utilizamos la tabla E.10 para determinar el valor crítico de


extremo superior para esta prueba de un extremo, con un nivel de significación, a,
de 0.05. El valor crítico de extremo superior es 37. Puesto que W = 44 > Wu = 37,
la hipótesis nula puede ser rechazada. Existe evidencia para apoyar la opinión de
que el tiempo promedio de procesamiento utilizando el nuevo paquete de software
es significativamente menor que el tiempo promedio utilizado por el actual líder
en el mercado. 4

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias 51 5


Tabla 1 3 .9 Determinación de la prueba de rangos con signo Wilcoxon para la diferencia
de medias
Tiempo de procesamiento
(en segundos)
Usuarios de Líder Paquete
proyecto actual nuevo Signo
de aplicaciones X¡¡ Xz¡ D¡ =Xu - X 2¡ ID¡I R¡ deD¡
C.B. 9.98 9.88 +0.10 0.10 7.0 +
T.F. 9.88 9.86 +0.02 0.02 2.0 +
M.H. 9.84 9.7S +0.09 0.09 6.0 +
R.K. 9.99 9.80 +0.19 0.19 8.0 +
M.O. 9.94 9.87 +0.07 0.07 4.S +
D.S. 9.84 9.84 0.00 0.00 Descartar
s.s. 9.86 9.87 -0.01 0.01 1.0
C.T. 10.12 9.86 +0.26 0.26 9.0 +
K.T. 9.90 9.83 +0.07 0.07 4.S +
s.z. 9.91 9.86 +O.OS o.os 3.0 +

Problemas de la sección 13. I O


13.66 Un despacho de contabilidad afirma que los contribuyentes ahorrarían dinero
si los contrataran para preparar su declaración individual de impuestos. Para
evaluar esta afirmación, una agencia de protección al consumidor hizo que
varias personas que habían ya preparado su forma para la declaración
acudieran a este despacho para que sus expertos las prepararan de nuevo. Los
impuestos que cada persona contribuiría si pagaran lo que ellos calcularon y si
pagaran lo que los expertos del despacho calcularon se presentan a
continuación:

Preparación de
devolución de impuestos
Contribuyente Despacho Por el
con tribuyen te
José 1,4S9 1,910
Marcia 3,2SO 2,900
Alexis 1,190 1,200
Harry 8,100 7,6SO
Jean 13,200 lS,390
Marc 9,120 9,100
JR 25S,970 33,120
Billy 210 140
Richard 1,290 1,320
Ted 130 o
Bruce S,190 6,123

(a) ¿Existe evidencia de que la afirmación del despacho es válida? (Utilice ex=
O.OS.)
~ (b) Analice las implicaciones de sus resultados.
13.67 El reportero del tiempo de un canal de televisión estadounidense local
informó, el miércoles lo. de junio de 1994, por la mañana, que se esperaba
que en aquel país, ese día, el clima estuviera más cálido que el martes 31 de

516 Capítulo 13 Pruebas de dos muestras con datos numéricos


mayo. Para probar esta afirmación, se tomó una muestra aleatoria de 22
ciudades situadas a lo ancho del país, y se registraron los siguientes resultados:

Temperatura alta (°F) Temperatura alta ('F)


Mayo 31 Junio 1 Mayo 31 Junio 1
Ciudad (real) (predicha) Ciudad (real) (predicha)
Albany 84 86 Little Rock 84 87
Albuquerque 93 89 Louisville 82 83
Austin 93 95 Mi ami 85 89
Birmingham 83 81 Nashville 82 83
Boise 79 83 Norfolk 79 79
Boston 84 84 Omaha 93 80
Cleveland 84 85 St. Louis 82 86
Dallas-Ft. Worth 88 92 San Diego 65 70
Denver 91 78 SanJose 80 82
Indianapolis 85 82 Seattle 69 73
Jacksonville 82 85 Tulsa 88 91
Fuente: Nueva York Times, Mayo 31, 1994, p. D8.

(a) ¿Existe evidencia que apoye la afirmación hecha por el reportero del
tiempo el miércoles primero de junio, acerca de que ese día estaría más
caliente?
(b) Analice las implicaciones de sus resultados.

13.68 Los siguientes datos representan las calificaciones obtenidas en los exámenes
de medio semestre y de finales de semestre tomados de una muestra aleatoria
de los exámenes de 11 estudiantes del curso Introducción a la Economía.
Ambos exámenes tuvieron una duración de dos horas y el examen final cubría
el material visto después de la aplicación del examen de medio semestre.

Estudiante
N.A. A.B. L.B. M.B. W.B. S.D. T.J. L.K. J.M. H.R. D.R.
Examen de
medio semestre 80 82 47 75 80 69 83 73 55 70 81
Examen de
final de semestre 81 85 40 75 83 79 91 72 66 76 79

(a) ¿Existe evidencia de un aumento en el desempeño de los estudiantes


en la segunda mitad del semestre? (Utilice a= .05.)
\9 (b) Analice las implicaciones de sus resultados .
• 13.69 Refiérase al problema 13.63 de la página 510.
(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia
en la mediana del kilometraje de gasolina?
(b) ¿Existe alguna diferencia en sus resultados presentes con respecto
a los resultados obtenidos al usar la prueba t? Discuta la respuesta.
13.70 Refiérase al problema 13.64 de la página 510.
(a) Al nivel de significación de 0.05, ¿puede el director de investigación
llegar a la conclusión de que hay evidencia de que la campaña de ventas
ha aumentado la mediana de las ventas de los productos que no se han
vendido?
(b) ¿Existe alguna diferencia en sus resultados presentes con respecto a los
resultados obtenidos al usar la prueba t? Discuta la respuesta.

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias 517
l f H11 Trampas potenciales de la prueba de
hipótesis y cuestiones éticas

1 3. 1 1 • 1 Trampas potenciales
En el presente capítulo, introdujimos cuatro procedimientos de prueba estadística
que pueden ser empleados cuando se analizan posibles diferencias entre los pará-
metros de dos poblaciones independientes, basándonos en muestras que con-
tienen datos numéricos. Además, desarrollamos dos procedimientos de prueba que
pueden utilizarse cuando analizamos posibles diferencias entre los parámetros de
dos poblaciones relacionadas, basándonos en muestras que contienen datos nu-
méricos. De nuevo, parte de un buen análisis de datos consiste en entender las
suposiciones que subyacen en cada uno de los procedimientos de prueba de
hipótesis, y utilizándolas, así como otros criterios, seleccionar el procedimiento
más apropiado para un conjunto dado de condiciones. Como se observa en el dia-
grama resumen del capítulo, la principal distinción en la comparación de dos gru-
pos que contienen datos numéricos está basada en el hecho de si las poblaciones
de donde se tomaron las muestras son independientes o están relacionadas. No
deberíamos utilizar procedimientos de prueba diseñados para poblaciones inde-
pendientes cuando tratamos con datos apareados, y no deberíamos utilizar pro-
cedimientos de prueba diseñados para poblaciones relacionadas cuando tratamos
con dos muestras independientes. Después de centrar nuestra atención en agrupa-
mientos apropiados de procedimientos de prueba parecidos, necesitamos exami-
nar con cuidado las suposiciones y los otros criterios antes de seleccionar un
procedimiento en particular.
Una selección de la prueba y/o el modelo adecuados es de suma importancia
para un buen investigador, y es un asunto bastante serio. Hace poco (véase refe-
rencia 1), dos profesores de diferentes universidades levantaron cargos por mala
conducta científica ante los Institutos Nacionales de Salud (estadounidenses), en
contra de un profesor de una tercera universidad por haber escogido un modelo
estadístico en un artículo que había escrito sobre envenenamiento con plomo.

1 3. 1 1 .2 Cuestiones éticas
Consideraciones éticas surgen cuando un investigador manipula el proceso de
prueba de hipótesis en cierto modo que le permita obtener una ganancia personal.
Resulta interesante saber que el investigador acusado de mala conducta científica
no fue acusado de fraude, plagio, alteración de datos o falsificación de resultados.
Los cargos se derivaron a partir de su elección del modelo estadístico y de los pro-
cedimientos de prueba, así como del análisis de datos resultante que presentaba un
punto de vista divergente. Para que la ética llegue a ser algo de consideración, se
debe tener en cuenta si ese aspecto en el comportamiento del investigador fue con
conocimiento de causa o no. Para un mayor análisis sobre las cuestiones éticas y la
prueba de hipótesis, refiérase a la sección 11.11.2 (páginas 412 a 415) y a la sección
12.8.2 (páginas 455 a 456).

l fH fj Prueba de hipótesis basada en dos


muestras de datos numéricos repaso
En el presente capítulo presentamos varios procedimientos de prueba de hipótesis
ampliamente utilizados que nos permiten comparar estadísticas calculadas a par-
tir de dos muestras de datos numéricos, con el propósito de hacer inferencias con

518 Capítulo 13 Pruebas de dos muestras con datos numéricos


Categóricos Numéricos

. ;v~~~e>•
capí,tuJ~ 15 ' Sí No

Tendencia · .·.•. Prueba t de .· Prueba de rangos cp~


central Variabilidad .· .: : riii,,e~iras .·. · signo de Wilcoxon de:
.· ; 'aparea~s
.: . . . .
F,'t'~·; ·~· ,~
muestras pareadas '

No

f>rue6a· de stima de
rarig!lli d6;W.iléoxor¡ Sí
.• ~~~ª"11:'":~

Diagrama resumen del capítulo 13

respecto a diferencias en los parámetros de las dos respectivas poblaciones. Se to-


maron en consideración tanto procedimientos de prueba con muestras indepen-
dientes como con muestras relacionadas, y se puso énfasis en las suposiciones que
se encuentran detrás del uso de las diferentes pruebas. En la página 462 de la sec-
ción 13.1, se presentó una lista en donde se resaltaban los puntos de importancia
que se analizaron en el capítulo. Verifique ahora esa lista para ver si siente que hay
un entendimiento de tales puntos clave. Para estar seguro, debe ser capaz de
responder las siguientes preguntas conceptuales:
l. ¿Cuáles son algunos de los criterios utilizados en la selección de un
procedimiento de prueba de hipótesis particular?
2. ¿En qué condiciones debería seleccionarse la prueba t de varianzas
combinadas para examinar posibles diferencias en las medias de dos
poblaciones independientes?

Trampas potenciales de la prueba de hipótesis y cuestiones éticas 5 19


3. ¿En qué condiciones debería elegirse la prueba t' de varianzas
separadas para examinar posibles diferencias en las medias de dos
poblaciones independientes?
4. ¿En qué condiciones se debería seleccionar la prueba de suma de
rangos de Wilcoxon para examinar posibles diferencias en las
medianas de dos poblaciones independientes?
5. ¿En qué condiciones debería seleccionarse la prueba F para examinar
posibles diferencias en las varianzas de dos poblaciones independientes?
6. ¿Cuál es la diferencia entre mediciones repetidas y elementos
balanceados o apareados?
7. ¿En qué condiciones se debería seleccionar la prueba t para la diferencia
media, µD, en dos poblaciones relacionadas?
8. ¿En qué condiciones debería elegirse la prueba de rangos con signo
de Wilcoxon para la diferencia mediana, MD, en dos poblaciones
relacionadas?
Revise la lista de preguntas para corroborar si, en efecto, conoce las respuestas
y puede (1) explicar sus respuestas a alguna persona que no haya leído el capítulo
y (2) dar referencias de lecturas específicas o ejemplos que apoyen su respuesta.
También, vuelva a leer cualquiera de las secciones que pudiera parecer confusa para
ver si ahora ya tiene sentido.

Juntando todo
TÉRMINOS CLAVE
diferencia media 504 prueba de suma de rangos de Wilcoxon
elementos aparedos o balanceados 503 para diferencias en dos medianas 481
mediciones repetidas 503 prueba t de varianza combinadas para
muestras relacionadas 503 diferencias en dos medias 464
poblaciones Independientes 463 prueba t' de varianza separadas pa
poblaciones relacionadas 503 diferencias en dos medias 472
problemas de B_ehrens-Fisher 472 prueba Z para diferencias en dos medias
prueba F para diferencias en dos 463
varianzas 489 prueba Z para la diferencia media 504
prueba de rangos con signo de Wilcoxon resultado de diferencia, D 1 504
para la diferencia mediana 511 robusta 468

Problemas de repaso del capítulo


13.71 f.t?Jdl)i•i·f·>- Escriba una carta a un amigo que no ha tomado ningún curso de
estadística y explíquele de que se trata el presente capítulo. Para resaltar el
contenido del capítulo, asegúrese de incorporar sus respuestas a las ocho
preguntas de repaso de las páginas 519-520.
e 13.72 La tienda de departamentos R&M tiene dos planes de crédito disponibles para
sus clientes. El gerente de la tienda desea recolectar información acerca de
cada plan de crédito y estudiar las diferencias entre los dos planes. Está
interesado en el saldo mensual promedio. Se seleccionó una muestra aleatoria
de 25 cuentas con el plan A y de 50 cuentas con el plan B, con los siguientes
resultados:

520 Capítulo 13 Pruebas de dos muestras con datos numéricos


Plan A Plan B
nA = 25 n8 = 50
XA = $75 X8 = $110
SA = $15 Ss = $14.14

Utilice la inferencia estadísticas (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de 0.01 (confianza de 99%) en todos los
incisos.
(a) Saldo mensual promedio de todas las cuentas con el plan B.
(b) ¿Existe evidencia de que el saldo mensual promedio de las cuentas con el
plan A es diferente de $105?
(c) ¿Existe evidencia de una diferencia en las varianzas (del saldo mensual)
entre el plan A y el plan B?
(d) ¿Existe evidencia de una diferencia en el saldo mensual promedio entre el
plan A y el plan B?
(e) Calcule los límites inferior y superior para los valores p de los incisos (b) a
(d) e interprete su significado.
~ (f) Basándose en los resultados obtenidos en los incisos (á) a (e), ¿qué le diría
al gerente acerca de los dos planes?
13.73 Una empresa grande de servicio público desea comparar el consumo de
electricidad durante el verano en casas de una sola familia en dos condados a
los que presta servicio. Por cada familia muestreada, se registró la cuenta
mensual de luz obteniéndose los siguientes resultados:

Condado 1 Condado II
X $115 $98
s $30 $18
n 25 21

Utilice la inferencia estadística (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de .05 (confianza del 95%) en todos los
incisos
(a) La cuenta mensual promedio de población para el condado l.
(b) ¿Existe evidencia de que la cuenta promedio en el condado 11 está por
arriba de $80?
(c) ¿Existe evidencia de una diferencia en las varianzas entre las cuentas en el
condado 1 y el condado II?
(d) ¿Existe evidencia de que la cuenta mensual promedio es mayor en el
condado 1 que en el condado II?
(e) Calcule los límites inferior y superior para los valores p de los incisos (b) a
(d) e interprete su significado.
(f) Basándose en los resultados obtenidos en los incisos (a) a (e), ¿qué le diría
al director de la empresa de servicio público acerca del consumo de
electricidad en los dos condados?
13.74 El gerente de operaciones de computadora de una compafiía grande desea
estudiar el uso.de computadoras en dos departamentos de la compañía, el
departamento de contabilidad y el departamento de investigación. Se
seleccionaron una muestra aleatoria de cinco tareas del departamento de
contabilidad realizados durante la semana anterior, y seis trabajos del
departamento de investigación realizados, también, durante esa semana, y se
registró el tiempo de procesamiento (en segundos) para cada trabajo con los
resultados que se muestran en la página 522.

Problemas de repaso del capítulo 511


Departamento Tiempo de procesamiento (en segundos)
Contabilidad 9 3 8 7 12
Investigación 4 13 10 9 9 6

Utilice la inferencia estadística (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de O.OS (confianza de 95%) en todos los
incisos.
(a) El tiempo de procesamiento promedio para todas las tareas del
departamento de contabilidad.
(b) ¿Existe evidencia de que el tiempo de procesamiento promedio en el
departamento de investigación sea mayor a seis segundos?
(c) ¿Existe evidencia de una diferencia en las varianzas del tiempo de
procesamiento entre los dos departamentos?
(d) ¿Qué suposición debe hacerse con el fin de llevar a cabo el inciso (c)?
(e) ¿Existe evidencia de una diferencia en el tiempo de procesamiento medio
entre los departamentos de contabilidad y de investigación?
(f) ¿Qué suposición o suposiciones son necesarias para llevar a cabo el inciso (e)?
(g) Calcule los límites inferior y superior de los valores p de los incisos (b), (c)
y (e), e interprete su significado.
(h) Basándose en los resultados obtenidos en los incisos (a) a (g), ¿qué debería
escribir el gerente en su informe al director de sistemas de información
con respecto a los dos departamentos?
Una profesora de computación está interesada en estudiar la cantidad de
' 13.?S tiempo que le llevaría a los estudiantes _inscritos en el curso Introducción a las
Computadoras escribir y correr un programa en PASCAL. La profesora le
contrata a usted para analizar los siguientes resultados (en minutos) obtenidos
de una muestra aleatoria de nueve estudiantes:

10 13 9 15 12 13 11 13 12

(a) Al nivel de significación de O.OS, ¿existe evidencia de que el tiempo


promedio de la población sea mayor a 10 minutos? ¿Qué le diría a la
profesora?
(b) Suponga que cuando está verificando los resultados, la profesora de
computación se da cuenta de que el cuarto estudiante en realidad se llevó
S 1 minutos en lugar de los 15 registrados para escribir y correr el
programa en PASCAL. Al nivel de significación de .OS, vuelva a analizar
los datos revisados en el inciso (a). ¿Qué le diría ahora a la profesora?
(c) La profesora está perpleja con los resultados paradójicos obtenidos y le
pide una explicación con respecto a la justificación de la diferencia en lo
obtenido en los incisos (a) y (b). Explique su respuesta.
(d) Pocos días más tarde, la profesora le llama para decirle que el dilema está
completamente resuelto. El número original lS [mostrado en el inciso (a)]
estaba correcto y, por consiguiente, los resultados del inciso (a) se están
utilizando en un artículo que ella está escribiendo para una revista de
computación. Ahora desea contratarle para comparar los resultados de ese
grupo de estudiantes de Introducción a las Computadoras con los
resultados obtenidos en una muestra de 11 estudiantes avanzados de
computación, con el propósito de determinar si existe evidencia de que
los estudiantes avanzados pueden escribir el programa en PASCAL en
menos tiempo (en promedio) que los estudiantes del curso introductorio.
La media de muestra para los estudiantes avanzados es de 8.5 minutos y la
desviación estándar de la muestra es de 2.0 minutos. Al nivel de
significación de .05, analice completamente estos datos. ¿Qué le diría a la
profesora?
(e) Pocos días después, la profesora le vuelve a llamar para decirle que un
revisor de su artículo quiere que incluya el valor p para el resultado "
correcto" del inciso (a). Además, le pregunta acerca de un "problema de
Behrens-Fisher", que el revisor quiere que analice en su artículo. Con sus

522 Capítulo 13 Pruebas de dos muestras con datos numéricos


propias palabras, analice el concepto de valor p y describa el problema de
Behrens-Fisher. De el valor p aproximado del inciso (a) y analice si el
problema de Behrens-Fisher tiene o no algún significado en el estudio de
la profesora.
13.76 Un profesor de estadística financiera que atiende un grupo de estudiantes
desea estudiar las calificaciones de los exámenes de medio semestre y de final
del semestre que presentaron sus alumnos durante el curso. Cada examen
cubre una parte del semestre y no son acumulativos. A continuación se
presentan los resultados de una muestra de 33 estudiantes:

Examen Examen Examen


Estudiante MS F Estudiante MS F Estudiante MS F

1 89 80 12 56 71 23 63 43
2 80 68 13 67 55 24 89 80
3 86 76 14 99 95 25 62 23
4 68 77 15 82 45 26 74 91
5 88 95 16 75 71 27 62 S7
6 89 66 17 58 44 28 70 Sl
7 82 83 18 56 so 29 65 78
8 89 86 19 55 14 30 82 S3
9 42 58 20 72 S9 31 91 90
10 61 54 21 73 80 32 84 83
11 84 84 22 79 68 33 95 88

Utilice la inferencia estadística (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de O.OS (confianza de 9S%) en todos los
incisos.
(a) Calificación promedio en el examen de medio semestre de todos los
estudiantes.
(b) ¿Existe evidencia de que la calificación promedio del examen de medio
semestre sea mayor que la del examen final?
(c) Calcule los límites inferior y superior del valor p del inciso (b) e interprete
su significado.

Proyectos de minicasos de aprendizaje


colaborativo
Refiérase a las instrncdones de la página 101 antes de empezar los siguientes problemas.
CL13.l Refiérase al CL 3.2 de la página 101 y al CL 4.2 de la página 16S. Su grupo, la
Empresa ha sido contratada pór el editor de la sección de alimentos
de una popular revista familiar para estudiar el costo y las características
nutricionales de los cereales listos para comer. Armados con el Conjunto
Especial de Datos 2 del Apéndice D de las páginas D6-D7, la Empresa
_____ está lista para:
(a) Determinar si hay evidencia de una diferencia en el costo promedio de los
cereales, considerando o no si el nivel de calorías por ración se encuentra
por debajo o por arriba de 1S5.
(b) Determinar si existe evidencia de una diferencia en la cantidad media de
azúcar en los cereales con alto contenido de fibra en comparación con los
de contenido medio y bajo combinados.
(c) Escribir y entregar un resumen ejecutivo en el que se describan los
resultados de los incisos (a) y (b), especificando claramente todas las
hipótesis, los niveles elegidos de significación y las suposiciones de los
procedimientos seleccionados.
(d) Preparar y efectuar una presentación oral de cinco minutos para el editor
de la sección de alimentos de la revista.
CL13.2 Refiérase al CL 3.3 de la página 102 y al CL 4.3 de la página 165. Su grupo, la
Empresa ha sido contratado por el director de comercialización de

Proyecto de minicasos de aprendizaje colectivo 523


una bien conocida empresa fabricante de fragancias para hombre y mujer, para
estudiar las características de las fragancias actualmente disponibles. Armados
con el Conjunto Especial de Datos 3 del apéndice D de las páginas D8-D9, la
Empresa está lista para:
(a) Determinar si existe evidencia de una diferencia en el costo promedio de
las fragancias de hombre con respecto a las fragancias de mujer.
(b) Determinar si existe evidencia de una diferencia en el costo medio de los
perfumes de mujer, basándose en si la intensidad es muy fuerte o fuerte
con respecto a una intensidad media o baja.
(c) Escriba y entregue un resumen ejecutivo en el que describa los resultados
obtenidos en los incisos (a) y (b), especificando claramente todas las
hipótesis, niveles seleccionados de significación y las suposiciones de los
procedimientos de prueba elegidos.
(d) Prepare y haga una presentación oral de cinco minutos al director de
comercialización.
CL13.3 Refiérase al CL 3.4 de la página 102 y al CL 4.4 de la página 166. Su grupo, la
Empresa ha sido contratado por el director de viajes de un conocido
periódico que está preparando un artículo sobre las características de las cámaras
compactas de 35 mm. Armados con el Conjunto Especial de Datos 4 del
apéndice D, de las páginas DlO y Dl 1, la Empresa está lista para:
(a) Determinar si existe evidencia de una diferencia en la precisión de marco
promedio de las cámaras con un nivel de precio inferior a $200 con
respecto a las que tienen un nivel de precio de $200 o más.
(b) Determine si existe evidencia de una diferencia en el peso medio de las
cámaras clasificadas como largas, medianas o cortas múltiples
(combinadas) con respecto al peso de las cámaras clasificadas como
automáticas o fijas (combinadas).
(c) Escriba y entregue un resumen ejecutivo en el que describa los resultados
obtenidos en los incisos (a) y (b), especificando claramente todas la
hipótesis, niveles seleccionados de significación y las suposiciones de los
procedimientos de prueba elegidos.
(d) Prepare y haga una presentación oral de cinco minutos al editor de viajes
del periódico.

Notas finales
l. Para probar las diferencias en los réditos de dividendo 3. Las mediciones originales (es decir, la antigüedad de los
medianos, se debe suponer que las distribuciones de réditos empleados en años) son reemplazadas por el correspondiente
de dividendo de ambas poblaciones de las cuales se logaritmo natural de la "medición más uno", de modo que,
tomaron las muestras aleatorias son idénticas, excepto, por ejemplo, un empleado de tiempo completo con cuatro
posiblemente, en cuanto a diferencias en la localización (es años de servicio en Industrias Kalosha tendría una
decir,,fas medianas). "medición" transformada de 1.61, el logaritmo natural de 5.
2. Puesto que los 232 y 166 grados de libertad no se muestran 4. La fórmula de aproximación de muestra grande [ecuación
en la tabla E.5, redondeando a los valores tabulares más (13.14)] tendría como resultado un valor de Z de +Z.55,
cercanos de 120 y 120 grados de libertad, el valor crítico de que es mayor que +1.645, el valor crítico de extremo
extremo superior, Fu, es 1.43 y el valor crítico de extremo superior de la distribución normal estándar con un nivel de
inferior, Fv es 1/1.43 = 0.699. Puesto que F = 1.65 >Fu= 1.43, significación de Ó de O.OS. En consecuencia, la hipótesis
la hipótesis nula es rechazada. nula sería rechazada.

Referencias
l. Begley, S., "Lead, Lies and Data Tape", Newsweek, 16 de 7. SAS User's Manual Version 6 (Raleigh, NC: SAS lnstitute,
marzo, 199Z, p. 62. 1988).
Z. Bradley, ].V., Distribution-Free Statistical Tests (Englewood 8. Satterthwaite, F.E., "An Approximate Distribution of
Cliffs, NJ: Prentice-Hall, 1968). Estimates of Variance Cornponents", Biometrics Bulletin,
3. Conover, W.J., Practical Nonparametric Statistics, Za. ed. 1946, vol. 2, pp. 110-114.
(Nueva York: Wiley, 1980). 9. Snedecor, G.W. y W.G. Cochran, Statistical Methods, 7a.
4. Daniel, W., Applied Nonparametric Statistics, Za. ed. ed. (Ames, IA: lowa State University Press, 1980).
(Boston, MA: Houghton Mifflin, 1990). 10. STATISTIX Versíon 4.0 (Tallahassee, FL: Analytical
5. MINITAB Reference Manual Release 8 (State College, PA: Software, Inc., 1992).
MINITAB, !ne., 1992). 11. Winer, B.J., Statistical Principies in Experimental Design, Za.
6. Norusis, M., SPSS Cuide to Data Analysis for SPSS-X with ed. (Nueva York: McGraw-Hill, 1971).
Additional Instructions for SPSS/PC+ (Chicago, IL: SPSS lnc.,
1986).

524 Capitulo 1J Prueba de dos muestras con datos numéricos


capítulo

••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Introducir los conceptos de diseño
experimental a través del desarrollo
CAPÍTULO del modelo de diseño completamente
aleatorizado y del procedimiento
ANOVA de una dirección, utilizado
para probar las diferencias entre las
medias de e grupos, y extender este
análisis hasta incluir los modelos de
diseño (con interacción) de bloque y
factorial aleatorizados.

525
1111 Introducción
En el capítulo 13 utilizamos la metodología de la prueba de hipótesis para llegar a
conclusiones acerca de posibles diferencias entre los parámetros de dos grupos,
cuando tratamos con datos numéricos. A menudo, sin embargo, es necesario eva-
luar las diferencias entre los parámetros de varios (c) grupos. Podríamos desear
comparar métodos alternativos, tratamientos o materiales de acuerdo con algún
criterio predeterminado. Una organización de consumidores, por ejemplo, puede
desear determinar qué tipo de llantas duran más en condiciones de carretera; a un
investigador agrícola le gustaría saber qué variedad de ejotes dará la mayor pro-
ducción; un investigador médico desearía evaluar el efecto de las diferentes marcas
de un tipo de medicina para la reducción de la presión diastólica de la sangre. En
cada uno de los ejemplos anteriores se comparan varios grupos y los datos de cada
grupo son numéricos.
Empezaremos el presente capítulo con el examen del modelo de diseño comple-
tamente aleatorizado en el que tendremos solamente un factor con varios grupos
(como el tipo de llantas, la variedad de ejote o la marca de medicina), desarrollan-
do procedimientos para analizar los datos numéricos y ampliando éstos con la
descripción del modelo de diseño de bloque aleatorizado y el más sofisticado modelo
de diseño factorial (en el que es estudiado más de un factor a la vez en un experi-
mento), y desarrollando procedimientos para el análisis de datos numéricos. A
través de todo el capítulo, se pondrá énfasis en las suposiciones que se encuentran
detrás del uso de los diferentes procedimientos de prueba:
Al terminar el capítulo, usted deberá ser capaz de:
l. Comparar y contrastar las características que diferencian a los mode-
los de diseño completamente aleatorizado, de diseño de bloque
aleatorizado y de diseño factorial.
2. Entender los conceptos que se encuentran detrás de la división de la
variación total en sus diferentes fuentes de variación en los tres modelos
3. Entender las premisas de ANOVA.
4. Saber cuándo y cómo utilizar la prueba de Hartley para varianzas
homogéneas.
S. Saber cuándo y cómo conocer la prueba F ANOVA de una
dirección para examinar posibles diferencias en las medias de c
poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba de rangos de Kruskal-Wallis
para examinar posibles diferencias en las medianas de c poblaciones
independientes.
7. Saber cuándo y cómo utilizar los procedimientos de compara-
ción múltiples para evaluar combinaciones por parejas de
medias o de medianas de grupo.
8. Saber cuándo y cómo utilizar la prueba F de bloque aleatorizado para
examinar posibles diferencias en las medias de c poblaciones rela-
cionadas.
9. Saber cuándo y cómo utilizar la prueba de rangos de Friedman para
examinar posibles diferencias en las medianas de c poblaciones rela-
cionadas.
10. Saber cuándo y cómo utilizar la prueba F ANOVA para examinar
posibles diferencias en las medias de cada factor de un diseño
factorial.
11. Saber cuándo y cómo utilizar la prueba F ANOVA para examinar
posibles interacciones en los niveles de los factores en un diseño
factorial.
12. Describir el concepto de interacción en un diseño factorial.

526 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


i i ij Elección del procedimiento de prueba
apropiado al comparar e muestras
Cuando nos preparamos para evaluar diferencias entre e grupos que contienen
datos numéricos, debemos seleccionar un procedimiento de prueba adecuado. Esta
elección depende de varios criterios:
• El tipo de modelo de diseño experimental desarrollado (por ejemplo,
completamente aleatorizado, de bloque aleatorizado o factorial).
• El nivel de medición con que se tomaron los datos (es decir, ordinal
contra escala de intervalo o de cociente).
• La viabilidad de las hiptotesis que subyacen en los procedimientos de
prueba alternativos.
• La capacidad de generalización de las conclusiones por obtener.
• La accesibilidad de las tablas de valores críticos para la estadística de
prueba.
• La disponibilidad de paquetes de software de computación que con-
tengan el procedimiento de prueba.
• La potencia estadística del procedimiento de prueba.
En las secciones siguientes del presente capítulo, describiremos los procedimientos
paramétricos y libres de distribución más ampliamente utilizados para la evalua-
ción de diferencias en c grupos.

1181 El modelo completamente aleatorizado: análisis


de varianza de un factor
A menudo resulta de interés comparar diferencias en los resultados entre varios
grupos. Muchas aplicaciones industriales implican experimentos en los que se
toman en cuenta solamente los grupos o niveles pertenecientes a un factor de
interés (como la temperatura de horneado o la preferencia de sabor). Un factor
como la temperatura de horneado puede tener varios niveles numéricos (por ejem-
plo, 300º, 350º, 400º, 450º) o un factor como la preferencia de sabor puede tener
varios niveles categóricos (vainilla, chocolate, frambuesa, pistache). Tales experi-
mentos diseñados de un factor, en los cuales los sujetos o unidades experimentales
son asignadas aleatoriamente a grupos o niveles de un solo factor se conocen como
modelos de diseño de un sentido o completamente aleatorizados.

i e! i Prueba FANOVA de una dirección para


diferencias en e medias

14.4.1 Introducción
Cuando las mediciones resultantes en los e grupos son continuas y se cumplen
ciertas suposiciones, se puede emplear una metodología conocida como análisis
de varianza (o ANOVA; por su nombre: ANalysis Of VAriance) para comparar las
medias de los grupos. En un cierto sentido, el término "análisis de varianza" parece
no ser el correcto, pues el objetivo consiste en analizar diferencias entre las medias

Prueba F ANOVA de una dirección para diferencias en e medias 527


d(' los grupos. Sin embargo, a través del análisis de la variación de los datos, tanto
cntrl' los e grupos como dentro de ellos, seremos capaces de llegar a conclusiones
acl'rc1 dl' posibles diferencias en las medias de los grupos. En ANO VA subdividimos
la v;1riaciú11 total de las mediciones resultantes en lo que se puede atribuir a
di ll·1Tncias entre los e grupos y lo que se debe al azar o que se puede atribuir a una
variaciún inherente dentro de los e grupos (véase figura 14.1). La variación dentro 11

dl' grupos" se considera error experimental, mientras que la variación "entre


grupos" se atribuye a efectos de tratamiento.

Variación entre grupos (SSA)

Figura 14.1
v";";óo '°"' (SST) ~
División de la variación
-~
total en un modelo
completamente Variación dentro de grupos (SSW)
aleatorizado.

14.4.l Desarrollo
Bajo las premisas de que los e grupos o niveles del factor que se van a estudiar repre-
sentan poblaciones cuyas mediciones resultantes son tomadas de manera aleatoria
e independiente, que siguen una distribución normal y tienen varianzas iguales, la
hipótesis nula de no diferencias en las medias de población
Ho: µ1 = µz = ··· =µe

puede probarse contra la hipótesis alternativa de que no todas las e medias de


población son iguales

H 1 : No todas lasµ¡ son iguales (con j = l, 2, ... , e)

En la figura 14.2 se representa una gráfica de la forma en que se vería una hipóte-
sis nula verdadera cuando se comparan cinco grupos, y son válidas las suposiciones
de normalidad y de igualdad de varianzas.

Figura 14.2
Las cinco poblaciones tienen la
misma media:µ¡= µz = µ3 = µ4 =µs.

528 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Las cinco poblaciones que representan los diferentes niveles del factor son idénti-
cas y, en consecuencia, se superponen entre sí. Las propiedades de la tendencia
central, la variación y la forma son idénticas para todas.
Por otro lado, suponga que la hipótesis nula es realmente falsa, que el nivel
cuatro posee la media más grande, siguiéndole en valor la del nivel uno y que los
restantes niveles poseen medias de población iguales. En la figura 14.3 SL' t il'ne una
representación gráfica de lo anterior.

Figura 14.3
Un efecto de tratamiento se
encuentra presente: µ 4 > µ 1 >
IJ2 =IJ3 =IJs·

Observamos que, excepto para diferencias en la tendencia central (es decir, µ 4 > ~1 1
> µ2 = µ:~ = µ 5 ) las cinco poblaciones tienen la misma apariencia.
Para llevar a cabo una prueba ANOVA de la igualdad de las medias de población,
subdividimos la variación total en las mediciones resultantes en dos partes, la que
se puede atribuir a las diferencias entre los grupos y la que se debe a variaciones inhe-
rentes dentro de los grupos. La variación total generalmente se representa con la
suma del total de cuadrados (o SST, por sus siglas Sum of Squares Total). Puesto
que bajo la hipótesis nula las medias de población de los e grupos se suponen iguales,
se puede obtener una medición de la variación total entre todas las observaciones,
mediante la suma de las diferencias aj cuadrado entre cada observación individual y
la gran media o media general, X, que está basada en las observaciones de todos
los grupos combinados. La variación total se calcularía como

r "i

, variación total (SST) = L L (X;¡ - X) 2


(14.1)
i = 1i=1

en la que X se conoce como gran media o media general


n
X;¡ es la i-ésima observación del grupo o nivel j
n¡ es el número de observaciones del grupo o nivel j
n es el total de número de observaciones en todos los grupos combinados
(n = n 1 + n 2 + ··· + ne)
e es el número de grupos o niveles del factor de interés

Prueba F ANOVA de una dirección para diferencias en c medias S29


l ,a variación entre grupos, por lo general conocida como suma de cuadra-
dos entre grupos (o SSA; por sus siglas Sum of Squares Among), se mide medi<!__nte
la suma de las diferencias al cua~rado entre la media de la muestra de cada grupo, X¡, y
la media general o gran media, X, ponderadas o pesadas con el tamaño de muestra, n¡,
de cada grupo. 1 La variación entre grupos se calcula a partir de

variación entre grupos (SSA) =


i
í. n (Xi - Xr
= 1
j (14.2)

en la que e es el número de grupos o niveles que se están comparando


n¡ es el número de observaciones del grupo o nivel j
8'.i es la media de muestra del grupo j
X es la media general o gran media
La variación dentro del grupo, por lo general conocida como la suma
de cuadrados dentro de los grupos (o SSW, por sus siglas Sum of Squares
Within), mide la diferencia entre cada observación y la media de su propio
grupo, y suma los cuadrados de tales diferencias sobre todos los grupos. La
variación dentro de los grupos puede calcularse con

e n¡

variación dentro del grupo (ssw) I I (X;¡ - X¡ )2 (14.3)


j =Ji= 1

en la que
X;¡ es la i-ésima observación del grupo o nivel j
X¡ es la media de muestra del grupo j
Puesto que e niveles del factor están siendo comparados, existen e - 1 grados
de libertad asociados con la suma de cuadrados entre grupos. Como cada uno de
los e niveles contribuye con n¡ - 1 grados de libertad y
e
I, (n¡ - 1) =n- e
i = 1

existen n - e grados de libertad asociados con la suma de cuadrados dentro de grupos.


Además, existen n - 1 grados de libertad asociados con la suma de totales al cuadrad_.9
porque cada observación, X;¡. es comparada con la media general o gran media, X,
basándose en las n observaciones.
Si cada una de estas sumas de cuadrados se divide entre sus grados de libertad
asociados, obtendremos tres varianzas o términos cuadráticos medios: MSA,
MSWyMST:

MSA = SSA (14.4a)


e- 1
MSW = SSW (14.4b)
n-c
MST = SST (14.4c)
n-1

no Capítulo 14 ANOYA y otras pruebas de e muestras con datos numéricos


Debido a que una varianza se calcula dividil'11d11 l.1 ·.11111;1 .¡,. dll1·n·11cias al
cuadrado entre los correspondientes grados de libertad, lo:-. l1 ·111111111" , 11.1d 1;11 il"os
medios son todas las varianzas.
A pesar de que el principal interés consiste en comparar las medias dl' le 1\, ¡•,111
pos o niveles de un factor para determinar si existe un efecto de tratamiento t·nl 11·
los e grupos, el procedimiento ANOVA adquiere su nombre del hecho de que lo ante-
rior se logra mediante el análisis de las varianzas. Si la hipótesis nula es verdadera y
no existen diferencias reales en las medias de los e grupos, los tres términos cuadráti-
cos medios, MSA, MSW y MST, proporcionan estimaciones de la varianza, cr 2, inhe-
rentes a los datos. Así pues, para probar la hipótesis nula

contra la hipótesis alternativa


H ¡: No todas lasµ¡ son iguales (en las que j = 1, 2, ... , e)

calculamos la estadística de prueba F, que es el cociente de MSA entre MSW, como

F = MSA (14.5)
MSW

La estadística F sigue una distribución F con e - 1 y n - e grados de libertad. Para un


nivel de significación dado, cr, podemos rechazar la hipótesis nula si la estadística de
prueba F excede al valor crítico de extremo superior, Fu(c-l,i1-<J de la distribución F (véase
tabla E.5). Esto es, como se muestra en la figura 14.4, nuestra regla de decisión es:

Rechazar H0 si F > Fuic-/, 11-(¡


en cualquier otro caso, no rechazar H0 .

Figura 14.4
o Fu(c-1, n-c) Regiones de rechazo y de no
rechazo cuando se utiliza
ANOVA para probar H 0 •

Si la hipótesis nula fuera verdadera, deberíamos esperar que la estadística F


calculada fuera aproximadamente igual a 1, pues los términos cuadráticos medios
tanto del numerador como del denominador son estimaciones de la varianza ver-
dadera, cr 2 , inherente a los datos. En el otro extremo, si H 0 es falsa (y si existen
diferencias reales en las medias), deberíamos esperar que la estadística F calculada
sea sustantivamente mayor que uno, pues el numerador, MSA, estaría estimando
el efecto del tratamiento o la diferencia entre grupos, además de la variabilidad
inherente de los datos, mientras que el denominador, MSW, estaría midiendo sola-
mente la variabilidad inherente. En consecuencia, el procedimiento ANOVA pro-

Prueba F ANOVA de una dirección para diferencias en e medias S 11


duce una prueba F en la cual la hipótesis nula puede ser rechazada a un nivel de
significación a, solamente si la estadística F calculada es lo suficiente grande para
exceder a Fu(c-J,n-c)• el valor crítico de extremo superior de la distribución F, con
e - 1 y n - e grados de libertad, según se ilustra en la figura 14.4 de la página 531.
Los resultados de un procedimiento de análisis de varianza por lo general se pre-
sentan en una tabla de resumen ANOVA, cuyo formato se presenta en la tabla 14.1.
Las entradas de esta tabla incluyen las fuentes de variación (es decir, entre grupos, den-
tro de grupos y total), los grados de libertad, las sumas de cuadrados, los cuadrados
medios (es decir, las varianzas) y la estadística F calculada. Además, el valor p (esto es, la
probabilidad de obtener una estadística F mayor o igual que la alcanzada, dado que la
hipótesis nula es verdadera) se incluye en la tabla ANOVA de la mayoría de los paque-
tes de software estadístico (véase sección 14.6). Esto nos permite llegar directamente a
conclusiones con respecto a la hipótesis nula sin tener que referimos a una tabla de
valores críticos de la distribución F. Si el valor p es menor que el nivel elegido de sig-
nificación, a, la hipótesis nula es rechazada.

Tabla 14.1 Tabla resumen del análisis de varianza.


Grados de Cuadrado
Fuente libertad Sumas de cuadrados medio (varianza) F
e
Entre grupos c-1 SSA = Ln;(X
1=1
1 -X) 2 MSA = SSA
c-1
F = MSA
MSW

e n¡

Dentro de grupos n-c ssw = L L(X;¡


j • l 1=1
-X1>2 MSW = SSW
n-c
e •¡

Total n -.1 SST = L L (X;¡ -X)


/ =1 1 =1
2

14.4. J Aplicación
Para ilustrar la prueba F ANOVA de una dirección, suponga que el gerente de
producción de la planta en que se está empacando cereal en cajas de 368 gramos
está considerando la sustitución de una vieja máquina que afecta directamente el
resultado del proceso de producción. Tres proveedores, competidores entre sí, han
permitido que el gerente de producción utilice su equipo a modo de prueba. Los
precios de adquisición y de los contratos por servicio de las tres marcas de equipo
son esencialmente iguales. Con el propósito de tomar una decisión de compra, el
gerente de producción decide efectuar un experimento para determinar si existen
diferencias significativas entre los tres tipos de máquinas respecto al tiempo prome-
dio (en segundos) que les lleva a los trabajadores de la planta terminar el proceso
de llenado, utilizando cada uno de los equipos. Quince trabajadores de la planta,
con experiencia, habilidad y edad semejantes, fueron asignados para recibir entre-
namiento para operar uno de los tres tipos de equipo, de tal modo que se tienen
cinco obreros por cada máquina. Después de un tiempo adecuado de entre-
namiento y práctica, el gerente de producción mide el tiempo (en segundos) que
les lleva a los trabajadores de la planta efectuar completamente el proceso de lle-
nado, utilizando su respectivo equipo. Los resultados de este experimento se mues-
tran en la tabla 14.2, junto con algunos cálculos sumarios. En la figura 14.5 se
presenta una gráfica de dispersión, de manera que se puedan inspeccionar visual-
mente los datos y ver cómo se distribuyen las mediciones (en segundos) alreded<2_r
de su propia media de grupo, así como alrededor de la media general de grupo X.

532 Capitulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


También obtenemos una visión de cómo cada media de grupo se compara con la
media general. Así pues, al examinar la figura 14.S, tenemos la oportunidad de
observar posibles tendencias o relaciones a lo largo de los grupos, así como obser-
var patrones dentro de los mismos y, lo que es más importante, esto nos permite
considerar cualquier violación potencial en las suposiciones requeridas por un pro-
cedimiento de prueba particular. De ser más grandes los tamat'l.os de muestra de
cada grupo, también se hubieran obtenido representaciones de tallo y hojas y grá-
ficas de caja y sesgos, que proporcionan información visual adicional. 2

Tabla 14.2 Tiempo (en segundos) para realizar


un proceso de llenado utilizando tres
máquinas diferentes.
Máquina
11 IIl
25.40 23.40 20.00
26.31 21.80 22.20
24.10 23.50 19.75
23.74 22.75 20.60
25.10 21.60 20.40
Media x 1 =24.93 Xi= 22.61 X3 = 20.59

26. •

1
X2 .. x
~·-

...
1.: i .· 1

T~
:, '' ~ .
' , ,'.

Figur-a 14.S
.
o~.'-,-,....,...,.~,~...,....,-.~11-+-"--'-1~11~·--
.. ·~ Gráfica de dispersión del tiempo (en
'',''I
.. Máquin~· segundos) para completar una tarea
utilizando diferentes máquinas.
Fuente: Tabla 14.2

Observamos de la tabla 14.2 y de la figura 14.S que existen diferencias en las


medias de muestra para las tres máquinas. En promedio, el proceso de llenado tarda
24.93 segundos en quedar terminado, si se utiliza la máquina I; 22.61 segundos, si
se utiliza la máquina 11; y 20.59 segundos, si se emplea la máquina III. La pregunta
que debe responderse es si estos resultados de muestra son lo suficientemente dife-

Prueba F ANOVA de una dirección para diferencias en e medias 531


rentes para que el gerente de producción decida que los promedios de población no
son todos iguales. ·
La hipótesis nula establece que no existe diferencia entre los grupos respecto
al tiempo medio para llevar a cabo completamente el proceso de llenado. Así pues,
sustituyendo 1, 2, 3 por 1, 11, III tenemos

La hipótesis alternativa establece que existe un efecto de tratamiento; es decir, que al


menos una de las máquinas difiere respecto al tiempo promedio requerido para
completar el proceso de llenado:

H 1 : No todas las medias son iguales

Para establecer la tabla de resumen de ANOVA, primero calculamos las medias


de muestra de cada grupo (véase tabla 14.2 de la página 533); después calculamos
la media general o gran media:

X 25.40 + 26.31 + ... + 23.40 + ... + 20.40


n 15

= 340.65 = 22.71
15

seguida de las sumas de cuadrados:

SSA = Í n; (.X;- x) 2
= (5)(24.93 - 22.71) 2 + (5)(22.61 - 22.71) 2 + (5)(20.59- 22.71) 2
i=l =.(5)(2.22) 2 +(5)(-.10) 2 +(5)(-2.12) 2 .

24.642 + .05 + 22.472


47.164

(25.40 - 24.93) 2 (23.40 - 22.61) 2 (20.00 - 20.59) 2


+ (26.31 - 24.93) 2 + (21.80 - 22.61) 2 + (22.20 - 20.59)2
e n¡
SSW= LL(X;¡-X;)2 = +(24.10 - 24.93) 2 + + (23.50 - 22.61) 2 + + (19.75 - 20.59) 2
j=li=I
+ (23.74 - 24.93) 2 + (22.75 - 22.61) 2 + (20.60 - 20.59) 2
+(25.10 - 24.93) 2 + (21.60 - 22.61) 2 +(20.40 - 20.59) 2

.2209 .6241 .3481


+ 1.9044 + .6561 + 2.5921
+ .6889 + + .7921 + + .7056
+ 1.4161 + .0196 + .0001
+ .0289 + 1.0201 + .0361
11.0532

534 Capitulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


,,, l
(25.40 - 22.71) 2 (23.40 - 22.71) 2 (20.00 - 22.71) 2
+ (26.31 - 7.2.71) 2 + (21.80 - 22. 71) 2 + (22.20 - 22.71) 2
e n¡ = 2
SST= LL(X;¡ -X) = + (24.10 - 22.71) 2 + + (23.50 - 22.71) 2 + +(19.75 - 22.71) 2
; = 11=1
+ (23.74 - 22.71) 2 + (22.75 - 22. 71) 2 + (20.60 - 22.71) 2
+ (25.10 - 22.71) 2 + (21.60 - 22.71) 2 + (20.40 - 22.71) 2

7.2361 .4761 7.3441


+ 12.9600 + .8281 + .2601
= + 1.9321 + + .6241 + + 8.7616
+ 1.0609 + .0016 + 4.4521
+ 5.7121 + 1.2321 + 5.3361
= 58.2172

Los respectivos términos cuadráticos medios se obtienen dividiendo estas sumas de cuadrados
entre sus correspondientes grados de libertad. Como e= 3 y n = 15, tenemos

MSA = SSA = 47.164 = 47.164 = 23 .582


c-l 3-1 2
MSW = SSW = 11.0532 = 11.0532 = 0. 9211
n- e 15 - 3 12
de modo que, utilizando la ecuación (14.1) para probar H0 , obtenemos

F = MSA = 23.582 = 25 .60


MSW 0.9211

Si se elige un nivel de significación de O.OS, el valor crítico de la estadística F se obtendría de la


tabla E.5, de la cual presentamos una réplica en la tabla 14.3 (en la página 536). Los valores que
se encuentran en el cuerpo de esta tabla se refieren a puntos porcentuales de extremo superior
seleccionados de la distribución F. En nuestro estudio de productividad, dado que existen dos
grados de libertad en el numerador del cociente F y 12 grados de libertad en el denominador,

Figura 14.6
Regiones de rechazo y de no rechazo
para el análisis de varianza al nivel de
significación de O.OS, con 2 y 12 grados
de libertad.

Prueba F ANOVA de una dirección para diferencias en e medias 535


Tabla 14.3 Obtención del valor crítico de F con 2 y 12 grados de libertad, al nivel de .OS.
Numerador, df1
Denominador,
dfz 1 2 3 4 5 6 7 8 9 10 12

5 6.61 5. 9 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68
6 5.99 5. 4 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00
7 5.59 4. 4 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57
8 5.32 4. 6 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28
9 5.12 4. 6 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07
10 4.96 4. o 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91
11 4.84 3. 8 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79
)
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53
Fuente: Tornado de la tabla E.5.

el valor crítico de F al nivel de significación de .05, es de 3.89. Debido a que nues-


tra estadística de prueba calculada F = 25.60 es mayor que este valor crítico, la
hipótesis nula puede ser rechazada (véase figura 14.6 de la página 535). El gerente
de producción puede llegar a la conclusión de que existe una diferencia significa-
tiva en el tiempo promedio requerido para terminar el proceso de llenado en las
tres máquinas.
La correspondiente tabla de resumen ANOVA se presenta en la tabla 14.4 y
contiene el valor p exacto para el valor calculado de F, obtenido con el paquete de
software MINITAB (véase referencia 10). Observe que el valor p o la probabilidad
de obtener una estadística F de 25.60 o mayor cuando la hipótesis nula es ver-
dadera es de .000. Puesto que este valor p es menor que el valor especificado de a,
.05, la hipótesis nula es rechazada.

.
T a bl a 14 4 Tia bl a d e anaT.
1s1s d e varianza para e estu d"10 de pro d uct1v1
. "d a d .
Grados de Cuadrado medio
Fuente libertad Sumas de cuadros (varianza) F Valor p
Entre grupos (máquina) 3 - 1= 2 47.1640 23.5820 25.60 .ooo·
Dentro grupos (máquina) 15 - 3 = 12 11.0532 .9211
Total 15 - 1=14 58.2172

14.4.4 Reflexión
Revisemos lo que acabamos de desarrollar. De la tabla 14.2 y de la figura 14.5 obser-
vamos que había diferencias entre las tres medias de muestra. Bajo la hipótesis nula
de que las medias de población de los tres grupos se suponen iguales, se obtuvo una
medida de la variación total (o SIT) entre todos los trabajadores sumando las
diferencias al cuadrado entre cada observación y la media general, 22.71, basán-
donos en todas las observaciones. La variación total se subdividió entonces en dos
componentes separadas (véase figura 14.1 de la página 528), una parte consistente
en la variación entre los grupos y la otra en la variación dentro de los grupos.

536 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


¿Por qué existe variación entre los valores? es decir, ¿por qué las observaciones no
son iguales? Una razón es que al tratar a las personas de manera diferente (en este caso
dándoles a utilizar máquinas diferentes) afectamos su productividad. Esto explicaría
parte de la razón por la cual los grupos tienen medias diferentes: cuanto más grande
sea el efecto del tratamiento, mayor será la variación que encontraremos en las
medias de los grupos. Pero existe otra razón para la variabilidad en los resultados: que
las personas son naturalmente variables, ya sea que los tratemos de la misma manera
o no. Así que, incluso dentro de un grupo particular en el que todos reciben el mismo
trato (es decir, la misma máquina) tendremos variabilidad. Debido a que se presenta
dentro de cada grupo, se le conoce como variación dentro de grupos (o SSW).
Las diferencias entre las medias de los grupos se conocen como variación entre
grupos (o SSA). Parte de la variación entre grupos, como lo observamos anterior-
mente, se debe al efecto de estar en grupos diferentes. Pero, incluso si no existiera un
efecto real por estar en grupos diferentes (es decir, la hipótesis nula es verdadera),
habrá posibilidad de diferencias entre las medias de los grupos. Esto es así debido a
que la variabilidad entre los trabajadores hará que las medias de muestra sean diferen-
tes simplemente porque tenemos muestras diferentes. Por consiguiente, si la hipóte-
sis nula es verdadera, entonces la variación entre grupos estimará la variabilidad de la
población, así como la variación dentro de los grupos. Pero si la hipótesis nula es falsa,
entonces la variación entre grupos será mayor. Este hecho forma la base de la prueba
F ANOVA de una dirección de las diferencias en las medias de los grupos.
Revisemos lo que acabamos de lograr. De nuevo, de la tabla 14.2, y la figura 14.5
en la página 533, observamos que existen diferencias entre las tres medias de mues-
tra. Utilizando la prueba F ANOVA de una dirección, el gerente de producción
encuentra evidencia suficiente para llegar a la conclusión de que existe un efecto de
tratamiento significativo en los niveles (o grupos) del factor de interés, las marcas de
las máquinas. Esto es, existe evidencia de que las medias de población difieren res-
pecto al tiempo requerido para llevar a cabo el proceso de llenado.
Sin embargo, lo que todavía no sabemos es qué máquina o máquinas difieren
de las otras. Todo lo que sabemos es que existe evidencia suficiente para establecer
que las medias de población no son todas iguales; es decir, al menos una o alguna
combinación de ellas es significativamente diferente. Para determinar exactamente
qué máquina o máquinas son diferentes, realizaremos todas las comparaciones de
pares posibles entre las máquinas, y utilizaremos un procedimiento desarrollado
por John Tukey (y modificado posteriormente, de manera independiente, por Tukey
y C. Y. Kramer, para situaciones en las que los tamaños de muestra son diferentes)
para llegar a nuestras conclusiones. (Véanse referencias 6, 7 y 14.)

14.4.5 Comparaciones múltiples: el procedimiento


de Tukey Kramer
En el estudio de productividad analizado hasta este momento en el presente capí-
tulo, el ai;iálisis de varianza se utiliza para determinar si existe una diferencia entre
varios grupos respecto al tiempo promedio para llevar a cabo una tarea. Ya que se
han encontrado las diferencias en las medias de los grupos, es importante que
determinemos qué grupos en particular son diferentes.
A pesar de que se tienen a disposición muchos procedimientos (véanse referen-
cias 6 y 9), enfocaremos nuestra atención en el procedimiento de Tukey-Kramer,
con el fin de determinar cuáles de las e medias son significativamente diferentes de
las otras. Este método es un ejemplo de un procedimiento de comparación post hoc
(o a posteriori), pues las hipótesis de interés son formuladas después de que los
datos han sido inspeccionados.
El procedimiento de Tukey-Kramer nos permite examinar simultáneamente
comparaciones entre todo~los pares de grupos. El primer paso implicado consiste
*
en calcular las diferencias X; -Xr (con j j) entre los c(c- 1)/2 pares de medias. El
alcance crítico para el procedimiento de Tukey-Kramer se obtiene entonces de
la cantidad dada en la ecuación (14.6) de la página 538.

Prueba F ANOVA de una dirección para diferencias en e medias 537


·· · · ·. ·afta~~e ~r~tic0 = Quc,,n-c.) . MSW.,(-1+ ·~)··
'1.,·' .J .. • · •• · ·· · 2 n¡ · ni'.

Si los tamaños de muestra difieren, se calcularía un alcance crítico para cada com-
paración por pareja de las medias de muestra. El paso final consiste en comparar
cada uno de los c(c - 1)/2 pares de medias respecto a su correspondiente alcance
crítico. Un par específico sería declarado significativamente diferente, si la diferen-
cia absoluta en las medias de muestra 1X¡ - Xr 1 es mayor que el alcance crítico.
Para aplicar el procedimiento de Tukey-Kramer, regresemos al estudio sobre
productividad. Utilizando el procedimiento ANOVA, llegamos a la conclusión de
que había una diferencia en el tiempo promedio necesario para terminar una tarea
con el uso de tres máquinas diferentes. Puesto que existen tres grupos, hay
(3)(3 -1)/2 = 3 posibles comparaciones de pareja que se tienen que tomar en cuenta.
De la tabla 14.2 de la página 533 las diferencias medias absolutas son
1. lx1 -x 2 1=124.93 - 22.611=2.32.
2. lx 1 - x 3 1= 124.93 - 20.591 = 4.34.
3. IX 2 - x 3 1=122.61 - 20.591=2.02.

En este caso, solamente se necesita obtener un alcance crítico porque los tres gru-
pos tienen muestras del mismo tamaño. Para determinar el alcance crítico, de la
tabla 14.4 de la página 536, tenemos MSW = 0.9211 y n¡ =S. De la tabla E.12, para
a= O.OS, e= 3 y n - e= 15 - 3 = 12, el valor crítico de extremo superior de Qu(3, 12)
es 3.77 (véase la tabla 14.5). De la ecuación (14.6), tenemos

alcance crítico= 3.77 (' 9 ~11 )( ~ + ~) = 1.618

Puesto que 2.32 > 1.618, 4.34 > 1.618 y 2.02 > 1.618, podemos concluir que ésta es
una diferencia importante entre cada par de medias. De aquí que la producción
representó utilidades para la máquina III, porque el tiempo promedio para com-
pletar la tarea fue el más breve.

Tabla 14. S Obtención de la estadística Q de alcance estudentizado para a = .OS, con 3 y 12 grados de libertad.
Grados de Grados de libertad del numerador
libertad del
denominador 2 • 4 5 6 7 8 9 10 11 12 13 14 15 16
1 18.0 32.8 37.1 40.4 43.1 45.4 47.4 49.1 50.6 52.0 53.2 54.3 55.4 56.3
2 6.09 9.8 10.9 11.7 12.4 13.0 13.5 14.0 14.4 14.7 15.1 15.4 15.7 15.9
3 4.50 6.82 7.50 8.04 8.48 8.85 9.18 9.46 9.72 9.95 10.15 10.35 10.52 10.69


11 3.11 .82 4.26 4.57 4.82 5.03 5.20 5.35 5.49 5.61 5.71 5.81 5.90 5.99 6.06
3.08) - 4.20 4.51 4.75 4.95 5.12 5.27 5.40 5.51 5.62 5.71 5.80 5.88 5.95
13 3.06 3.73 4.15 4.45 4.69 4.88 5.05 5.19 5.32 5.43 5.53 5.63 5.71 5.79 5.86
14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 5.13 5.25 5.36 5.46 5.55 5.64 5.72 5.79
Fuente: Tomada de la tabla E.12.

na Capítulo 14 ANOVA y otras pruebas de c muestras con datos numéricos


14.4.6 Premisas ANOVA
En nuestro estudio de productividad parece que el análisis está completo. ¿Es cierto?
Además de nuestras investigaciones exploratorias de la figura 14.5 de la página 533,
todavía no hemos evaluado completamente las premisas que subyacen en la prueba F
de una dirección. ¿Cómo puede el gerente de producción saber si la prueba F de una
dirección fue el procedimiento adecuado para analizar sus datos experimentales?
En los capítulos 12 y 13 mencionamos las premisas hechas en la aplicación de cada
procedimiento de prueba de hipótesis y las consecuencias a las violaciones de tales
premisas. Para emplear la prueba F ANOVA de una dirección, también debemos hacer
ciertas premisas respecto a los datos que se están investigando. En el análisis de varianza
se tienen tres suposiciones principales:
l. Aleatoriedad e independencia de errores.
2. Normalidad.
3. Homogeneidad de varianzas.
La primera premisa, aleatoriedad e independencia de errores, debe
cumplirse para todos los procedimientos analizados en el presente capítulo, no sola-
mente para aquellos que tratan con ANOVA, pues la validez de un experimento
depende del muestreo aleatorio y/o del proceso de aleatorización. Para evitar ten-
dencias en los resultados, es esencial que se considere que los datos sean obtenidos de
manera aleatoria e independiente de las e poblaciones, o que los elementos o sujetos
sean asignados aleatoriamente a los e niveles del factor de interés (es decir, los grupos
de tratamiento). Por consiguiente, la premisa de aleatoriedad e independencia no
sólo se refiere a errores fortuitos, sino también a la diferencia de cada valor observado
respecto a la media de su propio grupo. La premisa es que tales diferencias deben ser
independientes de cada valor observado. Esto es, la diferencia (o error) de una obser-
vación no debería estar relacionada con la diferencia (o error) de cualquier otra
observación. Esta premisa podría ser violada, por ejemplo, en nuestro estudio de pro-
ductividad, si uno de los trabajadores ayuda a otro a terminar el proceso de llenado.
La premisa se violaría también si dos de los trabajadores de un grupo fueran gemelos
idénticos: es probable que su comportamiento sea más parecido entre sí que el com-
portamiento de cualesquiera otros dos individuos del estudio. Más a menudo, sin
embargo, esta premisa es violada cuando los datos son recabados en un cierto perio-
do, pues las observaciones hechas en puntos adyacentes del tiempo pueden ser más
parecidas que las que se hicieron en tiempos muy diferentes. Por ejemplo, considere
la temperatura registrada diariamente durante un mes. Es más probable que la tem-
peratura de un día esté más cercana a la del día anterior, pero es menos probable que
esté cercana a la temperatura registrada varias semanas después.
De nuevo, las desviaciones de esta premisa pueden afectar seriamente las
inferencias del análisis de varianza. Estos problemas son analizados con más
detalle en las referencias 1 y 6.
La segunda premisa, sobre normalidad, establece que los valores de cada
grupo están distribuidos de manera normal. Al igual que en el caso de la prueba t,
la prueba F ANOVA de una dirección es bastante robusta respecto a las desviaciones
de la distribución normal; esto es, siempre y cuando las distribuciones no sean
extremadamente diferentes de una distribución normal, el nivel de significación
de la prueba de análisis de varianza, por lo general, no se ve muy afectado por la
falta de normalidad, particularmente en muestras grandes.
Sólo cuando, la premisa de normalidad es violada seriamente, se tienen dispo-
nibles alternativas libres de distribución a la prueba F ANOVA de una dirección
(véase sección 14.5). La tercera premisa, homogeneidad de varianzas, establece
que la varianza dentro de cada población debería ser igual para todas las pobla-
ciones (esto es, cri = ~ = ... = cr'f). Esta suposición es necesaria con el fin de com-
binar o agrupar las varianzas en una sola fuente de variación dentro de grupos,

Prueba F ANOVA de una dirección para diferencias en e medias 539


SSW. Si se tienen tamaños de muestra iguales en cada grupo, las inferencias basadas
en la distribución F tal vez no son afectadas seriamente por varianzas desiguales.
Sin embargo, si existen tamaños de muestra desiguales en grupos diferentes, las va-
rianzas distintas de un grupo a otro pueden tener serios efectos en las inferencias
obtenidas del análisis de varianza. Así pues, desde la perspectiva de la sencillez
computacional, la robustez y la potencia, debería haber tamaños de muestra iguales
en todos los grupos, siempre que sea posible.
Cuando solamente se viola la premisa de homogeneidad de las varianzas, se
tienen disponibles procedimientos parecidos a los utilizados en la prueba t' de va-
rianzas separadas de la sección 13.4 (véase referencia 1). Sin embargo, si se violan
las premisa de normalidad y de homogeneidad de varianzas, se puede utilizar una
transformación de datos apropiada que normalizará los datos y reducirá las diferen-
cias en las varianzas (véanse referencias 1 y 11) o, de manera alternativa, se puede
emplear un procedimiento no paramétrico más general (véanse referencias 2 y 3).

1 4.4. 7 Prueba Fmáx de Hartley para la homogeneidad


de varianzas
A pesar de que la prueba F ANOVA de una dirección es relativamente robusta
respecto a la premisa de varianzas de grupo iguales, grandes desviaciones de esta
suposición pueden afectar seriamente el nivel y la potencia de la prueba. Por con-
siguiente, se han desarrollado varios procedimientos para probar de manera más
formal la suposición de homogeneidad de varianzas. Tal vez el más simple y el
mejor conocido sea el procedimiento Fmrix de Hartley (véase referencia 1). Para pro-
bar la hipótesis nula de igualdad de las e varianzas de población

compare con la alternativa

f
H 1: No todas las cr son iguales (j = 1, 2, ... , e)

obtenemos la siguiente estadística de prueba Fmáx de la distribución Fmrix de Hartley


con e y (n - 1) grados de libertad:

s;uh (14.7)
S,~í11

donde s,;,,;, = muestra de varianza mayor


S,~,,, = muestra de varianza menor
e
2,n;
n = .!.._:_!___ = !!_ (sólo se utiliza la porción entera de este valor)
e e
Usando un nivel de significación, a, la hipótesis nula de la igualdad de varian-
zas de grupo será rechazada solamente cuando la estadística Fmáx calculada sea
mayor que el valor crítico de extremo superior de la distribución F 111 áx de Hartley,
basada en e y (n - 1) grados de libertad (véase tabla E.8, de la cual la tabla 14.6 es
una réplica). Esto es,

540 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Rechazar H 0 si Fmáx > F111 áx [(e, (il-1)];
en cualquier otro caso no rechazar H 0 .

Con el propósito de ilustrar el procedimiento Fmáx de Hartley, regresemos a los


datos correspondientes a estudio de productividad, que se presentan en Ja tabla
14.2 de la página 533. Utilizando la ecuación (4.6) de Ja página 120, podemos
calcular las varianzas de muestra de Jos tres grupos de la manera siguiente:

s1 = i.o6s, s~ = .778, s~ = .921

Puesto que cada grupo contiene una muestra de tamaño 5, n = (5 + 5 + 5)/3 = 5 y,


al probar la hipótesis nula

contra la hipótesis alternativa


H 1: No todas las a 7son iguales (j = 1, 2, 3)

la estadística Fmáx se calcula a partir de la ecuación (14. 7) como

F = 1.065 = 1.369
llllÍX .778

Si se selecciona el nivel de significación de O.OS, la regla de decisión sería re-


chazar H 0 si Fmáx > Fmáx[ 3 ,4i = 15.5 (véase tabla 14.6). En nuestro estudio sobre pro-
ductividad, como Frnax = 1.369 < Fmax[ 3 ,4 J = 15.5, no rechazaríamos H 0 y llegaríamos
a la conclusión de que no existe evidencia de una diferencia en las varianzas de los
tres grupos.
Aunque la prueba Fmáx es sencilla de utilizar, desafortunadamente no es robusta.
Es en extremo sensible a desviaciones de la normalidad en los datos. Así pues, en
situaciones en donde somos incapaces de suponer la normalidad de cada grupo
deberían aplicarse otros procedimientos alternativos (veánse referencias 2 y 3).

Tabla 14.6 Obtención del valor crítico de Fmáx con 3 y 4 grados de libertad, al
nivel de significación de .05.

Puntos 5% superior (a= .05)


n-1 \e 2 3 4 5 6 7 8 9

2
3
39.0
15.4
87~
27.
142
39.2
202
50.7
266
62.0
333
72.9
403
83.5
475
93.9
4 9.60 -7 15.5 20.6 25.2 29.5 33.6 37.5 41.1
5 7.15 10.8 13.7 16.3 18.7 20.8 22.9 24.7
6 5.82 8.38 10.4 12.1 13.7 15.0 16.3 17.5
Fuente: Tomada de la tabla E.8.

Problemas de la sección 14.4


V 14.1 Explique la diferencia entre la varianza entre grupos MSA y la varianza dentro
de grupos MSW.

Prueba F ANOYA de una dirección para diferencias en e medias S4 I


' 14.2 ¿De qué manera difiere la prueba F ANOVA de una dirección de la prueba de
las diferencias de dos varianzas de la sección 13.6?
' 14.3 Compare y contraste las premisas de la prueba F ANOVA de una dirección con
las suposiciones de la prueba t para la diferencia entre las medias de dos pobla-
ciones. Discuta ampliamente su respuesta.
Explique cómo los métodos gráficos de los capítulos 3 y 4 podrían ser utiliza-
' 14.4 dos para evaluar la validez de las premisas del análisis de varianza.
e 14.S El gerente de personal de una compañía de seguros grande desea evaluar la
efectividad de cuatro programas de entrenamiento de ventas diseñados para
los nuevos empleados. Un grupo de 32 graduados universitarios contratados
recientemente fueron asignados aleatoriamente a los cuatro programas, de
modo que se tenían ocho sujetos en cada programa. Al final del periodo de
entrenamiento de un mes, se les aplicó a los 32 sujetos un examen estándar;
los resultados se presentan a continuación:

Programas
A B e D
66 72 61 63
74 51 60 61
82 59 57 76
75 62 60 84
73 74 81 58
97 64 55 65
87 78 70 69
78 63 71 80

(a) Construya una gráfica o un diagrama apropiado de los datos.


(b) Describa cualquier tendencia o relación que pueda ser evidente dentro de
los grupos o entre ellos.
(c) ¿La variación dentro de los grupos parece ser similar para todos los gru-
pos? Explique su respuesta.
(d) Al nivel de significación a.= .05, utilice la prueba Fmáx de Hartley para pro-
bar la premisa de homogeneidad de las varianzas.
(e) Basándose en los resultados obtenidos en el inciso (d), ¿puede continuar
con la aplicación de una prueba F ANOVA de una dirección para las
diferencias en las medias de población o es necesario llevar a cabo una
transformación de datos? Explique su respuesta.
(f) Si las condiciones son apropiadas, en el nivel de significación a. =.OS,
utilice la prueba F de una dirección para determinar si existe evidencia de
una diferencia en los cuatro programas de entrenamiento en ventas.
(g) Basándose en los resultados obtenidos en el inciso (f), si es adecuado, utili-
ce el procedimiento de Tukey-Kramer para hacer todas las comparaciones
por pares de los programas de entrenamiento. (Utilice un nivel general de
significación de O.OS.)
(h) t.y;¡¡;¡¡,z.t,)- Prepare un resumen ejecutivo que el gerente de personal
pueda enviar al vicepresidente de operaciones de su compañía.
14.6 Un investigador médico decidió comparar varios medicamentos para dormir
que se venden sin presentar receta. Algunas personas que tienen problemas
para dormir acudieron al laboratorio de sueños del investigador y fueron asig-
nados de manera aleatoria para tomar un medicamento inocuo (una píldora
sin ingredientes activos), o las píldoras para dormir Noche Oscura, Duerma
Bien y Mr. Sandman. El número de horas que cada sujeto durmió están dadas
en la tabla siguiente:

542 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Inocuo: 2, 4, 3, 5, 2, 4, 3
Noche obscura: 3, 4, 5, 3, 5, 4, 6, 5
Dormite: 6, 5, 7, 4, 8, 6
Mr. Sandman: 5, 4, 7, 5, 8, 6, 7

(a) Construya una gráfica o un diagrama apropiado de los datos.


(b) Describa cualquier tendencia o relación que pueda ser evidente dentro de
los grupos o entre ellos.
(c) ¿La variación dentro de los grupos parece ser similar para todos los
grupos? Explique su respuesta.
(d) AJ nivel de significación a.= .05, utilice Ja prueba Fmax de Hartley para
probar Ja premisa de homogeneidad de las varianzas.
(e) Basándose en los resultados obtenidos en el inciso (d), ¿puede continuar
con la aplicación de una prueba F ANOVA de una dirección para las
diferencias en las medias de población o es necesario llevar a cabo una
transformación de datos? Explique su respuesta.
(f) Si las condiciones son apropiadas, al nivel de significación a = .OS, utilice
la prueba F de una dirección para determinar si existe evidencia de una
diferencia entre los medicamentos para dormir.
(g) Basándose en los resultados obtenidos en el inciso (f), si es adecuado,
utilice el procedimiento de Tukey-Kramer para hacer todas las
comparaciones por pares de los medicamentos. (Utilice un nivel general
de significación de O.OS.)
(h) Comente sobre la precisión de las mediciones hechas en este
experimento.
(i) e.1;¡¡91,7,¡,)> Escriba un borrador de un artículo que el investigador médico
pueda enviar al editor de la columna de salud de su periódico local.
14.7 Suponga que el superintendente asistente para asuntos curriculares desea eva-
luar tres conjuntos alternativos de materiales de matemáticas, de modo que un
conjunto pueda ser elegido para que el distrito escolar entero lo adquiera. Una
maestra de tercer grado del distrito se ofreció como voluntario para realizar Ja
comparación. Los 24 estudiantes de su clase tienen habilidades académicas
homogéneas; se les va a dividir aleatoriamente en tres grupos, con 7, 9 y 8
estudiantes cada uno. Al primer grupo se le asigna el conjunto l, al segundo
grupo se le asigna el conjunto II y al tercero el conjunto III.
Al final del año los 24 estudiantes son sometidos al mismo examen de
matemáticas. Los resultados, en una escala de cero a cien (bajo~alto) se mues-
tran a continuación:

Conjunto de materiales
II III

87 58 81
80 63 62
74 64 70
82 75 64
74 70 70
81 73 72
97 80 92
62 63
71

Prueba F ANOVA de una dirección para diferencias en e medias 543


Basándose en estos resultados, al superintendente asistente le gustaría saber
si existe alguna diferencia entre los conjuntos respecto a los resultados logrados
y, si es así, qué conjunto o conjuntos es superior o superiores a los otros.
(a) Analice completamente los datos. (Utilice ex = .05.)
(b) t.t;iM·i·f•> Escriba un informe que la maestra de tercer año pueda enviar
al superintendente asistente.
e 14.8 Un ingeniero metalúrgico probó en cinco diferentes aleaciones la resistencia
tensil. Probó varias muestras de cada aleación; la resistencia tensil de cada una
fue

Aleación 1: 12.4, 19.8, 15.2, 14.8, 18.5


Aleación 2: 8.9, 11.6, 10.0, 10.3
Aleación 3: 10.5, 13.8, 12.1, 11.9, 12.6
Aleación 4: 12.8, 14.2, 15.9, 14.l
Aleación 5: 16.4, 15.9, 17.8, 20.3

Al ingeniero le gustaría saber si existe evidencia de una diferencia en la


resistencia tensil de las diferentes aleaciones y, si esto es así, qué aleaciones son
significativamente más resistentes que las otras.
(a) Analice completamente los datos. (Utilice el nivel ex= .05.)
(b) t.1;¡¡¡91.t.f•> Describa los resultados al ingeniero metalurgista en un
memorándum.
14.9 Un profesor de estadística desea estudiar cuatro diferentes estrategias para
jugar el juego de cartas Blackjack (Veintiuno). Las cuatro estrategias son:

l. Estrategia del líder.


2. Estrategia de cuenta cinco.
3. Estrategia de cuenta diez básica.
4. Estrategia de cuenta diez avanzada.
Se utilizó una calculadora que puede jugar Veintiuno y los datos de las cinco
sesiones de cada estrategia se registraron. Las ganancias (o pérdidas) de cada
sesión fueron:

Estrategia
Cuenta diez Cuenta diez
Repartidor Cuenta cinco básica avanzada
- $56 - $26 + $16 + $60
- $78 - $12 +$20 + $40
- $20 + $18 - $14 - $16
- $46 - $ 8 +$ 6 + $12
- $60 - $16 - $25 +$ 4

El profesor desea saber si existe evidencia de una diferencia entre las cuatro
estrategias y, si esto es así, qué estrategias son superiores respecto a su rentabi-
lidad potencial.
(a) Analice completamente los datos. (Utilice el nivel a= .01.)
(b) f.fiJd'Ji•i·f•> Escriba una carta al profesor en la que explique sus hallazgos.

Problemas intercapítulo de la sección 14.4


14.10 En el problema 13.11 de la página 472, usted utilizó una prueba tpara comparar
los gastos escolares en las escuelas preparatorias en el noreste y en el medio oeste
estadounidense. (Los datos se tomaron del problema 4.80 de la página 163.)

544 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


(a) Efectúe una prueba F ANOVA sobre este conjunto de datos. (Utilice el
nivel a= .01.)
(b) Eleve al cuadrado el valor de t calculado en el problema 13.11; observe
que este valor es el mismo (excepto por errores de redondeo) que el valor
F. Exprese con sus propias palabras la relación entre t y F.
14.11 En el problema 13.12 de la página 472, usted utilizó una prueba tpara comparar el
costo de los champues destinados a cabello fino respecto a los destinados a cabello
normal. (Los datos son tomados del problema 3.9 de la página 62.)
(a) Efectúe una prueba F ANOVA sobre este conjunto de datos. (Utilice el
nivel a= 0.05.)
(b) Eleve al cuadrado el valor de t calculado en el problema 13.12; observe
que este valor es el mismo (excepto por errores de redondeo) que el valor
F. Exprese con sus palabras la relación entre t y F.

11 HJ Prueba de rangos de Kruskal-Wallis para


diferencias en e medianas

14.S. I Introducción
La prueba de rangos de Kruskal-Wallis para la diferencias en e medianas (en
la que e > 2) puede ser considerada como una extensión de la suma de rangos de
Wilcoxon para dos muestras independientes analizadas en la sección 13.5. Así pues
la prueba de Kruskal-Wallis posee las mismas propiedades de potencia con relación
a la prueba F ANOVA de una dirección que la prueba de suma de rangos de Wilcoxon
respecto a la prueba t para dos variables independientes (sección 13.3). Esto significa
que, el procedimiento de Kruskal-Wallis ha resultado ser casi tan poderoso que la
prueba F en condiciones apropiadas a esta última, e incluso más poderoso que el
procedimiento clásico cuando sus premisas (véase sección 14.4.6) son violadas.

1 4. S •.2 Desarrollo
La prueba de rangos de Kruskal-Wallis se utiliza más a menudo para probar e gru-
pos de muestra independientes que han sido tomados de poblaciones que poseen
medianas iguales. Esto es, podemos probar

H0 : M1 = M2 = · · · = M,
contra la hipótesis alternativa
H 1: No todas las M¡ son iguales (donde j = 1, 2, ... ,e).

Para tales situaciones es necesario suponer que


l. Las e muestras son tomadas de manera aleatoria e independiente de
sus respectivas poblaciones.
2. El fenómeno aleatorio subyacente de interés es continuo (para evitar
empates).
3. Los datos observados constituyen al menos una escala ordinal de
medición, tanto dentro de las e muestras como entre éstas.
4. Las e poblaciones tienen la misma variabilidad.
5. Las e poblaciones tienen la misma forma.

Prueba de rangos de Kruskal-Wallis para diferencias en e medianas 545


Resulta interesante observar que el procedimiento de Kruskal-Wallis aún tiene
menos premisas limitantes que la prueba F. Para emplear el procedimiento, las
mediciones sólo necesitan ser ordinales en todos los grupos de muestra, y las dis-
tribuciones de población comunes solamente necesitan ser continuas: sus formas
comunes son irrelevantes. Por otro lado, para utilizar la prueba F clásica, el nivel
de medición debe ser más sofisticado, y debemos suponer que las e muestras
vienen de poblaciones normales con igual varianza.
Para llevar a cabo la prueba de rangos de Kruskal-Wallis primero debemos (si
es necesario) sustituir las observaciones de las e muestras con sus rangos combina-
dos de tal modo que el rango 1 sea asignado a la menor de las observaciones com-
binadas y el rango na la mayor de las observaciones combinadas (donde n = n 1 +
n 2 + ... +ne)· Si cualesquiera valores están empatados, se les asigna el promedio de
los rangos que tendrían asignados si no se hubieran presentado empates en los
datos.
La estadística de prueba H de Kruskal-Wallis puede calcularse con

H =[
12
I-'
e
n(n + 1) ¡ ~ 1 n¡
l
r: - 3(n + 1) (14.8)

en la que
n es el número total de observaciones sobre las muestras combinadas, es
decir, n = n 1 + n2 + ... + n,
n¡ es el número de observaciones de la j-ésima muestra; j = 1, 2, ... , e
T¡ es la suma de los rangos asignados a la j-ésima muestra
T¡2 es el cuadrado de la suma de los rangos asignados a la j-ésima muestra
A medida que los tamaños de muestra de cada grupo se hacen grandes (mayo-
res que cinco), la estadística de prueba H puede ser aproximada por la distribución
chi-cuadrada con e - 1 grados de libertad. Así pues, para cualquier nivel elegido de
significación a, la regla de decisión sería rechazar la hipótesis nula si el valor calcu-
lado de Hes mayor que el valor crítico, X2, y no rechazar la hipótesis nula si Hes
menor o igual que el valor crítico X2 (véase figura 14.7). Es decir de extremo supe-
rior (véase figura 14.7). Esto es

Rechace H 0 si H > Xu(c-1);


En cualquier otro caso no rechace H0

Los valores críticos X2 se especifican en la tabla E.4.

o x~c-1)
Figura 14.7
Determinación de la región de
rechazo.

S46 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


14.5.3 Aplicación
Para ilustrar la prueba de rangos de Kruskal-Wallis en cuanto a la diferencia de e
medianas, regresemos a nuestro estudio de productividad de la sección anterior.
Podemos recordar que el gerente de producción de la planta donde se empaca
cereal en cajas con un contenido de 368 gramos ha estado considerando la susti-
tuci€:m de una máquina vieja que afecta directamente los resultados del proceso de
producción, y ha efectuado un experimento para determinar si existe alguna dife-
rencia significativa entre los tres tipos de máquina respecto al tiempo promedio
(en segundos) que les lleva a los trabajadores de la fábrica efectuar completamente
el proceso de llenado con ellas. Quince obreros de experiencia, habilidad y edad
parecidas fueron asignados aleatoriamente a fin de recibir entrenamiento para operar
uno de los tres tipos de máquina, de tal modo que se tienen cinco trabajadores para
cada tipo de máquina. Después de un tiempo adecuado de entrenamiento y práctica,
el gerente de producción midió el tiempo (en segundos) que les lleva a los trabaja-
dores entrenados terminar el proceso de llenado utilizando su equipo respectivo. Los
resultados de este experimento se presentan en la tabla 14.2 de la página 533, junto
con algunos cálculos sumarios y una gráfica de dispersión que se muestra en la
figura 14.5 de la página 533, de modo que se puede hacer una evaluación visual y
exploratoria de las tendencias potenciales, relaciones y violaciones de las suposi-
ciones de los procedimientos de prueba particulares. Si el gerente de producción
no desea hacer la suposición de que las mediciones de tiempo (en segundos) están
distribuidas de manera normal en las poblaciones subyacentes, se puede utilizar el
procedimiento libre de distribución conocido como prueba de rangos de Kruskal-
Wallis para las diferencias en las tres medianas de población.
La hipótesis nula que se va a probar es que las medianas de los tiempos nece-
sarios para llevar a cabo el proceso de llenado con las tres máquinas son iguales.
Así pues, sustituyendo 1, 2 y 3 en lugar de I, II y III, tenemos:
H 0 : M 1 =M2 =M3
H 1 : No todas las medianas son iguales

Al convertir las quince mediciones de tiempo de la tabla 14.2 (página 533) a


rangos, obtenemos la tabla 14.7.

Tabla 14.7 Conversión de


datos a rangos.
Máquina
II III

14 9 2
15 6 7
12 10 1
11 8 4
13 5 3
F!lente:Datos tomados de la tabla 14.2
de la página 533.

Observamos que en proceso de asignación de rangos de manera combinada, el ter-


cer empleado asignado a la máquina III llevó a cabo el proceso de llenado con
mayor rapidez y recibió un rango de l. El primer empleado asignado a la máquina
III fue el siguiente más rápido y recibió un rango de 2. El segundo trabajador asig-
nado a la máquina 1 terminó el proceso de llenado en el mayor tiempo y recibió
un rango de 15.

Prueba de rangos de Kruskal-Wallis para diferencias en e medianas 547


Después de que los rangos fueron asignados, entonces obtenemos la suma de
los rangos de cada grupo:
Suma de rangos: T1 = 65 T2 = 38 T3 = 17

Como una verificación de la asignación correcta de los rangos tenemos

n(n + 1)
T1 + T2 + T3 = --'----
2

65 + 38 + 17 = (l 5 )(l 6 )
2
120 = 120

Si escogemos un nivel de significación de 0.05, para probar la hipótesis nula de


iguales medianas de población utilizamos la ecuación (14.8):

H =[ 12 ~ TI]- 3(n + ·1)


n(n + 1) ¡~ n¡

= { 12 [(65) 2 + (38) 2 + (17) 2 ]}- 3(16)


(15)(16) 5 5 5

= (_g__)[1,
240
191.6] - 48

= 59.58 - 48 = 11.58

Utilizando la tabla E.4, el valor crítico x2 de extremo superior, con e - 1 = 2 grados


de libertad, y correspondiente a un nivel de significación de .05 es de 5.991 (véase
tabla 14.8, que es una réplica de la tabla E.4). Puesto que el valor calculado de la
estadística de prueba Hes mayor que el valor crítico, podemos rechazar la hipóte-
sis nula y llegar a la conclusión de que no todas las máquinas se comportaron igual
respecto a la mediana del tiempo requerido para que un trabajador lleve a cabo el
proceso de llenado. (Esto es, si la hipótesis nula fuera realmente verdadera, la
probabilidad de obtener tal resultado o incluso uno más extremoso, es menor a
.05.)
Podemos observar que éstos son los mismos resultados que obtuvimos uti-
lizando la prueba F ANOVA de una dirección en la sección 14.4.

Tabla 14.8 Obtención del valor crítico aproximado x2 para la prueba de Kruskal-Wallis, al nivel de significación
de .OS con dos grados de libertad.

Grados Área de extremo superior


de
libertad .995 .99 .975 .95 .90 .75 .25 .10 .os .025
1 0.001 0.004 0.016 0.102 1.323 2.706 3.811 5.024
2 0.010 0.020 0.051 0.103 0.211 0.575 2.773 4.605 > 5.991 7.378
3 0.072 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9.348
4 0.207 0.297 0.484 0.711 1.064 1.923 5.385 7.779 9.488 11.143
5 0.412 0.554 0.831 1.145 1.610 2.675 6.626 9.236 11.071 12.833
Fuente: Tomada de la tabla E.4.

S48 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


14.S.4 Comparaciones múltiples: procedimiento de Dunn
Puesto que rechazamos la hipótesis nula y llegamos a la conclusión de que hay evi-
dencia de una diferencia significativa entre el desempeño de las máquinas con
respecto a la mediana del tiempo que le lleva a un trabajador efectuar el proceso
de llenado, el siguiente paso sería realizar una comparación simultánea de todos
los pares posibles de máquinas para determinar cuál o cuáles difieren de los otros.
Como continuación de la prueba de rangos de Kruskal-Wallis, presentaremos un
procedimiento de comparaciones múltiples post hoc o a posteriori, desarrollado por
O. J. Dunn (véanse referencias 3 y 4).
En general, con e grupos o niveles de un factor de interés, existen c(c - 1)/2
posibles comparaciones por pares a efectuar. El primer paso consiste en obtener el
rango promedio, R¡, para cada uno de los j grupos (en donde j = 1, ... ,e). Podemos
recordar, de la ecuación (14.8), que cuando calculamos la estadística de prueba H,
obtuvimos ~l rango total, T¡, para cada grupo. Así pues, para calcular el rango
promedio, R¡ para el j-ésimo grupo, tenemos
1

- T.
R¡ = __!_ (donde j = 1, ... , e)

Entonces calculamos las diferencias R¡ - R¡', (en la que j -:t- j') entre todos los
c(c - 1)/2 pares de rangos promedio. El alcance crítico para el procedimiento de
Dunn se obtiene de

alcance crítico= Z u n(n + 1) (__!_ + _!__) (14.9)


.12 n¡ ni'

donde n es el número total de observaciones de todos los grupos combinados, n¡ y


n¡, son, respectivamente, el número de observaciones en los grupos j y j', y, para un
nivel seleccionado de significación ex general, Zu es el valor crítico de una dis-
tribución normal estandarizada (tabla E.2) que contiene un área de cx/[c(c - l)] en
el extremo superior. 3
Si los tamaños de muestra son diferentes, debe calcularse el alcance crítico para
cada comparación por pares.
El paso final consiste en comparar la diferencia en cada uno de los c(c - 1)/2
pares de rangos promedio respecto al correspondiente alcance crítico obtenido con
la ecuación (14.9). Un par específico de grupos sería declarado significativamente
diferente si las diferencias absolutas de sus correspondientes rangos promedios
exceden al alcance crítico.
Para aplicar el procedimiento de Dunn a nuestro estudio de productividad,
primero obtenemos los rangos promedio de los tres grupos, a partir de los corres-
pondientes totales de rango obtenidos de la tabla 14.7 de la página 547:

= n.o .R2 = 7.6 R3 = 3.4


.R 1
Existen (3)(3 - 1)/2 = 3 comparaciones por pares que se deben hacer, debido a que
hay tres máquinas. Las diferencias absolutas de los rangos promedio son

l. IR1 - R2I = 113.0 - 7.6¡ = 5.4

2. IR1 - R3 I = 113.0 - 3.41 = 9.6


3. IR.2 - 'fi.3 1 = 17.6 - 3.41 = 4.2

Prueba de rangos de Kruskal-Wallis para diferencias en e medianas 549


Figura 14.8
Obtención de los valores criticos,
Zu, para el área de extremo
superior, a, de 0.0083 utilizada en
el procedimiento de Dunn para
establecer el alcance crítico.

Puesto que cada uno de los tres grupos tienen el mismo tamaño de muestra, sola-
mente hay un alcance crítico que sería utilizado en todas las comparaciones posi-
bles. Escogiendo un nivel de significación general de O.OS, determinamos el
alcance crítico con la ecuación (14.9) obteniendo primero Zu =+2.39 (puesto que
el área del extremo superior bajo la curva es 0.05/6 o 0.0083, como se muestra en
la figura 14.8) de modo que

alcance crítico = Zu n(n + 1) (_!_ + _!__)


12 n¡ ni'

= 2.39 (15)(16)
12
(.!5 + .!.)5
= 6.76
Observamos que solamente la segunda comparación (es decir, 1R1 - R3 I = l 13.0 -
3.4 I = 9.6) es mayor que el alcance crítico de 6.76, así que el gerente de producción
llega a la conclusión de que la máquina III es significativamente más rápida que
la máquina I, pero no existe evidencia de una diferencia significativa entre las
máquinas I y II, así como entre las máquinas 11 y Ill. Podemos recordar que si el
gerente de producción hubiera u.tilizado el procedimiento paramétrico de Tukey-
Kramer, descrito en la sección 14.4.5,'hubiera llegado a la conclusión de que exis-
ten diferencias significativas entre todos los pares de máquinas y, en consecuencia,
hubiera adquirido la máquina III debido a que el tiempo promedio para llevar a
cabo el proceso de llenado con tal equipo es el menor.
Debido a nuestros resultados incompatibles, el procedimiento de Tukey-
Kramer debería utilizarse después de efectuar una prueba F ANOVA de una direc-
ción, si la suposición de normalidad en las tres poblaciones subyacentes es viable.
Si no, debería emplearse el procedimiento de Dunn como el paso siguiente a la
prueba de rangos de Kruskal-Wallis.

Problemas de la sección 14.5


e 14.12 Un psicólogo industrial desea probar si los tiempos de reacción de los traba-
jadores de una línea de ensamblado son equivalentes en tres métodos de apren-
dizaje diferentes. De un grupo de 25 empleados nuevos, nueve son asignados
de manera aleatoria al método A, ocho al método B y ocho al método C. Los
datos que se presentan a continuación presenta la asignación de rangos, desde
1 (el más rápido) hasta 25 (el más lento), de los tiempos de reacción para llevar
a cabo una tarea asignada por el psicólogo después del periodo de aprendizaje.

550 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Método
A B e
2 1 5
3 6 7
4 8 11
9 15 12
10 16 13
14 17 18
19 21 24
20 22 25
23

¿Existe evidencia de una diferencia en los tiempos de reacción para estos


métodos de aprendizaje? (Utilice el nivel a= .01.)
14.13 Un ingeniero en control de calidad de una compañía fabricante de equipos
electrónicos de audio se encuentra inspeccionando un nuevo tipo de batería
que tal vez pueda utilizar. Un lote de 20 baterías fue dividido aleatoriamente
en cuatro grupos (de modo que había cinco baterías en cada uno). Cada grupo
de baterías fue sometido a un nivel particular de presión: baja, normal, alta y
muy alta. Las baterías se probaron simultáneamente bajo estos niveles de pre-
sión y se registraron los tiempos de falla (en horas):

Presión
Baja Normal Alta Muy alta
8.0 7.6 6.0 5.1
8.1 8.2 6.3 5.6
9.2 9.8 7.1 5.9
9.4 10.9 7.7 6.7
11.7 12.3 8.9 7.8

El ingeniero de control de calidad, por experiencia, sabe que tales datos


provienen de poblaciones que no están distribuidas de manera normal, y desea
utilizar un procedimiento libre de distribución para el análisis de los datos.
(a) Al nivel de significación de O.OS, analice completamente los datos para
determinar si existe evidencia de una diferencia en los cuatro niveles de
presión respecto a la mediana de la vida de las baterías y, si éste es el caso,
funcionamiento de las baterías
(b) f·fiiM.t.f•P Escriba un memorándum al ingeniero encargado de la calidad
en el que exprese sus hallazgos.
~ (c) Recomiende una póliza de garantía respecto a la vida útil de las baterías.
14.14 La ingeniero de control de calidad de una planta en donde se fabrican equipos
de sonido estéreo desea estudiar el efecto de l.a temperatura sobre el tiempo de
falla de un componente electrónico en particular. Para tal efecto, diseiíó un
experimento en el cual 24 de estos componentes, todos tomados del mismo
lote, fueron asignados a uno de tres niveles de temperatura y luego fueron
activados de manera simultánea. A continuación presentamos los rangos
obtenidos para los tiempos de falla (es decir, se le dio el rango de 1 al primer
componente que falló).

Prueba de rangos de Kruskal-Wallis para diferencias en e medianas 55 1


Temperatura
lSO'F 200'F 250'F

4 2 1
7 8 3
10 11 5
13 12 6
18 17 9
21 19 14
22 20 15
24 23 16

(a) Al nivel de significación de O.OS, ¿existe evidencia de un efecto de la tem-


peratura sobre la vida útil de este tipo de componente electrónico?
(b) f.14d!J!•t.1•> Escriba un informe para la ingeniero de control de calidad,
basándose en sus hallazgos.
e 14.15 Utilice la prueba de rangos de Kruskal-Wallis y, si es adecuado, el procedi-
miento de Dunn para responder los incisos (f) y (g) del problema 14.5 (resulta-
dos de desempeño) de la página S42. (Utilice el nivel a= .OS.) ¿Existe alguna
diferencia en sus resultados actuales de los obtenidos anteriormente? Analice
su respuesta.
14.16 Utilice la prueba de rangos de Kruskal-Wallis y, si es adecuado, el procedi-
miento de Dunn para responder el inciso (a) del problema 14.7 (resultados de
la prueba matemática) de la página S43. (Utilice el nivel a= .OS.) ¿Existe
alguna diferencia en sus resultados actuales de los obtenidos previamente?
Analice su respuesta.
14.17 Utilice la prueba de rangos de Kruskal-Wallis y, si es adecuado, el procedi-
miento de Dunn para responder el inciso (a) del problema 14.9 (rentabilidad)
de la página S44. (Utilice el nivel a = .01.) ¿Existe alguna diferencia en sus
resultados actuales y los obtenidos anteriormente? Analice su respuesta.

Uso de la computadora para la prueba de hipótesis


con e muestras independientes: la encuesta de
satisfacción de los empleados de Industrias Kalosha

14.6.1 Introducción y resumen


Cuando tratamos con conjuntos grandes de datos, podemos utilizar la computadora
para ayudarnos no sólo en nuestro análisis de estadística descriptiva, sino también
en nuestro análisis confirmatorio. En la presente sección demostraremos cómo los pa-
quetes de software estadísticos pueden ser utilizados para efectuar varias pruebas de
hipótesis cuando analizamos diferencias en los resultados a través de diferentes gru-
pos de datos numéricos. Para llevar a efecto lo anterior, regresemos a la Encuesta de
satisfacción de los empleados de Industrias Kalosha, desarrollada en el capítulo 2.

14.6.2 Encuesta de satisfacción de los empleados de


Industrias Kalosha -
Bud Conley, vicepresidente de recursos humanos, se está preparando para otra
reunión más con un representante de la empresa B & L Corporation para analizar
los contenidos potenciales de un paquete de prestaciones para los empleados que
se ha estado desarrollando. Antes de la reunión, le gustaría obtener respuestas a las

5 52 , Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


siguientes preguntas mediante un análisis confirmatorio basado en los resultados de
la encuesta de satisfacción de los empleados (véase tabla 2.3 de las páginas 33-40):
l. ¿Había evidencia de una diferencia en el número promedio de horas
de trabajo por semana (pregunta 1) basándose en el agrupamiento
ocupacional de todos los empleados de tiempo completo de Industrias
Kalosha (pregunta 2)?
2. ¿Había evidencia de una diferencia en la mediana de los ingresos per-
sonales de los empleados de tiempo completo de Industrias Kalosha
(pregunta 7) basándose en su nivel de participación en las decisiones
que afectan su trabajo (pregunta 21)?
Las respuestas a estas dos preguntas, así como a otras planteadas por Bud Conley
(véase el Proyecto Encuesta/Base de datos que se encuentra al final de la sección)
requieren un análisis descriptivo detallado de las 400 respuestas a la encuesta junto
con un análisis confirmatorio.

14.6. 3 Uso de paquetes estadísticos para la evaluación de


diferencias entre los e grupos
En respuesta a la primera pregunta de Bud Conley, referente a si existen diferencias
significativas en la cantidad de tiempo promedio (en horas) de trabajo a la semana,
basados en la agrupación laboral, se realizará un análisis descriptivo de modo que
se puedan evaluar las suposiciones de los procedimientos de prueba.
En la figura 14.9 se presenta el resultado obtenido con el programa EXCEL de
Microsoft (referencia 8) sobre algunas de las estadísticas sumarias pertenecientes a
una interrupción en el tiempo de trabajo por las agrupaciones laborales. Aunque
no se muestran, también se obtuvieron representaciones de tallo y hojas y gráficas
de caja y bigotes y de probabilidad normal, que nos indican que existe algo de
desviación de la normalidad por parte de las poblaciones subyacentes.

Occup N MEAN MEDIAN STDEV SEMEAN


workhre l=M 65 46.00 43.00 9.14 l.l3
2=P 66 45.l.4 40.00 9.l.l l..12
3=11' S7 46.72 40.00 12.51 1.66
4=A 65 42.23 40.00 e.oo 0.99
s=e 29 43.52 40.00 8.65 1.61
6=R 54 48.ll 41.00 11.84 1.61
7=L 64 45.88 43.00 9.62 1.20

Figura 14.9
Resultado obtenido con el paquete Microsoft Excel para Windows, donde se muestran las
estadísticas sumarias.

Para prÓbar la suposición de homogeneidad de varianzas, se calculó, a partir


de los resultados impresos en la figura 14.9, la estadística de prueba Fmáx de Hartley,
que representa el cociente de la varianza de población mayor entre la varianza de
población menor. Esta prueba debe utilizarse con precaución en este caso debido a
que es sensible a una violación de la suposición de normalidad subyacente. (En las
referencias 1-3 se presentan algunos procedimientos alternativos.) Utilizando un
nivel de significación de O.OS, puesto que

(12.51) 2
Fmáx = (8.00) 2 = 2.45 > Fmáx [757]
.'
:= 2.26,

el valor crítico de extremo superior obtenido por interpolación de la tabla E.8, la


hipótesis nula de variaciones de población iguales, es rechazada.

Uso de paquetes estadísticos para la evaluación de diferencias entre los e grupos 55J
Con el propósito de utilizar la prueba F ANOVA de una dirección, se debe encon-
trar una transformación adecuada que normalice los datos y estabilice las varianzas
entre los grupos. Después de utilizar una transformación de logaritmo natural sobre la
variable original (tiempo de trabajo en horas), en la figura 14.10 se muestra el resultado
obtenido con el paquete MINITAB (referencia 10) para la prueba F ANOVA de una direc-
ción. Una verificación de la suposición de homogeneidad de varianzas nos indica que
la variabilidad de los datos transformados se ha estabilizado. Esto es, usando un nivel
de significación de O.OS, como

F - (0.2283) 2
máx· - (0.1629)2 = 1.97 < Fmáx [7,57] := 2.26,

la hipótesis nula no puede ser rechazada y se puede llegar a la conclusión de que


no existe evidencia de una falta de homogeneidad de varianzas de los datos trans-
formados.
Con un nivel de significación de O.OS, podemos probar la hipótesis nula
respecto a la igualdad de las siete medias de población

Ho: µ¡ =µz =· · ·= µ7

contra la hipótesis alternativa


H 1 : No todas lasµ¡ son iguales (j = 1, 2, ... , 7)

Ml'B > let c36 "" loge(c2)


Ml'B > oneway c36 by c31
BUBC> tukey.

ANALYSIS OF VARD\NCE CN ln(workhre)


SOURCE DF SS MS F p
Occup 6 o.5224 0.0871 2.22 0.041
ERROR 393 15.4160 0.0392
TC1l'AL 399 15.9383
INDIVIDUAL 95 PCT CI '8 POR ME1IN
BABEO ON POOLED STDBV
LEVEL N MEAN STDEV -------+---------+---------+---------
l=M 65 3.8105 0.1890 (-------·-------)
2=P 66 3.7905 0.1955 (-------·-------)
3='1' 57 3.8158 0.2283 (--------·--------)
4=A 65 3.7289 0.1629 (-------·--------)
5=S 29 3.7572 0.1746 (-----------·-----------)
6=R 54 3.8'72 0.2249 (--------··-------)
7=L 64 3.8059 0.1990 (-------·-------)
POOLID STDEV • 0.1981
-------+---------+---------+---------
3.720 3.780 3.840

Tukey•e pai:rwiee canparieone

Family error rate = 0.0500


Individual error rate • 0.00338

C:ritical value = 4.17

Figura 14. 1O
Resultado obtenido con MINITAB de la prueba FANOVA de una dirección, después de una
transformación de datos de logaritmo natural.

SS4 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Del resultado obtenido con MINITAB, presentado en la figura 14.10, observamos que
la estadística de prueba F de una dirección, 2.22, es mayor que el valor crítico,
Fu(6,393i = 2.10 (tomado de la tabla E.5), de manera que la hipótesis nula puede ser
rechazada. Existe eviden(:ia .de una diferencia significativa entre las medias de los
datos transformados correspondientes al tiempo (en horas) de trabajo semanal de las
diferentes agrupaciones laborales. El valor p es de 0.041. Utilizando los resultados
que se presentan en la figura 14.10 y empleando el procedimiento de Tukey-Kramer,
se encuentra que la diferencia significativa en los datos transformados con logarit-
mos naturales, correspondientes al tiempo en horas de trabajo semanal, se presenta
entre el grupo de apoyo administrativo (A) y el grupo de producción y reparaciones
(R). Existe evidencia de que los empleados de apoyo administrativo trabajan signi-
ficativamente menos tiempo a la semana que los de producción y reparaciones.
Como respuesta a la segunda pregunta que se hace Bud Conley, acerca de si
existen diferencias significativas en la mediana del ingreso personal, basándose en
la participación de los empleados en las decisiones relacionadas con el trabajo, se
efectuará otro análisis descriptivo, de manera que puedan ser evaluadas las suposi-
ciones de los procedimientos de prueba.
En la figura 14.11 se presenta el resultado obtenido con STATISTIX (referencia
13), en el cual se ilustran las gráficas de caja y bigotes. Estas gráficas indican la exis-
tencia de un sesgo hacia la derecha en las poblaciones muestreadas. Aunque no se
exhiben, también se obtuvieron representaciones de tallo y hojas y gráficas de pro-
babilidad normal que confirmaron el sesgo hacia la derecha presente en las pobla-
ciones muestreadas.

Box and Whisker Plot


100 ............................................................................... - .................................................... .

*
*J o
70 ......................................................................................................................................
*
*t

40 ................................................................................................................................

10
l

ID~E
400 cases

Figura 14. 1 1
Resultado obtenido con el paquete STATISTIX donde se muestran las gráficas de caja y sesgos
del ingreso personal, basándose en el nivel de participación percibido en las decisiones
relacionadas con el trabajo.

Para probar las posibles diferencias entre las cuatro medianas de población, se
utilizó el paquete SAS (referencia 12) para efectuar la prueba de rangos de Kruskal-
Wallis. En la figura 14.12 de la página 556 se presenta una parte de lo obtenido con
el paquete, en donde se ilustran los resultados de la prueba. Utilizando un nivel de
significación de O.OS, para probar la hipótesis nula de igualdad en la mediana del
ingreso personal para los cuatro niveles de participación en la toma de decisiones:

Uso de paquetes estadísticos para la evaluación de diferencias entre los e grupos 111
'rhe SAS Bystll!I

11 P A R i WA Y ·P R O C E D ll R 1!

i'lllcoxcn · sooi:ea · :caank


Sll!ls) tor Varlol>la,.RillCOME
Classitied by Variable' IDECIDE
i "
SUJD O~, · Expacted Std Dev Mean
IDECIDE saores tJnder HO trndar ·Ho Seor•
Figura 14. 12 ,. ALllAYS 138
" 30483',5000 27669.000Ó 1099.16981 220.894928·
Resultado parcial obtenido llUCH 157 :•32817.50_00 .31478.5000 1129.08741 209.028,662
'SOllE'l'IMES 60 '10789. 0000 ' 12030.0000 . 825. 63802 179.816667
con SAS, en el que se ilustra lll!VEll, 4,5
'
6110. ºººº 9022.5000'
AV:8raqe seores weZ'e· u1ed tor TieB - '
730. 62'85 135.777778
la prueba de-rangos de
Kruskal-Wallis para las lCruskal-Wallis Test (Chi-Square Approximation)
CHI~Q· 21.172 DF• J Prob > CHISQ• 0.0001
diferencias en e medianas.

Del resultado mostrado en la figuW 14.12, podemos continuar con la prueba de


Kruskal-Wallis si restamos los 'ráhgos pfomeruo,. obtenemos las diferencias absolutas
de todas las comparacignes p9r :parejas ·delós gnipós y calo.i.lamos los alcances críticos
cqrrespondientes· [con la ectiactón (14.9) (}e la pª8ina 549) necesarios para emplear el
procedirrii~nfo de comparación múltiple de DÚnn. ..
· , Co_n,UIJ. nivel general de significación de O.OS para estos datos, Zues de +2.64,
el
puesto qu~ área contenida en el extremo superior de la distribución normal
estandadzada es de 0.05/lZ o 0.0042. Por tanto, tenemos

Diferencias absolutas Alcance crítico Decisión

IR1 - Rzl = 1220.9 - 209.ol = 11.9 2.64 (400)(401) (-1- + _1_) = 35.6 No significativo
12 138 157

IR1 - R31 = ¡220.9 - 179.81 = 41.1 2.64 (400)(401) (-1- + __!_) = 47.2 No significativo
12 138 60

¡.R1 :- .R.4¡ = ¡22Q.9 7135.s¡ =. s5,i ~.64


(400)(401) f~
' . 12 . 138 + 45
i.) = .52.4 ~ignificatjv6
'. , :: . .' '·'" .

IRz - R3 I = 1209.o - 179.s¡ = 29.2 2.64 (400)(401) (-1- + __!_) = 46.3 No significativo
12 157 60

¡.R2 - .R3 ¡ =¡209.o ...: t35.SI ~ 73.2 , '2.64 {400)(40i)


. .. . 12: ', 157
(l +~) = .45 51':6 .· .significativo
• ~. ..,. ' j : ' ,. •. " . :

¡.R3 - R4I = ¡179.8 - 135.SI = 44.o 2.64 ( 400)(401) ( __!_ + __!_) = 60.2 No significativo
12 60 45

556 Capítulo 14 ANOVA y otras pruebas de c muestras con datos numéricos


Debemos informar á. Bud Conley que la 'mediana de los ingre~os personales ~drl síg-:
nificativ<1mente diferentes respecto al nivel conocido de participación en las deci-
siones relacionadas con el trabajo. En particular, los empleados que afirmaron que
siempre participan tienen una mediana deingreso personal significativamente
más alta que los trabajadores que afirman que nunca. participan. Todas las demás
diferencias entre lo$ grupos apareados se deben al azar.

Proyecto de encuesta/base de datos de la sección 14.6

Los siguientes problemas se refieren a los datos de muestra obtenidos del cues-
tionario de la figura 2.6 de las páginas 28-29 y presentados en la tabla 2.3 de las
páginas 33-40. Deberán ser resueltos con la ayuda de un paquete de computación.
Suponga que usted ha sido contratado como asistente de investigación de Bud
Conley, el vicepresidente de recursos humanos de Industrias Kalosha. Éste le
ha dado una lista de preguntas (véanse problemas 14.18 a 14.30) que él nece-
sita responder antes de su reunión con el representante de B & L Corporation,
la empresa que da asesorías sobre paquetes de prestaciones para los traba-
jadores que ha contratado. Un análisis estadístico confirmatorio, basado en las
respuestas a estas preguntas pertenecientes a las variables numéricas de la
Encuesta de satisfacción de los empleados, le proporcionará un mejor
entendimiento de la composición de la fuerza de trabajo de tiempo completo
de Industrias Kalosha, y le será de utilidad en sus deliberaciones con el repre-
sentante de B & L Corporation con el propósito de desarrollar un paquete de
prestaciones para los empleados.
A partir de las respuestas a las preguntas que tratan sobre variables numéricas
de la Encuesta de satisfacción de los empleados (véanse páginas 33-40) en los
problemas 14.18 a 14.30, y que se dan a continuación,
(a) Obtenga un conjunto de estadísticas descriptivas para cada grupo.
(b) Desarrolle una representación de tallo y hojas para cada grupo.
(c) Trace la gráfica de caja y bigotes para cada grupo.
(d) Desarrolle la gráfica de probabilidad normal para cada grupo.
(e) Basándose en un análisis descriptivo de los resultados del inciso (a) al (d),
respecto a las suposiciones de la prueba F ANOVA de una dirección y a la
prueba de rangos de Kruskal-Wallis, seleccione un procedimiento ade-
cuado y efectúe la prueba de hipótesis al nivel de significación de a = .OS.
(f) r·iiiii'Jl•f·f•P Escriba un memorándum a Bud Conley donde explique su
elección del procedimiento de prueba y los resultados.
14.18 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de trabajo
semanal de los empleados de tiempo completo de Industrias Kalosha (véase pre-
gunta 1), basándose en las características importantes de trabajo (véase pregunta 11)?
14.19 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de trabajo
semanal de los empleados de tiempo completo de Industrias Kalosha (véase pre-
gunta 1), basándose en las percepciones por seguir adelante (véase pregunta 12)?
14.20 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de tra-
bajo semanal de los empleados de tiempo completo de Industrias Kalosha
(véase pregunta 1), basándose en la participación conocida en las decisiones
relacionadas con el trabajo (véase pregunta 21)?
14.21 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de tra-
bajo semanal de los empleados de tiempo completo de Industrias Kalosha
(véase pregunta 1), basándose en qué tan orgullosos se sienten por ser parte de
la organización (véase pregunta 23)?
14.22 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en la agrupación ocupacional (véase pregunta 2)?

Uso de paquetes estadísticos para la evaluación de diferencias entre los e grupos 557
14.23 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en las características de trabajo importante (véase pregunta 11)?
14.24 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en las percepciones por ir a la cabeza (véase pregunta 12)?
14.25 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en el avance dentro de la organización (véase pregunta 20)?
14.26 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en la participación conocida en las decisiones relacionadas con el
trabajo (véase pregunta 21)?
14.27 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en qué tan orgulloso se sienten por ser parte de la organización
(véase pregunta 23)?
14.28 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7), basán-
dose en la percepción de la importancia de la escolaridad (véase pregunta 27)?
14.29 ¿Existe evidencia de que hay una diferencia en la antigüedad (es decir, el
tiempo promedio que tienen los trabajadores de tiempo completo de
Industrias Kalosha en el empleo, véase pregunta 16), basándose en la satisfac-
ción con el trabajo (véase pregunta 9)?
14.30 ¿Existe evidencia de una diferencia en la antigüedad en el trabajo (es decir, el
tiempo promedio que tienen los trabajadores de tiempo completo de
Industrias Kalosha en el empleo, véase pregunta 16), basándose en qué tan
orgullosos se sienten por ser parte de la organización (véase pregunta 23)?

1eE El modelo de diseño de bloque aleatorizado


En la sección 14.4 desarrollamos la prueba F ANOVA de una dirección para evaluar
diferencias en las medias de c grupos, y en la sección 14.5 estudiamos la prueba de
rangos de Kruskal-Wallis para evaluar las diferencias en las medianas de c grupos.
Procedimientos de prueba como los mencionados serían utilizados en situaciones
experimentales en las cuales n elementos o individuos homogéneos (es decir, uni-
dades experimentales) son asignados aleatoriamente a los e niveles de un factor de
interés (es decir, los grupos de tratamiento). Como podemos recordar de la sección
14.3, estos experimentos de un factor se conocen como modelos de diseño comple-
tamente aleatorizados o de una dirección.
Alternativamente, en las secciones 13.8 a 13.10 utilizamos la prueba t para la
diferencia media o la prueba de rangos con signo de Wilcoxon para la diferencia
mediana en situaciones que implican mediciones repetidas o muestras apareadas,
con el propósito de evaluar diferencias entre dos condiciones de tratamiento. Su-
ponga, ahora, que deseamos extender lo anterior a situaciones en las que existen más
de dos grupos de tratamiento o niveles de un factor de interés. En tales casos, los con-
juntos heterogéneos de elementos o de individuos que han sido apareados (o sobre
los que se han hecho mediciones repetidas) se conocen como bloques. Los datos
numéricos pueden, entonces, obtenerse como respuesta o resultado de cada combi-
nación de grupo de tratamiento y de bloque. Así pues, al diseñar experimentos de
este tipo, debería haber dos cosas a considerar: tratamientos y bloques. Sin embargo,
respecto a nuestras pruebas de hipótesis, enfocamos la atención en las diferencias
entre los e niveles del factor de interés (es decir, los grupos de tratamiento).
Las situaciones experimentales como éstas se conocen como modelos de di-
seño de bloques aleatorizados. El propósito al conformar bloques es eliminar

558 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


toda la variabilidad que sea posible, de manera que podamos enfocar nuestra aten-
ción en las diferencias entre las e condiciones de tratamiento. Así pues, cuando sea
apropiado, el propósito de elegir un modelo de diseño de bloque aleatorizado en
lugar de un modelo de diseño completamente aleatorizado es proporcionar un
análisis más eficiente mediante la reducción del error experimental y, en conse-
cuencia, obtener resultados más precisos (véanse referencias 1, 5, 6 y 11).

1eH:J Prueba F de bloque aleatorizado para


diferencias en e medias

14.8. 1 Introducción
Como en la sección 14.4, cuando las mediciones resultantes a través de los e gru-
pos son continuas y se cumplen ciertas suposiciones, puede utilizarse una meto-
dología conocida como análisis de varianza (o ANOVA,) para comparar las medias
de los grupos. En la presente sección ampliaremos nuestro análisis anterior de
ANOVA y el desarrollo de la prueba F de bloque aleatorizado con el fin de eva-
luar las difereneias entre las medias de e grupos.
Recordamos de la figura 14.1 de la página 528, que en el modelo completa-
mente aleatorizado o análisis de varianza de una dirección, la variación total de las
mediciones resultantes (SST) se divide en la variación que es atribuible a las dife-
rencias entre los e grupos (SSA) y la que se debe al azar o se puede atribuir a la
variación inherente dentro de los grupos (SSW). La variación dentro de los grupos
se considera como error experimental, y la variación entre grupos se atribuye a
efectos de tratamiento.
Para el modelo de diseño de bloque aleatorizado, con el objeto de filtrar los
efectos de conformar bloques, necesitamos dividir aún más la variación dentro de
los grupos (SSW) en la variación atribuible a diferencias entre los bloques (SSBL) y
la que se puede atribuir a error aleatorio inherente (SSE). Por consiguiente, como
se presenta en la figura 14.13, en el modelo de diseño de bloque aleatorizado, la
variación total de las mediciones resultantes es la suma de tres componentes: la va-
riación entre grupos (SSA), la variación entre bloques (SSBL) y el error aleatorio
inherente (SSE). ·

Variación entre grupos (SSA)

Variación total (SST) Variación entre bloques (SSBL)

Figura 14.1 3
División de la variación
total en un modelo de
Variación aleatoria (SSE) diseño de bloques
aleatorizados.

14.8.l. Desarrollo
Para desarrollar el procedimiento ANOVA respecto al modelo de diseño de bloques
aleatorizados, necesitamos definir los términos que se presentan a continuación:

Prueba F de bloque aleatorizado para diferencias en e medias 5 59


X¡¡ = er valor· del bloque í-ésiina· para el tratamiento del grupo i-ésima,
X¡, = la media de todos los valores en el bloque i
X_¡ = la media de todos los valores para el tratamiento del grupo j
e r
L LX;¡ =la sumatoria de los valores de todos los bloques y de todos los grupos,
¡ = i; = 1 esto es, del gran total

r =al número de bloques


e =al número de grupos
n =al número total de observaciones (cuando n= re)

La variación total, conocida también como suma del total de cuadrados


(SST), por sus siglas, Sum ofSquares Total), es una medida de la variación entre
todas las observaciones. Puede ser obtenida al sumar las diferencias al cuadrado
entre cada observación individual y la gran media o media general, X, que está
basada en las n observaciones. SST se calcularía como

e r ··

SST=LL(X;¡-x( (14.10)
i=lf=l

e r

LLX;¡
donde.X i = i; = 1 (esto es, la gran gran media o media general)
re

La variación entre grupos, también conocida como la suma de cuadrados


entre grupos (SSA, por sus siglas de, sum of squares among), se mide a través
<!_e la suma de las difereJ:lcias al cuadrado entre la media de muestra de cada grupo,
X.¡ y la gran media, X, pesadas o ponderadas con el número de bloques r. La
1

variación entre grupos se calcula con la ecuación


<·,•l.

SSA = rÍ,( X.;-X)2 (14.11)


J=1

¿x;;
donde x. = .!...:2._(esto
I r
es, el tratamiento de las medias de grupo)

La variación entre bloques, también conocida como suma de cuadrados


entre bloques (SSBL, por sus siglas: sum of squares among blocks), se mide a
través de la suma de las diferen<jas al cuadrado entre la media de cada bloque, X¡, y
la gran media o media general, X, pesadas o ponderadas por el número de grupos, c.
La variación entre bloques se calcula con:

·"-.' ··:..'.
. -~{- =)z
:SSBt..:::,fk .X;./-X, ... · .. J~4;.l2). '
' ¡=1
,,;·,»

560 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


e
LX1;
donde X1. = .L.:.2.__
e (esto es, la media del bloque)

La variación aleatoria inherente, también conocida como suma de errores


al cuadrado (SSE, por sus siglas, sum of squares error), se mide a través de la
suma de las diferencias al cuadrado entre todas las observaciones después de que
el efecto de los tratamientos y de los bloques particulares ha sido tomado en
cuenta. SSE se calcula con la ecuación:

(14.13)

Puesto que existen e niveles de tratamiento del factor que está siendo com-
parado, hay e- 1 grados de libertad asociados con la suma de cuadrados entre gru-
pos (SSA). De forma parecida, como se tienen r bloques, hay r - 1 grados de
libertad asociados con la suma de cuadrados entre bloques (SSBL). Además, exis-
ten n - 1 grados de libertad asociados con la suma del total de cuadrados (SST)
porque ~ada observación, X¡¡, se está comparando con la media general o gran
media, X, basándonos en las n observaciones. Por consiguiente, como se deben
sumar los grados de libertad de cada una de las fuentes de variación a los grados
de libertad de la variación total, podemos obtener los correspondientes a la com-
ponente del error de la suma de cuadrados (SSE) mediante sustracción y manipu-
lación algebraica. 4 Los grados de libertad están dados por (r- l)(c - 1)
si cada uno de los componentes de la suma de cuadrados se divide entre los corres-
pondientes grados de libertad asociados, obtendremos los tres términos de varianza o
cuadráticos medios (MSA, MSBL y MSE) necesarios para llevar a cabo el ANOVA:

MSA = SSA .·
· c-1 (l4.14a)

MSBL::; SSBL ·, ,1, ' (14.14b)


.r1;
.r,....: 1
:~ 1

MSE = . ! . SSE . (14.l4c)


· (r .- l)(c - 1)

Si las suposiciones correspondientes al análisis de varianza se cumplen, la hipóte-


sis nula de no diferencias entre las medias de población (es decir, de la no existen-
cia de efectos de tratamiento)

Ho: µ¡ =µ.z = · · · = µe
puede ser probada contra la hipótesis alternativa de que no todas las e medias de
población son iguales:
H 1 : No todas las µ¡ son iguales (con j = 1, 2, ... , e)
mediante el cálculo de la estadística de prueba F:

Prueba F de bloque aleatorizado para diferencias en e medias 561


F = MSA (14.15)
MSE

La estadística de prueba F sigue una distribución F con e - 1 y (r - l)(c - 1) grados


de libertad. Para un nivel de significación, a, dado, podemos rechazar la hipótesis
nula si la estadística de prueba F calculada es mayor que el valor crítico de extremo
superior, Fu¡(c-l},(r-l)(c-l)J de la distribución F (véase tabla E.5). Esto es, tenemos la
siguiente regla de decisión:
Rechace H 0 si F > Fu¡(c-1),(r·l)(c-l)J;
en cualquier otro caso, no rechace H0 .

Para examinar si resulta ventajoso formar bloques, algunos investigadores su-


gieren que se efectúe la prueba de la hipótesis nula de no efectos de bloque. Así
pues, podemos probar

contra la alternativa:
H 1 : No todas las µ¡. son iguales

Definimos la estadística de prueba F

F = MSBL (14.16)
MSE

y la hipótesis nula será rechazada al nivel de significación a, si

F = MSBL > F
MSE U[r-1,(r-l )(c-1 )]

Sin embargo, se puede argumentar que hacer lo anterior no es necesario, que el


único propósito de establecer los bloques es proporcionar medios más eficientes para
probar los efectos de tratamiento mediante la reducción del error experimental.5
Como en la sección 14.4.2, los resultados de un procedimiento de análisis de
varianza por lo general se muestran en una tabla resumen ANOVA, cuyo formato
se presenta en la tabla 14.9.

14.8. 3 Aplicación
Para ilustrar la prueba F de bloques aleatorizados, suponga que la administración
de una cadena de restaurantes de comida rápida que tienen cuatro sucursales en una
cierta área geográfica desea evaluar el servicio en esos restaurantes. El director de
investigación de la cadena contrata a 24 investigadores (estimadores) con experien-
cia variada en evaluaciones en servicio de comida. Después de realizar consultas pre-
liminares, los 24 investigadores son clasificados en seis bloques de cuatro elementos,
basándose en su experiencia sobre evaluación de servicios de comida, de modo que
los cuatro investigadores con mayor experiencia quedan asignados al bloque 1, los

562 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Tabla 14.9 Tabla de análisis de varianza para el diseño de bloques aleatorizados.
Grados Cuadrado medio
Fuente de libertad Suma de cuadros (varianza) /1

entre tratamientos e -1 SSA = rÍ(x¡ -Xf MSA = SSA


e- 1
F = MSA
j =1 MSF.

entre bloques T- 1 SSBL = e! (x


i= 1
1• - X) 2 MSBL = SSBL
T - 1
F = MSHL
MSE

Error (r - l)(c - 1) SSE = Í Í ( x ;1 -X;


J= 1 i = 1
-x,_ + X) 2 MSE =
(r -
SSE
l)(c - 1)

Total re - 1 SST = ÍÍ(X;¡ -X) 2

i=lí=d

siguientes cuatro con mayor experiencia al bloque 2, y así sucesivamente. Dentro de


cada uno de los seis bloques homogéneos, los cuatro estimadores son asignados de
manera aleatoria para realizar la evaluación del servicio de un restaurante en particu-
lar, utilizando una escala de asistencia que va de O (baja) hasta 100 (alta). Los resulta-
dos se resumen en la tabla 14.1O. Los totales de grupo, las medias de grupo, los totales
de bloque, las medias de bloque, el gran total y la gran media también se presentan
en la tabla 14.10, y algunas de estas estadísticas se resaltan junto con las evaluaciones
de los datos originales en la gráfica de dispersión de la figura 14.14 (de la página 564)
para proporcionar una representación visual de los resultados del experimento.

Tabla 14.1 O Evaluaciones de los restaurantes para cuatro sucursales de


una cadena de comida rápida.
Bloques Restaurantes
de
evaluadores A B e D Totales Medias
1 70 61 82 74 287 71.75
2 77 75 88 76 316 79.00
3 76 67 90 80 313 78.25
4 80 63 96 76 315 78.75
5 84 66 92 84 326 81.50
6 78 68 98 86 330 82.50
Totales 465 400 546 476 1,887
Medias 77.50 66.67 91.00 79.33 78.625

Además, de la tabla 14.10 tenemos:

r = 6, e = 4, n = re = 24
y, según lo establecido

= l, 887 = 78.625
24

Aunque se sugiere con insistencia que se utilice algún paquete de software estadís-
tico (veánse referencias 10, 12 y 13) para determinar los resultados de un experi-

Prueba F de bloque aleatorizado para diferencias en e medias 563


100

90 +X.s

(/)
CI>
e
o
80 •
x fx.1

..•
....t....X.4

·oal 70 •
::;:¡
+x.2
~
60

50

Figul"a 14.14
Gráfica de dispersión de las o A B e o
evaluaciones de los servicios prestados
en cuatro restaurantes. Restaurantes
Fuente: Tabla 14.10.

mento de diseño de bloques aleatorizados, con fines ilustrativos, haremos los si-
guientes cálculos:
Utilizando la ecuación (14.10),
e r
SST = L L (X;¡-X) 2 = (70- 78.625)2 + (77 - 78.625) 2 + ... + (86- 78.625) 2
/=li=l
= 2, 295.63

Utilizando la ecuación (14.11),

SSA=r t
i = 1
(X,; - X) 2 = 6[ (77.50-78.625) 2 +(66.67 -78.625) 2 + .. ·+(79.33-78.625) 2 ]
= 1,787.46

Utilizando la ecuación (14.12),

SSBL=c i
i = 1
(X;.- X) 2 = 4[ (71.75-78.625) 2 +(79.00-78.625) 2 + ... + (82.50-78.625) 2 ]

= 283.38
Utilizando la ecuación (14.13),
e r
SSE = L L (X¡¡ - x.j - xi.+ X) 2 = (70 - 77.50 - 71.75 + 78.625) 2
i = li = 1
+ (77 - 77.50 - 79.00 + 78.625) 2
+

+ (86 - 79.33 - 82.50 + 78.625) 2


224.79

5CS4 Capítulo 14 ANOVA y otras pruebas de c muestras con datos numéricos


Así pues, utilizando las ecuaciones (14.14a), (14.14b) y (14.14c),

MSA = SSA = 1, 787.46 = 595.820


e- 1 3

MSBL = SSBL = 283.38 = 56.676


r-1 5

MSE = SSE 224.79 = 14.986


(r-l)(c-1) 15

En el estudio sobre la cadena de restaurantes de comida rápida, los cálculos que


acabamos de realizar pueden resumirse en la cuadro de análisis de varianza que se
muestra en la tabla 14.11.

Tabla 14. 1 1 Tabla de análisis de varianza para el estudio de la cadena de


restaurantes de comida rápida.
Grados Sumas Cuadrado medio
Fuente de libertad de cuadrados (varianza) F

1,787.46 595.820
Entre grupos 4-1= 3 1,787.46 MSA = F=
3 14.986
= 595.820 =-

Entre bloques 6-1= 5 283.38 MSBL = 283.38 F = 56.676


5 14.986
= 56.676 =-

Error (6-1)(4-1)= 15 224.79 MSE = 224.79


15
= 14.986

Total (6)(4)-1 = 23 2,295.63

Además de las entradas de la tabla anterior, en las tablas ANOVA de la mayoría de


los paquetes de software estadístico se incluye también el valor p (es decir, la proba-
bilidad de obtener una estadística F igual o mayor a la obtenida dado que la hipóte-
sis nula sea verdadera). Como la mayoría de los individuos que necesitan evaluar
datos de los modelos de diseño de bloque aleatorizado realizarían su análisis con
la ayuda de un paquete estadístico, la inclusión del valor p nos permite llegar a con-
clusiones directamente acerca de la hipótesis nula, sin referirnos a una tabla de
valores críticos de la distribución F. Si el valor p es menor que el nivel especificado
de significación a, la hipótesis nula es rechazada. En este caso, sin embargo,
analizaremos los datos que se encuentran resumidos en la tabla 14.11.
Sustituyendo 1, 2, 3, 4 por A, B, C, D cuando probamos las diferencias entre
los restaurantes, y utilizando el nivel de significación de 0.05, la regla de decisión
consistiría en rechazar la hipótesis nula (H0 : µ. 1 =µ. 2 = µ. 3 = µ. 4) si el valor F calcu-
lado es mayor que 3.29 (véase figura 14.15 de la página 566). Puesto que F = 39.758
> Fu(3, 15 ) = 3.29, podemos rechazar la hipótesis nula H0 y llegar a la conclusión de
que existe evidencia de una diferencia en la asistencia promedio entre los diferentes
restaurantes.

Prueba F de bloque aleatorizado para diferencias en e medias 565


Figura 14.1 S
Regiones de rechazo y de no rechazo
para el estudio sobre la cadena de
restaurantes de comida rápida, al nivel
de significación de 0.05, con 3 y 15
grados de libertad.

Como una verificación de la efectividad de la conformación de bloques,


podemos probar una diferencia entre los grupos de estimadores. La regla de decisión,
utilizando el nivel de significación de .OS, sería rechazar la hipótesis nula (H0 : H0 :
µ 1. =µ 2 • =... = µ 6 .) si el valor F calculado excede a 2.90 (véase figura 14.16). Puesto
que F =3.782 > Fu(s,is¡ =2.90, podemos rechazar H 0 y llegar a la conclusión de que
existe evidencia de una diferencia entre los grupos de estimadores. Así pues, pode-
mos concluir que la conformación de bloques ha sido ventajosa para reducir el
error experimental.
Además de las suposiciones del análisis de varianza de una dirección mencio-
nadas anteriormente en la sección 14.4.6, necesitamos suponer que no hay efecto
de interacción entre los tratamientos y los bloques. Esto es, necesitamos suponer
que cualesquiera diferencias entre los tratamientos (restaurantes) son consistentes
a través del conjunto entero de bloques (el grupo de estimadores). El concepto de
interacción se analizará en la sección 14.10.4.

Figura 14.16
'Regiones de rechazo y de no rechazo para
el,estudio sobre la cadena de restaurantes
d~, comida rápida, al nivel de significación
de 0.05, con 5 y 15 grados de libertad.

14.8.4 Comparaciones múltiples: el procedimiento


deTukey
Como en el caso del modelo ANOVA de una dirección, cuando la hipótesis nula de
no diferencias entre los grupos de tratamiento es rechazada, necesitamos determi-
nar cuáles de estos grupos de tratamiento son significativamente diferentes de los
demás. Para el modelo de disefio de bloques aleatorizados, como los tamafios de
muestra de cada grupo de tratamiento son iguales, utilizamos un procedimiento
desarrollado por John Tukey (veánse referencias 6 y 14). El alcance crítico para el
procedimiento de Tukey está dado por la ecuación (14.17):

' . ·~ ,<!'

} ":' i"
¡? ,,;··;·-·,
'.
' (l~.17)
\ ~. ;, '

S66 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Cada uno de los c(c - 1)/2 pares de medias es comparado con respecto al
alcance crítico. Un par específico sería declarado diferente si la diferencia absoluta
de las medias de muestra 1 x.; -x.r
1 es mayor que el alcance crítico.
Para aplicar el procedimiento de Tukey, regresemos a nuestro estudio de la·
cadena de restaurantes de comida rápida. Como se tienen cuatro restaurantes, se
deben llevar a cabo (4)(4 - 1)/2 = 6 posibles comparaciones por pares. En la tabla
14.10 de la página 563, las diferencias medias absolutas son
i. lx.1 - x. 2 I =In.so - 66.671=10.83

2. lx. 1 - x3 I =In.so - 91.ool = 13.so


3. lx. 1 - x.41 =In.so - 79.331 = t.83
4. lx. 2 - x3 1= 166.67 - 91.ool = 24.33
s. lx. 2 - x.41 = 166.67 - 79.331 = 12.66
6. lx_ 3 - x.41 = 191.oo - 79.331 = 11.67
Para determinar el alcance crítico, utilizamos la tabla 14.11 de la página 565, para
obtener MSE = 14.986 y r = 6. De la tabla E.12 [para a= .05, e= 4 y (r-l)(c- 1) =
(6-1)(4-1) = 15], el valor crítico de extremo superior, Ouc4, 15), es de 4.08. Por con-
siguiente, utilizando la ecuación (14.17) tenemos

alcance crítico = 4.osJ 14 ·; 86 = 6.448

Observamos que todos los contrastes, excepto 1X. 1 - X. 4 1, son mayores que el
alcance crítico. Por consiguiente, podemos llegar a la conclusión de que existe evi-
dencia de una diferencia significativa en la asistencia promedio de todas las pare-
jas de restaurantes, excepto para las sucursales A y D. Además, la sucursal C tiene
la mayor asistencia (es decir, es el más preferido) y la sucursal Bes la de menor asis-
tencia (es decir, es la menos preferida).

14.8. 5 Comparación del diseño de bloques aleatorizados


respecto al diseño de una dirección
(completamente aleatorizado)
Ahora que hemos realizado el modelo de bloques aleatorizados y lo hemos uti-
lizado en el estudio de los restaurantes de comida rápida, surge la pregunta acerca
de qué efecto tiene la conformación de bloques sobre el análisis. Esto es, la con-
formación de bloques ¿tuvo como resultado un aumento en la precisión de la com-
paración de los diferentes grupos de tratamiento?
La eficiencia relativa (RE, por sus siglas: relative efficiency) estimada
del diseño de bloques aleatorizado, comparado con el diseño completamente
aleatorizado, puede calcularse con la ecuación (14.18):
... . ? •

.B_i ~ (r -·l)MSBL+ t(c-~·l~MSE


(14.18)
· · . ·' (re '- l)MSE .
. . . ' ' '

Así pues, de la tabla 14.11 de la página 565, para el estudio de la cadena de res-
taurantes de comida rápida, tenemos

Prueba F de bloque aleatorizado para diferencias en e medias 567


RE == (5)(56.676) + (6)(3)(14.986) == 1. 60
(23)(14.986)

Esto significa que se necesitarían 1.6 veces más observaciones en cada grupo de
tratamiento en un diseño ANOVA de una dirección para obtener la misma pre-
cisión en la comparación de las medias de los grupos de tratamiento que en el caso
de nuestro diseño de bloques aleatorizados.

Problemas de la sección 14. 8


14.31 Explique las diferencias entre el modelo de disefio de bloque aleatorizado y el
modelo de diseño completamente aleatorizado
14.32 Se ha disefiado un experimento de prueba de sabores, de modo que nueve
expertos van a evaluar cuatro marcas de café colombiano. Para evitar cualquier
efecto de interferencia, la secuencia de prueba de las cuatro marcas es determi-
nada aleatoriamente por cada uno de los nueve probadores expertos, hasta que
se alcanza una estimación en una escala de siete puntos (1 = extremadamente
malo, 7 =extremadamente bueno) respecto a cada una de las cuatro caracterís-
ticas siguientes: sabor, aroma, riqueza y acidez. La siguiente tabla muestra las
estimaciones conjuntas acumuladas para las cuatro características.

Evaluaciones sumadas de c_uatro


marcas de café colombiano
Marcas
Experto A B e D
E.B 24 26 25 22
N.B. 27 27 26 24
M.D. 19 22 20 16
M.H. 24 27 25 23
B.J. 22 25 22 21
R.]. 26 27 24 24
B.K. 27 26 22 23
B.M. 25 27 24 21
].S. 22 23 20 19

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, analice completamente los datos para
determinar si existe evidencia de una diferencia en las estimaciones con-
juntas de las cuatro marcas de café colombiano y, si ése es el caso, cuáles
de las marcas tienen los mayores resultados (es decir, son las mejores).
(c) t·f4ijil"1·1•> Basándose en sus resultados, escriba un borrador para un artículo
que pueda ser enviado al editor de la sección de alimentos del periódico local.
e 14.33 Un investigador médico desea efectuar un experimento para determinar si la
elección de la sustancia de tratamiento afecta el tiempo de coagulación de
plasma (en minutos). Se van a comparar cinco diferentes sustancias que mejo-
ran la coagulación (es decir, tratamientos) y se estudiarán siete pacientes
mujeres que se encuentran en la primera etapa del embarazo. Se tornaron
cinco muestras de sangre a cada paciente y cada una de éstas se asigna
aleatoriamente a cada uno de los cinco tratamientos. Los datos correspondien-
tes al tiempo de coagulación se muestran en la siguiente tabla:

568 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Sustancia de tratamiento
Paciente 1 2 3 4 5
1 8.4 8.1 8.5 8.6 8.5
2 10.3 10.0 9.9 10.6 10.2
3 12.4 11.8 12.3 12.5 12.2
4 9.7 9.8 9.9 10.4 10.4
5 8.6 8.4 9.7 9.9 9.5
6 9.3 9.6 10.3 10.5 10.2
7 11.l 10.6 11.6 10.9 11.4

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia en el
tiempo promedio de coagulación de plasma entre las cinco sustancias de
tratamiento?
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar la
sustancia de tratamiento que difiere respecto al tiempo promedio de
coagulación.
(d) Determine la eficiencia relativa del diseño de bloques aleatorizado
respecto al diseñ.o completamente aleatorizado.
(e) f.Aj119!.f.¡,, Escriba un informe para el investigador médico basándose en
los resultados anteriores.
14.34 Una nutrióloga desea comparar tres productos dietéticos bien conocidos.
Basándose en datos correspondientes a gordura (es decir, una función de la
altura y el peso), edad y metabolismo, clasifica a 18 de sus clientes hombres en
seis grupos de tres cada -uno y asigna aleatoriamente a un miembro de cada
grupo a uno de los tres tratamientos dietéticos. Los siguientes datos represen-
tan la cantidad de peso (en libras) perdido por los 18 clientes después de seis
semanas de tratamiento:

Tratamiento dietético
Grupos de clientes 1 2 3
1 10.4 12.1 9.0
2 9.8 14.5 9.6
3 7.3 10.0 9.8
4 7.5 9.9 10.7
5 8.6 14.2 11.1
6 10.7 10.5 10.5

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la
cantidad promedio de peso (en libras) perdido entre los tres tratamientos
dietéticos?
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar los
tratamientos dietéticos que difieren respecto a la pérdida promedio de
peso. (Utilice el nivel a = .OS)
(d) Determine la eficiencia relativa del diseñ.o de bloques aleatorizados
respecto al diseñ.o completamente aleatorizado.
(e) r.r;¡nq¡,z,f,) Escriba un informe que la nutrióloga pueda utilizar en futuras
recomendaciones dietéticas a sus clientes, basándose en los hallazgos de
este estudio.

Prueba F de bloque aleatorizado para diferencias en e medias 569


(5)(56.676) + (6)(3)(14.986)
RE 1.60
(23)(14.986)

l·\to significa que se necesitarían 1.6 veces más observaciones en cada grupo de
tratamiento en un diseño ANOVA de una dirección para obtener la misma pre-
cisiún en la comparación de las medias de los grupos de tratamiento que en el caso
dl' nuestro diseño de bloques aleatorizados.

Problemas de la sección I4. 8


14.31 Explique las diferencias entre el modelo de diseño de bloque aleatorizado y el
modelo de diseño completamente aleatorizado
14.32 Se ha diseñado un experimento de prueba de sabores, de modo que nueve
expertos van a evaluar cuatro marcas de café colombiano. Para evitar cualquier
efecto de interferencia, la secuencia de prueba de las cuatro marcas es determi-
nada aleatoriamente por cada uno de los nueve probadores expertos, hasta que
se alcanza una estimación en una escala de siete puntos (1 =extremadamente
malo, 7 =extremadamente bueno) respecto a cada una de las cuatro caracterís-
ticas siguientes: sabor, aroma, riqueza y acidez. La siguiente tabla muestra las
estimaciones conjuntas acumuladas para las cuatro características.

Evaluaciones sumadas de cuatro


marcas de café colombiano
Marcas
Experto A B e D

E.B 24 26 25 22
N.B. 27 27 26 24
M.D. 19 22 20 16
M.H. 24 27 25 23
B.]. 22 25 22 21
R.J. 26 27 24 24
B.K. 27 26 22 23
B.M. 25 27 24 21
].S. 22 23 20 19

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, analice completamente los datos para
determinar si existe evidencia de una diferencia en las estimaciones con-
juntas de las cuatro marcas de café colombiano y, si ése es el caso, cuáles
de las marcas tienen los mayores resultados (es decir, son las mejores).
(c) M4il?"1·f•J> Basándose en sus resultados, escriba un borrador para un artículo
que pueda ser enviado al editor de la sección de alimentos del periódico local.
e 14.33 Un investigador médico desea efectuar un experimento para determinar si la
elección de la sustancia de tratamiento afecta el tiempo de coagulación de
plasma (en minutos). Se van a comparar cinco diferentes sustancias que mejo-
ran la coagulación (es decir, tratamientos) y se estudiarán siete pacientes
mujeres que se encuentran en la primera etapa del embarazo. Se tomaron
cinco muestras de sangre a cada paciente y cada una de éstas se asigna
aleatoriamente a cada uno de los cinco tratamientos. Los datos correspondien-
tes al tiempo de coagulación se muestran en la siguiente tabla:

568 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Sustancia de tratamiento
Paciente 1 2 3 4 5
1 8.4 8.1 8.5 8.6 8.5
2 10.3 10.0 9.9 10.6 10.2
::\ 12.4 11.8 12.3 12.5 12.2
4 9.7 9.8 9.9 10.4 10.4
5 8.6 8.4 9.7 9.9 9.5
6 9.3 9.6 10.3 10.5 10.2
7 11.1 10.6 11.6 10.9 11.4

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia en el
tiempo promedio de coagulación de plasma entre las cinco sustancias de
tratamiento?
(e) Si es adecuado, utilice el procedimiento de Tukey para determinar la
sustancia de tratamiento que difiere respecto al tiempo promedio de
coagulación.
(d) Determine la eficiencia relativa del diseño de bloques aleatorizado
respecto al diseño completamente aleatorizado.
(e) t.t;il'J"1·1» Escriba un informe para el investigador médico basándose en
los resultados anteriores.
14.:=!4 Una nutrióloga desea comparar tres productos dietéticos bien conocidos.
Basándose en datos correspondientes a gordura (es decir, una función de la
altura y el peso), edad y metabolismo, clasifica a 18 de sus clientes hombres en
seis grupos de tres cada uno y asigna aleatoriamente a un miembro de cada
grupo a uno de los tres tratamientos dietéticos. Los siguientes datos represen-
tan la cantidad de peso (en libras) perdido por los 18 clientes después de seis
semanas de tratamiento:

Tratamiento dietético
Grupos de clientes 1 2 3
1 10.4 12.1 9.0
2 9.8 14.5 9.6
3 7.3 10.0 9.8
4 7.S 9.9 10.7
5 8.6 14.2 11. l
6 10.7 10.5 10.S

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la
cantidad promedio de peso (en libras) perdido entre los tres tratamientos
dietéticos?
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar los
tratamientos dietéticos que difieren respecto a la pérdida promedio de
peso. (Utilice el nivel a= .OS)
(d) Determine la eficiencia relativa del diseño de bloques aleatorizados
respecto al diseño completamente aleatorizado.
(e) t.f;ii'Jl·t.I» Escriba un informe que la nutrióloga pueda utilizar en futuras
recomendaciones dietéticas a sus clientes, basándose en los hallazgos de
este estudio.

Prueba F de bloque aleatorizado para diferencias en e medias S69


14.35 El decano de una bien conocida escuela de negocios desea estudiar el proceso de
evaluación estudiantes-planta docente en su campus, pues tal evaluación se utiliza
en decisiones de reasignación, promoción e inamovilidad. En particular, está
interesado en determinar la estructura educativa más apropiada para lograr evalua-
ciones de la planta docente más altas por parte de los estudiantes. Las estructuras
son: cursos de licenciatura, cursos avanzados de bachillerato o cursos de requisito
del bachillerato. Como la carga de trabajo semestral de la planta docente en esta
institución es de tres cursos, el decano tomó una muestra aleatoria de diez
docentes de su escuela, quienes habían sido asignados a un curso de cada una de
las ya mencionadas tres estructuras educativas y recuperó sus formas de evaluación
de final de semestre. Los resultados que se presentan a continuación son las evalua-
ciones promedio sobre una escala de cinco puntos (1 = muy pobre, 5 =sobre-
saliente) respecto a la pregunta: ¿En comparación con otros maestros que has
tenido, cómo evaluarías la habilidad para enseñar de este profesor?; cada una de las
evaluaciones provienen de grupos formados con 25-30 estudiantes.

Nivel de Estudio
Miembro Curso de Hachillerato
docente bachillerato avanzado Requisitos

L.M. 4.12 4.06 3.38


N.R. 4.87 4.72 4.60
A.C. 3.46 3.49 2.39
J.K. 3.87 3.61 3.23
J.B. 4.04 3.83 3.55
D.B. 2.90 3.23 3.52
W.F. 4.16 4.07 :~.68
R.S. 4.19 3.76 3.83
M.L. 4.75 4.39 4.22
V.P. 4.29 4.34 3.67

(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Utilizando un nivel de significación ex= .05, ¿Existe alguna evidencia de
una diferencia en las evaluaciones, basándose en el tipo de clase?
(e) Si es apropiado, utilice el procedimiento de Tukey para determinar 4ué
tipos de clases difieren en sus evaluaciones (Utilice el nivel ex= .OS.)
(d) Determine la eficiencia relativa del diseño de bloques aleatorizados con
respecto al diseño completamente aleatorizado.
(e) r·Ai!IJM·f•> Escriba un memorándum que el decano pueda enviar a sus jefes
de departamento tomando en cuenta los resultados de los incisos (b) y (c), y
que les sea de ayuda en la toma de decisiones respecto a reasignación, pro-
moción y/o inamovilidad, basándose en las evaluaciones de la enseñanza.

Problemas intercapítulo de la sección 14.8


14.36 En el problema 13.62 de la página 509, usted utilizó una prueba t para com-
parar el desgaste promedio basándose en dos tipos de material que se usa para
las suelas de zapatos.
(a) Utilice la prueba F de bloques aleatorizados en este conjunto de datos.
(Use el nivel ex= .OS.)
(b) Eleve al cuadrado el valor de t que calculó en el problema 13.62; observe
que es el mismo (excepto por error de redondeo) que el valor F. Exprese
con sus propias palabras la relación que hay entre t y F.
e 14.37 En el problema 13.63 de la página 510, usted utilizó una prueba t para comparar el
kilometraje de gasolina promedio entre gasolina regular y de alto octanaje.
(a) Utilice la prueba F de bloques aleatorizados en este conjunto de datos.
(Use el nivel ex= .05.)
(b) Eleve al cuadrado el valor de t que calculó en el problema 13.63; observe
que es el mismo (excepto por error de redondeo) que el valor F. Exprese
con sus palabras la relación que hay entre t y F.

S70 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


1 eK·l Prueba de rango de Friedman para diferencias
en e medianas

14.9.1 Introducción
A menudo sucede que, a pesar de que el modelo de diseño de bloques aleatoriza-
dos se considera apropiado para un experimento particular, podemos preferir
alguna alternativa libre de distribución a la prueba F de bloques aleatorizados, para
analizar los datos. Si los datos recolectados se encuentran solamente en forma de
rango dentro de cada bloque o si no se puede suponer la normalidad, se puede uti-
lizar un procedimiento sencillo pero bastante poderoso conocido como prueba
de rango de Friedman.

14.9.2 Desarrollo
La prueba de rangos de Friedman se utiliza principalmente para probar si e grupos
de muestra han sido tomados de poblaciones que tienen medianas iguales. Es
decir, podemos probar la hipótesis

Ho: M1 = Mz = ... =Me


contra la hipótesis alternativa:
H 1: No todas las M¡ son iguales (en la que j = 1, 2, ... ,e)

Para desarrollar la prueba, primero sustituimos los datos por sus rangos, en
cada uno de los bloques. Esto es, en cada uno de los r bloques independientes susti-
tuimos las e observaciones por sus correspondientes rangos, de modo que el rango
l es asignado a la observación más pequeña y el rango e a la observación más
grande. Si algunos de los valores del bloque son iguales, se les asigna el promedio
de los rangos que les serían asignados si no hubiera habido empates. Así pues, R;¡
es el rango (de 1 a e) asociado con el j-ésimo grupo (en el que j = 1, 2, ... , e) en el
i-ésimo bloque (con i = 1, 2, ... , r).
Bajo la hipótesis nula de no diferencias en los e grupos, cada asignación de ran-
gos dentro de un bloque es igualmente probable. Así pues, existen e! formas posibles
de asignar rangos dentro de un bloque particular y (e!)' posibles ordenamientos de
rangos sobre los r bloques independientes. Además, si la hipótesis nula es verdadera,
no habría diferencias reales entre los rangos promedio de cada grupo (tomados sobre
los r bloques).
De lo anterior se puede derivar la siguiente estadística de prueba FR:

12 e
---.LR~ - 3r(c + 1) (14.19)
rc(c + 1) i=I ·

en la que
R.f es el cuadrado del total de los rangos para el grupo j (j = 1,
2, ... ,e).
r es el número de bloques independientes.
e es el número de grupos.
A medida que el número de bloques del experimento se hace grande (mayor
que 5), la estadística de prueba FR puede ser aproximada por la distribución chi-
cuadrada, con e - 1 grados de libertad. Así pues, para cualquier nivel elegido de sig-

Prueba de rango de Friedman para diferencias en e medias 571


nificancia, a, la regla de decisión sería rechazar la hipótesis nula si el valor caku-
lado de FR es mayor que el valor crítico de extremo superior de la distribución chi-
cuadrada, con e - 1 grados de libertad, como se muestra en la figura 14.17. Esto es
Rechazar H0 si FR > x2 u(c-l)i
en cualquier otro caso, no rechazar H0 .
Los valores críticos x2 se presentan en la tabla E.4.

Figura 14. 17 ' 2 '


Determinación de la región de ·,, }l!(c-1)
rechazo.

14.9.3 Aplicación
Para ilustrar la prueba de rangos de Friedman para diferencias en e medianas, regre-
semos a nuestro estudio sobre la cadena de restaurantes de comida rápida de la sec-
ción anterior. Podemos recordar que el director de investigaciones de la cadena
diseñó un experimento de bloques aleatorizados en el cual 24 investigadores fueron
estratificados en seis bloques de cuatro, basándose en la experiencia en evaluación
de servicio de comida, y los cuatro miembros de cada bloque fueron asignados
aleatoriamente para evaluar el servicio en uno de los cuatro restaurantes que posee
la cadena. Los resultados del experimento se presentan en la tabla 14.1 Ode la página
563, junto con algunos cálculos sumarios y una gráfica de dispersión que se mues-
tra en la figura 14.14 de la página 564, de modo que se pueda realizar una evalua-
ción exploratoria visual de las tendencias y las relaciones potenciales, así como de
las violaciones en las suposiciones de los procedimientos de prueba particulares. Si
el director de investigación no desea ha.cer la suposición de que las evaluaciones de
servicio se encuentran distribuidas normalmente en cada restaurante, se puede em-
plear la prueba de rangos de Friedman, libre de distribución, para diferencias en las
cuatro medianas de población.
La hipótesis nula que se va a probar es que las medianas de las evaluaciones de
servicio de los cuatro restaurantes son iguales; la hipótesis alternativa es que al
menos una de las medianas de los restaurantes difiere de las otras. Así pues, susti-
tuyendo 1, 2, 3, 4 por A, B, C, D, tenemos:

H0 : M. 1 = M. 2 = M. 3 = M.4.
H1: No todas las medianas son iguales

Convirtiendo las 24 evaluaciones de servicio de la tabla 14.10 (página 563) a


rangos dentro de cada bloque, obtenemos la tabla 14.12. Como se muestra en esta
tabla, se obtuvo la suma de los rangos para cada grupo:
Sumas de rangos: R. 1 =14.S R. 2 = 6.0 R. 3 = 24.0 R.4 = 15.S

572 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Tabla 14. 12 Conversión de datos a rangos dent;ro
de los bloques.
Bloques Restaurantes
de
evaluadores A B e D
1 2.0 1.0 4.0 3.0
2 3.0 1.0 4.0 2.0
3 2.0 1.0 4.0 3.0
4 3.0 1.0 4.0 2.0
5 2.5 1.0 4.0 2.5
6 2.0 1.0 4.0 3.0
Total de rangos: 14.5 6.0 24.0 15.5
Fuente: Los datos fueron tomados de la tabla 14.10 de la página 563.

Como una verificación de la asignación de rangos tenemos

rc(c + 1)' .·· '.,. J:


R.1 +R.2+R:3·= 2 ··~' ' 'Jh
0

.(Í~.20)

Para nuestros datos, utilizando la ecuación (14.20):

14.5 + 6 + 24 + 15.5 = ( 6 )( 4 )( 5 )
2
60 = 60

Usando, ahora, la ecuación (14.19), obtenemos:

12
FR = (
re e+ 1
) L' R.
1=1
2
1 - 3r(c + 1)

= {c6)~)(5) [14.5 2 + 6.0 2 + 24.0 2 + 15.5 2 ] } - (3)(6)(5)

= ( 1~~ ]<1,062.5) - 90

= 106.25 - 90 = 16.25

Puesto que la estadística de prueba FR calculada es mayor que 7.815, el valor crítico
de extremo superior de la distribución chi-cuadrada, con e -1 = 3 grados de liber-
tad (véase tabla E.4), la hipótesis nula puede ser rechazada al nivel de significación
de a= .05. Podemos llegar a la conclusión de que existen diferencias significativas
(percibidas por los estimadores) respecto al servicio prestado en los cuatro restau-
rantes.
Podemos observar que éstos son los mismos resultados que se obtuvieron para
los datos utilizando la prueba F de bloques aleatorizados de la sección 14.8.

Prueba de rango de Friedman para diferencias en e medias S73


14.9.4 Comparaciones múltiples: procedimiento
de Nemenyi
Ya que rechazamos la hipótesis nula y llegamos a la conclusión de que existía evi-
dencia de una diferencia significativa entre los restaurantes en lo que respecta a las
medianas de las estimaciones de servicio, el siguiente paso consiste en una com-
paración simultánea de todas las parejas posibles de restaurantes, para determinar
cuál o cuáles difieren de los demás. Como el paso siguiente de la prueba de rangos
de Friedman, describiremos un procedimiento de comparación múltiple post hoc o
a posteriori propuesto por P. Nemenyi (véase referencia 9).
En general, con e grupos de tratamiento o niveles de un factor, existen c(c- 1)/2
posibles comparaciones por parejas que se deben realizar. El primer paso consiste
en obtener el rango promedio, R.¡ para cada uno de los j grupos (con j = 1, ... ,e).
1

De la ecuación (14.19), podemos recordar que cuando calculamos la estadística de


prueba FR, obtuvimos el !_otal de los rangos, R.¡ de cada grupo. Así pues, para cal-
cular el rango promedio R.¡ para el j-ésimo grupo, tenemos

R·.1 = -R.¡ (dondej= 1, ... , e)


n;

Luego calculamos las diferencias R.¡ - R.¡' (en la que j ;t: j') entre todas las
c(c - 1)/2 parejas de rangos promedio. El alcance crítico para el procedimiento de
Nemenyi se obtiene de

(14.21)

en la que, para un nivel seleccionado de significación ex, Qu [e, ooJ es el valor crítico
de extremo superior de una distribución de rangos studentizada (tabla E.12),
con e e = grados de libertad. Podemos recordar que la estadística Q se utilizó tam-
bién en la obtención de los alcances críticos de las comparaciones múltiples que se
realizaron después del rechazo de la hipótesis nula acerca de la igualdad de e
medias tanto en la prueba F ANOVA clásica de una dirección y la prueba F de blo-
ques aleatorizados.
El paso final consiste en comparar cada uno de los c(c - 1)/2 pares de rangos
promedio obtenidos con la ecuación (14.21). Una pareja específica de grupos sería
declarada significativamente diferente si la diferencia absoluta en sus correspon-
dientes rangos promedio es mayor que el alcance crítico.
Para aplicar el procedimiento de Nemenyi a nuestro estu_<;l.io de la cadena de
restaurantes de comida rápida, primero obtenemos los rangos promedio sobre los
cuatro grupos de las correspondientes sumas de rangos dadas en la página 5 72:

Sumas de rangos: R_ 1 14.5 R. 2 = 6.0 R. 3 = 24.0 R.4 = 15.5


Rangos promedio: R. 1 2.42 R..2 = i.oo R..3 = 4.00 R..4 = 2.58

Existen (4)(4 -1)/2 = 6 comparaciones por pareja que se deben realizar porque exis-
ten cuatro restaurantes. Las diferencias absolutas de los rangos promedio son
l. IR.1 - R.21 = 12.42 - l.OOI = 1.42
2. IR.1 - R.31 = J2.42 - 4.00J = 1.58
3. JR".1 - R.41 = \2.42 - 2.58\ = 0.16

S74 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


4. IR.2 - R".31 = 11.00 - 4.001 = 3.oo
s. IR.2 - R".41 = 1i.oo - 2.581 = 1.58
6. ¡R3 - R.41 = 14.00 - 2.581 = 1.42
Puesto que los tres grupos tienen el mismo tamaño de muestra, solamente hay un
alcance crítico que sería utilizado en todas las comparaciones posibles. Al selec-
cionar un nivel de significación de 0.05, determinamos el alcance crítico de la
ecuación (14.21) obteniendo primero Qu(4, ¡ = 3.63 de la tabla E, 12, de modo que
00

,. Q c(c + 1)
a1canee cnhco = U[4.-l 12 r

= 3.63

= 1.91

Observamos que solamente la cuarta comparación por parejas ( 1R. 2 - R. 3 1= l 1.00 -


4.001 =3.00) es mayor que el alcance crítico de 1.91, de manera que el director de
investigación puede llegar a la conclusión de que el servicio en el restaurante C es
significativamente mejor que el del restaurante B, pero no hay evidencia de una
diferencia significativa en las estimaciones de servicio entre cualquiera de las
demás parejas de restaurantes. Podemos recordar que si el director elle investigación
hubiera utilizado el procedimiento paramétrico de Tukey, descrito en la sección
14.8.4, hubiera llegado a la conclusión de que hay una diferencia significativa en
las estimaciones promedio de servicio entre todas las parejas de restaurantes de la
cadena, excepto para los restaurantes A y D.
Debido a los resultados conflictivos que obtuvimos, el procedimiento de Tukey
deberá utilizarse después de llevar a cabo una prueba F de bloques aleatorizados, si
la suposición de normalidad en las cuatro poblaciones subyacentes es viable. Si no,
se deberá utilizar el procedimiento de Nemenyi como el siguiente paso de la prueba
de rangos de Friedman.

Problemas de la sección 14. 9


e 14.38 El consejo de presidentes de la empresa Physical Fitness and Sports consultó a
un grupo de expertos médicos para clasificar cinco formas distintas de ejerci-
cios respecto a su contribución a la condición física y al bienestar físico gene-
ral. La clasificación (1 =menos benéfico, 5 =más benéfico) se muestra a
continuación para cada una de las nueve características igualmente impor-
tantes de condición y bienestar físicos.

Ejercicio
Característica Ciclismo Calistenia Trote Natación Tenis
Equilibrio 5.0 2.0 4.0 1.0 3.0
Digestión 2.5 1.0 4.5 4.5 2.5
Flexibilidad 1.5 5.0 1.5 4.0 3.0
Definición muscular 4.0 5.0 2.5 2.5 1.0
Resistencia muscular 3.0 1.0 4.5 4.5 2.0
Fortaleza muscular 3.5 3.5 5.0 1.5 1.5
Sueño 3.0 2.0 4.5 4.5 1.0
Estamina 3.0 1.0 4.5 4.5 2.0
Control de peso 4.0 1.0 5.0 2.0 3.0

Prueba de rango de Friedman para diferencias en e medias S7S


(a) ¿Existe evidencia de una diferencia en las estimaciones de "beneficio
percibido" de las cinco formas de ejercicio? (Utilice el nivel ex= .OS.)
(Sugerencia: trate las nueve características como bloques.)
(b) Basándose en los resultados obtenidos en el inciso (a), utilice el procedi-
miento de Nemenyi para determinar qué ejercicios son más benéficos.
(Utilice el nivel a.= .OS.)
(c) f·fOiiM•z.t•> Escriba una carta a un amigo en la que describa sus hallazgos.
14.39 El locutor de un programa radial sobre deportes en Estados Unidos encuestó a
su audiencia para determinar qué equipos fueron los más dominantes en el
deporte profesional durante el inicio de la década de los noventa. Los equipos
seleccionados por los aficionados fueron Atlanta Braves de beisbol, Dallas
Cowboys en futbol americano, Chicago Bulls en basquetbol y los Pittsburgh
Penguins en hockey sobre hielo. Luego formó un panel de 10 expertos y les
pidió que clasificaran estos equipos desde 1 (más dominante) hasta 4 (menos
dominante). Los resultados se presentan a continuación:

Equipo
Braves de Cowboys de Bulls de Penguins
Experto Beisbol futbol americano basquetbol de hockey
B.M. 3 2 1 4
L.D. 2 1 3 4
H.C. 1 3 4 2
F.C. 4 1 2 3
T.J. 2 3 1 4
T.A. 1 2 3 4
H.B. 3 1 2 4
H.D. 3 2 1 4
T.D. 3 1 2 4
S.D. 4 2 3 1

(a) Al nivel de significación de O.OS, analice completamente los datos para


determinar si existe evidencia que muestre que los cuatro equipos
deportivos no son considerados como igualmente dominantes y, si ése es
el caso, cuáles son considerados mejores.
(b) f.fíJiM·t.f.P Escriba una carta al locutor del programa deportivo en la que
le indique cómo interpretaría usted los resultados del inciso (a).
14.40 Se diseña un experimento psicológico para determinar si existen diferencias en
la habilidad para recordar debidas a diferentes niveles de observación de un
objeto. Se consideraron tres niveles de observación (en milésimas de segundo).
Se escogieron ocho conjuntos de tres miembros como sujetos. En cada uno de
los ocho conjuntos, los miembros son asignados aleatoriamente para ser
examinados bajo un nivel de observación.

Nivel de observación
Conjunto de tercias
(sujetos) Mínimo Moderado Alto
I SS 68 67
II 78 83 84
III 34 53 54
IV 56 67 65
V 79 78 85
VI 20 29 30
VII 68 88 92
VIII 59 58 72

(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en la


mediana de la habilidad para recordar entre los niveles de observación?

576 Capitulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


(b) Si es adecuado, utilice el procedimiento de Nemenyi para determinar los
niveles de observación que difieren en la habilidad promedio para recor-
dar. (Utilice el nivel a= .OS.)
(c) t·liii!W•f·f·> Escriba un memorandum a su profesor de psicología industrial
con relación a los resultados y posibles implicaciones en la publicidad.
14.41 Utilice la prueba de rangos de Friedman y, si es adecuado, el procedimiento de
Nemenyi para responder al inciso (b) del problema 14.32 (evaluación de café) de
la página S68. (Utilice el nivel a= .OS.) ¿Hay algunas diferencias en sus resultados
actuales con relación a los obtenidos anteriormente? Explique su respuesta.
e 14.42 Utilice la prueba de rangos de Friedman y, si es adecuado, el procedimiento de
Nemenyi para responder a los incisos (b) y (c) del problema 14.33 (tiempo de coa-
gulación) de la página S68. (Utilice el nivel a= .OS.) ¿Existen algunas diferencias en
los resultados actuales y los obtenidos anteriormente? Explique su respuesta.
14.43 Utilice la prueba de rangos de Friedman y, si es adecuado, el procedimiento de
Nemenyi para responder a los incisos (b) y (c) del problema 14.3S (resultados
de la evaluación estudiantes/planta docente) de la página 570. (Utilice el nivel
a= .OS.) ¿Existen algunas diferencias en los resultados actuales y los obtenidos
anteriormente? Explique su respuesta.

11 Hl•l El modelo de diseño factorial y el análisis de


dos direcciones de varianza

14.1 O. 1 Introducción
En las secciones 14.3 a 14.6 estudiamos el análisis de varianza de una dirección o el
modelo de diseño completamente aleatorizado, y en las secciones 14.7 a 14.9 intro-
dujimos el modelo de diseño de bloques aleatorizados. En la presente sección exten-
deremos nuestro análisis al estudio de un modelo de diseño experimental en el cual
dos factores son de interés. Los dos factores pueden ser diferentes con respecto al nú-
mero de niveles (o grupos) que contengan. Sin embargo, centraremos nuestra aten-
ción solamente en situaciones en las que se tienen tamaños de muestra iguales, n',
para cada combinación de los niveles del factor A con los del factor B. (Véase refe-
rencia 1 para un análisis de los modelos ANOVA con tamaños de muestra diferentes.)

14. 10.2 Desarrollo


Con el propósito de extender nuestro estudio al análisis de varianza y desarrollar
los procedimientos de prueba F para el modelo de diseño factorial de dos factores
con igual réplica 6, necesitamos definir los siguientes términos:

X¡¡k = valor de la k-ésima observación del nivel i del


factor A y del nivel j del factor B
X¡¡. = suma de los valores de la celda ij (las observaciones del nivel i del
factor A y del nivel j del factor B)
Xi.. = suma de los valores de la hilera i del factor A
X.¡. = suma de los valores de la columna j del factor B
GT =gran total de todos los valores en todas las hileras y columnas
r = número de niveles del factor A
e = número de niveles del factor B
n' =número de valores (réplicas) para cada celda
n = número total de observaciones del experimento (con n = rcn1

El modelo de diseño factorial y el análsis de dos direcciones de varianza 577


Estos nuevos términos son necesarios para el uso de fórmulas de computo en el aná-
lisis de los datos obtenidos de los experimentos de diseño factorial de dos factores.
Con fines ilustrativos, presentamos planteamientos tanto conceptuales como de
cálculo para la descomposición de la variación total necesaria en el desarrollo de los
procedimientos de prueba F. Sin embargo, debido a la cantidad de cálculos implica-
dos, en particular a medida que el número de niveles de cada factor aumenta al igual
que aumenta el número de réplicas en cada celda, sugerimos enfáti-camente que se
utilice alguno de los paquetes de software estadísticos, de los muchos que se encuen-
tran disponibles, cuando se analicen los datos obtenidos de los modelos de diseño
factorial.
De la figura 14.1 (pág. 528) recordamos que en el modelo de diseño completa-
mente aleatorizado, el total de la suma de cuadrados (o SST) se subdivide en la
suma de cuadrados entre grupos (SSA) y en la suma de cuadrados dentro.de lo gru-
pos (SSW). También, de la figura 14.13 (página 559), observamos que en el mode-
lo de diseño de bloques aleatorizados, la variación total (es decir, SST) se dividió en
la suma de cuadrados entre grupos de tratamiento (SSA), la suma de cuadrados
entre bloques (SSBL) y la suma de errores al cuadrado (SSE). Para el modelo de dise-
ño factorial de dos factores con réplica (es decir, n' > 1 en cada celda), necesitamos
dividir la variación total (SST) en la suma de cuadrados debidos al factor A (o SSFA),
la suma de cuadrados debidos al factor B (o SSFB), la suma de cuadrados debidos al
efecto de interacción de A y B (o SSAB) y la suma de cuadrados debidos al error
aleatorio inherente (o SSE). Esta descomposición de la variación total (SST) se pre-
senta en la figura 14.18.

; ,_1.'

.:····· .· '
, .. ·
"

Vari$ciórt aléatorla (SSE)

Figura 14.18
División de la variación total de un modelo de diseño factorial
de dos factores.

La suma del total de cuadrados (o SST) representa la variación total entre


todas las observaciones alrededor de la gran media. SST se puede calcular como

' '· ,·,·. ,,, ... ,·t·


' \ ·.'. '.J.•;"''.~!"; J .: ,,:. :'."¡ !; • ·~ • ;<' e , >,!' ''"¡' I•.
, r,.. e . n' r' · .··¿.·'.:)~'; .
(GT) 2
SST = L I, L (X,¡k - X )2 = L L L.x:k•. ---·-· (14.22)
1 =.1; '." i_,k,~ 1, .: : ~·'.;·,!;':;H.f:1~ ~.r::,
,· r'L''

Í Í fxijk
donde j( = ; = 1 ; = 1 k= 1 (esto es, la gran media o media general
rcn'

La suma de cuadrados debida al factor A (o SSFA) representa las diferen-


cias entre los diferentes niveles del factor A y la gran media. SSFA se puede calcu-
lar como

578 Capítulo 14 ANOVA y otras pruebas de c muestras con datos numéricos


:··;'

• j r ' '~ .. · ;;,· 2 . . r X~ '(GT) 2 •. •


SSFA::: cn'_L(X;;."'""X)· .. = _L~-~
' . .• . • . ; = i. • .·. .•·. ; = 1 en : r~n

e n'
.L _Lxijk
donde X;,.= 1 = 1 k= 1 (esto es, la media de cada nivel del factor A)
en'

La suma de cuadrados debida al factor B (o SSFB) representa las diferen-


cias entre los diferentes niveles del factor By la gran media. SSFB se puede calcular
como

' . . e . X} (GT)2
SSFB = rn, '.~
k
(x:, . - X) 2
1=1
-
- Ik=1
"" - -
rn' , rcn'----'"- (14.24)

r n'

I,I,xi,k
-
donde X. 1. = i=lk=I (esto es, la media de cada nivel del factor B)
rn'

La suma de cuadrados debida al efecto de interacción de A y B (o SSAB)


representa el efecto de las combinaciones del factor A y el factor B. SSAB se puede
calcular como

· r e . . ..
. St!AB = n~;L _¿ (X1w7.X:1::·-(X:~1.;¡t¡tXJ2 r .• ,
•" 1. =:.l ¡.,,,,, 1 ' . . . ·.
(14~25) •'

. <' F %,~·~! ¿t:~~i~,i~(~~;' , ;' t·/ .'·. L·:~ ·


·. ¡'

: 1:·.1

.·::.:> .·

n' X
donde X11 . = L ~ (esto es, la media de cada celda)
k =1 n

La suma de errores cuadrados (o SSE) representa las diferencias entre las


observaciones de cada celda y la correspondiente media de celda. SSE puede calcu-
larse como

(14,26)

Puesto que existen e niveles de tratamiento del factor A, se tienen e - 1 grados


de libertad asociados con SSA. De forma parecida, como existen r niveles de
tratamiento del factor B, se tienen r - 1 grados de libertad asociados con SSB.
Además, como existen n' réplicas en cada uno de las re celdas, se tienen rc(n' - 1)

El modelo de diseño factorial y el análsis de dos direcciones de varianza 579


grados de libertad asociados con el término correspondiente al error aleatorio
inherente. Avanzando un poco más en este sentido, existen n - 1 grados de liber-
tad asociados con la suma del total de cuadrados (SST) porqu~ cada observación
X¡¡k está siendo comparada con la media general o gran media, X, basándose en las
n observaciones. Por consiguiente, puesto que los grados de libertad de cada una
de las fuentes de variación deben agregarse a los grados de libertad de la variación
total (SST), podemos obtener los grados de libertad para la componente de inter-
acción (SSAB) mediante sustracción y algo de manipulación algebraica.7 Los gra-
dos de libertad están dados por (r- l)(c - 1).
Si cada una de las sumas de cuadrados se divide entre sus grados de libertad
asociados, obtendremos los cuatro términos de varianza o cuadráticos medios
(MSFA, MSFB, MSAB y MSE) necesarios para efectuar ANOVA:

MSFA = SSFA (14.27a)


r-1

MSFB = SSFB (14.27b)


c-1

MSAB = SSAB
(r - l)(c - 1) (14.27c)

. MSE
··
=· rc(n'SSE-1) (14.27d).

En el modelo ANOVA de dos factores existen tres pruebas distintas que pueden
llevarse a cabo. Si suponemos que los niveles del factor A y los del factor B fueron
específicamente seleccionados para el análisis (en lugar de ser seleccionados aleato-
riamente de una población de niveles posibles), entonces hubiéramos tenido las
siguientes tres pruebas de hipótesis:
Para probar la hipótesis de no diferencia debida al factor A

Ho: µl.. = µz .. = ··· = µ, ..


contra la hipótesis alternativa
H 1: No todas las µi.. son iguales
formamos la estadística F

F = MSFA , (14.28)
MSE

y la hipótesis nula sería rechazada al nivel de significación, a., si

F _ MSFA F,
- MSE > U[(r-1 ),rc(n'-1)]

580 Capítulo 14 ANOVA y otras pruebas de e muestras con datos num(!ricos


Para probar la hipótesis de no diferencia debida al factor B

Ho: µ.l. =µ.z. = ··· = µ.c.


contra la hipótesis alternativa

H 1: No todas lasµ.¡. son iguales

formamos la estadística F

F = MSFB (14.29)
· MSE

y la hipótesis nula sería rechazada al nivel de significación a, si

F _ MSFB R
- MSE > U[(c-1),rc(n'-1)]

Para probar la hipótesis nula de no interacción de los factores A y B


H0 : AB¡¡ =O (para todos i y j)
contra la hipótesis alternativa

H 1 : AB¡¡ ~O

formamos la estadística F

F=•.-·-.
MSÁB (14.30)
. ..MSE

y la hipótesis nula sería rechazada al nivel de significación a, si

F _ MSAB F:
- MSE > U[(r-l)(c-1),rc(n'-1)]

Como en las secciones 14.4.2 y 14.8.2, el conjunto completo de pasos puede


resumirse en una tabla de análisis de varianza (ANOVA), como la tabla 14.13, de la
página 582.

14. 1 O. 3 Aplicación
Para ilustrar el modelo de diseño factorial de dos factores, suponga que el director
de investigaciones de mercado de una cadena de supermercados está interesado en
el estudio del efecto de la colocación de los estantes sobre la venta de un producto.
Se estudiarían cuatro lugares distintos donde colocar los estantes: colocación nor-
mal (A), colocación adicional en la tienda (B), nueva colocación solamente y un

El modelo de diseño factorial y el análsis de dos direcciones de varianza SB I


Tabla 14. 1J Tabla de análisis de varianza para e modelo de dos factores con réplica.
Grados Cuadrado medio
Fuente de libertad Sumas de cuadrados (varianza) F

A r - 1 MSFA = SSFA F = MSFA


r- 1 MSE

' X~ (GT) 2
B c-1 L rn' -
i= 1
rcn'
MSFB = SSFB
c-1
F = MSFB
MSE
r e X2 r 2 e XZ 2
~ ~ .......!!:.. _ ~ ~ _ ~ _;. + (GT) MSAB = SSAB F = MSAB
AB (r - l)(c - 1) H~ n' H en' ~ rn' rcn' (r - l)(c - 1) MSE

Error rc(n' - 1) MSE = SSE


rc(n' - 1)
r e n' 2 (GT)2
Total rcn' - 1 LLLX;;k -
i = 1 ; = 1k=1
rcn'

"anunciador del producto" (C) y colocación normal con "listones de propaganda"


(O). Se tomaron tres tamaños de tienda diferentes: pequeña, mediana y grande.
Para cada colocación de estantes se seleccionó una muestra aleatoria de dos tiendas
de cada tamaño. Los resultados en ventas semanales se resumen en la tabla 14.14 .

.
T a bl a 14 14 Vientas semana es por tamano ., d e estantes.
- d e t1en d a y co ocac1on
Tamaño de tienda
Colocación A B e D Totales Medias
de estante
Pequeña 45 56 65 48
so 63 71 53 451 56.375
Mediana 57 69 73 60
65 78 80 57 539 67.375
Grande 70 75 82 71
78 82 89 75 622 77.750
Totales 365 423 460 364 1,612
Medias 60.83 70.50 76.67 60.67 67.167

De esta tabla tenemos:


r=3, c=4, n'=2, xl.. = 451, Xz .. = 539, X3 .. = 622
x.i. = 365, X. 2 . =423, x. 3 . = 460, x.4. = 364, GT= 1,612
Xu. =95, X 12. = 119, x13. = 136, X 14 . = 101, Xzi. = 122, X 22 . = 147
X 23 . = 153, X 24 . = 117, x 3_i. = 148, X3 2. = 157, X33 . = 171, X3 4 , = 146
r e n¿
:¿ 'L rx~k = 45 2 + 50 2 + ... + 75 2 =111,s50
i=li=lk=l

X2 +
451 2 539 2 622 2 +
;=1
¿
r
i..
en'
- ------
(4)(2)
= 110,100.7s

582 Capítulo 14 ANOVA y otras pruebas dé e muestras con datos numéricos


r-·I·
eX
rn'
; =1
=
2
. 365 2 + 423 2 + 460 2 + 364 2
(3)(2)
= 109,375

~ ~ X¡~. __ 95 2 + 119 2 + ... + 146 2


""' ""' - - - - - - - - = 111,292
i=Ii=1 n' (2)

_(G_T)_2 = 1,6122 = 108 272.66


ren' (3)(4)(2) '

Utilizando la ecuación (14.22),

SST = i í f X~k - (GT~2


i=li=Ik=l rcn
= 111,550 - 108,272.66 = 3,277 .34

Utilizando la ecuación (14.23),

SSFA = i
; = 1
x¡. -
en'
(GT)z
ren'
= 110,100.75 - 108,272.66 = 1,828.09

Utilizando la ecuación (14.24),

SSFB = ~ X.~. - (GT)z


~ rn'
J= 1
ren'
= 109,375 - 108,272.66 = 1,102.34

Utilizando la ecuación (14.25),


r e X~ r X2 e X~ {GT)z
SSAB = L11L-7-
; = n
- L~
=1 en
- 1L--.:!;-
rn
+ -,
ren
1= 1 =1

= 111,292 - 110,100.75 - 109,375 + 108,272.66


= 88.91

Utilizando la ecuación (14.26),


r e n' r e xi
SSE = L L L x~k - L L
i=li=lk=l i=l}=l
ni;.
= 111;550 - 111,292 = 258

Para calcular las varianzas utilizamos las ecuaciones (14.27a) hasta (14.27d).
De la ecuación (14.27a):

MSFA = SSFA = 1,828.09 = 914.045


r-1 3-1

De la ecuación (14.27b):

El modelo de diseño factorial y el análsis de dos direcciones de varianza 583


MSFB = SSFB = 1,102.34 367.447
c-l 4-1

De la ecuación (14.27c):

MSAB = _ _S_SA_B_ _ 88.91


14.818
(r-l)(c-1) (3-1)(4-1)

De la ecuación (14.27d):

MSE = _S_S_E_ 258


----- = 21.S
rc(n'-1) (3)(4)(2 - 1)

En el estudio del supermercado, los cálculos que acabamos de realizar pueden


resumirse en la tabla 14.15.

Tabla 14. 1 5 Tabla de análisis de varianza para el ejemplo del supermercado.


Grados Cuadrado medio
Fuente de libertad Sumas de cuadrados (varianza) F
1,828.09 914.045
A(Tamafí.o 3- 1 =2 110,100.75 - 108,272.66 = l,828.09 MSFA = ¡: =
2 21.5
de tienda)
= 914.04.S = 42 ..Sl
1,10234 367.447
B(Localización 4 - 1 =3 109,375 - 108,272.66 = 1,10234 MSFB = ¡: =
3 21..S
de estantes) =
= 367.447 L7.09

.AB(Tamafí.o de (3-1)(4-1) =6 111,292-110,100.75-109,375 MSAB = 88.91 ¡: = 14.818


6 21..S
tienda x localiza- +108,272.66 = 88.91 = .69
= 14.818
ción de estantes
Error (3)(4)(2 - l) = 12 111,550 - 111,292 = 258 MSE = 258
12
= 21.5

Total (3)(4)(2) - 1 = 23 111,550 - 108,272.66 = 3,277.34

Si utilizamos el nivel de significación de 0.05 y probamos la diferencia entre


los tamaños de tienda, la regla de decisión sería rechazar la hipótesis nula (H0 : µ 1
= µ 2 _ = ... =µ,)si el valor calculado Fes mayor a 3.89 (véase figura 14.19). Como F
= 42.51>Fu(Z,IZ)=3.89, podemos rechazar H0 y llegar a la conclusión de que existe
evidencia de una diferencia entre los tamaños de tienda en términos de las ventas
semanales promedio.
Si utilizamos el nivel a = .OS y probamos si existe alguna diferencia entre la
colocación de los estantes, la regla de decisión sería rechazar la hipótesis nula (H0 :
µ_1. = µ_ 2 _ = ... =µ_,)si el valor calculado de fes mayor que 3.49 (véase figura 14.20).
Puesto que F = 17.09 > Fun,JZJ = 3.49, podemos rechazar la hipótesis nula y llegar
a la conclusión de que existe evidencia de una diferencia entre la colocación de los
estantes en términos de las ventas semanales promedio.
Finalmente, podemos probar si existe algún efecto de interacción entre el fac-
tor A (tamaño de la tienda) y el factor B (colocación de los estantes). Utilizando el
nivel de significación de a= .05, la regla de decisión sería rechazar la hipótesis nula
[AB;¡ =O (para todo i y j)] si el valor calculado de Fes mayor que 3.00 (véase figura
14.21). Puesto que F = .69<Fu( 6, 12¡ = 3.00, no rechazamos la hipótesis nula y llega-
mos a la conclusión de que no existe evidencia de un efecto de interacción entre
el tamaño de la tienda y la colocación de los estantes.

584 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Figura 14. 19
o Fu(z, 12¡ Regiones de rechazo y de no rechazo,
al nivel de significación de .OS, con 2 y
12 grados de libertad.

Figura 14.10
o 3.49 Fu(3, 12¡ Regiones de rechazo y de no rechazo,
al nivel de significación de .05, con 3 y
12 grados de libertad.

Figura 14.l I
o 3.00 Fu(6.12) Regiones de rechazo y de no rechazo,
al nivel de significación de .OS, con 6 y
12 grados de libertad.

14.1 0.4 Interpretación de los efectos de interacción


Ahora que hemos realizado las pruebas para la significación del factor A, del factor
B y de su interacción, podemos obtener un mejor entendimiento de la inter-
pretación del concepto de interacción si graficamos las medias de celda como se
muestra en la figura 14.22 de la página 586. Como X;¡.= X;¡./n', tenemos

95 119 136 101


X it.
2
47.5, X 12. =
2
59.5, X u.=
2
= 68.0, X 14. = 2
= 50.5

122 153 117


X 21. 61 .o, X 22. =
147 = 73.5, X 23. - = 76.5, X. 24. = 2 = 58.5
2 2 2
148 157 171 146
x i1.=
2
74.0, X .12. = 2
78.5, x:n.=
2
85.5, X 34. = --
2
73.0

El modelo de diseño factorial y el análsis de dos direcciones de varianza 585


90

80

70
"'
Q)
Cii 60
e
C1l
E
Q)

"'o 50
'6
Q)
E 40
ee_
$"' 30
e
Q)
>
20

10

o
Pequeño Mediano Grande

Figura 14.22
Ventas promedio semanales, basadas en el tamaño de tienda para
diferentes colocaciones de estantes.

En la figura 14.22 hemos graficado las ventas semanales promedio de cada


tamaño de tienda y de cada colocación. Para nuestros datos, las cuatro líneas (que
representan las cuatro colocaciones de estantes) aparecen apuntando casi en la
misma dirección. Este fenómeno puede interpretarse como que la diferencia en las
ventas semanales entre las cuatro colocaciones de estantes es virtualmente la
misma para los tres tamaños de tienda. En otras palabras, no existe interacción entre
estos dos factores, como claramente se evidenció en la prueba F de la página 584.
¿Cuál sería la interpretación si hubiera un efecto de interacción? En tal situación,
algunos niveles del factor A responderían mejor con ciertos niveles del factor B. Por
ejemplo, suponga que algunas colocaciones de estantes fueran mejores para tiendas
grandes y otras para tiendas pequeil.as. Si éste fuera el caso, las líneas de la figura
14.22 no estarían apuntando en una dirección que las hace casi paralelas y el efecto
de interacción sería estadísticamente significativo. En está situación, las diferencias
entre las diferentes localizaciones de estantes no serían las mismas para todos los
tamaños de tiendas. Tal resultado tendría como consecuencia una complicación de
la interpretación del los efectos principales, ya que las diferencias en un factor (colo-
cación de estantes) no serían consistentes a través del otro factor (tamaño de tienda).

14.1O.5 Comparaciones múltiples


Como en el caso de los modelos de una dirección y de bloques aleatorizados, ya
que se ha rechazado la hipótesis nula de no diferencias en los niveles de un factor,
necesitamos determinar los grupos o niveles particulares que son significativa-
mente diferentes entre sí. Se puede emplear un procedimiento desarrollado por
John Tukey (referencias 6 y 14) tanto para el factor A como para el factor B.

586 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Para el factor A tenemos:

, .
a1canee cntico = Q u 1, 1ri11'-1 JI )MSE
-- (14.31)
, en'

y para el factor B tenemos

alcance
,.
CflhCO = Qu¡c
. '
rc(n'-1 JI
{··-·-·
MSE
--
r11'
(14.32)

Al igual que en las secciones 14.4.5 y 14.8.4, cada una de las c(c - 1)/2 o r(r - 1)/2
parejas de medias se comparan respecto el alcance crítico apropiado. Una pareja
específica de medias sería declarada significativamente diferente si la diferencia
absoluta en las medias de muestra ( 1X;. - X;' .. 1) para el factor A o 1X.;. - X.¡'. 1 para
el factor B) es mayor a su respectivo alcance crítico.
Para aplicar el procedimiento de Tukey, regresemos a nuestro ejemplo del
supermercado. Respecto al factor/\, puesto que tenemos tres grupos, existen (3)(3
-1)/2 = 3 posibles comparaciones por pares que se deben realizar. De la tabla 14.14
de la página 582, las diferencias medias absolutas son:
l. IX1 .. - X2 I = 156.375 - 67.:usi = 1i.000
2. lx1 .. - x3. I = 156.375 - 77.7so1=21.375

3. IX2 .. - X 3.. I = 167.375 - 77.7501=10.375


Para determinar el alcance crítico, de la tabla 14.15 de la página 584, tenemos: MSE
= 21.5, r = 3 y e= 4. De la tabla E.12, para a= .OS, r = 3 y rc(n' - 1) = (3)(4)(2 - 1) =
12, el valor crítico de extremo superior, Qu( 3, 12 ¡, es 3.77. De la ecuación (14.31),
tenemos

alcance crítico= 4.20~ 2 ~· 5 = 7.95

Observamos que todos los contrastes son mayores que el alcance crítico. Por con-
siguiente, podemos llegar a la conclusión de que las tiendas pequeñas, medianas y
grandes difieren entre sí respecto a sus ventas semanales.
En lo que concierne al factor B, puesto que se tienen cuatro grupos, existen
(4)(4 - 1)/2 = 6 posibles comparaciones por parejas que se deben realizar. De la
tabla 14.14 de la página 582, las diferencias medias absolutas son
t. lx 1 - x 2 .I = 160.83 - 70.so1 = 9.67

2. 1x.1. - x3.I = 160.83 - 76.671=1s.84

3. 1x.1. - x.4.1=160.83 - 60.671 = .16

4. IX'. 2. - X 3 1=170.50 - 76.671=6.17

s. IX2 - x.4.1=170.50 - 60.671=9.83

6. IX' 3 . - X 4 1=176.67 - 60.671=16.00

El modelo de diseño factorial y el análsis de dos direcciones de varianza S87


Para determinar el alcance crítico, de la tabla 14.15 de la página 584, tenemos MSE =
21.5, r = 3 y e= 4. De la tabla E.12, para a= .05, c = 4 y rc(n' - 1) = (3)(4)(2 - 1) = 12, el
valor crítico de extremo superior, Qi¡(4,12i, es 4.20. De la ecuación (14.32), tenemos

alcance crítico= 4.20~ 2 ~· 5 = 7.95

x.
Observamos que X.i. es diferente de X. 2. (9.67 > 7.95) y 3 . (15.84> 7.95), y X.4 . es
diferente de X. 2. (9.83 > 7.95) y .X. 3.(16 > 7.95). Así pues, podemos llegar a la conclusión
de que la colocación de estantes A (normal) y D (normal más "listones de propaganda")
son, cada uno, diferentes de las colocaciones B (colocación adicional en la tienda) y C
(nueva colocación con "anunciante"). Sin embargo, no existe evidencia de que haya
una dife-rencia entre las colocaciones A y D o entre las colocaciones B y C.

14.10.6 Modelos fijo, aleatorio y mezclado


En nuestro estudio de los modelos de análisis de varianza no hemos centrado nues-
tra atención en cuáles de los diferentes niveles de un factor han sido seleccionados.
Desde esta perspectiva, existen tres modelos alternativos:
l. Modelo de efectos fijos (modelo 1).
2. Modelo de efectos aleatorios (modelo 11).
3. Modelo de efectos mezclados (modelo III).
El primero, modelo de efectos fijos (modelo 1), descrito hasta este punto de
la presente sección, supone que los niveles de un factor ha sido seleccionados
específicamente para el análisis. Esto significa que los niveles del factor no fueron
seleccionados aleatoriamente de una población y que no se pueden hacer inferen-
cias con respecto a cualesquiera otros niveles, con excepción de los utilizados en el
estudio.
En contraste con el modelo de efectos fijos, el modelo 11, modelos de efec-
tos aleatorios, contiene factores en los que los niveles son seleccionados aleatoria-
mente de una población. El objetivo de un modelo de efectos aleatorios no es
neéesariamente examinar las diferencias entre niveles, sino, lo que es más impor-
tante, estimar la variabilidad debida a cada factor (véase referencia 5). Por ejemplo,
si deseáramos estudiar el efecto sobre la productividad de diferentes trabajadores y
diferentes máquinas, podríamos elegir aleatoriamente una muestra de máquinas
y asignar una muestra aleatoria de trabajadores a cada una, durante un número
dado de días. No solamente seríamos capaces de medir si los trabajadores y las
máquinas tienen efectos significativos sobre la productividad, sino que también
estaríamos en la posibilidad de estimar la variabilidad debida a diferentes máquinas
y la debida a diferentes trabajadores.
El modelo de efectos mezclados (modelo III), contiene una mezcla de efec-
tos fijos y aleatorios.
Aunque los modelos de efectos aleatorios y de efectos mezclados pueden
analizarse con una profundidad mucho mayor (véanse referencias 5 y 6), nuestra
atención se centra en las consecuencias de los diferentes modelos de la prueba F.
Puesto que los componentes de los modelos difieren respecto a sus suposiciones,
también conducen a diferentes pruebas F en la evaluación de la significación de los
efectos principales (factores A y B). Por consiguiente, las pruebas F apropiadas para
cada uno de los tres modelos se resumen en la tabla 14.16

588 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Tabla 14.16 Pruebas F eara modelos ANOVA de dos factores con réelica.
Hipótesis Efectos fijos Efectos aleatorios Efectos mezclados Efectos mezclados
nula (A y B fijos) (A y B aleatorios) (A fijo, B aleatorio) (A aleatorio, B fijo)

F = MSFA F = MSFA F = MSFA F = MSFA


µl.. =0
MSE MSAB MSAB MSE
F = MSFB F = MSFB F = MSFB F = MSFB
µ.;. =0 MSE MSAB
MSE MSAB
F = MSAB F = MSAB F = MSAB F = MSAB
AB;; =O
MSE MSE MSE MSE

Como observamos en la tabla 14.16, las pruebas para los efectos principales son
distintas, dependiendo del tipo de modelo elegido. Para el modelo de efectos fijos,
las pruebas F implican el cociente de MSFA o MSFB entre MSE. Para el modelo de
efectos aleatorios, las pruebas F (para los efectos principales) implican el cociente
MSFA o MSFB entre MSAB. Para el modelo de efectos mezclados con el factor A fijo
y el factor B aleatorio, la prueba F para el factor A implica el cociente de MSFA entre
MSAB, y la prueba para el factor B implica el cociente de MSFB entre MSE. Para
el modelo fijo con el factor A aleatorio y el factor B fijo, la prueba F para el factor
A implica el cociente de MSFA entre MSE, mientras que la prueba para el factor B
implica el cociente de MSFB entre MSAB.

Problemas de la sección 14. I O


e¡¡ 14.44 Explique la diferencia entre:
(a) Los modelos ANOVA de un factor y de dos factores.
(b) El modelo de diseño de bloques aleatorizados y el modelo de diseño facto-
rial de dos factores.
e 14.45 Una empresa reparadora de videocaseteras (VCR) desea estudiar el efecto de la
marca de VCR y el centro de servicio sobre el tiempo de reparación en minu-
tos. Se eligieron específicamente para el análisis tres marcas de VCR (A, By C).
También se seleccionaron tres centros de servido. Cada centro de servicio fue
asignado para efectuar una reparación particular en dos videocaseteras de cada
marca. Los resultados se presentan a continuación:

Marcas de VCR
Centros de servicio A B e
1 52 48 59
57 39 67
2 51 61 58
43 52 64
3 37 44 65
46 50 69

(a) Al nivel de significación de O.OS


(1) ¿Existe algún efecto debido a los centros de servicio?
(2) ¿Existe algún efecto debido a la marca de VCR?
(3) ¿Existe alguna interacción debida al centro de servicio y a la marca de
VCR?
(b) Trace una gráfica del tiempo de servicio promedio para cada centro de
servicio y para cada marca de VCR.

El modelo de diseño factorial y el análsis de dos direcciones de varianza 589


(c) Si es adecuado, utilice el procedimiento de Tukey para determinar qué
centros de servicio y qué marcas de VCR difieren en el tiempo de servicio
promedio. (Utilice el nivel a.= .05.)
(d) Basándose en los resultados obtenidos, ¿a qué conclusiones puede llegar
respecto al tiempo de servicio promedio?
(e) p.r;¡a191.7.y,p. Escriba un memorándum al director del centro de repara-
ciones en el cual se describan sus resultados.
(f) Si los tres centros de servicio fueran elegidos de manera aleatoria, ¿de qué
manera se vería afectado el análisis que realizó en el inciso (a)?
14.46 Se diseñó un experimento para estudiar el efecto de dos factores sobre la
amplificación de un aparato de sonido estéreo. Los factores son el tipo de
amplificador (cuatro marcas) y el tipo de receptor (dos marcas). Para cada
combinación de niveles de factor, se llevaron a cabo tres pruebas en las que se
midió la salida en decibeles. Una salida en decibeles más alta significa un
mejor resultado. Los resultados codificados son los siguientes:

Amplificadores
Receptor A B e D
9 8 8 10
Ri 4 11 7 15
12 16 1 9
7 s o 6
Rz 1 9 1 7
4 6 7 s

(a) Al nivel de significación de 0.01:


(1) ¿Existe algún efecto debido a los receptores?
(2) ¿Existe algún efecto debido a los amplificadores?
(3) ¿Existe alguna interacción entre receptores y amplificadores?
(b) Trace una gráfica de la salida en decibeles para cada receptor y para cada
amplificador.
'(c) Si es adecuado, utilice el procedimiento de Tukey para determinar qué
amplificadores difieren respecto a la salida promedio en decibeles. (Utilice
el nivel a.= .01.)
(d) f.t;fllll.U•>- Basándose en los resultados obtenidos, ¿a qué conclusiones
puede usted llegar respecto a la salida promedio en decibeles? Escriba un
memorándum sobre esto a su profesor de música.
14.47 El administrador de un hospital desea examinar los periodos de hospitali-
zación después de una operación quirúrgica en la rodilla. Se seleccionó una
muestra aleatoria de de 30 pacientes, cinco para cada combinación de grupo
de edad y tipo de cirugía. Los resultados, en la cantidad de días de hospitali-
zación después de la intervención, son los siguientes:

Grupo de edad
Tipo de cirugía de rodilla Menos de 30 De 30 a 50 Más de 50
1 4 3
3 3 s
Artroscopía 2 2 2
6 3 3
2 2 3
3 4 4
10 s 8
Artrotomía 6 11 12
7 s 10
8 6 3

590 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


(a) Al nivel de significación de O.OS:
(1) ¿Existe alguna diferencia entre los tipos de cirugía?
(2) ¿Existe alguna diferencia entre los grupos de edad?
(3) ¿Existe alguna interacción entre el tipo de cirugía de rodilla y el grupo
de edad?
(b) Trace una gráfica de la cantidad promedio de días de hospitalización después
de la intervención para cada tipo de cirugía y para cada grupo de edad.
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar los gru-
pos de edad que difieren en la cantidad promedio de días de hospitali-
zación después de una operación. (Utilice el nivel a= .OS.)
(d) t·fiid'Jl•f·f» Basándose en los resultados obtenidos ¿a qué conclusiones
puede llegar el administrador del hospital? Escriba una carta al admin-
istrador acerca de esto.
• 14.48 El director de control de calidad de una fábrica de telas desea estudiar el efecto
de los operadores y de las máquinas sobre la resistencia al rompimiento (en
libras) del material de sarga de lana. Un lote del material se cortó en piezas de
una yarda cuadrada y éstas fueron asignadas aleatoriamente, de tres en tres, a
doce combinaciones de cuatro operadores y tres máquinas, escogidas específi-
camente para el experimento. A continuación se presentan los resultados:

Máquina
Operador 11 III
llS 111 109
A 115 108 110
119 114 107
117 105 110
B 114 102 113
114 106 114
109 100 103
e 110 103 102
106 101 105
112 105 108
D 115 107 111
111 107 110

(a) Al nivel de significación de O.OS:


(1) ¿Existe algún efecto debido al operador?
(2) ¿Existe algún efecto debido a la máquina?
(3) ¿Existe alguna interacción debida al operador y la máquina?
(b) Trace una gráfica de la resistencia promedio al rompimiento para cada
operador y para cada máquina.
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar qué
operadores y qué máquinas difieren en la resistencia promedio al
rompimiento. (Utilice el nivel a = .05.)
(d) t.t;Mi•n•P Prepare un informe dirigido al director de control de calidad
con respecto a sus resultados sobre la resistencia promedio al rompimiento.
14.49 El gerente de producción de un fabricante de enseres electrodomésticos desea
determinar la cantidad óptima de tiempo para el ciclo de lavado de una
lavadora de ropa doméstica. Se diseñó un experimento para medir el efecto del
detergente utilizado y del tiempo del ciclo de lavado sobre la cantidad de
suciedad eliminada de una carga de lavadora estándar. Se seleccionaron especí-
ficamente cuatro marcas de detergente (A, B, C y D) y cuatro niveles de ciclo
de lavado (18, 20, 22 y 24) para el análisis. Con el propósito de efectuar el
experimento, se asignaron de manera aleatoria 32 cargas estándar de lavado
doméstico (con igual peso y cantidad de mugre), de dos en dos, a las 16 com-
binaciones de detergente y de tiempo de ciclo de lavado. Los resultados (en
libras de suciedad eliminada) se muestran en l.a tabla siguiente:

El modelo de diseño factorial y el análsis de dos direcciones de varianza 591


Tipo de ciclo de lavado
(en minutos)
Marca de detergente 18 20 22 24
A .11 .13 .17 .17
.09 .13 .19 .18
B .12 .14 .17 .19
.10 .15 .18 .17
e .08 .16 .18 .20
.09 .13 .17 .16
D .11 .12 .16 .15
.13 .13 .17 .17

(a) Al nivel de significación de O.OS:


(1) ¿Existe algún efecto debido al detergente?
(2) ¿Existe algún efecto debido al tiempo del ciclo de lavado?
(3) ¿Existe alguna interacción debida al detergente y al tiempo de ciclo de
lavado?
(b) Trace una gráfica de la cantidad promedio de suciedad eliminada (en
libras) para cada detergente y para cada tiempo de ciclo de lavado.
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar qué
detergentes y qué tiempos de ciclo de lavado difieren respecto a la canti-
dad promedio de suciedad eliminada. (Utilice el nivel a= .05.)
(d) t.t;i!W.1·1·~ Prepare un informe para el gerente de producción tomando
en cuenta los resultados obtenidos sobre la cantidad promedio de
suciedad. Asegúrese de ofrecer una recomendación de cuál podría ser el
ciclo de lavado óptimo para este tipo de lavadora de ropa doméstica.
(e) Si las cuatro marcas de detergente fueran elegidas de manera aleatoria, ¿de
que manera se vería afectado su análisis del inciso (a)?

11H11 Dificultades potenciales de la prueba de


hipótesis y cuestiones éticas

14.1 1. 1 Dificultades potenciales


En el presente capítulo enfocamos nuestra atención a varios modelos de diseño
experimental e introdujimos algunos procedimientos paramétricos y libres de dis-
tribución que pueden utilizarse cuando se analizan posibles diferencias en los
resultados numéricos o en las mediciones de respuesta entre los niveles (de
tratamiento) de algún factor de interés. Luego ampliamos lo anterior para tomar
en consideración los efectos de dos factores en el diseño de experimentos. De
nuevo, parte de un buen análisis de datos consiste en entender las suposiciones
que subyacen en cada uno de los procedimientos de prueba de hipótesis y, uti-
lizándolos junto con otros criterios, seleccionar el más adecuado para un conjunto
dado de condiciones. Así pues, incluso cuando nuestro objetivo principal es
realizar un análisis confirmatorio de un experimento en particular o de un con-
junto de datos, siempre debemos llevar a cabo, primero, un análisis exploratorio y
descriptivo, de manera que a través de la observación podamos entender mejor lo
que los datos contienen y qué tendencias, relaciones y efectos potenciales nos
están indicando. El hecho de no considerar los datos con este cuidado no es en sí
falta de ética. Sin embargo, por lo general trae como resultado un análisis que no
es óptimo.

592 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


1 4. 1 1 •.2 Cuestiones éticas
Las consideraciones éticas surgen cuando un investigador manipula el proceso de
prueba de hipótesis de manera que le produzca una ganancia personal. Al coordinar y
administrar un proyecto que trate sobre un experimento diseñado a largo plazo o al
efectuar ensayos clínicos en industrias como la del tabaco, farmacéutica y de salubri-
dad, es imperativo que el investigador principal desarrolle un plan operativo o un pro-

tocolo que trate sobre el proceso de recolección de datos, de evaluación y de análisis.
Particularmente, cuando muchas personas están involucradas en el proceso, se debe
establecer un sistema de verificaciones y balances para evitar el fraude, así como el pla-
gio, la tergiversación de datos o la falsificación de resultados. Como se analizó previa-
mente en la sección 11.11.2 (páginas 412 a 415), las siguientes son algunas de las
cuestiones éticas que surgen cuando se diseñan experimentos y se analizan resultados:
• Método de recolección de datos: aleatorización.
• Consentimiento informado por parte de los sujetos humanos que son
"tratados".
• Tipo de prueba: dos extremos o un extremo.
• Selección del nivel de significación.
• Curioseo de datos.
• Depuración y eliminación de datos.
• Informe de los resultados.
• Metanálisis.
La vida de algunos seres humanos puede depender de la aceptación y aplicación de
una investigación falseada. Esto se vuelve aún más importante cuando hay involu-
cradas cuestiones éticas. Debería regresar y volver a leer la sección 11.11, de modo que
quede arraigada en su proceso de pensamiento. De nuevo, Cuando se tratan temas
sobre ética relacionados con metodología de la hipótesis prueba, la clave es la intendón:
debemos diferenciar entre un análisis confirmatorio pobre y una práctica no ética. El
comportamiento no ético se presenta cuando un investigador, con conocimiento de
causa, propicia que haya parcialidad en la selección de los datos, manipula el
tratamiento de los sujetos humanos sin obtener de ellos un consentimiento informado
para hacerlo, utiliza el curioseo de datos para elegir el tipo de prueba (de dos extremos o
de un extremo) y/o el nivel de significación para su provecho, esconde los hechos
mediante la eliminación de las observaciones que no apoyan una hipótesis establecida
y no informa sobre los hallazgos pertinentes.

11 Hfj Prueba de hipótesis basada en e muestras


de datos numéricos: un repaso
Como se puede ver en el diagrama resumen del presente capítulo (véase página
594), podemos distinguir entre los planteamientos para comparar e grupos que
contienen datos numéricos, basándose en el modelo de diseño experimental uti-
lizado para obtener las respuestas o resultados medidos. La metodología de la
prueba de hipótesis fue desarrollada, de manera separada, para analizar los datos
obtenidos de modelos de diseño de una dirección o completamente aleatorizados,
modelos de diseño de bloques aleatorizados y modelos de diseño factorial de dos
factores. Después de centrar nuestra atención en un agrupamiento adecuado de
procedimientos de prueba parecidos, necesitamos. observar cuidadosamente las
suposiciones y los otros criterios antes de seleccionar un procedimiento en particu-
lar. En la página 526 de la sección 14.1, se le dio una lista en la que se pone énfa-
sis en los puntos importantes que se analizan en el capítulo. Revise ahora esa lista
para ver si siente que tiene un entendimiento de tales puntos clave. Para asegu-
rarse, debería ser capaz de responder las siguientes preguntas conceptuales:

Prueba de hipótesis basada en e muestras de datos numéricos: un repaso 593


~
"'.¡:.

DI
,,:;;n
Procedimientos de
5. e muestras
o
.¡:.

)>
z
o po Cuestiones
~ de éticas
'<
o datas.
....
Ol Véase
-o
"'..., capítulo 15
e:
<1)
o-
"'"'
o._
<1)
('\
1 ~ 1
3
e:
m Diseño Diseño Diseño
...,
'"' ctimpletamente de bloques ·factorial
"'"' aleatorio aleatorio
"o
:i
o._ ; ;
~
o
"'
:i 1 \ 1 1 l 1 \ 1
e:
3<1) • Prueba de Prueba de Prueba Prueba de Modelos fijos,
..., Prueba Sumas
¡:;· 1 •
Hartley para rangos de rangos de Interacción aleatorios y
o FANOVA FANOVA de cuadrados
:homoscedasticidad Kruskal-Wallis Friedman mezclados
"'
1 1
1 1 1 1 1

.Comparaciones Comparaciones Comparaciones comparaciones Prueba


inúltiples · múltiples múltiples múltiples FANOVA

Comparaciones
múltiples

Sumario de la gráfica del capítulo 14.


1. ¿Cuáles son las características distintivas de los modelos de diseño
completamente aleatorizado, de bloques aleatorizados y factorial de
dos factores?
2. ¿Cuáles son las principales suposiciones de ANOVA?
3. ¿En que condiciones debe utilizarse la prueba Fmáx de Hartley?
4. ¿En qué condiciones debe seleccionarse la prueba F ANOVA de una
dirección para examinar posibles diferencias en las medias de e
poblaciones independientes?
S. ¿En qué condiciones debe seleccionarse la prueba de rangos de
Kruskal-Wallis para examinar posibles diferencias en las medianas de
e poblaciones independientes?
6. ¿Cuándo y cómo debería utilizarse el procedimiento de compara-
ciones múltiples para evaluar combinaciones por parejas de las
medias o de las medianas?
7. ¿En qué condiciones debe seleccionarse la prueba F de bloques
aleatorizados para examinar posibles diferencias en las medias de e
poblaciones relacionadas?
8. ¿En qué condiciones debería seleccionarse Ja prueba de rangos de
Friedman para examinar posibles diferencias en las medianas de e
poblaciones relacionadas?
9. ¿En qué condiciones debería seleccionarse Ja prueba F ANOVA de
dos direcciones para examinar las posibles diferencias en las medias
de cada factor de un diseño factorial?
10. ¿Qué queremos decir con el concepto de interacción en un diseño
factorial?
11. ¿Cómo podemos utilizar la prueba F ANOVA de dos direcciones para
examinar Ja posible interacción en los niveles de los factores de un
diseño factorial?
Revise Ja lista de preguntas para ver si, efectivamente, conoce las respuestas y
puede (1) explicarlas a alguna persona que no haya leído el capítulo y (2) dar refe-
rencias de lecturas específicas o de ejemplos que apoyen su respuesta. También,
vuelva a leer cualquier sección que le haya parecido confusa para ver si ahora tiene
sentido.

Juntando todo

TÉRMINOS CLAVE
alcance crítico 537 distribución F 531
aleatoriedad 539 distribución Fmáx 540
análisis de varianza (ANOVA) 527 distribución (Q) de rangos
ANOVA de dos direcciones 577 studentizados 574
a posteriori 537 efectos de interacción 586
bloques 558 efectos principales 586
comparaciones múltiples 537 eficiencia relativa (RE) 567
cuadrados medios 530 error aleatorio inherente (SSE) 561
diseño completamente aleatorizado 527 error experimental 528
diseño de bloques aleatorizados 558 grupos de tratamiento 558
diseño factorial 577 homogeneidad de varianza 539

Términos clave S9S


independencia de errores 539 suma de bloques cuadrados
interacción 586 (SSBL) 560
media general o gran media 529 suma de cuadrados debida a la
interacción (SSAB) 579
modelo de efectos aleatorios 588
suma de cuadrados debida al factor A
modelo de efectos fijos 588
(SSFA) 578
modelo de efectos mezclados 588
suma de cuadrados debida al factor B
niveles 577 (SSFB) 579
procedimiento de Dunn 549 suma de errores cuadrados (SSE) 561
procedimiento de Nemenyi 574 suma dentro de cuadrados (SSW)
procedimiento de Tukey 566 suma entre cuadrados (SSA) 530
procedimiento de Tu~ey-Kramer 537 suma total de cuadrados (SST) 529
prueba de Fmáx de Hartley 540 tabla de resumen ANOVA 532
prueba de rangos de Friedman 571 unidades experimentales 558
prueba de rangos de Kruskal-Wallis 545 variación den.tro de grupos (SSW) 530
prueba F ANOVA de bloques variación entre bloques (SSBL) 560
aleatorizado 559
variación entre grupos (SSA) 530
prueba F ANOVA de una dirección 527
variación total (SST) 529
prueba F de dos direcciones 580

Problemas de repaso del capítulo

14.50 f.14ii!li•f·f•J> Escriba una carta a un amigo que no ha tomado ningún curso de
estadística y explíquele de que se trata el presente capítulo. Para resaltar el
contenido del mismo, asegúrese de incorporar sus respuestas a las once pre-
guntas de repaso de la página 595.
14.51 El gerente de ventas al detalle de una cadena de supermercados desea determi-
nar si la colocación de juguetes para mascotas tiene algún efecto sobre la venta
del producto. Se van a considerar tres lugares en pasillo: anterior, en medio y
posterior. Se seleccionó una muestra aleatoria de 18 tiendas y en seis de ellas
fueron asignadas aleatoriamente un lugar en pasillo. El tamaño del área de
exhibición y el precio del producto fueron constantes en todas las tiendas. Al
final de un periodo de prueba de una semana, el volumen de ventas (en miles
de dólares) del producto en cada tienda fue el siguiente:

Colocación en pasillo
Anterior En medio Posterior
8.6 2.0 4.6
7.2 3.2 2.8
5.4 2.4 6.0
4.0 1.8 2.2
5.0 1.4 2.8
6.2 1.6 4.0

(a) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en las


varianzas de las tres colocaciones en pasillo?
(b) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en las
ventas promedio entre las diferentes colocaciones en pasillo?

596 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


(c) Si es adecuado, utilice el procedimiento de Tukey-Kramer para determinar
que colocaciones en pasillo son diferentes respecto al promedio de ventas.
(Utilice el nivel a= .OS)
(d) ¿A qué conclusión debería llegar el gerente de ventas al menudeo? Discuta
completamente las opciones del gerente respecto a la colocación en
pasillo.
Suponga que, cuando se está estableciendo el experimento, el gerente de
ventas al detalle es capaz de estudiar los efectos de la altura de los estantes,
además de la colocación en pasillo. Así, en lugar del anterior modelo de diseño
completamente aleatorizado de un factor, puede establecer un modelo de
diseño factorial de dos factores, cada factor con tres niveles y dos réplicas para
cada combinación de colocación en pasillo-altura de estante. Esto es, se tienen
dos factores a ser estudiados: (1) colocación en pasillo (anterior, en medio y
posterior) y (2) altura en estante (superior, media, inferior). Una muestra de 18
tiendas es asignada de manera aleatoria: dos a cada una de las nueve
combinaciones colocación en pasillo-altura en estante. De nuevo, el tamaño
del área de exhibición y el precio del producto fueron constantes en todas las
tiendas. Al final de un periodo de prueba de una semana, el volumen de
ventas (en miles de dólares) del producto en cada tienda fue el siguiente:

Altura en estante
Colocación Superior En medio Inferior
en pasillo
Anterior 8.6 6.2 s.o
7.2 5.4 4.0
En medio 3.2 2.0 1.8
2.4 1.4 1.6
Posterior 6.0 4.0 2.8
4.6 2.8 2.2

Observe que el volumen de ventas (en miles) es el mismo en ambas tablas. En


este caso, sin embargo, las seis mediciones de resultado para cada colocación
en pasillo se presentan en grupos de dos, correspondiendo a las tres combina-
ciones de altura en estante.
(e) Al nivel de significación de O.OS:
(1) ¿Existe algún efecto debido a la colocación en pasillo?
(2) ¿Existe algún efecto debido a la altura en estante?
(3) ¿Existe alguna interacción entre la colocación en pasillo y la altura en
estante?
(f) Trace una gráfica de las ventas promedio para cada una de las coloca-
ciones en pasillo y para cada una de las alturas en estante.
(g) Si es adecuado, utilice el procedimiento de Tukey para determinar qué
colocaciones de pasillo y qué alturas de estante difieren en las ventas.
(Utilice el nivel ex.= .OS.)
(h) Basándose en los resultados obtenidos, ¿a qué conclusiones puede usted
llegar respecto a las ventas? Explique su respuesta.
(i) Compare y contraste los resultados del presente problema con los
obtenidos del experimento de una dirección de los incisos (a) a (c).
Explique ampliamente su respuesta.
14.S2 Para examinar los efectos del ambiente laboral en la actitud hacia el trabajo,
un psicófogo industrial asignó de manera aleatoria un grupo de 18 agentes de
ventas recién contratados a tres "salas de trabajo": seis agentes por sala. Todas
las salas eran idénticas, excepto por su color. Una era verde claro, otra azul
claro y la tercera era rojo oscuro.
Durante el programa de entrenamiento de una semana, los agentes per-
manecieron, principalmente, en sus respectivas salas de trabajo. Al final del pro-
grama, se utilizó una escala de actitudes para mediar la actitud hacia el trabajo de
cada agente (un resultado bajo indicaba una actitud pobre y un resultado alto era
señal de una buena actitud). Se obtuvieron los siguientes resultados:

Problemas de repaso del capítulo 597


Color de la sala
Verde claro Azul claro Rojo oscuro
46 S9 34
Sl S4 29
48 47 43
42 SS 40
S8 49 4S -
so 44 34

Basándose en estos datos, el psicólogo industrial desea determinar si existe


alguna evidencia de que el ambiente de trabajo (es decir el color de la sala)
tiene un efecto sobre la actitud respecto al trabajo, y si éste es el caso, qué
color o colores mejoran significativamente la actitud.
(a) Analice completamente los datos.
(Utilice el nivel a= O.QS.)
(b) f.f;iM•t.t•> Basándose en el análisis completo del inciso (a), escriba un
informe en el que se analicen las implicaciones de los hallazgos respecto al
diseño de oficinas en empresas grandes, en el entendimiento de que el
psicólogo industrial podría utilizar el informe en una reunión con el vicepresi-
dente de recursos humanos de la compañía.
Suponga que el vicepresidente desea saber si hay presente algún efecto del
sexo. Si, en la tabla anterior, las tres primeras observaciones de cada nivel de
color de sala correspondieron a hombres y las tres últimas observaciones de
cada nivel correspondieron a mujeres:
(c) De nuevo analice completamente los datos como un conjunto de resulta-
dos de un modelo de diseño factorial de dos factores (efectos fijos), en el
cual el factor sexo tiene dos niveles, el factor color de la sala tiene tres
niveles y se tienen tres réplicas para cada una de las seis combinaciones
sexo-color de sala. (Utilice el nivel a= .OS.)
(d) Compare y contraste los resultados obtenidos en el inciso (c) con los
obtenidos del experimento de una dirección del inciso (a). Explique
ampliamente su respuesta.
14.S3 Un socio principal de una empresa de corretaje desea determinar si realmente
existe alguna diferencia entre el desempeño a largo plazo de las diferentes
categorías de personas contratadas como representantes ante los clientes. Los
miembros recientes de la empresa están clasificados en cuatro grupos:
profesionales que han cambiado de carrera, graduados recientes de escuelas de
negocios, antiguos agentes de ventas, y corredores de bolsa contratados por la
empresa y que trabajaban para empresas competidoras. Se selecciona una
muestra aleatoria de seis individuos de cada una de estas categorías y se
obtiene un registro de desempeño detallado.

Antecedentes de los representantes ante los clientes


graduados de escuelas
Profesionales negocios vendedores Corredores
de bolsa
88 6S 61 83
8S 73 67 87
95 S4 74 90
96 72 65 84
91 81 68 92
88 69 77 94

(a) ¿Existe evidencia de una diferencia en los resultados de desempeño


promedio para las diferentes categorías? (Utilice el nivel a= O.OS.)
(b) P·fMM•i·I» Escriba un memorándum dirigido al socio principal en el
cual le explique sus resultados.

598 Capitulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


Suponga que el socio principal deseara saber si se encuentra presente algún
efecto debido al sexo de los empleados. Si en la tabla anterior las primeras tres
observaciones para cada nivel del factor de antecedentes de los representantes
ante los clientes son hombres y las tres últimas observaciones de cada nivel
corresponde a mujeres:
(c) Vuelva a analizar completamente los datos como un conjunto de resulta-
dos de un modelo de diseño factorial de dos factores (efectos fijos) en el
que el factor sexo tiene dos niveles, el factor antecedentes tiene cuatro
niveles y existen tres réplicas para cada una de las ocho combinaciones
sexo-antecedentes. (Utilice el nivel a= .OS.)
(d) Compare y contraste los resultados obtenidos en el inciso (c) con los del
experimento de una dirección del inciso (a). Explique ampliamente su
respuesta.
14.54 Recientemente se efectuó una prueba de vinos patrocinada por el Club J. S.
Wine, en la que se clasificaron ocho vinos por parte de los miembros del club.
La información respecto al país de origen y el precio no fue conocida por los
catadores hasta que hubo terminado la prueba. Los vinos clasificados (y los
precios de venta) fueron:
l. Blanco francés, $8.59
2. Blanco italiano, $6.50
3. Tinto italiano, $6.50
4. Borgoña francés (tinto), $8.69
5. Borgoña francés (tinto), $9.75
6. Beaujolais de California (tinto), $8.50
7. Blanco francés, $ 7. 75
8. Blanco de California, $11. 59
Las estimaciones acumuladas sobre varias características correspondientes a los
doce miembros del club son las siguientes:

Vino
Catador 1 2 3 4 5 6 7 8
A 10 17 15 '9 12 6 15 9
B 9 14 11 s 16 2 15 7
e 10 18 10 5 18 5 10 10
D 9 11 13 10 17 11 14 9
E 10 16 12 8 18 8 10 10
F 6 16 3 8 4 2 2 5
G 9 12 14 9 9 6 6 5
H 7 12 11 8 15 9 12 8
1 10 18 12 12 16 10 10 16
J 16 9 10 13 18 11 15 14
K 14 16 13 12 15 15 17 11
L 15 17 10 13 15 16 16 13

(a) Al nivel de significación de 0.01, ¿existe evidencia de una diferencia en


los resultados promedio de las estimaciones entre los vinos?
(b) ¿Qué suposiciones son necesarias con el propósito de efectuar el inciso (a)
del problema? Comente sobre la validez de tales suposiciones.
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar los
vinos que difieren en la estimación promedio. (Utilice el nivel a= .01.)

'
(d) Basándose en los resultados obtenidos en el inciso (c)
(1) ¿Piensa usted que el país de origen ha tenido un efecto sobre los resul
tactos?
(2) ¿Piensa que el tipo de vino (tinto contra blanco) ha tenido algún
efecto sobre los resultados? Explique ampliamente su respuesta.
(e) Determine la eficiencia relativa del diseño de bloques aleatorizados en
comparación con el diseño completamente aleatorizado.

Problemas de repaso del capítulo 599


(f) Ignore la variable de bloqueo y vuelva a analizar "erróneamente" los datos
como si se tratara de un modelo de diseño completamente aleatorizado de
un factor en el cual el factor (marca de los vinos) tiene ocho niveles y
cada nivel contiene una muestra de doce observaciones independientes.
(g) Compare los términos SSBL y SSE del inciso (a) con el término SSW del
inciso (f). Explique.
(h) Utilizando los resultados obtenidos en los incisos (a), (f) y (g) como base,
describa los problemas que pueden surgir cuando se analizan los datos si se
aplica el procedimiento equivocado.

Proyectos de minicasos de
aprendizaje colaborativo

Para cada uno de los siguientes, refiérase a las instrucciones de.la página 101 .
CL 14.1 Refiérase al CL 3.2 de la página 101, CL 4.2 de la página 165 y al CLS.2 de la
página 199. Su grupo la empresa ha sido contratada por el edi-
tor de la sección de alimentos de una popular revista familiar para estudiar el
costo y las características de los cereales listos para comer. Armados con el
Conjunto especial de datos 2 del apéndice D de las páginas D-6 y D-7, la
empresa desea determinar si existe evidencia de una diferen-
cia en el costo promedio por ración de cereales listos para servirse, basándose
en la clasificación en alto contenido de fibra o bajo contenido de fibra.
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el cual se especifiquen clara-
mente todas las hipótesis, niveles elegidos de significación y las suposi-
ciones de los procedimientos de prueba escogidos.
(c) Prepare y realice una presentación oral de cinco minutos al editor de la
sección de alimentos de la revista.
CL 14.2 Refiérase al CL 3.3 de la página 102, CL 4.3 de la página 165 y al CL 5.3 de la
página 199. Su grupo, la empresa , ha sido contratada por el direc-
tor de comercialización de una fábrica de fragancias bien conocidas para hom-
bre y mujer, para estudiar las características de las fragancia actualmente
disponibles. Armados con el Conjunto especial de datos 3 del apéndice D de
las páginas D8 y D9, la empresa desea determinar si existe evi-
dencia de una diferencia en el costo promedio por onza, basándose en la
intensidad (muy fuerte, fuerte, medio, ligero).
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el cual se especifiquen clara-
mente todas las hipótesis, niveles elegidos de significación y las suposi-
ciones de los procedimientos de prueba escogidos.
(c) Prepare y realice una presentación oral de cinco minutos al director de
comercialización.
CL 14.3 Refiérase al CL 3.4 de la página 102, al CL 4.4 de la página 166 y al CL 5.4 de la
página 200. Su grupo, la empresa ha sido contratada por el editor
de la sección de viajes de un famoso periódico, quien está preparando un
artículo principal sobre cámaras compactas de 35 mm. Armados con el
Conjunto especial de datos 4 del apéndice D de las páginas D-10 y D-11, la
empresa desea determinar si existe evidencia de una diferencia en
la precisión promedio de encuadre basándose en el tipo de cámara de 35 mm.
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el cual se especifiquen clara-
mente todas las hipótesis, niveles elegidos de significación y las suposi-
ciones de los procedimientos de prueba escogidos.
(c) Prepare y realice una presentación oral de cinco minutos al editor de la
sección de viajes.

GOO Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


ESTUDIO DE CASO E: Comercialización y f)romoción
de prueba de un bolígrafo
La empresa Publicidad EPC ha sido con- Los resultados combinados de las tres
tratada por un fabricante bien estable- evaluaciones (apariencia, durabilidad y
cido de bolígrafos para desarrollar una desempeño de escritura) se presentan a
serie de anuncios publicitarios y promo- continuación para los 30 sujetos.
ciones a nivel nacional para la próxima
temporada de. vacaciones. A fin de Estimaciones de producto para
prepararse para realizar el proyecto, Nat cinco anuncios publicitarios
Berry, director de investigaciones de la e
A B D E
EPC, decidió empezar un estudio del
efecto de la publicidad sobre la percep- 15 16 8 5 12
ción del producto. Después de tener una 18 17 7 6 19
reunión con Kate Hansen, la jefa del 17 21 10 13 18
grupo de estadística, se diseñó un experi- 19 16 15 11 12
mento en el cual cinco diferentes anun- 19 19 14 9 17
cios publicitarios iban a ser comparados 20 17 14 10 14
en la comercialización de un bolígrafo. El
anuncio A tendía ampliamente a subesti-
mar las características de los bolígrafos. El Como asistente de investigación de
anuncio B tendía a subestimar ligera- Kate Hansen, usted ha sido asignado para
mente las características del producto. El trabajar en este proyecto. Tiene una cita
anuncio C tendía a sobrestimar ligera- con ella para analizar este proyecto,
cuando usted llega a su oficina le dice:
mente las características del bolígrafo. El -Hola, pasa y siéntate. Te ofrecería una
anuncio D tendía a sobrestimar amplia- taza de café, pero me acaban de llamar a
mente las características del bolígrafo. El reunión, de modo que vamos a ser
anuncio E intentaba establecer correcta- breves. Nat Berry cree que realmente
mente las características del producto. tiene algo importante, probar los anun-
Una muestra de 30 sujetos adultos, toma- cios publicitarios, y espero que tenga
dos de un grupo de atención grande, fue razón. Le he sugerido que establezcamos
asignada de manera aleatoria a los cinco un modelo de diseño factorial de dos fac-
anuncios publicitarios (de modo que tores con el sexo del público como uno
hubiera seis individuos para cada anun- de los factores y el anuncio publicitario
cio). Después de leer el anuncio y desarro- como el segundo factor, pero Nat argu-
llar un sentido de la "expectación del menta que tendrá problemas para con-
producto", los sujetos recibieron un bolí- vencer al director ejecutivo de efectuar
grafo para ser evaluado, sin que éstos un plan tan sofisticado. Me recordó el
supieran que se trataba del mismo tipo de principio del BESO (KlSS, en inglés, Keep
bolígrafo. A los sujetos se les pidió que It Sound and Simple: mantenlo sólido y
probaran su bolígrafo y la plausibilidad sencillo) y me dijo que cualquier cosa que
del anuncio publicitario. Luego se les fuera más allá de un modelo de diseño
pidió a los sujetos que clasificaran el bolí- completamente aleatorizado de una
grafo de 1 a 7 respecto a las tres caracte- dirección no pasaría con nuestros direc-
rísticas del producto; los resultados se tivos. De todos modos, Nat afirmó que
presentan a continuación: estaba preocupado principalmente por el

Extremadamente Extremadamente
mala Neutral buena
Apariencia 2 3 4 5 6 7
Durabilidad 1 2 3 4 5 6 7
Desempeño en escritura 1 2 3 4 5 6 7

Estudio del caso E 40 1


contenido de los cinco posibles anun- Berry-. Tenemos que estar lo más
cios, de modo que el modelo de una seguros posible de que estamos reali-
dirección es lo que ha pensado para el zando un buen análisis de datos --con-
experimento. No es adecuado, sin cluyó.
embargo, que no podamos evaluar el fac- -Bueno, Nat -intervino Kate Han-
tor sexo en los anuncios de vacaciones. sen-. Ésa es precisamente la cuestión.
Kate continuó: Estaba, y todavía lo estoy, preocupada
-Deseo estar preparada para la con respecto a un efecto potencial del
reunión de la semana próxima con el sexo del auditorio que deberíamos
equipo de investigación de nuestro conocer si en realidad deseamos tener
grupo de relaciones públicas, de modo una publicidad efectiva en nuestra cam-
que no haya ninguna reacción nega- paña. Afortunadamente, mi ayudante
tiva por el modelo que hayamos uti- de investigación me acaba de hacer ver
lizado. Por favor, prepárame un que de las evaluaciones registradas en
resumen ejecutivo en donde me nuestra tabla, las tres primeras fueron
muestres las ventajas y las desventajas hechas por hombres y las tres últimas
del modelo de diseño completamente por mujeres, en cada uno de las cinco
aleatorizado y las del modelo de diseño muestras de anuncios. Ahora podemos
factorial de dos factores. Eso nos per- considerar el experimento como un
mitirá analizar las dos alternativas y modelo de diseño factorial de dos fac-
avanzar en el proyecto del cliente de tores y determinar si existe un efecto
manera positiva. Me gustaría también significativo del sexo y, también, estu-
que analizaras completamente los diar alguna posible interacción.
datos que obtuvimos del experimento -Muy bien -dijo Nat Berry.
completamente aleatorizado. Me gus- -Perfecto -acotó John Mack.
taría tener en mi escritorio dentro de Kate Hansen cotinuó:
cuatro días un informe detallado que -Me gustaría que nos reuniéramos
resuma tus resultados e incluya¡ como de nuevo la semana entrante y anali-
apéndice, una discusión del análisis záramos esos resultados. Nos dará a
estadístico utilizado. Luego nos vamos todos la oportunidad de considerar las
a comer juntos para revisar los detalles ventajas y las desventajas del modelo
y preparar la presentación para Nat y el de dos factores respecto al modelo de un
ejecutivo en jefe. ¿Hay alguna pre- factor que mi ayudante acaba de expon-
gunta que quieras hacer antes de ernos hace unos minutos.
empezar? ¿No? Muy bien, buena -Bueno, reunámonos otra vez la se-
suerte, y no dejes de llamarme por telé- mana próxima, aquí mismo y a la
fono si surge algo. misma hora -ordenó Nat Berry.
John Mack continuó:
-Muy bien, pero mientras te estás
preparando para la siguiente reunión,
- - - - -UNA SEMANA DESPUÉS ¿podrías también echarle un vistazo a
estos datos que recabé de manera pare-
Después de la presentación en la reunión cida a tu experimento? En este con-
con el equipo de investigación del grupo junto de datos la audiencia muestreada
de relaciones públicas de la agencia, el estuvo compuesta solamente por estu-
director estadístico, John Mack, sugirió diantes de preparatoria que son parte
que se tomara en cuenta un método libre del grupo objetivo, no hubo ningún
de distribución adecuado para el análisis adulto. Y los datos corresponden úni-
de los datos presentados en la tabla de la camente a las evaluaciones o respuestas
página 601. de estudiantes expuestos al anunció E,
-Muchos investigadores argumen- que, como podrás recordar, tiene la
tarían -observó Mack- que las "escalas intención de establecer correctamente
las característica del bolígrafo. Por
de características del producto" utilizadas favor, revisa de nuevo los datos corres-
no satisfacen verdaderamente los criterios pondientes al público adulto de tu
de escalamiento de intervalo o de cociente estudio y analiza las diferencias que
y, por consiguiente, que los métodos existen en sus respuestas.
libres de distribución son más adecuados. Los ya mencionados datos de esti-
-John, ése podría ser un interesante mación para una muestra de ocho estu-
argumento estadístico -intervino Nat diantes de preparatoria son:

602 Capítulo 14 ANOVA y otras pruebas de e muestras con datos numéricos


14 13 15 9 2. Si existe evidencia de que la
11 13 12 16 mediana de las estima-
ciones combinadas de los
Usted sale de la sala de juntas pen- entrevistados estudiantes de
sando en las últimas observaciones de preparatoria sujetos al anun-
John Mack. Además de analizar los cio E es mayor que 12.
datos originales como un modelo de Una respuesta a la primera evaluación
diseño factorial de dos factores y identificará posibles diferencias en las
preparar el análisis de las diferencias de percepciones de los adultos y de los
los resultados obtenidos utilizando ese estudiantes respecto al producto. Una
modelo y los obtenidos con el modelo respuesta a la segunda identificará si el
de diseño completamente aleatorizado producto es "preferido" por la audien-
que acaba de realizar, decide responder cia de estudiantes de preparatoria,
a las interrogantes de John evaluando puesto que una mediana de 12 es la
lo siguiente: estimación "neutral" de características
l. Si existe evidencia de una combinadas esperada: la suma de las
diferencia en las estima- evaluaciones de apariencia, durabili-
ciones combinadas de los dad y desempeño en la escritura en las
entrevistados adultos y los tres escalas de siete puntos, en las
entrevistados estudiantes de cuales el valor 4 es neutral. Usted
preparatoria sujetos al anun- preparará un informe detallado sobre
cio publicitario E (que
intenta establecer correcta- esto a Kate Hansen.
mente las características del
bolígrafo).

No tas finales
l. En algunas ocasiones la variación entre grupos se conoce y como n = re, haciendo un poco de álgebra tenemos:
como variación entre dos grupos. En tales situaciones, la n - 1 - (e - 1) - (r - 1) = re - 1 - e+ 1 - r + 1
suma de los términos cuadráticos se conoce como suma
de cuadrados entre grupos o SSB (por sus siglas Sum of =rc-c-r+l
Squares Between). = (r - l)(c - 1)
2. Además de este análisis exploratorio de datos, se debería 5. En esencia, en un modelo de diseño de bloques aleatori-
contemplar un planteamiento más confirmativo para zado, los bloques no tienen la misma posición que un fac-
examinar las suposiciones de un procedimiento de prueba tor. En la sección 14.10 veremos que cuando los bloques
particular, antes de decidir si el procedimiento es viable son considerados con la importancia suficiente para cons-
para un conjunto de datos dado. Para la prueba F ANOVA tituir un segundo factor, el diseño se conoce como mode-
de una dirección, las principales suposiciones son que los lo factorial de dos factores, y la prueba del efecto de cada
datos de muestra de cada grupo son tomados de maneras factor sería, potencialmente, importante.
aleatoria e independiente de una población subyacente 6. Tomaremos en consideración el caso general en el que se
normal, y que estas poblaciones tienen igual variabilidad tienen n' observaciones para cada combinación del factor
(véanse figuras 14.2 y 14.3 de las páginas 528 y 529). Para A y el factor B (es decir, cada celda). Si hay sólo una obser-
probar la condición de normalidad véase la referencia 2. vación por celda, la notación del modelo de diseño de
Para probar la igualdad de las varianzas de las pobla- bloques aleatorizados puede utilizarse con los bloques
ciones, en la sección 14.4.7 se presenta un procedimiento considerados como un segundo factor de interés.
desarrollado por H. O. Hartley.
7. Los grados de libertad asociados con la componente de
3. Puesto que c(c - 1)/2 combinaciones por parejas se reali- interacción (SSAB) se encuentran mediante sustracción:
zan de manera simultánea, es necesario ajustar el área de
extremo superior bajo la curva de distribución normal n - 1 - (e - 1) - (r - 1) - rc(n' - 1)
estándar con el fin de obtener el valor crítico Zu adecuado y, como n = rcn', haciendo un poco de álgebra tenernos
que permita que el alcance crítico calculado mantenga un n-l-(c-1)-(r-l)-rc(n' - l)=rcn'-1-c+l-r+l-rcn'+rc
nivel general de significación a, a través del experimento
(véanse referencias 3 y 6). =rc-c-r+l
4. Los grados de libertad asociados con la componente de = (r - l)(c - 1)
suma de errores cuadrados (SSE) se encuentran mediante
sustracción:
n - 1 - (e - 1) - (r- 1)

Notas finales 60 3
Referencias
l. Berenson, M. L., D. M. Levine y M. Golsdstein, 8. Microsoft Exce/ for Windows: Step by Step (Redmond, WA:
Intermediate Statistica/ Metlwds a11d Applications: A Microsoft Press, 1993).
Computer Package Approach (Englcwood Cliffs, NJ: 9. Miller, R. G., Simultaneous Statistical Inference, Za. ed.
Prentice Hall, 1983). (Nueva York: Springer-Verlag, 1980).
Z. Conover, W.]., Practica/ Nonparametric Statistics, Za. ed. 10. MINITAB Reference Manual Release 8 (State College, PA:
(Nueva York: Wiley, 1980). Minitab, Inc., 1992).
3. Daniel, W. W., Applic'cl No11pamrnetric Statistics, Za. ed. 11. Nieter, ]., W. Wasserman y M.H. Kutner, Applied Linear
(Boston, MA: PWS Kl•nt, 1990). Statistical Model, 3a. ed. (Homewood, IL: Richard D.
4. Dunn, O.]., "Multiple Comparisons Using Rank Sums", Irwin, 1990).
Technometrics, 1964, vol. 6, págs. 241-ZSZ. IZ. SAS User's Cuide Version 6 (Raleigh, NC: SAS Institute,
S. Hicks, C. R., P1111tl11111,•11tal Concepts in the Design of 1988).
Experiments, :fa. l'd. (Nueva York: Holt, Rinehart and 13. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
Winston, 198Z). Software, !ne., 1992).
6. Kirk, R. E. Exp!'ri111m/a/ Vesign, Za. ed. (Belmont, CA: 14. Tukey,]. W., "Comparing Individual Meaos in the
Brooks-( :oll', 1982). Analysis of Variance", Biometrics, 1949, vol. 5, págs. 99-
7. Kraml'I', C. Y., "Exlcnsion of Multiple Range Tests to 114.
Group Ml•ans wilh Unequal Numbers of Replications",
Bio111C'lrics, 1'JS<i, vol. lZ, págs. 307-310.

604 Capítulo 14 ANOVA y otras pruebas de c muestras con datos numéricos


capítulo

Prueba de hipótesis con


datos categóricos
•••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Extender los principios básicos de la
metodología de la prueba de hipótesis
CAPÍTULO a situaciones que implican variables
categóricas.

605
1ij1 Introducción
El análisis de datos categóricos con propósitos de toma de decisiones es de vital
importancia en la investigación financiera, médica y de las ciencias sociales. Al efec-
tuar una encuesta, por ejemplo, las preguntas se redactan, a menudo, de manera
que se den respuestas categóricas, en lugar de respuestas numéricas. En los cuatro
capítulos anteriores nos interesamos por los procedimientos de prueba de hipótesis
que se utilizan cuando se analizan datos numéricos. En los capítulos 11 y 12 se pre-
sentan varias pruebas de una muestra, en el capítulo 13 se describieron varias prue-
bas de dos muestras y en el capítulo 14 se desarrollaron algunas pruebas de e
muestras. En el presente capítulo ampliaremos nuestro estudio de la metodología
de prueba de hipótesis con el propósito de considerar procedimientos que se uti-
lizan cuando se analizan datos categóricos. Empezaremos por enfocar nuestra aten-
ción a situaciones en las que se toma una sola muestra que contiene datos
categóricos, y centraremos nuestro interés en la prueba de una hipótesis con-
cerniente a un valor específico de una porción de población. A esto le seguirán situa-
ciones descriptivas respecto al análisis de diferencias en porciones de población,
basadas en dos muestras independientes, dos muestras relacionadas y en e muestras
independientes. Además, extenderemos nuestros análisis anteriores sobre teoría de
probabilidad, dados en las secciones 6. 7 y 6.8, mediante la presentación de un análi-
sis confirmatorio más formal de la hipótesis de independencia en las respuestas con-
juntas de dos variables categóricas. De nuevo, en el presente capítulo pondremos
énfasis en las premisas que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de:
l. Saber cuándo y cómo utilizar la prueba Z para la porción de población p.
2. Saber cuándo y cómo utilizar la prueba Z para examinar posibles
diferencias en las porciones de dos poblaciones independientes.
3. Saber cuándo y cómo utilizar la prueba x 2 para examinar posibles
diferencias en las porciones de dos poblaciones independientes.
4. Entender las similitudes y las diferencias entre las pruebas Z y x2 para
diferencias en porciones de población.
5. Saber cuándo y cómo utilizar la prueba x 2 para examinar posibles
diferencias en las porciones de e poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba x 2 para la independencia de
las respuestas conjuntas de dos variables categóricas.
7. Saber cuándo y cómo utilizar la prueba de McNemar para una posible
diferencia en las porciones de dos poblaciones relacionadas.

1llJ Prueba Z de una muestra para la proporción

1 5.2.1 Introducción y desarrollo


En ocasiones resulta útil probar una hipótesis concerniente a un valor específico de
una porción de población p. Por ejemplo, un individuo puede hacer una afirmación
respecto al valor de la porción de población que corresponde a una variable
categórica y, después, seleccionar una muestra aleatoria de la población con el fin de
llevar a cabo una prueba de hipótesis. Se calcula la porción de muestra, Ps = X/n
y el valor de esta estadística debe compararse con el valor supuesto del parámetro p,
de modo que se pueda tomar una decisión respecto a la hipótesis.
Si se pueden cumplir ciertas suposiciones podemos recordar de la sección 9.3
que a la distribución de muestreo de una porción seguirá una distribución normal
estandarizada. Así pues, para evaluar la magnitud de la diferencia entre la porción

606 Capítulo 1S Prueba de hipótesis con datos categóricos


de la muestra, Psi y la porción de la población supuesta p, la estadística de prueba
Z está dada por la ecuación (15.1):

.z ~ . Ps - P
··~p(l;p)

en la que
X número de sucesos en la muestra
Ps = - = _ d = proporción de sucesos observados
n tamano e 1a muestra
p = proporción de sucesos de la hipótesis nula
La estadística de prueba Z, está distribuida de manera aproximadamente normal.
Alternativamente, en lugar de examinar la proporción de éxitos de una muestra,
como en la ecuación (15.1), podemos tener la intención de estudiar el número de
éxitos de una muestra. La estadística de prueba Z para determinar la magnitud de
la diferencia entre el número de éxitos de una muestra y el número supuesto o
esperado de éxitos de una población se presenta en la ecuación (15.2)

z - .X - np
.= "'~n=p=(l=-==p=) (15.2)

De nuevo, esta estadística de prueba Z está distribuida de manera aproximada-


mente normal. Podemos recordar de la sección 8.6 que, a pesar que la variable
aleatoria X (es decir, el número de éxitos de la muestra) siga una distribución
binomial, si el tamaño de muestra es lo suficiente grande [esto es, tanto np ~ 5 y
n(l -p);::: 5], la distribución normal proporciona una buena aproximación a la dis-
tribución binomial.
Ad!emás de posibles errores de redondeo, la estadística de prueba Z dada por las
ecuaciones (15.1) y (15.2), nos proporcionará exactamente los mismos resultados.
Las dos formas alternativas de la estadística de prueba son equivalentes porque el
numerador de la ecuación (15.2) es n veces el numerador de la ecuación (15.1), y
el denominador de la ecuación (15.2) también es n veces el denominador de la
ecuación (15.1). La elección de una u otra ecuación para una aplicación particular
corresponde al lector.

15.2.2 Aplicación
Para ilustrar el uso de la prueba Z (de una muestra) para una porción supuesta,
regresemos al ejemplo de llenado de cajas de cereal analizado en los capítulos 9 a
11. El gerente de producción también está preocupado por el proceso de sellado de
las cajas llenas. Cuando el paquete que se coloca dentro de la caja está lleno, se
supone que éste se sella de modo que queda hermético. Basándose en experiencias
anteriores, sin embargo, se sabe que uno de cada diez paquetes (es decir el 10 % o
0.10) no cumplen con las normas del sellado y deben "volverse a trabajar" para que
puedan pasar la inspección. Para modificar esta situación, suponga que el gerente
de producción instrumenta, de manera tentativa, un sistema de empacado que se
acaba de desarrollar. Después de un periodo de prueba de un día, el gerente toma

Prueba Z de una muestra para la proporción 607


una muestra aleatoria de 200 cajas que representan la producción diaria en la
planta y, mediante una inspección, encuentra que 11 de ellas tienen que volverse
a sellar. El gerente de producción desea determinar si existe alguna evidencia de
que, con el nuevo sistema de empacado, la porción de paquetes defectuosos ha
mejorado (es decir, ha disminuido por debajo de 0.10).
En términos de porciones (en lugar de porcentajes), las hipótesis nula y alter-
nativa pueden establecerse de la manera siguiente:

H0: p <'! .10

H 1: p < .10

Puesto que el gerente de producción está interesado en saber si ha habido una


reducción significativa o no en la porción de paquetes defectuosos, debido al nue-
vo proceso, la prueba es de un extremo. Si se selecciona el nivel de significación de
a= O.OS, las regiones de rechazo y de no rechazo serían las que se muestran en la
figura 15.1, y la regla de decisión sería:

Rechazar H 0 si Z < -1.645;


en cualquier otro caso no rechazar H 0 .

Figura 15.1
Prueba de un extremo de la
hipótesis de una porción al nivel
de significación de O.OS.

De nuestros datos, tenemos que

11
Ps = - = .oss
200

Utilizando la ecuación (15.1), tenemos:

z = p, - p = .055 - .10 -.045 = -.045 = -2.12


- ~ p(l; p) (.10)(.90) .,J.00045 .0212
200

haciendo uso de la ecuación (15.2), tenemos:

z= -;=X=-=np=== 11 - 200(.10) = 11 - 20 = ~ = -2.12


- ~np(l - p) ~(200)(.10)(.90) -[18 4.243

608 Capitulo 15 Prueba de hipótesis con datos categóricos


Puesto que -2.12 < -1.645, rechazamos H 0 • Así pues, el gerente puede llegar a la
conclusión que existe evidencia que la porción de cajas defectuosas obtenidas con
el nuevo sistema es menor a 0.10.

• Busqueda del valor .p Como un planteamiento alternativo para la toma


de una decisión de prueba de hipótesis, podemos también calcular el valor p para
esta situación (véanse secciones 11.5 y 11.8). Como tenemos una prueba de un
extremo en la que la región de rechazo está localizada solamente en el extremo
inferior (véase figura 15.2), necesitamos encontrar el área por debajo de un valor Z
de-2.12. De la tabla E.2, esta probabilidad será .5000- .4830 = .0170, y como este
valor es menor que a= .OS, la hipótesis nula puede ser rechazada.

Figura 1S.2
determinación del valor de fl
para una prueba de un extremo.

Problemas de la sección 15.2


~ 15.1 Pruebe que la fórmula de la mano derecha de la ecuación (15.1) de la página
607 es equivalente a la fórmula de la mano derecha de la ecuación (15.2).
15.2 Un fabricante de televisores afirma en su póliza de garantía que en el pasado
no más de 10% de sus aparatos de televisión necesitaron reparación durante
sus primeros dos años de operación. Con el fin de probar la validez de esta
afirmación, una agencia de pruebas del gobierno selecciona una muestra de
100 aparatos de televisión y encuentra que 14 de ellos requirieron alguna
reparación dentro de los dos primeros añ.os de operación. Utilizando un nivel
de significación de .01,
(a) ¿Es válida la afirmación del fabricante o existe evidencia de que ésta no es válida?
(b) Calcule el valor de pe interprete su significado.
15.3 La Glansante Company, proveedora de servicios de exterminio de plagas,
afirma que no más de 15% de sus clientes necesita repetir el tratamiento
después del periodo de garantía de 90 días. Con el propósito de determinar la
validez de esta afirmación, una organización de protección al consumidor
seleccionó una muestra de 100 clientes y encontró que 22 de ellos necesitaron
repetir el tratamiento después del periodo de garantía de 90 días.
(a) ¿Existe evidencia, al nivel de significación de .OS, de que la afirmación no
es válida (es decir, de que la porción de clientes que necesitaron el
tratamiento es mayor que .15)?
(b) Calcule el valor de pe interprete su significado.
e 15.4 El director de personal de una compañía de seguros grande está interesado en
reducir la tasa de movimientos de los oficinistas encargados de procesar datos
durante su primer año de empleo. Registros anteriores indican que 25% del
total de las nuevas contrataciones es esta área ya no se encuentran en la
compañía al final del primer año. Se están instrumentando programas de
entrenamiento extensivos para una muestra de 150 nuevos oficinistas
encargados del procesamiento de datos. Al final de un periodo de un afio, de
los 150 individuos, 29 ya no se encuentran en la compañía.
(a) Al nivel de significación de .01, ¿existe evidencia de que la porción de
oficinistas encargados del procesamiento de datos que estuvieron en el
nuevo programa de entrenamiento y que ya no trabajan para la compañía
es menor que .25?
(b) Calcule el valor de pe interprete su significado.

Prueba Z de una muestra para la proporción 609


e 15.S El gerente de mercadotecnia de un fabricante de automóviles está interesado en
determinar la porción de dueños de autos compactos nuevos que hubieran
adquirido una bolsa inflable de seguridad para el conductor, si ésta hubiera.
estado disponible por un precio adicional de 300 dólares. El gerente tiene la
creencia, de información anterior, que la porción de clientes es de .30. Suponga
que se selecciona una muestra de 200 dueños de autos compactos nuevos y que
79 de ellos afirman que hubieran adquirido la bolsa de seguridad.
(a) Al nivel de significación de .10, ¿existe evidencia de que la porción de
población es diferente de .30?
(b) Calcule el valor de pe interprete su significado.
15.6 Al gerente de comercialización de una oficina de turismo en México le gustaría
aumentar la porción de turistas que adquieren joyería de plata mientras toman
sus vacaciones en México; la porción actual es de .40. Con este propósito, se
prepararon una serie de artículos y anuncios en donde se resaltan la belleza y
el valor de las joyas y se distribuyeron a todos los pasajeros de aeroplano que
llegaban a una cierta zona hotelera situada en la costa durante un periodo de
una semana. Se seleccionó una muestra aleatoria de 500 personas que regresaban
al final de un periodo de una semana, y 227 de éstos indicó que habían
adquirido las joyas.
(a) Al nivel de significación de .OS, ¿existe evidencia de que la porción
aumentó por arriba del valor anterior de .40?
(b) Calcule el valor de p e interprete su significado.

Problemas intercapítulo de la sección I5.2


15.7 Refiérase al problema S.3 de la página 17S.
(a) Suponga que una muestra aleatoria recién tomada de 250 individuos
indica que 158 de éstos utilizan productos Microsoft como sus principales
paquetes de software financiero para trabajo de Windows en sus negocios.
Al nivel de significación de .05, ¿existe evidencia de que la porción ha
cambiado respecto a la que había en el mercado en 1992?
(b) Calcule el valor de p e interprete su significado.
(c) Proyecto de clase Considere que su clase es una muestra de todos los
estudiantes de su escuela. Determine la porción de estudiantes de su clase
que utilizan productos Microsoft como su principal paquete de software
financiero para trabajo en Windows. Al nivel de significación de O.OS,
¿existe evidencia que esta porción es diferente de la que existía en el mer-
cado en 1992?
15.8 Refiérase al problema 5.8 de la página 178.
(a) Suponga que una muestra aleatoria recientemente tomada de 200 individuos
indica que 78 de ellos prefieren productos Kellogg en lugar de los producidos
por otras compañías que producen cereales listos para servirse. Al nivel de
significación de .05, ¿existe evidencia de que la porción ha cambiado con
respecto a la que existía en el mercado en 1992?
(b) Calcule el valor de pe interprete su significado.
(c) Proyecto de clase Suponga que su clase es una muestra aleatoria de
todos los estudiantes de su escuela. Determine la porción de estudiantes
de su clase que prefieren productos Kellogg en lugar de los producidos por
otras compañías que producen cereales listos para comer. Al nivel de
significación de .OS, ¿existe evidencia de que la porción es diferente de la
que había en el mercado en 1992?
15.9 Refiérase al problema 5.47 de la página 194.
(a) Suponga que una muestra aleatoria de 175 tomadores de cerveza del
estado de Nueva York indica que 93 de ellos prefieren la marca Anheuser-
Busch a cualquier otra marca. Al nivel de significación de .10, ¿existe
evidencia de que la porción ha cambiado respecto a la establecida en el
mercado en un año reciente?
(b) Calcule el valor de pe interprete su significado.

610 Capítulo 15 Prueba de hipótesis con datos categóricos


15.10 Refiérase al problema 5.50 de la página 196:
(a) Suponga que una muestra aleatoria de 200 individuos, tomada durante el
presente año, indica que 106 de ellos prefieren refresco de cola con
cafeína a cualquier otra bebida carbonatada no alcohólica. Al nivel de
significación de .01, ¿existe evidencia de que la porción ha cambiado
respecto a la registrada en el mercado, según las ventas en supermercados en
un año reciente?
(b) Calcule el valor de pe interprete su significado.
(c) Proyecto de clase Considere que su clase es una muestra de todos los
estudiantes de su escuela. Determine la porción de estudiantes de su clase
que prefieren refresco de cola con cafeína a cualquier otro refresco
carbonatado sin contenido de alcohol. Al nivel de significación de .01,
¿existe evidencia de que esta porción es diferente de la registrada en el
mercado, basándose en las ventas en supermercado en un año reciente?

1#11 Prueba Z para diferencias entre dos


porciones (muestras independientes)

15.J. I Introducción
A menudo, un investigador está preocupado por hacer comparaciones y analizar
diferencias entre dos poblaciones en términos de alguna característica categórica.
Se puede llevar a cabo una prueba de la diferencia entre dos porciones basándose
en muestras independientes utilizando dos métodos diferentes. En la presente sec-
ción presentamos un procedimiento cuya estadística de prueba Z, es aproximada
por una distribución normal estándar. En la sección 15.4 desarrollaremos un pro-
cedimiento cuya estadística de prueba x2, es aproximada por una distribución chi-
cuadrada con un grado de libertad. Los resultados serán equivalentes.

1 5.J.2 Desarrollo
Cuando se evalúan diferencias entre dos porciones basándose en muestras inde-
pendientes, se puede emplear una prueba Z. La estadística de prueba Z utilizada
para determinar la diferencia entre dos porciones de población está basada en la
diferencia entre las dos porciones de muestra <Psi - p52 ). Debido al teorema del lí-
mite central analizado en la sección 9.2, esta estadística de prueba puede ser
aproximada por una distribución normal estándar para muestras de tamaño sufi-
ciente grande. Como se muestra en la ecuación (15.3), la estadística de prueba Z es

z =<Ps~ ~·Ps;)·~.<P1 .- P2) .


. }Ú~iJ)(n~ +.niz )·.;
(15.3)<

con

En la que p51 = porción de muestra obtenida de la población 1


X1 =número de éxitos en la muestra 1
ni = tamaño de la muestra tomada de la población 1

Prueba Z para diferencias entre dos porciones (muestras independientes) e 11


p 1 = porción de éxitos de la población 1
p52 = porción de muestra obtenido de la población 2
X 2 = número de éxitos de la muestra 2
n2 =tamaño de la muestra tomada de la población 2
p2 = porción de éxitos de la población 2
p =estimación combinada de la porción de población
Bajo la hipótesis nula, se supone que las dos porciones de población son
iguales. Debemos observar que p, la estimación combinada de la porción de
población, está basada en la hipótesis nula. Por consiguiente, cuando se prueba la
igualdad de las porciones de dos poblaciones, obtenemos una estimación general
de la porción de población común mediante la combinación o agrupación de dos
porciones de muestra. Esta estimación p, es sencillamente el número de éxitos de
las dos muestras combinadas (n 1 + n2 ) dividido entre el tamaño total de muestra
de los dos grupos de muestra (n 1 + n2 ).
Una atracción principal del empleo de esta prueba Z para evaluar las diferencias
en las porciones de población basadas en dos muestras independientes, consiste en
que podemos estar interesados en determinar si existe cualquier diferencia en la por-
ción de éxitos que se tienen en los dos grupos (prueba de dos extremos) o en deter-
minar si un grupo posee una porción más grande de éxitos que el otro grupo (prueba
de un extremo). 1

Prueba de Prueba de Prueba de


dos extremos un extremo un extremo
Ho: P1 =Pz Ho: P1 ;::pz Ho: P1 ~P2
H1: P1~P2 H1: P1 <Pz H¡: P1 >pz
en la que p1 = porción de éxitos en la población 1
p2 = porción de éxitos en la población 2

Para probar la hipótesis nula de no diferencia en las porciones de dos pobla-


ciones independientes
Ho: P1 = Pz
contra la hipótesis alternativa de que las dos porciones de población no son iguales:

H1: P1 * Pz
podemos utilizar la estadística de prueba Z, dada por la ecuación (15.3) y, para un
nivel dado de significación, ex, rechazaríamos la hipótesis nula si la estadística de
prueba Z calculada es mayor que el valor crítico de extremo superior de la distribu-
ción normal estándar o si la estadística de prueba calculada es menor que el valor
crítico de extremo inferior de la distribución normal estándar.

15.3.3 Aplicación
Para ilustrar el uso de la prueba Z en cuanto a la homogeneidad de dos porciones,
suponga que un director de personal se encuentra investigando la consideración de
los empleados sobre la justicia de dos diferentes métodos de evaluación de su
desempeño en el trabajo. Para probar las diferencias entre los dos métodos se asig-
naron, de manera aleatoria, 160 empleados para ser evaluados con uno de los mé-
todos. Un total de 78 empleados fueron asignados para ser evaluados con el método
1, que permite a los sujetos proporcionar una retroalimentación a los requerimien-

Gil Capítulo 1 S Prueba de hipótesis con datos categóricos


tos de supervlSlon como parte de su proceso de evaluación. Los restantes 82
empleados fueron evaluados con el método 2, que permite a los individuos pro-
porcionar estimaciones propias sobre su desempeño. Después de las evaluaciones,
se preguntó a los empleados si consideraban que el proceso de evaluación de
desempeño había sido justo o injusto. De la primera muestra, 63 empleados sen-
tían que el método 1 es justo. De la segunda muestra, 49 empleados creían que el
método 2 es justo. Los resultados se muestran en la tabla 15.1.

Tabla 1S. I Comparación de la percepción del empleado


sobre la justicia, basándose en dos métodos de
evaluación de desempeño en el trabajo.
Método de evaluación
1 2
Tamaño de muestra: n1 =78 n2 =82
No. de empleados que consideraron
que el método es justo: X 1 =63 X 2 =49

Las hipótesis nula y alternativa son

H 0 : p 1 = Pz o la diferencia de las porciones p 1 - Pz = O


H 1: p 1 'f:. p2 o la diferencia de las porciones p 1 - Pz 'f:. O

Si la prueba se fuera a llevar a cabo con un nivel de significación de 0.01, los


valores críticos serían -2.58 y +2.58 (véase figura 15.3) y nuestra regla de decisión
es:

Rechazar H 0 si Z > +2.58


o si Z < -2.58;
o en cualquier otra circunstancia, no rechazar H0 .

·.:'..1 :,· ·:. j(i: .....~:--: 1 1¡.~L: Ji·


,.. . .. ·I :~~ ¡ ,'
i'.: :::•,. •·.'!

' ', if: ; > Figura 1 S,3 Prueba de una


z:::-2.58 Z= +2.58, ,· hipótesis acerca de la diferencia
entre. dos porciones al nivel de
significación de O.O 1.

Para nuestros datos tenemos

Prueba Z para diferencias entre dos porciones (muestras independientes) G 13


en la que:

Psi = ~
n = 63 = .808
78 Ps 2 =
X2
-¡¡-- =
49
82 = .598
1 2

63 + 49 = 112 = .70
78 + 82 160

de modo que

z = -;:::==·=80=8=-=·5=9=8==
1 1 )
(.70)(. 30) ( 78 + 82

.210

(.2100)( 160 )
6,396
.210
'1.005253

= ·210 = +2.90
.0725

Utilizando un nivel de significación de .01, la hipótesis nula (H0 ) es rechazada


porque Z = +2.90 > +2.58. Si la hipótesis nula fuera verdadera, se tendría una proba-
bilidad de a = .01 de obtener una estadística de prueba Z, que se encuentre a más
de +2.58 desviaciones estándar del centro de la distribución Z o a menos de -2.58
desviaciones estándar del centro de la misma distribución. El valor p, o la proba-
bilidad de obtener una diferencia entre las dos porciones de población más grande
que el valor de .210 observado en este caso, que se traduce en una estadística de
prueba Z con una distancia mayor a ±2.90 desviaciones estándar con respecto al
centro de la distribución Z, es de .0038 (obtenido de la tabla E.2). Esto es, si la
hipótesis nula fuera verdadera, la probabilidad de obtener una estadística de
prueba Z por debajo de-2.90 es de .5000- .4981 = .0019 y, de manera parecida, la
probabilidad de obtener una estadística de prueba Z por encima de +2.90 es de
.5000- .4981 = .0019. Por consiguiente, para esta prueba de dos extremos, el valor
de p es de .0019 + .0019 = .0038. Puesto que .0038 < a= .01, la hipótesis nula es
rechazada. Existe evidencia para llegar a la conclusión que los dos métodos de
evaluación del desempeño son significativamente diferentes respecto a la percep-
ción de los empleados de su justicia. Una mayor porción de empleados encontró
que el método 1 (retroalimentación de los empleados) es más justo que el método
2 (consideraciones propias).

Problemas de la sección 1.5.3


15.11 Deseamos determinar si existe alguna diferencia en la popularidad del futbol
americano entre individuos masculinos con educación superior e individuos
masculinos sin educación superior. Una muestra de 100 hombres con educación
superior reveló que había 55 de ellos que se consideraban a sí mismos como
aficionados al futbol americano. Una muestra de 200 hombres sin educación

614 Capítulo 15 Prueba de hipótesis con datos categóricos


superior reveló que 125 de éstos se consideraba aficionados al futbol
americano.
(a) ¿Existe alguna evidencia de que haya diferencias en la popularidad del fut-
bol entre hombres con educación superior y quienes no la tienen, al nivel
de significación de .01?
(b) Calcule el valor de p del inciso (a) e interprete su significado .
• 15.12 Un estudio de mercado realizado en una ciudad grande mostró que de 100
mujeres casadas que trabajan tiempo completo, 43 cenaban en un restaurante
y
al menos una noche durante una semana típica de trabajo, una muestra de
100 mujeres casadas que no trabajaban tiempo completo tuvo como resultado
que 27 de ellas cenaban en un restaurante al menos una noche durante una
semana típica de trabajo.
(a) Utilizando un nivel de significación de .OS, ¿existe evidencia de una difer-
encia entre los dos grupos de mujeres casadas respecto a la porción que
cena en un restaurante al menos una noche durante una semana típica de
trabajo?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
15.13 Un profesor de contabilidad estaba estudiando la legibilidad de los informes
anuales de dos compañías importantes. Se seleccionó una muestra aleatoria de
100 contadores públicos certificados. Se asignaron, de manera aleatoria,
cincuenta de ellos para que leyeran el informe anual de la compañía A, y los
otros cincuenta fueron asignados para que leyeran el informe de la compafiía
B. Basándose en una medida estándar de legibilidad, 17 contadores encontraron
que el informe anual de la compañía A se entendía, y 23 encontraron que el
informe de la compañía B también se podía "entender".
(a) Al nivel de significación de .10, ¿existe alguna evidencia de que haya una
diferencia entre las dos compañías respecto a la porción de
contadores que encontraron los informes anuales entendibles?
(b) Calcule el valor de p del inciso (a) e interprete su significado .
• 15.14 El director de comercialización de una compañía fabricante de detergente para
ropa realizó un experimento para comparar la satisfacción del cliente respecto
al detergente, basándose en el nivel de temperatura utilizada para lavar. A los
integrantes de una muestra aleatoria de 500 personas, que estuvieron de
acuerdo en participar en el experimento, se les pidió que utilizaran el deter-
gente en una carga estándar de ropa en un ciclo de lavado de baja
temperatura. Una segunda muestra aleatoria utilizó el producto en una carga
estándar de ropa en un ciclo de lavado de alta temperatura. De los 500 partici-
pantes que utilizaron el ciclo de baja temperatura, 280 estuvieron satisfechos
con el lavado de ropa. De los 500 individuos que utilizaron el ciclo de alta
temperatura, 320 estuvieron satisfechos con el resultado.
(a) Al nivel de significación de .OS, ¿existe alguna evidencia de que el uso de
la marca de detergente para ropa es preferida cuando se utiliza en lavados
a alta temperatura que cuando se le usa para lavar a baja temperatura?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
15.15 El gerente de una librería situada en las instalaciones de una universidad llevó
a cabo una encuesta para investigar si había diferencias entre hombres y
mujeres respecto a la consideración de adquirir cintas de video de carácter
educativo. Dependiendo de la respuesta, su objetivo consistía en desarrollar
material promocional adecuado que le llevara a aumentar la venta en dicho
tipo de cintas de video durante el semestre que se avecina. De los 40 hombres
encuestados, 13 afirmaron que considerarían la posibilidad de adquirir las cintas
de video. De las 30 mujeres, 15 afirmaron que considerarían la posibilidad de
comprar las cintas.
(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en la
porción de hombres y de mujeres que consideran la posibilidad de comprar
cintas de video educativas?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Dados los resultados obtenidos en los incisos (a) y (b), ¿qué debería hacer
el gerente de la librería respecto a una futura campaña promociona!?
Explique sus recomendaciones.

Prueba Z para diferencias entre dos porciones (muestras independientes) 61 S


Problemas intercapítulo de la sección 15.3
lS.16 Refiérase al problema 6.S de la página 209.
(a) Al nivel de significación de .OS, ¿existe evidencia de que haya una diferencia
en la porción de estudiantes que poseen una tarjeta de crédito de
entretenimiento basándose en si tienen o no una tarjeta de crédito bancaria?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Suponga que en lugar de determinar si existe una diferencia entre los dos
grupos como en el inciso (a), deseamos saber si hay evidencia de que los
estudiantes que tienen una tarjeta de crédito bancaria tienen mayor
probabilidad de poseer una tarjeta de crédito de entretenimiento que los
estudiantes que no tienen una tarjeta bancaria. Al nivel de significación
de O.OS, ¿a qué conclusiones llega?
e lS.17 Refiérase al problema 6.7 de la página 210.
(a) ¿Existe evidencia de una diferencia en la porción de hombres y mujeres
que disfrutan ir de compras para adquirir su ropa? (Utilice el nivel a= .OS.)
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Suponga que en lugar de determinar si existe una diferencia entre los dos
grupos como en el inciso (a), deseamos determinar si existe evidencia de
que la porción de mujeres que disfruta ir de compras para adquirir su ropa
es mayor que la porción de hombres. Al nivel de significación de O.OS, ¿A
qué conclusión llega?
lS.18 Refiérase al problema 6.8 de la página 210.
(a) Al nivel de significación de 0.10, ¿existe evidencia de una diferencia en la
porción de hombres y de mujeres que utilizan las instalaciones del club de
salud?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
15.19 Refiérase al problema 6.6S de la página 23S.
(a) Al nivel de significación de .OS, ¿existe evidencia de que una porción
mayor de personas sin un grado académico superior (en contraposición
con los que sí tienen el grado) se han mantenido en su trabajo actual más
de cinco años?
(b) Calcule el val~r de p del inciso (a) e interprete su significado.

i 11 i x
Prueba 2 para diferencias entre dos
porciones (muestras independientes)

1 5 .4. 1 Introducción
En la sección anterior describimos la prueba Z para la diferencia entre dos por-
ciones basada en muestras independientes. En lugar de comparar directamente
porciones de éxitos, en la presente sección observaremos los datos en términos de
la frecuencia de éxitos en dos grupos. Desarrollaremos un procedimiento cuya
estadística de prueba x2 es aproximada por una distribución chi-cuadrada con un
grado de libertad. Los resultados obtenidos al emplear la prueba x2 son, a excep-
ción de posibles errores de redondeo, equivalentes a los obtenidos al utilizar la
prueba Z de la sección 15.3.

1 5 .4 • .2 Desarrollo
Si se tiene el interés de comparar los registros o cuentas de respuestas categóricas
entre dos grupos independientes, se puede desarrollar una tabla de clasifica-
ciones cruzadas de dos direcciones (véase sección 5.5) para mostrar la frecuen-
cia de presentación de éxitos y fracasos para cada grupo. A esta tabla también se le
conoce como tabla de contingencias, que, como podemos recordar, fue uti-

616 Capítulo 15 Prueba de hipótesis con datos categóricos


lizada en el capítulo 6 para definir y estudiar la probabilidad, en particular desde
un planteamiento empírico objetivo. En es1ta sección, sin embargo, desarrollare-
mos una metodología para llevar a cabo un análisis más confirmatorio de los datos
presentados en dichas tablas de contingencia.
Para motivar este análisis, regresemos al estudio del director de personal sobre
la consideración de los empleados acerca de la justicia de dos diferentes métodos
de evaluación de desempeño en el trabajo que fue presentado en la sección ante-
rior. La tabla 15.2 representa un ilustración esquemática de una tabla de clasifica-
ciones cruzadas resultante del estudio, y la tabla 15.3 es la tabla de contingencias
que muestra los datos reales del estudio.

Tabla 1S.l Presentación de una tabla de contingen-


cias de 2 x 2 para la comparación de la
percepción del empleado sobre la justi-
cia, basándose en dos métodos de evalua-
ción del desempeño en el trabajo.
Método de evaluación
Percepción
del empleado 1 2 Totales
Justo X¡ X2 X
Injusto n 1 -X 1 nz -Xz n-X
Totales n¡ nz n

en la que Xi = número de empleados que creen que el método 1 es justo


X 2 = número de empleados que creen que el método 2 es justo
ni - Xi =número de empleados que creen que el método 1 no es
justo
n 2 - X 2 =número de empleados que creen que el método 2 no es
justo
X = X1 + X 2 =número de evaluaciones de justicia positivas
n - X =(ni - X 1) + (n 2 - X2) =número de evaluaciones de
justicia negativas
ni = número de empleados de la muestra evaluados con el
método 1
n2 = número de empleados de la muestra evaluados con el
método 2
n = ni + n2 = número total de empleados evaluados en el
estudio

Tabla 1S.3 Tabladecontingenciasde2x2paralacomparación


de la percepción de justicia observada por los empleados
basándose en dos métodos de evaluación del desempeño
en el trabajo.
Método de evaluación
Percepción
del empleado 1 2 Totales
Justo 63 49 112
Injusto 15 33 48
-
Totales 78 82 160

La tabla de contingencias mostrada en la tabla 15.3 tiene dos renglones que


indican si los empleados consideraron que su evaluación fue justa (es decir, éxito)
o injusta (esto es, fracaso), y dos columnas, una para cada método de evaluación

Prueba x2 para diferencias entre dos porciones (muestras independientes) 617


de desempeñ.o. A ésta se le conoce como tabla de 2 x 2. Las celdas de la tabla indi-
can la frecuencia de cada combinación de hilera y columna. Los totales de renglón
indican el número de estimaciones justas e injustas; los totales de columna son los
tamaños de muestra o el número de personas evaluadas con cada método. La por-
ción de empleados que consideran que su evaluación de desempeño es justa se
puede obtener al dividir el número de estimaciones justas para un método en par-
ticular entre el número de empleados que evaluaron dicho método. Luego se
puede utilizar una metodología conocida como prueba x2 para la homogenei-
dad de porciones para comparar las porciones de los dos métodos.
Para probar la hipótesis nula de no diferencias en las dos porciones de
población:

Ho: P1 =Pz

contra la hipótesis alternativa de que las dos porciones de población son di-
ferentes:

H¡: P1 *-Pz

obtenemos la estadística de prueba x2 dada por


1
'(15.4).

en la que fo es la frecuencia observada o registro real de una celda en particular de


una tabla de contingencias de 2 x 2
y
fe es la frecuencia que esperaríamos encontrar en una celda en particular
si la hipótesis nula fuera verdadera.
Para calcular la frecuencia esperada (fe) en cualquier celda se requiere un
entendimiento de su fundamento conceptual. Si la hipótesis nula es verdadera y la
porción de estimaciones justas es igual para cada población, entonces la porciones
de muestra calculadas a partir de los dos grupos deberían ser diferentes entre sí úni-
camente por casualidad, puesto que cada una estaría proporcionando una esti-
mación del parámetro de población común, p. En tal situación, una estadí.stica que
combine o agrupe estas dos estimaciones separadas en una estimación general o
promedio del parámetro de población, p, nos proporcionaría más información que
cualquiera de las dos estimaciones por separado. Esta estadística, dada por el sím-
bolo p, por consiguiente, representa la porción general o promedio de estimacio-
nes justas de los dos grupos combinados (es decir, el número total de estimaciones
justas dividido entre el número total de empleados evaluados). Utilizando la
notación para porciones que usamos en la sección 15.3, lo anterior puede
plantearse como

(lS.5).,
'i , ,.J.,

y su complemento, 1 - p, representa la porción general o promedio de estimaciones


de no justa de los dos métodos de evaluación.

618 Capitulo 15 Prueba de hipótesis con datos categóricos


· Para obtener la frecuencia esperada (fe) en cada celda perteneciente a estima-
ciones justas (es decir, la primera hilera de la tabla de contingencias), multiplica-
mos el tamaño de muestra (o total de columna) de uno de los métodos de
evaluación de empleados por p. Para obtener la frecuencia esperada (fe) para cada
celda perteneciente a estimaciones injustas (es decir, la segunda hilera de la tabla
de contingencias), multiplicamos el tamaño de muestra (o total de columna) de
uno de los métodos de evaluación de los empleados por (1- p).
La estadística de prueba mostrada en la ecuación (15.4) sigue, aproximada-
mente, una distribución chi-cuadrada con los grados de libertad igual al número
de renglones de la tabla de contingencias menos uno por el número de columnas
de la tabla menos uno:

grados de libertad= (r - l)(c - 1)

en la que r = número de renglones de la tabla


e = número de columnas de la tabla

Para nuestra tabla de contingencias de 2 X 2 se tiene un grado de libertad; es


decir,
grados de libertad = (2 - 1)(2 - 1) = 1

Utilizando un nivel de significación a, la hipótesis nula puede ser rechazada a


favor de la alternativa si la estadística de prueba x2 calculada es mayor que x2u(l)' el
valor crítico de extremo superior de la distribución chi-cuadrada con un grado
de libertad. Esto es, la regla de decisión consiste en rechazar H0 si
2 2
X > Xu(l)

según se ilustra en la figura 15.4.

',,·i·I

Figura 15.4
Prueba de una hipótesis para la
diferencia entre dos porciones,
utilizando la prueba x2 •

Refiriéndonos a la ecuación (15.4),· si la hipótesis nula fuera verdadera, la


estadística de prueba calculada x2 debería estar cercana a cero, puesto que
la diferencia al cuadrado entre lo que realmente observamos en cada celda (f0 ) y lo
que esperamos teóricamente (fe) sería muy pequeña. Por otro lado, si H 0 es falsa y
existen diferencias reales en las porciones de población, esperaríamos que la
estadística de prueba x2 calculada sea grande, ya que la discrepancia entre lo que
realmente observamos en cada celda y lo que teóricamente esperamos se verá mag-
nificada cuando elevemos al cuadrado las diferencias. Sin embargo, lo que consti-
tuye una gran diferencia en una celda es relativo. La misma diferencia real entre fo
y fe contribuiría más a la estadística de prueba x2 si proviniera de una celda en la
cual sólo unas cuantas observaciones son esperadas (fe), que la diferencia prove-
niente de una celda en la que se esperan muchas observaciones. Esto es así debido
a que se realiza un ajuste de estandarización para el tamaño de la celda: la diferen-

Prueba x2 para diferencias entre dos porciones (muestras independientes) CS 19


da cuadrada entre fo y fe se divide entre la frecuencia esperada (fe) en la celda. La
estadística de prueba x2 dada por la ecuación (15.4) se obtiene, entonces, sumando
cada valor estandarizado (fo - fe) 2 /fe sobre todas las celdas de la tabla de contin-
gencias.

15.4.3 Aplicación
A fin de ilustrar el uso de la prueba x2 para la homogeneidad de dos porciones,
volvamos de nuevo nuestra atención al estudio de la evaluación del desempeño
efectuado por el director de personal. Los resultados se presentaron en la tabla 15.3
de la página 617.
La hipótesis nula (H0 : p1 = p2) establece que, cuando se comparan dos métodos
de evaluación de desempeño en el trabajo, no existe diferencia en la porción de
empleados con respecto a su percepción de justicia del método. Utilizando la
ecuación (15.5) de la página 618, podemos estimar el parámetro común p, la por-
ción verdadera de empleados que creen que tales métodos de evaluación son jus-
tos. Esto es, p, la porción general o promedio de empleados que piensan que los
métodos son justos, se calcula como

(X1 + X2) X
p=
(n1 + nz) n
(63 + 49) 112
(78 + 82)
= 160
= .70
La porción estimada de empleados que no creen que los métodos de evaluación
sean justos es el complemento, (1-p), o .30. Al multiplicar estas dos porciones por
el tamaño de muestra utilizado para el método de evaluación de desempeño 1, se
obtiene el número esperado de empleados que perciben sus evaluaciones como jus-
tas y el número esperado de los que no las consideran justas. De manera parecida,
al multiplicar las dos porciones respectivas por el tamaño de muestra utilizado para
el método de evaluación 2, se obtienen las correspondientes frecuencias esperadas
para ese grupo. Todas estas frecuencias esperadas se presentan en la t.abla 15.4,
junto a las correspondientes frecuencias observadas que presentamos anterior-
mente en la tabla 15.3.

Table 1 S.4 Tabla de contingencias de 2 x 2 para la comparación de percepción de


justicia observada (f0 ) y la esperada (fe) de los empleados, basándose
en dos métodos de evaluación del desempeño en el trabajo.
Método de evaluación
1 2
Percepción
del empleado Observada Esperada Observada Esperada Totales
Justo 63 54.6 49 57.4 112
Injusto 15 23.4 33 24.6 48
Totales 78 78 82 82 160

Para probar la hipótesis nula de homogeneidad de porciones

Ho: P1 =P2

620 Capítulo 1 S Prueba de hipótesis con datos categóricos


confra la alternativa de que las porciones verdaderas de población no son iguales

utilizamos los datos reales y los esperados de la tabla 15.4 para calcular la estadística
de prueba x2 dada por la ecuación (15.4). Los cálculos se presentan en la tabla 15.5.

Tabla 15.S Cálculo de la estadística de prueba x2


para los datos de evaluación del
desempeño.
fo fe (fo - fe) (fo - fe) 2 (fo - fe) 2/fe
63 54.6 +8.4 70.56 1.293
49 57.4 -8.4 70.56 1.229
15 23.4 -8.4 70.56 3.015
33 24.6 +8.4 70.56 2.868
8.405

Si se escoge un nivel de significación de .01, el valor crítico de la estadística de


prueba x2 se podría obtener de la tabla E.41 una réplica de la cual se presenta en la
tabla 15.6. La distribución chi-cuadrada es una distribución sesgada cuya forma
depende exclusivamente del número de grados de libertad. A medida que los gra-
dos de libertad aumentan, la distribución chi-cuadrada se vuelve cada vez más
simétrica.

Tabla 15.6 Obtención del valor crítico de la distribución chi-cuadrada con un grado de libertad, utilizando el
nivel de significación de .O 1.
Grados Área de extremo superior (a)
de
Libertad .995 .99 .975 .95 .os .025 .01 .005
1
2 0.010 0.020
0.001
0.051
O.Mi:t
0.103
3.841
5.991
5.0221:
7.378
" 6.635
9.210
7.879
10.597
3 0.072 0.115 0.216 0.352 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 11.071 12.833 15.086 16.750

Fuente: Tomando de la tabla E.4.

Los valores de esta tabla se refieren a áreas de extremo superior seleccionadas


de la distribución chi-cuadrada. Puesto que la .estadística de prueba x2 para una
tabla 2x2 tiene un grado de libertad, y estamos probando a un nivel de signifi-
cación de a= .01, el valor crítico de la estadística de prueba x2 es 6.635 (véase la
figura 15.5 en la pág. 622). Ya que nuestra estadística de prueba x2 de 8.405 excede
este valor crítico, la hipótesis nula puede ser rechazada. Existe evidencia para con-
cluir que los dos métodos de evaluación del desempeño son significativamente
diferentes con respecto a la percepción de justicia del método por parte del
empleado. Un análisis de la tabla 15.1 en la pág. 613 indica que una gran parte de
los empleados encuentra el método 1 (retroalimentación de los empleados) más
justo que el método 2 (consideraciones propias).
Como veremos en la sección 15.7, los resultados obtenidos con varios paque-
tes de software de computación estadísticos para el análisis de tablas de contin-
gencia, típicamente contienen la tabla de clasificaciones cruzadas que incluye a las
frecuencias observadas y esperadas, la estadística de prueba x 2 calculada y la proba-
bilidad (es decir, el valor de p) de obtener una estadística de prueba con tal valor o

Prueba x2 para diferencias entre dos porciones (muestras independientes) 621


Figura 1s.s
Búsqueda del valor crítico x2 con
un grado de libertad, al nivel de
significación de O.O 1.

más extremoso si la hipótesis nula fuera verdadera. Siempre que tengamos pre-
sente tal valor p en el resultado de computadora no necesitaremos el valor crítico
de la estadística de prueba para tomar nuestra decisión. Simplemente podemos
comparar el valor de p obtenido con nuestro nivel seleccionado de significación,
a. Si el valor p es menor que a, la hipótesis nula es rechazada; si el valor p es mayor
que a, entonces la H 0 no es rechazada. En nuestro estudio de evaluación de desem-
peño en el trabajo, puesto que el valor de pes de .0038 (obtenido con el paquete
de software estadístico STATISTIX), y es menor que a= .01, la hipótesis nula es rec-
hazada. Existe evidencia de una diferencia en las dos porciones. Los empleados
encuentran el método 1 (retroalimentación de los empleados) más justo que el
método 2 (consideraciones propias).
• Advertencia Para que la prueba arroje resultados precisos, la prueba x2
para tablas 2 x 2 supone que cada frecuencia esperada es al menos cinco. Si no se
satisface tal suposición, se pueden utilizar otros procedimientos, como la prueba
exacta de Fisher (véase referencia 2).

1 5 .4.4 Prueba de igualdad de dos porciones mediante


z y x2 y una comparación de resultados
Hemos visto en el estudio sobre evaluación del desempeño en el trabajo del direc-
tor de personal que tanto la prueba Z, basada en la distribución normal estándar,
como la prueba x2, basada en la distribución chi-cuadrada con un grado de liber-
tad, conducen a la misma conclusión. Lo anterior se puede explicar por la inter-
relación existente entre la distribución normal estándar y una distribución
chi-cuadrada con un grado de libertad. La estadística de prueba x2 será siempre el
cuadrado de la estadística de prueba Z. 2 Por ejemplo, en el estudio de evaluación
de desempeño la estadística de prueba Z es +2.90 y la estadística de prueba x2 es de
8.405. Excepto por el error de redondeo, observamos que este último valor es el
=
cuadrado de +2.90 [es decir, (+2.90) 2 8.405]. Tenemos también que si compara-
mos los valores críticos de las estadísticas de prueba de las dos distribuciones,
podemos ver que, al nivel de significación de 0.01, el valor x1'c
1¡ de 6.635 es el
cuadrado de los valores Z, ±2.58 (es decir, Xlrol = Z2).

e Ventaja de la prueba z. respecto a la prueba x2 A partir del análisis


anterior debería quedar claro que cuando probamos la hipótesis nula de homo-
geneidad de dos porciones

Ho: P1 = Pz

contra la hipótesis alternativa de que las porciones de población no son iguales x2

622 Capítulo 1S Prueba de hipótesis con datos categóricos


la prueba Z y la prueba x 2 son métodos equivalentes. Sin embargo, si estamos
interesados específicamente en determinar si existe evidencia de una diferencia
direccional, como si p1 > p2 , entonces se debe utilizar la prueba Z con la región de
rechazo completa localizada en un extremo de la distribución normal estándar.
• Ventaja de la prueba x2 respecto a la prueba Z Por otro lado, si se
tiene interés en hacer comparaciones y evaluar diferencias en las porciones entre e
grupos o niveles de algún factor, estaremos en la posibilidad de extender la prueba
x2 para tales propósitos. La prueba Z, sin embargo, no se puede utilizar si se tienen
más de dos grupos.

Problemas de la sección I5.4


Q15.20 ¿Por qué no se debería utilizar la prueba X2 para diferencias en las porciones
cuando las frecuencias esperadas en algunas de las celdas son muy pequeñas?
15.21 Resuelva el problema 15.11 de la página 614, utilizando la prueba x2 .
• 15.22 Resuelva el problema 15.12 de la página 615, utilizando la prueba x2
15.23 Resuelva el problema 15.13 de la página 615, utilizando la prueba x2 .
15.24 Resuelva el problema 15.15 de la página 615, utilizando la prueba x2 •
15.25 En un esfuerzo por comparar la eficiencia de dos tratamientos médicos para elimi-
nar la placa que obstruye las arterias, el médico Eric J. Topol llevó a cabo un estudio
en el cual asignó de manera aleatoria 1,012 pacientes enfermos del corazón para que
se les aplicara una aterectomía coronaria direccional o una angioplastia de globo
(véase E. Topo! y col., "A Comparison of Directional Atherectomy with Coronary
Angioplasty in Pa tients with Coronary Artery Disease", en The New England foumal
o(Medidne, 22 de julio, 1993, vol. 329, pp. 221-227). De los 512 pacientes sometidos
a aterectomía, 44 murieron o sufrieron infartos dentro de los seis meses posteriores
al tratamiento. De los 500 pacientes sometidos a angioplastia, 23 murieron o
sufrieron un infarto dentro de los seis meses posteriores al tratamiento.
(a) Al nivel de significación de .01, ¿existe evidencia de que haya una
diferencia en los dos tratamientos médicos respecto a la porción de
muertes y de infartos dentro de los seis meses posteriores al tratamiento?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
Q
. (c) Dados los resultados obtenidos en el inciso (a) y/o los del inciso (b), ¿a qué
conclusión deberá llegar el médico respecto a los dos tratamientos?
Q
.. (d) ¿De qué manera debería reaccionar un diputado interesado en cuestiones
de salud ante los resultados obtenidos en los incisos (á) y/o (b)?
(j
.. (e) ¿De qué manera debería reaccionar un administrador de un hospital ante
los resultados obtenidos en los incisos (a) y/o (b), si el hospital cobra una
suma fija por tratamiento?
(f) ¿De qué manera debería reaccionar un ejecutivo de una compañía de
seguros ante los resultados obtenidos en los incisos (a) y/o (b), si la
compañía tiene que pagar por cada tratamiento?

Problemas intercapítulo de la sección 15.4


15.26 Refiérase al problema 6.5 de la página 209; utilizando la prueba x2
(a) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la
porción de estudiantes que poseen una tarjeta de crédito de
entretenimiento basándose en el hecho de si tienen o no una tarjeta de
crédito bancaria?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(e) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 15.16(a) de la página 616. Explique.
(d) Explique por qué la prueba x2 no puede utilizarse para resolver el problema
15.16(c) de la página 616.

Prueba x2 para diferencias entre dos porciones (muestras independientes) 623


e 15.27 Refiérase al problema 6.7 de la página 210¡ utilizando la prueba x2
(a) Al nivel de significación de .OS, ¿existe evidencia de que haya una diferencia
en la porción de hombres y de mujeres que disfrutan el ir de compras para
adquirir ropa?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 15.17(a) de la página 616. Explique.
(d) Explique por qué la prueba x2 no puede utilizarse para resolver el problema
15.l?(c) de la página 616.
15.28 Refiérase al problema 6.8 de la página 210; utilizando la prueba x2 ,
(a) Al nivel de significación de .10, ¿existe evidencia de que haya una
diferencia en la porción de hombres y mujeres que utilizan las
instalaciones del club?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 15.18(a) de la página 616. Explique.

i iiJ Prueba x2 para diferencias entre e


porciones (muestras independientes)
1 S.5.1 Introducción y desarrollo
La prueba x2 puede extenderse al caso general en el que existen e poblaciones inde-
pendientes que se deben comparar. Así pues, si se tiene interés en evaluar las
diferencias en las porciones entre e grupos o niveles de algún factor, se puede uti-
lizar la prueba x2 para tal propósito. La tabla de contingencias tendría dos ren-
glones o hileras y e columnas. Para probar la hipótesis nula de no diferencias en las
porciones entre las e poblaciones

Ho: P1 = Pz = · · · =Pe

contra la hipótesis alternativa de que no todas las e porciones de población son


iguales:

H 1: No todas las P; son iguales (con j = 1, 2, ... , e)

utilizamos la ecuación (15.4) y calculamos la estadística de prueba

x2 = I <to - r.>2
todas las celdas fe
en la que fo es la frecuencia observada o registro real que se encuentra en una celda
particular de una tabla de contingencias de 2 x e, y fe es el registro teórico o frecuen-
cia esperada en una celda en particular si la hipótesis nula fuera verdadera.
Para calcular la frecuencia esperada (fe) en una celda, debemos darnos cuenta de
que si la hipótesis nula fuera verdadera y las porciones iguales en las e poblaciones,
entonces las e porciones de muestra deberían diferir entre sí sólo por casualidad, ya
que cada una estaría proporcionando estimaciones del parámetro de población
común p. En tal situación, una estadística que agrupara o combinara estas e estima-
ciones separadas en uha estimación general o promedio del parámetro de población
p proporcionaría más información que cualquiera de las e estimaciones separadas por
sí sola. Desarrollando la ecuación (15.5) de la página 618, la estadística p representa
la porción global o promedio sobre los e grupos combinados:

624 Capítulo 15 Prueba de hipótesis con datos categóricos


(15.Sa)

Para obtener la frecuencia esperada lfe) en cada celda del primer renglón de la
tabla de contingencias, multiplicamos cada tamaño de muestra respectivo (o total de
columna) por p. Para obtener la frecuencia esperada lfe) en cada celda del segundo
renglón de la tabla de contingencias, multiplicamos cada tamaño de muestra respec-
tivo (o total de columna) por (1 - p). La estadística de prueba presentada en la
ecuación (15.4) sigue aproximadamente una distribución chi-cuadrada con los gra-
dos de libertad igual al número de renglones de la tabla de contingencias menos uno
por el número de columnas de la tabla de contingencias menos uno. Para una tabla
de contingencias de 2 x e se tienen e - 1 grados de libertad; esto es

grados de libertad= (2 - l)(c - 1) =e - 1

Utilizando un nivel de significación de a, la hipótesis nula puede ser rechazada en


favor de la hipótesis alternativa si la estadística de prueba x2 calculada es mayor
que el valor crítico de extremo superior de una distribución x2, con e- 1 grados de
libertad. Esto es, la regla de decisión es

Rechazar Ho si x2 > Xt(c - l);

en cualquier otro caso, no rechazar H0 .

Esto se representa en la figura 15.6.

Figura 15.G
o x~c-1) Prueba de las diferencias entre e
porciones utilizando la prueba x2 •

Para que la prueba x2 arroje resultados precisos cuando se tiene una tabla de
contingencia de 2 x e, todas las frecuencias esperadas deben ser grandes. En tales
situaciones, se ha dado bastante discusión entre los estadísticos acerca de la defini-
ción de "grande". Algunos investigadores en estadística (véase referencia 4) han
encontrado que la prueba da resultados precisos siempre y cuando todas las fre-
cuencias esperadas sean mayores o iguales a .5. Otros estadísticos, más conser-
vadores en sus planteamientos, pondrían como requisito que no más de 20% de
las celdas contengan frecuencias esperadas menores que 5 y que ninguna celda
tenga frecuencias esperadas menores que uno (véase referencia 3). Nosotros suge-
rimos que un compromiso razonable entre estos dos puntos de vista consiste en
asegurarse que todas las frecuencias esperadas son de al menos uno. Para llevar a
cabo esto, puede ser necesario unificar dos o más categorías de frecuentia baja en
nuestra tabla de contingencias, antes de efectuar la prueba. Tal fusión de categorías
por lo general trae como resultado frecuencias esperadas lo suficientemente gran-
des como para realizar la prueba x2 de manera precisa. Si la combinación o agru-

Prueba x2 para diferencias entre e porciones (muestras independientes) 1525


pamiento de categorías no es deseable, se tienen disponibles procedimientos alter-
nativos (véase referencias 1 y 6).

1 S.5.1 Aplicación
Para ilustrar la prueba x2 considerando la igualdad o la homogeneidad de porciones
cuando existen más de dos grupos, supongamos que una compañía constructora de
bienes raíces acaba de recibir la aprobación del ayuntamiento para fraccionar un
terreno que tendrá 40,000 departamentos destinados a vivienda. Entre los numerosos
elementos que se necesitan instalar en cada departamento es una caja interruptora de
electricidad que debe colocarse en la cocina. Varios fabricantes producen tales cir-
cuitos y la compañía constructora desea contratar solamente a uno de estos provee-
dores. De las especificaciones arquitectónicas y de ingeniería del diseño del
fraccionamiento aprobadas para este proyecto, es necesario que la caja interruptora
sea capaz de tolerar un nivel estipulado de corriente sin que funcione mal, con el fin
de que pueda ser considerada para su instalación. Cinco proveedores de cajas
interruptoras de circuito eléctrico que han hecho la solicitud para obtener el contrato
afirman que sus productos cumplirán con el requerimiento actual estipulado y han
pasado la primera etapa de la competencia por el contrato. Sin embargo, como la caja
interruptora es un producto relativamente barato y los precios ofrecidos por los cinco
proveedores al solicitar el contrato son muy parecidos, el director de la compañía
constructora decide diseñar un experimento para evaluar la capacidad de cada una de
las cajas competidoras. Se obtuvieron muestras aleatorias de 400 cajas de cada provee-
dor y se les sujetó a una prueba de corriente de pico (esto es, una corriente mayor del
nivel estipulado). En la tabla 15.7 se presenta, para cada uno de los productos de los
cinco proveedores, el número de cajas que funcionaron mal (es decir, al menos uno
de los interruptores no fue capaz de regresar a un funcionamiento adecuado) durante
la prueba y el número de cajas que siguieron funcionando adecuadamente bajo la
condición de corriente de pico.

Tabla 1 S.7 Clasificación cruzada de las frecuencias observadas en el experi-


mento de la corriente de pico sobre cinco tipos de cajas interruptora.

Tipos de cajas interruptoras


Resultado del experimento
corriente en pico 1 2 3 4 5 Totales
Cajas con mal funcionamiento 92 66 94 144 104 500
Cajas con funcionamiento
adecuado 308 334 306 256 296 1,500
Totales 400 400 400 400 400 2,000

Bajo la hipótesis nula de no diferencias entre los productos de los cinco pro-
veedores respecto a la porción de cajas que funcionan mal o que no cumplen con
el requisito, podemos utilizar la ecuación 15.Sa para calcular una estimación del
parámetro común p, la porción de población de cajas interruptoras que funcionan
mal. Esto es, p, la porción general o promedio de cajas que funcionan mal tomada
respecto a los cinco proveedores competidores, se calcula como:

- (X + X +···+X,) X
p = ~~~~~~~~-
1 2
=
(n 1 +n 2 +··· +n,) n

= (92 + 66 + 94 + 144 + 104)


~"--~~~~~~~~~~~
500
(400 + 400 + 400 + 400 + 400) 2,000
= .25

626 Capítulo 15 Prueba de hipótesis con datos categóricos


La porción estimada de cajas interruptoras que funcionan adecuadamente en la
población es el complemento, (1- p) o .75. Multiplicando estas dos porciones por
el tamaño de muestra utilizado para el producto de cada vendedor, trae como resul-
tado las frecuencias esperadas de cajas con funcionamiento inadecuado y ade-
cuado. Éstas se presentan en la tabla 15.8.

Tabla 1 S .8 Clasificación cruz:ada de las frecuencias esperadas del experimento


de la corriente de pico sobre cinco tipos de cajas interruptoras.
Tipos de cajas interruptoras
Resultado del experimento
de corriente de pico 1 2 3 4 5 Totales
Cajas con mal
funcionamiento 100 100 100 100 100 500
Cajas con funcionamiento
adecuado 300 300 300 300 300 1,500
Totales 400 400 400 400 400 2,000

Para probar la hipótesis nula de homogeneidad o igualdad de porciones

contra la hipótesis alternativa de que no todas las cinco porciones son iguales

H 1: No todas las P; son iguales (con j = 1, 2, ... , 5)

utilizamos los datos observados y los esperados de las tablas 15.7 y 15.8 para cal-
cular la estadística de prueba x2 dada por la ecuación (15.4). Los cálculos se pre-
sentan en la tabla 15.9.

Tabla IS.9 Cálculo de la estadística de prueba x, 2 para el


experimento de la corriente de pico sobre
cinco tipos de cajas interruptoras.
fo fe (fo - fe) (fo - fe) 2 (fo - fe) 2/fe
92 100 -8 64 0.640
66 100 -34 1,156 11.560
94 100 -6 36 0.360
144 100 44 1,936 19.360
104 100 4 16 0.160
308 300 8 64 0.213
334 300 34 1,156 3.853
306 300 6 36 0.120
256 300 -44 1,936 6.453
296 300 -4 16 0.053
42.772

Si se selecciona un nivel de significación de .01, el valor crítico de la estadística


de prueba x2 podría obtenerse de la tabla E.4. En nuestro experimento de las cajas
interruptoras, como se están evaluando cinco proveedores, se tienen (2 - 1)(5 - 1) =
4 grados de libertad. El valor crítico de x2 con cuatro grados de libertad, al nivel de
significación de a= .01, es 13.277. Puesto que nuestra estadística de prueba calcu~
lada x2 = 42.772 es mayor que el valor crítico, la hipótesis nula puede ser rechazada
(véase figura 15.7 de la página 628). Se puede establecer que, al nivel de significación
de .01, existe suficiente evidencia para llegar a la conclusión que los cinco tipos de

Prueba x, 2 para diferencias entre e porciones (muestras independientes) &17


. , .. ~

Figura IS.7
Prueba de la igualdad de cinco 2 .·.
porciones, al nivel de significación de XU(4) .
O.O 1 y con 4 grados de libertad.

cajas interruptoras de circuito eléctrico son diferentes entre sí respecto a la porción


que funcionan mal durante una prueba de corriente de pico.
De haber empleado un paquete de software estadístico para efectuar la prueba
x2 sobre los datos del experimento de las cajas interruptoras de circuito eléctrico,
hubiéramos podido leer el valor de p para la estadística de prueba x2 calculada en
el resultado obtenido con la computadora y no hubiéramos necesitado el valor
crítico de la estadística de prueba para tomar nuestra decisión. Como el valor de p
obtenido es menor que el nivel seleccionado de significación, a = .01, llegamos a
la misma conclusión: la hipótesis nula puede ser rechazada.

15.5.3 Comparaciones múltiples:


el procedimiento de marascuilo
Rechazar la hipótesis nula en una prueba x2 de la igualdad de porciones en una
tabla de 2 x e nos permite llegar a la conclusión que no todos los tipos de cajas
interruptoras son iguales respecto a la porción de ellas que no funcionan ade-
cuadamente durante una prueba de corriente de pico. El interés, entonces, se
podría centrar en qué tipo de caja o cajas son diferentes de las otras respecto a su
desempeño. Puesto que el resultado de la prueba x2 para la homogeneidad de por-
ciones no responde de manera específica estas preguntas, se necesitan otros
planteamientos. Uno de tales planteamientos confirmatorios que se puede utilizar
después del rechazo de la hipótesis nula de porciones iguales es el procedimiento
de Marascuilo (véanse referencias 5 y 6). Este método es un ejemplo de una com-
paración post hoc (o a posteriori), ya que las hipótesis de interés son formuladas
después de que los datos han sido estudiados.
El procedimiento de Marascuilo nos permite examinar de manera simultánea
las comparaciones entre todas las parejas de grupos. El primer paso implicado con-
siste en calcular las diferencias p5 . - p5 ., (con j-:f. j') entre todas las c(c - 1)/2 parejas
de porciones. Los correspondiehtes ~lcances críticos para el procedimiento de
Marascuilo se obtienen, entonces, de la cantidad dada por la ecuación (15.6):

(15.6)

en la que, para un cierto nivel general de significación, ~Xtcc-1) es la raíz


cuadrada del valor crítico de extremo superior de una distribución chi-cuadrada
con e - 1 grados de libertad. Debe obtenerse un alcance crítico diferente para cada
combinación por parejas de porciones de muestra. El paso final consiste en com-
parar cada una de las c(c - 1)/2 parejas de porciones respecto a su correspondiente
alcance crítico. Una pareja específica sería declarada significativamente diferente

528 Capítulo IS Prueba de hipótesis con datos categóricos


si la diferencia absoluta en las porciones de muestra 1 Ps 1 - Psr 1 es mayor que su
alcance crítico.
Para aplicar el procedimiento de Marascuílo regresemos al experimento de las
cajas interruptoras de circuito eléctrico. Utilizando la prueba x2 llegamos a la con-
clusión que había evidencia de una diferencia significativa entre las porciones de
población. Puesto que se tienen cinco tipos de cajas, existen (5)(5 - 1)/2 = 10 posi-
bles comparaciones por parejas que se deben hacer y diez alcances críticos que cal-
cular. De la tabla 15.7 que se encuentra en la página 626, las cinco porciones de
muestra son:

X1 92 = .230
Ps, =
400
ni
pSz - Xz - 66
- -
n - 400 = .167
2

X3 94 = .235
Ps 3 = - .=
n3 400
X4
pS4 -
-
-
n -- 144 400
= .360
4
Xs
Pss = n 5
=
104 = .260
400

Estas cinco porciones de muestra se grafican junto con la estimación combinada


(p) en la figura 15.8.

.40
.9
e:
Q)
·e
«!
e: .30
o
·a
.e:
.a P.
(ij
E.•
e: .20
8 :

:a
-~
Q)
'.O ,10
e: '
..,. .. .,
:Q '
!:? Figura IS.8
o
o.. Comparación de la
o porción de cajas
1 2 3 4 ·5 interruptoras de circuito
Diversos tipos de cajas de interruptores'ae c!rc'\liM$ ·· eléctrico que funcionan
mal proporcionadas por
cinco productores.

Para un nivel general de significación de 0.01, el valor crítico de extremo supe-


rior de la estadística de prueba x2 para una distribución chi-cuadrada que tiene
(e - 1) o cuatro grados de libertad se obtiene de la tabla E.4 como 13.277. Por con
siguiente, ~Xt<c-tJ = :..!13.277 = 3.644. De ésta obtenemos las diez parejas de

x
Prueba 2 para diferencias entre e porciones (muestras independientes) 629
diferencias absolutas de las porciones y sus correspondientes alcances críti-
cos:

(.230)(.770) + (.167)(.833)
1Ps, - Ps, 1=1.230 - .1671 = .063 3.644 = .102
400 400
(.230)(.770) + (.23S)(.76S)
1p,1 - p,, 1=1.230 - .2351 = .005 3.644 = .109
400 400

1 pS1 - pS4 1= 1.230 - .3601 = .130 (.230)(.770) + (.360)(.640) = .116


3.644
400 400

1P,, - p,, 1=1.230 - .2601 = .030 (.230)(.770) + (.260)(.740) = .111


3.644
400 400

1 p,2 p,, 1=1.167 - .2351 = .068 (.167)(.833) + (.235)(.765) = .103


- 3.644
400 400

1P,, - p,. 1=1.167 - .3601 = .193 (.167)(.833) + (.360)(.640) = .111


3.644
400 400
(.167)(.833) + (.260)(.740)
1 P,, - p,, 1=1.167 - .2601 = .093 3.644 = .105
400 400

(.235)(.765) + (.360)(.640)
1 P,, - p,. 1= l.235 - .3601 = .125 3.644 = .117
400 400
(.235)(.765) (.260)(.740)
1p,, - P,, 1= l.23S - .2601 = .025 3.644 = .111
400 + 400

lp 54 -p S5 1=1.360-.2601=.100 (.360)(.640) (.260)(.740)


3.644 + = .118
400 400

De aquí podemos llegar a la conclusión, utilizando el nivel general de significación


de .01, que los tipos 1, 2 y 3 son, cada uno de ellos, superiores al tipo 4 en términos
de la porción de cajas interruptoras que no funcionan adecuadamente. Las diferen-
cias observadas entre otras parejas de tipos de cajas se deben al azar. A pesar de que
no existe evidencia de significación estadística, si los costos y otros aspectos y carac-
terísticas importantes propuestas en la solicitud de contrato son parecidos, el provee--
dor de la caja tipo 2 sería el principal candidato para obtener el contrato, puesto que
su producto tuvo la porción más baja de cajas interruptoras de circuito que fun-
cionaban inadecuadamente, durante el experimento con la corriente de pico.

Problemas de la sección 15.5


f 15.29 ¿Por qué no se puede utilizar la aproximación normal para determinar diferen-
cias en la porción de éxitos en más de dos grupos?
e 15.30 El consejo docente de una universidad grande desearía determinar la opinión
de diferentes grupos sobre una propuesta de calendario académico trimestral.
Se seleccionó una muestra aleatoria de 100 estudiantes del último año, SO
estudiantes graduados y SO miembros del personal docente y se obtuvieron los
siguientes resultados:

630 Capítulo 15 Prueba de hipótesis con datos categóricos


Opinión No graduados Graduados Docente
A favor 63 27 30
En contra 37 23 20
Totales 100 50 50

(a) Al nivel de significación de .01, ¿existe evidencia de que haya una


diferencia en la actitud hacia la propuesta de calendario entre los
diferentes grupos? Analice completamente los resultados.
(b) f.f;d'll-i·f·~ ¿Qué debería informar el consejo docente al rector de la
universidad respecto a la actitud hacia la propuesta de calendario
académico trimestral?
15.31 El Dr. Lawrence K. Altman informó los resultados de una prueba clínica (The
New York Times, 1 de mayo de 1993, p . .7) en la que se comparó la
efectividad de cuatro regímenes de medicamento asignados aleatoriamente
para el tratamiento de pacientes que se reponían de un infarto. Se estudiaron
un total de 40,845 pacientes. A cada uno se les suministró uno de los cuatro
regímenes de medicamento. La medida de resultado fue la porción de efectos
adversos severos (es decir, muerte o incapacidad total) informados dentro de
los treinta días posteriores al tratamiento. Los datos se presentan a
continuación:

Régimen de medicina
Resultado A B e D Totales

Severo 714 785 754 820 3,073


No severo 9,630 9,543 9,042 9,557 37,772
Totales 10,344 10,328 9,796 10,377 40,845
Nota: A= TPA acelerado con heparina intravenosa
B = TPA combinada y estreptoquinasa, con heparina intravenosa
C = Esteptroquinasa con heparina subcutánea.
D = Estreptoquinasa con heparina intravenosa

(a) Describa la metodología que utilizará para analizar completamente los


datos (al nivel a = .05) para determinar si existe evidencia de una
diferencia significativa entre los cuatro regímenes de medicamento
respecto a la porción de pacientes que sufren efectos adversos severos (es
decir, muerte o incapacidad total), dentro de los treinta días posteriores al
tratamiento del infarto.
(b) Consigne por escrito sus resultados.
' (c) Analice el impacto que sus resultados puedan tener en la comunidad de
administradores y legisladores del sector salubridad si una dosis de TPA
cuesta 2,400 dólares por paciente, mientras que una dosis de estreptokinasa
cuesta $240 por paciente.
15.32 El gerente de control de calidad de una fábrica de partes para automóvil
desearía saber si existe alguna diferencia en la porción de partes defectuosas
producidas en diferentes días de la semana de trabajo. Se seleccionaron mues-
tras aleatorias de 100 partes producidas durante cada día de la semana de
trabajo, y se obtuvieron los resultados siguientes:

Resultado Lun. Mar. Mier. Jue. Vie.


Número de partes defectuosas 12 7 7 10 14
Número de partes aceptables 88 93 93 _2Q_ 86
Totales 100 100 100 100 100

Prueba x,2 para diferencias entre e porciones (muestras independientes) 63 1


(a) Al nivel de significación de .OS, ¿existe evidencia de que haya una
diferencia en la porción de partes defectuosas producidas durante los
distintos días de la semana?.
(b) r·f4illJM·I» Escriba un resumen ejecutivo destinado al gerente de control
de calidad.
15.33 Un fabricante de baterías para automóvil desea determinar si existe alguna
diferencia en tres medios de comunicación (revista, televisión, radio) en términos
de recuerdo de un anuncio publicitario por parte del público. Los resultados de
un estudio sobre publicidad se presentan a continuación:

Medios
Habilidad recordada Revista TV Radio Totales
Número de personas que recuerdan el anuncio 25 10 7 42
Número de personas que no recuerdan el anuncio 73 93 108 274
Totales 98 103 115 316

(a) Al nivel de significación de .10, determine si existe evidencia de un efecto


del medio de comunicación respecto a la porción de individuos que
pueden recordar el anuncio. Analice completamente los resultados.
(b) r·f4d'Ji•t.t•> Escriba un resumen ejecutivo dirigido al fabricante.

e 15.34 El director de comercialización de una compañía de televisión por cable está


interesado en determinar si existe alguna diferencia en la porción de familias
que contratan un servicio de televisión por cable basándose en el tipo de
residencia (de una sola familia, vivienda para dos a cuatro familias, edificio de
departamentos). Una muestra aleatoria de 400 familias reveló lo siguiente:

Tipo de residencia
¿Contratará servicio Una sola De dos a cuatro Edificio de
de TV por cable? Familia Familias departamentos Totales
Si 94 39 77 210
No 56 36 98 190
Totales ~ 75 175 450

(a) Al nivel de significación de 0.01, ¿existe evidencia de una diferencia entre


los tipos de residencia respecto a la porción de familias que contratan el
servicio de televisión por cable? Analice completamente los resultados.
(b) t.f4i!IJ!•t.i•> Escriba un resumen ejecutivo dirigido al director de
comercialización.

1#!·J Prueba x2 de independencia

1 S .6. 1 Introducción
Acabamos de ver cómo la prueba x2 puede ser utilizada para evaluar diferencias
potenciales entre la porción de éxitos en cualquier número de poblaciones. Para
una tabla de contingencias que tiene r renglones y e columnas, la prueba x2 puede
generalizarse como una prueba de independencia. En estas situaciones, deberemos
ser capaces de extender nuestros análisis anteriores sobre las reglas de probabi!i-

632 Capítulo 1 S Prueba de hipótesis con datos categóricos


dad, secciones 6.7 y 6.8, mediante la presentación de un análisis confirmatorio
más formal basado en una hipótesis de independencia en las respuestas conjuntas
de dos variables categóricas.

15.6.2 Desarrollo
Como prueba de independencia, las hipótesis nula y alternativa serían:
H0 : Las dos variables categóricas son independientes
(es decir, no hay relación entre ellas).
H1 : Las dos variables categóricas están relacionadas
(es decir, son dependientes).
Y de nueva cuenta utilizamos la ecuación (15.4) y calculamos la estadística de
prueba

Xz = L (fo - fe) 2
todas las celdas fe

La regla de decisión consiste en r~cha?:a_r Ja__hjp{>!_~_si~JWJª_(l_ µn_rii~~l_g__.Q_~_~_ignifi­


cación si el valor calculado <!~Jª--~tªQbtiCi~--d~ p.r_~~J;>.ª_es _¡payo~_<l..l,l~-·~J.Y.elo~_S.E~~~~:g
de extremo su_!?erior de una distribu®1L~h_i:~µad_i;a.<J;UL\J~__ pQ~~~..ír..::::Jl(L::-.Jl&!~­
dos de libg!tad (véase tabla E.4). Esto es:
Rechazar Ho si x2 > xh, - lJ(c - tJ;
en cualquier otro caso no rechazar H 0 .
Muchos investigadores consideran la prueba x2 de independencia como un
planteamiento alternativo a la consideración de la prueba x2 de la igualdad de por-
ciones. Las estadísticas de prueba son las mismas, al igual que las reglas de decisión.
Las hipótesis establecidas y las conclusiones a las que se llegan son diferentes. En
consecuencia, por ejemplo, en el estudio de evaluación del desempeño en el trabajo
de la sección 15.4, llegamos a la conclusión que había evidencia de una diferencia
en los dos métodos respecto a la porción de empleados que consideraron que las
evaluaciones eran justas. Desde un punto de vista diferente, podemos llegar a la con-
clusión que existe una relación significativa entre el método de evaluación utilizado
y la consideración de justicia de los empleados. De modo similar, en el experimento
de la corriente de pico en las cajas interruptoras de la sección 15.5, llegamos a la con-
clusión que había evidencia de una diferencia en los tipos de cajas respecto a la por-
ción de ellas que no funcionan adecuadamente en una prueba de corriente de pico.
Considerando las cosas desde una perspectiva diferente, podríamos llegar a la con-
clusión que existe una relación significativa entre el tipo de caja interruptora y el
funcionamiento bajo una corriente de pico específica.
Sin embargo, existe una diferencia fundamental entre los dos tipos de pruebas.
La principal diferencia está en el esquema de muestreo utilizado.
En una prueba de la igualdad de porciones, tenemos un factor de interés con
dos o más niveles. Estos niveles representan muestras tomadas de poblaciones
independientes. Las respuestas categóricas de cada grupo de muestra o nivel, por
lo general, están clasificadas en dos niveles: éxito y f'racaso. El objetivo consiste en
hacer comparaciones y evaluar las diferencias en las porciones de éxitos entre los
diferentes niveles.
Por otro lado, en una prueba de independencia, t~os-1actOies__de
interés, cada uno de los cuales posee dos o m.á.s-Diyg_l~~- Se JQma una__ffi:t!~strª-YJ_as
respuestas conjuntas a las dos variables categQricas son ~egistradas_~p__lªs celdas de
la ta5íaaecontingencias que representa niveles par~-¡~~~ilr~~-~~-~~il-~~r_i~~~e. ----
-------------------------·-------

Prueba x2 de independencia 63 3
1 5 .6. J Aplicación
Para ilustrar la prueba x2 de independencia, supongamos que se ha realizado una
encuesta por parte de una sucursal, situada en el Condado de Nassau (en Nueva
York, Estados Unidos), de una cadena que opera a nivel nacional oficinas de corre-
taje inmobiliario, con el propósito de conseguir un perfil de las casas de una sola
familia en algunas comunidades vecinas. Una cuestión de interés para el gerente
de la sucursal y que surge al hacer el perfil de las casas situadas en el centro del
Condado de Nassau es la determinación de si existe alguna relación entre el estilo
arquitectónico (casa de campo, rancho ampliado, casa colonial, rancho, casa con
niveles divididos) y la localización geográfica (East Meadow, Farmingdale y
Levittown). Utilizando los archivos de la Oficina Estadounidense de Censo,
Encuesta de casas actuales, se selecciona una muestra aleatoria de n = 233 casas de
una sola familia y se obtiene un registro de una dirección para cada combinación
de estilo arquitectónico y localización geográfica. La tabla de contingencias de 5 x
3 se presenta en la tabla 15 .1 O.

Tabla 15 .1 O Respuestas observadas en una encuesta de clasificación cruzada


del estilo arquitectónico y la localización geográfica para 233
casas de una familia.
Localización geográfica
Estilo East Meadow Farmingdale Levittown Totales
Casa de campo 31 14 52 97
Rancho ampliado 2 1 12 15
Colonial 6 8 9 23
Rancho 16 20 24 60
Niveles divididos 19 17 2 38
Totales 74 60 ~ 233

De los totales que se encuentran en los márgene"s de la tabla 15.50, observamos


que según al estilo arquitectónico, 97 de las casas muestreadas son consideradas
casas de campo, 15 ranchos ampliados, 23 son casas coloniales, 60 son ranchos y
38 casas con niveles divididos. Respecto a las comunidades vecinas al Condado de
Nassau, 74 de las casas muestreadas están localizadas en East Meadow, 60 · en
Farmingdale y 99 en Levittown. Las frecuencias observadas en las celdas de la tabla
de contingencias de 5 x 3 representan los registros conjuntos de las 233 casas de
una familia que fueron muestreadas, según el estilo arquitectónico y a la locali-
zación geográfica.
Las hipótesis nula y alternativa son:

H 0 : No existe relación entre el estilo arquitectónico


y la localización geográfica.
H 1: Existe relación entre el estilo arquitectónico
y la localización geográfica.

Para probar la hipótesis nula de independencia contra la hipótesis alternativa de


que sí existe una relación entre las dos variables categóricas, utilizamos la ecuación
(15.4) y calculamos la estadística de prueba

xz = :L <rº - t.)2
todas las celdas f.

634 Capítulo 15 Prueba de hipótesis con datos categóricos


en la que fo es la frecuencia observada o registro real que se encuentra en una celda
en particular de la tabla de contingencias de r x c, y fe es la frecuencia teórica que
esperaríamos encontrar en una celda en particular si la hipótesis nula fuera ver-
dadera.
Para calcular la frecuencia esperada (fe) en cualquier celda, podemos utilizar las
reglas de probabilidad desarrolladas en la sección 6.8. Esto es, si la hipótesis nula
de independencia fuera verdadera, entonces podríamos utilizar la regla de la mul-
tiplicación para eventos independientes analizada en la página 223 [véase la
ecuación (6.8)] para determinar la probabilidad conjunta o la porción de respues-
tas esperadas para cualquier combinación de celdas. Por ejemplo, bajo la hipótesis
nula de independencia, la probabilidad o la porción de respuestas esperadas, si-
tuadas en la esquina superior izquierda y que representa las casas de campo en East
Meadow, sería el producto de las dos probabilidades separadas, esto es,

P(casa de campo y East Meadow) = P (casa de campo) x P (East Meadow)

En este caso, la porción de casas de campo, P(casas de campo), es de 97/233 o


0.416, mientras que la porción de casas localizadas en East Meadow, P(East
Meadow), es de 74/233 o 0.318. Si la hipótesis nula fuera verdadera, y el estilo
arquitectónico y la localización geográfica fueran independientes, la porción
esperada o la probabilidad P(casa de campo y East Meadow) sería igual al producto
de las probabilidades separadas, 0.416 x 0.318 o 0.132. La frecuencia esperada (fe)
para una combinación particular de celdas sería, entonces, el producto del tamaño
de muestra de la encuesta, n, por su probabilidad; esto es, 233 x 0.132 = 30.8.
Como un segundo ejemplo, para calcular la frecuencia esperada (fe) para la
celda de la esquina derecha inferior que representa las casas con niveles divididos
en Levittown bajo la hipótesis nula de independencia, tenemos

P(niveles divididos y Levittown) =?(niveles divididos) x P(Levittown).

En este caso, la porción de casas con niveles divididos, P(niveles divididos), es de


38/233 o 0.163, mientras que la porción de casas localizadas en Levittown,
P(Levittown), es de 99/233 o 0.425. Si la hipótesis nula fuera verdadera, y el estilo
arquitectónico y la localización geográfica fueran independientes, la porción
esperada o la probabilidad ?(niveles divididos y Levittown) sería igual al producto
de las probabilidades separadas, 0.163 x 0.425 o 0.069. La frecuencia esperada (fe)
para una combinación particular de celdas sería, entonces, el producto del tamaño
de muestra de la encuesta, n, y esta probabilidad, es decir, 233 x 0.069 o 16.1.
Los valores de fe para el resto de la tabla de contingencia de 5 x 3 se obtendrían
de manera parecida (véase tabla 15.11).

Tabla 15.11 Frecuencias observadas de las respuestas a una encuesta de


clasificación cruzada del estilo arquitectónico y la localización
geográfica para 233 casas de una familia.
Localización geográfica
Estilo East Meadow Farmingdale Levittown Totales
Casa de campo 30.8 25.0 41.2 97
Rancho ampliado 4.8 3.9 6.4 15
Colonial 7.3 5.9 9.8 23
Rancho 19.1 15.5 25.5 60
Niveles divididos 12.1 9.8 16.1 38
Totales 74 60 99 233

x
Prueba 2 de independencia 63 5
Una forma más sencilla de calcular las frecuencias esperadas y que no
requiere el cálculo de probabilidades es

·· ' . '"e = ·su~a ~e r~n,~l~~esn,x s\üna,,


; , ,;.! , .. 1t _ ... , . . , ..... ... .~e ~01.u¡pnas
.1 .,.
. • ..

en la que suma de renglones es la suma de todas las frecuencias del renglón;


suma de columnas es la suma de todas las frecuencias de la columna;
n es el tamaño de muestra de la encuesta.
Por ejemplo, utilizando la ecuación (15.7) para la celda de la esquina superior
izquierda, que representa las casas de campo en East Meadow, tenemos

f; =suma de renglones x suma de columnas = (97)(74) = 30 .8


e n 233
mientras que para la celda inferior derecha, que representa las casas de niveles divi-
didos de Levittown, tenemos

fe = suma de renglones x suma de columnas ~ (38)(99) = 16.1


n 233

Los demás valores de fe pueden obtenerse de manera parecida (véase la tabla 15.11
en la página 635).
La estadística de prueba mostrada en la ecuación (15.4) sigue, aproximada-
mente, una distribución chi-cuadrada con los grados de libertad igual al número
de renglones de la tabla de contingencia menos uno por el número de columnas
de la tabla de contingencias menos uno. Para una tabla de contingencias de r x e
se tienen (r - l)(c - 1) grados de libertad; esto es:

grados de libertad= (r - l)(c - 1)

Utilizando un nivel de significación a, la hipótesis nula de independencia puede


ser rechazada a favor de la hipótesis alternativa de una relación entre las dos varia-
bles categóricas si la estadística de prueba x2 es mayor que el valor crítico de
extremo superior de una distribución chi-cuadrada que tiene (r - l)(c - 1) grados
de libertad. Esto es, la regla de decisión consiste en

Rechazar Ho si X2 > xtcr - l)(c - 1);

en cualquier otro caso no rechazar H 0 .

Esto se muestra en la figura 15.9.


La estadística de prueba x2 para estos datos, entonces, se calcularía de la
manera en que se indica en la tabla 15.12. Utilizando un nivel de significación,
a, de 0.05, puesto que x2 = 42.9607 es mayor que 15.507, el valor crítico de
extremo superior de la distribución x2 (véase tabla E.4) con (5 - 1)(3 - 1) = 8 gra-
dos de libertad, la hipótesis nula de independencia es rechazada (véase la figura
15.10). Existe evidencia de una relación entre el estilo arquitectónico y la locali-
zación geográfica. Si realizamos un examen de la tabla de frecuencias observadas
(véase la tabla 15.10 de la página 634) veremos que las casas de campo se
encuentran con mayor abundancia de lo esperado en Levittown, pero hay
menos de éstas en Farmingdale. Los ranchos ampliados están sobrerrepresenta-
dos en Levittown.

636 Capítulo IS Prueba de hipótesis con dato_s categóricos


Figura 15.9
Prueba de independencia en
o x2U(H)(o-1) .. una tabla de contingencias de
r x c utilizando la prueba x2 •

Figura 15.1 O
Prueba de independencia entre el
estilo de casa y la localización
o 15.507 X~e) geográfica, al nivel de significación
de .OS y con 8 grados de libertad.

Tabla 15 .12. Cálculo de la estadística de prueba


chi-cuadrada para la tabla de contingencias
estilo de casa-localización geográfica.
fo fe (fo - feJ (fo - feJ 2 (fo - feJ 2 1fe
31 30.8 +0.2 0.04 0.0013
14 25,0 -11.0 121.00 4.8400
52 41.2 +10.8 116.64 2.8311
2 4.8 -2.8 7.84 1.6333
1 3.9 -2.9 8.41 2.1564
12 6.4 +5.6 31.36 4.9000
6 7.3 -1.3 1.69 2.3151
8 5.9 +2.1 4.41 0.7475
9 9.8 -0.8 0.64 0.0653
16 19.1 -3.1 9.61 0.5031
20 15.5 +4.5 20.25 1.3065
24 25.5 -1.5 2.25 0.0882
19 !b.-1 +6.9 47.61 3.9347
17 .9..8 +7.2 51.84 5.2898
2 16.1 -14.1 198.81 12.3484
42.9607

Las casas de niveles divididos están sobrerrepresentadas en East Meadow y en


Farmingdale, pero están ampliamente subrepresentadas en Levittown. El valor p o
la probabilidad de obtener un valor de X2 de 42.9607 o incluso más extremoso si
la hipótesis nula de independencia que fuera verdadera es menor que 0.005.

• Advertencia Al igual que en el caso de las tablas de contingencias de 2 x e,


con el propósito de asegurar resultados precisos, el uso de la prueba x2 cuando se
esté tratando con tablas de contingencias de r x e, reguiere que todas las frecuen-

Prueba x2 de Independencia 6 37
das esperadas sean "grandes". Se pueden utilizar las mismas reglas sugeridas para
el empleo de la prueba x2 en el caso de las tablas de contingencias de 2 x e de la
página 625. De nuevo, sugerimos que todas las frecuencias esperadas sean de al
menos uno. En casos en los que una o más frecuencias esperadas sean menores que
uno, la prueba puede llevarse a cabo después de unificar dos o más categorías de
renglón de baja frecuencia o después de combinar dos o más categorías de columna
de baja frecuencia. Esta fusión de categorías de renglón o de columna, por lo gene-
ral, tendrá como resultado frecuencias esperadas lo suficiente grandes para poder
realizar la prueba x2 con precisión.

Problemas de la sección 15.6


15.35 Si una tabla de contingencias tiene cuatro renglones y tres columnas, ¿cuántos
grados de libertad habría para la prueba x2 de independencia?
15.36 Para el caso en que se lleva a cabo una prueba x2 de independencia en una
tabla de contingencias con r renglones y e columnas, determine el valor crítico
de extremo superior de la estadística de prueba x2 en cada una de las siguientes
circunstancias:
(a) ex.= .05, r = 4 renglones, e= 5 columnas.
(b) ex.= .01, r = 4 renglones, e= 5 columnas.
(c) ex.= .01, r = 4 renglones, e= 6 columnas.
(d) a= .01, r =3 renglones, e= 6 columnas.
(e) a= .01, r =6 renglones, e= 3 columnas.
15.37 Se realizó un estudio de investigación de mercado a nivel nacional para determinar
las preferencias de varios grupos de hombres según la edad sobre diferentes
deportes. Se seleccionó una muestra aleatoria de 1000 hombres y a cada indi-
viduo se le pidió que indicara su deporte favorito. Los resultados son los
siguientes:

Deporte
Grupo de edad Beisbol Futbol Basquetbol Hockey Totales
Menor 20 26 47 41 36 150
20-29 38 84 80 48 250
30-39 72 68 38 22 200
40-49 96 48 30 26 200
50 y mayores 134 44 18 4 200
Totales 366 291 207 Llr- 1,000

(a) Al nivel de significación de 0.01, ¿existe evidencia de una relación entre


los grupos de edad, en hombres, y la preferencia en los deportes?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
e 15.38 Suponga que se ha realizado una encuesta para determinar si existe alguna
relación entre el lugar de residencia y la preferencia por el.automóvil. Se
seleccionó una muestra aleatoria de 200 automovilistas de ciudades grandes,
150 de suburbios y 150 de áreas rurales, y se obtuvieron los siguientes
resultados:

Preferencia de automóvil
Residencia GM Ford Chrysler Europeo Asiático Totales
Ciudad grande 64 40 26 8 62 200
Suburbio 53 35 24 6 32 150
Rural 53 45 30 6 16 150
Totales 170 120 80 20 ~ 500

618 Capítulo IS Prueba de hipótesis con datos categóricos


(a) Al nivel de significación de O.OS, ¿existe evidencia de una relación entre el
lugar de residencia y la preferencia por el automóvil?
(b) Calcule el valor de p en el inciso (a) e interprete su significado.
15.39 Durante la guerra de Vietnam, se instituyó un sistema de lotería para seleccionar a
los hombres que serían llamados al ejército de Estados Unidos. Se seleccionaban de
manera "aleatoria" números que representaban días del año; las personas que
hubieran nacido en días con un número pequeño eran llamados primero, y los
que tenían números grandes no eran llamados. La tabla siguiente muestra cuántos
números bajos (1 a 122), medianos (123 a 244) y altos (245 a 366) fueron tomados
y que correspondían a fechas de nacimiento en cada trimestre del año:

Trimestre del añ.o


Conjuntos de Ene.-Mar. Abr.-Jun. Jul.-Sep. Oct.-Dic. Totales
números
Bajo 21 28 35 38 122
Medio 34 22 29 37 122
Alto 36 41 28 17 122
Totales 91 91 ~ 92 366

(a) ¿Existe evidencia de que los números tomados estaban relacionados con
el tiempo del añ.o? (Utilice el nivel a= .05.)

'
(b) ¿Llegaría usted a la conclusión que la selecdón mediante la lotería parece
ser aleatoria?
(c) Calcule el valor de p del inciso (a) e interprete su significado .
• 15.40 La directiva de una corporación grande está interesada en determinar si existe
una asociación entre el tiempo de cambio de turno de sus empleados y el nivel
de estrés relacionado con problemas observados en el trabajo. En un estudio
de 116 obreros de línea de ensamblaje se reveló lo siguiente:

Estrés
Tiempo de cambio Alto Moderado Bajo Totales
Menor 15 min. 9 5 18 32
15 a 45 min. 17 8 28 53
Más de 45 min. 18 6 7 31
Totales 44 19 53 TI6

(a) Al nivel de significación de .01, ¿existe evidencia de que haya alguna


relación entre el tiempo de cambio de turno y el estrés?
(b) Calcule el valor de p del inciso (a) e interprete su sigr.ificado .

.~.. . . )·<·.::\J:~~,,lª~~.,#:··~9:~~µ~ª§~~···~~~·;:, :.:·~';/i~~~~~~~'?\·.).\:¿:.>}·.;;··.r


.. · :.:." · ,~·e·,.Rlpot~SIS ~n dat(!)S·<=~. .... ~.9~~~IJ".':;;;:·:;··:·:...' s.;,;·::
'' ' '.. '~:~:ct):i·sta'.é!f'é. sa~isfá(t'i'ón1 :,'.·,, fS•: :::·:;:• ;.;';'(;': '
iv'.·.1~;~,~~~·~~~~~ir~~~::· ;,:;· ·;2.r~¡~Jrµ1
• •

lil!~!iiA\tl:~~r
Uso de la computadora para la prueba de hipótesis con datos categóricos ~H9
r4t$t)l;i)TI:ible para ayudarse a realizar un análi:siS exploratorio descriptivo. En la pre•
sente .sección enfo¿aremos nuestra 'ateneión en er u'so de diferentes paquetes
.de software· es'tadísti:co (referencfas 8 a 11) párá apoyo' de.un ánálisis inferencial de
rtuestros. datoS: Para hacer lo anterior;' regresemos la encuesta de satisfacción . a
de iós empleados de Iry.dustrias Kalóshá( qu~ .ctescribhnos e:q él capítulo 2.
'. ' ,·., .. . . . ' .· ',, ' . ..: . '.'·',

1·.~ ~7.2 .Encüe~ta de sátlsfacdón de los emplea,dos


de· Industrias Kalosha
Bud Conley, vicepresidente de recursos humanos de Industrias Kalosha, está pre-
paran.do otra reunión con un representante de la empresa B & L Corporation a fin de
anaJiµrlos contenidós de uµ paquete de prestaciones para los empleados que se está
desarrollando. Antes de esta reunión, las respuestas a las siguientes· dos preguntas
(cqncemientes a: variables éategoriCas) seríari de particular importancia en un análi-
sis.confirmatorio de los datos cte lá encuesta (tabla 2.3 de las páginas 33 a 40):
l. ¿Existe evidencia de que haya una relación significativa entre el sexo
... de los.em~lead.os }'.'la ocupac!ól!.~~é_ogida entre los empleados de'
tiempo completo de Industrias Kí;ilo~ha? (Véanse preguntas 5 y 12 de
la ~ncuesta.) . . .. , .. , . . . . · , .·
. 2.. ¿Éxisté evidencia 'de que haya up.¡i relacf(>n signific;ativ;;i.. entre la
. •importancia c;arai:terística del trabajp y ·sµ s¡itisfacc.i.ón en é:ste?
(Véanse las preguntas 11y9 de la encuesta.)
Éstas y otras preguntas que le surgieron á': Bud Cónley (\i'éase· el proyecto de
encüésta/base de datos que se encuentra· al final de lá secei6n). requieren un análi~
sis' estadísti.co;déscriptivo detallado de las 40Q%spuestas dela encuesta, junto con
un foáiisis 'confirmatórid. · · ··· · ' · ,:.' .•·.. · · . , •.·

15.7.3 Uso del software.estadíst~co para datos categóricos


En respuesta'ala primera pregunta 'de Bud Cocl~y, .en Üi.'ñgura 15.li presentamos el
resultado p;;i.rtial obtenido con el paquete SAS, y. utilizando el PROGFREQ para los
datos. Observamos de esta tabla de contingencia de 2 x 7 que, en general, parece que
existe una relación entre el sexo del trabajado~ Y: el agrupamiento ocupacional en
Industrias ~lo.sh:~·. E~ pqrcep.ta.je de ll~lllbr~§ <:i~.;!r,abaj<l:tl en'. aJguné;l d~)as estruc-
turas ocupacionales difiere sustancialmente del cotrespondienté a las mujeres. En par-
ticul<!+, .obseJ,.Van).Os eJ;l l~ celdas de la tabla. ql1,e<Pertas combinatjones de las dos
variables categóricas .sobresalen. Cuando las ~owp~ramos con l.os hombres, observa-
mos que las mujeres son empleadas en eláJ:ea. apoyo administrativa con una fre- de
~~P.ci~.?~~t~t~ ~ªYC>! de.,l~. que.sa~i}~ ~~P$~~! ,?~ ~<:? ;h.~1Jer unii}~.l.<,tci~~ ci~~/s~?fP}
el area.ocupa~?nal. ft.?~ma~, cu,and~.~~~.,cf'WPc~t~mos co.1).1~ muJ¡fes, ops~i;ya:rµ9~
que los homt:)res traba1an en produccron o''.cotnc;n>breros corr·mucha mayorJr~roen~
cia de lo· que se ,esperaría ~i las '.dP$ vái;ahles;cá:tegóri~as ·no estu~eráiri relacionadas.
Esta impresión visual queda confirnifida conlá:prueba x2 de independencia obtenida
con el procesador PROCFREQ"dé SAS. O~s~Wé ra. magnitud de i.a <lff&encia entre las
cuentas de la frecuencia observa(fa.~),Yd.e. la"frecúencia esperad~f(fe)'eri estas dos cel-
das. Además observamos que, aparté pe mo~trar la tabla de C()ntingericias con la.s
cµentas.defreruencia observada y.qe.Jr~wencia esperada en cada celda, eLprocedi"
micm,to FREQ. proporciona la estadi~tita ~~ piuel>a calculada ~, a~í1cofuo eLefalor de
. fi '):'en~IIl(,')S también gue .Uh. me11sa:f~;~~·. ~dxertencia es i~p,,.eso:.poi" sAs siempr,e que
ai ,flieno~ S9:,'<> d~}~s celdas ten~a.~ ·~~fü~J?:Si~~teóricél~ f>pr, ,de~~jó d~, ~,'. : . , ,.· ..· . ·:
..·..• para los•• c}¡itos correspond1e11t.~~ 2if ~exo-grupo.· ocupac1onaI, .· 1a e.stadtsticél ·de
.p#ie'b.~:t2 # 73.467 y el vali:)fito'.la'próbabilidad de 'obfen'er '1.Il· vafot deX2 mayor
tjü~t73A61.'es dé ';'oóoo: Mí piíes~la hipótesis nula es rechazada.Utilizando el nivel
-·" • ,, ., l· . ',', • , •• ' • • • . .• ,

640 Capítulo 15 Prueba de hipótesis con datos categóricos


,,·,,,
\rh~ s'1.s Í:iyste~
'··'. . . '' . '
.

SEX OCCUP
Frequencyj
Expected 1MGL 1.PROF 1TEC/SA:L 1ADMSPT. 1SERV 1PROI;l 1LABOR 1 Total
---------+---'-·----+-.:.------+--------+--------'+~-------+--------+--------+
MALES 1. 36 I 33 I 34 1 14 1 16 1 5'l 1 47 1 . 233 "
1.31.a63 1 38,4.45 1 3.3.203 1 37,.863 .1 l.6.893 .1 31.45'5 1 n.2a 1 ...
..:--:------':'"+-.-'------~~--~-----+--------+--·--;-o----+-----~--+~--:~'.'~--~- ~.~--"."'-+
FEMALES 1 29 f 33 ] · 23 1 ·. 51 j · l,l i·· '.:.: :·· . 3. 17· I•
..
J ··
161;
f 27.13!1 1 .21,555 1 ~3.798 1 27:P8 ¡ 12.1oa 1 22.fi~\l.,,k ?6.72. I
---------+--------+--------+------.,.-+--------+,------.,.-+-----.....
Total ·6s 66 57 . '· 6S. ,. 29
-+....,------+
54 · '.\'> .64.: · 400

1'_: .. :·"

. · i;
Figura u.11
ST~TIS:;rtcs .· ~R 'T:ui'i.E oF six BY oceuii. Tabla de contingencias de sexo y
ocupación del empleado
~=!==~==~:..;. ___________. . .;______~:~---..:~==~t _______.::~~ ¡ ..
obtenida con el paquete SAS.
Nota: SAS proporciona al usuario
Chi-Square . . . .· 6 73.467 o.ooo numerosas opciones cuando
Likelihood Ratio Chi-squara .6 8.2.353 · .. o•.900,,: .. desarrolla una tabla de contingencias.
Mantel-Haellezel Chi-square l .17.250 0.000: .
Phi coatficie11t ..:. ·· ·, · . · • o.4~9 (Véase figura 5.8 de la página 187, en
continganc:y·coefficient 0.394 donde se presenta una tabla de
cram~r•a v 0.4~9 -,j >' contingencias utlllzada en un análisis
' .. ' estadístico descriptivo de los datos
sample Biza ~ 400
sexo-ocupación.)

de.significación ele.os, existe eVidencia deque hay µna·rela~ión'entte'·


y
empleado el tipo de
trabajo. . . • ' . ' . . ' ' : ,., ' . . '
Utilizan.do otro punto de vista1 el. de la homogerteid~d d,~J
podetnOs hv:nbiéri Uegai a la cpnclusión qUe existe evidencfa''cte),Í'
la por~i6n de homtires eIJ1p1ead()s en los dife1~mes tip0$ p(;! tr~.:
miént_o dé M:arascuilo,.sin e~b.argo, no viel}eindµido n.orIP:é\\, ··
de ninguno de. los. paquetes de. software esta,dístiéos qi~s.popuf
ción d.e las .e(~'-: 1)/~ := (7)(6)/Z =.21 p9sitlles:·pate)as d.e pof,~.i.i
calculadórá de bobillo, Jngiq1. que una portióIJ. significativt':: res
se encuen.t~an enlaboies . de apoyp.agpipi$tfativo que.eRi .·ode 11"•· •I·.

trabajo deJa,e:i;npresa: Adem4s, una P,orciól}' significativ!'l,; ··, · :·pro:.


ducción y de repaJ:acl(m s9~ atend!.dos p9r ~Olllbl',~.s q\lé) salas
áreas dé ach:µi~tst:Jación¡ ,profesional y de.ventas~ Todas . . ihs por
.parejas ·e1l .l~s, pcm:iones d~ ·.P\lest()s de fa:al;>ajps 9cupa<;l~~ ··1os d"f 1 e- .1
. '~ . ·~ ,
rentes aghlp~:rnientps ocupaéionales sedeperi a~ .azé\;dJr:it.
En respuesta a la sesunda pregunta d~ ~ud :ec;>h.. . ·r
tam9s el resµltadq Ób.tenido ám SPSS <;:qrr~spondi. ,¡
Contingencias .de S X 4¡ QbservaII,lOS .que, 'en .ge , , ef ninguna
relación enfre la impórtánc:~a carac:teríst~c:~i~el t~, . p. en el mismo
en Indust~las Kalospa. L,a~:frecuenciél.S óbserya ··' fada celda· son
bastante parecidas. ·Por• etotro ·lado; cort!ó ,s~ ~:·~é\, .d~i rés]lltado
obte11ido cori SPSS; el ¡¡nálisis cbnfirmatqrio.:s~ lgro, en est~ caso,
deb.ido al valor pequéñ.ó. qeJas freci.lerfoi~s.( · . )~eldás. E~ siguiente
'paso, entonces; Consiste e1t combinai:. cafeg<;l ~dyacentes, de~modo
que.ninguna.de las.celdasJenga un:a,fré:~k, ;pebajo de unm
'.•:lé.l:S,~ ~'
En , la
figura 15.13 se muestra la tabla de conti.ngé .
. . . , · : ,; . : . , •. . ;1 , '· ' . , ·· ·1. '•.,. · '. , .. ' .
. . a:da, junto con la estad1s-
tka de pfueBa, ·x2, adecuada. Observe tj,'Q:~',tanttl'.~áSti~amente lii.s Becuertciá~ espe-
radas pequeñ.as influyen. en la esta4ísti~afd.efpft¡eba ert las do,s ... tablas de
,contingelj.qa. Al prpba~J~ hipótes~~·;, <"'"·· · · ·· '·· · ·...'dencia entfe.latli.i:w9~ancia
·caracteristica cieltraba'jo yla satis~~~<: . :/al ni'velcie ~igtljf.j;~atión de
o·.os, de lañgural5.13observanióf''. ...... , , ~l6fcaltulad6 de,·Iáestadística
·es
cíe prueba%~; mepor.que JS:só?:~:~,~· . .,:~::~itkd :a~ ~xtremo:sup~fi~rd~ '1~ª dis:"
.µibución c~i-;€li~dfa?a c¡u~ ti~iíe':.(~ #:'~, ,t~;: lJ!;~.s ,sra?<>s efe libei.t~?(Yéá.~~ tab~é\:·
E.4). Por cons1gu1ente, p:e;> pQ,dem.o,s 're~J:iaz'!lr Ja h1potes1s nula..No ex:iste ev1denc1a

Uso de la computadora para la prueba de hipótesis con datos categóricos 641


de que haya alguna relación entre la importancia característica del trabajo y la
satisfacción en el mismo. Las diferencias entre las frecuencias observadas y las
esperadas se deben al azar. El valor de p dado como .97336 es mayor que el nivel a
= .05 especificado.

JOBCHAR by SATJOB
SATJOB Page 1 of 1
count
Exp Val
Row
vs MS LD VD Total
JOBCllAR
Hi Inc Olle 46 43 10 4 103
47.6 44.0 7.0 4.4 25.a%

Not Fi red 11 11 1 1 24
11.1 10.3 1.6 1.0 6. º'
Flexible HRS 7 10 1 1 19
a.e a.1 1.3 .a 4.8%

Ad.va ne ement 23 22 6 o 51
23.6 21.8 3.4 2.2 12.8%

Enjoyi ng 98 a5 9 11 203
93.9 86.8 13.7 8.6 SO.a%

Column 185 171 27 17 400


Total 46.3% 42.8% 6.8% 4.3% 100.0%

Chi-Square Value DF Siqnificance


-------------------- -----------
Pearson 9.21346 12 .6a460
Likelihood Ratio 11.07923 12 .52214

Mínimum Expected Frequency - .a08


Figura 1 s.11 Cells with Expected Frequency < 5 - 7 OF 20 ( 35.0%)
Tabla de contingencias de la
importancia característica del
trabajo y la satisfacción en el Nwoher of Missing Observations: O
trabajo obtenida con SPSS.

JOBCllAR by SATJOBR

SATJOBR Page 1 of l
Count
Exp Val
Row
VS MS DIS Total
JOBCllAR
Hi Inc ame 46 43 14 103
47.6 44.0 ll.3 25. 8%

Not Fi red 11 11 2 24
11.1 10.3 2.6 6.0%

Flexib le HRS 7 10 2 19
a.a 8.1 2.1 4.8%

Advanc ement 23 22 6 51
23.6 21.8 5.6 12.8%

Enjoyi ng 98 85 20 203
93.9 86.8 22.3 50.8%

Column 185 171 44 400


Total 46.3% 42.8% 11. 0% 100.0%

Chi-square Value DF Significance

Pe ar son 2.22399 8 .97336


Likelihood Ratio 2 .19726 8 .97436

Minimum Exp~cted Frequency - 2.090


Figura 1 S.13 Cells with Expected Frequency < 5 - 2 OF 15 13. 3%)
Tabla de contingencias revisadas
de la importancia característica
del trabajo y la satisfacción en el Number of Missing Observations:
trabajo obtenida con SPSS.

642 Capítulo IS Prueba de hipótesis con datos catej?óricos


Encuesta/proyecto base de datos de la sección 15. 7
Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestionario
de la figura 2.6 que se encuentra en las páginas 28-29 y que se presentan en la
tabla 2.3, en las páginas 33-40. Deberán resolverse con la ayuda de algún paquete
estadístico de software que se tenga disponible.
Suponga que usted ha sido contratado como investigador asistente de Bud
Conley, el vicepresidente de recursos humanos de Industrias Kalosha. Éste le
ha dado a usted una lista de preguntas (véanse problemas 15.41 a 15.54) cuya
respuesta necesita tener antes de su reunión con el representante de la
empresa B & L Corporation, la firma asesora sobre prestaciones laborales que
Bud ha contratado.
De las respuestas a las preguntas que tratan sobre variables categóricas en
la encuesta de satisfacción de los empleados (véanse páginas 33-40), en los
problemas 15.41 a 15.54, que se dan a continuación,
(a) Haga una tabla de contingencias y analice los datos, utilizando un nivel
de significación de a= .05. (Nota: combine categorías de renglón o de
columnas adyacentes cuando sea necesario para poder llevar a cabo la
prueba estadística.)
(b) r.t;d'Jl·f.t·~ Escriba un memorándum a Bud Conley en el que explique sus
resultados.
15.41 ¿Existe evidencia de una diferencia en la porción de miembros del
sindicato (pregunta 14) entre las diferentes agrupaciones ocupacionales
(pregunta 2)?
15.42 ¿Existe evidencia de una diferencia en la porción de individuos que participan
en decisiones presupuestales (pregunta 22) entre los diferentes agrupamientos
ocupacionales (pregunta 2)?
15.43 ¿Existe evidencia de que haya alguna relación entre el sexo de los empleados
(pregunta 5) y la satisfacción en el trabajo pregunta 9)?
15.44 ¿Existe evidencia de que haya alguna relación entre la importancia característica
del trabajo (pregunta 11) y la satisfacción en el mismo (pregunta 9)'!
15.45 ¿Existe evidencia de que haya alguna relación entre la creencia de poder progre~ar
(pregunta 12) y la satisfacción en el trabajo (pregunta 9)?
15.46 ¿Existe evidencia de que haya alguna relación entre la pertenencia a un sindic;1to
(pregunta 14) y la satisfacción en el trabajo (pregunta 9F
15.47 ¿Existe evidencia de que haya alguna relación entre la prohahilidad de
una futura promoción (pregunta 18) y la satisfacción en d trah;1jo
(pregunta 9)?
15.48 ¿Existe evidencia de que haya alguna relación entre las oportunidades
percibidas de promoción basadas en el sexo del empleado (pregunta 19) y la
satisfacción en el trabajo (pregunta 9)?
15.49 ¿Existe evidencia de que haya alguna relación entre d avance percibido
(pregunta 20) y la satisfacción en el trabajo (pregunta 9)'!
15.50 ¿Existe evidencia de que haya alguna relación entre la partidpación percibida
en la toma de decisiones (pregunta 21) y la safofacdún en el trabajo
(pregunta 9)?
15.51 ¿Existe evidencia de que haya alguna relación entre la toma de decisiones
presupuestales (pregunta 22) y la satisfacción en el trabajo (pregunta 9)?
15.52 ¿Existe evidencia de que haya alguna relación entre la actitud hacia Industrias
Kalosha (pregunta 23) y la satisfacción en el trabajo (pregunta 9)?
15.53 ¿Existe evidencia de que haya alguna relación entre la percepción de
relaciones empleado-administración (pregunta 25) y la satisfacción en el
trabajo (pregunta 9)?
15.54 ¿Existe evidencia de que haya alguna relación entre la percepción de
relaciones entre trabajadores (pregunta 26) y la satisfacción en el trabajo
(pregunta 9)?

Uso de la computadora para la prueba de hipótesis con datos categóricos 64J


l ij:I Prueba de McNemar para diferencias
entre dos porciones relacionadas

1 5 .8.1 Introducción
En las secciones 15.3 y 15.4 nos interesamos por situaciones que implican un análi-
sis de diferencias en porciones de población, basándonos en dos muestras inde-
pendientes. Sin embargo, como en las secciones 13.9 (la prueba t para la diferencia
media) y 13.10 (la prueba de rangos con signo de Wilcoxon) cuando tratamos con
datos numéricos, a menudo se está en la situación en que deseamos evaluar dife-
rencias en porciones de población basándonos en muestras relacionadas. Muchas
de estas aplicaciones que implican datos categóricos y porciones se dan en los
ámbitos de las relaciones públicas, la publicidad, el procesamiento de alimentos, la
investigación farmacéutica, las ciencias sociales y la investigación médica:
• Comparación de un nuevo producto con un producto estándar.
• Medición del valor de un anuncio publicitario.
• Estudio de los patrones de cambio de marca y de lealtad a una marca.
• Evaluación de experimentos de prueba de sabor.
• Investigación de la eficiencia de un medicamento.
• Examen de los resultados de un debate político.
En algunas situaciones podemos diseñar un experimento que consista en parejas
equilibradas de individuos. Por ejemplo, podríamos desear determinar si existe evi-
dencia de que haya una diferencia entre dos grupos que han sido apareados de
acuerdo con alguna característica de control. En otras situaciones, sin embargo,
puede resultar más apropiado diseñ.ar un experimento que trate con las respuestas
repetidas por parte de los mismos individuos. Así, podríamos desear determinar si
ha habido un cambio en la percepción, la actitud, la creencia o el comportamiento
en un periodo en comparación con otro. Para analizar las diferencias entre dos por-
ciones en situaciones como las que acabamos de describir, se puede emplear una
prueba desarrollada por McNemar (referencias 2 y 7).

15.8.2 Desarrollo
La prueba de McNemar puede utilizarse para determinar si existe evidencia de una
diferencia entre las dos porciones relacionadas (es decir, una prueba de dos extre-
mos) o para determinar si existe evidencia de un cambio direccional significativo
de modo que un grupo tiene una mayor porción que el otro (es decir, una prueba
de un extremo).

Prueba de dos Prueba de un Prueba de un


extremos extremo extremo
Ho: P1 =P2 Ho: P1 ~P2 Ho: P1 s;pz
H1: P1 '*P2 H¡: P1 <P2 H1: P1>P2
en el que p 1 = porción de sucesos en la población 1
p2 = porción de sucesos en la población 2

Para desarrollar la prueba de McNemar examinemos la siguiente tabla esquemática


de contingencias de 2 x 2 (tabla 15.13).

644 Capítulo 1S Prueba de hipótesis con datos categóricos


Tabla 1S.13 Tabla de contingencia esquemática de 2 x 2
para la prueba de McNemar.
Condición (grupo 2)
Condición (grupo 1) Si No Totales
Si A B A+B
No e D C+D
Totales A+C B+D n

donde A= número de entrevistados que respondieron sí a la condición 1


y sí a la condición 2
B = número de entrevistados que respondieron sí a la condición 1
y no a la condición 2
C = número de entrevistados que respondieron no a la condición
1 y sí a la condición 2
D = número de entrevistados que respondieron no a la condición
1 y no a la condición 2
n =número de entrevistados de la muestra (es decir, el tamaño de
muestra)

Las porciones de muestra de interés son:

A+-
Ps = - " d e muestra d e entrevista
B = proporc10n . d os que respon d'1eron s1, a
1
n la condición 1
, d
A+C
p52 = - - = proporcion e muestra de entrevistados que respond ieron s1, a
n la condición 2

La estadística de prueba para la prueba de McNemar está dada por

z = B-C.· (15.8)
. -../B+C ·;··,

'.·1,

en la que la estadística de prueba está aproximadamente distribuida de manera nor-


mal. Así pues, por ejemplo, utilizando un nivel de significación ex para probar la
hipótesis nula de no diferencias en las porciones de población relacionadas
(H0 : p 1 = p2 ) contra la hipótesis alternativa de dos extremos de que existe evidencia
de una diferencia (H1 : p 1 =t. p 2), nuestra regla de decisión consistiría en rechazar H 1
si el valor calculado de la estadística de prueba Z es mayor que el valor crítico de
extremo superior de la distribución normal estándar (tabla E.2) o si la estadística de
prueba es menor que el valor crítico de extremo inferior de la misma distribución.

15.8.3 Aplicación
Para ilustrar la prueba de McNemar, refirámonos de nuevo a la encuesta sobre
bienes raíces, analizada en la sección 15.6.3, que fue realizada, en un año reciente,
por una sucursal, situada en el Condado de Nassau (en Nueva York, Estados
Unidos), de una cadena que opera a nivel nacional oficinas de corretaje inmobi-
liario, con el fin de caracterizar las casas de una sola familia en algunas comu-

Prueba de mcNemar para diferencias entre dos proporciones relacionadas 645


nidades vecinas. Suponga que el gerente de la sucursal deseara saber si la porción
de dueños de casas en las comunidades pertenecientes al Condado de Nassau, que
afirmaron que tenían la intención de poner su casa en venta al año siguiente,
difiere de la porción real que pusieron su casa en venta durante ese año. Como en
la encuesta, a los dueños de casas del Condado de Nassau se les preguntó si tienen
la intención de poner su casa en venta al año siguiente, y cada uno de los dueños
fue, entonces, contactado un año más adelante para determinar si la casa estaba.
realmente en venta, podríamos formar una tabla de contingencias (tabla 15.14)
para resumir los siguientes resultados:

Tabla 15.14 Tabla de contingencias que muestra


las intenciones y lo que realmente
sucedió respecto a poner las casas
en wnta en tres conamidades del
condado de Nassau
Casas realmente
puestas en venta
Intención de poner
la casa en venta Sí No Total
Si 23 3 26
No 11 196 207
Total 34 199 233

La prueba de McNemar resulta adecuada en este caso porque existen dos respues-
tas categóricas por cada dueño de casa de la muestra, y esto constituye la base de
un experimento de respuestas repetidas como el descrito en la sección 15.8.1.
Puesto que el gerente de la sucursal desea determinar si la porción de casas que
se pretendía vender es diferente de la porción que realmente se puso a la venta en
las tres comunidades del condado (es decir, East Meadow, Farmingdale y Levittown),
las hipótesis nula y alternativa serían:

Ho: P1 =P2

Si la prueba se llevara a cabo al nivel de significación de O.OS, los valores críticos


serían -1.96 y +l.96 (véase figura 15.14) y la regla de decisión sería

Rechazar H 0 si Z < -1.96 o si Z > + 1.96;


en cualquier otro caso no rechazar H 0 .

Para nuestros datos:

A = 23 B = 3 C = 11 D = 196
de manera que:

= A+ B = 26 = _112 = A+C = 34 = _146


Psi n 233 Ps, n 233

646 Capítulo 1s Prueba de hipótesis con datos categóricos


Figura 1S.14
Prueba de McNemar de dos
extremos a un nivel de
significación de O.OS.

De la ecuación (15.8)

z = _B=-=C= 3 - 11 = ~ = -2.14
- ~B + C -J3+1i -114
Como Z = -2.14 < -1.96, la hipótesis nula puede ser rechazada. Utilizando el
planteamiento del valor p, la probabilidad de obtener una estadística de prueba por
debajo de -2.14 es .5000- .4838 = .0162. Puesto que se está utilizando una prueba
de dos extremos, éste valor debe hacerse del doble para tomar en cuenta el área de
los dos extremos. Ya que .0324 <.OS, la hipótesis nula puede ser rechazada. El geren-
te de la sucursal puede llegar a la conclusión que existe evidencia de que la porción
de casas que se pretendía poner en venta es diferente de la porción de casas que
realmente fueron puestas en venta un año después. Se pusieron más casas en venta
de las que se tenían pensadas.

• Advertencia Es esencial para realizar un buen análisis de datos que apli-


quemos la técnica estadística apropiada a una situación específica. Por ejemplo,
cuando comparamos dos porciones de población basados en muestras indepen-
dientes, se debería emplear la prueba Z o la prueba x2 (véanse secciones 15.3 y
15.4), dependiendo de si la hipótesis alternativa de interés es, respectivamente, de ·
un extremo o de dos extremos. Sin embargo, cuando comparamos dos porciones
de población basados en muestras relacionadas, debe utilizarse la prueba de
McNemar. Resulta interesante observar que si el gerente de la sucursal, sin haber
tenido la intención, hubiera tratado los datos como si fueran dos muestras inde-
pendientes y hubiera aplicado erróneamente el método de la sección 15.3 o el de
la sección 15.4, hubiera llegado a conclusiones equivocadas debido a que la hipóte-
sis nula de no diferencias en las porciones no hubiera sido rechazada. La potencia
estadística se hubiera perdido al emplear un método inadecuado que no es capaz
de captar el modelo de diseño del experimento.

Problemas de la sección I 5.8


~ 15.55 ¿Cuál es la característica que distingue a la prueba de McNemar de la prueba
x2 para la diferencia entre porciones?
15.56 Un investigador de mercados desea estudiar el efecto de una campaña de
publicidad para una cierta marca A de café, a fin de determinar si aumentará la
porción de bebedores de café que prefieren la marca A como consecuencia de
la campaña. Se seleccionó una muestra aleatoria de 200 bebedores de café y
éstos expresaron su preferencia por la marca A o la marca B, antes de empezar
la campaña publicitaria, y se les volvió a pedir lo mismo al término de ésta.
Los resultados fueron los siguientes:

Prueba de mcNemar para diferencias entre dos proporciones relacionadas 647


Preferencias después de la
campaña de publicidad
Preferencias antes de la
campaña de publicidad Marca A MarcaB Total
Marca A 101 9 110
Marca B 22 68 _2Q_
Total 123 77 200

(a) Al nivel de significación de O.OS, ¿existe evidencia de que haya alguna


diferencia entre las porciones de estudiantes que pretenden tomar cursos
avanzados de computación antes de tomar el curso introductorio y
después de éste?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
1S.S7 Un encuestador político desea evaluar el efecto sobre la preferencia de los
votantes que tiene un debate presentado en la televisión entre dos candidatos
que compiten en las elecciones de presidente municipal de una ciudad
importante. Se seleccionó una muestra aleatoria de 500 votantes del padrón
electoral y a cada individuo se le pidió que indicara su preferencia antes y
después del debate por televisión. Se obtuvieron los resultados siguientes:

Preferencia después del debate


Preferencia antes
del debate Candidato A Candidato B Total
Candidato A 269 21 290
Candidato B 36 174 210
Total 3o5 195 500

(a) Al nivel de significación de 0.01, ¿existe evidencia de una diferencia en la


porción de votantes que simpatizan con el candidato A antes y después
del debate por televisión?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
lS.58 El coordinador del curso Introducción a la computadora de una escuela de
contabilidad desea determinar si existe alguna diferencia en la porción de
estudiantes que pretenden tomar cursos avanzados de computación al inicio
del curso y después de su terminación. A cada estudiante inscrito en el curso se
le pidió, el primer día de clase y después de realizar el examen final, que
indicara si tenía la intención de tomar cursos avanzados de computación. Los
resultados son los siguientes:

Intención de avanzar
después de tomar el
curso de computación
Intención de avanzar antes de
tomar el curso de computación Sí No Total
Sí 52 32 84
No 13 230 243
Total 65 262 327

(a) Al nivel de significación de O.OS, ¿existe evidencia de que haya alguna


diferencia entre las porciones de estudiantes que pretenden tomar cursos
avanzados de computación antes de tornar el curso introductorio y
después de éste?
(b) Calcule el valor de p del inciso (a) e interprete su significado

648 Capítulo IS Prueba de hipótesis con datos categóricos


e 15.59 La directora de personal de una compañía manufacturera grande desearía
disminuir el excesivo ausentismo que se presenta entre los trabajadores de las líneas
de ensamblaje. La directora ha decidido instrumentar un plan de incentivos experi-
mental que proporcionaría recompensas económicas a los empleados que falten a su
trabajo menos de cinco días en un año dado. Se seleccionó una muestra de 100
obreros al final del periodo de prueba de un año. Para cada uno de los dos años (el
anterior a la prueba y el de prueba mismo), se obtuvo información concerniente a
cada empleado seleccionado para saber si el empleado faltó al trabajo menos de
cinco días en ese año. Los resultados fueron los siguientes:

Año2
Año 1 < 5 días de ~ 5 días de
ausentismo ausentismo Total
< 5 días de ausentismo 32 4 36
días de ausentismo
;e: 5 ~ 39 64
Total 57 43 100

(a) Al nivel de significación de 0.01, ¿existe evidencia de que la porción de emplea-


dos que faltan menos de cinco días es menor en el año 1 que en el año 2?
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) ¿A qué conclusión debería llegar el director de personal respecto al efecto
del plan de incentivos?

Problemas intercapítulo de la sección 15.B


e 15.60 Refiérase al problema 6.6 de la página 210.
(a) ¿Existe evidencia de que haya alguna diferencia en la porción de
individuos que planean comprar un televisor nuevo y en realidad lo
hacen? (Utilice el nivel a= O.OS.)
(b) Calcule el valor de p del inciso (a) e interprete su significado.

1#i·J Dificultades potenciales de la prueba


de hipótesis y cuestiones éticas

1 5 .9. 1 Dificultades potenciales


En el presente capítulo se desarrollaron varias pruebas como ayuda en un análisis
confirmatorio de variables categóricas. Parte de un buen anál.isis de datos consiste
en entender las suposiciones que subyacen en los diferentes procedimientos de
prueba de hipótesis y, haciendo uso de éstas, así como.de otros criterios, seleccio-
nar el procedimiento más apropiado para un conjunto dado de condiciones.
Para que la prueba arroje resultados precisos, la prueba x2 para tablas 2 x 2 su-
pone que cada frecuencia esperada sea de al menos cinco. Si no se satisface esta
suposición, se pueden utilizar otros procedimientos, como la prueba exacta de Fisher
(referencia 2). Cuando tratamos con tablas de contingencias de 2 x e o de r x e, con
el propósito de asegurar resultados precisos, la prueba x2 requiere que todas las fre-
cuencias esperadas sean "grandes". Sugerimos que éstas sean de al menos uno. En
los casos en que una o más frecuencias esperadas sean menores de uno, se puede
realizar la prueba después de agrupar categorías de renglones de frecuencia baja o
después de combinar dos o más categorías de columna de frecuencia baja. Esta
fusión de categorías de renglón o de columna, por lo general, tiene como resultado
frecuencias esperadas lo suficiente grandes como para efectuar la prueba x2 con
resultados precisos.

Dificultades potenciales de la prueba de hipótesis y cuestiones éticas 649


Además, para llevar a cabo un buen análisis de datos es esencial que apliquemos
la técnica estadística apropiada a una situación específica. Por ejemplo, cuando
comparamos dos porciones de población basados en muestras independientes, se
debe emplear la prueba Z o la prueba x2 (véanse secciones 15.3 y 15.4), depen-
diendo de si la hipótesis alternativa de interés es, respectivamente, de un extremo
o de dos extremos. Sin embargo, cuando comparamos dos porciones de población
basadas en muestras relacionadas, debe utilizarse la prueba de McNemar. Una
selección errónea del procedimiento adecuado que represente al modelo de diseño
del experimento tendrá como resultado una reducción de la potencia estadística y
puede conducir a conclusiones equivocadas.

15.V.2 Cuestiones éticas


Como se estableció en la sección 14.11.2, las consideraciones éticas surgen cuando
un investigador manipula el procedimiento de prueba de hipótesis de manera que
le permita obtener ganancias personales. Al coordinar y administrar un proyecto
que trate sobre un experimento a largo plazo o una encuesta a gran escala, es
imperativo que el investigador principal desarrolle un plan operacional o un pro-
tocolo que aborde el proceso de la recolección de datos, la evaluación y el análisis.
En particular, cuando están implicadas muchas personas en el proceso, debe
establecerse un sistema de verificaciones y balances para evitar fraudes, plagios,
falseo de datos o de resultados.

1#j l•l Prueba de hipótesis basada en datos


categóricos: un repaso
Como se puede observar en el diagrama de resumen correspondiente al presente capí-
tulo (véase página 651), podemos diferenciar entre los planteamientos de análisis de
datos categóricos. La metodología de la prueba de hipótesis fue desarrollada de manera
independiente para el análisis de los datos de respuesta categóricos obtenidos de una
muestra, de dos muestras relacionadas, de dos muestras independientes y de e muestras
independientes. Además, ampliamos nuestros estudios anteriores sobre las reglas de
probabilidad presentadas en las secciones 6.7 y 6.8, mediante la presentación de un
análisis confirmatorio más formal de la hipótesis de independencia en las respuestas
conjuntas a dos variables categóricas. De nuevo, se puso el énfasis en las suposiciones
y en las condiciones que se encuentran detrás del uso de las diferentes pruebas. En la
página 606 de la sección 15.1 se le proporcionó una lista en la que se resaltan los pun-
tos importantes que verían en el capítulo. Revise la lista en este momento para ver si
siente que entiende tales puntos clave. Para asegurarse, usted deberá ser capaz de
responder las siguientes preguntas conceptuales:
l. ¿En qué condiciones debería utilizarse la prueba Z para la porción de
población p?
2. ¿En qué condiciones debería utilizarse la prueba Z para examinar posibles
diferencias en las porciones de dos poblaciones independientes?
3. ¿En qué condiciones debería utilizarse la prueba x2 para examinar
posibles diferencias en las porciones de dos poblaciones independientes?
4. ¿Cuáles son las similitudes y las diferencias entre las pruebas Z y x2
para diferencias en las porciones de e poblaciones independientes?
5. ¿En qué condiciones debería utilizarse la prueba x2 para examinar
diferencias posibles en las porciones de e poblaciones independientes?
6. ¿En qué condiciones debería emplearse la prueba x2 de independencia?
7. ¿En qué condiciones debería utilizarse la prueba de McNemar?

650 Capítulo 15 Prueba de hipótesis con datos categóricos


':';

3 o más independientes

'
,1 • . •

·, >º '.·~·'.,: :'

~; ' ..: :. ~-
: : ' ~·. : ' ' . ~.! ' .

•• ·1
J,.,,

Diagrama de resumen del capítulo 15.

Revise la lista de preguntas para ver si, en efecto, usted conoce las respuestas y
puede (1) explicar la respuesta a alguien que no haya leído el capítulo y (2) dar re-
ferencia de lecturas específicas que apoyen su respuesta. También relea cualquier
sección que le haya parecido confusa para ver si ahora tiene sentido.

Juntando todo
TÉRMINOS CLAVE
datos categóricos 606 homogeneidad de porciones 618
distribución chi-cuadrada 619 igualdad de porciones 622
estimación combinada (p) de la independencia 633
porción de población común muestras independientes 624
624-625 muestras relacionadas 644
frecuencias esperadas <fe) 618 porción de muestra Ps 606
frecuencias observadas (/0 ) 618 porción de población p 607
frecuencias teóricas o esperadas <fe) procedimiento de Marascuilo 628
618
prueba de McNemar 644
grados de libertad 619

Términos e.lave 651


prueba i para dife~encias en e prueba Z para diferencias en dos por-
porciones 624 ciones 611
prueba i para la diferencia de dos por- tabla 2 x 2 617
ciones 616 tabla 2 x e 624
i
prueba para independencia 632 tabla r x e 632
prueba Z de una muestra para la tabla de clasificaciones cruzadas 616
porción 606 tabla de contingencias 616

Problemas de repaso del capítulo

15.61 Se llevó a cabo una encuesta sobre vivienda de ca!\as de una sola familia en dos
condados suburbanos de la ciudad de Nueva York para determinar la porción de
casas que se calientan con gas doméstico. Una muestra de 300 casas de una
familia del condado A tuvo un resultado de 185 casas calentadas con gas, y
una muestra 200 casas de una familia del condado B tuvo como resultado 75
casas calentadas con gas.
Nota: Utilice un nivel de significación de .01 en todo el problema.
(a) Use dos pruebas estadísticas diferentes para determinar si existe evidencia
de una diferencia entre los dos condados respecto a las casas de una
familia que se calientan con gas.
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Compare los resultados obtenidos con los dos métodos en el inciso (a).
¿Sus conclusiones son las mismas?
(d) Si usted deseara saber si existe evidencia de que el condado A tuvo una
porción mayor de casas de una familia calentadas con gas, ¿qué métodb
utilizaría para efectuar la prueba estadística?
• 15.62 En 1982 se inició un "estudio sobre la salud de los médicos" para saber la efec-
tividad de la aspirina en la reducción de infartos, el estudio se concluyó en
1987 (véase C. Hennekens y col. "Findings from the Aspirin Component of
the Ongoing Physician's Health Study", The New England fournal of Medicine,
28 de enero de 1988, vol. 318, pp. 262-264). De 11,037 médicos hombres de
Estados Unidos que tomaron una tableta de aspirina de 325 mg
diariamente, 104 sufrieron un infarto en el periodo de cinco años que duró el
estudio. De 11,037 médicos hombres en Estados Unidos que tomaron una sus-
tancia inocua (esto es, una píldora que, sin que los
participantes en el estudio lo supieran, no contenía ingredientes activos), 189
sufrieron un infarto en el periodo de cinco años que duró el estudio.
(a) Al nivel de significación de .01, ¿existe evidencia de que la porción de per-
sonas que sufrieron infartos es más pequeña para los médicos hombres de
Estados Unidos de que tomaron aspirina cada dos días que para los que
tomaron la sustancia inocua?
(b) Calcule el valor p del inciso (a). ¿Le lleva a creer que tomar una aspirina
cada dos días fue un remedio efectivo para reducir la incidencia de infartos?
Explique su respuesta.
(c) ¿Por qué no es adecuado el uso de la prueba ·x.,2 en el inciso (a)?
15.63 Un estadístico desea estudiar la distribución de tres tipos de automóviles
(subcompactos, compactos y no compactos) vendidos en las cuatro regiones
geográficas de Estados Unidos (noreste, sur, medio oeste y occidente). Se selec-

652 Capítulo 1 S Prueba de hipótesis con datos categóricos


cionó una muestra aleatoria de 200 automóviles y se tuvieron los siguientes
resultados:
De 60 autos vendidos en la región noreste, 25 fueron subcompactos, 20
compactos y 15 no compactos.
De 40 autos vendidos en la región sur, 10 fueron subcompactos, 10 compactos
y 20 no compactos.
De 50 autos vendidos en la región del medio oeste, 15 fueron subcompactos,
15 compactos y 20 no compactos.
De 50 autos vendidos en la región de occidente, 20 fueron subcompactos, 15
compactos y 15 no compactos.
(a) Al nivel de significación de .05, ¿existe evidencia de que haya alguna
relación entre el tipo de automóvil y la región geográfica?
(b) Calcule el valor p del inciso (a) e interprete su significado.
(c) Estime, con 95% de confianza, la porción verdadera de los automóviles no
compactos vendidos en la región noreste.
(d) A partir de los datos proporcionados, ¿puede obtener una estimación de
intervalo de 95% razonable de la porción de autos no compactos vendidos
en todo el país? Explique su respuesta.
15.64 Un investigador de mercados está interesado en determinar el efecto de la
publicidad en la intención de los compradores por adquirir automóviles
nuevos. Suponga que a los compradores potenciales de automóviles nuevos se
les preguntó preferían la marca Toyota o GM (General Motors), y luego les
hicieron ver anuncios publicitarios en video de modelos comparables de cada
marca. Después de ver los anuncios, los clientes potenciales indicaron de
nuevo su preferencia. Los resultados fueron los siguientes:

Preferencia después
de los anuncios
Preferencia
antes de los
anuncios Toy o ta GM Total
Toyota 97 3 100
GM 11 89 100
Total 108 92 200

(a) ¿Existe evidencia de que haya alguna diferencia en la porción de individuos


entrevistados que prefieren autos Toyota antes y después de ver los
anuncios? (Utilice el nivel ex= .05.)
(b) Calcule el valor p del inciso (a) e interprete su significado.
Suponga que la siguiente tabla fue derivada de la tabla del inciso (a):

Preferencia Toyota GM Total


Antes del anuncio 100 100 200
Después del anuncio 108 92 200
Total 208 192 400

~. (c) Explique de qué manera esta última tabla se obtiene de la tabla del
inciso (a).
(d) Utilizando la tabla del inciso (c), ¿existe evidencia de que haya alguna
diferencia en la preferencia por autos Toyota antes y después de ver los
anuncios? (Utilice el nivel ex= .OS.)
(e) Calcule el valor p del inciso (d) y explique su significado.
~ (f) Explique la diferencia que existe entre los resultados del inciso (a) y los del
(d) en el presente problema. ¿Cuál método de análisis de datos cree usted
que es correcto y cuál no? ¿Por qué?

Problemas de repaso del capitulo 65J


Suponga que el investigador de mercados también desea determinar si el nivel
de educación está relacionado con la preferencia de automóviles después de
observar los anuncios. Los siguientes datos también fueron obtenidos de los
mismos compradores potenciales:

Preferencia
Educación Toyo ta GM Total
Sin universidad 26 49 75
Universitario sin graduar 34 16 50
Graduado universitario 27
-48- 75
Total 108 92 200

(g) ¿Existe evidencia de que el nivel de educación está relacionado con la


preferencia de automóvil después de observar los anuncios? (Utilice el
nivel a= .OS.)
15.65 Un investigador de mercados está interesado en estudiar la preferencia por los
refrescos Coca-Cola o Pepsi-Cola antes de llevar a cabo una prueba de sabor y
después de ésta. Se seleccionó una muestra de 200 familias. Los resultados
fueron los siguientes:

Preferencia después de la prueba


Preferencia
antes de la prueba Coca-Cola ~epsi-Cola Total
Coca-Cola 104 6 110
Pepsi Cola 14 76 90
Total 118 82 200

(a) ¿Existe evidencia de que haya alguna diferencia en la porción de


encuestados que prefieren Coca-Cola antes y después de la prueba de
sabor? (Utilice el nivel a= .01.)
(b) Calcule el valor de p del inciso (a) e interprete su significado.

Suponga que la siguiente tabla fue derivada de la del inciso (a):

Preferencia Coca-Cola Pepsi-Cola Total


Antes de la prueba 110 90 200
Después de la prueba 118 82 200
Total 228 172 400

(c) explique de que manera se obtiene esta última tabla de la primera.


(d) Utilizando la tabla del inciso (c), ¿existe evidencia de que haya alguna
diferencia en la preferencia por Coca-Cola antes y después de realizar la
prueba de sabor? (Utilice el nivel a= .01.)
(e) Calcule el valor p del inciso (d) y explique su significado.
(f) Explique la diferencia en los resultados obtenidos en el inciso (a) y en el
(d) del presente problema. ¿Cuál método de análisis de los datos cree
usted que es correcto y cuál no? ¿Por qué?

6S4 Capítulo 1S Prueba de hipótesis con datos categóricos


Proyectos de minicasos de aprendizaje
Colaborativo

Para el ejercicio siguiente, refiérase a las instrucciones de la página 101 ..


CL 15.1 CL 15.1 Refiérase al CL 3.3 de la página 102 y al CL 5.3 de la página 199. Su
grupo, la Empresa ha sido contratado por el director de
comercialización de un fabricante de famosas fragancias para hombre y mujer
con el fin de estudiar las características de las fragancias disponibles en la
actualidad. Armados con el Conjunto especial de datos 3 del apéndice D, que
se encuentra en las páginas D-8 a D-9, y que muestra la información útil
acerca de 83 de tales fragancias, la Empresa desea determinar si
existe evidencia de que haya alguna relación entre el tipo de fragancia
(perfume, colonia u "otra") y la intensidad de la fragancia (muy fuerte, fuerte,
media suave).
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el que se especifiquen
claramente las hipótesis, el nivel seleccionado de significación y las
suposiciones del procedimiento de prueba elegido.
(c) Prepare y exponga una presentación oral de cinco minutos al director de
comercialización.

Estudio de caso F -encuesta de satisfacción de aerolfneas


Como investigador y jefe asociado, us- -Gracias, Mike -interrumpió Lorena
ted está presidiendo la reunión del con- Martínez Moreno, la general retirada de
sejo de directores de esta semana, a la Fuerza Aérea de Estados Unidos que
invitación de Mike Drucker, vicepresi- acababa de obtener el puesto de gerente
dente principal de comercialización y ejecutiva de Aerolíneas Ber Lev-.
promoción de las Aerolíneas Ber Lev. ¿Serías tan amable de recordarnos el
Mike está en el estrado. tema central de la encuesta de este tri-
-Señoras y señores, me gustaría infor- mestre en particular y darnos su tabla
marles que los datos obtenidos de nues- de tiempos para su presentación y aná-
tra entrevista trimestral ya fueron lisis?
editados y registrados en nuestro sis- -Ciertamente, general Martínez
tema de computación. Este conjunto de Moreno. El tema de la entrevista
datos constituye una muestra aleatoria trata sobre la satisfacción de los
de 1600 pasajeros adultos que volaron pasajeros y sus relaciones potenciales
con nosotros en rutas sobre tierra firme con las razones del viaje y la disposi-
durante el periodo de dos semanas que ción de equipaje. También explo-
terminó el pasado viernes. Es impe- ramos diferencias de sexo. Respecto a
rativo que continuemos revisando los la tabla de tiempos, el doctor Elvin
servicios de aerolínea que proporciona- Axelrod, director de procesamiento
mos a través de estas entrevistas trimes- central, me asegura que las primeras
trales, de modo que sino perdemos de impresiones estarán listas hoy a
vista a nuestros clientes y le tomamos el mediodía. Como lleva dos días de
pulso al mercado, podremos continuar trabajo la depuración de los datos y
instrumentando aquellas mejoras que el análisis preliminar, estaré listo
nos garantizarán que nuestros clientes para hacer las presentaciones en la
sigan siendo leales a Aerolíneas Ber Lev, reunión de la próxima semana.
y debido a su satisfacción con la em- Necesitaré quince minutos para la
presa nos recomendarán con sus ami- presentación y pido quince minutos
gos y familiares para que vuelen con adicionales para preguntas, respues-
nosotros. tas y discusión con la directiva.

Estudio de caso F -encuesta de satisfacción de las aerolíneas 65 5


-Muy bien, Mike, parece que tu depar- afirmar que es su favorita
tamento de comercialización y promo- después de haber hecho con
ción tiene todo bajo control. Por parte nosotros su vuelo más reciente,
de la directiva, te comunico que toma- respecto a la que había antes de
remos en cuenta tu petición y esperare- realizar el vuelo? ¿Existe eviden-
mos la presentación la próxima semana. cia de un aumento significativo
¡Muchas gracias! Por favor, manténme en la satisfacción de los
informada si necesitas cualquier cosa pasajeros como resultado del
para acelerar el análisis. vuelo más reciente?
-Gracias -respondió Mike y regresó a 3. Con propósitos de publicidad y
su asiento. promoción, es importante saber
si hay un efecto del sexo del
Dos días después en la oficina de cliente respecto a su satisfac-
Mike Drucker. Usted está sentado en ción. ¿Existe evidencia de que
la oficina del vicepresidente principal de haya alguna diferencia entre
comercialización y promoción, espe-
hombres y mujeres en términos
rando a Mike Drucker. Éste se encuen-
de la porción de los pasajeros
tra en el vestíbulo, discutiendo por
que afirman que Ber Lev es su
teléfono los impresos de computadora
aerolínea favorita?
que tiene en la mano. De pronto, la
4. Muchos de nosotros hemos
conversación termina y Mike entra en argumentado sobre si la razón
la oficina sonriendo. principal de hacer el viaje afecta
-Bueno, aquí está -exclama Mike
la satisfacción del cliente.
Drucker triunfante, al momento en ¿Existe evidencia de alguna
que se sienta en su escritorio-. El Dr. diferenéia entre las varias
Axelrod dice que los datos parecen
razones principales para hacer el
estar limpios, todas las verificaciones
vuelo respecto a la porción de
de error salieron negativas. ¡Hiciste un
pasajeros que afirman que Bel
buen trabajo! Leves su aerolínea favorita?
Usted asiente y reconoce el cumplido, S. Con propósitos de publicidad y
consciente de que se trata del princi-
promoción, es importante estu-
pio. Mike continúa:
diar las asociaciones potenciales
-Observa esto de nuevo. Échale una
entre factores como las razones
buena mirada a las cinco preguntas de
principales para hacer el vuelo y
tema más importantes, junto con las
la disposición de equipaje. Si el
respuestas y las tablas cruzadas. Me gus-
manejo del equipaje se percibe
taría tener algunas respuestas que con-
como una característica impor-
firmen lo siguiente:
tante del servicio. debemos ase-
1. Nuestro bien conocido lema dice: gurarnos que Ber Lev
Ber Lev es la aerolínea favorita de proporcione un servicio mejor y
una de dos, si usted no es el uno, más rápido para las personas
¡ya es tiempo de que lo sea! De que registran su equipaje, así
veras que está feo ese lema, pero como tener más espacio en la
a la gente le gusta, es pegajoso. aeronave para aquellos que lle-
¿Pero es preciso? ¿Tendremos que van su equipaje a bordo. ¿Existe
deshacernos de él? ¿Existe evi- evidencia de que se tenga
dencia de que la porción de alguna relación entre las
pasajeros que afirman que Ber razones principales para viajar y
Lev es su aerolínea favorita es la disposición del equipaje?
diferente de 0.5?
2. Como indicador de una satisfac- Ya sé que estamos entre la espada y
ción mayor de los clientes, ¿una la pared, pero me gustaría que tuvieras
porción significativa mayor de listo el análisis para el lunes en la ma-
pasajeros debería estar a gusto ñana. Por favor, prepara un resumen
con los servicios de Ber Lev y ejecutivo y anéxale todas las tablas y

Capítulo 15 prueba de hipótesis con datos categóricos


diagramas que sean necesarios, dame Respirando Profundamente usted dice:
todas las hipótesis que estás probando, -No, por lo pronto no. Estoy listo
los niveles de significación que elegiste para empezar.
para las pruebas y las conclusiones a las -Gracias -continúa Mike, al tiempo
que se podrían llegar. También, por que lo acompaña hasta la puerta de la
favor, prepara una exposición informal oficina- te veré en primer término el
sobre todo esto para que la presentes a lunes por la mañana, pero si surge algu-
la directiva. ¿Hay alguna pregunta? na duda, no vaciles en llamarme.

Respuestas a las partes temáticas de la entrevista de satisfaccion trimestral de las


Aerolíneas Ber Ley

l. ¿Cual es su sexo?
Masculino ... 960 Femenino ... 640
2. ¿Antes de viajar con nosotros consideraba que Ber Lev podría ser su
aerolínea favorita?
Sí...816 No ... 784
3. Ahora que ha hecho este viaje con nosotros, ¿considera que Ber Leves su
aerolínea favorita?
Sí...832 No ... 768
4. ¿Cuál es la razón principal para hacer el presente viaje?
Negocios ... 880
Emergencia ... 64
Mudanza/de paso ... 96
Placer. .. 560
S. ¿Qué hizo con su equipaje en este viaje?
Lo llevó todo consigo ... 768
Lo registró todo en la recepción ... 592.
Llevó consigo una parte y registró la otra ... 192
No lleva equipaje .. .48

Tablas cruzadas

Pregunta del tema 2


Favorita después
Favorita
Antes Sí No Totales
Sí 806 10 816
No 26 758 784
Totales 832 768 1,600

Pregunta del tema 3


Favorita antes
Favorita
después Hombres Mujeres Totales
Sí 512 320 832
No 448 320 768
Totales 960 640 1,600

Estudio de caso F -encuesta de satisfacción de las aerolíneas GS7


Pregunta del tema 4
Razón principal
Favorita Mudanza/
después Negocios Emergencia de paso Placer Totales
Sí 455 20 42 315 832
No 425 44 54 245 768
Totales 880 64 96
- - 1,600
560

Pregunta del tema 5


Disposición de equipaje
Razón
Principal Lleva todo Registra todo Ambos Sin equipaje Totales
Negocios 653 83 103 41 880
Emergencia 47 14 1 2 64
Mudanza de paso 6 78 9 3 96
Placer 62 417 79 2 560
--
Totales 768 592 192 48 1,600

Notas finales

1 Si la diferencia hipotetizada es O (es decir, p1 - Pz =O o de rechazo del extremo superior de una distribución chi-
p 1 =p2), el numerador de la ecuación (15.3) se vuelve cuadrada, con un grado de libertad. El extremo superior de
ps¡ = psz. esta distribución chi-cuadrada contiene un área de a.
2. Examine las figuras 15.3 y 15.5. Observe que en una prueba Puesto que la estadística de prueba Z de la distribución nor-
de dos extremos, los dos valores críticos, +Z y -Z, represen- mal estándar va de -oo hasta +oo, y la estadística de prueba
tan las regiones de rechazo de los extremos de la distribu- x2 de la distribución chi-cuadrada va desde O hasta +oo,
ción normal estándar. Cada uno contiene un área de a/2. vemos que al elevar al cuadrado el valor de Z obtenemos el
Observe también que el valor crítico x2u(l) denota la región valor de x2u( 1).

References

l. Cohen, J., "An Alternative to Marascui!o's 'Large-Sample 7. McNemar, Q., "Note on the Sampling Error of the
Multiple Comparisons' for Proportions", Psychological Difference Between Correlated Proportions or
Bulletin, 1967, vol. 67, pp. 199-201. Percentages", Psychometrika, 1947, vol. 12, pp. 153-157.
2. Daniel, W. W., Applied Nonparametric Statistics Za. ed. 8. MINITAB Reference Manual Release 8 (State College, PA:
(Boston, MA: PWS Kent, 1990). Minitab Inc., 1992).
3. Dixon, W.J. y F. J. Massey, Jr., lntroduction to Statistical 9. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
Analysis, 4a. ed. (Nueva York: McGraw-Hill, 1983). Additional Instructions far SPSSIPC+ (Chicago IL: SPSS Inc.,
4. Lewontin, R. C., y J. Felsestein, "Robustness of 1986).
Homogeneity Tests in 2 x n Tables", marzo de 1965, vol. 10. SAS User's Guide Versíon 6 (Raleigh, NC: SAS lnstitute,
21, pp. 19-33. 1988).
5. Marascuilo, L. A., "Large-Sample Multiple Comparisons", 11. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
Psychological Bulletin, 1966, vol. 65, pp. 280-290. Software, Inc., 1992).
6. Marasculino, L. A. y M. McSweeney, Nonparametric and
Distribution-Free Methods for the Social Sciences (Monterey,
CA: Brooks/Cole, 1977).

esa Capítulo 1S Prueba de hipótesis con datos categóricos


capítulo

Aplicadones estadísticas
en administración de la
calidad y productividad
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Proporcionar una introducción a la
historia de la calidad y a los catorce
CAPÍTULO puntos administrativos de Deming;
ilustrar el uso de un cierto número de
diagramas de control, y mostrar la
interrelación de la administración y las
herramientas estadísticas.

659
1,.91 Introducción
En el presente capítulo centraremos nuestra atención en las aplicaciones estadísticas
en la administración de la calidad y de la productividad. El pionero de tal meto-
dología, W. A. Shewhart, expresó, hace ya más de medio siglo (véase referencia 21) que
La contribución tan amplia de la estadística no depende tanto de la
inclusión en la industria de un gran número de estadísticos altamente
entrenados como de la creación de una generación de físicos, químicos,
ingenieros y otros profesionales con un pensamiento estadístico, quienes,
de muchas maneras, pueden ser de utilidad en el desarrollo y en la direc-
ción de los procesos de producción del mañana.
En este capítulo iniciaremos con una perspectiva histórica sobre la calidad y la pro-
ductividad, y estudiaremos la evolución de los estilos administrativos. Luego
desarrollaremos la teoría que subyace en el tema de diagramas de control. Veremos
también dos herramientas de planificación administrativa que son de utilidad en
la mejora de procesos: el diagrama de flujo de proceso y el diagrama de esqueleto de
pescado. El análisis que sigue después sobre los catorce puntos de Deming acerca
de la administración establece el escenario del posterior desarrollo de un cierto
número de diagramas de control utilizados para el tratamiento de diferentes datos.
Además, desarrollaremos un curioso experimento, conocido como "parábola de las
cuentas rojas", para resaltar los distintos tipos de variación inherentes a un con-
junto de datos y reforzar la importancia de la responsabilidad de un administrador
en el mejoramiento de sistemas.
Después de terminar el capítulo, usted deberá ser capaz de:
l. Entender las diferencias entre las cuatro generaciones de la
administración.
2. Diferenciar entre causas especiales y comunes de la variación.
3. Desarrollar diagramas de flujo de proceso y de esqueleto de pescado.
4. Apreciar los elementos especiales de los catorce puntos de Deming sobre
administración mediante proceso y ser capaz de indicar de qué manera este
planteamiento difiere del de administración mediante control.
5. Desarrollar diagramas de control tanto para variables categóricas como
para variables numéricas.
6. Entender las circunstancias en las que debe utilizarse cada diagrama
de control. '

1(.¡J Calidad y productividad: una perspectiva


histórica
A mediados de la década de los ochenta quedó claro que se había desarrollado una
economía global en la cual las compañías que operan en un cierto país tienen que
competir, no sólo con los competidores locales y nacionales, sino también con com-
petidores de todas partes del mundo. Tal economía global se desarrolló debido a
muchos factores, entre los que podemos incluir la rápida expansión de las comuni-
caciones a nivel mundial y el aumento exponencial de la disponibilidad y potencia
de los sistemas de computación. En tal ambiente, es de vital importancia que las
organizaciones de negocios sean capaces de responder con rapidez a los cambios en
las condiciones del mercado mediante la incorporación de los planteamientos
administrativos efectivos que se tienen disponibles.
El desarrollo de la economía global también ha propiciado un resurgimiento del
interés en el área del mejoramiento de la calidad en Estados Unidos. Se puede obser-
var la evidencia de tal interés renovado en la importancia, cada vez mayor, que se ha

660 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


dado a la competencia por obtener el Malcolm Baldrige Award (véase referencia 10),
que se otorga anualmente a las compañías que efectúan grandes avances en la mejora
de la calidad y de la satisfacción de los clientes respecto a sus productos y servicios.
Entre las compañías que han ganado este premio se encuentran Motorola, Xerox,
Federal Express, Cadillac Motor Company, Ritz-Carlton Hotels, AT&T Universal Card
Services y Eastman Chemical Company. .
Podemos entender la base de este resurgimiento del interés por la calidad y la pro-
ductividad si examinamos brevemente el desarrollo histórico de la administración en
cuatro fases (véanse referencias 4, 12 y 13). Podemos pensar en una administración
de primera generación como administración mediante la acción, el tipo de adminis-
tración practicada por las sociedades cazadoras-recolectoras primitivas en las que los
individuos producían algo para sí mismos o para su unidad tribal, siempre que el pro-
ducto fuera necesario.
Con sus orígenes en la Edad Media, el surgimiento de los gremios en Europa dio
lugar a una segunda generación de la administración, la administración por dirección.
Los gremios administraban el entrenamiento de aprendices y trabajadores, y deter-
minaban las normas de calidad y de fabricación de los productos hechos por el gremio.
El desarrollo de la máquina de vapor de Watt, el sistema de partes intercambiables
de Whitney y muchos otros inventos condujeron a la Revolución Industrial que se
dio en el siglo XIX (véase referencia 6). La creación de las líneas de ensamblaje, uti-
lizada en un principio por Henry Ford para la producción de automóviles, dio
nacimiento a la tercera generación de la administración, la administración por control,
en la cual los trabajadores estaban divididos entre aquellos que en realidad hacían el
trabajo (es decir, obreros) y aquellos que planeaban y supervisaban el trabajo (es decir,
administradores). Este planteamiento le quitó la responsabilidad de la calidad de la
producción al trabajador individual y la puso en manos de inspectores, capataces y
otros administradores. El ingeniero estadounidense Frederick W. Taylor intentó
desarrollar métodos para eliminar esta división, mediante el desarrollo de un plan-
teamiento administrativo científico que requería un estudio detallado de cada trabajo.
El estilo de administración por control también contenía una estructura jerárquica que
ponía énfasis en la responsabilidad individual por la obtención de un conjunto de
objetivos predeterminados. Este planteamiento ha sido práctica común en Estados
Unidos desde el desarrollo del ambiente fabril, al principio del siglo veinte.
Durante la década pasada, Estados Unidos ha visto cómo la ventaja competitiva
que obtuvo durante el periodo posterior a la segunda guerra mundial ha sido elimi-
nada gradualmente, debido a diferentes factores. Primero, Estados Unidos emergió de
dicho conflicto bélico con su base industrial intacta, a diferencia de la mayoría de los
países europeos y del Japón. Así pues, Estados Unidos se encontró en una posición
monopólica y el resto del mundo esperaba con expectación cualquier producto de
consumo que fuera capaz de fabricar. En tal economía de proveedor, tanto la fuerza
laboral como la administración tenían muy pocos incentivos por examinar de man-
era crítica la forma en que estaban operando, con el p~opósito de hacer que la pro-
ducción fuera más eficiente.
Segundo, el resurgimiento de la industria japonesa, que inició en 1950, con la
asistencia de personas como W. Edwards Deming, Joseph Juran, Kaotu Ishikawa y
otros, estaba basado en la calidad y en un continuo mejoramiento de los produc-
tos y servicios. El planteamiento de estos pioneros ha producido una cuarta gene-
ración de la administración, conocida como administración por proceso. A menudo
se le llama administración de calidad total o TQM (por sus siglas: Total Quality
Management). Una de las características principales de este planteamiento consiste en
centrar la atención en una continua mejora de los procesos. Este estilo administrativo
está caracterizado por la importancia especial que se le da al trabajo en equipo, por la
atención al cliente (ampliada de modo que se incluye a toda persona implicada en el
proceso) y por una rápida reacción ante los cambios. La administración por proceso
tiene una fuerte fundamentación estadística, basada en un conocimiento completo
de la variabilidad, en la perspectiva de los sistemas y en la creencia en un mejo-
ramiento continuo. Las herramientas estadísticas, como los diagramas de Pareto, los
histogramas, los diagramas de control, y herramientas administrativas de planeación,

Calidad y productividad: una perspectiva histórica 661


como los diagramas de esqueleto de pescado y los flujos de proceso, son parte integral
de este planteamiento. Los diagramas de control para el estudio de la variabilidad de
u:n sistema es de utilidad para que los adminis-tradores determinen cómo mejorar un
proceso. El tema de la siguiente sección será una introducción general a la teoría que
fundamenta los diagramas de control.

i (.ij La teoría de los diagramas de control


Si nos encontramos examinando los datos que han sido recogidos de manera
s;ecuencial durante un cierto periodo, es imperativo que se construya una gráfica de
la variable de interés en periodos sucesivos. Una de tales gráficas, desarrollada origi-
nalmente por Shewhart (véanse referencias 21, 22 y 23), es el diagrama de control.
El diagrama de control es un medio de revisar la variación de la caracterís-
tica de un producto o servicio mediante (1) la consideración de la dimensión tem-
poral en la cual el sistema fabrica productos o presta servicios y (2) el estudio de la
naturaleza de la variabilidad del sistema. El diagrama de control puede utilizarse para
estudiar desempeños pasados o evaluar las condiciones presentes, o ambas cosas. Los
datos recolectados de un diagrama de control pueden constituir la base del mejo-
ramiento de procesos. Los diagramas de control pueden utilizarse para diferentes
tipos de variables: para las variables categóricas como la porción de vuelos de los
aeroplanos de una compafiía en particular que llegan más de quince minutos tarde
en un día dado; para las variables discretas, como la cuenta del número de imper-
fecciones en la pintura de un panel de puertas de automóvil, y para las variables con-
tinuas como la cantidad de jugo de manzana contenido en botellas de un litro.
Además de proporcionar una representación visual de los datos correspondientes a un
proceso, la atención principal del diagrama de control se enfoca en el intento de separar
las causas especiales o asignables de la variación de las causas comunes o debidas al azar.
Las causas especiales o asignables de la variación representan
grandes fluctuaciones o patrones en los datos que no son inherentes a
un proceso. Tales fluctuaciones son ocasionadas, a menudo, por cambios
en un sistema que representan problemas que deben ubicarse u
oportunidades que se deben explotar.
Las causas comunes o debidas al azar de la variación representan la
variabilidad inherente que se presenta en un sistema. Éstas son una suma
de las numerosas causas de la variabilidad que funcionan aleatoriamente
o debido al azar.
La diferencia entre las dos causas de variación es de vital importancia porque las
causas especiales de la variación se consideran aquellas que no forman parte de un
proceso y que son susceptibles de corregir o de explotar sin cambiar el sistema; mien-
tras que las causas comunes o debidas al azar pueden reducirse únicamente cam-
biando el sistema. Estos cambios sistemáticos son responsabilidad del administrador.
Los diagramas de control nos permiten revisar el proceso y determinar la presen-
cia de causas especiales de variación. Existen dos tipos de errores que los diagramas
de control ayudan a prevenir. El primer tipo de error implica la creencia de que un
valor observado representa una causa especial de la variación, cuando, de hecho, se
debe a una causa común de variación del sistema. Tratar esta causa común como si
fuera especial puede traer como resultado un manipuleo o un sobreajuste del proceso
con un subsecuente aumento de la variación. El segundo tipo de error implica tratar
una causa especial de variación como si fuera una causa común y no tomar medidas
correctivas inmediatas cuando son necesarias. A pesar de que tales errores pueden pre-
sentarse todavía cuando se utiliza un diagrama de control, son bastante improbables.
La forma más típica de un diagrama de control establece límites de control que se
encuentran dentro de ±3 desviaciones estándar1 de la medida estadística de interés (puede
ser el promedio, la porción, el alcance, etcétera). En general puede establecerse como

662 Capitulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


promedio de procesoe ± 3 ·desV1acidrtes estándar

de modo que

límite de control superior = promedio de proceso + 3 desviaciones estándar


límite de control inferior = promedio de proceso - 3 desviaciones estándar

Una vez que se establecen los límites de control, el diagrama de· control se
evalúa desde la perspectiva de (1) la percepción de cualquier patrón que pueda
existir en los valores a través del tiempo y (2) de la determinación de qué puntos
se encuentran fuera de los límites de control. En la figura 16.1 se ilustran tres situa-
ciones diferentes.

-' : Variación debida>a causas


. . comunes soláme.nte:. :no hay X. Variación debida . .. . ·
'" X puntos fuera de los límites de / a causas especiales X Patróri en el tiempo: variaci~n.
· · debida á causas.especiales··
UCL ~~~1 ~.l<'!n-8!,;i!.~~--

linea
Central

LCL --·-'------~~.-c.., .:.::.:.:_,:_;~ ~:~~ ~ ..:.·~ ~-:-;


,'<'::•

• ·•Variación debiáa/ ". '·¡·

.. ·:. , ,,.:a. \:llU~as ~sp.~claleii ~ , , ( 1

. Ti~!l:IPO .
PáhelB · ·
' 1 ~· ;'·¡·\i:.;:¡_,

Figura 1e.1
Tres patrones de diagrama de control.

En el panel A de la figura 16.1, observamos un proceso que es estable y sola-


mente contiene causas comunes de variación, en éste parece no haber ningún
patrón en el ordenamiento de los valores respecto al tiempo y no existen puntos
que caigan fuera de los límites de control consistentes en tres desviaciones están-
dar. En el panel B, por el contrario, se tienen dos puntos que caen fuera de los
límites de control. Habría que investigar a cada uno de tales puntos para determi-
nar las causas especiales que produjeron su presencia. A pesar de que en el panel C
no se tiene ningún punto fuera de los límites de control, en él se encuentra una
serie de puntos consecutivos por debajo del valor promedio (la línea central), así
como una serie de puntos consecutivos por encima del valor promedio. Además,
es claramente visible una tendencia de largo plazo, descendente, en el valor de la
variable. Tal situación podría ser un indicativo de que se necesitan tomar medidas
correctivas para determinar cuál podría ser la causa de este patrón, antes de
empezar cualquier cambio en el sistema.
La detección de una tendencia no siempre es tan obvia. Dos reglas sencillas2
para determinar la presencia de una tendencia consisten en ver (1) si se tienen
ocho puntos consecutivos por encima de la línea central (u ocho puntos consecu-
tivos por debajo de ésta) o (2) si se tienen ocho puntos consecutivos en aumento
(o que van disminuyendo).
Cuando todas las causas especiales de la variación han sido explicadas y elimi-
nadas, el proceso implicado puede ser examinado de manera continua hasta que

La teoría de los diagramas de control 663


no se tengan patrones en el tiempo o puntos fuera de los límites de control de tres
desviaciones estándar. Cuando el proceso contiene solamente causas comunes de
variación, su desempeño es predecible (al menos en el futuro cercano).
Con el propósito de reducir las causas comunes de variación es necesario
alterar el sistema que produce un elemento o que presta un servicio. En la siguiente
sección, analizaremos algunas herramientas de planeación administrativa que son
extremadamente valiosas como una ayuda para el entendimiento de un proceso,
de manera tal que el sistema pueda ser mejorado.

1f·!1 Algunas herramientas para estudiar un


proceso: diagramas de esqueleto de pescado
(lshikawa) y de flujo de procesos

16.4. 1 Introducción
Antes que podamos determinar cuáles son los diagramas de control adecuados que
se deben utilizar para un conjunto de datos, necesitamos definir con más detalle
qué es lo que entendemos por proceso.
Un proceso es una secuencia de pasos que describen una actividad
desde el inicio hasta su terminación.
El concepto de proceso puede verse de manera esquemática en la figura 16.2.
Utilizando este planteamiento, todo trabajo se puede considerar como un con-
junto de procesos. Tales procesos necesitan ser analizados con el propósito de
desarrollar un conocimiento del proceso global, de modo que se pueda reducir la
variación. Esta variación en el proceso puede reducirse si eliminamos primero las
causas especiales. Después se pueden reducir las causas comunes cambiando el pro-
ceso. Lo anterior conducirá a una mejora de la calidad y a una satisfacción más
grande de los clientes. Así pues, el análisis de la variación del proceso y las herra-
mientas para adquirir conocimiento sobre el mismo son el objeto de estudio de la
presente sección, mientras que los catorce puntos del planteamiento administra-
tivo de Deming para el mejoramiento de los procesos será el objeto de estudio de
la sección siguiente.

Figura 1CS.2
El concepto de proceso.
Fuente: Reimpreso de R. Snee, "Statistical Thinking and Its Contributions to Total Quality"
American Statistician, 1990, Vol. 44, pp. 116-121.

664 capítulo 1es Aplicaciones estadísticas en administración de la calidad y productividad


Con el fin de entender cualquier proceso que sea de interés, resulta útil cono-
cer ampliamente dos herramientas de planeación administrativa, el diagrama de
esqueleto de pescado (o diagrama de lshikawa) y el diagrama de flujo de proceso.

16.4.2 El diagrama de esqueleto de pescado (o lshikawa)


El diagrama de esqueleto de pescado fue desarrollado originalmente por
Kaoru lshikawa (véanse referencias 13, 16 y 27) para representar la relación exis-
tente entre algún efecto que podía ser medido y el conjunto de causas posibles que
podían haber producido dicho efecto. Por esta razón también se le conoce como
diagrama de causa y efecto.
El nombre de diagrama de esqueleto de pescado (véase figura 16.3) viene de la
manera en que las diferentes causas están ordenadas en el diagrama. Típicamente,
el efecto o el problema se muestra en la parte derecha y las principales causas se
colocan en la parte izquierda del diagrama. Estas causas a menudo se subdividen
en cuatro categorías (por lo general, fuerza de trabajo, métodos, material y
maquinaria, cuando se trata de un ambiente de producción; y equipo, políticas,
procedimientos y personal cuando se trata de un ambiente de servicios). Dentro de
cada categoría principal, las causas especiales se colocan como ramas y subramas
del árbol correspondiente a la categoría principal. Así pues, la forma del diagrama
de causa y efecto es la de un "esqueleto de pescado".

Figura US.J
Diagrama de esqueleto de pescado.
Fuente: Reimpreso de The Memory Jogger, p. 24, Fig. 19.4. ©copyright 1989 GOAL QPC, 13 Branch
Street, Methuen, MA 01844, Tel. 508-685-3900. Impreso bajo licencia.

El diagrama de esqueleto de pescado puede ser de utilidad para poder entender


procesos en una gran variedad de aplicaciones. En la figura 16.4, de la página 666, re-
presenta un diagrama de esqueleto de pescado correspondiente a un problema que
mucha gente ha enfrentado: llegar tarde al trabajo. Antes de que se pueda construir
un diagrama de causa y efecto, un grupo de individuos, conocedores del proceso,
deben tener una sesión de "lluvia de ideas" con el fin de enumerar las causas del
efecto de interés. En la figura 16.4 (que se relaciona con Marilyn Levine, una maestra
de escuela de nivel elemental y esposa de uno de los autores del presente texto) obser-
vamos que cada una de las cuatro categorías principales han sido divididas en varias
91usas; las subcausas aparecen en cada rama. Por ejemplo, en la categoría de mate-
riales se tienen cinco causas: gas, información, asignación de tareas a estudiantes,
desayuno y otras comidas. Para la asignación de tareas a estudiantes, se muestran las
causas secundarias como la introducción del archivo existente en la computadora, la
revisión de dicho archivo y la impresión de las copias. Conjuntos parecidos de causas
se ilustran para las categorías métodos, fuerza de trabajo y máquinas.

Algunas herramientas para estudiar un proceso: diagramas d'e esqueleto de pescado (lshikawa) y de flujo de procesos 66S
., :I·'

". ·-'"' '.;' .'

Otréls corni~as.""i- - - - - -

Batería
Clima
Automóvitm-_.._ _ _ _ _ _,,
Estufa---.,
1-.--- .Horno de microondas· ·

Camión
escÓlar _ _ _ _ _....,,_._, .,_ '
~-_,..-·.,.·.Glii?.

'.', :,,.;;.'','

Figura 16.4
Diagrama de esqueleto de pescado para el proceso de llegada al trabajo de Marilyn Levine.

Como segundo ejemplo, en la figura 16.5 se muestra un diagrama de esqueleto


de pescado que puede construirse para representar el proceso de estudio de la uti-
lización (o, en realidad, de la subutilización) de las salas de operación de los hos-
pitales durante los sábados. Bajo la categoría de gente, entre las posibles. causas se
tienen registradas personal de enfermería (RN), personal médico y personal de
intendencia, cada una con subramas. Bajo la categoría de políticas, entre las causas
se tienen consentimiento informado, personal, suministros y planes de comerciali-
zación. Se tienen también conjuntos de causas similares detalladas para las cate-
gorías correspondientes a procedimientos y equipo.

16.4.3 Diagramas de flujo de proceso


Una segunda herramienta de planificación administrativa útil para entender un
proceso es el diagrama de flujo de proceso. Este diagrama nos permite ver
un flujo de pasos de un proceso, desde su inicio hasta su terminación. Tal diagrama
es invaluable en el entendimiento de un proceso. En la figura 16.6 se presentan
tres símbolos de flujo de proceso de uso común. El símbolo oval de terminación se
utiliza al principio y al final de un proceso como símbolo de inicio o terminación.
El símbolo de proceso rectangular se utiliza para indicar que se va a efectuar un

Capítulo 16 Aplicaciones estadísticas· en admini.stración de la calidad y productividad


.,..-.....,_,.,..,..._,...:·':·:Con~ntimlento
' informado

.
'. '.
. ..
.

~---.... Consentimiento . · •· ·. . ..
. . . · 1íltonnado di. f;'·:.·;D;. si~{
· Planes dé · ·
. comerclalizacíóh ·. < ; < :

Figura 1es.s
Diagrama de esqueleto de pescado para ·la sala de operaciones de un hospital durante un sábado.

paso del proceso. El símbolo de decisión en forma de diamante proporciona una


forma de entrar y por lo menos dos formas de salir, de modo que se puedan
describir las trayectorias alternativas del proceso.

Figura 1es.es
Símbolos de un diagrama de flujo de proceso.

Algunas herramientas para estudiar un proceso: diagramas de esqueleto de pescado (lshikawa) y de flujo de procesos es67

SI

Figura 1CS.7
Diagrama de flujo de proceso para el proceso de llegar al trabajo de Marllyn Levine.

Ahora que hemos definido algunos de los símbolos que se utilizan, podemos
ilustrar el diagrama de flujo de proceso con dos ejemplos.
La primera situación se refiere al problema de llegar al trabajo a tiempo que fue
representado en el diagrama de esqueleto de pescado de la figura 16.4 de la página
666. En la figura 16.7 se representa el diagrama de flujo de proceso para esta cir-
cunstancia. Observamos que el diagrama inicia con una preocupación acerca de si
el despertador funcionó y continúa con el hecho de si el baño está disponible, si la
asignación de tareas a los estudiantes está lista, si hay que llevar a su hija a
la escuela y si tiene que recoger a uno de sus compañeros de trabajo en su camino
a la escuela. En resumen, el diagrama de flujo de proceso, al hacer que docu-

668 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


Figura 1es.e
Diagrama de flujo de proceso para el desarrollo de software.

mentemos el proceso implicado, nos proporciona un entendimiento más com-


pleto de los diferentes aspectos del proceso y nos da una visión de la forma en que
probablemente se desarrollen los retardos.
Un segundo ejemplo de un diagrama de flujo de proceso, que implica el
desarrollo de software, se presenta en la figura 16.8. En este ejemplo, el paquete de
software que se va a desarrollar pasa por una serie de etapas, cada una de las cuales
contiene un aspecto de inspección (con una etapa de repetición del trabajo, si es
necesaria) antes de entregarlo al cliente.
Ahora que hemos analizado estas herramientas de planeación administrativa
que nos son de ayuda en el entendimiento de un proceso, en la siguiente sección
veremos un planteamiento administrativo que se puede utilizar cuando hay
necesidad de cambiar un proceso.

Problemas de la sección 16.4


16.1 Compare y contraste el diagrama de esqueleto de pescado y el diagrama de
flujo de proceso. ··

Algunas herramientas para estudiar un proceso: diagramas de esqueleto de pescado (lshikawa) y de flujo de procesos 669
16.2 Construya los diagramas de esqueleto de pescado y de flujo de proceso para su
proceso personal de llegar a la escuela o al trabajo en la mañana.
16.3 (a) Construya los diagramas de esqueleto de pescado y de flujo de proceso
para el proceso de registro de su escuela.
(b) Sobre Ja base de Jos diagramas construidos en el inciso (a), ¿qué mejoras
puede sugerir usted en el proceso de registro?
16.4 (a) Construya los diagramas de esqueleto de pescado y de flujo de proceso
para su proceso personal de estudiar para un examen de estadística.
(b) Sobre la base de los diagramas desarrollados en el inciso (a), ¿qué mejoras
puede llevar a cabo en la forma en que usted estudia para el examen de
estadística?
16.5 Usted está planeando tener una comida para ocho personas en su casa. La
comida consistirá en cocteles de aperitivo y un entremés, sopa, ensalada,
platillo principal y postre.
(a) Construya los diagramas de esqueleto de pescado y de flujo de proceso
para el proceso de preparar y servir la comida y las bebidas para la comida.
(b) Sobre la base de Jos diagramas desarrollados en el inciso (a), ¿qué mejoras
puede usted efectuar en Ja forma en que está planeando preparar Ja
reunión?

i f.¡J Los catorce puntos de Deming: una teoría de


la administración por proceso
La alta calidad de los productos japoneses y el milagro económico del desarrollo de
aquel país después de la Segunda guerra mundial son hechos bastante conocidos. Lo
que no se sabe realmente, en particular por parte de los jóvenes de hoy día, es el hecho
de que, antes de la década de los cincuenta, Japón había adquirido la reputación
inevitable de producir productos de consumo malos y de pobre calidad. Por consi-
guiente, es seguro que tenemos que hacer la pregunta, ¿qué sucedió para que tal repu-
tación cambiase? Parte de la respuesta yace en el hecho de que por el año de 1950, la
administración superior de las compañías japonesas, en alianza con la Unión de
Ciencia e Ingeniería Japonesa (JUSE, por sus siglas: de Ja pan ese Union of Science and
Engineering), se dio cuenta de que la calidad es un factor vital para ser capaces de
exportar con éxito productos de consumo. Algunos ingenieros japoneses habían
tenido conocimiento de la contribución que los diagramas de control de Shewhart
habían aportado al esfuerzo estadounidense durante la Segunda guerra mundial
(véanse referencias 9 y 26). Así pues, varios expertos norteamericanos, entre ellos W.
Edwards Deming, fueron invitados al Japón durante los primeros años de la década
de los cincuenta. La aplicación rigurosa de un planteamiento de administración de
calidad total condujo a una mejora de la productividad de la industria japonesa.
Debido principalmente a estas experiencias en Japón, Deming desarrolló su enfoque
de la administración, basándose en los siguientes catorce puntos:
l. Crear una constancia en el propósito de mejorar el producto y el servicio.
2. Adoptar la nueva filosofía.
3. Dejar de ser dependientes de la inspección para lograr la calidad.
4. Terminar con la práctica de otorgar contratos sobre la única base del
precio. En vez de ello, minimizar el costo total trabajando con un
solo proveedor.
5. Mejorar constantemente y para siempre cada proceso de planeación,
producción y servicio.
6. Instituir el entrenamiento en el trabajo.
7. Adoptar e instituir el liderazgo.
8. Eliminar el miedo.
9. Derribar las barreras entre áreas de personal.
10. Eliminar lemas, exhortaciones y metas destinados a la fuerza laboral.

670 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


11. Eliminar cuotas numéricas para la fuerza laboral y objetivos
numéricos para la administración.
12. Retirar barreras que le restan orgullo a la gente respecto a su
trabajo. Eliminar el sistema de evaluación anual o de mérito.
13. Instituir un vigoroso programa de educación y autodesarrollo para
todos.
14. Poner a todo el que trabaje en la compañía a trabajar en el logro de
la transformación.
El punto 1, crear constancia de propósitos, se refiere a la forma en que una
organización trata los problemas que surgen en el presente y que surgirán en el
futuro. La atención se pone en la mejora constante de un producto o de un servi-
cio. Este proceso de mejora se ilustra con el ciclo de Shewhart de la figura
16.9. A diferencia del enfoque tradicional de producción que plantea "diséñelo,
hágalo y pruébelo antes de venderlo", el ciclo de Shewhart representa un ciclo con-
tinuo de "planificación, realización, estudio y acción". El primer paso, planift-
cación, representa la fase inicial del diseño del plan de cambio del proceso de
manufactura o de servicio. El segundo paso, realización, implica llevar a cabo el
cambio, de preferencia a una escala pequeña. Para hacer esto, los experimentos
planeados pueden (véase capítulo 14) ser un planteamiento valioso. El tercer paso,
estudio, implica un análisis de los resultados mediante herramientas estadísticas y
que sirve para determinar lo que se ha aprendido. El cuarto paso, acción, implica la
aceptación del cambio, su abandono o un estudio más detallado del cambio en di-
ferentes condiciones. Con este planteamiento, el proceso se inicia con el cliente
como el elemento más importante del proceso de producción o de servicio.

EL CICLO DE SHEWHART

Planeación de
un cambio.

Llevarlo a cabo Figura 16.9


Estudiar los resultados. (de preferencia a
El ciclo de Shewhart.
¿Qué aprendimos? menor escala)
F11c11tc: Adaptado del texto Out o(tlw Crisis
ny W. Edwards Deming con licencia del
*Medidas: Adoptar el cambio, desecharlo o recorrer
Centro de Estudios Avanzados en Ingeniería
el ciclo de nuevo, posiblemente en del MIT and W. Edwards üeming.
condiciones ambientales diferentes. Puhlished hy MIT, Cambridge, MA 02139.
Copyright 1986 by W. Edwards Deming.
Adaptado de la figura 5, pág. 88.

El aspecto clave de este planteamiento es el predominio de la preocupación


por problemas futuros. El mejoramiento de los procesos debe ir acompañado con
la innovación y el desarrollo de nuevos productos. La importancia de la inno-
vación se puede ilustrar haciendo una analogía con la técnica de "Fosbury Flop"
del salto de altura.·l Antes del desarrollo de esta técnica de salto de altura, el
planteamiento aceptado consistía en utilizar una técnica conocida como "Western
Roll". Si un atleta acababa de trabajar para mejorar su habilidad utilizando la téc-
nica de Western Roll, aún no sería capaz de competir con otro atleta que hubiera
adoptado lo que en ese momento era una técnica más nueva y mejor, la de Fosbury
Flop. Así pues, la innovación debe ir de la mano con el mejoramiento del proceso.

Los catorce puntos de Deming: una teoría de la administración por proceso 671
El punto 2, adoptar la filosofía, se refiere a la urgencia con que las compañías esta-
dounidenses necesitaban darse cuenta de que estamos en una nueva era económica
que difiere drásticamente del periodo posterior a la Segunda guerra mundial en el que
había un dominio estadounidense (véase referencia 9). Es un hecho aceptado común-
mente, como parte de la naturaleza humana, que las personas no actúan hasta que se
tiene una crisis, debido a que prefieren continuar haciendo cosas de la manera en que
piensan que han tenido resultados exitosos en el pasado. Sin embargo, en esta nueva
era económica, la administración estadounidense a menudo se ve afligida por lo que
Deming llamó un conjunto de "enfermedades mortales", entre las que se encuentra
la falta de constancia de propósitos, énfasis en las ganancias a corto plazo, temor a
una toma de poder no amistosa, evaluación de sistemas de resultados de desempeño
y de mérito y una excesiva rotación de la administración. Finalmente, la filosofía de
la administración necesita aceptar la idea de que la calidad cuesta menos, no más. Sin
embargo, se requiere una inversión inicial para lograr la calidad. Tal inversión da div-
idendos bastante grandes.
El punto 3, dejar de ser dependientes de la inspección en masa para lograr la cali-
dad, implica que cualquier inspección cuyo propósito sea mejorar la calidad viene
demasiado tarde, pues la calidad ya está construida en el producto. Sería mejor enfocar
la atención en hacer las cosas bien la primera vez. Entre las dificultades que se tienen
con una inspección en masa (además del alto costo) están el fracaso de los inspectores
para llegar a un acuerdo sobre los elementos que no cumplen con lo especificado y el
problema de la separación de los productos buenos de los malos. Tales dificultades
pueden ilustrarse con un ejemplo tomado de Scherkenbach (véase referencia 20) y rep-
resentado en la figura 16.10. Suponga que su tarea, en este caso, consiste en leer la
oración mostrada en la figura 16.10. El proceso implica la revisión de la oración con el
fin de determinar el número de veces que aparece la letra "F". Lea la oración y anote el
número de veces que se presenta la letra F en ella.

Figura 16. 1o
Un ejemplo del proceso de revisión.
Fuente: W. W. Scherkenbach, The Deming Route to
Quality and Productivity: Road Maps and Roadblocks
(Washington, D.C.: CEEPress, 1986).

Por lo general las personas cuentan tres o seis efes. El número correcto es seis.
El número de letras contado depende del método que se haya utilizado para revisar
la oración. Es posible que se cuenten tres efes si el párrafo se lee de manera fonética
y seis efes si uno se fuerza a contar el número de efes con cuidado.* La cuestión del
ejercicio es mostrar que, si tenemos un proceso tan sencillo de conteo de las letras
que nos lleva a una inconsistencia en los resultados de los "inspectores", ¿qué
sucederá cuando un proceso no contiene una definición operacional de lo que es
no cumplir con lo especificado? Ciertamente, en tales situaciones se presentará
mucha más variabilidad de un inspector a otro.
El punto 4, terminar con la práctica de otorgar contratos sobre la única base
del precio, representa la antítesis de las concesiones al peor postor. Se centra en el
hecho de que no puede haber un significado real a largo plazo del precio sin tener
un conocimiento de la calidad del producto. Un planteamiento del peor postor
ignora las ventajas de la variación reducida de un solo proveedor y no puede con-
siderar las ventajas del desarrollo de una relación a largo plazo entre comprador y
proveedor. Tal relación permitiría al proveedor ser innovador y tendería a hacer
que éste y el comprador sean copartícipes en el logro del éxito.
El punto 5, mejorar constantemente y para siempre el sistema de producción y de
servicios, refuerza la importancia del centro continuo del ciclo de Shewhart y la creen-

• N. del R.T. (Esta parte se refiere a que en inglés la palabra of, que contiene una efe, se pronuncia
como "ob", lo cual haría contar sólo las efes que se encuentran en las demás palabras).

672 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


cia de que la calidad necesita ser construida en la etapa de diseño. El conseguir la cali-
dad se considera como un proceso sin término en el que la variación más pequeña se
traduce en una reducción de las pérdidas económicas que se presentan en la fabri-
cación de un producto cuyas características son variables. Este planteamiento con-
trasta con aquel cuya sola preocupación consiste en cumplir con las especificaciones.
Este último planteamiento, de todo o nada, no asocia ninguna pérdida económica con
los productos cuyas características están dentro de los límites de las especififaciones.
El punto 6, entrenamiento institucional, refleja las necesidades de todos los
empleados, incluyendo obreros, ingenieros y administradores. Es absolutamente
importante que la administración entienda las diferencias entre las causas especiales
y las comunes de la variación, de modo que se puedan tomar las medidas adecuadas
en cada circunstancia. En particular, el entrenamiento necesita centrarse en el
desarrollo de normas para definir el trabajo aceptable que no cambia diariamente.
También, la administración necesita darse cuenta de que las personas aprenden de
diferentes maneras; algunos aprenden mejor con una instrucción por escrito, otros
aprenden mejor con una instrucción oral. Además, la administración debe decidir
quién deberá ser entrenado en qué aspectos. A menudo el entrenamiento corpora-
tivo en áreas como la estadística se desperdicia debido a (1) la proyección limitada
de quien se entrena, (2) que no se pone énfasis en cómo administrar lo que se ha
aprendido y (3) que hay poca insistencia en utilizar lo que se ha aprendido.
El punto 7, adopte e instituya el liderazgo, se relaciona con la diferencia entre
liderazgo y supervisión. El objetivo del liderazgo deberá ser el de mejorar el sistema
y lograr mayor consistencia en el desempeño. .
Los puntos 8 a 12 [eliminación del temor, eliminación de barreras entre áreas de
trabajo, eliminación de lemas, eliminación de cuotas numéricas para la fuerza
de trabajo y de objetivos numéricos para la administración, y la eliminación de
barreras al orgullo de la destreza, incluyendo la evaluación anual y el sistema
de mérito (este último punto puede ser el más controvertido)) están todos rela-
cionados con la manera en que se evalúa el desempeño de un empleado.
El sistema de cuotas para el trabajador de producción se ve como algo que
viene en detrimento de su desempeño por varias razones. Primera, tiene un efecto
negativo em la calidad del producto, pues los supervisores están más inclinados a
pasar productos inferiores por el sistema cuando necesitan cumplir con cuotas de
trabajo. Estas normas flexibles de trabajo reducen el orgullo que tiene el individuo
en su destreza y eternizan un sistema en el cual la presión de la supervisión hace
que la mitad de los trabajadores no hagan más allá de la cuota.
Además, poner énfasis en las metas y en las exhortaciones puede ser una carga
inadecuada sobre el trabajador, puesto que es trabajo de la administración mejorar
el sistema, no esperar que los trabajadores produzcan más allá del sistema (esto
quedará claramente ilustrado en la sección 16.7).
Segunda, el sistema de evaluación personal anual puede disminuir el orgullo del
administrador en su destreza porque tal sistema de evaluación, la más de las veces, no
puede proporcionar una medida significativa del desempeño. Para muchos adminis-
tradores, el cliente es su único supervisor. En demasiados casos (véase referencia 24),
los esfuerzos se centran en desvirtuar las cifras o el sistema para producir el conjunto
deseado de resultados, en lugar de centrar los esfuerzos en mejorar el sistema. Este
planteamiento no permite el trabajo en equipo debido a que, a menudo, existe una
pequeña recompensa tangible por el trabajo conjunto entre áreas funcionales.
Finalmente, se recompensa a las personas que trabajan exitosamente dentro del sis-
tema, en vez de recompensar a los trabajadores que mejoran el sistema.
El punto 13, animar la educación y la autosuperación para todos, refleja la idea
de que el recurso más importante de cualquier organización es la gente. Los esfuer-
zos encaminados a elevar el conocimiento. de las personas que trabajan en la orga-
nización sirve, también, para aumentar los activos de la misma.
El punto 14, tomar medidas para lograr la transformación, de nuevo refleja el
planteamiento de la administración como un proceso en el que uno siempre se
esfuerza por mejorar en un ciclo interminable.

Los catorce puntos de Deming: una teoría de la administración por proceso 57:1
Ahora que hemos presentado una breve introducción a la filosofía de Deming
y hemos vincularl0 !:l administración por proceso con las ideas fundamentales de
los diagramas de control, en las siguientes secciones desarrollaremos varios dia-
gramas de control que se utilizan en la industria.

1[.!.] Diagramas de control para la proporción y el


número de elementos que no se ajustan: los
diagramas p y np

16.6. 1 Introducción
Pongamos nuestra atención en diferentes tipos de diagramas de control que se uti-
lizan para revisar los procesos y determinar si se encuentran presentes causas espe-
ciales o comunes de la variación. Un tipo de diagrama de control utilizado
comúnmente es el diagrama de atributos, que se emplea cuando los elemen-
tos que son muestreados están clasificados según cumplan o no con requisitos
definidos operacionalmente. Los diagramas p y np que se analizarán en esta sección
están basados en la porción de elementos que no cumplen (diagrama p) o en el
número de elementos que no cumplen (diagrama np) de una muestra. El diagrama
e que será analizado en la sección 16.8) está basado en una cuenta del número de
elementos que no cumplen por unidad.

16.6.2 El diagrama p
Usted puede recordar que estudiamos las porciones en los capítulos 5 a 9.
Analizamos la distribución binomial en la sección 7.5 y la aproximación normal a
distribución binomial en la sección 8.6.2. Además, en la ecuación (9. 7) de la sec-
ción 9.3, definimos la porción como X/n y en la ecuación (9.8) definimos la
desviación estándar de la porción como

CTp = ~p(l - p)
' n
Utilizando la ecuación (16.1) de la página 663, podemos establecer los límites de
control para la porción de elementos que no cumplen 4 de los datos de muestra o
de subgrupo como

P ± 3 ~P(l; P) (16.2)

de modo que

LCL = P - 3~p (l; P) (16.3a)

UCL =P + 3~P(l;P) (16.3b)


674 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad
en la que
X¡= número de elementos que no cumplen del subgrupo i
n¡ = tamaño de muestra o de subgrupo para el subgrupo i
Ps-=
1
X¡/n¡
k = número del subgrupo tomado
ñ = tamaño promedio del subgrupo
p = porción promedio de elementos que no cumplen
Para n;, iguales

n = n; y

o, en general,
k

Ln;
i =1
n =-- y
k

Cualquier valor negativo del límite de control inferior significará que el límite de
control inferior no existe.
Podemos observar una aplicación del diagrama p si nos referimos al plan de un
hotel grande, situado en una ciudad de descanso, para mejorar la calidad de sus ser-
vicios. Un aspecto de sus servicios a los huéspedes está representado por la buena
disposición del cuarto cuando el cliente entra por primera vez al que le fue asig-
nado. Desde el punto de vista de la impresión inicial es de particular importancia
que todas las comodidades que se supone posee el cuarto (jabón, toallas, canasto
de basura complementario, etcétera) se encuentren realmente disponibles en el
cuarto; y es igualmente importante que todos los aparatos electrónicos como el
radio, el televisor y el teléfono estén trabajando apropiadamente. La adminis-
tración del hotel ha decidido estudiar este proceso durante un periodo de cuatro
semanas, tomando una muestra diaria de 200 cuartos para los cuales ya se tienen
reservaciones. Así pues, se determinaría, antes de la llegada de los huéspedes, si los
cuartos tienen algún incumplimiento en cuanto a la disponibilidad de las como-
didades y al funcionamiento adecuado de todos los aparatos electrónicos. En la
tabla 16.1 de la página 676 se presenta el número y la porción de cuartos que
fueron considerados como no adecuados, que no cumplen para cada día del perio-
do de cuatro semanas.
k
Para esos datos, k = 28, L Ps; = 2.315, Y n; = 200
i=-1

Así pues
p= 2.315 = .0827
28
de modo que utilizando la ecuación (16.2) tenemos

.0827 ± 3 (.0827)(.9173)
200
.0827 ± .0584

Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np 67S
Tabla 16.1
Cuartos que no cumplen con las especificaciones al momento del registro en un periodo de cuatro semanas.

Cuartos Cuartos Cuartos Cuartos


Día estudiados no listos Porción Día estudiados no listos Porción
200 16 .080 15 200 18 .090
2 200 7 .035 16 200 13 .065
3 200 21 .105 17 200 15 .075
4 200 17 .085 18 200 10 .050
5 200 25 .125 19 200 14 .070
6 200 19 .095 20 200 25 .125
7 200 16 .080 21 200 19 .095
8 200 15 .075 22 200 12 .060
9 200 11 .055 23 200 6 .030
10 200 12 .060 24 200 12 .060
11 200 22 .110 25 200 18 .090
12 200 20 .100 26 200 15 .075
13 200 17 .085 27 200 20 .100
14 200 26 .130 28 200 22 .110

Así pues,

UCL = .0827 + .0584 = .1411

LCL = .0827 - .0584 = .0243

El diagrama de control correspondiente a los datos de la tabla 16.1 se presenta en


la figura 16.11. Un examen de tal figura parece indicar que se tiene un proceso
en un estado de control estadístico, en el cual los puntos individuales están dis-
tribuidos alrededor de p sin que haya ningún patrón presente. Así pues, cualquier
mejora en este sistema de tener listos los cuartos para huéspedes debe venir de la
reducción de la variación debida a causas comunes. Como hemos dicho anterior-
mente, estas alteraciones del sistema son responsabilidad de la administración.
Ahora que hemos examinado una situación en la que el tamaño de las mues-
tras o subgrupos es igual, necesitamos considerar una situación más general en la
que el tamaño de los subgrupos puede variar con el tiempo. Como regla, siempre
y cuando ninguno de los tamaños de muestra, n¡, difiera del tamaño de subgrupo
promedio, n, en más de ±25% den (véase referencia 8), se puede emplear la ecua-
ción (16.2) para obtener los límites de control del diagrama p.
Podemos observar la aplicación de un diagrama p cuando los tamaños de sub-
grupo son diferentes mediante el estudio de un proceso relacionado con la pro-
ducción de esponjas de gasa en una fábrica. El número de esponjas que no
cumplen con las especificaciones y el número de esponjas producidas diariamente
durante un periodo de 32 días se muestran en la tabla 16.2.
k k

Para estos datos tenemos, k = 32, L n;


i=l
= 19,926 y I, X;
i =l
= 665.
Así pues,

n = 19' 926 = 622.69 y p = ~ = .033


32 19,926

676 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


.15
.14 ---------------------------------------~C':!:-
.13
.12
.11
.8
eQJ .10
:§a. .09
E
::J
ü .08
_s;
"O
QJ .07
e
·O .06
T~
o .05
CL

.04
.03
.02 ------------------------------------------ LCL

.01
o
2 4 6 8 10 12 14 16 18 20 22 24 26 28
Días

Figura 16. 1 1
Diagrama p para la proporción de cuartos que no cumplen con las especificaciones a la llegada
de los huéspedes.
F11e11te: ·nihla 16.1.

por lo que tenemos

------·----
J
.033 ± 3 (.033 )(1 - .033)
622.69
.033 ± .021

Tabla 16.l
Esponjas que no cumplen con las especificaciones producidas diariamente durante un periodo de 32 días.
Cantidad Cantidad de esponjas Cantidad Cantidad de esponjas
Día producida que no cumplen Porción Día producida que no cumplen Porción
1 690 21 .030 17 575 20 .035
2 580 22 .038 18 610 16 .026
3 685 20 .029 19 596 15 .025
4 595 21 .035 20 630 24 .038
5 665 23 .035 21 625 25 .040
6 596 19 .032 22 615 21 .034
7 600 18 .030 23 575 23 .040
8 620 24 .039 24 572 20 .035
9 610 20 .033 25 645 24 .037
10 595 22 .037 26 651 25 .038
11 645 19 .029 27 660 21 .032
12 675 23 .034 28 685 19 .028
13 670 22 .033 29 671 17 .025
14 590 26 .044 30 660 22 .033
15 585 17 .029 31 595 24 .040
16 560 16 .029 32 600 16 .027

Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np 677
Por consiguiente,

LCL = .033 - .021 = .012

UCL = .033 + .021 = .054


El diagrama de control correspondiente a los datos de la tabla 16.2 se muestra
en la figura 16.12. Un examen de dicha figura parece indicar que se tiene un pro-
ceso en un estado de control estadístico, sin que haya ningún punto más allá de
los límites de control y sin que esté presente ningún patrón. Así pues, cualquier
mejora del sistema de producción de esponjas de gasa debe venir de la reducción
de la variación debida a causas comunes.


. <::· ;Q6
.'':.·: ............ ·..,_ .... _..;:. ___ ....._ ..... ;._.-~ ... --.;..- ... _-_;,·------·..; ___ ..., .. __ _.\:!.d.!::
j),'<·,_, ,:"'
i:t• ;Op

-~t:.•
e: ,04
!!! ..:, "
C1'

"''
·~ .03 -

~
.g .02
e:
:~
&. .01
--- - - -·--- - -- - - - - --- - --- - --- - - - - - - - - -- - --- ~C,h
f' '

Figura 16. 12
Diagrama p para la porción de esponjas que no cumplen.

16.6. 3 El diagrama np
Cuando los subgrupos son del mismo tamaño, una alternativa deseable del dia-
grama p es el diagrama np. Puede recordar de la aproximación normal a la dis-
tribución binomial en la sección 8.6.2, que definimos el error estándar del número
de "éxitos" o elementos que no cumplen como

crx = ~np(l - p)

Por consiguiente, si utilizamos la aproximación normal de la binomial y la


ecuación (16.1), podemos establecer los límites de control para el número de ele-
mentos que no cumplen de la siguiente manera:

(16.4f,··

678 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


de modo que,

'',' '-.·.;

.· ·~·~;5~)
G,. ·'.:·r'·,
_.,'J

: ,;;' 1·· :· ~· .":l'l:.· ".


. (16.5~)..
' t .. ·.
''.•"il
, ''1 ·•''·'

en la que

n = tamaño de subgrupo
k = número de subgrupos
Para ilustrar el diagrama np, regresemos a los datos de la tabla 16.1 de la página
676 que fueron utilizados anteriormente para el diagrama p.
k
Para estos datos tenemos, k = 28, n = 200, y L X, = 463
1~1

Por tanto,

X- = 463
28
= 16.536 . y p-
463 = .0827
(200)28

de modo que tenemos,

16.536 ± 3~16.536(1 - .0827)


16.536 ± 11.684

Así pues,

UCL = 16.536 + 11.684 =28.22


y

LCL = 16.536 - 11.684 = 4.852

El diagrama np correspondiente a estos datos se representa en la figura 16.13


de la.página 680. Observamos que esta figura proporciona precisamente los mis-
mos resultados del diagrama p de la figura 16.11 de la página 677, pero representa
el número de elementos que no cumplen en lugar de la porción de los mismos. La
elección entre los dos planteamientos (disponible solamente en el caso de subgru-
pos de tamaíío igual) es cuestión de preferencia personal.

Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np 679
30
26 ---------------------------------------~Cl-
26
24;
22
.ae
.!!!: 20 '
.5
i i 16
E
:;:¡
16
"
.s
Q)
"O
14
E?
Q) 1?
E
•::J
z 10
e
6 ________________________________________ !::.,C!
4
2
º""-L-L-.._.._.._.._.._..._...._....__,__,__.__._......................._...._...._...........................................
2 4 6 6 10 12 14 1,6, ,, 16 '20 22 24 26 26
Oía

Figura 1&. 13
Diagrama np para el número de cuartos que no cumplen a la llegada de los huéspedes.
Fuente: Los datos fueron tomados de la tabla 16.1 de la página 676.

Problemas de la sección 16. 6


e 16.6 El Consejo de Guardagujas de una línea ferroviaria que presta su servicio a un
área metropolitana grande desea revisar el desempeño a tiempo de las corridas
de los trenes durante las horas de mayor tráfico de la mañana. Suponga que se
considera que un tren está retrasado si llega más de cinco minutos después de
la hora de arribo programada. Se tiene planeado un total de 235 trenes
durante las horas de mayor tráfico cada mañana. Los resultados
correspondientes a un periodo de cuatro semanas (basándose en cinco días de
trabajo por semana) se presentan a continuación:

Número de Número de
Día llegadas tarde Día llegadas tarde
'1 17 11 21
2 25 12 23
3 22 13 67
4 27 14 24
5 32 15 35
6 23 16 18
7 16 17 23
8 24 18 24
9 20 19 26
10 36 20 35

(a) Construya el diagrama p para la porción de llegadas tarde e indique si el


proceso de arribos está bajo control estadístico durante este periodo.

eso Capítulo 145 Aplicaciones estadísticas en administración de la calidad y productividad


(b) Construya un diagrama np correspondiente al número de llegadas tarde e
indique si el proceso de arribos está bajo control estadístico durante el
periodo de prueba.
(c) Compare los resultados del diagrama p obtenidos en el inciso (a) con los
del diagrama np del inciso (b).
(d) ¿Qué efecto tendría en la conclusión obtenida en el inciso (a) o en el (b) si
supiera que ha habido una tormenta de nieve de cuatro pulgadas en la
mañana del día 13?
16.7 Un jugador profesional de basquetbol ha iniciado un programa para estudiar
su habilidad para encestar tiros de castigo. Cada día en el que no hay progra-
mado ningún juego, intenta lanzar 100 tiros de castigo. Tiene un registro de
los resultados durante un periodo de 40 días de práctica, mismos que se pre-
sentan a continuación:

Número de tiros Número de tiros


Día de castigo lanzados Día d~castigo lanzados
1 73 21 64
2 75 22 67
3 69 23 72
4 72 24 70
5 77 25 74
6 71 26 76
7 68 27 75
8 70 28 78
9 67 29 76
10 74 30 80
11 75 31 78
12 72 32 83
13 70 33 84
14 74 34 81
15 73 35 86
16 76 36 85
17 69 37 86
18 68 38 87
19 72 39 85
20 70. 40 85

(a) Construya un diagrama p para la porción de tiros de catigo encestados.


¿Piensa usted que el proceso de lanzamiento de tiros de castigo del
jugador está bajo control estadístico? Si la respuesta es no, ¿por qué?
(b) Construya el diagrama np correspondiente al número de tiros de castigo
hechos e indique si el proceso de lanzamiento de tiros de castigo está bajo
control estadístico durante el periodo que dura el experimento.
(c) ¿Qué pasaría si le avisaran que después de los primeros 20 lanzamientos el
jugador cambió su estilo de hacerlos? ¿De qué manera podría esta
información cambiar las conclusiones a las que llegó en los incisos (a) y (b)?
(d) Si usted hubiera sabido la información del inciso pasado antes de trabajar
con los incisos (a) y (b), ¿qué tan diferentes hubiera construido los
diagramas p y np?
16.8 Un servicio privado de entrega de correo tiene la política de garantizar la
entrega aproximadamente a las 10:30 horas de la mañana siguiente a la que se
recogió el paquete. Suponga que la administración de la oficina desea estudiar
su desempeño en la entrega en un área geográfica particular durante un
periodo de cuatro semanas, basándose en cinco días de trabajo por semana. El
número total de paquetes entregados diariamente y el número de paquetes
que no fueron entregados aproximadamente a las 10:30 horas del día
siguiente, se registraron en la siguiente tabla:

Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np &81
Números de Número de paquetes Número de Número de paquetes
paquetes que no llegan antes paquetes que no llegan antes
Día entregados de las 10:30 horas Día entregados de las 10:30 horas
1 136 4 11 157 6
2 153 6 12 lSO 9
3 127 2 13 142 8
4 157 7 14 137 10
5 144 5 15 147 8
6 122 5 16 132 7
7 1S4 6 17 136 6
8 132 3 18 137 7
9 160 8 19 153 11
10 142 7 20 141 7

(a) Construya un diagrama p para la porción de paquetes que no son entrega-


dos a las 10:30 horas del día siguiente.
(b) ¿El proceso muestra alguna señal de que esté fuera de control?
16.9 El superintendente de un distrito escolar está interesado en estudiar el ausen-
tismo de los estudiantes de una escuela en particular de nivel primario durante
los meses de diciembre y enero. La escuela tuvo 537 alumnos inscritos en este
periodo. Los resultados fueron los siguientes:

Número de Número de
Día estudiantes ausentes Día estudiantes ausentes
1 39 19 54
2 46 20 52
3 38 21 46
4 46 22 45
s S3 23 42
6 S2 24 44
7 S6 2S 49
8 61 26 39
9 Sl 27 72
10 SS 28 SS
11 S2 29 so
12 49 30 42
13 44 31 48
14 39 32 46
15 53 33 45
16 68 34 49
17 101 35 41
18 70 36 47
Nota: Los primeros 17 días corresponden a diciembre y los últimos 19 a enero.

(a) Construya un diagrama p para la porción de estudiantes que se ausen-


taron durante diciembre y enero. ¿El proceso muestra alguna señal de que
esté fuera de control?
(b) Construya un diagrama np para el número de alumnos que se ausentaron
e indique si el proceso de ausentismo está bajo control estadístico durante
el periodo de estudio.
(c) Compare los resultados del diagrama p obtenido en el inciso (a) con los
obtenidos del diagrama np del inciso (b).
(d) Si el superintendente desea desarrollar un proceso para reducir el
ausentismo, ¿qué debería hacer?

682 Capitulo 16 Aplicaciones estadisticas en administración de la calidad y productividad


e 16.10 La embotelladora del refresco de cola sin azúcar Sweet Suzy, tiene registros
diarios de la presencia de las latas defectuosas que salen de la máquina de
llenado y sellado. Se registran los no cumplimientos con lo especificado, tales
como una cantidad inadecuada de contenido, latas con muescas y latas que no
están adecuadamente selladas. Los datos correspondientes a la producción de
un mes (con semanas de cinco días laborables) se presentan a continuación:

Número de Número de Número de Número de


Día latas llenadas latas defectuosas Día latas llenadas latas defectuosas
1 5,043 47 12 5,314 70
2 4,852 51 13 5,097 64
3 4,908 43 14 4,932 59
4 4,756 37 15 5,023 75
5 4,901 78 16 5,117 71
6 4,892 66 17 5,099 68
7 5,354 51 18 5,345 78
8 5,321 66 19 5,456 88
9 5,045 61 20 5,554 83
10 5,113 72 21 5,421 82
11 5,247 63 22 5,555 87

(a) Construya un diagrama p de la porción de latas no aceptadas de la


producción mensual. ¿El proceso muestra alguna señal de que esté fuera
de control?
' (b) Si la administración desea desarrollar un proceso para reducir la porción
de latas no aceptables, ¿cómo debería hacerlo?
16.11 El administrador de la oficina de contabilidad de un hospital grande está
interesado en estudiar el problema de los errores que se cometen en los
números de cuenta cuando son registrados en el sistema de cómputo. Se
seleccionó un grupo de 200 números de cuenta de los producidos diariamente
y cada número fue inspeccionado para determinar si estaba correcto. Los
resultados correspondientes a un periodo de 39 días se presentan a continuación:

Número de Número de
Día elementos que no cumplen Día elementos que no cumplen
1 3 21 13
2 5 22 5
3 2 23 2
4 11 24 o
5 6 25 14
6 15 26 10
7 8 27 9
8 1 28 7
9 25 29 6
10 4 30 1
11 o 31 21
12 6 32 2
13 9 33 4
14 2 34 2
15 8 35 8
16 28 36 30
17 16 37 o
18 5 38 o
19 10 39 1
20 30

Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np
(a) Construya un diagrama p para los números que no están correctos. ¿El
proceso muestra alguna sefial de que esté fuera de control?
(b) Construya un diagrama np correspondiente al número de cuentas que no
están correctas e indique si el proceso está bajo control estadístico durante
el periodo del estudio.
(c) Compare los resultados del diagrama p obtenido en el inciso (a) con los
resultados del diagrama np del inciso (b).
(d) Sobre la base de los resultados de los incisos (a) o (b), ¿qué haría ahora
como administrador para mejorar el proceso de registro de los números de
cuenta?
16.12 La gerente de una oficina regional de una compafüa telefónica local tiene
como una de sus responsabilidades la tarea de procesar las peticiones de
instalación del servicio, de cambio o de cancelaciones del mismo. Un equipo
de mejora del servicio decidió revisar las correcciones hechas a los pedidos en
términos del equipo de la oficina central y las instalaciones requeridas para
procesar los pedidos que fueron hechos para la solicitud de servicio. Los datos
recabados durante un periodo de 30 días se presentan a continuación:

Número de Número de Número de Número de


Día pedidos correcciones Día pedidos correcciones
1 690 80 16 831 91
2 676 88 17 816 80
3 896 74 18 701 96
4 707 94 19 761 78
5 694 70 20 851 85
6 765 95 21 678 65
7 788 73 22 915 74
8 794 103 23 698 68
9 694 100 24 821 72
10 784 103 25 750 101
11 812 70 26 600 91
12 759 83 27 744 64
13 781 64 28 698 67
14 682 64 29 820 105
15 802 72 30 732 112

(a) Construya un diagrama p para la porción de correcciones. ¿El proceso


muestra alguna sefial de que esté fuera de control?
(b) ¿Qué haría usted, como gerente, para mejorar el proceso de peticiones de
cambio en el servicio telefónico?

lt.J) Experimento de la cuenta roja: comprensión


de la variabilidad del proceso
Empezamos el presente capítulo con un repaso de la historia de la calidad y de la
productividad, y más adelante desarrollamos los conceptos de causas comunes y
causas especiales de la variación que nos llevaron al análisis de los 14 puntos de
Deming. Estudiamos las importantes herramientas de planeación administrativa
que son los diagramas de esqueleto de pescado y el de flujo de proceso, para enten-
der un proceso, y, hasta este punto, hemos visto los procedimientos para construir
diagramas p y np. En la presente sección, con el propósito de mejorar nuestro
entendimiento de estos dos tipos de variación, analizaremos lo que se ha conver-
tido en una famosa parábola, el experimento de la cuenta roja.

684 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


El experimento implica la selección de cuentas tomadas de una caja que nor-
malmente contiene 4,000 cuentas. 5 Se pueden utilizar diferentes argumentos para
efectuar el experimento. El que utilizaremos en este caso inicia con lo siguiente:
Un facilitador (que desempeñará el papel de conductor) pide a la audiencia
voluntarios para realizar la tarea de trabajadores (se necesitan al menos cuatro),
inspectores (son necesarios dos), inspector jefe (se necesita uno) y secretario (se
necesita uno). La tarea de un trabajador consiste en utilizar una paleta, que posee
cinco hileras de diez agujeros de tamaño correspondiente a una cuenta, para selec-
cionar 50 cuentas de la caja.
Una vez que los participantes han sido seleccionados, el conductor les explica
las tareas que tienen que realizar. La tarea de los trabajadores consiste en sacar
cuentas blancas, pues las cuentas rojas no son aceptadas por los clientes. Se deben
seguir procedimientos estrictos. Las normas de trabajo establecen la producción de
50 cuentas por cada trabajador (un sistema estricto de cuotas), ni más ni menos. La
administración ha implantado una norma que establece que no se deben producir
más de dos cuentas rojas por trabajador en cualquier día dado. El trabajador intro-
duce la paleta en la caja de cuentas, de modo que cuando la retira, cada uno de los
cincuenta hoyos contiene una cuenta. Cuando ya se hizo lo anterior, la paleta es
revisada por los dos inspectores, quienes, de manera independiente, registran el
número de cuentas rojas. El inspector jefe compara los registros y anuncia los resul-
tados a la audiencia. El secretario apunta el número de cuentas rojas junto al nom-
bre de cada trabajador.
Ya que la gente conoce su trabajo, la "producción" puede empezar. Suponga
que durante el primer "día" el número de cuentas rojas "producidas" por los cua-
tro trabajadores (llamémosles Alyson, David, Peter y Sharyn) fue de 9, 12, 13 y 7,
respectivamente. ¿De qué manera debería reaccionar el administrador en relación
a la producción diaria cuando la norma establece que no más de dos cuentas rojas
deben producirse por día? ¿Se debería reprimir a todos los trabajadores o sólo
David y Peter deberían recibir una aguda advertencia de que serán despedidos si no
mejoran su desempeño?
Suponga que la producción continúa durante dos días más y los resultados son
los que resumimos en la tabla 16.3.

Tabla 16.J Resultados del experimento de cuentas


rojas para cuatro trabajadores en tres días.
Día
Nombre 1 2 3 Los 3 días
Alyson 9 11 6 26
David 12 12 8 32
Peter 13 6 12 31
Sharyn 7 9 8 24
Todos los trabajadores 41 38 34 iT3
Promedio (X) 10.25 9.5 8.5 9.42

De la tabla 16.3 podemos observar varios fenómenos. En cada día, algunos de los
trabajadores estuvieron por arriba del promedio de cuentas rojas y otros por debajo.
En el primer día Sharyn fue la mejor, pero en el segundo día Peter (quien tuvo el peor
desempeño el día anterior) fue el mejor, y Alyson fue la mejor el tercer día.
¿De qué manera podemos explicar toda esta variación? Se puede obtener una
respuesta si utilizamos la ecuación (16.4) para desarrollar un diagrama np. Para
estos datos tenemos
k
k = 4 trabajadores x 3 días = 12, n = SO y LX;
i=l
113

Experimento de la cuenta roja: comprensión de la variabilidad del proceso 685


Por consiguiente,

x= 113 = 9.42 Y p =
12
113
(50)(12)
= .1883

así tenemos que

X ± 3~X(l -P)
9.42 ± 3~(9.42)(1 - .1883)

9.42 ± 8.30

Así pues,
UCL = 9.42 + 8.30 = 17.72
y
LCL = 9.42 - 8.30 = 1.12

En la figura 16.14 se representa el diagrama de control np correspondiente a los


datos de la tabla 16.2. Observamos de esta figura que todos los puntos se encuen-
tran dentro de los límites de control y que no existen patrones en los resultados.
Las diferencias entre los trabajadores representan exclusivamente una variación de
causas comunes inherente al sistema estable.

··'.·

o..._~ ......
_.,.--~.,,-~--.,._--.,.___.~__,...___, __ ~..._~--~--~_._~

Alyson ' 1 ,. ., Peter 1 · Alyson ·· I ' Peter · 1 Alyson 1:. Páter" 1


David Sharyn David· Sharyn David Sharyn
··.; ;'., .,\

Figura 1CS.14
Diagrama np para el experimento de las cuentas rojas.

En conclusión, se tienen cuatro moralejas para la parábola de las cuentas rojas:


l. La variación es una parte inherente de cualquier proceso.
2. Los trabajadores laboran dentro de un sistema sobre el cual tienen poco
control. Es el sistema el que determina principalmente su desempeño.
3. Solamente la administración puede cambiar el sistema.

C58C5 Capitulo 1C5 Aplicaciones estadísticas en administración de la calidad y productividad


4. Algunos trabajadores estarán siempre por arriba del promedio y otros
por debajo del promedio.

Problemas de la sección 16. 7


16.13 ¿De qué manera piensa usted que muchos administradores hubieran
reaccionado con los resultados del primer día?, ¿del segundo?, ¿del tercero?
16.14 (Proyecto de clase) Obtenga una versión del experimento de las cuentas
rojas para efectuarlo en su clase.
(a) Lleve a cabo el experimento del mismo modo que se describió en la sec-
ción 16.7.
(b) Retire 400 cuentas rojas de la caja antes de empezar el experimento. ¿De
qué manera difieren los resultados de los obtenidos en el inciso (a)? ¿Qué
le dice esto sobre el efecto del "sistema" sobre los trabajadores?

1f.!:i El diagrama e: un diagrama de control para el


número de casos por unidad
En la sección 16.6 estudiamos el diagrama p para la porción de elementos que no
cumplen con cierta especificación y el diagrama np para el número de elementos
que no cumplen. En otras circunstancias podemos estar interesados en determinar
el número de elementos que no cumplen con cierta especificación (casos) dentro
de una unidad (a menudo conocida corno área de oportunidad) en la que el
tamaño del subgrupo es muy grande y la probabilidad de que se presente un ele-
mento que no cumpla en cualquier parte de la unidad es muy pequeña. Este
enfoque difiere de los diagramas p y np en que no estamos clasificando cada unidad
como sí cumple o no cumple, sino que estamos contando el número de casos en
una unidad.
Podemos recordar, de la sección 7.6, que esta situación se adapta a las suposi-
ciones de una distribución de Poisson. Entre los fenómenos que podrían ser
descritos por este proceso estaría el número de defectos que hay en un pie
cuadrado de alfombra, el número de errores tipográficos en una página impresa, el
número de interrupciones de sistema por día en un centro académico de cómputo
y el número de "cambios" por juego que hace un equipo de basquetbol.
En la sección 7.6 definimos, para la distribución de Poisson, la desviación
estándar del número como la raíz cuadrada del número promedio de (A.).
Suponiendo que el tamaño de cada unidad de subgrupo permanece constante, 6
podemos establecer los límites de control para el número de casos por unidad, uti-
lizando la aproximación normal a la distribución de Poisson. Empleando la
ecuación (16.1), los límites· de control para el número promedio de casos sería

•1'', •.•' 1''"'''"1'.' ......,(l6.6)· '

de modo que

LCL =e--: 3./f (16.7a) .

uci :.~ ci+ 3¡l' (16.7b)

El diagrama e un diagrama de control para el número de casos por unidad 687


en la que

k
con e = número promedio de casos
k = número de unidades muestreadas
e¡ = número de presentaciones en la unidad i
Como aplicación del diagrama e, suponga que el gerente de producción de una
pastelería grande que hace pastelillos con chispas de chocolate en forma de cala-
baza para la temporada de Halloween, necesita estudiar el proceso de horneado
para determinar el número de chispas de chocolate que se encuentran en los
pastelillos que se están horneando. Se seleccionó un subgrupo de 50 pastelillos de
la línea de producción. Los resultados, enumerados según el orden en que fueron
seleccionados, se resumen en la tabla 16.4.

Tabla 16.4 Número de chispas cie chocolate en un subgrupo de 50


pastelillos.
Número de chispas Número de chispas
Pastelillo de chocolate Pastelillo de chocolate
1 8 26 7
2 10 27 5
3 6 28 8
4 7 29 6
5 5 30 7
6 7 31 5
7 9 32 5
8 8 33 4
9 7 34 4
10 9 35 3
11 10 36 5
12 7 37 2
13 8 38 4
14 11 39 3
15 10 40 3
16 9 41 4
17 8 42 2
18 7 43 4
19 10 44 5
20 11 45 5
21 8 46 3
22 7 47 2
23 8 48 5
24 6 49 4
25 7 so 4

Para estos datos


k

k = 50 y L
·i= 1
C¡ = 312
Así pues,

e = 312
50
= 6.24

688 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


de modo que, utilizando las ecuaciones (16.6) y (16.7), tenemos

6.24 ± 3,,) 6.24


6.24 ± 7.494

Por consiguiente,

UCL = 6.24 + 7.494 = 13.734


y

LCL = 6.24 - 7.494, de manera que el LCL no existe.

El diagrama de control correspondiente a los datos de la tabla 16.4 se muestra


en la figura 16.15. Un examen de esta figura no nos indica que haya ningún punto
fuera de los límites de control. Sin embargo, durante cierto tiempo, existe un claro
patrón del número de chispas de chocolate por pastelillo, en el que los horneados
durante la primera mitad de la secuencia casi siempre tienen un número mayor
de chispas de chocolate que el promedio, y los horneados durante la segunda
parte de la secuencia tienen menos chispas que el número promedio de éstas. Por
consiguiente, el gerente de producción debería investigar inmediatamente el
proceso para determinar las causas especiales que han producido el patrón de
variación. El mejor punto para empezar sería preguntar a los trabajadores de la
línea de producción.

14 UCL
-~----------~-~~---~~~------~7~-------~-~~

12 1., ' . . ~~ ·.. \: 1 1. ,
dl
11
1
ti
10
9
Q)
'C B
"'"'
Q.
7 't,. J
.!!!
.&:.
o 6
dl
'C
5
e
Q)
E 4
-::i
z 3
2

o 10 45
5 15 20 25 30·•;:,:· 35 40 50
Orden cronológico :t

Figura 16.15
Diagrama e para el número de chispas de chocolate por pastelillo.

Problemas de la sección 16.8


• 16.15 Al dueño de una tintorería de lavado en seco, en un esfuerzo por medir la
calidad de los servicios prestados, le gustaría estudiar el número de prendas
lavadas en seco que son regresadas diariamente por no estar bien limpias. Se

El diagrama e: un diagrama de control para el número de casos por unidad 689


tienen registros correspondientes a un periodo de cuatro semanas (la tintorería
abre de lunes a sábado) y los resultados se presentan a continuación:

Elementos regresados Elementos regresados


Día para volverse a trabajar Día para volverse a trabajar
1 4 13 5
2 6 14 8
3 3 15 3
4 7 16 4
5 6 17 10
6 8 18 9
7 6 19 6
8 4 20 5
9 8 21 8
10 6 22 6
11 5 23 7
12 12 24 9

(a) Construya un diagrama e para el número de prendas por día que son
regresadas para volverse a limpiar. ¿Usted cree que el proceso se encuentra
en un estado de control estadístico?
(b) Debería el dueño de la tintorería tomar medidas para investigar por qué
doce prendas fueron regresadas para volverse a lavar el día 12? Explique su
respuesta. ¿Su respuesta sería la misma si se hubieran devuelto 20 prendas el
día 12?
ff (c) Sobre la base de los resultados del inciso (a), ¿qué debería hacer el dueño
de la tintorería para establec;:er un proceso que redujera el número de
prendas diarias que son regresadas para volverse a lavar?
16.16 El gerente de una sucursal de un banco de ahorro ha registrado el número de
errores de un tipo en particular que cometieron cada uno de los doce cajeros
durante el año pasado. Los resultados son los siguientes:

Cajero Número de errores


Ali ce 4
Carl 7
Gina 12
Jane 6
Linda 2
Maria 5
Mitchell 6
Nora 3
Paul 5
Susan 4
Thomas 7
Vera 5

(a) ¿Cree usted que el gerente del banco deberá elegir a Gina para tomar con
ella alguna medida disciplinaria debido a su desempeño durante el año
anterior?
(b) Construya un diagrama e para el número de errores cometidos por los
doce cajeros. ¿Se encuentra el número de errores en un estado de control
estadístico?
(c) Basándose en el diagrama e construido en el inciso (b), ¿cree usted que
Gina debería ser llamada para tomar con ella alguna medida disciplinaria
debido a su desempeño? ¿Su conclusión ahora concuerda con lo que
usted esperaba que hiciera el gerente?

690 Capítulo 16 Aplicaciones estadisticas en administración de la calidad y productividad


'f (d) Sobre la base de los resultados obtenidos en el inciso (b), ¿de qué manera
debería proceder el gerente del banco para establecer un programa a fin de
reducir este tipo particular de error?
16.17 Las caídas son una causa de heridas que ocurren en los hospitales y que se
pueden prevenir. A pesar de que la mayoría de los pacientes que se caen no se
dañan, siempre está presente el riesgo de sufrir lesiones graves. Los datos
siguientes representan el número de caídas sufridas por pacientes al mes
durante un periodo de 28 meses en una unidad de 19 camas destinadas a
enfermos de SIDA de un hospital metropolitano.

Mes Número de caídas Mes Número de caídas


1 2 15 6
2 4 16 5
3 2 17 3
4 4 18 8
5 3 19 6
6 3 20 3
7 1 21 9
8 4 22 4
9 5 23 5
10 11 24 o
11 8 25 2
12 7 26 6
13 9 27 5
14 10 28 7

(a) Construya un diagrama e para el número de caídas sufridas por los


pacientes al mes. ¿Está el proceso de las caídas mensuales sufridas por los
pacientes en un estado de control estadístico?
(b) ¿Qué efecto tendría sobre sus conclusiones si se entera que la unidad
había sido abierta solamente un mes antes de iniciar la recolección de
datos?
(c) ¿Qué otros factores podrían contribuir a la variación debida a causas espe-
ciales en este problema?
16.18 El director de operaciones de una aerolínea está interesado en estudiar el
número de piezas de equipaje que se pierden (temporal o permanentemente)
en un aeropuerto grande. Los registros que indican el número de reclamos de
pérdida de equipaje hechas por día durante un periodo de un mes se presentan
a continuación:

Día Número de quejas Día Número de quejas


1 14 16 28
2 23 17 20
3 17 18 13
4 25 19 26
5 27 20 42
6 42 21 38
7 35 22 23
8 29 23 28
9 30 24 19
10 23 25 26
11 15 26 14
12 27 27 30
13 41 28 37
14 50 29 17
15 23 30 24

(a) Construya un diagrama de control para el número de reclamos por día.


¿Está el proceso en un estado de control estadístico? Explique su respuesta.

El diagrama. e: un diagrama de control para el número de ca.sos por unidad 691


\f (b) Suponga que el número total de piezas de equipaje por día está disponible
durante el periodo de 30 días. Explique qué podría hacer con un diagrama
de control diferente al que utilizó en el inciso (a). Indique cuáles podrían
ser las ventajas de utilizar este diagrama de control alternativo en
comparación con el diagrama utilizado en el inciso (a).
16.19 La Universidad del Sureste de Carolina del Norte recientemente ha terminado
su temporada de basquetbol. El entrenador del equipo, el legendario Raving
Rick Rawng, posee registros del número de vueltas (las veces que el balón pasa
al contrario sin que se haya hecho un tiro) por juego. Los resultados son los
siguientes:

Juego Número de vueltas Juego Número de vueltas


1 16 14 18
2 12 15 26
3 25 16 14
4 17 17 12
5 11 18 16
6 19 19 29
7 17 20 11
8 23 21 7
9 12 22 15
10 9 23 12
11 13 24 17
12 16 25 22
13 21 26 14

(a) Construya un diagrama e para el número de vueltas por juego. ¿Está el


proceso en un estado de control estadístico?
~ (b) Sobre la base de los resultados obtenidos en el inciso (a), ¿qué debería
hacer el entrenador para establecer un proceso que reduzca el número de
vueltas en el futuro?

i (.,.) Diagramas de control para la media (X)


y el intervalo (R)

16.9. 1 Introducción
Siempre que una característica de interés es medida en una escala de intervalo o de
cociente, se pueden utilizar diagramas de control de variables para revisar un
proceso. Debido a que las mediciones provenientes de estas escalas más poderosas
proporcionan más información que la porción o el número de elementos que no
cumplen con cierta especificación, estos diagramas son más sensibles para la detec-
ción de la variación por causas especiales que los diagramas p, np o c. Típicamente,
los diagramas de variables son utilizados en parejas. Un diagrama revisa la
variación de un proceso, mientras que el otro revisa el promedio del proceso. El
diagrama que revisa la variabilidad debe ser examinado primero, debido a que si
indica la presencia de condiciones fuera de control, la interpretación del diagrama
correspondiente al promedio estará falseada. A pesar que varias parejas alternati-
vas de diagramas pueden tomarse en cuenta (véanse referencias 8, 13, 17 y 19) en
el presente texto, estudiaremos el diagrama de control para el alcance y el diagrama
de control para el promedio~

692 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


16.9.2. El diagrama R: un diagrama de control
para la dispersión
Antes de obtener los límites de control para la media, necesitamos desarrollar un
diagrama de control para el alcance. Esto nos permitirá determinar si la variabili-
dad de un proceso está bajo control o si se están presentando corrimientos en el
tiempo. Si el alcance del proceso está bajo control, entonces se le puede utilizar
para desarrollar los límites de control para el promedio.
De la ecuación (16.1), observamos que para obtener los límites de control
correspondientes al alcance necesitamos obtener una estimación del alcance
promedio y de su desviación estándar. Como se ve en la ecuación (16.8), estos
límites de control no solamente son función del factor d2 , que representa la
relación entre la desviación estándar y el alcance para tamañ.os de muestra varia-
bles, sino que también dependen del factor d3 , que representa la relación entre la
desviación estándar y la desviación estándar del alcance para tamañ.os de muestra
variables. Los valores de estos factores se presentan en la tabla E.13. Por lo tanto,
podemos establecer los siguientes límites de control para el alcance sobre k secuen-
cias consecutivas de periodos.

·.:-·,, . . 17 ,· ,'.',;' .. ,· ;.; (16.SJ

de modo que

'·"\} .

.., ·: .· (16.9a)
¡',l ,·

en las que

i=l

Refiriéndonos a las ecuaciones (16.9a) y (16.9b), podemos simplificar los cálculos


mediante el uso del factor D3, igual a 1 - 3(d3/d2), y del factor D4, igual a 1 +
3(d3 /d2), para obtener los límites de control como se muestra en las ecuaciones
(16.lOa) y (16.lOb). .

Diagramas de control para la media (X) y el intervalo (R) 693


Para ilustrar la aplicación del diagrama R, refirámonos al siguiente ejemplo.
Suponga que el administrador del hotel que analizamos en la sección 16.6 también
desea estudiar el proceso de registro de huéspedes. En particular, desea estudiar la
cantidad de tiempo que lleva la entrega del equipaje (medido desde el momento
en que el huésped termina de registrarse y el momento en que el equipaje es
depositado en su cuarto). Se registraron los datos durante un periodo de cuatro
semanas (de domingo a sábado) y se seleccionaron para análisis subgrupos de
cinco entregas (en un turno) en cada día. Los resultados sumarios (en minutos) se
presentan en la tabla 16.5.

Tabla 1e.s Promedio y alcance de subgrupo para los tiempos de entrega durante
un periodo de cuatro semanas.
Promedio de Alcance de Promedio de Alcance de
subgrupo, X1 subgrupoR; subgrupo, X; subgrupoR1
Día (en minutos) (en minutos) Día (en minutos) (en minutos)
1 5.32 3.85 15 5.21 3.26
2 6.59 4.27 16 4.68 2.92
3 4.88 3.28 17 5.32 3.37
4 5.70 2.99 18 4.90 3.55
5 4.07 3.61 19 4.44 3.73
6 7.34 5.04 20 5.80 3.86
7 6.79 4.22 21 5.61 3.65
8 4.93 3.69 22 4.77 3.38
9 5.01 3.33 23 4.37 3.02
10 3.92 2.96 24 4.79 3.80
11 5.66 3.77 25 5.03 4.11
12 4.98 3.09 26 5.11 3.75
13 6.83 5.21 27 6.94 4.57
14 5.27 3.84 28 5.71 4.29

Para estos datos


k
k=28 y LR¡
1=1
=104.41

Por lo tanto,

ii = 104.41 = 3.729
28

De la tabla E.13 paran= 5, obtenemos d2 = 2.326 y d3 =.864. Utilizando las ecua-


ciones (16.8) y (16.9), obtenemos:

C5t4 Capitulo IC5 Aplicaciones estadlsticas en administración de la calidad y productividad


3.729 ± 3 (.864)(3.729)
2.326
3.729 ± 4.155

de modo que

UCL = 3.729 + 4.155 = 7.884

LCL = 3.729 - 4.155 de manera que el LCL no existe.

Alternativamente, utilizando la ecuación (16.10), de la tabla E.13, D3 =O y D4 =


2.114. Por consiguiente,

ljCL = (2.114) (3.729) = 7.883


y

LCL no existe.

Observamos que el límite de control inferior (LCL) para R no existe puesto que
es imposible tener un alcance negativo. El diagrama R se muestra en la figura 16.16.
Un examen de esta figura no indica que haya ningún alcance individual fuera de
los límites de control.

a ------~-~-----------------------------~~~--v~
7

6.

·. ' o................,...."'""""...................~'+-"'...,.,........._.__................_ __.,.,...................""'""'........_._.......""'+.'.,......,..


2 4. ~ 8 ' \~ ' 12 ' ' 14 16' 18' ' ·.¿o· ' 24 26' 28
. , Dfa·· ' ' .

Figura 16. 16
Diagrama R para los tiempos de entrega del equipaje.
Fuente: Tabla 16.S.

16.9.3 El diagrama X
Ahora que hemos determinado que el diagrama de control para el alcance está bajo
control, podemos continuar examinando el diagrama de control del promedio del
proceso.

Diagramas de control para la media (X) y el intervalo (R) 695


El diagrama de control para X utiliza subgrupos de tamaño n que se obtienen
sobre k secuencias consecutivas o periodos. De la ecuación (16.1), observamos que
para obtener los límites de control para el promedio necesitamos obtener un_E. esti-
mación del promedio de los promedios de los subgrupos (que llamaremos X) y la
desviación estándar del promedio (la cual llamamos también error estándar de
la media ax, en el capítulo 9). Estos límites de control son función del factor d2 ,
que representa la relación entre la desviación estándar y el alcance para tamaños
de muestra variables. El alcance puede utilizarse para estimar la desviación están-
dar siempre y cuando el tamaño del subgrupo no sea mayor que diez (véanse ref-
erencias 13, 17 y 19). Por consiguiente, podemos establecer los siguientes límites
de control:

(16.11)

en la que

en la que X¡ = la media de muestra de n observaciones al tiempo i


R¡ = el alcance de n observaciones al tiempo i
k = número de subgrupos
de modo que

LCL=X :3~ (16.12a)


. :·''' . dz{ñ
.
,UCL =A~ R.
+ 3.-.·-'- (lí$.12b)
dz{ñ

Refiriéndonos a las ecuaciones (16.12a) y (16.12b), podemos simplificar los cálcu-


los utilizando el factor A 2 , igual a 3/(d2 .fn ), para obtener los límites de control
como se muestran en las ecuaciones (16.13a) y (16.13b).

LCL =X - A 2 R (16.13a)

UCL ;, X + A 2 R \_(1~.l~l>)

Por consiguiente, regresando a nuestro ejemplo concerniente a los tiempos de


entrega de equipaje en el hotel, de la tabla 16.5 podemos calcular

696 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


k k
k = 28 LX
i=l
i = 149.97 LR¡ = 104.41
i=l

de modo que

X = 149.97 = 5.356 y R= 104 .4 1 = 3.729


28 28

De la tabla E.13 para n = 5, obtenemos d 2 = 2.326. Así pues, utilizando la ecuación


(16.12) tenemos

5.356 ± 3 3 · 729
(2.326).[5
5.356 ± 2.151

Por lo tanto
LCL = 5.356 - 2.151=3.205

y
UCL = 5.356 + 2.151 = 7.507
Alternativamente, usando la ecuación (16.13), de la tabla E.13, A 2 = .557 y

LCL = 5.356 - (.577)(3.729) = 5.356 - 2.152 = 3.204


UCL = 5.356 + (.577)(3.729) = 5.356 + 2.152 = 7.508

Estos resultados son los mismos, excepto por el error de redondeo.

• ' '. . UCL


~5 -------~------~~---7-------------~-----~-~-
i, .
1.'o

::",:
.

4 ,.,; 'f'',;"
24 26 28
) ·.\

Figura 1!-17
Diagrama X para el tiempo promedio de entrega de equipaje. Fuente: Tabla 16.5.

Diagramas de control para la media (X) y el intervalo (R) 097


El diagrama de control para los datos de la tabla 16.S se muestran en la figura
16.17 al final de la página 697. Un examen de esta figura no revela ningún punto
fuera de los límites de control, a pesar de que se tiene una gran cantidad de varia-
bilidad entre las 28 medias de subgrupo. Sin embargo, una evaluación más deta-
llada parece indicar que existe una serie de seis puntos consecutivos y una serie de
cinco puntos consecutivos que se encuentran por debajo del promedio total.
Puesto que esto se presentó en los días 14 a 19 y 22 a 26, que corresponden a
sábado-jueves y domingo-jueves, parece ser que es necesario hacer un estudio más
detallado para determinar si se tiene un sistema diferente de entrega durante los
periodos de media semana y de fin de semana. Por ejemplo, la porción de cuartos
ocupados puede variar o el número de trabajadores disponibles puede variar
durante estos periodos. Después de la conclusión de este estudio, cualquier mejora
en los tiempos de entrega tendría que ser propiciada por cambios en la adminis-
tración del servicio de entrega.

Problemas de la sección 16. 9


16.20 Los siguientes datos, pertenecientes a las bombillas de luz incandescente,
representan la vida promedio y el alcance de 30 subgrupos de cinco bombillas
de luz cada uno.

Número de Media de Alcance de Número de Media de Alcance de


subgrupo subgrupo, X¡ subgrupo, R¡ subgrupo subgrupo, X¡ subgrupo, R¡
1 790 52 16 845 42
2 845 56 17 891 38
3 857 116 18 859 65
4 846 89 19 826 70
5 843 65 20 828 37
6 877 73 21 854 52
7 861 38 22 847 49
8 891 84 23 868 40
9 866 76 24 851 43
10 816 72 25 870 64
11 806 61 26 857 53
12 835 55 27 851 59
13 797 59 28 834 68
14 803 47 29 842 57
. 15 818 69 30 825 74

(a) Construya un diagrama de control para el alcance.


(b) Construya un diagrama de control para la vida promedio de las bombillas
de luz.
(c) Sobre la base de los resultados obtenidos en los incisos (a) y (b), ¿a qué
conclusiones puede usted llegar respecto al proceso?
16.21 El gerente de una sucursal bancaria desea estudiar los tiempos de espera de los
clientes para recibir el servicio por parte de los cajeros durante la hora pico del
almuerzo comprendida entre las 12:00 y 13:00 horas. Se seleccionó un sub-
grupo de cuatro clientes (uno en cada intervalo de 15 minutos durante la
hora) y se midió el tiempo en minutos desde el momento en que cada cliente
se formó en la fila hasta el momento en que empezó a ser atendido por el
cajero. Los resultados correspondientes a un periodo de cuatro semanas se pre-
sentan a continuación:

698 Capitulo 16 Aplicaciones estadísticas en administración de la calidad y productiYidad


Día Tiempo en minutos
1 7.2 8.4 7.9 4.9
2 5.6 8.7 3.3 4.2
3 5.5 7.3 3.2 6.0
4 4.4 8.0 5.4 7.4
5 9.7 4.6 4.8 5.8
6 8.3 8.9 9.1. 6.2
7 4.7 6.6 5.3 5.8
8 8.8 5.5 8.4 6.9
9 5.7 4.7 4.1 4.6
10 1.7 4.0 3.0 5.2
11 2.6 3.9 5.2 4.8
12 4.6 2.7 6.3 3.4
13 4.9 6.2 7.8 8.7
14 7.1 6.3 8.2 5.5
15 7.1 5.8 6.9 7.0
16 6.7 6.9 7.0 9.4
17 5.5 6.3 3.2 4.9
18 4.9 5.1 3.2 7.6
19 7.2 8.0 4.1 5.9
20 6.1 3.4 7.2 5.9

(a) Construya los diagramas de control para la media aritmética y el alcance.


(b) Sobre la base de los resultados obtenidos en el inciso (a), indique si el
proceso está bajo control.

• 16.22 El administrador de un almacén de una compañía de teléfonos local se


encuentra involucrado en un importante proceso que consiste en recibir
costosos tableros de circuitos y regresados al almacén central, de modo que
puedan ser utilizados más adelante cuando se necesite un nuevo circuito o la
instalación de un nuevo teléfono. El regreso y el procesamiento de tales
unidades a tiempo son de vital importancia para proporcionar un buen
servicio a los clientes del campo y para reducir los gastos de capital de la
empresa. Los siguientes datos representan el número de unidades manejadas
por cada uno de los subgrupos de cinco empleados durante un periodo de
30 días.

Empleado
Día 1 2 3 4 5
1 114 499 106 342 55
2 219 319 162 44 87
3 64 302 38 83 93
4 258 110 98 78 154
5 127 140 298 518 275
6 151 176 188 268 77
7 24 183 202 81 104
8 41 249 342 338 69
9 93 189 209 444 151
10 111 207 143 318 129
11 205 281 250 468 79
12 121 261 183 606 287
13 225 83 198 223 180
14 235 439 102 330 190
15 91 32 190 70 150
(Continúa en la página siguiente)

Diagramas de control para la media (X) y el intervalo (R) 699


(Continúa de la página anterior)
Empleado
Día 1 2 3 4 s
16 181 191 182 444 124
17 52 190 310 245 156
18 90 538 277 308 171
19 78 587 147 172 299
20 45 265 126 137 151
21 410 227 179 298 342
22 68 375 195 67 72
23 140 266 157 92 140
24 145 170 231 60 191
25 129 74 148 119 139
26 143 384 263 147 131
27 86 229 474 181 40
28 164 313 295 297 280
29 257 310 217 152 351
30 106 134 175 153 69

(a) Construya diagramas de control para la media aritmética y el alcance.


(b) Sobre la base de los resultados obtenidos en el inciso (a), indique si el
proceso está bajo control.

• 16.23 El administrador de servicios de una agencia grande de automóviles desea


estudiar la cantidad de tiempo requerido para efectuar un tipo particular de
reparación en su taller mecánico. Cada día se seleccionó un subgrupo de diez
automóviles que necesitaban ese tipo de reparación durante un periodo de
cuatro semanas. Los resultados (tiempo de servicio en horas) se registraron en
la tabla siguiente:

Promedio de Alcance de Promedio de Alcance de


Día subgrupoX¡ subgrupo R¡ Día subgrupoX¡ subgrupoR¡
1 3.73 5.23 11 3.64 5.37
2 3.16 4.82 12 3.27 4.42
3 3.56 4.98 13 3.16 4.85
4 3.01 4.28 14 3.39 4.44
5 3.87 5.74 15 3.85 5.06
6 3.90 5.42 16 3.90 4.99
7 3.54 4.08 17 3.72 4.67
8 3.32 4.55 18 3.51 4.37
9 3.29 4.48 19 3.34 4.53
10 3.83 5.09 20 3.99 5.28

(a) Construya los diagramas de control adecuados y determine si el proceso


de tiempo de servicio se encuentra en un estado de control estadístico.
(b) Si el administrador de servicio desea desarrollar un proceso para reducir el
tiempo de servicio ¿qué tendría que hacer?
16.24 El gerente de un balneario revisa el nivel del pH (alcalinidad-acidez) de las
albercas tomando mediciones cada hora desde las 8:00 hasta las 18:00 horas,
diariamente. Los resultados correspondientes a un periodo de tres semanas,
registrados diariamente, se presentan en la siguiente tabla:

700 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


Día Promedio X¡ Alcance R¡ Día Promedio X; Alcance R¡
1 7.34 0.16 12 7.39 0.16
2 7.41 0.12 13 . 7.40 0.18
3 7.30 0.11 14 7.35 0.17
4 7.28 0.19 15 7.39 0.22
5 7.23 0.17 16 7.42 0.20
6 7.30 0.20 17 7.40 0.18
7 7.35 0.15 18 7.37 0.18
8 7.38 0.19 19 7.41 0.22
9 7.32 0.14 20 7.36 0.15
10 7.38 0.19 21 7.40 0.12
11 7.43 0.23

(a) Construya un diagrama de control para el alcance.


(b) Construya un diagrama de control para el nivel del pH promedio diario.
(c) Sobre la base de los resultados obtenidos en los incisos (a) y (b), ¿a qué
conclusiones puede llegar respecto al proceso?

i f.j (,) Diagramas de control para valores


individuales (diagrama X)
En algunas circunstancias no es factible obtener los datos de las muestras o de los
subgrupos de más de un elemento. Situaciones como éstas requieren un valor in-
dividual o un diagrama X. Cuando solamente se tiene disponible un solo valor indi-
vidual, podemos considerar cada elemento como su propio subgrupo. Sin embargo,
a diferencia del caso del diagrama X, no podemos obtener una estimación de la
variación dentro del subgrupo pues cada subgrupo es de tamaño n = 1. En tales situa-
ciones podemos estimar la desviación estándar mediante el uso del alcance móvil. 7
El alcance móvil se define como la diferencia entre las observaciones
más grande y más pequeña en un subconjunto den observaciones.
Puesto que es más común utilizar subconjuntos de dos observaciones, el í-ésimo
alcance móvil (MR;) puede definirse como en la ecuación (16.14).

'
'l ,.
''',, (16.14)

en la que n = número de observaciones en cada subconjunto


k = número de observaciones

Esto produce (k - 1) alcances móviles de los cuales el alcance móvil promedio (MR)
se calcula con la ecuación (16.15)

k-1
,¿MR¡
i=l (16.15)
MR=.k-1

Diagramas de control para valores individuales (diagrama X) 701


De la ecuación (16.1) observamos que para obtener los límites de control para
el valor individual necesitamos primero obtener una estimación del promedio y de
la desviación estándar. Puesto que la relación del alcance con la desviación están-
dar varía con el tamaño de la muestra, cuando el alcance móvil es utilizado como
una estimación de la desviación estándar del proceso, se utiliza un factor, conocido
como d 2 , que refleja esta relación, para desarrollar los límites de control. El factor
d2 se obtiene de la tabla E.13 de la página E32. Los límites de control para el valor
individual son:

X ±J~R .. . ,;··
(16d6)
2

de modo que

• • t •

~ .1

.. ,, .. ,. ''.::·. . . : . ·.· . MR .
...UCL
·. : ...... + 3-.:
=X ······ , dz ..,•:.. : ,·!··:
, . •, i.;

.~

De la tabla E.13, para subgrupos de tamaño n = 2, el factor d 2 es de 1.128.


Podemos simplificar los cálculos utilizando el factor E2 , igual a 3/dz,para
obtener los límites de control como se muestran en la ecuación (16.18).

., " ":' j',''• •

: .
. , 1·
' ;(i6.l,8)
',' 1¡·' 1 '''

Con el fin de ilustrar este diagrama de control de valor individual, regr~semos


a un ejemplo que implica las cuentas por cobrar de un distribuidor de equipo de
cómputo durante un periodo de 30 días. Estos datos se resumen en la tabla 16.6.
Con el fin de desarrollar los límites de control de acuerdo con las ecuaciones
(16.14) a (16.17), primero necesitamos obtener el alcance móvil. Tales cálculos
correspondientes a los datos de la tabla 16.6 se resumen en la tabla 16.7.

Así pues,

x= 650.3 = 21.677
30

MR = 22º· 5 = 7.603
29

702 Capitulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


Tabla US.6 Balance de cuentas por cobrar de un distribuidor de
equipo de cómputo durante un periodo de 30 días.
Día Por cobrar (miles de dólares) Día Por cobrar (miles de dólares)
1 33.6 16 15.5
2 18.4 17 26.5
3 10.2 18 19.1
4 16.9 19 20.3
5 35.1 20 22.2
6 25.1 21 16.3
7 16.9 22 26.1
8 13.4 23 35.1
9 23.5 24 19.2
10 29.0 25 33.3
11 20.5 26 25.7
12 25.2 27 16.5
13 18.9 28 18.8
14 19.3 29 22.0
15 12.6 30 15.1

Tabla 10.7 Cálculo de alcance móvil.


Por cobrar
(miles de dólares) Muestra Alto Bajo Alcance móvil
33.6 1 33.6 18.4 15.2
18.4 2 18.4 10.2 8.2
10.2 3 16.9 10.2 6.7
16.9 4 35.1 16.9 18.2
35.1 5 35.1 25.1 10.0
25.1 6 25.1 16.9 8.2
16.9 7 16.9 13.4 3.5
13.4 8 23.5 13.4 10.1
23.5 9 29.0 23.5 5.5
29.0 10 29.0 20.5 8.5
20.5 11. 25.2 20.5 4.7
25.2 12 25.2 18.9 6.3
18.9 13 19.3 18.9 0.4
19.3 14 19.3 12.6 6.7
12.6 15 15.5 12.6 2.9
15.5 16 26.5 15.5 11.0
26.5 17 26.5 19.1 7.4
19.1 18 20.3 19.1 1.2
20.3 19 22.2 20.3 1.9
22.2 20 22.2 16.3 5.9
16.3 21 26.1 16.3 9.8
26.1 22 35.1 26.1 9.0
35.1 23 35.1 19.2 15.9
19.2 24 33.3 19.2 14.1
33.3 25 33.3 25.7 7.6
25.7 26 25.7 16.5 9.2
16.5 27 18.8 16.5 2.3
18.8 28 22.0 18.8 3.2
22.0 29 22.0 15.1 6.9
15.1
k k-1

:Lx1
i•l
= 650.3 LMR¡ = 220.5
f=l

Diagramas de control para valores individuales (diagrama X) 70J


Utilizando las ecuaciones (16.16) y la (16.17), podemos establecer los límites de
control como

21.677 ± 3( 7.603)
1.128
21.677 ± 20.221

Por lo tanto,

LCL = 21.677 - 20.221 = 1.456

UCL = 21.677 + 20.221 = 41.898

Alternativamente, utilizando la ecuación (16.18), con E2 2.66 para n 2,


podemos tener

21.677 ± (2.66)(7.603)
21.677 ± 20.22

de modo que

LCL = 21.677 - 20.22 = 1.457

UCL = 21.677 + 20.22 = 41.897

45
UCL

..
e
.,m,
'()
35
. :•'
40 ------------------------------------~--
'• ' ' -

"D
CD
.,
"O, 30
..!!!
·e 25
.!.
~

I!! 20
.e
oo
15
&:
.;e
CD 10
::>
()

o
_ora

Figura 16. 18
Diagrama de control de variable individual para la cantidad de cuentas por cobrar.

704 Capitulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


Los resultados son los mismos, excepto por errores de redondeo.
En la figura 16.18 de la página 704 se representa el diagrama de control para
los datos de la tabla 16.6. Un examen de la figura 16.18 no revela ningún punto
por arriba del límite de control superior (UCL) o por debajo del límite de control
inferior (LCL), tampoco indica la existencia de ningún patrón temporal, pues no
hay señal de una serie de puntos consecutivos que se encuentren por encima y por
debajo de la línea central, o una serie de puntos consecutivos que aumentan o dis-
minuyen. Sin embargo, a pesar de que el proceso puede considerarse estable, pues
no hay evidencia de una variación debida a causas especiales, la existencia de una
variación alta debida a causas comunes significa que el trabajo de la adminis-
tración para mejorar el proceso de las cuentas por cobrar acaba de comenzar.
Deberían construirse diagramas de flujo de proceso y de esqueleto de pescado para
ayudarse a entender los procesos implicados con el propósito de facilitar la con-
tinua reducción de la variación de las cuentas por cobrar. Se pueden aplicar los 14
puntos de Deming para mejorar la administración de esta función de cuentas por
cobrar.

Problemas de la sección 16. I O


e 16.25 Se selecciona un subgrupo de 25 pelotas de una máquina que fabrica pelotas de
softbol durante el proceso de producción. La circunferencia (en pulgadas)
de las pelotas se registran a continuación (de izquierda a derecha).
11.965 11.983 12.058 12.080 12.080
11.985 11.981 11.927 11.969 12.017
11.955 12.012 12.019 12.035 11.983
11.956 12.031 11.969 11.998 11.996
12.008 11.975 11.972 11.989 12.052

(a) Construya un diagrama de control para la circunferencia de las pelotas.


(b) ¿Está la circunferencia de las pelotas bajo control?
16.26 Se selecciona una muestra de 50 paquetes consecutivos de sal para mesa de la
producción de una máquina de llenado. El peso (en gramos) de los paquetes se
registra a continuación en secuencia de renglón (de izquierda a derecha).

739 745 741 749 746 754 748 745 746 740
738 735 733 734 729 725 726 721 726 732
734 733 736 740 742 741 745 748 749 751
750 748 745 746 741 740 739 737 736 732
729 730 725 720 730 732 735 738 740 744

(a) Construya un diagrama de control para el peso de los paquetes.


(b) ¿Está bajo control el peso de los paquetes?
16.27 La administración de una compañ.ía que fabrica productos de joyería desea
estudiar el proceso de ingeniería de desarrollo de nuevos productos de joyería.
En particular, desea examinar el tiempo de desarrollo, definido como el
tiempo que transcurre entre el día de aprobación de un costo (el día en que el
producto está oficialmente en los planes de ventas) hasta el día de aprobación
de su producción. Se analizaron 30 productos (todos desarrollados durante el
mismo trimestre de un año en particular). Los resultados (con los productos
listados en orden secuencial según el día de aprobación de su costo) se presen-
tan a continuación:

Diagramas de control para valores individuales (diagrama X) 705


Tiempo de desarrollo Tiempo de desarrollo
Producto (días) Producto (días)
1 74 16 87
2 147 17 126
3 99 18 113
4 41 19 173
5 130 20 170
6 41 21 130
7 191 22 120
8 144 23 118
9 131 24 68
10 137 25 102
11 96 26 144
12 122 27 202
13 102 28 41
14 144 29 104
15 85 30 117

(a) Construya un diagrama de control para el tiempo de desarrollo.


(b) ¿Existe evidencia de que el tiempo de desarrollo está fuera de control?
(c) Suponiendo que todas las fuentes de variación debida a causas especiales
han sido eliminadas, ¿qué haría usted entonces, como administrador,
para reducir la cantidad de variación en el tiempo de desarrollo?
16.28 Los siguientes datos representan el uso diario de agua (1 unidad= 748 galones)
en unos bafios públicos pequefios situados en el área de San Francisco, toma-
dos durante un periodo de ocho semanas (lunes a viernes únicamente) en los
meses de septiembre y octubre de año reciente.

Día Uso de agua Día Uso de agua


1 2,503 21 2,610
2 2,668 22 2,638
3 2,725 23 2,915
4 2,638 24 2,100
5 4,453 25 3,175
6 2,739 26 2,393
7 3,307 27 2,306
8 2,984 28 2,227
9 2,759 29 2,549
10 2,633 30 2,635
11 2,468 31 2,578
12 2,592 32 2,492
13 3,700 33 2,428
14 3,152 34 2,389
15 2,305 35 3,224
16 2,302 36 2,330
17 2,504 37 2,269
18 3,310 38 2,302
19 2,483 39 2,286
20 2,224 40 2,200

(a) Construya un diagrama de control para la cantidad diaria de agua


utilizada.
(b) ¿Existe evidencia de que el uso diario de agua esté fuera de control?

706 Cap~ulo 16 Aplicaciones estadisticas en administración de la calidad y productividad


(c) Si el administrador de agua del distrito deseara estudiar las formas de
reducir tanto el uso diario de agua como su variación, ¿qué recomendaría·
usted?

Problemas intercapítulo
16.29 Refiérase a los datos sobre el largo de los pantalones vaqueros del problema
3.41 de la página 82
(a) Construya un diagrama de control para el largo de los pantalones.
(b) ¿Existe evidencia de que el largo de los pantalones esté fuera de control?
16.30 Refiérase a los datos del problema 3.42 de la página 82.
(a) Construya un diagrama de control para las pruebas de tiempo de Victor
Sternberg.
(b) ¿Piensa usted que las pruebas de tiempo están bajo control?
(c) Compare el diagrama de control obtenido en el inciso (a) con la gráfica
digipunto del problema 3.42. Explique sus hallazgos.
16.31 Refiérase a los datos del problema 3.43 de la página 82.
(a) Construya un diagrama de control de los recibos de ventas diarias.
(b) ¿Qué patrones, si existen, puede usted observar en el diagrama de
control?

1(.911 Resumen y v.isión general


Como podemos observar en el diagrama de resumen de la página 708, en el pre-
sente capítulo hemos introducido los temas de la calidad y la productividad me-
diante el análisis del planteamiento de Deming sobre la administración y mediante
el desarrollo de varios tipos diferentes de diagramas de control. Los lectores intere-
sados en el planteamiento de Deming pueden consultar las referencias 1, 4, 5, 7,
12, 14, 15, 18, 24, 27 y 28. Los lectores que se interesen en conocer más sobre
procedimientos de diagramas de control pueden consultar las referencias 8, 13, 17
y 19, En la página 660 de la sección 16.1 se presenta una lista en la que se resaltan
los puntos importantes que se analizan en el capítulo. Verifique la lista ahora para
ver si siente que tiene un entendimiento de tales puntos clave. Para estar seguro,
debe ser capaz de responder las siguientes preguntas conceptuales:

l. ¿Cuáles son las diferencias de planteamiento entre la administración


por control y la administración por proceso?
2. ¿Cuál es la diferencia entre las causas comunes de la variación y las
causas especiales?
3. ¿Qué se debe hacer para mejorar un ptoceso cuando se tienen
presentes causas especiales de variación?
4. ¿Qué se debe hacer para mejorar un proceso cuando solamente están
presentes causas comunes de variación?
5. ¿Cómo se pueden utilizar los diagramas de flujo de proceso y de
esqueleto de pescado para mejorar procesos?
6. ¿En qué circunstancias se puede utilizar el diagrama np?
7. ¿Cuál es la diferencia entre diagramas de control de atributos y
diagramas de control de variables?
8. ¿Cuál es la diferencia en las circunstancias en las que pueden usarse
los diagramas p y los diagramas e?
9. ¿Por qué se utilizan juntos los diagramas X y los de alcance?
10. ¿Qué principios aprendió usted del experimento de las cuentas rojas?

Resumen y visión general 707


Diagrama de resumen del capítulo 16

Juntando todo
TÉRMINOS CLAVE
administración de calidad total (fQM) 661 administración por proceso 661
administración por acción 661 alcance móvil 701
administración por control 661 área de oportunidad 687
administración por dirección 661 causas especiales de variación 662

708 Capitulo 16 Aplicaciones estadísticas en administración de la calidad y productividad


causas comunes de variación 662 diagramas de variables 692
ciclo de Shewhart 671 experimento de las cuentas rojas 684
diagrama e 687 factor A 2 696
diagrama R 693 'factor D 3 693
diagrama de atributos 674 factor D 4 694
diagrama de esqueleto de pescado 665 factor d 2 693
diagrama de flujo de proceso 666 factor d 3 693
diagrama de valor individual 701 factor E2 702
diagrama np 678 límite de control inferior: LCL 663
diagrama p 674 límite de control superior: UCL 663
diagrama X 695 proceso 664
diagramas de control 662 14 puntos de Deming 670

Problemas de repaso del capítulo


16.32 (a) Cada mañana durante un periodo de cuatro semanas, registre su pulso (en
pulsaciones por minuto) justo después de que se haya levantado de la
cama. Construya un diagrama de control para la rapidez de las pulsaciones
y determine si se encuentra en estado de control estadístico. Explique su
respuesta.
(b) Registre su pulso (en pulsaciones_por minuto) justo antes de que se vaya a
dormir. Construya un diagrama X y uno de alcance para la rapidez de las
pulsaciones y determine si se encuentra en estado de control estadístico.
Explique su respuesta.
(c) ¿Por qué podría usted preferir el uso de diagramas X y de alcance en el
inciso (b) en comparación con el diagrama que ha utilizado en el inciso
(a)? ¿Por qué podría usted preferir el diagrama que utilizó en el inciso (a)
en comparación con los diagramas X y de alcance del inciso (b)?
16.33 Cada día durante un periodo de cuatro semánas, registre el tiempo (en
minutos) que tarda en llegar desde su casa hasta la escuela o el trabajo: a
donde sea que se dirija. Construya un diagrama de control para este tiempo de
transporte. ¿Cree usted que su tiempo de transporte es estable o se encuentra
fuera de control estadístico? Explique su respuesta.
16.34 (Proyecto de clase) La tabla de números aleatorios (tabla E.l) puede
utilizarse para simular la selección de bolas de diferente color de una urna, de
la manera siguiente:
l. Inicie en el renglón correspondiente al día del mes en que usted nació más
el año de su nacimiento. Por ejemplo, si usted nació el día 15 de octubre de
1971, comenzará en el renglón 15+71=86. Si el total es mayor que cien,
réstele 100.
2. Se van a seleccionar números aleatorios de dos dígitos.
3. Si se selecciona el número aleatorio entre 00 y 94, considere que la bola es
blanca; si el número aleatorio está entre 95 y 99, considere que la bola es
roja.
Cada estudiante debe seleccionar 100 números aleatorios de dos dígitos e
informar el número de "bolas rojas" de la muestra. Se va a construir un dia-
grama de control del número (o de la porción) de bolas rojas obtenidas. ¿A qué
conclusiones puede llegar sobre el sistema de selección de bolas rojas? ¿Son
todos los estudiantes parte del sistema? ¿Está alguien fuera del sistema? Si ése
es el caso, ¿qué explicación puede dar para alguien que obtuvo demasiadas
bolas rojas? Si se pagara un bono al 10% de los mejores estudiantes (es decir al
10% que obtuvo el menor número de bolas rojas), ¿qué efecto tendría en el
resto de los estudiantes? Discuta con los demás sus conclusiones.

Problemas de repaso del capítulo 709


Estudio de caso G: Aplicación de TQM en un hospital
comunitario
Como jefe de operaciones de un hospi- número diario de ingresos, porción de
tal comunitario local, usted acaba de trabajos repetidos en el laboratorio
llegar de un seminario de tres días (basándose en 1,000 muestras diarias) y
sobre calidad y productividad. Usted el tiempo (en horas) que transcurre
tiene la intención de instrumentar en entre la recepción de un espécimen en
el hospital donde presta sus servicios el laboratorio y la terminación del tra-
muchas de las ideas que se vieron en el bajo (basándose en un subgrupo de 10
seminario. Ha decidido construir dia- especímenes por día). Los datos
gramas de control para el mes siguiente recolectados se resumen en la tabla
de acuerdo a las siguientes variables: 16.8.

Tabla 16.8 Datos sumarios sobre el hospital.


Tiempo
de procesamiento
Número de Porción de trabajos
Día admisiones X; R; repetidos en el laboratorio
1 27 1.72 3.57 0.048
2 36 2.03 3.98 0.052
3 23 2.18 3.54 0.047
4 28 1.90 3.49 0.046
5 19 2.53 3.99 0.039
6 22 2.26 3.34 0.086
7 18 2.11 3.36 0.051
8 30 2.35 3.52 0.043
9 33 2.06 3.39 0.046
10 35 2.01 3.24 0.040
11 29 2.13 3.62 0.045
12 28 2.18 3.37 0.036
13 22 2.31 3.97 0.048
14 26 2.37 4.06 0.057
15 32 2.78 4.27 0.052
16 30 2.12 3.21 0.046
17 28 2.27 3.48 0.041
18 27 2.49 3.62 0.032
19 27 2.32 3.19 0.042
20 18 2.43 3.67 0.053
21 19 2.25 3.10 0.041
22 25 2.31 3.58 0.037
23 23 2.07 3.26 0.039
24 28 2.33 3.40 o.oso
25 34 2.36 3.52 0.048
26 25 2.47 3.82 0.054
27 21 2.28 3.97 0.046
28 20 2.17 3.60 0.035
29 40 2.54 3.92 0.075
30 31 2.63 3.86 0.046

Usted va a hacer una presentación al adicionales para las cuales se deben cons-
director ejecutivo del hospital y al truir diagramas de control. Finalmente,
Consejo de directores. Necesita preparar tiene la intención de explicar cómo la
un informe que resuma las conclusiones filosofía de Deming sobre la adminis-
obtenidas de los análisis de los diagramas tración por proceso puede ser instrumen-
de control de estas variables. Además, se tada en el contexto de su ambiente
espera que usted recomiende variables hospitalario.

710 Capitulo 1C5 Aplicaciones estadísticas en administración de la calidad y productividad


No tas finales
1. Recordamos de la sección 8.3 que en la distribución normal, 4. En el presente capítulo utilizamos la terminología de ele-
µx ± 3crx incluye casi todas (99.73%) las observaciones de la mentos que no cumplen, mientras que en los capítulos 6 a
población. A pesar de que los cálculos utilizados en los dia- 10, cuando analizamos porciones, utilizamos la termi-
gramas de control están basados en la distribución normal, nología de éxitos.
debemos aclarar que en los estudios analíticos el concepto 5. Algo que no saben los participantes del experimento es que
de población no tiene aplicación. El sujeto de interés es un se tienen 3,ZOO cuentas blancas y 800 rojas.
proceso, no una población de la cual se extrae una muestra.
6. Si el tamaño de la unidad de muestra varía apreciablemente,
Z. Una regla se fundamenta en el concepto de corridas y está se puede utilizar el diagrama 11 en lugar del diagrama c
basada en el procedimiento de Wald-Wolfowitz analizado en (véanse referencias 8, 13, 17 y 19).
la sección lZ.6. Para un estudio más detallado de reglas adi-
cionales véase la referencia 8. 7. Cryer y Ryan (véase referencia 3) argumentan que la
desviación estándar es una mejor medida que el alcance
3. Este ejemplo estaba relacionado con el autor Brian Joiner de móvil.
la empresa Joiner Associates, quien le da el crédito a Ed
Pindy de la Philadelphia Electric Company.

Referencias
1. Aguayo, R., Dr. Deming The American Who Taught the 17. Montgomery, D. C. Jntroductia11 to Statistical Q11ality
fapanese about Q11a/íty (New York: Lyle Stuart, 1990). Control, Za ed.(Nueva York: John Wiley, 1991).
Z. Brassard, M., The Memory fogger Plus (Methuen, MA: 18. Port. O., "The push for quality", Bussines Week, 8 de
GOAL/QPC, 1989). junio, 1987, pp. 130-135.
3. Cryer, J. D., y T. P. Ryan, "The estimation of sigma for an 19. Ryan, T. P., Statistical Methods far Quality lmprovement
X chart: MR/d2 or S/c 4 ?", en foumal of Quality Technology, (Nueva York: John Wiley, 1989).
1990, Vol. 2Z, pp. 187-192. 20. Scherkenbach, W. W., The Deming Route tu Quality and
4. Deming, W. E., Out of the Crisis (Cambridge, MA: Centro Praductivity: Road Maps and Roadb/ocks (Washington,
de Estudios Avanzados en Ingeniería del MIT, 1986). D.C.: CEEP Press, 1986).
5. Deming, W. E., The New Economics far Business, lndustry, 21. Shewhart, W. A., "The applications of statistics asan
and Gavernment (Cambridge, MA: Centro de Estudios aid in maintainig quality of manufactured products",
Avanzados en Ingeniería del MIT, 1993). faurnal of the American Statistical Association, 1925,
6. Dobson, J. M., A History of American Enterprise (Englewood vol. 20, pp. 546-548.
Cliffs, NJ: Prentice-Hall, 1988). 22. Shewhart, W. A., Econumic Control of Quality of
7. Gabor, A., The Man Who Discovered Quality (New York: Manufactured Products (Nueva York: Van Nostrand
Time Books, 1990). Reinhard, 1931, reimpreso por la Sociedad
Estadounidense para el Control de la Calidad,
8. Gitlow, H., A. Oppenheim, y R. Oppenheim, Tools and Milwaukee, 1980).
Methads far the lmprovement of Qua/ity, Za ed. (Homewood,
Ill.: Richard D. Irwin, 1994). 23. Shewhart, W. A. y W. E. Deming, Statistical Metlwds
from the Viewpoint uf Quality Control (Washington,
9. Halberstam, D., The Reckoning (New York: William D.C.: Graduate School, Departamento de Agricultura,
Morrow, 1986). 1939, Dover Press, 1986).
10. Holusha, J., "The Baldridge badge of courage-and qual- 24. Sholtes, P. R., An Elaboration 011 Deming's Teaching a11
ity", New York Times, 21 de octubre, 1990, p. FlZ. Performance Appraisal (Madison, Wl: Joiner Associates,
11. Joiner, B. J., "The key role of statisticians in the transfor- 1987).
mation of North American lndustry", American 25. Skrebec, Q. R., "Ancient process control and its mod-
Statistícia11, 1985, vol. 39, pp ZZ4-234. ern implications", Quality Progress, 1990, vol. Z3, pp.
lZ. Joiner, D. J., Fourth Generation Manageme11t (Nueva York: 49-52.
McGraw-Hill, 1994) 26. Wallis, W. A., "The statistical research group 194Z-
13. Levine, D.M., P. P. Ramsey, y M. L. Berenson, Business l 945" , fournal uf the American Statistical Association,
Statistics far Quality and Productivity (Englewood Cliffs, 1980, vol 75, pp. 320-335.
N J: Prentice-Hall, 1995). 27. Walton, M., The Deming Management Method (Nueva
14. Main, J., "The curmudgeon who talks tough on quality", York: Perigee Books, Putnam Publishing Group,
Fortune, Z5 de junio, 1984, pp. 118-122. 1986).
15. Mann, N. R., The Keys to Excel/ence: The Story afthe Deming 28. Walton, M., Deming Management at Work (Nueva York:
Philosophy (Los Ángeles: Prestwick Books, 1987). G.P. Putnam, 1990).
16. The Memory fagger JI: A Pocket Cuide of Tools far Continuous
Improveme11t and Eftectíve Planning (Methuen, MA:
GOAL/QPC, 1994).

Referencias 71 1
capítulo

,. ' ,1·1ne:.al, 11mp.


::R.·. egres1on • ;Ie
1
y corre: ac1on , ·'
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar, tanto descriptiva como
inferencialmente, los modelos de
CAPÍTULO regresión lineal simple y de
correlación, como un medio de
utilizar una variable para predecir
otra, y medir la intensidad de la
asociación entre dos variables.

7U
1Q l 1ntroducción
En los capítulos anteriores hemos centrado nuestra atención principalmente en
una sola variable de respuesta numérica como el ingreso personal. Estudiamos
varias medidas de descripción estadística (véase capítulo 4) y diferentes técnicas
aplicadas de inferencia estadística para hacer estimaciones y llegar a conclu-
siones acerca de nuestra variable de respuesta numérica (véanse capítulos 10 a
14). En el presente capítulo y en el siguiente nos ocuparemos de problemas que
implican dos o más variables numéricas como un medio de considerar las rela-
ciones que existen entre ellas. Se analizarán dos técnicas, la regresión y la corre-
lación.
El análisis de regresión se utiliza principalmente con el propósito de hacer
predicciones. Nuestro objetivo en el análisis de regresión lineal es el desarrollo de
un modelo estadístico que puede ser utilizado para predecir los valores de una va-
riable de respuesta o dependiente basados en los valores de al menos una
variable independiente o explicatoria. En el presente capítulo enfocaremos
nuestra atención en un modelo de regresión simple: uno que utiliza una sola varia-
ble numérica independiente X para predecir la variable numérica dependiente Y.
En el capítulo 18 desarrollaremos un modelo de regresión múltiple: uno que uti-
. liza varias variables explicatorias (X 11 X 2 , • . • , Xp) para predecir una variable
numérica dependiente Y. 1
Refiriéndonos a nuestra Encuesta de Satisfacción de los Empleados, por ejem-
plo, suponga que a Bud Conley le gustaría desarrollar un modelo estadístico que le
pueda ayudar en la predicción del ingreso personal de los empleados de tiempo
completo de Industrias Kalosha. A pesar de que en la práctica realmente se
tomarían en consideración varias variables, parecería que el número de años de
antigüedad de los empleados de tiempo completo de la fuerza de trabajo podría ser
un pronosticador útil del ingreso personal. Para este modelo, la variable depen-
diente o de respuesta, Y (la cual se va a predecir), sería el ingreso personal, y la
variable explicatoria o independiente, X, utilizada para obtener la predicción, es el
número de años de antigüedad de los empleados de tiempo completo de la fuerza
de trabajo.
El análisis de correlación, al contrario del de regresión, se utiliza para
medir laintensidad de la asociación entre las variables numéricas. Por ejemplo, en
la sección 17.7 determinaremos la correlación entre el precio de un paquete de seis
latas de refresco y el precio del pollo en diferentes ciudades de varios países. En este
ejemplo, el objetivo no consiste en utilizar una variable para predecir otra, sino
que se trata de medir la intensidad de la asociación o de la covariación que existe
entre dos variables numéricas. Después de terminar el presente capítulo, el lector
será capaz de:
l. Interpretar los coeficientes de regresión obtenidos mediante el uso del
método de mínimos cuadrados de la regresión.
2. Interpretar los coeficientes de determinación y de correlación.
3. Diferenciar entre varias medidas de variación en el análisis de
regresión.
4. Familiarizarse con las suposiciones del análisis de regresión.
5. Utilizar el análisis residual para determinar si el modelo adecuado
ha sido ajustado a los datos.
6. Utilizar el análisis de influencia para determinar si algunas
observaciones están influyendo indebidamente el modelo de
regresión.
7. Hacer inferencias acerca de los coeficientes de regresión.
8. Hacer inferencias acerca del valor predicho de una variable de
respuesta.

714 Capitulo 17 Regresión lineal simple y correlación


1flj El diagrama de dispersión
En el presente capítulo, los métodos de los análisis de regresión y de correlación
serán aplicados a dos-problemas. En el primero, suponga que al administrador de
una cadena de almacenes departamentales le gustaría desarrollar un modelo para
predecir las ventas semanales (en miles de dólares) de cada tienda. Se seleccionó
una muestra de 20 almacenes de entre todos los que conforman la cadena. Al
desarrollar el modelo, se tomarían en consideración muchas variables expUcato-
rias. Con fines pedagógicos, empezaremos nuestro análisis con un modelo de
regresión simple en el que solamente se utiliza una variable explicatoria numérica
para predecir los valores de una variable dependiente. Así pues, desarrollaremos un
modelo para predecir las ventas semanales (la variable dependiente Y) basándonos
en el número de clientes (la variable explicatoria o independiente, X). Los resulta-
dos correspondientes a una muestra de 20 almacenes se resumen en la tabla 17.1.
Tales datos, sin embargo, pueden presentarse de una forma que es más explicable
visualmente.

Tabla 17.1 Número de clientes y


ventas semanales para una
muestra de 20 almacenes
departamentales.
Almacenes Clientes Ofertas ($000)
1 907 11.20
2 926 11.05
3 506 6.84
4 741 9.21
5 789 9.42
6 889 10.08
7 874 9.45
8 510 6.73
9 529 7.24
10 420 6.12
11 679 7.63
12 872 9.43
13 924 9.46
14 607 7.64
15 452 6.92
16 729 8.95
17 794 9.33
18 844 10.23
19 1,010 11.77
20 621 7.41

En el capítulo 3, cuando estudiamos la información concerniente a las tasas de


gastos escolares para los estudiantes texanos fuera del estado, se desarrollaron va-
rios tipos de gráficas (como histogramas, polígonos y ojivas) para la presentación
de los datos. En el análisis de regresión que implica una variable dependiente y una
variable independiente, los valores individuales se representan en una gráfica bidi-
mensional conocida como diagrama de dispersión. Cada valor es graficado en
sus coordenadas particulares, X y Y. El diagrama de dispersión correspondiente a
los datos de la tabla 17.1 se muestra en la figu°ra 17.1 página 716.
Un examen de la figura 17 .1 nos indica que existe una relación claramente cre-
ciente entre el número de clientes (X) y las ventas semanales (Y). A medida que
aumenta el número de clientes, se incrementa el volumen de ventas. La forma
matemática exacta del modelo que expresa la relación así como los métodos para

El diagrama de dispersión 71 5
12

, 1'.·

. ,,.
,.,.!.1.·' !
.•
· •. ·: ,,,1 '.,·•

••• ,, '; , -~

'"•>

'"
·•• • ; ; ·,1 ,: .)¡

600 700 aoo 900 1000


·• NúMero de cll~riies : ·•

Figura 17.1
Diagrama de dispersión de las ventas semanales y el número de clientes.
Fuente: Los datos fueron tomados de la tabla 17.1, 715.

estimar las ventas semanales para un número dado de clientes será examinada en
secciones posteriores de este capítulo.

Problemas de la sección 17.2


e 17.1 Al gerente de comercialización de una cadena grande de supermercados le
gustaría determinar el efecto del espacio en estantes sobre las ventas de comida
para mascotas. Se selecciona una muestra aleatoria de 12 supermercados de
igual tamaño y los resultados se presentan a continuación:

Problema sobre la venta de alimento para mascotas


Espacio en estante, Ventas samanales, Y
Tienda X (pies) (cientos de dólares)
1 5 1.6
2 5 2.2
3 5 1.4
4 10 1.9
5 10 2.4
6 10 2.6
7 15 2.3
8 15 2.7
9 15 2.8
10 20 2.6
11 20 2.9
12 20 3.1

Construya un diagrama de dispersión.


17.2 Durante los pasados 25 años una cadena de almacenes de descuento de ropa
para dama ha aumentado su participación en el mercado mediante el
incremento del número de sucursales de la cadena. Nunca se ha utilizado un

716 Capitulo 17 Regresión lineal simple y correlación


planteamiento sistemático de la elección del lugar; ésta se basaba principalmente
en lo que se considera ser un buen lugar o un buen arrendamiento. Este año,
con un plan estratégico para abrir varias tiendas nuevas, se le pidió al director
de proyectos especiales y de planeación que desarrollara una propuesta para
predecir las ventas anuales de las nuevas tiendas que se han abierto.
La siguiente tabla representa la superficie de la tienda y las ventas anuales (en
miles de dólares) para una muestra de 14 tiendas de la cadena.

Probl~mas sobre la elección del lugar.


Tienda Pies cuadrados Ventas anuales ($000)

1 1,726 3,681
2 1,642 3,89S
3 2,816 6,6S3
4 S,SSS 9,S43
s 1,292 3,418
6 2,208 S,S63
7 1,313 3,660
8 1,102 2,694
9 3,lSl S,468
10 1,S16 2,898
11 S,161 10,674
12 4,S67 7,S8S
13 S,841 11,760
14 3,008 4,08S

Construya un diagrama de dispersión.


e 17.3 Al director de una compañía que fabrica partes le gustaría desarrollar un modelo
para estimar el número de horas-trabajador requeridas para las corridas de
producción de lotes de tamaño variable. Se seleccionó una muestra aleatoria
de 14 corridas de producción (dos por cada tamaño de lote: 20, 30, 40, 50, 60,
70 y 80) y los resultados se muestran a continuación:

Problemas sobre la producción


horas-trabajador.
Tamaño Horas
de lote trabajador

20 so
20 SS
30 73
30 67
40 87
40 9S
so 108
so 112
60 128
60 13S
70 148
70 160
80 170
80 162

Construya un diagrama de dispersión.

El diagrama de dispersión 717


17.4 A un agrónomo le gustaría determinar el efecto de un fertilizante orgánico
natural sobre la producción de tomates. Se van a utilizar cinco cantidades
diferentes del fertilizante sobre 10 parcelas equivalentes: O, 10, 20, 30 y 40
libras por cada 100 pies cuadrados. Los niveles de fertilizante son asignados
aleatoriamente a las parcelas con los siguientes resultados:

Problema sobre la producción de tomates.


Cantidad de fertilizante, X Producción, Y
Parcela (en libras por 100 pies cuadrados) (en libras)
1 o 6
2 o 8
3 10 11
4 10 14
5 20 18
6 20 23
7 30 25
8 30 28
9 40 30
10 40 34

Construya un diagrama de dispersión.


17 .5 A la gerente de operaciones de una compañía que se encarga de hacer
investigaciones de mercado le gustaría desarrollar un modelo para predecir el
número de entrevistas llevadas a cabo por sus encuestadores en un día dado.
Tiene la creencia de que la experiencia del encuestador (medida en semanas de
trabajo) es el principal determinante del número de entrevistas que puede
llevar a cabo. Se seleccionó una muestra de 10 encuestadores y se registró el
número de entrevistas llevadas a cabo junto con el número de semanas de
experiencia, y se obtuvieron los siguientes resultados:

Problema sobre la productividad


de encuestadores.
Número de
Semanas de entrevistas
Experiencia hechas

15 4
41 9
58 12
18 6
37 8
52 10
28 6
24 5
45 10
33 7

Construya un diagrama de dispersión.


17 .6 Al gerente de una agencia de alquiler de limusinas que opera en un suburbio le
gustaría determinar la cantidad de tiempo que llevaría transportar pasajeros
desde varios lugares a un aeropuerto metropolitano durante las horas no pico.
Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular
en las horas no pico, con los siguientes resultados:

718 Capítulo 17 Regresión lineal simple y correlación


Problema sobre transporte en el
aeropuerto.
Distancia (millas) Tiempo (minutos)
10.3 19.71
11.6 18.15
12.1 21.88
14.3 24.21
15.7 27.08
16.1 22.96
18.4 29.38
20.2 37.24
21.8 36.84
24.3 40.59
25.4 41.21
26.7 38.19

Construya un diagrama de dispersión.

1fll Tipos de modelos de regresión


En el diagrama de dispersión graficado en la figura 17 .1 se puede observar un vago
indicio del tipo derelación que existe entre las variabes. La naturaleza de la relación
puede tomar muchas formas, desde las sencillas hasta las funciones matemáticas
extremadamente complicadas. La relación más sencilla consiste en una línea o
relación lineal. Un ejemplo de esta relación se muestra en la figura 17 .2.

Figura 17.2
Relación de línea recta positiva.

El modelo de línea recta (lineal) puede representarse como

....,.:,',:1\.i~ ·i~:¿ ."''·•'"·"'··,:.·.,-


. ,,;_~ .. · ··.

en la que Po =la intersección Y para la población


P1 = pendiente de la población
E¡ = error aleatorio en Y para la observación i

Tipos de modelos de regresión 719


En est~J',ñ8delo, la pendiente de la recta ~ 1 representa el cambio esperado en Y por
uniqld'de cambio en X; esto es, representa la cantidad que cambia la variable Y (ya
sea positiva o negativamente), con respecto a una unidad de cambio particular en
X. Por otro lado, la intersección en el eje Y, ~0 , representa el valor promedio de Y
cuando X es igual a cero. Además, el último comp<mente del modelo, E¡, repre-
senta el error aleatorio en Y por cada observación i que se presenta.
El modelo matemático apropiado que se debe seleccionar está influenciado por
la distribución de los valores de X y Y en el diagrama de dispersión. Esto puede
observarse fácilmente si examinamos los paneles A a F de la figura 17.3. Clara-
mente puede constatarse en el panel A, que los valores de Y generalmente aumen-
tan de manera lineal, al incrementarse X. Este panel es parecido al de la figura 17 .1,
la cual ilustra la relación entre el número de clientes y ventas. El panel B es un
ejemplo de una relación lineal negativa. En la medida que aumenta X, observamos
que los valores de Y disminuyen. Un ejemplo de este tipo de relación podría ser el ·
precio de un producto particular con el número de ventas. El panel C muestra un
grupo de datos en los cuales hay muy poca o no hay relación entre X y Y. Valores
altos y bajos de Y aparecen en cada valor de X. Los datos del panel D muestran una
relación curvilínea positiva entre los valores de X y Y. Los valores de Y aumentan
al incrementarse el valor de X, pero este incremento disminuye cuando se sobre-
pasan ciertos valores de X. Un ejemplo de esta relación curvilínea positiva puede
ser la edad y el costo de mantenimiento de una máquina. Conforme una máquina
se va haciendo vieja, el costo de mantenimiento puede aumentar rápidamente al
principio, pero después disminuir cuando se sobrepasa un cierto número de años.

y y .,

·.·

••
X X
Panel A PanelB
Relación lineal positiva Relaci.ón lineal.negativa
y y

••• ••••• • • •• .• • •
••• • • ... ·
... • • • • •

X X
Panel C PanelD
Ninguna relación entre Xy Y Relación curyiHnea positiva
. ,, ·.:I . : : ·... ;·· 1

y y

Figura 17.3
Ejemplos de tipos de relación Panel E , .. PimelF
encontrados en los diagramas de Relación curvilínea ~n forma de U Relación curvilínea negativa
dispersión.

720 Capítulo 17 Regresión lineal simple y correlación


El panel E muestra una relación parabólica o en forma de U, entre X y Y. Conforme
X aumenta, al principio Y disminuye; pero a medida que X sigue incrementándose,
Y no solamente deja de disminuir sino que en realidad aumenta por encima de su
valor mínimo. Un ejemplo de este tipo de relación podría ser el número de errores
por hora cometidos en una cierta tarea y el número de horas trabajadas en ella. El
número de errores por hora iría disminuyendo en la medida que el trabajador se
va haciendo más hábil para llevarla a cabo, pero llegaría a un punto en el cual
empezarían a aumentar debido a factores como la fatiga y el aburrimiento. Final-
mente, en el panel F se presenta una relación exponencial o curvilínea negativa
entre las dos variables. En este caso, Y disminuye muy rápidamente en la medida
que X aumenta inicialmente, pero luego su disminución se hace más lenta con-
forme X sigue aumentando. Un ejemplo de tal relación exponencial podría ser el
valor de reventa de un tipo particular de automóvil con respecto a su antigüedad.
Durante el primer año el valor de reventa cae de manera drástica en comparación
con su precio original; sin embargo, el valor de reventa disminuye mucho más
lentamente en los años que le siguen.
En la presente sección hemos examinado, de manera breve, una variedad de
modelos diferentes que podrían ser utilizados para presentar la relación existente
entre dos variables. A pesar de que los diagramas de dispersión pueden ser extre-
madamente útiles en la determinación de la forma matemática de la relación, se
tienen disponibles procedimientos estadísticos más sofisticados a fin de determi-
nar el modelo más adecuado para un conjunto de variables. En secciones posterio-
res del presente capítulo centraremos nuestra atención principalmente en la
construcción de modelos estadísticos para ajustar relaciones lineales entre va-
riables.

1Ji1 Determinación de la ecuación


de regresión lineal simple
Si nos referimos al diagrama de dispersión de la figura 17. l en la página 716, obser-
vamos que las ventas parecen aumentar linealmente como función del número de
clientes. El problema que debe enfrentarse en el análisis de regresión implica la
determinación del modelo particular de línea recta que se ajusta mejor a los datos.

1 7 .4. 1 El método de mínimos cuadrados


En la sección anterior hicimos hipótesis sobre un modelo estadístico para repre-
sentar la relación existente entre dos variables de una población. Sin embargo,
como se observa en la tabla 17.1 de la página 715, hemos obtenido los datos sola-
mente de una muestra aleatoria de la población. Si ciertas suposiciones son válidas
(véase sección 17 .8), la intersección Y de muestra (b 0 ) y la pendiente de muestra
(b 1) pueden utilizarse como estimaciones de los respectivos parámetros de la po-
blación (~ 0 y ~ 1 ). Por consiguiente, la ecuación de regresión de muestra que repre-
senta al modelo de regresión de línea recta sería

(17.la)

A .
en la que Y¡ es el valor predicho de Y para la observación i, y X¡ es el valor de X para
la observación i.
Con el propósito de predecir valores de Y, esta ecuación requiere la determi-
nación de dos coeficientes: b0 (la intercección Y) y b1 (la pendiente). Cuando ya se
han obtenido b0 y b 11 se conoce la línea recta y puede ser graficada en el diagrama

Determinación de la ecuación de regresión lineal simple 721


de dispersión. Después podemos hacer una comparación visual de qué tan bien
nuestro modelo estadístico particular (una línea recta) se ajusta a los datos origi-
nales. Es decir, podemos ver si los datos originales caen cerca de la línea ajustada o
se desvían bastante de ella. ·
El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea
recta que mejor se ajusta a los datos. El mejor ajuste significa que deseamos encon-
trar la línea recta para la cual las diferencias entre los valores reales (Y¡) y los valores
que serían predichos a partir de la línea ajustada de regresión (Y;) sean lo más
pequeñas posible. Debido a que tales diferencias serán positivas y negativas para
las diferentes observaciones, minimizamos matemáticamente la expresión

I<Y1 - Y¡)z
i=l

en la que Y;= valor real de Y para la observación i


Y1 = valor predicho de Y para la observación i
" b0 + b1X¡, se trata de minimizar la expresión
Puesto que Y¡=
n
2: [Y
l=l
1 - (b 0 + b1 X 1)] 2

que tiene dos incógnitas, b0 y b1•


Una técnica matemática utilizada para determinar los valores de b0 y b1 que
mejor se ajusten a los datos observados se conoce como método de mínimos
cuadrados. Cualesquiera valores de b0 y b1 que sean diferentes a los determina-
dos por el método de mínimos cuadrados tendrían como resultado una suma
mayor de las diferencias al cuadrado del valor real de Y y su valor predicho.
Al utilizar el método de mínimos cuadrados obtenemos las siguientes dos ecua-
ciones conocidas como ecuaciones normales:
'., ,. '

: ·"';~·I : , .. ' . ·<··.):'.'; ,:.~ 1,. '.':',,' ·.·

.. í
·.. l, · , 'kY¡;= .. nko,+·"~Xx~·
r·: : ,.. ' ·· ,;·J;=l 1
•1 '·' , '-:f,=,1~· · ···>;·'< .
·
«In·/· , ' .-· .' .:~-~~¡,.~-L
+ b12: xt
.n · .

Ii. ¡',~,X,= b0,Lx1 '.'·1.


'".l .... , .......A¡;;.l,:.,·.; .......•.. ·1.,,l .:
..
';
...¡;
~···~ ·.. :'.:

Debemos resolverlas de manera simultánea para obtener b0 y b1• Sin embargo, en


el presente texto, tomaremos la posición de que al resolver ecuaciones de regre-
sión, se tendrá acceso a software estadístico para llevar a cabo los cálculos (que a
menudo son tediosos). Tales paquetes de computación se analizan en la sección
17.15. Sin embargo, con el propósito de entender de qué manera los resultados pre-
sentados por los paquetes de software han sido obtenidos para el caso de la regre-
sión lineal simple, ilustraremos directamente muchos de los cálculos implicados.
Refiriéndonos de nuevo a las ecuaciones (17 .2a) y (17 .2b), ya que se tienen dos
ecuaciones con dos incógnitas, podemos resolverlas de manera simultánea para b1
y b0 de la manera siguiente:

' . t ' .;_., 1' •

,(17;~) ..

.;·:·

722 Capitulo 17 Regresión lineal simple y correlación


y

(17.4) . '

en la que

n n
LY¡ :¿xi
y =--
i=I
n
y x = -n -
i=I

Examinando las ecuaciones (17.3) y (17.4), observamos que se tienen cinco


cantidades que deben calcularse con el fin de determinar b0 y b1 • Éstas son, n, el
n n
tamaño de la muestra; LX;, la suma de los valores X;
i=l
L Y; , la suma de los va
i=I
n n
lores Y; L x; , la 'suma de los valores al cuadrado de X; y L X¡Y, , la suma de
l=I l=l
los productos cruzados de X y Y. Para nuestros datos de la tabla 17.1, el número de
clientes se utilizó para predecir las ventas semanales de una tienda. El cálculo de las
n
diferentes sumas necesarias (incluyendo a L YT , la suma de los valores al cuadrado
l=l
de Y, que se utilizará en la sección 17.5) se presenta en la tabla 17.2.

Tabla 17.2 Cálculos correspondientes al problema de los almacenes


departamentales.
Clientes Ofertas
Almacén X y xz yz XY
1 907 11.20 822,649 125.4400 10,158.40
2 926 11.05 857,476 122.1025 10,232.30
3 506 6.84 256,036 46.7856 3,461.04
4 741 9.21 549,081 84.8241 6,824.61
5 789 9.42 622,521 88.7364 7,432.38
6 889 10.08 790,321 101.6064 8,961.12
7 874 9.45 763,876 89.3025 8,259.30
8 510 6.73 260,100 45.2929 3,432.30
9 529 7.24 279,841 52.4176 3,829.96
10 420 6.12 176,400 37.4544 2,570.40
11 679 7.63 461,041 58.2169 5,180,77
12 872 9.43 760,384 88.9249 8,222.96
13 924 9.46 853,776 89.4916 8,741.04
14 607 7.64 368,449 58.3696 4,637.48
15 452 6.92 204,304 47.8864 3,127.84
16 729 8.95 531,441 80.1025 6,524.55
17 794 9.33 630,436 87.0489 7,408.02
18 844 10.23 712,336 104.6529 8,634.12
19 1,010 11.77 1,020,100 138.5329 11,887.70
20 621 7.41 385,641 54.9081 4,601.61
Totales 14,623 176.11 11,306,209 1,602.0971 134,127.90

Determinación de la ecuación de regresión lineal simple 723


Utilizando las ecuaciones (17.3) y (17.4), podemos calcular los valores de b 1:

i=I
n
:¿x~ - nJ(_Z
i=I

en la que
n
LY¡
y = .!...:2__ = 176 ·11 = 8.8055
n 20

"
:¿x.
X = ~ = 14,623 = 731.15
n 20

de modo que

134,127.90 - (20)(731.15)(8.8055)
11,306,209 - 20(731.15) 2

5,365.08 = +.00873
614,603

h0 = f - b1X.
b0 = 8.8055 - (.00873)(731.15) = +2.423

Por consiguiente, la ecuación para la mejor línea recta que se ajusta a estos datos es
/\
Y; = 2.423 + .00873X;

La pendiente b 1 fue calculada como +.873. Esto significa que para cada incremento
de una unidad en X se estima que el valor de Y aumenta en un promedio de .00873
unidades. Es decir, por cada aumento de un cliente, el modelo ajustado predice una
estimación de un aumento de las ventas semanales de .00873 miles de dólares o
$8.73 (o podemos decir que por cada aumento de 100 clientes, se espera que las
ventas semanales aumenten en $873). En consecuencia, la pendiente puede con-
siderarse como la representación de la porción de ventas semanales que se estiman
variarán con respecto al número de clientes.
La intersección Y, b0 se calculó en +2.423 (miles de dólares); ésta representa el
valor promedio de Y cuando X es igual a cero. Puesto que es improbable que
el número de clientes sea cero, este valor puede verse como la expresión de la por-
ción de las ventas semanales que varían con respecto a factores diferentes al
número de clientes.
El modelo de regresión que ha sido ajustado a los datos puede utilizarse ahora
para predecir las ventas semanales. Por ejemplo, digamos que nos gustaría utilizar
el modelo ajustado para predecir las ventas semanales de una tienda con 600
clientes.
Podemos determinar el valor predicho si hacemos X= 600 en nuestra ecuación
de regresión,

724 Capítulo 17 Regresión lineal simple y correlación


f\
Y; = 2.423 + .00873(600) = 7.661

Así pues, las ventas semanales promedio predichas para una tienda de 600 clientes
es de 7.661 miles de dólares o $7661.

1 7 .4.2 Predicciones en el análisis de regresión:


interpolación contra extrapolación
Cuando utilizamos un modelo de regresión con fines de predicción, al hacer las
predicciones es importante que solamente consideremos el alcance relevante de la
variable independiente. Tal alcance relevante abarca a todos los valores desde el
más pequeño al más grande de la variable X utilizados en el desarrollo del modelo
de regresión. Por consiguiente, cuando predecimos el valor de Y para un cierto
valor dado de X, podemos interpolar dentro del alcance relevante de los valores de
X, pero no podemos extrapolar más allá del alcance de los valores de X. Por ejem-
plo, cuando utilizamos el número de clientes para predecir las ventas semanales
observamos, de la tabla 17.1, que el número de clientes varía de 420 a 1,010. En
consecuencia, las predicciones de las ventas semanales deben hacerse para las tien-
das que tienen entre 420 y 1,010 clientes. Cualquier predicción de las ventas se-
manales fuera de este intervalo de cantidad de clientes presupone que la relación
ajustada es válida para todos los valores.

Problemas de la sección 17.4


e 17. 7 Refiérase al problema 17 .1 de la página 716, concerniente a las ventas de
alimento para mascotas.
(a) Suponiendo que existe una relación lineal, utilice el método de mínimos
cuadrados para calcular los coeficientes de regresión b0 y b 1•
(b) Interprete el significado de la pendiente b 1 del problema.
(c) Prediga las ventas semanales promedio (en miles de dólares) de alimento
para mascotas con 8 pies de espacio en estantes por alimento.
17.8 Refiérase al problema 17.2 de la página 716, concerniente a la selección de
situación.
(a) Suponiendo que existe una relación lineal, utilice el método de mínimos
cuadrados para calcular los coeficientes de regresión b0 y b 1 •
(b) Interprete el significado de la pendiente b 1 del problema.
(c) Pronostique las ventas anuales promedio para una tienda que posee 4,000
pies cuadrados.
e 17.9 Refiérase al problema 17 .3 de la página 717, concerniente a la producción
horas-trabajador.
(a) Suponiendo que existe una relación lineal, utilice el método de mínimos
cuadrados para calcular los coeficientes de regresión b0 y b 1•
(b) Interprete el significado de la intersección Y, b0 , y de la pendiente b 1 del
problema.
(c) Anticipe el número de trabajadores-hora requerido para una corrida de
producción con un tamaño de lote de 45.
(d) ¿Por qué no sería apropiado predecir el número promedio de trabajadores-
hora requerido para una corrida de producción con un tamaño de lote de
100? Explique su respuesta.
17.10 Refiérase al problema 17.4 de la página 718, concerniente a la producción de
tomates.
(a) Suponiendo que existe una relación lineal, utilice el método de mínimos
cuadrados para calcular los coeficientes de regresión b0 y b 1 •
(b) Interprete el significado de la intersección Y, b0 , y de la pendiente b 1 del
problema.
(c) Prediga la producción promedio de tomates para una parcela que ha dado
15 libras por pie cuadrado de fertilizante orgánico natural.

Predicciones en el análisis de regresión 725


(d) ¿Por qué no sería apropiado predecir la producción promedio para una
parcela que ha sido fertilizada con 100 libras por cada .100 pies cuadrados?
Explique su respuesta.
17.11 Refiérase al problema 17.5 de la página 718, concerniente al problema de
productividad de entrevistas.
(a) Suponiendo que existe una relación lineal, utilice el método de mínimos
cuadrados para calcular los coeficientes de regresión b0 y b1.
(b) Interprete el significado de la intersección Y, b0 , y de la pendiente b1 del
problema.
(c) Utilice el modelo de regresión desarrollado en el inciso (a) para predecir el
número de entrevistas efectuadas por un encuestador que tiene 30 semanas
de experiencia.
17.12 Refiérase al problema 17.6 de la página 718, concerniente al transporte hacia
el aeropuerto.
(a) Suponiendo que existe una relación lineal, utilice el método de mínimos
cuadrados para calcular los coeficientes de regresión b0 y b1.
(b) Interprete el significado de la intersección Y, b0 , y de la pendiente b1 del
problema.
(c) Utilice el modelo de regresión desarrollado en el inciso (a) para predecir la
cantidad de tiempo (en minutos) que toma transportar a una persona
desde un lugar que se encuentra a 21 millas del aeropuerto.

l flJ El error estándar de estimación


En la sección anterior utilizamos el método de mínimos cuadrados para desarrollar
una ecuación para predecir las ventas semanales basándonos en el número de
clientes. Aunque el método de mínimos cuadrados tiene como resultado una recta
que se ajusta a los datos con la cantidad mínima de variación, la ecuación de regre-
sión no es un pronosticador perfecfo, a menos que todos los puntos de datos obser-
vados caigan sobre la recta de regresión. Del mismo modo en que no podemos
esperar que todos los valores de datos estén localizados exactamente en su media
aritmética, no podemos esperar que todos los puntos de datos caigan exactamente
en la recta de regresión; ésta sirve solamente como un pronosticador aproximado
de un valor de Y para un valor dado de X. Por consiguiente, necesitamos desarro-
llar una estadística que mida la variabilidad de los valores reales de Y, a partir de
sus valores predichos, de la misma manera en que desarrollamos una medida de la
variabilidad de cada observación alrededor de su media (véase capítulo 4). La
medida de la variabilidad alrededor de la línea de regresión (su variación estándar)
se conoce como error estándar de la estimación.
La variabilidad alrededor de la línea de regresión se ilustra en la figura 17.4
para el problema de las ventas en las tiendas de departamentos. De esta figura po-
demos podemos ver que, a pesar de que la recta de regresión predicha cae cerca de
muchos de los valores reales de Y, existen varios valores por encima y por debajo
de ésta, de modo que
n
L(Yj -Y;)= o
i=l

El error estándar de la estimación, representado con el Símbolo Sxy, se define como

·(1'.1.s)
"".·¡

726 Capítulo 17 Regresión lineal simple y correlación


12

11
j
.!!!
:g 10

""..
ID "

f:!! 9

¡;¡ ~ = 2.423 + .00873 X;


e: 8
"'CP
.,E •
..
J!!"e:
7, ·I
CP,
>
6

o
400 5.00 700 800 900 1.000'
Número de clientes

Figura 17.4
Diagrama de dispersión y línea de regresión para el problema de los almacenes
departamentales.

en la que Y; valor real de Y para un valor dado de X;


/\
Y¡= valor predicho de Y para un valor dado de X¡

El cálculo del error estándar de la estimación utilizando la ecuación (17.5)


requeriría primero la determinación del valor predicho de Y para cada valor de X
de la muestra. El cálculo puede simplificarse debido a la siguiente identidad:
n n n n
L (Y¡ - Y¡) 2 = L Y7 - b L Y¡ - b L X¡Y¡
0 1
i=l i=l i=l i=1

El error estándar de la estimación, Syx, puede, por consiguiente, obtenerse uti-


lizando la siguiente fórmula:

n n n
Ly~
1=1 ... '
- b 0 LY; -b 4,.X¡Y
l=l"'
1
. 1·=1 '
1
.(17.6)
n72

Para el problema de ventas de la tienda departamental, de la tabla 17 .2 de la


página 723, hemos determinado que

n n n
:¿ v~ = 1,602.0971 LY¡ 176.11 LX;Y¡ 134,127.90
i = 1 j = 1 i =1

b0 = 2.423 b¡ = +.00873

Por consiguiente, utilizando la ecuación (17.6), el error estándar de la estimación,


Syx, puede calcularse como:

El error estándar de estimación 727


n n n
¿y¡ - b 0 LY; - b1 L X;Y;
i=l i=l i=l

n-2
1,602.0971 - (2.423)(176.11) - (.00873)(134,127 .90)
20 - 2

.497
Este error estándar de la estimación, igual a 0.497 (es decir, $497) representa
una medida de la variación alrededor de la línea de regresión ajustada. Se mide en
unidades de la variable dependiente Y. La interpretación del error estándar de la
estimación, entonces, es análogo a la de desviación estándar. Al igual que
la desviación estándar mide la variabilidad alrededor de la media aritmética, el
error estándar de la estimación mide la variabilidad alrededor de la línea de regre-
sión ajustada. Además, como veremos en las secciones 17.11 a 17.13, el error
estándar de la estimación puede utilizarse para hacer inferencias acerca de un valor
predicho de Y, y para determinar si existe una relación estadísticamente significa-
tiva entre las dos variables.

Problemas de la sección 17.5


e 17.13 Refiérase el problema de la venta de alimento para mascotas (páginas 716 y
725) y calcule el error estándar de la estimación.
17.14 Refiérase al problema de la selección de lugar (páginas 716 y 725) y calcule el
error estándar de la estimación.
e 17.15 Refiérase al problema sobre la producción horas-trabajador (páginas 717 y 725)
y calcule el error estándar de la estimación.
17.16 Refiérase al problema de la producción de tomates (páginas 718 y 725) y calcule
el error estándar de la estimación.
17 .17 Refiérase al problema de la productividad de los encuestadores (páginas 718 y
726) y calcule el error estándar de la estimación.
17.18 Refiérase al problema de transporte hacia el aeropuerto (páginas 718 y 726) y
calcule el error estándar de la estimación.

l fi.J Mediciones de variación en


regresión y correlación
Con el fin de examinar qué tan bien una variable independiente predice a la varia-
ble dependiente en nuestro modelo estadístico, necesitamos desarrollar algunas
medidas de variación. La primera de ellas, la suma total de cuadrados (SST, por
sus siglas en inglés: Total Sum of Squares), es una medida de la variación de los va-
lores Y1 alrededor de su media, Y. En el análisis de regresión, la suma total de
cuadrados puede dividirse en la variación explicada o suma de cuadrados
debida a la regresión (SSR, por sus siglas en inglés: Sum of Squares due to
Regression), que se puede atribuir a la relación entre X y Y; y la variación no
explicada o suma de cuadrados de error (SSE, por sus siglas en inglés: Sum of
Squares Error), que se puede atribuir a factores diferentes a la relación entre X y Y.
Estas diferentes medidas de la variación pueden verse en la figura 17.5.

728 Capitulo 17 Regresión lineal simple y correlación


OO.._._ __...,.,.,..,...._ __...,....,.........____,.,__...,,•·,,..,,..,...._,....._ _..._....,.X,"":
X, Figura 17.S
Medidas de variación
en la regresión.

La suma de cuadrados debida a la regresión (SSR) representa la diferencia entre


Y (el valor promedio de Y) y Y; (el valor promedio de Y que sería predicho a partir
de la relación de regresión). La suma de cuadrados de error (SSE) representa aquella
parte de la variación de Y que no es explicada por la regresión. Está basada en la
diferencia entre Y; y Y¡.
Tales medidas de variación pueden representarse de la manera siguiente:

suma total de cuadrados = suma de cuadrados' aebida a la:


· ' . . . régresióll,' . . .· · :· ·" . '::
·' '. : +"sum~ de ct.áctiadc)s de efrot: ' <(:17.7).
$ST:' SSR + SSE ,·,>:: '; ,.,:..;·:·:-;: .
.j ,'
Í'.,,'

en la que

. ·ti : :¡: ·. ~·-:' . :o, n


SST= suma total de cuadrados = L (Y 1 _: Y') 2 = L,Y12 ..:. nY 2 (17.8)
' ' i=l i=l

(17.9)

Mediciones de variación en regresión y correlación 72.9


Examinando la variación no explicada de la suma de cuadrados de error [ecuación
(17 .9)], podemos recordar que f i=1
(Y1 - ~1 ) 2 es el numerador de la fracción que se
encuentra dentro de la raíz cuadrada de la fórmula para calcular el error estándar
de la estimación [véase ecuación (17 .5)]. Por consiguiente, en el proceso de cálculo
del error estándar de la estimación, ya hemos calculado la siguiente suma de
cuadrados de error:

n n n
SSE = LY;
l=l
2 - h0 LY
i=l
1 - b1 LX Y
i=1
1 1

1,602.0971 - (2.423)(176.11) - (.00873)(134,127.90)


4.446

Además,

SST = suma total de cuadrados

= 1,602.0971 - 20(8.8055) 2
1,602.0971 - 1,550.7366
51.3605
y

SSR = variación explicada o suma de cuadrados debida a la regresión


n n
b0 LY +b :Lx Y
i=1
1 1
1=1
1 1 -n-Y 2

= (2.423)(176.11) + (.00873)(134,127.90) - 20(8.8055) 2


= 46.914.5
Observamos también, de la ecuación (17. 7), que

SST = SSR + SSE


51.3605 = 46.9145 + 4.4460

730 Capitulo 17 Regresión lineal simple y correlación


Ahora el coeficiente de determinación, r, puede definirse como

Esto es, el coeficiente de determinación mide la porción de variación que es expli-


cada por la variable independiente del modelo de regresión. Para el problema de la
tienda departamental,

,z = 46.9145 = .913
51.3605

Por tanto, 91.3% de la variación de las ventas semanales puede explicarse mediante
la variabilidad en el número de clientes de una tienda a otra. Éste es un ejemplo en
el que existe una fuerte relación lineal entre dos variables, puesto que el uso de un
modelo de regresión ha reducido la variabilidad en la predicción de las ventas se-
manales en 91.3%. Solamente 8.7% de la variabilidad de la muestra de las ventas
semanales puede explicarse mediante factores difereqtes a los del modelo de regre-
sión lineal.
Para interpretar el coeficiente de determinación, en particular cuando se trata
con modelos de regresión múltiple, algunos investigadores sugieren que se calcule
r
un coeficiente ajustado para reflejar tanto el número de variables explicatorias
del modelo como el tamaño de la muestra. En la regresión lineal simple, sin em-
bargo, representamos el coeficiente ,:1- ajustado como

Así pues, para los datos de la tienda departamental, como r = 0.913 y n = 20,
ra¡u = 1 _ [ (1 _ rz) 20 - 1]
2
20 - 2

= 1 - [ (1 -0.913) !: ]
= 1 - .092
= .908

Este resultado es parecido al obtenido sin ajuste de los grados de libertad.

Problemas de la sección 17.6


e 17.19 Refiérase al problema 17.7 de la página 725 (correspondiente a las ventas de
alimento para mascotas).
(a) Calcule el coeficiente de determinación, i', e interprete su significado.
(b) Calcule el coeficiente i' ajustado. ·
17.20 Refiérase al problema 17.8 de la página 725 (concerniente a la selección de lugar).
(a) Calcule el coeficiente de determinación, i', e interprete su significado.
(b) Calcule el coeficiente r 2 ajustado.

Mediciones de variación en regresi.6n y correlación 73 1


e 17.21 Refiérase al problema 17.9 de la página 725 (correspondiente a la producción
horas-trabajador).
r,
(a) Calcule el coeficiente de determinación, e interprete su significado.
r
(b) Calcule el coeficiente ajustado.
17.22 Refiérase al problema 17.10 de la página 726 (correspondiente a la producción
de tomates).
r,
(a) Calcule el coeficiente de determinación, e interprete su significado.
(b) Calcule el coeficiente r 2 ajustado.
17.23 Refiérase al problema 17.11 de la página 726 (concerniente a la productividad
de encuestas).
r,
(a) Calcule el coeficiente de determinación, e interprete su significado.
r
(b) Calcule el coeficiente ajustado.
17.24 Refiérase al problema 17.12 de la página 726 (correspondiente al transporte en
limusina).
r,
(a) Calcule el coeficiente de determinación, e interprete su significado.
r
(b) Calcule el coeficiente ajustado.
17 .25 ¿Cuándo será la variación no explicada o la suma de cuadrados de error igual a
cero?
17.26 ¿Cuándo será la variadón explicada o la suma de cuadrados debida a la
regresión igual a cero?

i fiJ Correlación: medición de la


intensidad de la asociación
En nuestro análisis de la relación entre dos variables hecho hasta este punto del
capítulo, nos hemos preocupado de la predicción de la variable dependiente Y,
basándonos en la variable independiente X. Al contrario de un análisis de regre-
sión, en un análisis de correlación solamente estamos interesados en medir el
grado de asociación entre dos variables.
La intensidad de una relación entre dos variables de una población por lo ge-
neral se mide mediante el coeficiente de correlación p, cuyos valores van desde
-1, correspondiente a una correlación perfectamente negativa, hasta +1, corres-
pondiente a una correlación perfectamente positiva. En la figura 17.6 se ilustran
estas tres diferentes clases de asociación entre variables. En el panel A de esta figura
presentamos una relación lineal negativa perfecta entre X y Y, de modo que Y dis-
minuirá de una manera perfectamente predecible en la medida que X aumenta. En
el panel B se tiene un ejemplo en el que no hay relación entre X y Y. A medida que

Figura 17.CS
Tipos de asociación entre varli\lbles.

732 Capitulo 17 Regresión lineal simple y correlación


X aumenta no se da ningún cambio en Y, de modo que no hay ninguna asociación
entre los valores de X y los de Y. Por el contrario, en el panel C se presenta una corre-
lación perfectamente positiva entre las dos variables. En este caso, Y aumenta de
una manera perfectamente predecible conforme se incrementa X.
Para problemas orientados a la regresión, el coeficiente de correlación de
muestra (r) puede obtenerse con la ecuación (17.lla) de la manera siguiente:

suma de ruadrados debido a la regresión SSR


r2 = - . = --
suma total de cuadrados SST

de modo que

(17.12)

En casos de regresión lineal simple, r toma el signo de b1; si éste es positivo, r es


positivo; si b 1 es negativo, res negativo; y si b 1 es cero, res cero.
En el problema de la tienda departamental, puesto que r2 = 0.913 y la pen-
diente b1 es positiva, el coeficiente de correlación es de +0.956. La cercanía del
coeficiente de correlación al valor + 1.0 implica una fuerte asociación entre el
número de clientes y las ventas semanales.
Hemos calculado e interpretado el coeficiente de correlación desde el punto de
vista de la regresión. Como lo mencionamos al inicio del presente capítulo, sin
embargo, la regresión y la correlación son dos técnicas separadas: la regresión tiene
que ver con la predicción y la correlación con la asociación. En muchas aplica-
ciones solamente nos interesa la medición de la asociación entre variables, y no
con el uso de una variable para predecir otra.
Si únicamente se lleva a cabo un análisis de correlación de un conjunto de
datos, el coeficiente de correlación de muestra r, puede calcularse directamente uti-
lizando la siguiente fórmula:

n
L(X¡. -X )(Y, -Y)
i=l . 1

r = --;============---;::::::========= (17.13a)

,·.· 1 ', 'i.,;;·i ..

alternativamente, con la fórmula del "calculador":

n
LX 1Y1 .:... nXY
1=1 : ' (:;'
.T = -;::::=========~-=========
n n
(l7.13b)
L x;·.:... nX 2 ' I'y~ ::e nY 2
i=l ' 1=1

Para ilustrar lo anterior, suponga que deseamos medir la intensidad de la aso-


ciación de dos productos diferentes con respecto a su precio en varias ciudades del

Correlación: medición de la intensidad de la asociación 73 3


mundo. El precio de un paquete de seis envases de una cierta marca de refresco de
cola y el de una libra de pollo fueron determinados en un supermercado localizado
en una muestra de nueve ciudades diferentes. Los resultados se resumen en la tabla1
17.3.

Tabla 17.J Precio (en dólares) de un paquete de seis


envases de un refresco de cola y de una libra
de carne de pollo en una muestra de nueve
ciudades.
Paquete de seis Una libra
Ciudad refrescos de cola (X) de pollo (Y)
Frankfurt 3.27 3.06
Hong Kong 2.22 2.34
Londres 2.28 2.27
Manila 3.04 1.51
México 2.33 1.87
Nueva York 2.69 1.65
París 4.07 3.09
Sidney 2.78 2.36
Tokio 5.97 4.85

Para los datos de la tabla 17.3, calculamos los valores siguientes:


n n n

:¿xi = 28.65 :¿x; = 102.66 LY; = 23.00


i=I i=I .i=I
n n
n = 9 :¿y; = 67.132 LX;Y; = 81.854
Í=l i=I

De éstos obtenemos
28.65
9
x - - = 3.183

y - 23.00
- = 2.5556
9
de modo que con la ecuación (17 .13b)

n
:¿x;Y; - nXY
i=I
r = n n
:¿x~ - nX 2 Ly~ - nYz
i=I i=I

81.854 - 9(3.183)(2.5556)
=
~102.66 - 9(3.183) 2 ~67.132 - 9(2.5556) 2
81.8540 - 73.2172
..Jn.4594 ..J8.3522
r = +.883

734 Capítulo 17 Regresión lineal simple y correlación


El coeficiente de correlación, r =+ 0.883, entre el precio del paquete de seis envases
de un refresco de cola y el de una libra de pollo indica que existe uná asociación
muy fuerte entre éstos. Un mayor precio del paquete de seis envases de refrescos
de cola está asociado fuertemente con un precio mayor de una libra de pollo. En la
sección 17.13, utilizaremos estos resultados de muestra para determinar si existe
alguna evidencia de una asociación significativa entre estas variables de la
población.

Problemas de la sección 17. 7


17.27 ¿En qué circunstancias será negativo el coeficiente de correlación?

• 17.28 Refiriérase al problema 17.9 de la página 731 (correspondiente a las ventas de


· alimento para mascotas) y calcule el coeficiente de correlación.
17.29 Refiérase al problema 17.20 de la página 732 (correspondiente a la elección de
lugar) y calcule el coeficiente de correlación .

• 17.30 Refiérase al problema 17.21 de la página 732 (correspondiente a la producción


hombre-hora) y calcule el coeficiente de correlación.
17.31 Refiérase al problema 17.22 de la página 732 (correspondiente a la producción
de tomate) y calcule el coeficiente de correlación.
17.32 Refiérase al problema 17.23 de la página 732 (problema de la productividad de
encuestadores) y calcule el coeficiente de correlación.
17.33 Refiérase al problema 17.24 de la página 732 (correspondiente al transporte
hacia el aeropuerto) y calcule el coeficiente de correlación.
17.34 Suponga que también deseamos medir la intensidad de la asociación del precio
(en dólares) de una paquete de seis envases de un refresco de cola y el precio
de un paquete de 100 pastillas de un analgésico de cierta marca en supermer-
cados de una muestra de nueve diferentes ciudades de distintos países. Los
resultados se presentan a continuación:

Paquete de seis 100 pastillas


Ciudad refrescos de cola contra el dolor
Frankfurt 3.27 17.22
Hong Kong 2.22 6.21
Londres 2.28 9.17
Manila 3.04 14.61
México 2.33 4.85
Nueva York 2.69 6.09
París 4.07 13.08
Sidney 2.78 8.04
Tokio 5.97 8.39

(a) Calcule el coeficiente de correlación r, entre el precio del paquete de seis


envases de refresco de cola y el precio del paquete de 100 pastillas del
analgésico.
(b) ¿Está el precio del paquete de seis envases de refresco de cola más
correlacionado con el precio de una libra de pollo o con el precio del
paquete de 100 pastillas del analgésico? Explique su respuesta.
17.35 Suponga que también deseamos medir la intensidad de la asociación del
precio (en dólares) que cobra un estilista para damas y el precio de las
camisas de vestir para caballero de una cierta marca en una muestra de
· nueve ciudades de diferentes países. Los resultados se muestran a continua-
ción:

Correlación: medición de la intensidad de la asociación 73 S


Estilista para Caniisa de vestir
Ciudad damas para caballero
Frankfurt 29.85 49.41
Hong Kong 22.56 29.32
Londres 33.79 42.12
Manila 12.04 35.22
México 15.49 25.04
Nueva York 34.87 37.85
París 27.73 55.28
Sidney 25.64 38.58
Tokio 27.45 38.69

Calcule el coeficiente de correlación r, entre el precio del estilista para damas y


el precio de la camisa de vestir.

1fl:i Suposiciones de regresión y correlación


En nuestras investigaciones acerca de la prueba de hipótesis y del análisis de va-
rianza, hemos observado que la aplicación apropiada de un procedimiento
estadístico particular depende de si se cumplen una serie de suposiciones sobre el
procedimiento. Las suposiciones necesarias para poder hacer un análisis de regre-
sión y de correlación son parecidas a las correspondientes al análisis de varianza,
puesto que caen en la clasificación general de los modelos lineales (véanse refe-
rencias 5 y 12). A pesar de que existen algunas diferencias en las suposiciones
hechas para la regresión y la correlación (véanse referencias 5 y 12), este segundo
tema está más allá del alcance del presente texto y solamente tomaremos en con-
sideración el primero.
Las cuatro principales suposiciones acerca de la regresión son:
l. Normalidad
2. Homoscedasticidad
3. Independencia de error
4. Linealidad
La primera suposición, normalidad, requiere que los valores de Y estén
distribuidos normalmente en cada valor de X (véase figura 17.7). Al igual que la
prueba t y que la prueba F de análisis de varianza, el análisis de regresión es bas-
tante robusto con respecto a desviaciones de la suposición de normalidad. Siempre
y cuando la distribución de los valores Y¡ alrededor de cada nivel de X no sea

Ftpara 17.7
Suposiciones de la
regresión.

ne Capítulo 17 Regresión lineal simple y correlación


extremadamente diferente de una distribución normal, las inferencias acerca de la
línea de regresión y de los coeficientes de regresión no se verán seriamente afectadas.
La segunda suposición, homoscedasticidad, requiere que la variación
alrededor de la línea de regresión sea constante para todos los valores de X. Esto
significa que Y varía la misma cantidad cuando X tiene un valor bajo que cuando
posee uno alto (véase figura 17.7). La suposición de homoscedasticidad es impor-
tante en cuanto al uso del método de mínimos cuadrados para determinar los coe-
ficientes de regresión. Si existen serias desviaciones de esta suposición, se pueden
aplicar transformaciones de datos o métodos de mínimos cuadrados pesados (refe-
rencias S y 12).
La tercera suposición, independencia de error, requiere que el error (la di-
ferencia residual entre un valor observado y uno predicho de Y) sea independiente
de cada valor de X. Esta suposición a menudo se refiere a datos que son recolecta-
dos en un cierto periodo. Cuando los datos son obtenidos de esta forma, los resi-
duos correspondientes a un periodo particular, a menudo, están correlacionados
con los del periodo anterior.
La cuarta suposición, linealidad, establece que la relación entre las variables
es lineal. Dos variables podrían estar perfectamente relacionadas de manera no li-
neal y el coeficiente de correlación lineal sería cero, lo cual indica que no hay
relación. Estos modelos lineales se analizarán en las secciones 18.11y18.13.

Diagnóstico de regresión: análisis residual

17.9.1 Introducción
En nuestro análisis concerniente a los datos de la tienda departamental que hemos
vistó en todo lo que va del capítulo, hemos dependido de un modelo de regresión
simple en el cual la variable dependiente es predicha basándose en una relación de
línea recta con una sola variable independiente. En la presente sección utilizare-
mos un enfoque gráfico conocido como análisis residual para evaluar lo ade-
cuado del modelo de regresión que ha sido ajustado a los datos. Además, este
planteamiento nos permitirá también estudiar las violaciones potenciales de las
suposiciones de nuestro modelo de regresión (véase sección 17.8).

17.9.2 Evaluación de lo adecuado del modelo ajustado


Los valores del error residual o estimado Áe¡) se definen como la diferencia entre los
valores observados (Y¡) y los predichos (Y¡) de la variable dependiente para valores
dados de X¡. Por tanto

1,:<,«'

(t7;}4)
':J.

Podemos evaluar lo adecuado del modelo de regresión ajustado mediante la


graficación de los residuos del eje vertical con respecto a los correspondientes va-
lores de X¡ de la variable independiente del eje horizontal. Si el modelo ajustado es
adecuado para los datos, no deberá aparecer ningún patrón evidente en esta grá-
fica de los residuos contra X¡. Sin embargo, si el modelo ajustado no es adecuado,
habrá una relación entre los valores de X¡ y los residuos e¡. Tal patrón puede obser-

Diagnóstico de regresión: análisis residual 73 7


y e


. ...... .
• • ••••
~
º"""""'"""'•~""':".~.!'--.~~~~~~~-
• •• ••• •
• • • •
••

(a) {b)

Figura 17.8
Estudio de lo adecuado del modelo de regresión lineal simple.

varse en la figura 17.8 de la página 738. En la figura 17.S(a) se representa una


situación en la que existe una significativa relación lineal simple entre X y Y. Sin
embargo, parece más apropiado tener un modelo curvilíneo entre las dos variables.
Este efecto se resalta en la figura 17 .8(b ), que es la gráfica residual de e; contra X;.
Aquí se tiene un efecto curvilíneo obvio entre X; y e;. Al graficar los residuos hemos
dejado fuera o eliminado la tendencia lineal de X con Y, exponiendo, en conse-
cuencia, la falta de ajuste en el modelo lineal simple. Así pues, de (a) y (b) podemos
llegar a concluir que el modelo curvilíneo puede ser un mejor ajuste y debería eva-
luársele en lugar del modelo lineal simple (véase sección 18.11 para un análisis más
detallado sobre ajuste de modelos curvilíneos).
Ya que hemos tomado en cuenta la figura 1 7.8, regresemos a la evaluación de
los datos sobre la tienda departamental. En la tabla 17.4 se representan los valores

Tabla 17.4 Valores observados, predichos y de residuo correspondientes a los


datos de las tiendas departamentales.
Ventas semanales
Número de Residuos estan-
Observación clientes X; Observadas Predichas Residuos darizados SR;
1 907 11.200 10.341 0.859 1.81
2 926 11.050 10.506 0.544 1.15
3 506 6.840 6.840 -0.000 -0.00
4 741 9.210 8.891 0.319 0.65
5 789 9.420 9.310 0.110 0.22
6 889 10.080 10.183 -0.103 -0.22
7 874 9.450 10.052 -0.602 -1.25
8 510 6.730 6.875 -0.145 -0.31
9 529 7.240 7.041 0.199 0.42
10 420 6.120 6.089 0.031 0.07
11 679 7.630 8.350 -0.720 -1.48
12 872 9.430 10.035 -0.605 -1.26
13 924 9.460 10.489 -1.029 -2.18
14 607 7.640 7.722 -0.082 -0.17
15 452 6.920 6.369 0.551 1.21
16 729 8.950 8.787 0.163 0.33
17 794 9.330 9.354 -0.024 -o.os
18 844 10.230 9.791 0.439 0.91
19 1,010 11.770 11.240 0.530 1.17
20 621 7.410 7.844 -0.434 -0.90

738 Capítulo 17 Regresión lineal simple y correlación


observados, predichos y residuales de la variable de respuesta (ventas semanales)
del modelo lineal simple que hemos ajustado. También hemos calculado los resi-
duos estandarizados. Éstos representan a cada residuo dividido entre su error están-
dar. El residuo estandarizado se expresa como en la ecuación (17.15).

Residuos estandarizados
(17.15)

en la que
1 (X; - X)z
h¡ -+
n "
L,x; - nx 2

i=1

Los valores estandarizados nos permiten tomar en cuenta la magnitud de los resi-
duos en unidades que reflejen la variación estandarizada alrededor de la línea de
regresión. En la figura 17.9, los residuos estandarizados fueron graficados en fun-
ción de la variable independiente (número de clientes). De ésta podemos observar
que, a pesar de que existe una dispersión amplia en la gráfica de residuos, no existe
un patrón evidente o una relación entre los residuos estandarizados y X¡. Los resi-
duos parecen estar equitativamente distribuidos por arriba y por abajo de O, para
diferentes valores de X. Así pues, podemos llegar a la conclusión, con respecto a los
datos de la tienda departamental, que el modelo ajustado parece ser adecuado.

2 -

1 - • • •
(/)

o
'O •
al • • •
N
·e:
o •
"'e:
'O • • •
~Cl>

(/)
o -1 - •
"
'
'O
·¡¡;
Cl>
a:

-2 -

-3 A 1 1 1 1 1 1 1
y
o 400 500 600 700 800 900 1000
Número de clientes

Figura 17.9
Gráfica de los residuos estandarizados frente al número de clientes.

17.9.J Evaluación de las suposiciones


e Homoscedasticidad La suposición de homoscedasticidad (véase sección
17.8) se puede evaluar también a partir de una gráfica de SR; con X;. Para los datos
de la tienda departamental, no parece que haya diferencias importantes en la

Diagnóstico de Regresión:Análisis Residual 739


Figura 17.1 o
Violaciones a la .........,.,,....,.,,.
.. ................,,....,.....,.._,...,..........,................._......................
~x

homoscedasticidad.

variabilidad de SR¡ para diferentes valores de X¡ (véase figura 17 .9 de la página 739).


Así pues, podemos llegar a la conclusión de que para nuestro modelo ajustado no
existe una violación evidente de la suposición de igual varianza en cada nivel de X.
Si deseáramos observar un caso en el que la suposición de homoscedasticidad es
violada, deberíamos examinar la gráfica hipotética de SR¡ con con respecto a X¡ que
presentamos en la figura 17.10. En esta gráfica hipotética parece existir un efecto de
abanico en el que la variabilidad de los residuos aumenta conforme X se incrementa,
mostrando la falta de homogeneidad en las varianzas de Y¡ en cada nivel de X.

e Normalidad La suposición de normalidad en el análisis de regresión (véase


sección 17 .8) también puede evaluarse a partir de un análisis de residuos, mediante
la representación de los residuos estandarizados en una distribución de frecuencias
y mostrando los resultados en un histograma (véase capítulo 3).
Para los datos de la tienda departamental, los residuos estandarizados han sido
acomodados en una distribución de frecuencias como se muestra en la tabla 17.5,
y los resultados se presentan en la figura 17 .11. Es difícil evaluar la suposición de
normalidad para una muestra de sólo 20 observaciones, y los procedimientos for-
males de prueba para hacerlo están más allá del nivel del presente texto (véase re-
ferencia 14). Aunque pudimos haber desarrollado, también, una gráfica de
probabilidad normal (véase sección 8.5), en la figura 17 .11 podemos observar que
los datos parecer tener, aproximadamente, un forma de campana. En consecuen-
cia, parece razonable llegar a la conclusión de que no existe una evidencia con-
tundente de una violación de la suposición de normalidad.

Tabla 17.5 Distribución de frecuen-


cias de 20 valores de residuos estan-
darizados correspondientes a los datos
de los almacenes departamentales.
Residuos estandarizados No.
-2.8 pero menos que -2.0 1
-2.0 pero menos que -1.2 3
-1.2 pero menos que -0.4 2
-0.4 pero menos que +0.4 8
+0.4 pero menos que + 1.2 4
+ 1.2 pero menos que +2.0 2
+2.0 pero menos que +2.8 _Q_
Totales 20

740 Capítulo 17 Regresión lineal simple y correlación


8

6
.¡i¡ 5
,e
:ep,
:::J
'o 4
·~
3

Figura 17.11
Gráfica de los residuos estandarizados para los datos de los
almacenes departamentales.

e Independencia La suposición de independencia, analizada en la sección


17.8, puede ser evaluada si graficamos los residuos con el orden o la secuencia en
que se fueron obteniendo los datos observados. Los datos recolectados por perio-
dos a menudo muestran un efecto de autocorrelación entre observaciones sucesi-
vas. Esto es, existe una correlación entre una observación particular y los valores
que le anteceden y le suceden. Tales patrones, que violan la suposición de inde-
pendencia, se hacen evidentes fácilmente en la gráfica de los residuos contra el
tiempo en que fueron recolectados. Este efecto puede medirse con la estadística de
Durbin-Wa~son, que será el tema de estudio de la sección 17.10.

Problemas de la sección 17. 9


e 17.36 Refiérase al problema sobre ventas de alimento para mascotas (páginas 716,
725 y 728), lleve a cabo un análisis de residuos de los resultados y determine
lo adecuado del ajuste del modelo.
17.37 Refiérase al problema de la elección de lugar (páginas 716, 725 y 728), lleve a
cabo un análisis de residuos de los resultados y determine lo adecuado
respecto al ajuste del modelo.
e 17.38 Refiérase al problema de la producción horas-trabajador (páginas 717, 725 y
728), lleve a cabo un análisis de residuos de los resultados y determine lo
adecuado del ajuste del modelo.
17.39 Refiérase al problema de la producción de tomates (páginas 718, 725 y 728),
lleve a cabo un análisis de residuos de los resultados y determine lo adecuado
del a juste del modelo.
17.40 Refiérase al problema de la productividad de encuestadores (páginas 718, 726
y 728), lleve a cabo un análisis de residuos de los resultados y determine lo
adecuado del ajuste del modelo.
17.41 Refiérase al problema de transporte hacia el aeropuerto (páginas 718, 726 y
728), lleve a cabo un análisis de residuos de los resultados y determine lo
adecuado en cuanto al ajuste del modelo.

Diagnóstico de regresión: análisis residual 741


Medición de la autocorrelación:
la estadística de Durbin-Watson

1 7 .1 O. 1 Introducción
Una de las suposiciones del modelo de regresión básico que hemos tomado en
cuenta es la independencia de los residuos. Esta suposición es violada a menudo
cuando los datos se recaban en periodos secuenciales, debido a que un residuo en
cualquier punto del tiempo puede tender a ser parecido a los residuos que se
encuentran en puntos de tiempo adyacentes. Así pues, es más probable que los
residuos positivos estén seguidos de residuos positivos, y los residuos negativos
vengan seguidos de residuos negativos. A este patrón que aparece en los residuos
se le conoce como autocorrelación. Cuando se tiene presente una autocorrelación
sustantiva en un conjunto de datos, la validez de un modelo de regresión ajustado
puede ponerse seriamente en dudas.

1 7. 1 0.2 Gráfica de residuos para


detectar la autocorrelación
Como mencionamos en la sección 17. 9, la manera más sencilla de detectar la auto-
correlación en un conjunto de datos consiste en graficar los residuos o los residuos
estandarizados en orden cronológico. Si se encuentra presente un efecto de auto-
correlación positiva, se tienen agrupaciones de residuos con el mismo signo y se
detectará fácilmente la presencia de un patrón evidente. Para ilustrar el efecto de
autocorrelación, examinaremos el siguiente ejemplo.
Recuerde que en las secciones 17.2 a 17.4 desarrollamos un modelo de regre-
sión para predecir las ventas semanales basándonos en el número de clientes de
una muestra de 20 tiendas departamentales. Suponga que el gerente de la deci-
moséptima tienda departamental enumerada en la tabla 17.1 de la página 715
desea predecir las ventas semanales basándose en el número de clientes que
acudieron a la tienda durante un periodo de 15 semanas. En esta situación, puesto
que los datos son recolectados durante un periodo de 15 semanas consecutivas en
la misma tienda, necesitaríamos preocuparnos por el efecto de autocorrelación de
los residuos. Los datos correspondientes a esta tienda se resumen en la tabla 17.6
de la página 743.
En la figura 17 .12 se representa el resultado parcial obtenido con el paquete
MINITAB.

The' re9X'~·ssi:on eqúatíó'n ité ··• · · · . •'


Sales ·= _, ,.·1.6_. o. ,•¡'
~
".;:
.o .. 0·3 o e cue~óliler: ·, ·'r ·'

'!\, ..; 1·1 '', 1 .i··

J;)rE!dictOX" ¡:< .·• ... ' eo~·f·' Stdev ' ·t;.ratio ·" p
Constant. ·· -16. 032 · 5·,.310 · '-3 .:02! 0.010
· · Cuetom·er ' ·o. 030760 ·:" o; o·ó6159 ·•· · ·s. o.o·,> O'~'OQO
'1i':

~ = él •.. 9360; 65. 7' ;R-s'q ( adj } . :c · '63 .• l t

Dur}:)in-Watson statistic = o.88


·.::'.· 1 •; • •• 1 ~ •

Figure 17.11
Resultados obtenidos con MINITAB para los datos de la tabla 17 .6.

741 Capítulo 17 Regresión lineal simple y correlación


Tabla 17 .e Clientes y ventas para un
periodo de 15 semanas
consecutivas.
Semana Clientes Ofertas ($000)
1 794 9.33
2 799 8.26
3 837 7.48
4 855 9.08
5 845 9.83
6 844 10.09
7 863 11.01
8 875 . 11.49
9 880 12.07
10 905 12.55
11 886 11.92
12 843 10.27
13 904 11.80
14 950 12.15
15 841 9.64

Observamos de la figura 17.12 que res 0.657, lo cual indica que 65.7% de la
variación de las ventas puede explicarse por la variación en el número de clientes.
Además, la intersección con el eje Y, b0 , es-16.032, mientras que la pendiente, b 1 ,
es de 0.03076. Sin embargo, antes de que podamos aceptar la validez de este mode-
lo, debemos efectuar análisis adecuados de los residuos. Puesto que los datos han
sido recabados en un periodo de 15 semanas consecutivas, los residuos deben grafi-
carse con respecto al tiempo para ver si existe algún patrón. En la figura 17.13 se
representa la gráfica para los datos de la tabla 17.6.
', j .
. ',:'·
.. l'. 2·+ *

Figura 17.13
Gráfica obtenida con MINITAB de los residuos estandarizados con respecto al tiempo para los
datos de la tabla 17.6.

En la figura 17 .13 observamos que los puntos tienden a fluctuar vertical-


mente formando un patrón cíclico. Tal patrón nos daría un fuerte motivo de
preocupación con respecto a la correlación de los residuos y, en consecuencia,
con respecto también a un violación de la suposición de independencia de los
residuos.

Medición de la autocorrelación: la estadística Durbin-Watson 743


17.10.3 El procedimiento Durbin-Watson
Además de las gráficas de residuos, la autocorrelación también se puede detectar y
medir utilizando la estadística de Durbin-Watson. Ésta mide la correlación de
cada residuo y el residuo del periodo inmediato anterior al periodo de interés. La
estadística de Durbin-Watson (D) se define como:

(17.16)

en la que e¡ = residuo en el periodo i.


Aunque el cálculo de la estadística de Durbin-Watson se puede obtener fácil-
mente con la mayoría de los paquetes de software estadístico (véase figura 17 .12 de
la página 742), por cuestiones ilustrativas, en la tabla 17 .6 se resumen los cálculos
de dicha estadística correspondientes a los datos de la tabla 17. 7.
Tabla 17.7 Cálculo de la estadística de Durbin-Watson para el análisis de regresión correspondiente a la tienda
departamental.
/\
Semana Ofertas (Y;) Y¡ e¡= Y; - Y; e¡ - i (e; - e¡_ 1) (e¡ - e¡_ 1) 2 e.2
1

1 9.33 8.3914 0.93857 * * 0.88092


2 8.26 8.5452 -0.28523 0.93857 -1.22380 1.49769 0.08136
3 7.48 9.7141 -2.23412 -0.28523 -1.94889 3.79817 4.99128
4 9.08 10.2678 -1.18780 -2.23412 1.04632 1.09478 1.41087
5 9.83 9.9602 -0.13020 -1.18780 1.05760 1.11852 0.01695
6 10.09 9.9294 0.16056 -0.13020 0.29076 0.08454 0.02578
7 11.01 10.5139 0.49612 0.16056 0.33556 0.11260 0.24613
8 11.49 10.8830 0.60699 0.49612 0.11088 0.01229 0.36844
9 12.07 11.0368 1.03319 0.60699 0.42620 0.18165 1.06749
10 12.55 11.8058 0.74419 1.03319 -0.28901 0.08352 0.55381
11 11.92 11.2214 0.69863 0.74419 -0.04556 0.00208 0.48809
12 10.27 9.8987 0.37132 0.69863 -0.32731 0.10713 0.13788
13 11.80 11.7-751 0.02495 0.37132 -0.34637 0.11997 0.00062
14 12.15 13.1900 -1.04002 0.02495 -1.06497 1.13416 1.08165
15 9.64 9.8372 -0.19716 -1.04002 0.84286 0.71042 0.03887
n n
L (e; -
i=2
e;_ 1 )2 = 10.058 Li e~ = 11.39
1=1

Para tener un mejor entendimiento de qué es lo que la estadística de Durbin-


Watson está midiendo, necesitamos examinar la composición de la estadística D
n
presentada en la ecuación (17.16). El numerador, L (e; -e¡_ 1 )2 representa la
i= 2
diferencia al cuadrado de dos residuos sucesivos, sumadas desde la segunda obser-
vación hasta la n-ésima. El denominador representa la suma de los residuos al
n
cuadrado, Le~. Cuando residuos sucesivos están correlacionados positivamente,
i=I
el valor de D se aproximará a cero. Si los residuos no están correlacionados, el valor
de D estará cercano a dos. (Si se presenta una autocorrelación negativa, lo cual rara
vez sucede, D tomará un valor mayor que dos e, incluso, puede aproximarse a su
valor máximo de cuatro.)

744 Capítulo 17 Regr~sión lineal simple y correlación


Para nuestros datos de la figura 17.7, utilizamos la ecuación (17.16) y
obtenemos:

D = 10.058 = .883
11.39

El punto crucial en la utilización de la estadística de Durbin-Watson, está en la de-


terminación de cuándo la autocorrelación es lo suficientemente grande para hacer
que la estadística D caiga, de tal forma abajo de 2, que cause preocupación acerca
de la validez del modelo. La respuesta a esta pregunta depende del número de
observaciones analizadas y del número de variables independientes en el modelo
(en regresión lineal simple, p = 1). La tabla 17.8 ha sido extractada del apéndice E,
tabla E.14, la tabla de la estaedística de Durbin-Watson.

Tabla 17.8 Búsqueda de los valores críticos de la estadística de Durbin-Watson.


a= .05 a= .01
p=l p=2 p=3 p=4 p=S p=l p=2 p=3 p=4 p=S
n di du di du di du di du di du n di du di du di du di du di du
~í'$~1:1 1 ~~1~lU~ 1~ .95 1.54 .82 1.75 .69 1.97 .56 2.21 15 .81 1.07 .70 1.25 .59 1.46 .49 1.70 .39 1.96
16 1.10 1.37 .98 1.54 .86 1.73 .74 1.93 .62 2.15 16 .84 1.09 .74 1.25 .63 1.44 .53 1.66 .44 1.90
17 1.13 1.38 1.02 1.54 .90 1.71 .78 1.90 .67 2.10 17 .87 1.10 .77 1.25 .67 1.43 .57 1.63 .48 1.85
18 1.16 1.39 1.05 1.53 .93 1.69 .82 1.87 .71 2.06 18 .90 1.12 .80 1.26 .71 1.42 .61 1.60 .52 1.80
19 1.18 1.40 1.08 1.53 .97 1.68 .86 1.85 :75 2.02 19 .93 1.13 .83 1.26 .74 1.41 .65 1.58 .56 1.77

90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 90 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78 95 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 100 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65
Nota: n =número de observaciones; p = número de variables independientes.
Fuente: Tabla E.14.

En la tabla 17 .8 observamos que se muestran dos valores por cada combi-


nación de nivel de significación (a), n (tamaño de muestra) y p (número de varia-
bles independientes en el modelo). El primero, dv representa el valor crítico
inferior cuando no existe autocorrelación en los datos. Si D está por debajo de di
podemos llegar a la conclusión de que hay autocorrelación entre los residuos. En
esta circunstancia, no resultan apropiados los métodos de mínimos cuadrados que
hemos estudiado en el presente capítulo y es necesario utilizar métodos alterna-
tivos (véanse referencias 5 y 12). El segundo, du, representa el valor crítico superior
de D, por encima del cual llegaríamos a la conclusión de que no existe evidencia
de autocorrelación entre los residuos. Si D está entre di y du no estamos en condi-
ciones de llegar a ninguna conclusión definitiva.
Así pues, como se ilustra en la tabla 17.8, para los datos concernientes al ejem-
plo de una sola tienda departamental, con una variable independiente (p = 1) y 15
observaciones (n = 15), di= 1.08 y du = 1.36. Puesto que D = 0.883 < 1.08, podemos
llegar a la conclusión de que hay autocorrelación entre los residuos. Nuestro análi-
sis de los datos de la figura 17.12, que se obtuvieron con la suposición de que el
método de mínimos cuadrados era apropiado, no debe seguir adelante debido a la
existencia de una fuerte autocorrelación entre los residuos. Necesitamos tomar en
consideración los planteamientos alternativos que se analizan en las referencias 5
y 12.

Medición de la autocorrelación: la estadística Durbin-Watson 745


Problemas de la sección I 7. I O
17.42 ¿En que circunstancias sería importante calcular la estadística de Durbin-
Watson?
e 17.43 Refiérase al problema 17 .1 (correspondiente a las ventas de alimento para
mascotas). ¿Es necesario calcular la estadística de Durbin-Watson? Explique su
respuesta.
17.44 Refiérase al problema 17.1 (correspondiente a las ventas de alimento para
mascotas). ¿En qué circunstancias sería necesario obtener la estadística de
Durbin-Watson antes de poner en práctica el método de mínimos cuadrados
del análisis de regresión?
17.45 Suponga que los residuos correspondientes a un conjunto de datos recolectados
durante 10 periodos consecutivos son los siguientes:

Periodo Residuo
1 -5
2 -4
3 -3
4 -2
5 -1
6 +1
7 +2
8 +3
9 +4
10 +5

(a) Grafique los residuos con respecto al tiempo. ¿A qué conclusiones puede
llegar con respecto al patrón de los residuos en el tiempo?
(b) Calcule la estadística de Durbin-Watson.
(c) Basándose en los resultados obtenidos en los incisos (a) y (b), ¿a qué
conclusión podría usted llegar con respecto a la autocorrelación de los
residuos?
17.46 Suponga que los residuos correspondientes a un conjunto de datos recolectados
durante 15 periodos consecutivos son los siguientes:

Periodo Residuo
1 +4
2 -6
3 -1
4 -5
5 +2
6 +5
7 -2
8 +7
9 +6
10 -3
11 +l
12 +3
13 o
14 -4
15 -7

(a) Grafique los residuos con respecto al tiempo. ¿A qué conclusiones puede
usted llegar con respecto al patrón de los r~siduos en el tiempo?

746 Capítulo 17 Regresión lineal simple y correlación


(b) Calcule la estadística de Durbin-Watson. Al nivel de significación de 0.05,
¿existe evidencia de autocorrelación positiva entre los residuos?
(c) Basándose en los resultados obtenidos en los incisos (a) y (b), ¿a qué
conclusión podría usted llegar con respecto a la autocorreladón de los
residuos?

''ª'' Estimación del intervalo de


confianza para predecir µyx
En las secciones 17 .1 a 17. 7 nos interesamos por el uso de la regresión y de la corre-
lación exclusivamente con el objetivo de descripción. El método de mínimos
cuadrados ha sido utilizado para determinar los coeficientes de regresión y para
predecir el valor de Y a partir de un valor dado de X. Además, hemos estudiado el
error estándar de la estimación junto con los coeficientes de correlación y de deter-
minación.
Ahora que en la sección 17.9 hemos utilizado el análisis de residuos para ase-
gurarnos que las suposiciones del modelo de regresión de mínimos cuadrados no
han sido violadas y que el modelo de línea recta es adecuado, podemos centrar
nuestro interés en hacer inferencias con respecto a la relación entre las variables de
una población, basados en nuestros resultados de muestra. En la presente sección
analizaremos los métodos para hacer inferencias de predicción acerca de la media
de Y, y en la sección siguiente haremos la predicción de un valor de respuesta indi-
vidual, Y1•
Podemos recordar que en la sección 17.4 la ecuación de regresión ajustada fue
utilizada para hacer predicciones acerca del valor de Y para una X dada. En el
problema de los almacenes departamentales, por ejemplo, pronosticamos que las
ventas semanales :promedio para tiendas con 600 clientes deberían ser de 7.661 (en
miles de dólares). Esta, sin embargo, es una mera estimación puntual del verdadero
valor promedio. En el capítulo 10 desarrollamos el concepto de intervalo de con-
fianza como una estimación del promedio de población. De manera parecida,
podemos desarrollar ahora una estimación de intervalo de confianza para hacer
inferencias acerca del valor promedio predicho de Y:

i' .. ,

: (17.17)

en la que2
1
h, -+ n
n
¿x¡ - nX 2
i=l

y" " b0 + b 1X;


= valor predecido de Y; Y;=
Syx = error estándar del estimado
n = tamaño de la muestra
X; = valor dado de X
Un examen de la ecuación (17.17) nos indica que el ancho del intervalo de con-
fianza depende de varios factores. Para un nivel dado de confianza, una variación
aumentada alrededor de la línea de regresión, medida a través del error estándar de
la estimación, tiene como resultado un intervalo más amplio. Sin embargo, como
se esperaría, un tamaño de muestra aumentado reduce el ancho del intervalo.

Estimación del intervalo de confianza para predecir µyx 747


Adtinb, el uncho del intervalo también varía a diferentes valores de X. Cuando
prcdt!dmos Y para valores de X cercanos a X, el intervalo es mucho más estrecho
que cuando pronosticamos para valores de X más alejados de la media. Este efecto
puede verse de la parte correspondiente a la raíz cuadrada de la ecuación (17 .17) y
de la figura 17.14.

Figura 17.14
Estimaciones de
intervalo de IJrx
para diferentes
valores de X.

Como se ve en la figura 17 .14, la estimación de intervalo de la media verdadera


de Y varía de manera hiperbólica como función de la cercanía del valor dado de X
al promedio X. Cuando se van a hacer predicciones para valores de X que se
encuentran alejados del valor promedio de X, el intervalo mucho más amplio es el
cambio en cuanto a la predicción de tales valores de X. Así pues, como se presenta
en la figura 17.14, observamos un efecto de banda de confianza para la predicción.
Utilicemos ahora la ecuación (17.17) en nuestro problema de las tiendas depar-
tamentales. Suponga que deseamos un intervalo de confianza del 95% de las ven-
tas semanales promedio para todas las tiendas con 600 clientes. Calculamos lo
siguiente:
/\
Y¡ = 2.423 + .00873X¡

y para X¡= 600 obtenemos Y¡= 7.661.


También,

.X = 731.15 Svx = .497


n
:¿ x; = 11,306,209
i=l

De la tabla E.3, t 18 = 2.1009. Por consiguiente

en la que
1
h¡ =- + n
n
:¿x; - ¿z
i=l

de modo que tenemos

748 Capitulo 17 Regresión lineal simple y correlación


y

7.661 ± (2.1009)(.497) __!__ + (600 - 73 Ll 5 )2


20 11,306,209 - 20(731.15) 2

(-131.15) 2
= 7.661 ± (1.044) -1+
20 11,306, 209 - 10,691, 606

= 7.661 ± (1.044).J .078


= 7.661 ± .292
así

7.369 ::; µyx ::; 7.953

Por consiguiente, nuestra estimación es que las ventas semanales promedio


están entre 7.369 (es decir $7, 369) y 7.953 (es decir, $7,953) para almacenes con
600 clientes.

Problemas de la sección I 7. I I
e 17.4 7 Refiérase al problema de las ventas de alimento para mascotas (páginas 716,
725 y 728), establezca una estimación de intervalo de confianza del 90% de las
ventas semanales promedio para todas las tiendas que poseen ocho pies de
espacio en estante por alimento para mascotas.
17.48 Refiérase al problema de elección de lugar (páginas 716, 725 y 728), establezca
una estimación de intervalo de confianza del 95% de las ventas promedio para
tiendas con 4,000 pies cuadrados.
e 17.49 Refiérase al problema de la producción horas-trabajador (páginas 717, 725 y
728), establezca una estimación de intervalo de confianza del 90% de las
horas-trabajador promedio para todas las corridas de producción con un
tamaño de lote de 45.
17.50 Refiérase al problema de la producción de tomates (páginas 718, 725 y 728),
establezca una estimación de intervalo de confianza del 90% de la producción
promedio para todos los tomates que han sido fertílízados con 15 libras por
cada 100 pies cuadrados de fertilizante orgánico natural.
17.51 Refiérase al problema sobre la productividad de encuestadores (páginas 718,
726 y 728), establezca una estimación de intervalo de confianza del 95% del
número promedio de entrevistas llevadas a efecto por todos los encuestadores
que tienen 20 semanas de experiencia.
17.52 Refiérase al problema de transporte desde el aeropuerto (páginas 718, 726 y
728), establezca una estimación de intervalo de confianza del 95% del tiempo
promedio de transporte para todas las distancias de 21 millas.

1Ji fl Intervalo de predicción


para una respuesta individual Y1
Además de la necesidad de obtener una estimación de intervalo de confianza para
el valor promedio, a menudo es importante tener la capacidad de predecir la

Intervalo de predicción para una respuesta individual Y1 749


respuesta que se obtendría para un valor individual. A pesar de que la forma del
intervalo de predicción es parecida a la estimación del intervalo de confianza de la
ecuación (17.17), el intervalo de predicción está estimando un valor individual, no
un parámetro. Así pues, el intervalo de predicción para una respuesta individual Y1,
en un valor particular de X; está dado por la ecuación (17 .18).

(17.18)

/\
en la h;, Y;, Syx, n, y X; que se definen del mismo modo que para la ecuación
(17.17) de la página 747.
Suponga que deseamos una estimación de intervalo de predicción del 95% de
las ventas semanales para una tienda individual con 600 clientes. Calculamos lo
siguiente:
/\
Y; = 2.423.+ .00873X;
/\
y para X;= 600, Y;= 7.661.
También

X = 731.15 Syx = .497


11 11

LX¡ = 14,623 LX ¡2 = 11,306,209


i=l i =1

De la tabla E.3, t 18 = 2.1009. Por tanto

de modo que

1
l+-+------
(X; - X )2
n
- nx
11

:¿x~ 2

; = 1

1 (600 - 731.15) 2
7.661 ± (2.1009)(.497) 1 + - + - - - - - - - - -
20 11,306,209 - 20(731.15 )2

= 7.661 ± (1.044) 1 + J_ + (-131.15)2


20 11,306,209 - 10,691,606

= 7.661 ± (1.044)~1.078
= 7.661 ± 1.084
así

6.577 ::; Y1 ::; 8.745

Por consiguiente, con una confianza del 95%, nuestra estimación es que las ventas
semanales para una sola tienda que tiene 600 clientes están entre 6.577 (es decir
$6,577) y 8.745 (esto es, $8,745). Observamos que este intervalo de predicción es

750 Capítulo 17 Regresión lineal simple y correlación


mucho más amplio que la estimación de intervalo de confianza obtenida en la sec-
ción 17 .11 para el valor promedio.

Problemas de la sección 17.12


e 17.53 Refiérase al problema 17.47 de la página 749 (concerniente a las ventas de
alimento para mascota).
(a) Establezca un intervalo de predicción del 90% de las ventas semanales de
una tienda individual que tiene ocho pies de espacio en estantes para
alimento de mascotas.
{b) Explique la diferencia de los resultados obtenidos en el inciso (a) y los
obtenidos en el problema 17.47.
17.54 Refiérase al problema 17.48 de la página 749 (concerniente a la elección de
lugar).
(a) Establezca un intervalo de predicción del 95% de las ventas de una tienda
individual que tiene 4,000 pies cuadrados.
(b) Explique la diferencia en los resultados obtenidos en el inciso (a) y los
obtenidos en el problema 1 7.48.
e 17.55 Refiérase el problema 17.49 de la página 749 (concerniente a la producción
horas-trabajador), establezca un intervalo de predicción del 90º/c¡ del número
de horas-trabajador para un solo lote de 45 elementos.
17.56 Refiérase al problema 17.50 de la página 749 (concerniente a la producción de
tomates), establezca un intervalo de predicción del 90% de la producción de
tomates para una parcela individual que ha sido fertilizada con 25 libras por
cada 100 pies cuadrados de fertilizante orgánico natural.
17 .5 7 Refiérase al problema 17.51 de Ja página 749 (concerniente a la productividad
de los encuestadores), establezca un intervalo de predicción del 95% del
número de entrevistas llevadas a cabo por un entrevistador con 20 semanas de
experiencia.
17 .58 Refiérase al problema 17 .52 de la página 749 (concerniente al transporte hacia
el aeropuerto), establezca un intervalo de predicción del 95<y¡¡ del tiempo de
transporte para un viaje individual de 21 millas.

lf8fi Inferencias respecto a los parámetros


de población en regresión y correlación
En las dos secciones anteriores utilizamos la inferencia estadística para desarrollar
una estimación de intervalo de confianza para µyx, la media verdadera de Y, y un
intervalo de predicción para Y1, una observación individual. En la presente sección,
utilizaremos la inferencia estadística para llegar a conclusiones acerca de la pendi-
ente, ~ 1 , y del coeficiente de correlación de la población, p.
Podemos determinar si existe una relación significativa entre las variables X y
Y al probar si ~ 1 (la pendiente verdadera) es igual a cero. Si esta hipótesis es recha-
zada, se puede llegar a la conclusión de que existe evidencia de una relación lineal.
Las hipótesis nula y alternativa se pueden establecer de la manera siguiente:

H 0: ~1 =O (No hay relación.)


H 1: ~ 1 *o (Hay relación.)

y la estadística de prueba para probar la hipótesis está dada por:

t (17.19)

Interferencias respecto a los parámetros de población en regresión y correlación 7S 1


en la que

11

L x¡ - n5U
i =1

y la estadística de prueba t sigue una distribución t con n - 2 grados de libertad.


Regresando a nuestro ejemplo de los almacenes departamentales, probemos
ahora si los resultados de muestra nos permiten llegar a la conclusión de que existe
una relación, al nivel de significación de O.OS, entre el número de clientes y las
ventas semanales. Los resultados obtenidos en las secciones 17.4 y 17 .5 nos pro-
porcionan la siguiente información:

b¡ = +.00873 n = 20 Syx = .497


11

x = 731.15 I X;2 = 11, 306, 209


i= l

Por consiguiente, para probar la existencia de una relación al nivel de significación


de O.OS, tenemos (véase figura 17.15)

.497
.4 97 = .000634
ji 1, 306, 209 - 20(731.15) 2 j614,603

y, bajo la hipótesis nula, 13 1 = O de modo que


t =

.00873 = 13.77
.000634

Figura 17.15
Prueba de una hipótesis acerca de
la pendiente de población al nivel de
significación de 0.05, con 18 grados
de libertad.

Como t = 13.77 > t 18 = 2.1009, rechazamos H0 . En consecuencia, podemos


concluir que existe una relación lineal significativa entre las ventas promedio
semanales y el número de clientes.
Un segundo método equivalente para probar la existencia de una relación li-
neal entre las variables consiste en establecer una estimación de intervalo de con-
fianza de 13 1 y determinar si el valor supuesto (13 1 = O) está incluido en el intervalo.
La estimación de intervalo de confianza de 13 1 se obtendría mediante el uso de la
siguiente fórmula:

752 Capítulo 17 Regresión lineal simple y correlación


(17.20)

Si se deseara, en este caso, una estimación de intervalo de confianza de 95<YcJ,


tendríamos b1 = +0.00873, t 18 = 2.1009 y Sb 1 = 0.000634. Así pues,

b 1 ± t,,_ 2 5¡,, = +.00873 ± (2.1009)(.000634)


= +.00873 ± .00133
+.0074 :,; ~I :,; +.01006

De la ecuación (17.20) la pendiente verdadera se estima, con una confianza de


95%, entre +0.0074 y +0.01006 (es decir, $7.40 y $10.06). Puesto que estos valores
están por arriba de cero, podemos llegar a la conclusión de que existe una relación
lineal significativa entre las ventas semanales y el número de clientes.
Por otro lado, si el intervalo hubiera incluido al cero, no se hubiera determina-
do ninguna relación.
Un tercer método para examinar la existencia de una relación lineal entre dos
variables implica al coeficiente de correlación de la muestra, r. La existencia de una
relación entre X y Y, que fue probada utilizando la ecuación (17.19), podría pro-
barse en términos del coeficiente de correlación con resultados equivalentes. La
prueba de la existencia de una relación lineal entre dos variables es lo mismo que
determinar si se tiene alguna correlación significativa entre ellas. Se hace la hipóte-
sis de que el coeficiente de correlación de la población p, es igual a cero. Así pues,
las hipótesis nula y alternativa serían:

H0: p =O No hay correlación


H 1: p -F O Hay correlación

La estadística de prueba para determinar la existencia de una correlación signi-


ficativa está dada por:

r-p
t = (17.21)
fl=__C_
~n-2

en la que la estadística de prueba t sigue una distribución t que tiene n - 2 grados


de libertad.
Con el propósito de mostrar que esta estadística produce el mismo resultado
que la prueba de la existencia de una pendiente [ecuación (17.19)], usaremos los
datos correspondientes a los almacenes departamentales. Para estos datos, r = + .956,
? = .913 y n = 20, de modo que al probar la hipótesis nula tenemos

r
t
/i7
f~

Interferencias respecto a los parámetros de población en regresión y correlación 753


t = ·956 = 13.75
~
vzo=-z
Podemos observar que este valor de tes, excepto por un posible error de redondeo,
el mismo que obtuvimos al utilizar la ecuación (17.19). Por consiguiente, en un
análisis de regresión lineal, las ecuaciones (17.19) y (17.21) dan formas alternati-
vas equivalentes de determinar la existencia de una relación entre dos variables.
Sin embargo, si el único propósito de un estudio en particular consiste en deter-
minar la existencia de la correlación, entonces la ecuación 17 .21 es más adecuada.
Por ejemplo, en la sección 17.7 estudiamos la asociación del precio de un paquete
de seis envases de una cierta marca de refresco de cola con el precio de la carne de
pollo. Si hubiéramos querido determinar la significación de la correlación entre
estas dos variables, hubiésemos podido utilizar la ecuación (17.21) de la siguiente
manera:

H0: p = O No hay correlación


H 1: p -::t= O Hay correlación

Si se seleccionara un nivel de significación de .OS, hubiéramos tenido (véase figura


17.16)

r
=
t
g
= -==.8=8=3== = .883 = +4.98
1 - (.883)2 .1774
9-2

Como t = 4.98 > t7 = 2.3646, rechazamos H 0 •

Figura 17. us
Prueba de la existencia de correlación
al nivel de significación de .05, con
siete grados de libertad.

Puesto que la hipótesis nula ha sido rechazada, llegamos a la conclusión de que


existe evidencia de una asociación entre el precio de un paquete de seis envases del
refresco de cola y el precio de la carne de pollo.
Cuando analizamos las inferencias concernientes a la pendiente de población,
se utilizaron intervalos de confianza y pruebas de hipótesis indistintamente. Sin
embargo, cuando examinamos el coeficiente de correlación, el desarrollo de un
intervalo de confianza se vuelve más complicado debido a que la forma de la dis-
tribución de muestreo de la estadística rvaría para diferentes valores del coeficiente

754 Capítulo 17 Regresión lineal simple y correlación


de correlación verdadero. En las referencias S y 12 se presentan métodos para
desarrollar una estimación de intervalo de confianza para el coeficiente de corre-
lación.

Problemas de la sección I 7. I 3
e 17.S9 Refiérase al problema sobre las ventas de alimento para mascotas (páginas 716,
72S y 728), al nivel de significación de .10, ¿existe evidencia de una relación
lineal entre el espacio en estantes y las ventas?
17.60 Refiérase al problema sobre la selección de lugar (páginas 716, 725 y 728), al
nivel de significación de .05, ¿existe evidencia de que haya una relación
lineal entre las ventas anuales y la superficie de la tienda?
e 17.61 Refiérase el problema sobre la producción horas-trabajador (páginas 717, 72S y
728), al nivel de significación de .10, ¿existe evidencia de que haya una
relación lineal entre el tamaño de lote y las horas-trabajador?
17.62 Refiérase el problema correspondiente a la producción de tomates (páginas
718, 72S y 728), al nivel de significación de .10, ¿existe evidencia de que haya
una relación lineal entre la cantidad de fertilizante utilizado y la
producción de tomates?
17.63 Refiérase al problema sobre la productividad de encuestadores (páginas 718,
726 y 728), al nivel de significación de .OS, ¿existe evidencia de que haya una
relación lineal entre el tiempo de experiencia en semanas y el número de
entrevistas llevadas a cabo?
17.64 Refiérase al problema concerniente al transporte desde el aeropuerto (páginas
718, 726 y 728), al nivel de significación de .OS, ¿existe evidencia de que haya
una relación entre la distancia y el tiempo de recorrido?
17.6S Refiérase al problema 17.34 de la página 73S, al nivel de significación de .01,
¿existe evidencia de que haya una relación lineal entre el precio de un paquete
de seis envases de refresco de cola y el precio del paquete de cien tabletas del
analgésico?
17.66 Refiérase al problema 17.3S de la página 73S, al nivel de significación de 0.10,
¿existe evidencia de que haya una relación lineal entre el precio que cobra un
estilista para damas y el de una camisa de vestir para caballero?

1ge1 Diagnóstico de regresión:


análisis de influencia

17.14.1 Introducción
El diagnóstico de regresión tiene que ver tanto con la evaluación de lo adecuado
de un modelo particular como con el efecto o influenda potenciales de cada punto
particular de dicho modelo ajustado. En la sección 17.19 hemos utilizado métodos
de análisis de residuos para estudiar lo adecuado de nuestro modelo ajustado. En
la presente sección tomaremos en consideración varios métodos para medir la
influencia de puntos de datos particulares. Entre una variedad de criterios de
reciente desarrollo (véanse referencias 1, 4, 6, 9, 20) estudiaremos los siguientes:
l. Los elementos de la matriz sombrero, h¡.
2. Los residuos de la t de Student eliminados, t~.
3. Estadística de distancia de Cook, D 1•
En la tabla 17 .9 de la página 756 se representan los valores de estas estadísticas para
los datos de los almacenes departamentales de la tabla 17.1, estos valores fueron
obtenidos con el paquete MINITAB. En la tabla 17.9 observamos que ciertos pun-
tos de datos han sido resaltados para hacerles un análisis más detallado.

Diagnóstico de regresión: análisis de influencia 7S S


Tabla 17.9 Estadísticas de influencia correspondientes a los datos de las tiendas departamentales.
Residuo de la t
Número de Ventas de Student D;
Observación clientes X; semanales Y; Residuos h¡ eliminado, t~ de Cook
9Ú7 11.20 0.859 0.100314 1.94065 0.181993
2 926 11.05 0.544 0.111774 1.16119 0.083228
3 506 6.84 -0.000 0.132480 -0.00019 0.000000
4 741 9.21 0.319 0.050158 0.64093 0.011213
5 789 9.42 O.llO 0.055445 0.21866 0.001482
6 889 10.08 -0.103 0.090541 -0.21044 0.002328
7 874 9.45 -0.602 0.083202 -1.27646 0.071436
8 510 6.73 -0.145 0.129576 -0.30200 0.007149
9 529 7.24 0.199 0.116490 0.41260 0.011765
10 420 6.12 0.031 0.207523 0.06669 0.000616
11 679 7.63 -0.720 0.054425 -1.53115 0.062781
12 872 9.43 -0.605 0.082279 -1.28165 0.071097
13 924 9.46 -1.029 0.110512 -2.46260 0.294008
14 607 7.64 -0.082 0.075078 -0.16486 0.001166
15 452 6.92 0.551 0.176789 1.22864 0.157629
16 729 8.95 0.163 0.050008 0.32562 0.002937
17 794 9.33 -0.024 0.056427 -0.04816 0.000073
18 844 10.23 0.439 0.070721 0.90428 0.031434
19 1,010 11.77 0.530 0.176516 1.17779 0.145544
20 621 7.41 -0.434 0.069741 -0.89209 0.030173

17.14.2 Los elementos de la matriz sombrero, h¡


De la sección 17 .11 podemos recordar que cuando desarrollamos una estimación
de intervalo de confianza, µyx, definimos los elementos diagonales de la
matriz sombrero, h,, como

1
h¡ =- + n
n
L X¡z - nxz
(17.22)
i =1

Cada h; refleja la influencia que tiene cada X; sobre el modelo de regresión ajus-
tado. Si tales puntos de influencia están presentes, tal vez sea necesario volver a
evaluar la necesidad de mantenerlos en el modelo. Para la regresión lineal simple 3
Hoaglin y Welsch (véase referencia 9) sugieren la siguiente regla de decisión:

Si h; > 4/n, entonces X; es un punto de influencia y puede ser considerado


como candidato a eliminarse del modelo.

Para nuestros datos sobre las tiendas departamentales, como n = 20, nuestro
criterio sería señalar cualquier valor h; mayor que 2/20 = 0.200. Refiriéndose a la
tabla 17.9, observamos que el décimo valor de h¡ (X_ 10) es de 0.2075. Esta décima
observación X es entonces un candidato potencial para su eliminación del modelo
correspondiente a los almacenes departamentales. Sin embargo, deben tomarse en
cuenta otros criterios para la medición de la influencia antes de tornar dicha
decisión.

756 Capítulo 17 Regresión lineal simple y correlación


17.14.3 Los residuos de la t de student eliminados, tf
En nuestro estudio del análisis de residuos efectuado en la sección 17.9, definimos
los residuos estandarizados en la ecuación (17.15) como

En un esfuerzo para medir mejor el impacto adverso de cada caso individual en el


modelo Hoaglin y Welsch (véase referencia 9) también desarrollaron el residuo
borrado studentizado tj dado en la ecuación (17.23):

e1
(17.23)

/\
en donde e1;1 = la diferencia entre el valor observado, Y;, y Y;, basada en un
modelo que incluye a todas las observaciones excepto a la i.
S(i) = el error estándar de la estimación para un modelo que incluye a
todas las observaciones menos a la i.

Así pues, estos residuos de t de Student eliminados miden la diferencia de cada


observación Y; de la predicha por un modelo que incluye a todas las demás obser-
vaciones. Por ejemplo, tj representa una medida de la diferencia entre las ventas
semanales reales para la primera tienda (Y1 = 11.20) y las ventas semanales que
serían predichas para esta tienda basándose en un modelo que incluya desde la
segunda hasta la vigésima tienda. En la regresión lineal simple, Hoaglin y Welsch
sugieren que si

¡t; 1 > t.10,11-3

entonces esto significaría que los valores observado y predicho de Y son tan dife-
rentes que X; es un punto de influencia que afecta negativamente al modelo y
puede ser considerado como candidato para su eliminación.
Para los datos sobre las tiendas departamentales, como n = 20, nuestro criterio
sería indicar cualquier valor de tJ que sea mayor que l. 7396 (véase tabla E.3).
Refiriéndose a la tabla 17 .9, observamos que t j = 1.941 y t{3 = -2.463. Por con-
siguiente, las tiendas primera y decimotercera pueden, cada una, tener un efecto
adverso sobre el modelo. Notamos también que la décima observación fue señala-
da según el criterio h¡, pero la primera y le décimotercera no. En consecuencia, con
esta falta de consistencia deberíamos tomar en consideración otro criterio, el cri-
terio D; de Cook, que está basado en las estadísticas h; y en los residuos estandariza-
dos.

1 7. 1 4.4 Estadística de distancia de Cook, D;


El uso de h; y tjen la búsqueda de puntos de datos conflictivos es complementario.
Ningún criterio es suficiente por sí mismo. Cuando h; es pequeño, tj puede ser
grande (veánse las observaciones 1 y 3). Por otro lado, cuando h; es grande, tj puede
ser moderado o pequeño debido a que el valor Y; observado es consistente con el
modelo y el resto de los datos. Para decidir si un punto que ha sido señalado median-

Diagnóstico de regresión: análisis de influencia 757


te el criterio h¡ o por el criterio t ! está afectando indebidamente al modelo, Cook
y Weisberg (véase referencia 6) sugieren el uso de la estadística D¡. Para el modelo
de regresión lineal simple4, D 1 se muestra en la ecuación (17.24):

en la que SR1 es el residuo estandarizado de la ecuación (17.15).


En la regresión lineal simple, Cook y Weisberg sugieren que si

D; > F.so,2,n - 2

esto significaría que la observación podría tener un impacto sobre los resultados de
ajuste del modelo de regresión lineal.
Para los datos de las tiendas departamentales, como n = 20, nuestro criterio
consistiría en señ.alar cualquier D¡ > F.so, 2, 18 = 0.720 (véase tabla E.Sa). Refiriéndose
a la tabla 17.9 de la página 756, observamos que no existen valores D¡ que cum-
plan con este criterio. Puesto que estos resultados no son consistentes con los
obtenidos según los criterios h¡ y tt no existe una clara base para eliminar
cualquiera de las observaciones del modelo de regresión ajustado.

17.14.5 Resumen
En la presente sección hemos analizado varios criterios para evaluar la influencia
de cada observación sobre el modelo de regresión. Como hemos observado, las
diferentes estadísticas a menudo no producen resultados consistentes. En tales cir-
cunstancias, la mayoría de los estadísticos llegarían a la conclusión de que hay evi-
dencias insuficientes para la eliminación de tales observaciones del modelo.
Además de los tres criterios presentados aquí, se han desarrollado otras medidas
de la influencia (véanse referencias 1 y 10). Mientras que diferentes investigadores
parecen preferir medidas particulares, actualmente no existe consenso con respecto
a las "mejores" medidas. En consecuencia, solamente cuando se tiene consistencia
en un conjunto seleccionado de medidas resulta apropiado tomar en con-
sideración la eliminación de observaciones particulares.
En conclusión, deberíamos, también, darnos cuenta de que, debido a los cálcu-
los impJicados tanto en el análisis de residuos como en el análisis de influencia, no
es práctico efectuar una evaluación de diagnóstico sin la ayuda de un paquete de
co,mputación. Sin embargo, como ha observado Tukey (véase referencia 18), es
mejor dejar la decisión real concerniente a la eliminación de cualquier observación
en manos del usuario, antes que delegar tal decisión en el paquete de computación
mismo.

Problemas de la sección 17.14


17.67 ¿Cuál es la diferencia entre el análisis de residuos y el análisis de influencia?
17 .68 Explique la diferencia que existe entre la medida h1 y t'¡.
Para los datos de los problemas 17.69 a 17.74 lleve a cabo un análisis de influencia
y determine si alguna observación puede ser eliminada del modelo. Si esto es neesario,
vuelva a analizar el modelo de regresión después de haber eliminado tales observaciones y
compare los resultados que obtenga con los del modelo original.

758 Capitulo 17 Regresión lineal simple y correlación


• 17.69
17.70
Refiérase al problema de las ventas de alimento para mascotas (páginas 716, 725, 728).
Refiérase al problema sobre selección de lugar (páginas 716, 725 y 728).

• 17.71 Refiérase al problema concerniente a la producción horas-trabajador (páginas


717, 725 y 728).
17.72 Refiérase al problema sobre la producción de tomates (páginas 718, 725 y 728).
17.73 Refiérase al problema concerniente a la productividad de los encuestadores
(páginas 718, 726 y 728).
17.74 Refiérase al problema sobre el transporte hacia el aeropuesrto (páginas 718,
726 y 728).

1fl IJ .Regn~sión, computadoras y la ericuesta


de satisfacción de empleados

17.1 S. I Introducción
Cuando estudiamos i.a estadística descriptiva y la prueba de hipótesis utilizá!IlOS la
Encuestá de Satisfacción de Emplea,dos. para ilustrar ,el papel de. la corripufad9ra
com,o una. ayuclá pai:a realizar elanáliSis de los datos; El papel de 'los paquet~s de
software de compu.tación se vuelve todavía más importante cuando s~ aplican al
análisis de regresión y de correlación,. y, en particular, a los problemas de i:egr~sión
múltiple que esttidiarem9s en el capítulo 18. Resµlta razonable establecer que c:on
el desarrollo de las técnicas de análisis de residuos y de influencia, el pa,pel que
desempefta la cómputé,ldora se ha convertido en algo decisivo, incluso enl(Js easos
en que se está considerando un mo.delo de regresión simple. ' ·

17.1 S.2 US,o de los paq~ete.s SAS, STATISTI?< '" ...


y MINITAB para el análisis de regresión
' ' '

Para.mostrar primero el papel de la computadora en ·el análisis de regresión y en el


de cqrrelac:ión re.fir4Il1()hOs al corijµnto completo ele datos .de Ja ta:bla ,.17 .1 de)\l
pág~na 715. Si se utiliza .el paquete SAS (véase referencia 16)1 se puede. ectl<iJ.: mano
de proc~diniientos como PLOTy REG. En la figura 17;;i7 se.presenta,ei.fesuitaao
parcial obtenido con PROC REG para los datos relativos al problema de los

,DEP · VARIABLE: SALES


ANALYSIS OF VARIANCE
SUM OF MEAN'
SOURCE DF .SQUARES SQUARE F VÁLuE PROB>F'
MODEL 1 SSR 46.83354090 46.83354090 186.219 0.0001
ERROR 18 SSE, 4. 52695410 · ·,o. 25149745
C TOTAL '•' 19 ~ST 51. 36049500

.ROOT MSE 0.5014952 R-SQUARE o. 9119


DEP MEAN 8.8055 AOOR~SQ 0.9070
.'
c.v. 5 .. 69525
PARl\METER ESTrMATES
PARAMETER STANDARD T )ioR, HO:
VARIABLE DF ESTIMATE E~OR·, PARA?-¡ETER=O .
'INTERCEP '1 b~ 2.42304440 o. 48096461 sb, 5.038
CUSTOMER 1 b, 0.008729338 o. 000639690 s;;1 , 13.646
VARIABLE. PROB>ITJ TYPE I SS TYPÉ I I
0
SS
INTERCEP '0.0001 1550 .736°6°0 6 .3s3ono6·
CUSTOMER · o. qoo1 46.83354090 46.83354090

Figura 17.17
Resultado obtenido con SAS para el problema de los almacenes departamentales.

Regresión, computadoras y la encuesta de emplados 759


te el criterio h¡ o por el criterio t 7está afectando indebidamente al modelo, Cook
y Weisberg (véase referencia 6) sugieren el uso de la estadística D¡. Para el modelo
de regresión lineal simple4 , D¡ se muestra en la ecuación (17.24):

·z
D>·::_ SR¡h¡
(17.24)
. ¡ 2(1::.. h,)

en la que SR¡ es el residuo estandarizado de la ecuación (17.15).


En la regresión lineal simple, Cook y Weisberg sugieren que si

D ¡ > F'.so,2,n - 2

esto significaría que la observación podría tener un impacto sobre los resultados de
ajuste del modelo de regresión lineal.
Para los datos de las tiendas departamentales, como n = 20, nuestro criterio
consistiría en señalar cualquier D¡ > F.so, 2, 18 = 0.720 (véase tabla E.5a). Refiriéndose
a la tabla 17.9 de la página 756, observamos que no existen valores D¡ que cum-
plan con este criterio. Puesto que estos resultados no son consistentes con los
obtenidos según los criterios h¡ y tf, no existe una clara base para eliminar
cualquiera de las observaciones del modelo de regresión ajustado.

17.14.5 Resumen
En la presente sección hemos analizado varios criterios para evaluar la influencia
de cada observación sobre el modelo de regresión. Como hemos observado, las
diferentes estadísticas a menudo no producen resultados consistentes. En tales cir-
cunstancias, la mayoría de los estadísticos llegarían a la conclusión de que hay evi-
dencias insuficientes para la eliminación de tales observaciones del modelo.
Además de los tres criterios presentados aquí, se han desarrollado otras medidas
de la influencia (véanse referencias 1 y 10). Mientras que diferentes investigadores
parecen preferir medidas particulares, actualmente no existe consenso con respecto
a las "mejores" medidas. En consecuencia, solamente cuando se tiene consistencia
en un conjunto seleccionado de medidas resulta apropiado tomar en con-
sideración la eliminación de observaciones particulares.
En conclusión, deberíamos, también, darnos cuenta de que, debido a los cálcu-
los impJicados tanto en el análisis de residuos como en el análisis de influencia, no
es práctico efectuar una evaluación de diagnóstico sin la ayuda de un paquete de
computación. Sin embargo, como ha observado Tukey (véase referencia 18), es
mejor dejar la decisión real concerniente a la eliminación de cualquier observación
en manos del usuario, antes que delegar tal decisión en el paquete de computación
mismo.

Problemas de la sección I 7. I 4
17.67 ¿Cuál es la diferencia entre el análisis de residuos y el análisis de influencia?
17.68 Explique la diferencia que existe entre la medida h¡ y r¡.
Para los datos de los problemas 17.69 a 17.74 lleve a cabo un análisis de influencia
y determine si alguna observación puede ser eliminada del modelo. Si esto es neesario,
vuelva a analizar el modelo de regresión después de haber eliminado tales observaciones y
compare los resultados que obtenga con los del modelo original.

758 Capítulo 17 Regresión lineal simple y correlación


• 17.69
17.70
Refiérase al problema de las ventas de alimento para mascotas (páginas 716, 725, 728).
Refiérase al problema sobre selección de lugar (páginas 716, 725 y 728).

• 17.71 Refiérase al problema concerniente a la producción horas-trabajador (páginas


717, 725 y 728).
17.72 Refiérase al problema sobre la producción de tomates (páginas 718, 725 y 728).
17.73 Refiérase al problema concerniente a la productividad de los encuestadores
(páginas 718, 726 y 728).
17.74 Refiérase al problema sobre el transporte hacia el aeropuesrto (páginas 718,
726 y 728).

lflii Regresión, computadoras y la encuesta


de satisfacción de empleados

17.IS.I Introducción
Cuando estudiamos la estadística descriptiva y la prueba de hipótesis utilizamos la
Encuesta de Satisfacción de Empleados para ilustrar el papel de la computadora
como una ayuda para realizar el análisis de los datos. El papel de los paquét~s de
software de computación se vuelve todavía más importante cuando se aplican al
análisis de regresión y de correlación, y, en particular, a los problemas de regresión
múltiple que estudiaremos ert el capítulo 18. Resulta razonable establecer que con
el desarrollo de las técnicas de análisis de residuos y de influencia, el papel que
desempeña la computadora se ha convertido en algo decisivo, incluso éll los casos
en que se está considerando un modelo de regresión simple. ··

17.1 S.2 Uso de los paquetes SAS, STATISTI?<


y MINITAB para el análisis de regresión
Para mostrar primero el papel de la computadora en 'el análisis de regresión y en el
de. qmelación refirámonos al conjunto completo de datos. d~ la t~bla .17.1 deJa.
página 715. Si se utiliza él paquete SAS (véase referencia 16), se pu~de e.char mano
de procedimientos. como PLOT y REG. En la figura 17..17 se .presenta,.el- resultado
parcial obtenido con PROC REG para los datos relativos al problema de los

DEP VARIABLE: SALES


ANALYSIS OF VARIANCE
SUM OF MEAN'
SOURCE DF SQUARES SQUARE F VALUE PROB>F
MODEL 1 SSR 46.83354090 46.83354090 186.219 0.0001
ERROR 18 SSE. 4. 52695410 .o .25149745
C TOTAL 19 SST 51.36049500
ROOT MSE 0.5014952 R-SQUARE 0.9119
DEP MEAN 8.8055 ADJ R-~Q 0.9070
c.v. 5.69525
PARAMETER ESTIMATES
PARAMETER STANDARD T FOR HO:
VARIABLE DF ESTIMATE ERROR PARAMET.ER=O :·
INTERCEP 1 ba 2.42304440 o. 48096461 sb, 5 .038
CUSTOMER 1 b1 0.008729338 o. 000639690 s,;, 13. 646
VARIABLE PR.OB>ITI TYPE I SS TYPE. n SS
INTERCEP 0.0001 1550. 73 66'ó 6. 383d77ti6
CUSTOMER 0.0001 46.83354090 46.83354090

Figura 17.17
Resultado obtenido con SAS para el problema de los almacenes departamentales.

Regresión, computadoras y la encuesta de emplados 759


almacenes departamentales. Podemos observar que además de las diferentes esta-
dísticas. de regresión, como los coeficientes de regresión, los errores estándar y r2,
podemos obtener varias estadísticas relacionadas con los análisis de residuos y de '.
influenda.
De manera parecida, el paquete de software STATISTIX (véase referencia 17)
puede utilizarse también para los análisis de regresión y de correlación. En la figura
17 .18 se presenta el resultado parcial correspondiente a los datos de los almacenes

STATISTIX 4.0

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SALES

PREDICTOR
VARIABLES COEFFICIENT STD ERROR STUDENT'S T p

CONSTANT b 0 2.42304 0.48096 5.04 0.0001


CUSTOMER b1 o. 00872 6.397E-04 13.. 65 0.0000
'2
R-SQUARED r. 0.9119 RESID. MEAN SQUARE (MSE) 0.25149
ADJUSTED R-SQUARED 0.9070 STANDARD DEVIATION 0. 50149 Syx

SOURCE DF SS MS F p

REGRESSION l. SSR 46.8335 46.8335 186.22 0.0000


RESIDUAL 18 SSE 4.52695 0.25149
TOTAL 19 SST 51. 3604

Figura 17.18 Resultado obtenido con STATISTIX para el problema de los almacenes departamentales.

departameptales. Podemos observar que además de !Os coeficientes de regresión,


los errores estándar y r2 que se muestran, podemos obtener también diferentes
estadísticas que se relacionan con el análisis de residuos y el análisis de influencia.

The regreeeion equation ie


Salee = 2.42 + 0.00873 Customer

Predictor Coef Stdev t-ratio p


Conetant bo 2. 4230 o. 4810sbo 5.04 o.oo·o
Customer b1 o. 0087293 o. 0006397 sb1 13.65 0.000

s = 0.5015 R-sq 91. 2% R-eq(adj) = 90.7%

Ana:.lysie of Variance

SO URCE DF· SS MS F p
Regreeeion l SSR 46. 834 46.834 186.22 o··ººº
Error 18 SSE 4.527 0.251.
Total 19 SST 51. 360
Figura 17.19
Resultado obtenido con MINITAB para el problema de los almacenes departamentales.

760 Capítulo 17 Regresión lineal simple y correlación


Si se utiliza el paquete MINITAB (véanse referencias 11 y 15) para realizar un
análisis de r·egresión, obtenemos los resultados de los cuales una parte se muestra
en la figura 17.19, correspondientes alos datos de la:s tiendas departamentales.
Observamos que el paquete nos proporciona los coeficientes de regresión, los
errores estándar y l. Las diferentes estadísticas.relacionadas con el análisis de resi-
duos y con 'el análisis de influencia se muestran en la figura 17.9 de la página 756.
Notamos en las estadísticas de regresión realzadas en las figuras 17 .17 a 17 .19
algunas discrepancias con los resultados presentados con anterioridad en el capí-
• tulo. Estas diferencias se dan al redondear errores. Los resultados de los paquetes
de cómputo son más precisos.

17. 1 S • J La computadora y la encuesta de


satisfacción de empleados
Ahora que hemos ilustrado de qué modo los paquetes de software estadístico como
SAS, STATISTIX y MINITAB pueden utilizarse para efectuar análisis de regresión,
volvamos a la Encuesta de Satisfacción de los Empleados de Industrias Kalosha.
Suponga que a Bud Conley,. el vicepresidente de recursos humanos, le gustaría desa-
rrollar un modelo estadístico para predecir los ingresos personales de los empleados
de Industrias Kalosha. A pesar de que, de una manera reallsta, se podría necesitar
inclúir varias variables explicatorias en el análisis, Bud ha decidido empezar utili-
zando solamente una. única variabie independiente· para hacer la predicción: el
número cte años que los empleados han realizado. un trabajo de, tiempo completo.
También ha decidido hacer el análisis para grup~s separados de empleados basán-
dose en el tipo.deJrabajo que realizan. El análiSl.s que estudiaremos eri este caso trata
exclusivamente sobre l()s 57 empleados cuya ocupación está clasificada como téc-
nica/de ventas. : . ' .. .: . . . . .• .: . . .
Iriiciareni.Os nuestro análisis examinando la figura 17 .20, un diagrama de dis-
de
persión estas dos' variables obtenid<;> con. el paquete MINITAB. Observamos que
parece haber una relación creciente entre la cantidad de afios de. trabajo en la
empresa y ·el.' ingreso, Aurique existe algo de variabilidad en fos datos graficados,
paréée razonable iniciar nuestro análisis de regresión' süporliendo que se tiene una
relación lineal erifre lasdos váriables.Utilizando ei:paquete de softw~re.MINITAB,
obtenemos el resultado que se presenta eri la figura 17 .21 dt\ la página 7'62.

·, ...
... .
*
7 s+

'.Cn:célme . -. ·"'

50+ • ... *

...,.,
*
*
2
... ** * ..
**t: ** * *
.. ** 2*'2. ,·,,
25+ ·~ 2*' 2* * ..
* ::•.• *. .. ! *: • *·
* * '2.2 * •
. .i
* *
..... ··,.+.-. "·; e - • - • - + - - ~ "·- - - ·- - ·+ ·- - • -·-e • "·-.;. ~ ·- - ~· -. -· - - ;; + - - " - • ~ . ccc· - +-. -·· '" - - FTféars
o ·~º 20 30 40 ~?

Figura 17.10 Diagrama de dispersión obtenido con MINITAB para los 57 empleados cuya
ocupación se clasifica como técnica de ventas.

Regresión, computadoras y la encuesta de emplados 761


Theoregression equation is
Income = 17. 2 + 0.730 FTYears

Predictor Coef Stdev t-ratio p


Conatant 17. 19 5 3. 7 57 4.58 0.000
FTYeara 0.7303 0.1934 3.98 o.ooo
s = 12.90 R-aq 22. 4% R-sq(adj) = 21. 0%

Analyeis of Variance

SOURCE DF SS MS F p
Regreeaion l 2639.2 2639.2 15.86 o.ooo
Error 55 9151.7 166.4
Total 56 11791.0
Figura 17.l I
Resultado obtenido con MINITAB para los 57 empleados cuya ocupación está clasificada
como técnica/de ventas.

Observamos primero que la ecuación de regresión es


/\
Y;= 17.195 + 0.73X¡

en la que Y=== ingreso anual en miles de dólares


X=== número de años trabajados en la empresa (tiempo completo).
Podemos interpretar el valor de la pendiente, .73, como que por cada año adicio-
nal de trabajo en la empresa, el ingreso anual promedio predicho aumenta .73
miles de dólares o $730. Observamos que, para estos 57 empleados técnicos/de
ventas, X varía de tres a 48 años, de modo que las predicciones se deben hacer den-
tro de este intervalo de experiencia de los trabajadores de tiempo completo. El
valor de la intersección con el eje Y, 17.195, representa el ingreso anual promedio
predicho para un empleado que no tiene ninguna experiencia de trabajo de tiempo
completo. Aunque, en general, esta interpretación es adecuada para nuestros da-
tos, no podemos hacer ninguna predicción para los empleados sin experiencia,
puesto que la experiencia menor para cualquiera de los empleados del área técni-
ca/de ventas es de tres años.
Ahora que ya hemos ajustado el modelo de regresión y que hemos interpreta-
do los coeficientes de regresión, utilizamos el análisis de residuos para determinar
lo adecuado del modelo. Podemos examinar primero varias gráficas de los residuos
estandarizados (véase sección 17.9). En la figura 17.22 se presenta una gráfica
obtenida con MINITAB de los residuos estandarizados en función de la variable
independiente, la cantidad de años de trabajo de tiempo completo. En esta figura
podemos observar que en la gráfica parece que no existe ningún patrón o que éste
es muy pequeño; se tienen residuos estandarizados grandes y pequeños en muchos
niveles diferentes de X. Además, observamos poca evidencia de heterogeneidad de
varianza en los diferentes niveles de X.
También podemos evaluar la suposición de normalidad si graficamos los resi-
duos estandarizados como en la figura 17 .23; de ésta observamos alguna desviación
con respecto a la normalidad, con un sesgo hacia la derecha de los residuos que se
hace evidente en el histograma que tiene dos valores positivos grandes de 3.09 y
3.45. Esto nos daría una causa de preocupación acerca de si el modelo simple de
línea recta es lo suficientemente útil para predecir el ingreso o si sería de provecho
tomar en cuenta una transformación de datos (véase sección 18.13).
Si deseamos continuar con nuestro análisis, podemos evaluar si existe una re-
lación lineal estadísticamente significativa entre estas dos variables. En la figura
17.21 podemos observar que ? es .224 o 22.4%. Por consiguiente, 22.4% de la

762 Capítulo 17 Regresión lineal simple y correlación


4.0+

Std.Res.-

2.0+

* *2 *
o.o+ •* 2 2 • *2
2•

-2.0+

+ - - - - - - - - - + - - - - - - - - - + - - - - - - - - - + - - - - - - - - - + - - - - - - - - - + - - - - - - FTY ear e
10 20 30 40 50

Figura 17.22
Resultado obtenido con MINITAB para los 57 empleados cuya ocupación está clasificada
como técnica/de ventas.

Hietogram of Std.Ree. N = 57

Midpoint Count
-2. o l *
-l. 5 2
-l. o 11 ***********
-o.s 7 *******
o.o 19 *******************
0.5 10 **********
l. o
l.5
2. o
l
2
2
..
*
** Figura l 7.2J
2.5 o Gráfica de residuos obtenida con MINITAB
3. o l * para el modelo de regresión de la figura
3,5 1 17.21.

variación en el ingreso puede explicarse mediante la variación en la cantidad de


años de antigüedad en la empresa. Observamos que la estadística t para la signifi-
cación de la pendiente es de 3.98, que con 57 - 2 = 55 grados de libertad, es clara-
mente significativa incluso al nivel .01 (t= 3.98 > t55 = 2.6682). El valor de pes .000.
Así pues, no existe razón alguna para creer que hay evidencia de una relación lineal
entre las dos variables.

e Significación práctica contra significación estadística Por consi-


guiente, tenemos lo que parece ser una anomalía, un valor de r relativamente bajo
que es altamente significativo. Esto representa una diferencia entre lo que puede
ser prácticamente significativo y útil a un administrador como Bud Conley, y lo que
es estadísticamente significativo. La significación de r según fue probada utilizando
la ecuación (17.19) o la (17.21), depende del valor de ry del tamaño de la muestra
también. Es concebible que si tomamos una muestra lo suficientemente grande,
incluso un valor de r de .01 podría ser altamente significativo desde la perspectiva
de la estadística, pero de poca importancia práctica.
Aunque la relación de nuestro modelo es estadísticamente significativa, pues
res relativamente pequeño, más de 75% de la variación en el ingreso es explicada
por factores diferentes a la cantidad de años de antigüedad en la empresa. Esto
puede conducirnos a tomar en consideración el uso de variables explicatorias adi-
cionales en un modelo de regresión múltiple o en un nodelo de regresión curvilí-
nea (véase capítulo 18).
Ya que nuestro análisis de regresión preliminar ha sido terminado, podemos
desear estudiar la influencia de las observaciones individuales sobre el modelo.
Aunque tenemos evidencia de que el modelo no tiene un fuerte ajuste, podemos
continuar con nuestro análisis de diagnóstico mediante el uso de las medidas de

Regresión, computadoras y la encuesta de emplados 76J


influencia. Este planteamiento nos permitirá determinar si existe alguna observación
que esté afectando de manera negativa al modelo. En la figura 17.24 se presenta uIJ.
resultado adicional obtenido con MINITAB para nuestro modelo. Se incluyen en ést~
los residuos estandárizados, el valor predicho de Y, el valor h¡, los residuos de la t de,
Student eliminados y la estadística D¡ de Cook para cada observación. ··

ROW Income FTYears Std.Res. Yhat h tresids cookd.

l 20.2 3 0.06529 19.3954 0.064513 0.06469 0.000147


2 35.7 40 -0.88137 46.4065 0.113179 -0.97956 0.049570
3 33.3 12 0.57654 25,9581 0.025426 0.57301 0.004336
4 32.0 .20 0.01561 31. 9005 0.019166 0.01546 0.000002
5 35,7 20 0.30509 31. 9005 0.018166 0.30255 0.000861
6 33.8 14 0.50002 21.4187 0.021196 0.49658 0.002706
7 30.3 15 0.16941. 29.1490 0.019673 0.16692 0.000285
8 20.4 11 -0.37965 25.2279 0.029153 -0.37669 0.002099
9 18.4 23· · -:L22228 33.9914 ·0.022112 -1.22791 0;016991'
10 lJ..8 19 -1.45.005 30,3399 0.017556 -1.4650. o ;018797
11 40.2 14 J..00151 27.4197 0.021186 · i.ooi54 0.010855
12 22.0 9 -0.08199 23.0369 0.039757 -0.08125 0.000136
13 78.o 23 3.45003 33.9914 0.022112 3.86184 0.134570
14 13.7 15 -J..13131 20.1490 0 •. 019673 7l..l3426' 0.012042
15 40.8 35 -0.15752 42.7550 0.074269 ·0~15612 0.0009~5
16 23.0 15 -0.40315 20.1490 0.019673 -ó~4óoo6 o.ooi63l
17 10.3 6 - o' 89587 21.5763. 0.047847 .-.0.89424 0.020165
18 22.7 15 -0.42664 28.1490 o. 019673 -0.42345 0 .. 001:826
19 81.7 36 3,0907:.i 43.4853' 0.081243 3.36901' 0.422~52
20 55.3 20 1.83862 31. 8005. o. 0·18166 1.88043 0.031270·
21 16.0 19 -1.17974 31.0702 0.017659 -1.18302 O.Ol2488
22 3.3 .1 19 o .15976 ' 31'.0702 (l.017659 .. 0.15735 o. obo,227
23 25;i 30 ' -1.111·15 '39.1035 0.045464 -1.11357 o. 029403,
24 16;1 3 -(f.2633~. i9"•,3954 o;_o64!Ú3 - o. 2610.9 0.002391
25 25.2 9 0.11306 23. 1.612 o .'o3.4ei8 o .1i204 o. ooo'.231.
26 30.6 15 o. 19190 28,1490 -o~Ol9673 b.19021 0;000370
27 . 4J..5 ,26 , \ 0.41850 36.1823. o.o:2i6.9S o.41534 0.0026.80
28 3'0;i .32 -o .1965.9 .ú,5641 'o.0'5·5714 >o.194.8.6 O.O()ll4°i
29 24 ~7 27 ~o ;96279 . 36.9126J ··o·.()33o:u. ··o.96214 o. 01583'2
30 Ú.6 5., - o • 5 1!7 2 4 20.suo ' :o•.o!i2g99 '"b.57'371 0.009324'
31 45 .7 ·': .15' 1:.37419 28'<1490 i g;Ol9673 · .1.38563 0.0189ll7
32 39,0 ·, 27 Q.1645.6 <
36, 9126 :Cl,.1 ~};3031 O .16310, •'o. 0004,63
33 26.9 ü 0.13150 25. 2278 o' 02'9153 o .13032:
34 17. 3.
35 38.3
36 34 .• 4
37 : 23.•.l
38 26.0
39 :fa,4
40 3~ ¡ 6- .·
41 25,0
42 .21,5
43 581.0
44 2o.é
45 Sl:. 6
46 31.2
47 31.:3
48 17:.6.
49 36.9
50 i7;4
51 } 17 '8.
52 3'8.4
53 .-16 ~ 5
54
55
56
57

764 Capítulo 17 Regresión lineal simple y correlación


Podemos empezar nuestro análisis de influencia con el examen de la estadística
h1• Utilizando el criterio de Hoaglin-Welsch (h; > 4/n), con n = 57, podríamos tomar
en consideración una observación, como influyente si h-i > 4/5 7 = ..07. En la figura
17.24 podemos ver que las observaciones 2, 15, 19 y 43 (cuyos valores h¡ son iguales
a .113, .074, . 081 y ,196, respectivaniente) exceden el criterio. En consecuencia,
basándonos en.el criterio h1, las observaciones 2, 15, 19 y 43 son posibles candidatos
para su eliminación del modelo~ Sin embargo, deben tomarse en consideracipn otros
criterios.para la medición de la influencia, antes.de tomar tal decisión. ·
El segundo criterio para. medir la influencia es la estadística t:¡, que implica a
los residuos de la t de Studerit eliminados. Utilizando el criterio de Hoaglin-
Welsch, (lt¡ 1 > t. 10,n_3), para n = 57 consideraríamos. una observación como
influyente si ltfl > 1.6736. En la figura 17.24 observamos que t¡es igual a 3.86 para
la observación 13, 3.37 para la observación 19, 1.88 para la obsery~ción 20, 2.07
para la observación 45 y -2.03 para la observación 50. Observamos también que t:¡
es -.88.parala observación 2, -.15 para la observación 15 y .49 para la.observación
43. Así pues, las observacion,es 2, 15 y 43, que tienen valores altos de 1,'¡¡, no afectan
negativamente al modelo. Sin embargo, la observación 19 ha sido señalada cie
acuerdo con ambos criterios, lo cual nos conduce a creer que este punto puede
estar influyendo negativamente al modelo. Esto nos proporciona evidencias adi-
cionales de que otras variables. necesitan ser evalua,das para su inclusión en un
posible modelo de regresión múltiple, de modo que el residuo grande, evidenciado
en esta observación, pueda ser reducido.
Con el fin de completar nuestro análisis de influencia, necesitamos considerar la
estadística D1 de Cook, que mide el efecto combinado de h1y de SR1• Utilizando los cri-
terios de Cook y de Weisberg para la regresión lineal (D1 >F 502 n-z); paran= 51, con-
sideraríamos que una observación es influyente siD1 > .70i. Refiriéndose a la figura
17.24, observamos que no hay valores de D 1 que cumplan con este criterio. Sin
embargo, el valor más grande corresponde a la observación 19 (.422). Estos resulta•
dos no son consistentes con los obtenidos con los criterios h1 y tf En consecuencia,
no tendríamos una base sólida para eliminar cualquiera de las observaciones del mo-
delo de regresión ajustado. Independientemente de si algunas observaciones deban
ser eliminadas del presente modelo, es claro que, cuando mucho, elmodelo es úni-
camente un predictor marginalmente útil en cuanto al ingreso, y que deberían inves-
tigarse otras variables independientes y/o una relación no lineal para .su posible
inclusión en el modelo. Éste será el objeto del siguiente capítulo. ·

lfjt.j Dificultades de la regresión y cuestiones


éticas
17.16.1 Introducción
Los análisis de regresión y de correlación son, quizá, los más ampliamente utiliza-
dos y, desafortunadamente, son las técnicas estádisticas de las que más se abusa y
que son aplicadas a los negocios y a la economía. Las dificultades que surgen con
frecuencia vienen de las siguientes fuentes:
l. Falta de conciencia sobre las suposiciones de la regresión de mínimos
cuadrados.
2. Conocimiento de cómo evaluar las suposiciones de la regresión de
mínimos cuadrados.
3. Conocimiento de cuáles son las alternativas de la regresión de mínimos
cuadrados si no se cumple alguna suposición individual.
4. La creencia de que la correlación implica causalidad.
5. El uso del modelo de regresión sin conocer de qué se trata.

Dificultades de regresión y cuestiones éticas 7GS


1 7. 16.2 Dificultades de la regresión
La amplia disponibilidad de hojas de cálculo y de paquetes de software estadístico
ha eliminado el bloque de cálculos que hacía que muchos usuarios no aplicaran el
análisis de regresión a situaciones que requerían de la predicción. Con este desarro-
llo positivo de la disponibilidad nos dimos cuenta de que, para muchos usuarios,
el acceso a las técnicas poderosas no ha estado acompañado por un entendimiento
de cómo utilizar el análisis de regresión adecuadamente. ¿Cómo puede un usuario
esperar saber qué alternativas se tienen a la regresión de mínimos cuadrados si se
viola una suposición particular, cuando éste, en muchos casos, ni siquiera está
consciente de las· suposiciones de la regrersión, mucho menos de cómo tales
suposiciones pueden ser evaluadas?
La necesidad de ir más allá del mane¡o básico de los números, el cálculo de la
intersección con el eje Y, la pendiente y r,
puede ilustrarse si nos referimos a la ta-
bla 17 .10, que se trata de una clásica pieza pedagógica de la literatura estadística y
que tiene que ver con la importancia de la observación a través de gráficas de dis-
persión y análisis de residuos.

Tabla 17.1 O Cuatro conjuntos de datos artificiales.


Conjunto Conjunto Conjunto Conunto
A B e D
X¡ Y; X; Y; X; Y; X; Y;

10 8.04 10 9.14 10 7.46 8 6.58


14 9.96 14 8.10 14 8.84 8 5.76
5 5.68 5 4.74 5 5.73 8 7.71
8 6.95 8 8.14 8 6.77 8 8.84
9 8.81 9 8.77 9 7.11 8 8.47
12 10.84 12 9.13 12 8.15 8 7.04
4 4.26 4 3.10 4 5.39 8 5.25
7 4.82 7 7.26 7 6.42 19 12.50
11 8.33 11 9.26 11 7.81 8 5.56
13 7.58 13 8.74 13 12.74 8 7.91
6 7.24 6 6.13 6 6.08 8 6.89
Fuente: F. J. Anscombe, "Gráficas en Análisis Estadístico", American Statistician, vol. 27 (1973), pp. 17-21.

Anscombe (referencia 2) mostró que para los cuatro conjuntos de datos dados en
la tabla 17 .10, se pueden obtener los resultados siguientes:

Y¡ 3.0 + .SX;
Syx 1.236
sb¡ .118
,2 .667
n
SSR =variación explicada = L (Y; - Y; )2 = 27.50
i=l

SSE =variación no explicada = i


i=l
(Y; - Y; ) 2 = 13.75

~ -2
SST = variación total = .4J (Y; - Y ) = 41.25
i=l

766 Capitulo 17 Regresión lineal simple y correlación


Así pues, con respecto a las estadísticas pertinentes asociadas con una regre-
sión lineal simple, los cuatro conjuntos de datos son idénticos. Si detenemos nues-
tro análisis en este punto, se perdería información valiosa contenida en los datos.
En la tabla 17.11 se dan los residuos estandarizados, e¡ /Syx, para cada uno de
los conjuntos de datos.

Tabla 17.11 Residuos estandarizados.


Conjunto de Conjunto de Conjunto de Conjunto de
datos A datos B datos e datos D
X¡ e¡/Syx e¡/Syx e1/Syx X¡ e¡/Syx
4 -.599 -1.536 .314 8 -.340
5 .145 -.614 .185 8 -1.003
6 1.002 .105 .064 8 .574
7 -1.359 .614 -.065 8 1.489
8 -.041 .922 -.186 8 1.189
9 1.059 1.027 -.315 8 .032
10 .032 .922 -.437 8 -1.416
11 -.138 .614 -.558 19 .000
12 1.487 .105 -.687 8 -1.165
13 -1.554 -.614 2.622 8 .736
14 -.033 -1.536 -.937 8 -.089
Fuente: Anscombe, F.J ., "Graphs in Statistical Analysis" (Gráficas en análisis estadístico),
American Statistician, 1973, vol. 27, pp. 17-21.

Cuando se grafican los residuos estandarizados, Y5, observamos qué tan dife-
rentes son los conjuntos de datos. En los paneles A, B, C y D de la figura 17 .25 de
la página 768 se presenta, para cada conjunto de dato~ una gráfica de los residuos
estandarizados en función de los valores ajustados de Y. Mientras que la gráfica co-
rrespondiente al conjunto de datos A no muestra ninguna anomalía evidente, no
es lo mismo para los conjuntos de datos B, C y D. La forma parabólica de la gráfica
de residuos correspondiente al conjunto de datos B probablemente indica que el
modelo básico de regresión lineal simple debería aumentarse para que pueda
incluir un término curvilíneo, de la forma en que se hará en la sección 18.10. La
gráfica correspondiente al conjunto de datos C muestra claramente lo que muy
bien podría ser una observación externa. Si éste es el caso, podemos considerar
apropiado eliminar la observación externa y reestimar el modelo básico. El resul-
tado de este ejercicio probablemente sería una relación mucho muy diferente de lo
obtenido originalmente. Similarmente, la gráfica correspondiente al conjunto de
datos D se debería evaluar con cuidado, pues el modelo ajustado depende mucho
del resultado de una sola respuesta (X8 = 19 y Y8 = 12.50).
En resumen, las gráficas de residuos son de vital importancia para efectuar un
análisis de regresión completo. La información que arrojan es tan básica para
obtener un análisis fidedigno que tales gráficas deberían incluirse siempre como
parte de un análisis de regresión. ·
Así pues, una estrategia que podría emplearse para evitar las tres primeras difi-
cultades de la regresión implicaría el siguiente planteamiento:
l. Empiece siempre con un diagrama de dispersión para observar la posible
relación entre X y Y.
2. Verifique las suposiciones de la regresión después de que el modelo de
regresión haya sido ajustado, antes de proceder con el uso de los
resultados del modelo.
3. Grafique los residuos (o los residuos estandarizados) en función de la
variable independiente. Esto le permitirá determinar si el modelo que
se ajusta a los datos es apropiado y le permitirá, también, verificar
visualmente si hay violaciones de la suposición de homoscedasticidad.

Dificultades de regresión y cuestiones éticas 767


3 3 .; ··hi~
.. '\.,:::·;'k.1
1.i.:.:.":,<>!~
2 2 ~ ... :, ·. "! /{

• .•.;i\()
,,·~lí
• •
•••••
'l
' •.:¡, 1:t~~
~ ~ ·:!ii:
~ o ~
Cll
o ¡,
,...,,,,
-1
·• -1
• • ·'''º'
',:-r
• • • •
-2 -2

'-3 ·y
A
·-3 "y
o 5 10 15 o 5 10 15
Panel.A PanelB

3 3

2
• 2
••..

·~
~.
o •• ~
¡;)'
o
..

•••• ~

••
Figura 1t.25
' .,.1 -1
••
Gráfica de Y 1 con respecto a los -2 -2
residuos estandarizados. A
;·-30 y" ~3 y
Fuente: F.]. Anscombe, "Graphs in statistical 5 10 15 o 5 10 15
analysis", American Statistician, vol. 27
Pa~elC
. : T.

(1973), pp. 17-21. ParielD

4. Utilice un histograma, una representación de tallo y hojas, un diagrama


de caja y sesgos o una gráfica de probabilidad normal de los resultados
para evaluar de manera gráfica si la suposición de normalidad ha sido
seriamente violada.
S. Si los datos han sido recabados de manera secuencial, grafique los
residuos en orden cronológico y calcule la estadística de Durbin-
Watson.
6. Utilice el análisis de influencia para determinar si algunas observaciones
son externas o están influenciando negativamente al modelo.
7. Si la evaluación hecha en los pasos 3 a 6 indica que existen violaciones
a las suposiciones, utilice métodos alternativos a la regresión de mínimos
cuadrados o modelos alternativos de mínimos cuadrados (regresión
curvilínea o múltiple), dependiendo de cuál haya sido el resultado de
la evaluación.
8. Si la evaluación hecha en los pasos 3 a 6 no indica que haya violaciones
a las suposiciones, entonces pueden asumirse los aspectos inferenciales
del análisis de regresión. Se pueden desarrollar intervalos de confianza
y de predicción, y llevar a efecto pruebas de la significación de los
coeficientes de regresión.

e Precauciones Además de las tres primeras dificultades vistas anteriormente,


es necesario mencionar otras dos. Una de ellas supone la creencia errónea de que
la correlación implica causalidad. En muchos casos, la covariación entre variables
es espuria en el sentido de que la relación es causada realmente por un tercer fac-
tor que no ha sido medido o que no se puede medir.

768 Capítulo 17 Regresión.lineal simple y correlación


La otra dificultad implica el hecho de que un modelo bien ajustado no nece-
sariamente significa que éste puede utilizarse para predicción. Debería convencerse
a un individuo con conocimiento en la materia de que el proceso que produjo los
datos permanecerá estable en el futuro, con el fin de poder utilizar el modelo para
propósitos de predicción.

1 7. 1 6. J Consideraciones éticas
Las consideraciones éticas surgen cuando un usuario que desea efectuar prediccio-
nes manipula el proceso de desarrollo del modelo de regresión. La clave, en este
caso, es la intención. El comportamiento no ético se presenta cuando alguien uti-
liza el análisis de regresión para:

l. Predecir una variable de respuesta de interés con la intención voluntaria
de posiblemente excluir ciertas variables del modelo.
2. Eliminar observaciones del modelo con el fin de obtener un mejor
modelo sin dar razones del porqué se eliminaron las observaciones.
3. Hacer predicciones sin proporcionar una evaluación de las supo:siciones
cuando se sabe que las suposiciones de la regresión de mínimos
cuadrados han sido violadas.
Todas estas situaciones nos deberían hacer más conscientes de la importancia de
seguir los pasos presentados en la sección 17.16.2 y de conocer las suposiciones
de la regresión, cómo evaluarlas y qué hacer cuando alguna de ellas es violada.

1Q fj Resumen y visión general


Como se puede ver en el diagrama resumen correspondiente al presente capítulo
(página 770), hemos desarrollado el modelo de regresión lineal simple, analizado
las suposiciones del modelo y visto cómo tales suposiciones pueden ser evaluadas.
En la página 714 de la sección 17.1, se presentó una lista en la que se resaltan los
puntos importantes que se analizarían en el capítulo. Verifique ahora esa lista para
confirmar que tiene un entendimiento de estos puntos clave. Para estar seguro de
ello, responda las siguientes preguntas conceptuales:
l. ¿Cuál es la interpretación de la intersección Y y de la pendient,e de un
modelo de regresión?
2. ¿Cuál es la interpretación del coeficiente de determinación?
3. ¿Por qué se debe realizar siempre un análisis de residuos como parte
del desarrollo de un modelo de regresión?
4. ¿Cuáles son las suposiciones del análisis de regresión y cómo pueden
ser evaluadas?
5. ¿Cuál es la estadística de Durbin-Watson y cuándo y cómo debe
utilizársele en el análisis de regresión?
6. ¿Cuál es la diferencia entre una estimación de intervalo de confianza
de la respuesta media, µyx, y una estimación de intervalo de predicción,
Y¡?
7. ¿Cuál es la diferencia entre el análisis de residuos y el análisis de
influencia?
8. ¿En qué circunstancias puede considerarse la eliminación de
observaciones del modelo de regresión?
En el capítulo 18 continuaremos nuestro estudio del análisis de regresión tomando
en consideración una variedad de modelos de regresión múltiple.

Resumen y visión general 760


Programa resumen del capítulo 17

770 Capitulo 17 Regresión lineal simple y correlación


Juntando Todo
TÉRMINOS CLAVE
análisis de influencia 755 método de mínimos cuadrados 722
análisis de residuos 737 normalidad 736
alcance relevante 725 pendiente 721
autocorrelación 742 prueba de correlación 753
coeficiente de correlación 732 prueba de la pendiente 751
coeficiente de determinación 731 r ajustada 731
coeficiente de regresión 721 relación lineal 719
diagrama de dispersión 715 regresión lineal simple 721
elementos de la matriz sombrero, h1 residuos 737
756 residuos de la t de Student
error estándar de la estimación 726 eliminados 757
estadística D de Cook 757 residuos estandarizados 739
estadística de Durbin-Watson 744 suma de cuadrados de error (SSE) 728
estimación de intervalo de confianza para suma de cuadrados de regresión (SSR)
la respuesta media 747 728
homoscedasticidad 737 suma total de cuadrados (SS1) 728
independencia de error 737 suposiciones de la regresión 736
intersección Y 721 variable dependiente 714
intervalo de predicción para una variable de respuesta 714
respuesta individual 749 variable explicatoria 714
linealidad 737 variable independiente 714

Problemas de repaso del capítulo


e 17.75 Un estadístico que trabaja para un fabricante estadounidense de automóviles
desearía desarrollar un modelo estadístico para predecir el tiempo de entrega
(la cantidad de días transcurridos entre el pedido de un automóvil y la entrega
real del mismo) de los pedidos de automóviles nuevos. El estadístico piensa
que existe una relación lineal entre el número de opciones pedidas y el tiempo
de entrega. Se seleccionó una muestra aleatoria de 16 automóviles y se obtu-
vieron los resultados que se presentan a continuación:
Relación del tiempo de entrega con las opciones ordenadas (Problema 17.75).
Número de opciones Tiempo de entrega, Número de opciones Tiempo de entrega,
Automóvil pedidas, X Y (en días) Automóvil pedidas, X Y (en días)

1 3 25 9 12 44
2 4 32 10 12 51
3 4 26 11 14 53
4 7 38 12 16 58
5 7 34 13 17 61
6 8 41 14 20 64
7 9 39 15 23 66
8 11 46 16 25 70
(a) Construya un diagrama de dispersión.
(b) Utilice el método de mínimos cuadrados para encontrar los coeficientes
de regresión b0 y b 1•
(c) Interprete el significado de la intersección con el eje Y, b0 , y la pendiente,
b 11 de este problema.
(d) Si se tiene un pedido de un automóvil con 16 opciones, ¿cuántos días
predecirá usted que tardará la entrega?

Problemas de repaso del capitulo 771


(e) Calcule el error estándar de la estimación.
(f) Calcule el coeficiente de determinación, 12 , e interprete su significado en
el problema.
(g) Calcule el coeficiente 12 ajustado y compárelo con el coeficiente de
determinación 12 .
(h) Calcule el coeficiente de correlación, r.
(i) Establezca una estimación de intervalo de confianza de 9S% del tiempo
promedio de entrega para todos los automóviles pedidos con 16 opciones.
(j) Establezca una estimación de intervalo de predicción del tiempo de
entrega para un automóvil individual que fue pedido con 16 opciones.
(k) Al nivel de significación de O.OS, ¿existe evidencia de que haya una
relación lineal entre el número de opciones y el tiempo de entrega?
(1) Establezca una estimación de intervalo de confianza de 9S')ú de la
pendiente verdadera.
(m) Lleve a efecto un análisis de residuos de los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(n) Lleve a efecto un análisis de influencia y determine si se debe eliminar del
modelo alguna observación. Si es necesario hacerlo, vuelva a analizar el
modelo de regresión después de haber eliminado la o las observaciones y
compare los resultados con los del modelo original.
(o) ¿Qué suposiciones con respecto a la relación entre el número de opciones
y el tiempo de entrega necesitaría hacer el estadístico con el propósito de
utilizar este modelo de regresión para fines de predicción en el futuro?
17.76 Al oficial de una pista de carreras le gustaría desarrollar un modelo para predecir
la cantidad de dinero apostado (en millones de dólares) basándose en la
asistencia. Se seleccionó una muestra aleatoria de 1S días, y los resultados
obtenidos se presentan en la siguiente tabla:

Relación de apuestas con la asistencia (Problema 17. 7 6 ).


Asistencia Cantidad apostada Asistencia Cantidad apostada
Día (miles) (millones de dólares) Día (miles) (millones de dólares)

14.5 0.70 9 16.3 0.71


2 21.2 0.83 10 32.1 1.04
3 11.6 0.62 11 27.6 0.97
4 31.7 1.10 12 34.8 1.13
5 46.8 1.27 13 29.3 0.91
6 31.4 1.02 14 19.2 0.68
7 40.0 1.15 15 16.3 0.63
8 21.0 0.80

Sugerencia: determine cuáles son las variables independiente y dependiente.


(a) Construya un diagrama de dispersión.
(b) Suponiendo que haya una relación lineal, utilice el método de mínimos
cuadrados para encontrar los coeficientes de regresión b0 y b 1.
(c) Interprete el significado de la pendiente b 1 de este problema.
(d) Prediga la cantidad apostada para un día en el cual la asistencia es de
20,000.
(e) Calcule el error estándar de la estimación.
(f) Calcule el coeficiente de determinación, 12 e interprete su significado en
este problema.
(g) Calcule el coeficiente de correlación, r.
(h) Calcule la estadística de Durbin-Watson y, al nivel de significación de
O.OS, determine si existe alguna autocorrelación en los residuos.
(i) Basándose en los resultados del inciso (h), ¿a qué conclusiones puede
usted llegar con respecto a la validez del modelo ajustado en el inciso (b)?
(j) Establezca una estimación de intervalo de confianza de 9S<)ú de la cantidad
promedio de dinero apostado cuando se tiene una asistencia de 20,000.
(k) Establezca un intervalo de predicción para la cantidad de dinero apostado
en un día en el cual hay una asistencia de 20,000.

171 Capítulo 17 Regresión lineal simple y correlación


(1) Al nivel de significación de O.OS, ¿existe evidencia de que haya una
relación lineal entre la cantidad de dinero apostado y la asistencia?
(m) Establezca una estimación de intervalo de confianza de 95'Y<i de la pendiente
verdadera.
(n) Explique por qué no debería predecir la cantidad de dinero apostado en
un día en el cual la asistencia rebasa a los 46 800 o se encuentra por
debajo de los 11 600.
(o) Efectúe un análisis de residuos de los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(p) Lleve a efecto un análisis de influencia y determine si debería eliminarse
del modelo alguna observación. Si esto es necesario, vuelva a analizar el
modelo de regresión después de eliminar la o las observaciones y compare
los resultados con los obtenidos con el modelo original.
17. 77 1\1 duei'ío de una gran cadena de expendios de helados le gustaría estudiar el
efecto de la temperatura ambiente sobre las ventas de sus productos durante la
temporada de verano. Se seleccionó una muestra aleatoria de 21 días y se
obtuvieron los resultados que se presentan a continuación:

Relación de ventas con temperatura (Problema 17.77).


Temperatura Venta por Tem¡wratura Venta por
alta diaria tienda alta diaria tienda
Día (°F) (en $000) Día (ºFJ (en $000)
l 6:{ 1.S2 12 7S 1.92
2 70 1.68 u 98 3.40
:{ 7:l 1.80 14 (()() :U8
4 7S 2.0S IS 92 :{.17
s 80 236 16 87 2.83
6 82 2.2S 17 84 2.58
7 8S 2.68 18 88 2.86
8 88 2.90 19 80 2.26
9 90 :U4 20 82 2.14
10 91 3.06 21 76 1.98
11 92 :l.24

(a) Construya un diagrama de dispersión.


(b) Suponiendo que haya una relación lineal, utilice el método de mínimos
cuadr;:idos para encontrar los coeficientes de regresión b0 y /J 1•
(c) Interprete el significado de la pendiente /J 1 de este problema.
(d) Prediga las ventas por tienda para un día en el que la temperatura es de 83' F.
(e) Calcule el error estándar de la estim;:ición.
(f) Calcule el coeficiente de determinación, 12 e interprete su significado en
este problema.
(g) Calcule el coeficiente de correlación, r.
(h) Calcule el coeficiente ajustado 12 y compárelo con el coeficiente de
determinación?.
(i) Calcule la estadística de Durbin-Watson y, al nivel de significación de
O.OS, determine si existe alguna autocorrelación en los residuos.
(j) Basándose en los resultados del inciso (i), ¿a qué conclusiones puede
usted llegar con respecto a la validez del modelo ajustado en el inciso (b)?
(k) Establezca una estimaciór de intervalo de confianza de 95'Yci de las ventas
promedio por tienda para todos los días en los que la temperatura es de 83'F.
(1) Establezca un intervalo de predicción para las ventas por tienda en un día
en el cual la temperatura es de 83º f.
(m) Al nivel de significación de 0.05, ¿existe evidencia de que haya una
relación lineal entre la temperatura ambiental y las ventas?
(n) Establezca una estimación de intervalo de confianza de 95'V.i de la
pendiente verdadera.

Problemas de repaso del capítulo 773


(o) Explique qué tan diferentes podrían ser los resultados obtenidos si el
modelo estuviera basado en una medida de la temperatura en Ja escala
Celcius ('C).
(p) Efectúe un análisis de residuos de los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(q) Lleve a efecto un análisis de influencia y determine si debería eliminarse
del modelo alguna observación. Si esto es necesario, vuelva a analizar el
modelo de regresión después de eliminar la o las observaciones y compare
los resultados con los obtenidos con el modelo original.
17. 78 Se seleccionó una muestra de 30 casas para una sola familia recientemente
vendidas en una pequeña ciudad del occidente del país. El precio de venta y el
valor estimado (las casas de las ciudad han sido reevaluadas completamente
un año antes del estudio) fueron registrados con los resultados siguientes:

Relación de precio de venta con valor estimado (Problema 17. 78).


Valor estimado Precio de venta Valor estimado Precio de venta
Observación (miles de dólares) (miles de dólares) Observación (miles de dólares) (miles de dólares)
1 78.17 94.10 16 84.36 106.70
2 80.24 101.90 17 72.94 81.50
3 74.03 88.65 18 86.50 94.50
4 86.31 115.50 19 66.28 69.00
5 75.22 87.50 20 79.74 96.90
6 65.54 72.00 21 72.78 86.50
7 72.43 91.50 22 77.90 97.90
8 85.61 113.90 23 74.31 83.00
9 60.80 69.34 24 79.85 97.30
10 81.88 96.90 25 84.78 100.80
11 79.11 96.00 26 81.61 97.90
12 59.93 61.90 27 74.92 90.50
13 75.27 93.00 28 79.98 97.00
14 85.88 109.50 29 77.96 92.00
15 76.64 93.75 30 79.07 95.90

Suponga que deseamos desarrollar un modelo para predecir el precio de venta


basándonos en el valor estimado.
Sugerencia: primero determine cuál es la variable independiente y cuál la
dependiente.
(a) Trace un diagrama de dispersión y, suponiendo que se tiene una relación
lineal, utilice el método de mínimos cuadrados para encontrar los
coeficientes de regresión b0 y b1 .
(b) Interprete el significado de la pendiente b 1 de este problema.
(c) Utilice el modelo de regresión desarrollado en el inciso (a) para predecir
el precio de venta de una casa cuyo valor estimado es de $70,000.
(d) Calcule el error estándar de la estimación.
(e) Calcule el coeficiente de determinación, re interprete su significado en
este problema.
(f) Calcule el coeficiente de correlación, r.
r
(g) Calcule el coeficiente ajustado y compárelo con el coeficiente de
determinación r.
(h) Al nivel de significación de 0.10, ¿existe evidencia de que haya una
relación lineal entre el precio de venta y el valor estimado?
(i) Establezca una estimación de intervalo de confianza de 90% para el
precio de venta promedio para casas que tienen un valor estimado de
$70,000.

774 Capítulo 17 Regresión lineal simple y correlación


(j) Establezca una estimación de intervalo de predicción del precio de venta
de una casa individual que tiene un valor estimado de $70,000.
(k) Establezca una estimación de intervalo de confianza de 90% de la pendiente
de población.
(l) Efectúe un análisis de residuos de los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(m) Lleve a efecto un análisis de influencia y determine si debería eliminarse
del modelo alguna observación. Si esto es necesario, vuelva a analizar el
modelo de regresión después de eliminar Ja o las observaciones y compare
los resultados con los obtenidos con el modelo original.
17.79 Suponga que se seleccionó una muestra de 15 casas de una sola familia en
ciudades diferentes. El valor estimado (en miles de dólares) y el área de
calentamiento de las casas (en miles de pies cuadrados) se registraron y los
resultados obtenidos se presentan a continuación:

Relación del valor estimado con el área de calentamiento (Problema 17.79).


Valor estimado Area de calentamiento en vivienda
Número de casa (miles de dólares) (miles de pies cuadrados)
1 84.4 2.00
2 77.4 1.71
3 75.7 1.45
4 85.9 1.76
5 79.1 1.93
6 70.4 1.20
7 75.8 1.55
8 85.9 1.93
9 78.5 1.59
10 79.2 1.50
11 86.7 1.90
12 79.3 1.39
13 74.5 1.54
14 83.8 1.89
. 15 76.8 1.59

Suponga que deseamos desarrollar un modelo para predecir el valor estimado


basándonos en el área de calentamiento.
Sugerencia: determine primero cuál es la variable independiente y cuál es la
variable dependiente.
(a) Trace un diagrama de dispersión y, suponiendo que se tiene una relación
lineal, utilice el método de mínimos cuadrados para encontrar los
coeficientes de regresión b0 y b1 •
(b) Interprete el significado de la pendiente b1 de este problema.
(c) Utilice el modelo de regresión desarrollado en el inciso (a) para predecir el
valor estimado de una casa que tiene un área de calentamiento de 1,750
pies cuadrados.
(d) Calcule el error estándar de la estimación.
(e) Calcule el coeficiente de determinación, ?- e interprete su significado en
este problema.
(f) Calcule el coeficiente de correlación, r.
(g) Calcule el coeficiente ajustado?- y compárelo con el coeficiente de
determinación?-.
(h) Al nivel de significación de .10, ¿existe evidencia de que haya una
relación lineal entre el valor estimado y el área de calentamiento?
(i) Establezca una estimación de intervalo de confianza de 90% del valor
estimado promedio para casas con un área de calentamiento de 1, 750 pies
cuadrados.
(j) Establezca una estimación de intervalo de predicción de 90% del valor
estimado de una casa individual que tiene un área de calentamiento de
1,500 pies cuadrados.

Problemas de repaso del capítulo 775


(k) Establezca una estimación de intervalo de confianza de 90% de la pendiente
de población.
(1) Efectúe un análisis de residuos de los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(m) Lleve a efecto un análisis de influencia y determine si debería eliminarse
del modelo alguna observación. Si esto es necesario, vuelva a analizar el
modelo de regresión después de eliminar la o las observaciones y compare
los resultados con los del modelo original.
e 17 .80 Al director de Estudios Graduados de una gran escuela de negocios le gustaría
ser capaz de predecir el índice de calificación puntual (GPI, por sus siglas en
inglés: Grade-Point Index) de los estudiantes del nivel superior, basándose en el
resultado obtenido en la Prueba de Aptitudes de los Graduados de
Administración (GMAT, por sus siglas en inglés: Graduate Management Aptitude
Test). Se seleccionó una muestra de 20 estudiantes que habían estado dos años
en el nivel superior; los resultados fueron los siguientes:

Relación de GPI con resultados en GMAT {Problema 17.8).

Observación Resultado GMAT GPI Observación Resultado GMAT GPI


688 3.72 11 567 3.07
2 647 3.44 12 542 2.86
3 652 3.21 13 551 2.91
4 608 3.29 14 573 2.79
5 680 3.91 15 536 3.00
6 617 3.28 16 639 3.55
7 557 3.02 17 619 3.47
8 599 3.13 18 694 3.60
9 616 3.45 19 718 3.88
10 594 3.33 20 759 3.76

Sugerencia: determine primero cuál es la variable independiente y cuál es la


variable dependiente.
(a) Asuma una relación lineal, usando al menos el método cuadrado para
fines de coeficientes de regresión b0 y b 2 •
(b) Interprete el significado de la intersección con el eje Y,b 0 , y de la
pendiente, b 11 en este problema. b0 y b 1
(c) Utilice el modelo de regresión desarrollado en el inciso (a) para predecir el
índice de calificación puntual para un estudiante con un resultado GMAT
de 600.
(d) Calcule el error estándar de la estimación.
(e) Calcule el coeficiente de determinación, ?- e interprete su significado en
este problema.
(f) Calcule el coeficiente de correlación, r.
(g) Calcule el coeficiente ajustado ?- y compárelo con el coeficiente de
determinación ?-.
(h) Al nivel de significación de O.OS, ¿existe evidencia de que haya una·
relación lineal entre el resultado GMAT y el índice de calificación puntual?
(i) Establezca una estimación de intervalo de confianza de 95% del índice de
calificación puntual para-estudiantes con un resultado GMAT de 600.
(j) Establezca una estimación de intervalo de predicción del índice de
calificación puntual para un estudiante en particular con un resultado
GMATde 600.
(k) Establezca una estimación de intervalo de confianza de 90% de la pendiente
de población.
(1) Efectúe un análisis de residuos de los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(m) Lleve a efecto un análisis de influencia y determine si debería eliminarse
del modelo alguna observación. Si esto es necesario, vuelva a analizar el
modelo de regresión después de eliminar la o las observaciones y compare
los resultados con los obtenidos con el modelo original.

776 Capítulo 17 Regresión lineal simple y correlación


17 .81 Al gerente del departamento de adquisiciones de una organización bancaria
grande Je gustaría desarrollar un modelo para predecir Ja cantidad de tiempo
que le llevaría procesar las facturas. Se tomaron datos de una muestra de 30
días con los resultados siguientes:

Relación del tiempo con facturas procesadas (Problema 17.81 ).


Número Cantidad Número Cantidad
de facturas de tiempo de facturas de tiempo
Día procesadas (horas) Día procesadas (horas)
149 2.1 16 169 2.5
2 60 1.8 17 190 2.9
3 188 2.3 18 233 3.4
4 19 0.3 19 289 4.1
5 201 2.7 20 45 1.2
6 58 1.0 21 193 2.5
7 77 1.7 22 70 1.8
8 222 3.1 23 241 3.8
9 181 2.8 24 103 1.5
10 30 1.0 25 163 2.8
11 110 1.5 26 120 2.5
12 83 1.2 27 201 3.3
13 60 0.8 28 135 2.0
14 25 0.4 29 80 1.7
15 173 2.0 30 29 0.5

(a) Construya un diagrama de dispersión.


(b) Suponiendo que haya una relación lineal, utilice el método de mínimos
cuadrados para encontrar los coeficientes de regresión b0 y b 1 •
(c) Interprete el significado de Ja intesección con el eje Y, b0 , y de la pendi-
ente, b 1, en este problema.
(d) Utilice el modelo de regresión desarrollado en el inciso (b) para predecir
la cantidad de tiempo que le llevaría procesar 150 facturas.
(e) Calcule el error estándar de Ja estimación.
(f) Calcule el coeficiente de determinación, r2 e interprete su significado en
este problema.
(g) Calcule el coeficiente de correlación, r.
(h) Calcule Ja estadística de Durbin-Watson y, al nivel de significación de
O.OS, determine si existe alguna autocorrelación en los residuos.
(i) Basándose en los resultados del inciso (i), ¿a qué conclusiones puede
usted llegar con respecto a la validez del modelo ajustado en el inciso
(b)?
(j) Al nivel de significación de O.OS, ¿existe evidencia de que haya una
relación entre la cantidad de tiempo y el número de facturas proce-
sadas?
(k) Establezca una estimación de intervalo de confianza de 95% de la canti-
dad de tiempo que llevaría procesar 150 facturas.
(!) Establezca un intervalo de predicción de 95% de Ja cantidad de tiempo
que llevaría procesar 150 facturas en un día en particular.
(m) Efectúe un análisis de residuos de los resultados obtenidos y determine
lo adecuado del ajuste del modelo.
(n) Efectúe un análisis de influencia y determine si debería eliminarse del
modelo alguna observación. Si esto es necesario, vuelva a analizar el
modelo de regresión después de eliminar Ja o las observaciones y com-
pare los resultados con los obtenidos con el modelo original.

Problemas de repaso del capítulo 777


17.82 Al "Loco" Dave, un famoso analista de beisbol, le gustaría estudiar las estadísticas
de varios equipos correspondientes a una temporada reciente de beisbol para
determinar las variables que podrían ser de utilidad en la predicción del
número de juegos ganados por los equipos durante la temporada. Ha decidido
empezar su estudio utilizando el promedio de carreras logradas (ERA, por sus
siglas en inglés: Earn Run Average) por los equipos para predecir el número de
juegos ganados. Los datos correspondientes a los 28 equipos de las ligas
mayores son los siguientes:

Relación de juego ganados con resultados E.R.A. (Problema 17.82).


Liga Americana Liga Nacional
Equipo Juegos ganados ERA. Equipo Juegos ganados E.R.A.

Boston 80 3.77 Florida 64 4.13


Cleveland 76 4.58 Cincinnati 73 4.51
Kansas City 84 4.04 Chicago Cubs 84 4.18
Minnesota 71 4.71 San Francisco 103 3.61
Toronto 95 4.21 Los Angeles 81 3.50
California 71 4.34 Pittsburgh 75 4.77
Seattle 82 4.20 San Diego 71 4.23
Texas 86 4.28 New York Mets 59 4.05
Detroit 85 4.65 St. Louis 87 4.09
Chicago White Sox 94 3.70 Philadelphia 97 3.95
Milwaukee 69 4.45 Atlanta 104 3.14
Oakland 68 4.90 Montreal 94 3.55
Baltimore 85 4.31 Houston 85 3.49
New York Yankees 88 4.13 Colorado 67 5.41

(a) Construya un diagrama de dispersión.


(b) Suponiendo que haya una relación lineal, utilice el método de mínimos
cuadrados para encontrar los coeficientes de regresión b0 y b 1•
(c) Interprete el significado de la intesección con el eje Y, b 0 , y de la pendiente,
b 1, en este problema.
(d) Utilice el modelo de regresión desarrollado en el inciso (b) para predecir el
número de juegos ganados por un equipo con un E.R.A. de 4.00.
(e) Calcule el error estándar de la estimación.
(f) Calcule el coeficiente de determinación, reinterprete su significado en
este problema.
(g) Calcule el coeficiente de correlación, r.
(h) Al nivel de significación de O.OS, ¿existe evidencia de que haya una
relación entre el número de juegos ganados y el E.R.A.?
(i) Establezca una estimación de intervalo de confianza de 95% del número
promedio de juegos ganados por un equipo con un E.R.A. de 4.00.
(j) Establezca un intervalo de predicción de 95% del número de juegos
ganados por un equipo individual con un E.R.A. de 4.00
(k) Establezca una estimación de intervalo de confianza de 90% de la
pendiente.
(1) Efectúe un análisis de residuos de los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(m) Desarrolle un análisis de influencia y determine si debería eliminarse del
modelo alguna observación. Si esto es necesario, vuelva a analizar el modelo
de regresión después de eliminar la o las observaciones y compare los
resultados con los obtenidos según el modelo original.
(n) Los 28 equipos constituyen una población. Con el propósito de utilizar la
inferencia estadística [como en los incisos (h) a (k)], debe suponerse que
los datos representan una muestra aleatoria. ¿Con respecto a qué
"población" se están obteniendo conclusiones con esta muestra?

778 Capítulo 17 Regresión lineal simple y correlación


Proyecto de investigación de base de datos del capítulo 17
El siguiente problema se refiere a los datos de muestra obtenidos con el cuestionario de
la figura 2.6 que aparece en las páginas 28 y 29, y que se presentan en la tabla 2.3 de
las páginas 33 a 40. Deberá resolverse con el apoyo de algún paquete de computación.
17 .83 En la sección 17.15.3 utilizamos el análisis de regresión para desarrollar un modelo
para predecir el ingreso personal de los empleados de Industrias Kalosha cuya agru-
pación ocupacional era técnica/de ventas, basándonos en la cantidad de años que
el empleado ha trabajado de tiempo completo en la empresa. Suponga que nos
gustaría hacer análisis parecidos para cada una de las restantes seis agrupaciones
ocupacionales. Desarrolle cada uno de estos modelos y escriba un resumen ejecu-
tivo dirigido a Bud Conley en el que se analicen los resultados obtenidos.

Estudio de caso H: predicción de la circulación del periódico


Sunday
Usted está empleado en el departa- dades diferentes) que tienen una circu-
mento de comercialización de una ca- lación diaria de 200,000, 400,000 y
dena de periódicos que opera a nivel 600,000 ejemplares, respectivamente.
nacional. La compañía principal de la Para lograr este propósito se han re-
cadena está interesada en investigar colectado datos (que se resumen en la
la factibilidad de iniciar la edición de tabla siguiente) correspondientes a una
un suplemento dominical en algunos muestra de 35 periódicos.
de sus periódicos. Sin embargo, antes Se le ha pedido a usted que desa-
de tomar una decisión final, necesita rrolle un modelo que permita hacer
estimar la circulación dominical que se una predicción de la circulación domi-
esperaría. En particular, desea predecir nical esperada y que escriba un informe
la circulación dominical que se obten- en el que presente sus resultados y
dría para los periódicos (en tres ciu- resuma sus hallazgos.

Circulación
(en miles de ejemplares)
Periódico Domingo Diaria

Des Moines Register 344.522 206.204


Philadelphia lnquirer 982.663 515.523
Tampa Tribune 408.343 321.626
New York Times 1,762.015 1,209.225
New York News 983.240 781.796
Sacramento Bee 338.355 273.844
Los Angeles Times 1,531.527 l, 164.388
Boston Globe 798.298 516.981
Cincinnati Enquirer 348.744 198.832
Orange Co. Register 407.760 354.843
Miami Herald 553.479 444.581
Chicago Tribune 1, 133.249 733.775
Detroit News 1,215.149 481.766
Houston Chronicle 620.752 449.755
Kansas City Star 423.305 288.571
Omaha World Herald 284.611 223.748
Denver Post 417.779 252.624
St. Louis Post-Dispatch 585.681 391.286
Portland Oregonian 440.923 337.672
Washington Post 1, 165.567 838.902
Long lsland Newsday 960.308 825.512
San Francisco Chronicle 704.322 570.364
(continúa en la página siguiente)

Estudio de caso H: predicción de la circulación del periódico Sunday 779


Circulación
(en miles de ejemplares)
Periódico Domingo Diario
Chicago Sun Times 559.093 537.780
Minneapolis Star Tribune 685.975 412.871
Baltimore Sun 488.506 391.952
Pittsburgh Press 557.000 220.465
Rocky Mountain News 432.502 374.009
Boston Herald 235.084 355.628
New Orleans Times-Picayune 324.241 272.280
Charlotte Observer 299.451 238.555
Hartford Courant 323.084 231.177
Rochester Democrat and Chronicle 262.048 133.239
St. Paul Pioneer Press 267.781 201.860
Providence Journal-Bulletin 268.060 197.120
L.A. Daily News 202.614 185.736
Fumte: Tomada de Cale Directu1y uf P11blicntiom: 1994, l 26a ed. Editado por
Donald P. lloyden y John Krol. Gale Research, 1994 Copyright e 1994 por
Gale Research, lnc. Impreso con licencia del editor.

Notas finales
l. En la sección 18.12 investigaremos los modelos de regresión 3. El criterio más general para la regresión múltiple será
múltiple en los que al menos una de las variables analizado en la sección 18. 16.
independientes es categórica (véase modelos de variable 4. Consulte nota anterior (3).
ficticia), mientras que en la sección 18.17 desarrollaremos
un modelo para predecir una variable de respuesta 5. Es interesante e instructivo observar que si hubiéramos
categórica utilizando regresión logística. construido las gráficas de residuos utilizando la variable
independiente en el eje X (en lugar de los valores estimados
2. Las h; son los "elementos diagonales de la matriz Y) hubiéramos llegado a las mismas conclusiones.
sombrero", que reflejan la influencia (véase sección 17.14)
de cada X; en el modelo de regresión lineal simple.

Referencias
l. Andrews, D.F. y D. Pregibon, "Finding the Outliers that 11. MINITAB Reference Manual Re/ease 8 (State College, PA.:
Matter" (Búsqueda de los externos que importan), fvurnal of MINITAB, !ne., 1992).
the Royal Statislical Society, Ser. B., 1978, vol. 40, pp. 85-93. 12. Neter, J., W. Wasserman y M.H. Kutner, Applied Linear
2. Anscombe, F.J., "Graphs in Statistical Analysis" (Gráficas Statistical Models, 3a. ed. (Homewood, IL: Richard D.
en análisis estadístico), American Statistician, 1973, vol 27, Irwin, 1990).
pp. 17-21. 13. Pregibon, D. "Logistic Regression Diagnostics"
3. Atkinson, A.C., "Robust and Diagnostic Regression Analysis" (Diagnósticos de regresión logística), Annals uf Statistics,
(Análisis robusto y diagnóstico de regresión), 1981, vol. 9, pp. 705-724.
Cvmmunicativns in Statislics, 1982, vol. 11, pp. 2559-2572. 14. Ramsey, P.P. y P.H. Ramsey, "Simple Tests of Normality in
4. Belsley, O.A., E. Kuh y R. Welsch, Regressivn Diagnvstics: Small Samples" (Pruebas simples de normalidad en mues-
Ide11tifying Influential Data allll Sources oc Collinearily tras pequeñas), foumal of Quality Tec/1110/ugy, 1990, vol. 22,
(Nueva York: John Wiley, 1980). pp. 299-309.
5. Berenson, M.L., D.M. Levine y M.Goldstein, Intermediate 15. Ryan, B.F. y B.L. joiner, Minitab Student Hmufbvok, 3a. ed.
Statisical Methods ami Applications: A Co111p11ter Package (North Scituate, MA: Duxbury Press, 1994).
Appruacl1 (Englewood Cliffs, N]: Prentice-Hall, 1983). 16. SAS Language and Proced11res Usage, Versión 6 (Cary, NC:
6. Cook, R.O. y S. Weisberg, Residuals and lnfluence in SAS lnstitute, 1988).
Regression (Nueva York: Chapman and Hall, 1982). 17. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
7. Conover, W.J., Practica! Nonparametric Statistics, Za. ed. Software, 1992).
(Nueva York: john Wiley, 1980). 18. Tukey, ]. W., "Data Analysis, Computation and
8. Draper, N.R. y H. Smith, Applied Regression Analysis, 2a. ed. Mathematics" (Análisis de Datos, Computación y
(Nueva York: John Wiley, 1981). Matemáticas), Quaterly foumal uf Applied Mat/zematics,
9. Hoaglin, D.C. y R. Welsch, "The Hat Matrix in Regression 1972, vol. 30, pp. 51-65.
and ANOVA" (La matriz sombrero en regresión y ANOVA), 19. Velleman, P.F. y R. Welsch, "Efficient Computing of
Tile American Statistician, 1978, vol. 32, pp. 17-22. Regression Diagnostics" (Cálculo efectivo de diagnósticos
10. Hocking, R.R., "Developments in Linear Regression de regresión), The American Statislician, 1981, vol. 35, pp.
Methodology: 1959-1982" (Desarrollos en metodología de 234-242.
regresión lineal: 1959-1982), Technometrics, 1983, vol. 25, 20. Weisberg, S., Applied Linear Regression (Nueva York: John
pp. 219-250. Wiley, 1980).

780 Capítulo 17 Regresión lineal simple y correlación


capítulo

Modelos de regresión
múltiple
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar el modelo de regresión
múltiple como una extensión del
CAPÍTULO modelo de regresión lineal simple y
evaluar la contribución de cada
variable independiente al modelo de
regresión. Además, extender los
procedimientos de inferencia para
predecir el valor promedio de Y; medir
el coeficiente de determinación
parcial; desarrollar y probar el modelo
de regresión curvilínea; introducir las
variables ficticias en el análisis de
regresión; ilustrar el proceso de
construcción de modelos; e introducir
el modelo de regresión logística.

781
1l:H1 Introducción
En nuestro análisis del modelo de regresión simple que realizamos en el capítulo
anteri<?r, enfocamos nuestra atención en un modelo en el que una variable inde-
pendiente o explicatoria, X, es utilizada para predecir el valor de una variable
dependiente o de respuesta, Y. Podemos recordar que desarrollamos el modelo de
regresión simple con el fin de predecir las ventas de una cadena de tiendas depar-
tamentales, basándonos en el número de clientes. A menudo se da el caso de que
se puede desarrollar un modelo que se ajusta mejor si se toma en cuenta más de
una variable explicatoria. Así pues, en el presente capítulo extenderemos nuestro
análisis a los modelos de regresión múltiple en los que se pueden utilizar varias
variables explicatorias para predecir el valor de una variable dependiente.
Después de terminar el capítulo, usted deberá ser capaz de:
l. Interpretar los coeficientes de regresión.
2. Utilizar el modelo de regresión múltiple para predecir la variable de
~espuesta.
3. Determinar si existe una relación entre la variable de respuesta y las
variables independientes incluidas en el modelo.
4. Determinar cuáles variables independientes hacen una contribución
significativa al modelo de regresión.
5. Interpretar el coeficiente de determinación múltiple.
6. Interpretar los coeficientes de determinación parcial.
7. Tomar en cuenta la posibilidad de inclusión de términos curvilíneos
en el modelo de regresión.
8. Entender de qué manera se pueden incluir variables independientes
categóricas en el modelo de regresión.
9. Entender los modelos de regresión que incluyen términos de interacción
y modelos de regresión que implican variables transformadas.
10. Entender el problema de la multicolinealidad y cómo puede medírsele.
11. Utilizar los análisis de residuos y de influencias en la regresión múltiple.
12. Utilizar los planteamientos por pasos y de mejor subconjunto para
construir un modelo de regresión múltiple.
13. Utilizar la regresión logística para predecir una variable de respuesta
categórica.

ll:!j Desarrollo del modelo de regresión


múltiple
Suponga que deseamos desarrollar un modelo de regresión con el propósito de pre-
decir el consumo de petróleo para calefacción en casas de una sola familia durante el
mes de enero. Se seleccionó para hacer el análisis una muestra de 15 casas de carac-
terísticas parecidas construidas por la misma empresa en diferentes localidades de
Estados Unidos. A pesar de que se pueden tomar en consideración muchas variables,
para simplificar solamente evaluaremos dos variables explicatorias: la temperatura
atmosférica promedio diaria, medida en grados Fahrenheit, justo en el exterior de la
casa durante el mes en cuestión (X1), y la cantidad de aislamiento, medido en pul-
gadas, que hay en el ático de la casa (X2). Los resultados se presentan en la tabla 18.1.
Con dos variables explicatorias en el modelo de regresión múltiple, se puede
construir un diagrama de dispersión de los puntos en una gráfica tridimensional,
como se muestra en la figura 18.1.
Para una investigación particular, cuando se tienen diversas variables explica-
torias, el modelo de regresión lineal simple que estudiamos en el capítulo anterior

782 Capítulo 18 Modelos de regresión múltiple


Tabla 18. 1 Consumo de petróleo para calefacción, temperatura atmosférica y cantidad de aislamiento en el
ático para una muestra aleatoria de 15 casas de una sola familia.
Consumo mensual Temperatura atmosférica Cantidad de aislamiento
de petróleo para calefacción, promedio diaria, en el ático,
Observación (galones) (ºF) (pulgadas)

1 275.3 40 3
2 363.8 27 3
3 164.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323.0 38 3
15 52.5 58 10

Superficie de Regresión
9¡ =562.1508 - 5.436579 X1¡-20.1231 X21

Figura 18.1
Diagrama de dispersión de la temperatura
atmosférica diaria promedio, X 1, cantidad de
aislamiento en el ático, X2, y consumo mensual
de petróleo para calefacción, Y, con el plano de
regresión señalado, ajustado mediante el
método de mínimos cuadrados.

Desarrollo del modelo de regresión múltiple 783


[ecuación (17.1)], puede aplicarse si se supone que existe una relación lineal entre
cada variable explicatoria y la variable dependiente. Por ejemplo, con P variables
explicatorias el modelo de regresión lineal múltiple se expresa como:

(18.lá.)

en la que ~o = la intersección con el eje Y


~ 1 =la pendiente de Y respecto a la variable X 1 manteniendo las
variables X2 , X3 , .•• , Xp constantes
~ 2 = la pendiente de Y respecto a la variable X2 manteniendo las
variables X11 X3, ••• , Xp constantes
~ 3 =la pendiente de Y respecto a la variable X3 manteniendo
las variables X1, X2, X4 , •.. , Xp constantes

~P =la pendiente de Y respecto a la variable Xp manteniendo las


variables X11 X2 , X3 , ••• , Xp _ 1 constantes
E¡ = error aleatorio en Y correspondiente a la observación i
Para el caso de nuestros datos con dos variables explicatorias, el modelo de
regresión lineal múltiple se expresa como:
¡ ,),1

(18.lb)

en la que ~o = intersección con el eje Y


~ 1 =pendiente de Y respecto a la variable X 1 manteniendo X 2
constante
~ 2 =pendiente de Y respecto a la variable X 2 manteniendo X1
constante
E¡ = error aleatorio en Y correspondiente a la observación i

Este modelo de regresión lineal múltiple puede ser comparado con el modelo de regre-
sión lineal simple [ecuación (17.1)] que se expresa como

En el caso de un modelo de regresión lineal simple observaríamos que la pen-


diente ~ 1 representa el cambio unitario en la media de Y por unidad de cambio en
X, y no toma en cuenta ninguna otra variable aparte de la única variable indepen-
diente que se incluye en el modelo. Por otro lado, en el modelo de regresión lineal
múltiple [ecuación (18. lb)], la pendiente ~ 1 representa el cambio en la media de Y
por cambio unitario en X11 tomando en cuenta el efecto que tiene X2 • Se le conoce
como coeficiente de regresión neta.
Al igual que en el caso de la regresión lineal simple, cuando se analizan los
datos de la muestra, los coeficientes de regresión de la muestra (b 0, b 1, y b2 ) se uti-
lizan como estimaciones de los parámetros verdaderos (~ 0 , ~v y ~2 ). Por
consiguiente, la ecuación de regresión para el modelo de regresión lineal múltiple
con dos variables explicatorias sería

784 Capítulo 18 Modelos de regresión múltiple


l.,·'

(18.2)

Utilizando el método de mínimos cuadrados, los valores de los tres coefi-


cientes de regresión de la muestra pueden obtenerse con un adecuado paquete de
computación (véanse referencias 12, 14, 15 y 17). En la figura 18.2 se presenta el
resultado parcial obtenido con el procedimiento REG del paquete de software SAS
para los datos de la tabla 18.1. En la figura 18.24 (véase página 844) se presenta el
resultado obtenido con el paquete STATISTIX, y en la figura 18.25 (véase página
845) se presenta el resultado obtenido con el paquete MINITAB.

DEP VARIABLE! OIL (VARIANCE)


SPM OF MEAN
SOURCE DF; SQUARES SQUARE , F yALµE,
, ., .• • ¡
~ROB.> F

MODEL " '2'· ' 228015' '114007


ERROR·. 12' !U20·.. 6Q3 , 676.717
e TOTAL 14 ,. 23.6Ú5 1 ,··. < •

RÓOT MSE 26: oi3783 R-SQUARE 0.9656


'DEP MEAN ·. 216.493 ADJ R-2.SQ 0.9599
··c.v. •. 12. 0159:7 ' .,, ···.;,\
"' ., '··' ,_'/': .•• 11:• .•¡',!·!'·'. -.'

.T f<?R HO:.
VARIABLE DF.
i : . ! ' ~' PARAME~~~~.9 PRO~' :> : ~ t;,
·INTERCEP. 1 bo 562.151 121.093104 Sb · 26.651 . o.:0·0·1D·;1:··,
T.EMPF ... 1 b.1 -5.436581, .O.H6216,Sbª· -16.170 :' , • o.:000.1>,
IN;SU 1 ti2,-20.012321 ~-~4~?05S~:;. -8.543:1
....
, p.oHAt
VARIABLE DF TYPE I SS TYPE II SS

Ir>1TER,CEP . 1 703040 480653


TEMPF . 1 178624 17693,?, ·. ~·. _';•· , ' , .. ·~· T~. :. ,. .-· .
INSU 1 4,9390.202 49390. ~.P4.

'PRED:i:CT STD ERR ; LOWER95i ~PPER9'5t ' · ' :,; , .


OBS ACTUAL VALUE .. PREDICT :·,, .. 'ME~ .. : MEAN :RESlI?VAL•.,

,f,;~;:,~§(~~f:·~;~. ifi~~· ·. ;~s·J}§: .:;.·~~:Ji~: :.~f:"!;·~·r.


'.3'<[64·;300 144.565' 10;905 120,805' 168,:324·' '19.73•5:':
. : 4. 4:0 .. soo' .45.207 , , 12:92•3 .· ;11~050 ... • 73:,353· ;, . -4'.4:01t1;
·•!i.! 9A.·3100, · 94.136 .. lQ·,,:465, : 71 .. 335 · li~.93,6,;. ·O.H~0721:
6 230.9,00 257.233 7;081 241.806 272,.661 -26.,333'
? .. 366.,700 393, .• 148 12,4,9,3, '2~06'4'5 . 9~'20?5.· '' 420 .. 369,'' .,-26.,,448,
a joo.~do. jls;~3~· 15,435 · 3~2.16~ -i7:935.
9 237.800 236.986 12.389 209'.99{ '263.979' 0.813551
10 12LC4ÓO · 15·9.609' 12:.061 ·131.574 ·: Í87-i645'· '•"-38.'209
1,1 31.400 8.650 13.666 :-2.i1.;126' .38.426 22.750
12 203.500 '219.177 ·6:767' 204'.434 '233.921 -iS.677
,13 '441.10,0 387 .. 94,6 12.130 :391.pl6 ;4~4-¡37;5 53.,154,
14 3?3·;:.o9q.295;s24 11 2p.·..'..332?.3º:· 213.0.33 ·.31s.o+?. 21,4;1,6
15 52' .. '500 ,, 46.706
.. . ' ' . , ; " ' . .. : . ~ ¡',
ú . 710 •1''13:703 ' : • :' , , ,¡- ,', : <
'5.7,9~ .•

Figura 18.2
Resultado parcial obtenido con el procedimiento REG del paquete SAS para los
datos de la tabla 18.1

Desarrollo del modelo de regresión múltiple 785


En la figura 18.2 observamos que los valores calculados de los coeficientes de
regresión para el problema que se está tratando son:

b0 = 562.151 b1 = -5.43658

Por lo tanto, la ecuación de regresión múltiple puede expresarse como


/\
Y;= 562.151 - 5.43658X 1 ; - 20.0123X 2 ;

/\
en la que Y; = cantidad promedio predicha de petróleo para calefacción
que se consume durante el mes de enero para la observación i
X¡¡= temperatura atmosférica promedio diaria (ºF) durante enero para
la observación i
X 2 ; = cantidad de aislamiento en el ático (pulgadas) para la observación i

La interpretación de los coeficientes de regresión es parecida a la que se hace


en el modelo de regresión lineal simple. La intersección con Y, b0 , calculada como
562.151, es una estimación del número esperado de galones de petróleo para cale-
facción doméstica que se consumirían en enero cuando la temperatura atmosférica
promedio fuera de Oº para una casa que no se encontrara aislada (es decir, con O
pulgadas de aislamiento en el ático). La pendiente de la temperatura atmosférica
diaria promedio respecto al consumo de petróleo para calefacción, b 1 (calculada
como -5.43658) puede interpretarse como el correspondiente a una casa con un
número dado de pulgadas de aislamiento en el ático, se estima que el consumo
esperado de petróleo para calefacción disminuya en 5.43658 galones por mes por
cada grado de aumento en la temperatura atmosférica promedio diaria (en lºF).
Además, la pendiente de la cantidad de aislamiento en el ático respecto al consumo
de petróleo para calefacción, b2 (calculada como -20.0123) puede interpretarse
como la correspondiente a un mes con una temperatura atmosférica promedio
diaria dada, se estima que el consumo esperado de petróleo para calefacción dis-
minuya en 20.0123 galones por cada pulgada adicional de aislamiento en el ático.

Problemas de la sección 18.2


18. l Explique la diferencia en la interpretación de los coeficientes de regresión en
la regresión lineal simple y la regresión lineal múltiple.
e 18.2 Un analista de mercadotecnia que trabaja para un fabricante de zapatos está
considerando la posibilidad de desarrollar una nueva marca de zapatos para
correr. En particular, el analista desea determinar las variables que pueden ser
utilizadas en la predicción de la durabilidad (o el efecto del impacto a largo
plazo). Se van a tomar en cuenta las siguientes dos variables independientes:
X1 (FOREIMP), que es una medida de la capacidad de absorción de impacto
del metatarso,
X 2 (MIDSOLE),que es una medida del cambio de las propiedades de impacto
respecto al tiempo,
junto con la variable dependiente Y (LTIMP), que es una media de la habilidad
a largo plazo de absorción de golpes después de una prueba repetida de
impactos. Se seleccionó para probarse una muestra aleatoria de 15 tipos de
zapatos de carreras que se fabrican actualmente. Utilizando el paquete de
software SAS, se obtuvo el siguiente resultado parcial:

786 Capítulo 18 Modelos de regresión múltiple


Problema sobre la durabilidad de los zapatos.

DEP VARIABLE LTIMP (VARIANCE)


SUM OF MEAN
SOURCEDF SQUARES SQUARE. F VALUE PROB > F
MODEL 2 12.61020 6.30510 97.69 0.0001
ERROR 12 o. 77453 0.06454
C. TOTAL 14 13.38473
PARAMETER STANDARD T FOR HO:
VARIABLE DF ESTIMATE ERROR PARAMETER = O PROB > ITI
INTERCEP 1 - 0.02686 .06905 - 0.39
FOREIMP 1 0.79116 .06295 12.57 .0000
MIDSOLE 1 0.60484 .07174 8.43 .0000
VARIABLE DF TYPE I SS TYPE II SS
FOREIMP 1 8.02166 10.19682
MIDSOLE 1 4.58854 4.58854

(a) Suponiendo que cada variable independiente está relacionada linealmente


con el impacto a largo plazo, establezca Ja ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes de este problema.
18.3 Una empresa que vende por correo suministros para computadoras personales,
software y hardware posee un almacén central para la distribución de los
productos ordenados. Actualmente, la administración se encuentra examinando
el proceso de distribución desde el almacén y está interesada en estudiar los
factores que afectan los costos de distribución del almacén. Actualmente, un
pequeño cargo por manejo se agrega al pedido, independientemente de la
cantidad por la que se hizo. Se han recolectado datos correspondientes a los 24
meses anteriores y respecto a Jos costos de distribución del almacén, las ventas y
el número de pedidos recibidos. A continuación se presentan los resultados:

Problema sobre costos de distribución.


Costo de distribución Ventas Número de Costo de distribución Ventas Número de
Mes (miles de dólares) (miles de dólares) pedidos Mes (miles de dólares) (miles de dólares) pedidos
1 52.95 386 4,015 13 62.98 372 3,977
2 71.66 446 3,806 14 72.30 328 4,428
3 85.58 512 5,309 15 58.99 408 3,964
4 63.69 401 4,262 16 79.38 491 4,582
5 72.81 457 4,296 17 94.44 527 5,582
6 68.44 458 4,097 18 59.74 444 3,450
7 52.46 301 3,213 19 90.50 623 5,079
8 70.77 484 4,809 20 93.24 596 5,735
9 82.03 517 5,237 21 69.33 463 4,269
10 74.39 503 4,732 22 53.71 389 3,708
11 70.84 535 4,413 23 89.18 547 5,387
12 54.08 353 2,921 24 66.80 415 4,161

Utilice un paquete de computación y lleve a cabo un análisis de regresión


lineal múltiple. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes en este problema.

Desarrollo del modelo de regresión múltiple 787


e 18.4 Suponga que una compañía grande de productos de consumo desea medir la
efectividad de los diferentes medios de propaganda en la promoción de sus
productos. En especial, se van a· estudiar dos tipos de medios de promoción:
propaganda en radio y televisión y propaganda en periódicos (incluyendo el
costo de los cupones de descuento). Se seleccionó una muestra de 22 ciudades
cuya población es aproximadamente igual para realizar un estudio durante un
periodo de prueba de un mes. A cada ciudad se le asignó un nivel de gastos
específico para publicidad en radio y televisión y para publicidad en periódicos.
Se registraron las ventas del producto (en miles de dólares) durante el mes de
prueba, junto con los niveles de gastos de los medios, y se tuvieron los
siguientes resultados:

Problema sobre medios de publicidad.


Publicidad en Publicidad en
Ventas radio y Publicidad en Ventas radio y Publicidad en
(miles televisión (miles periódicos (miles televisión (miles periódicos
Ciudad de dólares) de dólares) (miles de dólares) Ciudad de dólares) de dólares) (miles de dólares)

973 o 40 12 1,577 45 45
2 1,119 o 40 13 1,044 50 o
3 875 25 25 14 914 50 o
4 625 25 25 15 1,329 55 25
5 910 30 30 16 1,330 55 25
6 971 30 30 17 1,405 60 30
7 931 35 35 18 1,436 60 30
8 1,177 35 35 19 1,521 65 35
9 882 40 25 20 1,741 65 35
10 982 40 25 21 1,866 70 40
11 1,628 45 45 22 1,717 70 40

Utilice un paquete de computación y lleve a cabo un análisis de regresión


lineal múltiple. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes en este problema.
18.5 Al departamento de personal de una empresa industrial grande le gustaría
desarrollar un modelo para predecir el salario semanal basándose en la
antigüedad en el empleo y en la edad de sus trabajadores administrativos. Se
seleccionó una muestra de 16 empleados administrativos y se obtuvieron los
resultados que se presentan a continuación:

Problema sobre salario de los empleados.


Antigüedad en Antigüedad en
el empleo el empleo
Empleado Salario semanal (meses) Edad (años) Empleado Salario semanal (meses) Edad (años)

1 $839 330 46 9 752 352 55


2 946 569 65 10 729 256 61
3 870 375 57 11 656 87 28
4 718 113 47 12 874 337 51
5 802 215 41 13 606 42 28
6 812 343 59 14 729 129 37
7 748 252 45 15 728 216 46
8 791 348 57 16 792 327 56

788 Capítulo 18 Modelos de regresión múltiple


Utilice un paquete de computación y lleve a cabo un análisis de regresión
lineal múltiple. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes en este problema.
18.6 El director de operaciones de transmisión de una·estación de televisión desea
estudiar la cuestión de las "horas de reserva", tiempo que se les paga a los
artistas gráficos sindicalizados que trabajan en la estación, pero durante el cual
realmente no existe ninguna actividad. Las variables que se van a tomar en
cuenta son:
Horas de reserva (Y): número total de horas de reserva por
semana.
Personal total presente (X 1): total por semana de los días-persona traba-
jados durante una semana de siete días.
Horas remotas (X2 ): número total de horas trabajadas por los
empleados en locaciones fuera de la planta central.
Los resultados para un periodo de 26 semanas son los siguientes:

Problema sobre horas de reserva.


Horas de Personal total Horas Horas de Personal total Horas
Semana reserva presente remotas Semana reserva presente remotas

1 245 338 414 14 161 307 402


2 177 333 598 15 274 322 151
3 271 358 656 16 245 335 228
4 211 372 631 17 201 350 271
5 196 339 528 18 183 339 440
6 135 289 409 19 237 327 475
7 195 334 382 20 175 328 347
8 118 293 399 21 152 319 449
9 116 325 343 22 188 325 336
10 147 311 338 23 188 322 267
11 154 304 353 24 197 317 235
12 146 312 289 25 261 315 164
13 115 283 388 26 232 331 270

Utilice un paquete de computación y desarrolle un modelo de regresión lineal


múltiple para predecir las horas de reserva basándose en el personal total
presente y el número de horas remotas. Sobre la base de los resultados
obtenidos:
(a) Establezca el modelo de regresión múltiple.
(b) Interprete el significado de las pendientes en este problema.

11:11 Predicción de la variable dependiente Y


para valores dados de las variables
explicativas
Ahora que el modelo de regresión múltiple ha sido ajustado a estos datos, se
pueden desarrollar varios procedimientos, parecidos a los analizados en la regre-
sión lineal simple. En la presente sección utilizaremos el modelo de regresión
múltiple para predecir el consumo mensual de petróleo para calefacción.

Predicción de la variable dependiente Y para valores dados de las variables explicativas 789
Suponga que deseamos predecir el número de galones de petróleo para cale-
facción consumidos en una casa que posee 6 pulgadas de aislamiento en el ático,
durante un mes en el cual la temperatura atmosférica diaria promedio fue de 30ºF.
Utilizando nuestra ecuación de regresión múltiple
/\
Y¡ = 562.151 - 5.43658Xli - 20.0123X 2 ;

con X1¡ = 30 y X2¡ = 6, tenemos

y j = 562.151 - (5.43658)(30) - (20.0123)(6)

y, por consiguiente,
/\
y i = 278.9798
En consecuencia estimaríamos que un promedio de 278.98 galones de petróleo
para calefacción se utilizarían en casas con 6 pulgadas de aislamiento en el ático,
cuando la temperatura promedio fuera de 30ºF.

Problemas de la sección 18.3


18.7 Refiérase al problema 18.3 (correspondiente al costo de distribución) de la
página 787, y prediga los costos de distribución de almacén mensuales cuando
las ventas son de $400,000 y el número de pedidos es de 4,500.
e 18.8 Refiérase al problema 18.4 (correspondiente a los medios de publicidad) de la
página 788, y prediga las ventas para una ciudad en la cual el costo de la
publicidad en radio y televisión es de $20,000, y el de la publicidad en
periódicos es también de $20,000.
18.9 Refiérase al problema 18.5 (correspondiente a los salarios de los trabajadores)
de la página 788, y prediga el salario semanal para un empleado administrativo
que ha estado empleado durante 15 años en la empresa y tiene 47 años.
18.10 Refiérase al problema 18.6 (correspondiente a las horas de reserva) de la página
789, y prediga las horas de reserva para una semana en la que el personal total
presente es de 310 días-persona y las horas remotas son 400.

11:81 Medición de la asociación en el


modelo de regresión múltiple
Podemos recordar de la sección 17 .6 que, cuando un modelo de regresión ya ha sido
desarrollado, se puede calcular el coeficiente de determinación f. En la regresión
múltiple, puesto que al menos se tienen dos variables explicatorias, el coeficiente
de determinación múltiple representa la porción de la variación en Y que se
puede explicar mediante el conjunto de variables explicatorias elegidas. En nuestro
ejemplo, que contiene dos variables independientes, el coeficiente de determinación
múltiple (?¡,.iz) está dado por

790 Capítulo 18 Modelos de regresión múltiple


en la que
n n n
SSR = b 0 .L, Y; + b1 L X¡¡Y; + b L X 2 2 ;Y; - nY 2
i=l i=l i=l
n
SST = _L, Y/ - nY 2
i=l

En el problema del consumo de petróleo para calefacción ya hemos calculado


SSR =228,015 y SST =236, 135 (redondeado). Así pues, como se muestra en el resul-
tado obtenido con el paquete SAS de la figura 18.2 de la página 785,

r2 = SSR = 228,015 = .9656


Y.IZ SST 236 135
'
Este coeficiente de determinación múltiple, calculado como .9656, puede
interpretarse diciendo que, de la muestra, 96.56% de la variación en el consumo
de petróleo para calefacción doméstica puede ser explicada por la variación en la
temperatura atmosférica diaria promedio y por la variación en la cantidad de ais-
lamiento en el ático.
Sin embargo, podemos recordar de la sección 17.6 que, cuando tratamos con
modelos de regresión múltiple, algunos investigadores sugieren que se calcule un
coeficiente r2 ajustado que refleje tanto el número de variables explicatorias del
modelo como el tamaño de la muestra. Esto se hace especialmente necesario
cuando estamos comparando dos o más modelos de regresión que predicen la
misma variable dependiente, pero que poseen diferente número de variables
explicativas o de predicción. Por lo tanto, en la regresión múltiple, podemos repre-
sentar el coeficiente r 2 ajustado como
1·,,: 1•,

,!._ .•

en donde P es el número de variables explicativas que hay en la ecuación de


regresión.
Así pues, para nuestros datos correspondientes al petróleo para calefacción,
como rv. 12 = .9656, n = 15 y P = 2,

rz =
aju
1_[(l _,2 r.12
)(15(15- -2 1)- 1) ]

= 1 - [ (1 - .9656) ~~ J
= 1 - .04
= .96
En consecuencia, 96% de la variación en el uso de petróleo para calefacción domés-
tica puede ser explicada por nuestro modelo de regresión múltiple: ajustado para
el número de variables de predicción y el tamaño de muestra.
Con el propósito de hacer un estudio más profundo de la relación entre las
variables, a menudo resulta de utilidad examinar la correlación entre cada pareja
de variables incluidas en el modelo. Esta matriz de correlación, que indica el coefi-
ciente de correlación entre cada pareja de variables, se muestra en la tabla 18.2 en
la página 792.

Medición de la asociación en el modelo de regresión múltiple 791


Tabla 18.2 Matriz de correlación para el problema sobre el consumo del petróleo
para calefacción.
y X¡ Xz
(Petróleo para (Temperatura) (Aislamiento
calefacción) en el ático)
Y (Petróleo para calefacción) ryy = 1.0 rn = -.86974 = - .46508
,.1'2
X 1 (Temperatura) rn =-.86974 1'¡¡ 1.0
= r 12 =.00892
X 2 (Aislamiento en el ático) ry2 = -.46508 r 12 = .00892 r22 = 1.0

En la tabla 18.2 podemos observar que la correlación entre la cantidad de


petróleo para calefacción consumida y la temperatura es de - .8697 4, lo cual indica
que existe una fuerte asociación negativa entre las variables. También podemos
observar que la correlación entre la cantidad de petróleo para calefacción con-
sumida y el aislamiento en el ático es de -.46508, Jo cual indica que existe una corre-
lación negativa moderada entre estas variables. Además, observamos también que
virtualmente no existe correlación alguna (.00892) entre las dos variables explica-
tivas, la temperatura y el aislamiento en el ático. Finalmente, podemos observar
que los coeficientes de correlación situados en la diagonal principal de la matriz
(ryy, r¡ 1, r22 ) tienen valor de 1.0, puesto que habrá una correlación perfecta entre la
variable y ella misma.

Problemas de la sección 18.4


Para los problemas 18.11a18.15
(a) Calcule el coeficiente de determinación múltiple r 2y. 12 e interprete su significado.
(b) Calcule el coeficiente ajustado r 2 .
e 18.11 Refiérase al problema 18.2 (correspondiente a la durabilidad de los zapatos) en
la página 786.
18.12 Refiérase al problema 18.3 (correspondiente a los costos de distribución) de la
página 787.
e 18.13 Refiérase al problema 18.4 (correspondiente a los medios de ¡ml:Jlici<lau) ue la
página 788.
18.14 Refiérase al problema 18.5 (correspondiente al salario de los empleados) de la
página 788.
e 18.15 Refiérase al problema 18.6 (correspondiente a las horas de reserva) de la página 789.

1l:Hj Análisis residual en regresión múltiple


En la sección 17.9 utilizamos el análisis de residuos para evaluar si un modelo de
regresión lineal simple es apropiado para el conjunto de datos que se están estu-
diando. Cuando examinamos un modelo de regresión lineal múltiple con dos
variables explicativas, las siguientes gráficas de residuos son de interés:
A
l. Residuos estandarizados contra Y¡
2. Residuos estandarizados contra X 1¡
3. Residuos estandarizados contra X 2 ¡
4. Residuos estandarizados contra el tiempo
La primera gráfica de residuos sirve para examinar el patrón de residuos para los
valores predichos de Y. Si los residuos estandarizados parecen variar para diferentes
niveles del valor predicho de Y, esto nos proporciona evidencia de un posible
efecto curvilíneo en al menos una variable explicativa y/o de la necesidad de trans-
formar la variable dependiente. La segunda y tercera gráficas de residuos implican

792 Capítulo 18 Modelos de regresión múltiple


a las variables explicativas. La aparición de patrones en la gráfica de los residuos
estandarizados contra una variable explicativa puede ser una indicación de la exis-
tencia de un efecto curvilíneo y, por consiguiente, nos llevaría a la posible trans-
formación de dicha variable independiente. El cuarto tipo de gráfica se utiliza para
investigar patrones en los residuos cuando los datos han sido recolectados en
orden cronológico. Asociada con la gráfica de los residuos en función del tiempo,
como se vio en la sección 17.10, la estadística de Durbin-Watson puede calcularse
y determinarse la existencia de correlación positiva entre los residuos.
Las gráficas de residuos se obtienen como parte de los resultados de casi todos
los paquetes estadísticos de computación. En la figura 18.3 se presentan las gráfi-

¡----
----------------------1

. ··~; :

:;'. :•·

- . ':U.

.; . ¡.u •.i . 1 \ ,~·· :.,'·.

Figura 18.3
Gráficas de residuos para el
modelo de consumo de
•P! f.~d¡­ petróleo para calefacción,
.co ! Ct). 00 200.0~) 3Cü.OO 0 IOC1. Ot.l 'iüD. 00 obtenidas con el paquete
MINITAB.

Análisis residual en regresión múltiple 793


cas de residuos obtenidas con el paquete MINITAB para el problema del consumo
de petróleo para calefacción. En esta figura podemos observar que parece haber un
patrón muy pequeño o no haberlo en la relación entre los residuos estandarizados
y cualquiera de los valores predichos de Y, X1 (la temperatura) o X 2 (el aislamiento
en el ático). Así pues, podemos llegar a la conclusión de que el modelo de regresión
lineal múltiple es apropiado para predecir el consumo de petróleo con propósitos
de calefacción.

Problemas de la sección 18.5


18.16 (a) Refiérase al problema del costo de distribución (páginas 787, 790 y 792);
lleve a cabo un análisis de residuos de sus resultados y determine lo
adecuado del ajuste del modelo.
(b) Grafique los residuos contra el tiempo (en meses). ¿Existe alguna evidencia
de que haya un patrón en los residuos? Explique su respuesta.
(c) Calcule la estadística de Durbin-Watson.
(d) Al nivel de significación de .05, ¿existe evidencia de una autocorrelación
positiva en los residuos?
e 18.17 Refiérase al problema correspondiente a los medios de publicidad (páginas
788, 790 y 792) y lleve a cabo un análisis de residuos sobre los resultados
obtenidos y determine lo adecuado del ajuste del modelo.
18.18 Refiérase al problema correspondiente al salario de los empleados (páginas
788, 790 y 792) y lleve a cabo un análisis de residuos de los resultados
obtenidos y determine lo adecuado del ajuste del modelo.
18.19 (a) Refiérase al problema correspondiente a las horas de reserva (páginas 789,
790 y 792) y lleve a cabo un análisis de residuos de los resultados
obtenidos y determine lo adecuado del ajuste del modelo.
(b) Grafique los residuos en función del tiempo (en semanas). ¿Existe
evidencia de que haya un patrón en los residuos? Explique su respuesta.
(c) Calcule la estadística de Durbin-Watson.
(d) Al nivel de significación de .05, ¿existe evidencia de que haya una
autocorrelación positiva en los residuos?

1l:!.J Prueba de la importancia de la


relación entre la variable dependiente
y las variables explicativas
Ahora que hemos utilizado el análisis de residuos para asegurarnos de que el mode-
lo de regresión múltiple es apropiado, podemos determinar si existe una relación
significativa entre la variable dependiente y el conjunto de variables explicativas.
Puesto que se tiene más de una variable independiente, las hipótesis nula y alter-
nativa pueden establecerse de la manera siguiente:

H0 : 13 1 =132 =O (No existe una relación lineal entre la variable


dependiente y las variables explicativas)
H1 : A menos una 13; ,¡.O (Al menos un coeficiente de regresión no es igual a cero)

Esta hipótesis nula puede probarse utilizando una prueba F, como se indica en
la tabla 18.3. Podemos recordar de las secciones 13.6 y 14.4 que la prueba F se utiliza
cuando probamos el cociente de dos varianzas. Cuando probamos la significación de

794 Capítulo 18 Modelos de regresión múltiple


Tabla 18.J Tabla de análisis de varianza para probar la significación de un conjunto de coeficientes de regresión
de un modelo de regresión múltiple que contiene P = 2 variables explicatorias.
Cuadrado medio
Fuente df Suma de cuadrados (varianza) F

n
LX Y + b LX Y
11 11

Regresión p SSR = b0 L Y +b 1 1 11 1 2 21 1 - nY 2 MSR = SSR F = MSR


p MSE
i=l i=-1 i=l

n n 11 11

Error n -P-1 SSE = LY/ -b0 LY -b 1 LXuY; -b 2 LX21 Y1 SSE


1 MSE =
i=l i=l i=l i=l n-P-1
n

Total n-1 SST = LY


i=l
2
1 - nY 2

los coeficientes de regresión, la medida del error aleatorio se conoce como varianza
de error, de modo que la prueba F es el cociente de la varianza debida a la regresión
dividida entre la varianza de error, como se muestra en la ecuación (18.5):
'•' ·•

.. 1 •:,'·

··' · MSl1 '' (1~.5)


''· t'
f
, .. ,
i;::
'•'•
MSE •• '

·"'
en la que P es el número de variables explicatorias del modelo de regresión, y F
sigue una distribución F con P y n - P - 1 grados de libertad.
La regla de decisión es:

Rechace H0 al nivel de significación a si F > Fu(P,n _ p _ 1);


en cualquier otro caso, no rechace H0 .

Para los datos correspondientes al problema del consumo de petróleo para


calefacción, presentamos la tabla ANOVA en la tabla 18.4 (también presentada
como parte de la figura 18.2 de la página 785).

Tabla 18.4 Tabla de análisis de varianza para probar la significación de un conjunto de coeficientes de regresión
para el problema sobre el consumo de petróleo para calefacción.
Cuadrado medio
Fuente df Suma de cuadrados (varianza) F
Regresión 2 (562.151)(3,247 .4) + (-5.43658)(98,060.1) 228, 014.6263 114, 007.31315
+ (-20.0123)(18,057) - 15(216.493) 2 2 676.71692
= 228,014.6263 =114,007.31315 = 168.47

Error 15 - 2 - 1=12 939,175.68 - (562.151)(3,247.4) 8, 120.6030


- (-5.43658)(98,060.1) - (-20.0123)(18,057) 12

= 8,120.6030 = 676.71692
Total 15 - 1=14 939,175.68 - 15(216.443)2 = 236,135.2293
Fuente: Formato de la tabla 18.3.

Prueba de la importancia de la relación entre la variable dependiente y las variables explicativas 795
Si se elige un nivel de significación de .05, de la tabla E.5 determinamos que el
valor crítico en la distribución F (con dos y 12 grados de libertad) es 3.89, como se
muestra en la figura 18.4. De la ecuación (18.5), puesto que F = 168.47 > Fu(z, 12) =
3.89, podemos rechazar H0 y llegar a la conclusión de que al menos una de las varia-
bles explicativas (temperatura y/o aislamiento) está relacionada con el consumo de
petróleo para calefacción.

Figura 18.4
Prueba de la significación de
un conjunto de coeficientes de regresión
al nivel de significación de .05, con 2 y o 3.89 FU(2,12)
12 grados de libertad.

Problemas de la sección 18.6


e 18.20 Refiérase al problema 18.2 (correspondiente a la durabilidad de los zapatos) de
la página 786:
(a) Determine si existe una relación significativa entre el impacto a largo
plazo y las dos variables explicativas, al nivel de significación de .05.
(b) Calcule el valor de pe interprete su significado.
18.21 Refiérase al problema 18.3 (correspondiente al costo de distribución), de la
página 787:
(a) Determine si existe una relación significativa entre el costo de distribución
y las dos variables explicativas (ventas y número de órdenes hechas), al
nivel de significación de .OS.
(b) Calcule el valor de pe interprete su significado.
e 18.22 Refiérase al problema 18.4 (correspondiente a los medios de publicidad) de la
página 788:
(a) Determine si existe una relación significativa entre el salario semanal y las
dos variables explicativas (antigüedad en el empleo y edad), al nivel de sig-
nificación de .OS.
(b) Calcule el valor de pe interprete su significado.
18.23 Refiérase al problema 18.S (correspondiente al salario de los empleados) de la
página 788:
(a) Determine si existe una relación significativa entre el salario semanal y las
dos variables explicativas (antigüedad en el empleo y edad), al nivel de sig-
nificación de .OS.
(b) Calcule el valor de pe interprete su significado.
18.24 Refiérase al problema 18.6 (correspondiente a las horas de reserva) de la página 789:
(a) Determine si existe una relación significativa entre las horas de reserva y
las dos variables explicativas (personal total presente y horas remotas), al
nivel de significación de .05.
(b) Calcule el valor de pe interprete su significado.

1l:fj Prueba de porciones del modelo de


regresión múltiple
En el desarrollo de un modelo de regresión múltiple, el objetivo consiste en
emplear solamente aquellas variables que son de utilidad en la predicción del valor
de una variable dependiente. Si una variable explicativa no resulta de ayuda para

796 Capítulo 18 Modelos de regresión múltiple


hacer tal predicción, puede ser eliminada del modelo de regresión múltiple y se
puede usar en su lugar un modelo con menos variables independientes.
Uno de los métodos para determinar la contribución de una variable explica-
tiva es el conocido como criterio de la prueba F parcial (véase referencia 4).
Éste implica la determinación de la contribución a la suma de cuadrados de regre-
sión hecha por cada variable independiente después de que todas ellas han sido
incluidas en un modelo. Una nueva variable explicativa sería incluida sólo si
mejora significativamente el modelo. Para aplicar el criterio de la prueba F parcial
a nuestro problema concerniente al consumo de petróleo para calefacción, que
contiene dos variables explicativas, necesitamos evaluar la contribución de la va-
riable aislamiento en ático (X2) cuando la variable temperatura atmosférica diaria
promedio (X1) ya ha sido incluida en el modelo y, por el contrario, también debe-
mos evaluar la contribución de la variable temperatura atmosférica diaria prome-
dio (X 1) cuando ya se ha incluido en el modelo la variable aislamiento en el ático
(Xz).
La contribución de cada variable independiente que se va a incluir en el mode-
lo puede ser determinada si se toma en cuenta la suma de cuadrados de regresión
de un modelo que incluya a todas las variables explicativas excepto a la que nos
interesa, SSR (todas las variables excepto k). Por consiguiente, en general, para deter-
minar la contribución de la variable k dado que todas las demás variables ya han
sido incluidas, tendríamos:

• SSR(Xk ¡todas las variables excepto) : .· . '·':,· . ; ·


. ,, ' · · "'.: · .·. · ,~ , . . . (18.6a)
= SSR. (tpdas las variábles:iriclüida k) -SSR (f(}das las variables exreptc ~ ·, ·. ,

Si, como en el problema del consumo de petróleo para calefacción, se tienen


dos variables independientes, se puede determinar la contribución de cada una de
ellas con las ecuaciones (18.6b) y (18.6c):
. :_.. , ,' :· ~f·:: ,;

.C<jntñbudón de lq va~able . X1 Dada X2 .ha sidoindui4a ' '


:s~R(x:'1x2) = ssR(xl r
xz)-'- s~R(x~)·· ··
Contribud6n de la variable· X 2 Dada X 1 ha sido conciuii;ta .
SSR(X 2 IX1 ) ~ SSR(X1 Y 'X 2 ) - SSR(X1 ) •

El término SSR(X2) representa la suma de cuadrados debida a la regresión,


correspondiente a un modelo que s6lo incluye la variable explicativa X 2 (cantidad
de aislamiento en el ático); el término SSR(X1) representa la suma de cuadrados
para un modelo que únicamente incluye la variable explicativa X 1 (temperatura
atmosférica diaria promedio). En las figuras 18.5 y 18.6, de la página 798, se pre-
sentan los resultados obtenidos con el procedimiento REG del paquete SAS, corres-
pondiente a estos dos modelos.
Podemos observar en la figura 18.5 que

SSR(X2) =51,076 (redondeado)


y, por consiguiente, de la ecuación (18.6b),

Prueba de porciones del modelo de regresión múltiple 797


DEP VARIABLE: OIL (VARIANCE)
SUM OF MEAN
SOURCE DF SQUARES SQUARE F VALUE PROB > F
MODEL 1 51076 51076 3.59 .0807
ERROR 13 185058.76 14235
C TOTAL 14 236135
ROOT MSE 119.31051 R-SQUARE 0.2163
DEP MEAN 216.493 ADJ R-SQ 0.1560

PARAMETER STANDARD T FOR HO:


VARIABLE DF ESTIMATE ERROR PARAMETER=O PROB > :T:
Figura 18.S
Resultado parcial de un modelo de INTERCEP 1 345.378 74.690659 4.62 0.0005
regresión lineal simple de la INSU 1 -20.351 10.743429 -1. 89 0.0807
cantidad de petróleo para
calefacción consumido y la VARIABLE DF TYPE I SS TYPE II SS
cantidad de aislamiento en el ático
(obtenido con el procedimiento INSU 1 51076.465 51076.465
REG deSAS).

DEP VARIABLE: OIL (VARIANCE)


SUM OF MEAN
SOURCE DF SQUARES SQUARE F VALUE PROB > F
MODEL 1 178624 178624 40.38 0.0001
ERROR 13 57510.805 4424
e TOTAL 14 236135
ROOT MSE 66. 513 R-SQUARE 0.7565
DEP MEAN 216.493 ADJ R-SQ 0.7378

PARAMETER STANDARD T FOR HO:


VARIABLE DF ESTIMATE ERROR PARAMETER=O PROB > :T:
Figura 18.6
Resultado parcial del modelo de INTERCEP 1 436.438 38.639709 11.30 0.0001
regresión lineal simple de la TEMPF 1 -5.462208 0.859609 -6.35 0.0001
cantidad de petróleo para
calefacción consumido y la VARIABLE DF TYPE I SS TYPE II SS
temperatura atmosférica diaria
promedio (obtenido con el TEMPF 1 178624 178624
procedimiento REG de SAS).

tenemos

SSR(X 1 IX 2 ) = 228,015 - 51,076 = 176,939


Debemos hacer notar que este valor, excepto por cuestiones de redondeo, tam-
bién se muestra en la suma de cuadrados Tipo JI (SS) obtenida con el procedimiento
REG del paquete SAS para el modelo de regresión con dos variables explicativas
(véase figura 18.2 de la página 785).
Con el propósito de determinar si X1 mejora significativamente el modelo
después de que X2 ha sido incluida en éste, ahora podemos dividir la suma de
cuadrados de regresión en dos partes componentes, como se muestra en la tabla
18.5.
Las hipótesis nula y alternativa para probar la contribución de X 1 al modelo
serían:

H0 : La variable X1 no mejora significativamente el modelo ya que se


ha incluido la variable X2•

798 Capítulo 18 Modelos de regresión múltiple


Tabla 18.S Tabla de análisis de varianza que divide la suma de
cuadrados de regresión en componentes para determinar
la contribución de la variable X 1•
Cuadrado medio
Fuente df Sumas de cuadrados (varianza) F

Regresión 2 228,015 114,007.5

{x~lJ g} { 51,076 }
176,939
51,076
176,939 261.47

Error 12 8,120 MSE = 676.717


Total 14 236,135

H 1: La variable X 1 mejora significativamente el modelo ya que se ha


incluido la variable X 2 •

El criterio de la prueba F parcial se expresa como:

SSR(Xk Jtodas las variables excepto k)


F = ~~~'----~~~~~~~ (18.7)
MSE

en la que Pes el número de variables explicativas del modelo de regresión, y F sigue


una distribución F con 1 y n - P - 1 grados de libertad.
Así pues, de la tabla 18.5, tenemos:

F = 176,939 = 26 1. 47
676.717
Puesto que se tienen, respectivamente, uno y doce grados de libertad, si se selec-
ciona un nivel de significación de .05, de la tabla E.S podemos observar que el valor
crítico es de 4.75 (véase figura 18.7). Como el valor de F calculado es mayor que
este valor de F crítico (261.47 > 4.75), nuestra decisión sería rechazar H0 y llegar a
la conclusión de que la adición de la variable X1 (temperatura atmosférica diaria
promedio) mejora significativamente el modelo de regresión múltiple que ya tiene
incluida la variable X 2 (aislamiento en el ático).

Figura 18.7
Prueba de la contribución de un
coeficiente de regresión a un modelo de
o 4.75 FU(1.12¡ regresión múltiple al nivel de significación
de .OS, con 1 y 12 grados de libertad.

Con el fin de evaluar la contribución de la variable X 2 (aislamiento en el ático)


a un modelo que ya tiene incluida la variable X 1, necesitamos utilizar la ecuación
(18.6c):

Prueba de porciones del modelo de regresión múltiple 700


De las figuras 18.2 y 18.6 determinamos que

SSR(X 1 ) = 178,624

Por consiguiente,

SSR(X 2 jX 1 ) = 228,015-178,624 = 49,39l(redondeado)

Así pues, con el fin de determinar si X 2 mejora significativamente un modelo


después de que X 1 ha sido incluida en éste, la suma de cuadrados de regresión
puede dividirse en dos partes como se muestra en la tabla 18.6.

Tabla 18.6 Tabla de análisis de varianza que divide la suma de


cuadrados de regresión en componentes para determinar
la contribución de la variable X 2 •
Cuadrado medio
Fuente df Sumas de cuadrados (varianza) F

Regresión 2 228,015 114,007.5

{xJ~J {1l
lj
{178,624}
49,391
178,624
49,391 72.99

Error 12 8,120 MSE = 676.717


Total 14 236, 135

Las hipótesis nula y alternativa para probar la contribución de X 2 al modelo


serían:

H0 : La variable X 2 no mejora significativamente el modelo cuando ya


se ha incluido la variable X 1. ·

H 1: La variable X2 mejora significativamente el modelo cuando ya se


ha incluido la variable X 1 .

Utilizando la ecuación (18. 7), obtenemos

F = 49,391 = 72 _99
676.717

como se indica en la tabla 18.6. Puesto que se tienen uno y 12 grados de libertad,
respectivamente, si se elige un nivel de significación de .05, de nuevo observamos
en la figura 18.7 que el valor crítico de Fes 4.75. Ya que el valor calculado de Fes
mayor que este valor crítico (72.99 > 4.75), nuestra decisión es rechazar la hipóte-
sis nula y llegar a la conclusión de que la adición de la variable X 2 (aislamiento en
el ático) mejora significativamente el modelo de regresión múltiple que ya con-
tiene a la variable X 1 (temperatura atmosférica diaria promedio).
Así pues, al probar la contribución de cada variable explicativa después de que
la otra ya ha sido incluida en el modelo, determinamos que cada una de las dos
variables independientes contribuye mejorando significativamente el modelo. Por
consiguiente, nuestro modelo de regresión múltiple debería incluir tanto la tem-

800 Capítulo 18 Modelos de regresión múltiple


pera tura atmosférica diaria promedio, X 1, como la cantidad de aislamiento en el
ático, X 2 , en la predicción del consumo de petróleo para calefacción.

Problemas de la sección 18. 7


En Jos problemas 18.25 a 18.29, al nivel de significación de 0.05,
(a) Determine si cada una de las variables explicatorias hace una contribución significativa
al modelo de regresión. Basándose en estos resultados, indique el modelo de regresión
que debería utilizarse en el problema.
(bJ Calcule los valores de pe interprete su significado.
e 18.25 Refiérase al problema 18.2 (correspondiente a la durabilidad de los zapatos) de
la página 786.
18.26 Refiérase al problema 18.3 (correspondiente al costo de distribución) de la
página 787.
e 18.27 Refiérase al problema 18.4 (correspondiente a los medios de publicidad) de la
página 788.
18.28 Rl'fiérase al problema 18.5 (correspondiente al salario de los empicados) de la
página 788.
18.29 Refiérase al problema 18.6 (correspondiente a las horas de reserva) de la página 789.

1l:H:J Inferencias relativas a los coeficientes


de regresión de población
En la sección 17.13 vimos que se llevan a cabo pruebas de hipótesis de los coefi-
cientes de regresión de un modelo de regresión simple con el propósito de deter-
minar la significación de la relación entre X y Y. Además, se utilizaron intervalos
de confianza para estimar los valores de población de estos coeficientes de regre-
sión. En la presente sección, tales procedimientos serán aplicados a situaciones que
implican regresión múltiple.

1 8.8. 1 Prueba de hipótesis


Para probar la hipótesis de que la pendiente de población ~1, es cero, cuando uti-
lizamos la ecuación (17.19):

Sin embargo, esta ecuación puede ser generalizada para la regresión múltiple de la
forma siguiente:

(18.8)

en la que P =número de variables explicatorias del modelo de regresión


S¡,k =error estándar del coeficiente de regresión bk

y t sigue una distribución t con n - P - 1 grados de libertad.


Como las fórmulas para los errores estándar de los coeficientes de regresión se
encuentran sobrecargadas con un gran número de variables, resulta ventajoso que
los resultados sean proporcionados por los paquetes de software estadístico (véanse
figuras 18.2, 18.24 y 18.25 en las páginas 785, 844 y 845, respectivamente).

Inferencias relativas a los coeficientes de regresión de población 801


Así pues, si deseamos determinar si la variable X 2 (cantidad de aislamiento en
el ático) tiene un efecto significativo en el consumo de petróleo para calefacción
doméstica, tomando en cuenta la temperatura atmosférica diaria promedio, las
hipótesis nula y alternativa serían:

Ha: Pz =O
Hi: Pz ;;t O
De la ecuación (18.8) tenemos

y de los datos correspondientes al problema,

b2 = -20.0123 Y Sbz = 2.3425


de manera que

t = - 20 ·0123 = -8.5431
2.3425

Si se selecciona un nivel de significación de .05, en la tabla E.3 podemos observar


que, para 12 grados de libertad, los valores críticos de t son - 2.1788 y + 2.1788
(véase figura 18.8).

Figura 18.8
Prueba de la significación de un
coeficiente de regresión al nivel
de significación de .05, con 12
grados de libertad.

Puesto que tenemos t = -8.5431 < t 12 = -2.1788, rechazamos H0 y llegamos a


la conclusión de que existe una relación significativa entre la variable X2 (cantidad
de aislamiento en el ático) y el consumo de petróleo para calefacción, tomando en
cuenta la temperatura atmosférica diaria promedio, X1 .
Con el propósito de centrar nuestra atención en la interpretación de esta con-
clusión, debemos observar que existe una relación entre el valor de la estadística
de prueba t obtenida con la ecuación (18.8) y la estadística de prueba F parcial
[ecuación (18.7)] utilizada para determinar la contribución de X 2 al modelo de
regresión múltiple. El valor t fue calculado como -8.5431 y el correspondiente
valor calculado de F fue de 72.99, que es el cuadrado de -8.5431. Esto resalta la
siguiente relación entre ty F: 1

802 Capítulo 18 Modelos de regresión múltiple


,,.. .;·,: . . .., e
t~ ':¡: F1,a (18.9)

en la que a es el número de grados de libertad.


Por consiguiente, la prueba de significación para un coeficiente de regresión
particular (en este caso b2 ) es realmente una prueba de la significación de agregar
una variable particular a un modelo de regresión dado que las otras variables ya
han sido incluidas. Por lo tanto, la prueba t para el coeficiente de regresión es
equivalente a probar la contribución de cada una de las variables explicatorias del
modo en que se hizo en la sección 18. 7.

18.8.2 Estimación del intervalo de confianza


En lugar de intentar determinar la significación de un coeficiente de regresión,
podemos estar más interesados en la estimación del valor de población de un coefi-
ciente de regresión. En el análisis de regresión múltiple se puede obtener una esti-
mación de intervalo de confianza con:

·::,;: :1l";';l.

'_1_.,·., ' n' ;~

Por ejemplo, si deseáramos obtener una estimación de intervalo de confianza de


95% de la pendiente de población, 131 (esto es, el efecto de la temperatura diaria prome-
dio, X1, sobre el consumo de petróleo para calefacción, Y, dejando constante el efecto
del aislamiento en el ático, X;J, tendríamos, de la ecuación (18.10) y de la figura 18.2,

Como el valor crítico de tal nivel de confianza de 95%, con 12 grados de libertad,
es 2.1788 (véase tabla E.3), tenemos

-5.43658 ± (2.1788)(.33622)
-5.43658 ± .732556
-6.169136 : :; 131 : :; -4.704024

Así pues, tomando en cuenta el efecto del aislamiento en el ático, estimamos


que el efecto de la temperatura atmosférica diaria promedio es reducir el consumo
de petróleo para calefacción en una cantidad que se encuentra aproximadamente
entre 4.7 y 6.17 galones por cada grado Fahrenheit de aumento en la temperatura.
Además, tenemos una confianza de 95% de que este intervalo estima correcta-
mente la relación verdadera entre tales variables. Por consiguiente, desde el punto
de vista de la prueba de hipótesis, como el intervalo de confianza en cuestión no
incluye el valor de cero, se consideraría como que el coeficiente de regresión, ¡311
tiene un efecto significativo.

Problemas de la sección I 8.8


e 18.30 Refiérase al problema 18.2 (concerniente a la durabilidad de los zapatos) de la
página 786, y establezca una estimación de intervalo de confianza de 95% de
la pendiente de población entre el impacto a largo plazo y el impacto en el
metatarso.

Inferencias relativas a los coeficientes de regresión de población BOJ


18.31 Refiérase al problema 18.3 (correspondiente al costo de distribución) de la
página 787, y establezca una estimación de intervalo de confianza de 95% de
la pendiente de población entre el costo de distribución y las ventas.
e 18.32 Refiérase al problema 18.4 (correspondiente a los medios de publicidad) de la
página 788, y establezca una estimación de intervalo de confianza de 95% de la
pendiente de población entre las ventas y la publicidad en radio y televisión.
18.33 Refiérase al problema 18.5 (concerniente al salario de los empleados) de la página
788, y establezca una estimación de intervalo de confianza de 95% de la
pendiente de población entre el salario semanal y la antigüedad en el empleo.
18.34 Refiérase al problema 18.6 (correspondiente a las horas de reserva) de la página
789, y establezca una estimación de intervalo de confianza de 95'Yci de la
pendiente de la población entre las horas de reserva semanales y el personal
total presente.

1l:!·J Estimaciones de intervalos de


confianza para predecir µyx y Y1
En la sección 18.3, utilizamos la ecuación de regresión múltiple para obtener una
predicción del consumo promedio de petróleo para calefacción en una casa que
tiene seis pulgadas de aislamiento en el ático durante un mes en el cual la tempera-
tura diaria promedio es de 30ºF. Se puede obtener una estimación de intervalo de
confianza de µ,yx, el valor de la media verdadera de Y, y una del intervalo de predic-
ción de un valor individual Y¡, mediante la extensión de los procedimientos anali-
zados en las secciones 17 .11 y 17 .12 al modelo de regresión múltiple. Sin embargo,
como lo indicamos en la sección anterior, en nuestro análisis del error estándar de
los coeficientes de regresión, las fórmulas utilizadas para predecir fLyx y Y¡ también
se sobrecargan cuando se tienen varia> variables explicativas incluidas en el mode-
lo y, por consiguiente, se les expresa en términos de notación de matrices (véase
referencia 4). No obstante, estas estimaciones de intervalo están disponibles como
procedimientos opcionales en la mayoría de los paquetes de software. En la figura
18.9 se ilustra la estimación de intervalo de confianza para cada observación de la
muestra, obtenida con el procedimiento REG del paquete SAS.

PREDICT STD ERR LOWER95% UPPER95%


OBS ACTUAL VALUE PREDI'.:T MEAN MEAN RESIDUAL
1 275.300 284.651 10.300 262.210 307.092 -9.351
2 363.800 355.326 11.196 330.932 379.721 8.474
3 164. 300 144.565 10.905 120.805 168.324 19.735
4 40.800 45.207 12. 923 17.050 73.363 -4.407
5 94.300 94.136 10. 465 71.335 116. 936 0.164072
6 230.900 257.233 7. 081 241.806 272. 661 -26.333
7 366.700 393.148 12. 493 365.927 420.369 -26.448
8 300.600 318.535 15. 435 284.905 352.165 -17.935
9 237.800 236.986 12. 389 209.994 263.979 0.813551
10 121.400 159.609 12. 867 131.574 187.645 -38.209
11 31.400 8.650 13. 666 -21.126 38.426 22.750
12 203.500 219.177 6. 767 204.434 233.921 -15.677
13 441.100 387.946 12.130 361.516 414.375 53.154
14 323.000 295.524 10. 323 273.033 318.015 27.476
15 52.500 46.706 12. 390 19. 710 73.703 5.794

Figura 18.9
Intervalos de confianza obtenidos cDn el procedimiento REG de SAS
para el modelo de consumo de petróleo para calefacción.

804 Capítulo 18 Modelos de regresión múltiple


1l:H (,) Coeficiente de determinación
parcial
En la sección 18.4 analizamos el coeficiente de determinación múltiple (r2v.d 1 que
mide la porción de la variación en Y que es explicada por la variación de las dos
variables explicativas. Ahora que ya hemos examinado formas en que se puede
evaluar la contribución de cada variable explicativa al modelo de regresión múlti-
ple, podemos también calcular los coeficientes de determinación parcial
(rt 1 .2 y r~21 ). Los coeficientes son una medida de la porción de la variación en la
variable dependiente que es explicada por cada variable explicativa, mientras se
controla o se mantiene constante a las demás variables explicativa. Así pues, en un
modelo de regresión múltiple con dos variables explicativas tenemos:

(18.1 la)

y también

2
Trz.1 (18.llb)

en la que SSR(X 1 IX 2 ) =suma de cuadrados de la contribución de la variable X 1


al modelo de regresión dado que la variable X 2 ha sido
incluida en el modelo SST
SST = suma total de cuadrados para Y
SSR(X 1 y X 2 ) =suma de cuadrados de regresión cuando las variables X 1
y X 2 están incluidas en el modelo de regresión múltiple
SSR(X2 IX 1) =suma de cuadrados de la contribución de la variable X 2
al modelo de regresión dado que la variable X 1 ha sido
incluida en el modelo

mientras que en un modelo de regresión múltiple que contiene varias (P) variables
explicativas, tenemos

SSR ( Xk 1 todas las variables excepto k)


r2Yk, (todas J.1~vJrtal.lh.>scxcc-pto·k)
SST - SSR (todas las variables incluida k) (18.12)
+ SSR ( Xk [todas las variables excepto k)

Para nuestro problema sobre el consumo de petróleo para calefacción podemos


calcular

Coeficiente de determinación parcial SOS


2 176,939
'n.2 = - - - - - - - - - - - -
236,135 - 228,015 + 176,939
= 0.9561

2 49,391
Ty2.1 = -----------
236,135 - 228,015 + 49,391
= 0.8588

El coeficiente de determinación parcial de la variable Y con X 11 mientras se


mantiene constante X 2 (r~i. 2) puede interpretarse como que, para una cantidad fija
(constante) de aislamiento en el ático, 95.61% de la variación en el consumo de
petróleo para calefacción durante enero puede explicarse por la variación en la
temperatura atmosférica diaria promedio en dicho mes. Además, el coeficiente de
determinación parcial de la variable Y con X 2 , mientras se mantiene constante X1
(r~2 . 1 ) puede interpretarse como que, para una temperatura atmosférica diaria
promedio dada (constante), 85.88% de la variación en el consumo de petróleo para
calefacción durante enero puede ser explicada por la variación en la cantidad de
aislamiento.

Problemas de la sección 18. I O


• 18.35 Refiérase al problema 18.2 (correspondiente a la durabilidad de los zapatos) de
la página 786, y calcule los coeficientes de determinación parcial r~i. 2 y r~2. 1 e
interprete su significado.
18.36 Refiérase al problema 18.3 (correspondiente al costo de distribución) de la
página 787, y calcule los coeficientes de determinación parcial r~i. 2 y r~2 . 1 e
interprete su significado .
• 18.37 Refiérase al problema 18.4 (correspondiente a los medios de publicidad) de la
página 788, y calcule los coeficientes de determinación parcial r~i. 2 y r~2 . 1 e
interprete su significado.
18.38 Refiérase al problema 18.S (correspondiente al salario de los empleados) de la
página 788, y calcule los coeficientes de determinación parcial r~u y ,;2 .1 e
interprete su significado.
18.39 Refiérase al problema 18.6 (correspondiente a las horas de reserva) de la página
789, y calcule los coeficientes de determinación parcial r~1 . 2 y r~2 . 1 e interprete
su significado.

1l:H11 El modelo de regresión curvilíneo


En nuestro análisis de la regresión simple hecha en el capítulo 17 y en el de regre-
sión múltiple en el presente, hemos supuesto que la relación entre Y y cada varia-
ble explicativa es lineal. Sin embargo, podemos recordar que en la sección 17.3 se
introdujeron varios tipos diferentes de relaciones entre variables. Una de las rela-
ciones no lineales más comunes que fue ilustrada en dicha sección es la relación
polinomial curvilínea entre dos variables (véase figura 17 .3 en la página 720, pane-
les Da F) en la que Y aumenta (o disminuye) con una rapidez variable para diferen-
tes valores de X. Este modelo de una relación polinomial entre X y Y puede
expresarse como:

Capitulo 18
ªºª Modelos de regresión múltiple
(18.13)

en la que ~o =intersección Y
~1= efecto lineal en Y
~ 11 = efecto curvilíneo en Y
E.; = error aleatorio en Y para la observación i

Este modelo de regresión es parecido al modelo de regresión múltiple con dos


variables explicativas [véase ecuación (18. la)] en la página 784) excepto en que la
segunda variable explicativa, en este caso, es justamente el cuadrado de la primera
variable.
Al igual que en el caso de la regresión lineal múltiple, cuando se analizan datos
de muestra, los coeficientes de regresión de muestra (b0 , b 11 y b11 ) se utilizan como
estimaciones de los parámetros de población (~ 0 , ~ 1 , y ~ 11 ). En consecuencia, la
ecuación de regresión para el modelo polinomial curvilíneo con una variable
explicativa (X1) y una variable dependiente (Y) es:

P, -:¡::; ho
' '
+h1'X11 +h11~:,
':!
Ú8.13a)
. . •. ., . "''' ·' -~ '•

Un planteamiento alternativo al modelo de regresión curvilíneo expresado en la


ecuación (18.13a) consiste en centrar los datos mediante la sustracción de la media
de la variable explicativa de cada valor del modelo. Este modelo de regresión cen-
trada se presenta en la ecuación (18.14):

(18.14)

El centrado de uno de tales modelos puede hacerse tanto por razqnes numéricas
como por razones estadísticas. Primero, desde una perspectiva computacional,
puede lograrse más precisión si la media se resta de cada valor antes de que el
modelo de regresión se resuelva de manera numérica. Segundo, y quizá lo más
importante, la varianza de la variable explicativa puede aumentar grandemente
debido a que X1 y x;
están correlacionadas de manera positiva. Como X 1 y x; lle-
van esencialmente la misma información, en ocasiones resulta difícil determinar
si el término X1 es realmente significativo desde el punto de vista estadístico.
También es posible que la pendiente del término X1 tenga un signo opuesto a la
tendencia indicada por el diagrama de dispersión. Para evitar estos problemas,
algunos investigadores (véase referencia 10) recomiendan centrar la variable X1 en
un modelo de regresión curvilíneo.
Matemáticamente hablando, la ecuaci~n (18.13a) y la ecuación (18.14) son
equivalentes. Dan los mismos valores para Y¡ y para b 11 , y explican la misma can-
tidad de la variación total. La diferencia entre los dos modelos se presenta en los
términos correspondientes a la intersección (b 0 en función de hó) y al efecto lineal (b 1
en función de bí).

. El modelo de regresión curvilíneo 807


18.1 1~,, Búsqueda de los coeficientes de regresión y
': 1
predicción de Y
Con el fin de ilustrar el modelo de regresión curvilíneo, suponga que el departa-
mento de mercadotecnia de una cadena grande de supermercados desea estudiar
la flexibilidad de precios de los paquetes de rasuradoras desechables. Se seleccionó
una muestra aleatoria de 15 tiendas con igual afluencia de clientes y colocación de
artículos (es decir, junto a las cajas registradoras). Se asignaron de manera aleato-
ria cinco tiendas a cada uno de los tres niveles de precios (79 centavos de dólar, 99
centavos de dólar y $1.19) de los paquetes de rasuradoras. El número de paquetes
vendidos y el precio en cada tienda se presentan en la tabla 18.7.

Tabla 18.7 Ventas y precios de paquetes de


rasuradoras desechables para una
muestra de 15 tiendas.
Precio Precio
Ventas (centavos) Ventas (centavos)
142 79 115 99
151 79 126 99
163 79 77 119
168 79 86 119
176 79 95 119
91 99 100 119
100 99 106 119
107 99

Con el propósito de investigar la selección del modelo adecuado que repre-


senta la relación entre precio y ventas, se graficó un diagrama de dispersión en la
figura 18.10. Un examen más detallado de éste nos indica que la disminución de

y
180
170 ••
160 •
150
140
130
..••
...,..•..
1?0

"'
.l!l
e
Q)
>
110
100
90
80
, .•
70 •
60
50
40 '
30
20
10
o ~-"""""'_,....,_...._,.__._,ao._,.__,,.90~-1_.o,..o~,-1..1... 2-.p,.-, X: ' .,
0--.1....
,Precio (cent~v~$) '' ,·,,
, ' ' ' ::_l-,'

Figura 18. 1O
Diagrama de dispersión del precio (X) y las ventas (Y).

808 Capitulo 18 Modelos de regresión múltiple


las ventas se nivela con un aumento de los precios. Por consiguiente, parece que
podría ser más apropiado utilizar un modelo curvilíneo para estimar las ventas
basándose en el precio, en lugar de usar un modelo lineal.
Al igual que en el caso de la regresión múltiple, los valores de los tres coefi-
cientes de regresión de muestra (bó, bí, y b11 ) se pueden obtener con más facilidad
si se utiliza un paquete de software (véanse referencias 12, 14, 15, 17).
En la figura 18.11 se presenta el resultado parcial obtenido con el paquete
MINITAB para los datos de la tabla 18.7, utilizando el modelo centrado [ecuación
(18.14)). En la figura 18.11 observamos que

b~ = 107.8 b{ = -1.68 b 11 = .0465

Por consiguiente, el modelo curvilíneo centrado puede expresarse como

y j = 107.8 - 1.68(X¡¡ - X1) + .0465(X¡¡ - X 1)2


/\
en la que Y¡ = ventas promedio predichas para la tienda i
Xu =precio de las rasuradoras desechables en la tienda i

The regression equation is


sales = 108-1.68 pricecen+0.0465 prcensq

Predictor Coef Stdev t-ratio


Constant 107.800 5.756 18.73
pricecen -1.6800 0.2035 -8.26
prcensq 0.04650 0.01762 2.64
' ·~. •' "!\
s = 12.87 .R.,-.sq = 86.2% R-sq{adj) = 83,9%,
Analysis of V~riance

SOURCE o:F SS , MS
R~gression 2 12442.8 6221.4
Error 12 1987.6 165.6 , 1: . 1, 1·1
Total 14 14430.4
.,.
SOuRcE· DF •sEQ sis
pricecen 1 11289.6
" p:i;-c~ns,c;i:· . 1 :.1~5~.2 .•. , ·' . .: .. '.i·
!· '·'"

Figura 18.1 1
Resultado parcial obtenido con MINITAB para los datos de la tabla 18.7.

Como se muestra en la figura 18.12 de la página 810, esta ecuación de regre-


sión curvilínea se grafica sobre el diagrama de dispersión para indicar qué tan bien
el modelo de regresión se ajusta a los datos originales. De nuestra ecuación de
regresión curvilínea y de la figura 18.12, la intersección con Y (bó, calculado como
107.80) puede interpretarse como las ventas predichas paraXli = X1 =99 es de 107.8
paquetes. Para interpretar los coeficientes bí y b11, vemos en la figura 18.12 que las
ventas disminuyen con un aumento de los precios; sin embargo, observamos tam-
bién que estas disminuciones en las ventas se nivelan o se reducen al aumentar el
precio. Esto se puede ver al predecir las ventas promedio para paquetes con precios
de 79 centavos, 99 centavos y 119 centavos ($1.19). Utilizando nuestra ecuación
de regresión curvilínea

en la que X1 = 99,

El modelo de regresión curvillneo SOS>


y
180
170 ••
160 • Regresión curvilínea
150
140
130
120 •
en
110 ~ ~
Y,= 107.8- 1.68 (X,-X)
.l!1 100
.,
e:
90 + .0465 (X,-Xj 2
> 80 •
70 •
60
50
40
30
Figura 18.1 2 20
Diagrama de dispersión 10
que representa la o '""'"~-6~0~~7~0~~ª~º~........9~0~-1~0~0~-1~1-o~-1~2-0-x
relación curvilínea
entre el precio (X) y las Precio (centavos)
ventas (Y).

para X1 ; = 79 tenemos

y i = 107.8 - (1.68)(79 - 99) + (.0465)(79 - 99) 2 = 160

para X1¡ = 99 tenemos

y i = 107.8 - (1.68)(99 - 99) + (.0465)(99 - 99) 2 = 107.8

para X1¡ = 119 tenemos

y i = 107.8 - (1.68)(119 - 99) + (.0465)(119 - 99) 2 = 92.8

Así pues, observamos que se espera que una tienda que vende las rasuradoras en 79 cen-
tavos venda 52.2 paquetes más que una tienda que vende las rasuradoras en 99
centavos, pero se espera que una tienda que las venda a 99 centavos venda sola-
mente 15 paquetes más que una tienda que las venda a $1.19.

1 8. 1 1 • .2 Prueba de la significación del


modelo curvilíneo
Ahora que el modelo curvilíneo ha sido ajustado a los datos, podemos determinar
si existe una relación curvilínea significativa entre las ventas, Y, y el precio, X. De
manera parecida a la regresión múltiple (véase sección 18.6), las hipótesis nula y
alternativa pueden establecerse como

(no existe relación entre X 1 y Y.)


H1 : p1 y/o · p11 -:t O(El último coeficiente de regresión no es igual a cero.)

La hipótesis nula puede ser probada utilizando una prueba F [ecuación (18.5)]
como se indica en la tabla 18.8.

810 Capítulo 18 Modelos de regresión múltiple


Tabla 18.8 Tabla de análisis de varianza para probar la significación de una relación polinomial curvilínea.
Cuadrado medio
Fuente df Sumas de cuadrados (varianza) F

Regresión 2 SSR = b(,!Y¡ + b;f (x,; - X,)Y; + b11!(x,; - X,) 2 Y¡ - nY2 MSR = SSR MSR
--
i=I i=] i=l 2 MSE

Error n-3 SSE = f v/ - b¿f Y¡ - b;f(x,; - X,)Y; - f


i=l i=l i=l
b 11
i=l
(x, 1 - x,) 2
Y; MSE = SSE
11 - 3

Total 11 - 1 SST = ! Y/ - 11 f2
i=l

Para los datos de la tabla 18. 7, la tabla ANOVA se presenta como parte del resul-
tado de computación de la figura 18.11 de la página 809.
Si se selecciona un nivel de significación de .05, de Ja tabla E.5 tenemos que,
para dos y 12 grados de libertad, el valor crítico de la distribución F es de 3.89
(véase figura 18.13). Utilizando la ecuación (18.5), puesto que

F = MSR 6 ' 22 1. 4
MSE 165.6
= 37.57 > F U(Z,12) = 3.89

podemos rechazar la hipótesis nula (H0 ) y llegar a la conclusión de que existe una
relación curvilínea significativa entre las ventas y el precio de las rasuradoras.

Figura 18. 1 3
Prueba de la existencia de una relación
o 3.89 Fu(2,12¡ curvilínea al nivel de significación de .OS,
con 2 y 12 grados de libertad.

En el modelo de regresión múltiple calculamos el coeficiente de múltiple


determinación, lv.
12 (véase sección 18.4) para que represente la porción de va-
riación en Y que es explicada por la variación en las variables independientes. En
el análisis de regresión curvilínea, este coeficiente puede calcularse con la ecuación
(18.3):

SSR
ri.12
SST

De la figura 18.11 tenemos:

SSR = 12,442.8 SST = 14,430.4

El modelo de regresión curvilíneo 81 1


Así pLles, como se muestra en la figura 18.11,

SSR 12,442.8 = .862


SST 14,430.4

Este coeficiente de determinación múltiple, cuyo valor se calculó en .862,


puede interpretarse como que el 86.2<)/c, de la variación en las ventas puede ser
explicado por la relación curvilínea entre las ventas (Y) y el precio (X). También
podemos recordar de la sección 18.4 que calculamos un coeficiente 12 ajustadort.
para tomar en cuenta el número de variables explicativas y el número de grados de
libertad. En nuestro modelo de regresión curvilínea, P = 2, puesto que tenemos dos
variables independientes, X 1 y su cuadrado (X~). Por consiguiente, utilizando la
ecuación (18.4) para las ventas de rasuradoras, tenemos

r,.,2,. l, = 1 - [ ( 1 - ,. z )
\'.\Z
( 1 5 - 1)
(15 - 2 - 1)
l
= 1 - [ (1 - .862) ~~]
=1-.161
= .839

18.1 1.3 Prueba del efecto curvilineal


Al utilizar un modelo de regresión para examinar una relación entre dos variables,
nos gustaría ajustar no sólo el modelo más preciso, sino también el más sencillo
que pueda expresar dicha relación. En consecuencia, resulta importante examinar
si existe una diferencia significativa entre el modelo curvilíneo

y el modelo lineal

Estos dos modelos pueden ser comparados mediante la determinación del efecto
de regresión que se tiene al agregar el término curvilíneo, dado que el término lineal
ya ha sido incluido, esto es, SSR(X~IX 1 ).
Podemos recordar que en la sección 18.8.l utilizamos la prueba t para el coefi-
ciente de regresión con el fin de determinar si cada variable particular hizo una
contribución significativa al modelo de regresión. En la figura 18.11 de la página
809, observamos que el error estándar de cada coeficiente de regresión y su corres-
pondiente estadística t están disponibles como parte del resultado obtenido con el
paquete MINITAB. Así pues, podemos probar la significación de la contribución del
efecto curvilíneo con las siguientes hipótesis nula y alternativa:

H0 : El incluir el efecto curvilíneo no mejora significativamente el modelo


CP11 =O).
H1: El incluir el efecto curvilíneo mejora significativamente el modelo
CPll * ü).

812 Capítulo 18 Modelos de regresión múltiple


Para nuestros datos

de modo que

t = .0465 = 2.64
.01762
Si se selecciona un nivel de significación de .OS, de la tabla E.3 encontramos,
con doce grados de libertad, que los valores críticos son -2.1788 y + 2.1788 (véase
figura 18.14). Puesto que t = 2.64 > t 12 = 2.1788, nuestra decisión sería rechazar H0
y llegar a la conclusión de que el modelo curvilíneo es significativamente mejor
que el modelo lineal en la representación de la relación entre las ventas y los precios.

Figura 18. 14
Prueba de la contribución del
efecto curvilíneo a un modelo de
regresión, al nivel de significación
de .05, con 12 grados de libertad.

18. I 1.4 Prueba del efecto lineal


Ahora que hemos probado el efecto curvilíneo, deberíamos determinar también si
existe una diferencia significativa entre el modelo curvilíneo

Y¡ = ~ ;) + ~; ( X 1 i - X1) + ~ 1 1 (X 1 i - X1)2 + Ei

y el modelo que incluye únicamente el efecto curvilíneo

Como en el caso del efecto curvilíneo, podemos utilizar la prueba t para deter-
minar la contribución del efecto lineal dado que el efecto curvilíneo ya se encuen-
tra incluido en el modelo.
Para nuestros datos,

de modo que

-1.68
-8.26
.2035

El modelo de regresión curvilíneo 81 3


Las hipótesis nula y alternativa para probar la contribución del efecto lineal al
modelo de regresión son:

H0: ~~ = O (Incluyendo el efecto lineal que no completa el efecto del


modelo curvilíneo.)
H1: ~~ *O (Incluyendo el efecto lineal que completa el efecto del mode-
lo curvilíneo.)

Si se selecciona un nivel de significación de .05, de la tabla E.3 encontramos


que, con doce grados de libertad, los valores críticos son -2.1788 y +2.1788 (véase
figura 18.14 en la página 813). Puesto que t = -8.26 < t 12 = -2.1788, nuestra
decisión sería rechazar H0 y llegar a la conclusión de que el modelo curvilíneo
que incluye al efecto lineal es significativamente mejor que el modelo que sólo
incluye al efecto curvilíneo.

Problemas de la sección 18. I I


e 18.40 Un investigador que trabaja para una compañía petrolera grande desea
desarrollar un modelo para predecir el número de millas por galón recorridas
por un automóvil, basándose en la velocidad en carretera. Se diseñó un experi-
mento en el que un auto de prueba fue conducido durante dos periodos de
prueba con una velocidad particular, que va desde 10 hasta 75 millas por
hora. Los resultados son los siguientes:

Velocidad Velocidad
Millas por (millas Millas por (millas
Observación galón por hora) Observación galón por hora)
1 4.8 10 15 21.3 45
2 S.7 10 16 22.0 45
3 8.6 15 17 20.5 so
4 7.3 15 18 19.7 so
s 9.8 20 19 18.6 SS
6 11.2 20 20 19.3 55
7 13.7 25 21 14.4 60
8 12.4 25 22 13.7 60
9 18.2 30 23 12.1 65
10 16.8 30 24 13.0 6S
11 19.9 35 25 10.1 70
12 19.0 3S 26 9.4 70
13 22.4 40 27 8:4 7S
14 23.S 40 28 7.6 7S

Suponiendo que se tiene una relación polinomial curvilínea entre velocidad y


el número de millas por galón
(a) Construya un diagrama de dispersión entre velocidad y millas por galón.
(b) Establezca la ecuación del modelo curvilíneo.
(c) Prediga el número de millas por galón obtenidas cuando el automóvil se
conduce a 55 millas por hora.

814 Capítulo 18 Modelos de regresión múltiple


(d) Determine si existe una relación curvilínea significativa entre las millas
recorridas por galón y la velocidad, al nivel de significación de .OS.
(e) Interprete el significado del coeficiente de determinación múltiple, r~ 12
(f) Calcule el coeficiente r 2 ajustado.
(g) Realice un análisis de residuos sobre los resultados obtenidos y determine
lo adecuado del ajuste de su modelo.
(h) Al nivel de significación de .OS, determine si el modelo curvilíneo es un
ajuste mejor que el modelo de regresión lineal. ·
18.41 A un psicólogo industrial le gustaría desarrollar un modelo para predecir el
número de errores de mecanografía, basándose en la cantidad de consumo de
alcohol. Se seleccionó una muestra aleatoria de 15 mecanógrafos con los
siguientes resultados:

X
consumo de alcohol y
Mecanógrafo (onzas) número de errores

1 o 2
2 o 6
3 o 3
4 7
5 5
6 1 9
7 2 12
8 2 7
9 2 9
10 3 13
11 3 18
12 3 16
13 4 24
14 4 30
15 4 22

Suponga que se tiene una relación curvil~nea entre el consumo de alcohol y el


número de errores cometidos, utilice un paquete de software estadístico para
llevar a cabo el análisis de regresión. Basándose en Jos resultados obtenidos:
(a) Construya un diagrama de dispersión entre el consumo de alcohol, X, y el
número de errores, 1Y.
(b) Establezca Ja ecuación para el modelo curvilíneo.
(c) Prediga el número de errores cometidos por un mecanógrafo que ha
consumido 2.S onzas de alcohol.
(d) Determine si existe una relación curvilínea significativa entre el consumo
de alcohol y el número de errores cometidos, al nivel de significación
de .05.
ri
(e) Interprete el significado del coeficiente de determinación múltiple, 12 •
(f) Calcule el coeficiente r 2 ajustado.
(g) Realice un análisis de residuos sobre los resultados obtenidos y determine
ajuste de su modelo.
(h) Al nivel de significación de .OS, determine si el modelo curvilíneo es un
ajuste mejor que el modelo de regresión lineal.
18.42 Suponga que un agrónomo desea diseñar un estudio en el cual se utilizará un
amplio intervalo de niveles de fertilizante (libras por cada cien pies cuadra-
dos), con el propósito de determinar si la relación entre la producción de
tomates y la cantidad de fertilizante será ajustada por un modelo curvilíneo. Se
utilizarán seis niveles de fertilizante: O, 20, 40, 60, 80 y 100 libras por cien pies

El modelo de regresión curvilíneo 81 S


cuadrados. Los seis niveles fueron asignados aleatoriamente a ciertas parcelas,
y se obtuvieron los resultados siguientes:

Cantidad de fertilizante Producción


Parcela (libras por 100 pies cuadrados) (libras)

1 o 6
2 o 9
3 20 19
4 20 24
5 40 32
6 40 38
7 60 46
8 60 50
9 80 48
10 80 54
11 100 52
12 100 58

Suponiendo que existe una relación curvilínea entre la cantidad de fertilizante


utilizado y la producción de tomates, utilice un paquete de software estadístico
para llevar a cabo el análisis de regresión.
(a) Construya un diagrama de dispersión entre la cantidad de fertilizante y la
producción.
(b) Establezca la ecuación de regresión para el modelo curvilíneo.
(c) Prediga la producción de tomates (en libras) para una parcela que ha sido
fertilizada con 70 libras por cien pies cuadrados de fertilizante orgánico
natural.
(d) Determine si existe una relación significativa entre la cantidad de
fertilizante utilizado y la producción de tomates, al nivel de significación
de .OS.
(e) Calcule el valor de p del inciso (d) e interprete su si.pnificado.
(f) Calcule el coeficiente de determinación múltiple, r,: 12 e interprete su
significado.
(g) Calcule el coeficiente ,:i ajustado
(h) Al nivel de significación de .OS, determine si el modelo curvilíneo es supe-
rior al modelo de regresión lineal.
(i) Calcule el valor de p del inciso (h) e interprete su significado.
(j) Realice un análisis de residuos sobre los resultados obtenidos y determine
lo adecuado del ajuste del modelo.
18.4:-l Refiérase a los datos de la tabla 18.1, en la página 783:
(a) Ajuste un modelo de regresión múltiple que incluya una relación lineal
entre el consumo de petróleo y la temperatura, así como una relación
curvilínea entre el consumo de petróleo y el aislamiento en el ático.
(b) Realice un análisis de residuos sobre los resultados obtenidos y determine
lo adecuado del ajuste del modelo.
(c) Al nivel de significación de .05, determine si el modelo que incluye al
término curvilíneo es superior al modelo de regresión lineal múltiple.

l l:H fJ Modelos de variables ficticias


En nuestro análisis de los modelos de regresión múltiple efectuado hasta este
momento, hemos supuesto que cada variable explicativa (o independiente) es
numérica. Sin embargo, se tienen muchos casos en los que se necesita tomar en
cuenta variables categóricas como parte del proceso de desarrollo del modelo. Por
ejemplo, refiriéndonos a la Encuesta de satisfacción de los empleados, recordamos

816 Capítulo 18 Modelos de regresión múltiple


que en la sección 17.15 utilizamos la antigüedad (en número de años) en la planta
de trabajo para desarrollar un modelo para predecir el ingreso. Además, podemos
desear también incluir el efecto de factores como el sexo de los trabajadores, si los
individuos participan en decisiones presupuestales, si toman parte en las deci-
siones que afectan su trabajo y si están orgullosos de estar trabajando para la orga-
nización.
El uso de variables ficticias es el vehículo que nos permite tomar en conside-
ración variables categóricas como parte del modelo de regresión. Si una variable
independiente categórica tiene dos categorías, entonces solamente se necesitará una
variable ficticia para representar a las dos categorías. La variable ficticia particular
(X") se definiría como

O si la observación estuvo en 1 categoría


{
X ·1 = 1 si la observación estuvo en 2 categorías

Con el propósito de ilustrar la aplicación de variables ficticias en la regresión,


examinemos un modelo para predecir el ingreso de los empleados basándonos en
la antigüedad en la planta de trabajo (X 1) y en si el individuo participa o no en
decisiones presupuestales. Así pues, una variable ficticia correspondiente a la par-
ticipación en decisiones presupuestales (X 2 ) se define como:

_ {. Osi la individual no tuvo participación en las decisiones presupuestales


X2 - 1 si la individual participa en las decisiones presupuestales

Suponiendo que la pendiente entre el ingreso y la antigüedad en la planta de tra-


bajo es la misma para ambos grupos, 2 el modelo de regresión puede establecerse
como

(18.15)

en la que Y;= ingreso correspondiente al empleado i


~o = intersección con Y
~ 1 =pendiente del ingreso con la antigüedad en la planta de trabajo,
manteniendo constante si el individuo participa o no en
decisiones presupuestales
~ 2 =efecto de aumento de la participación individual en decisiones
presupuestales, manteniendo constante la antigüedad en la
planta de trabajo
E;= error aleatorio en Y correspondiente al empleado i
Utilizando la muestra de 57 empleados cuya ocupación está clasificada como
técnica/de ventas, se ajustó el modelo establecido en la ecuación (18.15). Los valo-
res de los coeficientes de regresión de muestra resultantes (b 0 , b 1, y b2 ), de los
errores estándar y de t se resumen en la tabla 18.9.

Tabla 18.9 Resumen de los resultados para el modelo de variables ficticias.

Nombre de la variable Coeficiente de regresión Error estándar


Constante 13.936 3.850 :~.62
Años 0.7314 0.1759 4.16
Participación en
decisiones presupuestales 8.027 3.341 2.40

Modelos de variables ficticias 81 7


Observe lo siguiente:
l. Manteniendo constante el efecto de si el individuo participa en
decisiones presupuestales, se estima que cada año adicional de
antigüedad en la planta de trabajo vale en promedio $731.40 en el
ingreso del empleado.
2. b2 mide el efecto sobre el ingreso de haber participado en decisiones
presupuestales (X 2 = 1) en comparación con no haber participado en
tales decisiones (X 2 = 0). Por lo tanto, manteniendo la antigüedad en
la planta de trabajo constante, estimamos que un empleado que partic-
ipa en decisiones presupuestales tendrá, en promedio, un ingreso de
$8,027 por encima de alguien que no participa en dichas decisiones.
Utilizando los resultados de la tabla 18.9, el modelo para estos datos puede estable-
cerse como:
/\
Y;= 13.936 + 0.7314X 1 ; + 8.027 X 2 ;

Para empleados que no participan en decisiones presupuestales el modelo se


reduce a
/\
Y;= 13.936 + 0.7314X 1 ;

puesto que X 2 = O.
Para empleados que sí participan en decisiones presupuestales el modelo se
reduce a
/\
Y 21.963 + 0.7314Xu

puesto que X 2 = l.
Los modelos ajustados para los dos tipos de empleados se presentan en la
figura 18.15.

80
• Aquellos que no participan en
decisiones presupuestales
70
• Aquellos que sí participan en
decisiones presupuestales
60

50 • >':•
o •
E
"'~
Cl
40

30 •
. •
•,, ..
.e,.

••
20
.W'' • •
10
• ••
o
10 20 30 40 50
Años trabajados

Figura 18. 1 5
Modelos de regresión para los empleados que participan en decisiones presupuestales y
para los que no.

818 Capítulo 18 Modelos de regresión múltiple


Problemas de la sección 18. 12
18.44 ¿En qué circunstancias desearíamos incluir una variable ficticia en un modelo
de regresión?
18.4S ¿Qué suposición, con respecto a la pendiente de la variable de respuesta, Y, y
la variable explicatoria, X, debe hacerse cuando se incluye una variable ficticia
en un modelo de regresión?
18.46 Al gerente de un banco le gustaría desarrollar un modelo para predecir la suma
total de dinero que los clientes retiran de los cajeros automáticos (ATM, por
sus siglas: Automatic Teller Machines) durante un fin de semana, basándose en
el valor mediano de las casas del vecindario donde se encuentra situado el
ATM y en la colocación de este último (O, si no está en un centro comercial; 1,
si se encuentra en un centro comercial). Se seleccionó una muestra aleatoria de
lS ATMs con los siguientes resultados:

Número Cantidad sacada Valor medio de las Localización


deATM (miles de dólares) casas (miles de dólares) de!ATM

1 120 22S 1
2 99 170 o
3 91 1S3 1
4 82 132 o
5 124 237 1
6 104 187 1
7 127 245 1
8 80 125 1
9 115 215 1
10 97 170 o
11 117 223 o
12 86 147 o
13 109 197 1
14 94 167 o
15 112 210 o

Utilice un paquete de software estadístico para llevar a cabo un análisis de


regresión lineal múltiple. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes de este problema.
(c) Prediga la cantidad promedio de dinero retirado en un vecindario en el
cual el valor mediano de las casas es de $200,000 para un ATM situado en
un centro comercial.
(d) Determine si existe una relación significativa entre la cantidad de dinero
retirada y las dos variables explicativas (valor mediano de las casas y la
variable ficticia correspondiente a la colocación del ATM), al nivel de
significación de .OS.
(e) Interprete el significado del coeficiente de determinación múltiple, r2r. 12 .
(f) Calcule el coeficiente r2 ajustado.
(g) Realice un análisis de residuos sobre los resultados obtenidos y determine
lo adecuado del ajuste de su modelo.
(h) Al nivel de significación de .OS, determine si cada variable explicativa hace
una contribución al modelo de regresión. Sobre la base de los resultados
obtenidos, indique el modelo de regresión que debería utilizarse en este
problema.
(i) Establezca estimaciones de intervalo de confianza de 95% de la pendiente
de la población para la relación entre la cantidad de dinero retirado y el
valor medio de las casas, y para la cantidad de dinero retirado y la
situación del ATM.
(j) Calcule los coeficientes de determinación parcial e interprételos.
(k) ¿Qué suposición, con respecto a la pendiente de la cantidad de dinero reti-
rada con el valor de las casas, debe hacerse en el presente problema?

Modelos de variables ficticias 8 19


Problemas intercapítulo de la sección 18.12
e 18.47 Refiérase al problema 17.1 de la página 716, suponga que además de estudiar
el efecto del espacio en estante de las ventas de alimentos para mascotas, el
gerente de comercialización también desea estudiar el efecto de la colocación
del producto sobre las ventas. Suponga que en las tiendas 2, 6, 9 y 12 el ali-
mento para mascotas se colocó en el frente del pasillo mientras que en las
demás tiendas se puso en la parte posterior del pasillo. Utilice un paquete de
software estadístico para realizar un análisis de regresión lineal múltiple.
Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes en este problema.
(c) Prediga las ventas semanales promedio de alimento para mascotas para
una tienda con ocho pies cuadrados de espacio en estante y una
colocación en la parte posterior del pasillo.
(d) Determine si existe una relación significativa entre las ventas y las dos
variables explicativas (espacio en estante y la variable ficticia correspon-
diente a la colocación en pasillo), al nivel de significación de .05.
(e) Interprete el significado del coeficiente de determinación múltiple, r2r. 12 .
(f) Calcule el coeficiente r2 ajustado.
(g) Compare rt. 12 con el valor r2 calculado en el problema 17 .19(a) de la Rágina
731, y con el coeficiente r2 ajustado del inciso (f) con el coeficiente r
ajustado que se calculó en el problema 17.19(b). Explique sus resultados.
(h) Al nivel de significación de .05, determine si cada variable explicativa hace una
contribución al modelo de regresión. Basándose en estos resultados, indique el
modelo de regresión que debería utilizarse en este problema.
(i) Establezca estimaciones de intervalo de confianza de 95% de la pendiente
de población para la relación entre las ventas y el espacio en estantes, y
entre las ventas y la colocación en pasillo.
(j) Compare la pendiente obtenida en el inciso (b) con la pendiente para el
modelo de regresión lineal simple del problema 17.7 en la página 725.
Explique la diferencia en los resultados.
(k) Calcule los coeficientes de determinación parcial e interprete su
significado.
(l) ¿Qué suposición, acerca de la pendiente del espacio en estantes con las
ventas, debe hacerse en este problema?
(m) Efectúe un análisis de residuos en los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
18.48 Refiérase al problema 17.82 de la página 778, suponga que además de utilizar
el promedio de carreras admitidas para predecir el número de juegos ganados,
se desea incluir la Liga (Americana contra Nacional) como una variable
independiente.
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes en este problema.
(c) Prediga el número promedio de juegos ganados por un equipo con un
promedio de carreras admitidas con un E.R.A. de 4.00 en la Liga Americana.
(d) Determine si existe una relación significativa entre los juegos ganados y las
dos variables explicativas (E.R.A. y la liga), al nivel de significación de .05.
(e) Interprete el significado del coeficiente de determinación múltiple, r2n 2 •
(f) Calcule el coeficiente r2 ajustado.
(g) Compare r2r. 12 con el valor r2 calculado en el problema 17.82(f) de la
página 778. Explique sus resultados.
(h) Efectúe un análisis de residuos en los resultados obtenidos y determine lo
adecuado del ajuste del modelo.
(i) Al nivel de significación de .05, determine si cada variable explicatoria hace
una contribución al modelo de regresión. Basándose en estos resultados,
indique el modelo de regresión que debería utilizarse en este problema.
(j) Establezca estimaciones de intervalo de confianza de 95% de la pendiente
de población para la relación entre los juegos ganados y el E.R.A., y entre
los juegos ganados y la liga.

820 Capítulo 18 Modelos de regresión múltiple


(k) Compare la pendiente obtenida en el inciso (b) con la pendiente para
la regresión lineal simple del problema 17.83 en la página 778. Explique la
diferencia en los resultados.
(l) Calcule los coeficientes de determinación parcial e interprete su significado.
(m)¿Qué suposición, acerca de la pendiente de los juegos ganados con el
E.R.A., debe hacerse en este problema?

1l:H f i Otros tipos de modelos de


regresión
En nuestro análisis de los modelos de regresión múltiple hemos examinado hasta
este momento el modelo lineal múltiple [ecuación (18. la)], el modelo polinomial
curvilíneo [ecuaciones (18.13) así como (18.14)) así como el modelo de variables
ficticias [ecuación (18.15)). Véanse las páginas 784, 807 y 817.

1 8. 1 J. 1 Términos de interacción en los modelos de regresión


En el modelo de regresión lineal múltiple [ecuación (18.lb)] hemos incluido sola-
mente los términos que expresan una relación entre las variables explicativas y una
variable dependiente, Y. Sin embargo, en algunas situaciones la relación entre X1 y
Y cambia para diferentes valores de X2 • En tal caso, puede incluirse un término de
interacción que implique el producto de variables explicativas. Con dos variables
independientes, este modelo de interacción puede establecerse como

Como ejemplo de un modelo de interacción podemos referirnos de nuevo al


modelo de variable ficticia analizado en la sección 18.12. Podemos recordar que la
ecuación (18.15) postula un modelo de variable ficticia en el cual la pendiente de
X1 es constante para cada categoría de la variable ficticia (X2). De hecho, la
pendiente del ingreso con la antigüedad en la planta de trabajo es diferente para
empleados que intervienen en decisiones presupuestales y para los que no; en este
caso, debería incluirse un término de interacción consistente en el producto de las
dos variables explicatorias. Para tal ejemplo, el modelo debería establecerse como

en la que Y¡ = ingreso
~o = intersección con Y
~ 1 = pendiente del ingreso con la antigüedad en la fuerza de trabajo,
manteniendo constante si el individuo participa o no en
decisiones presupuestales
~ 2 = efecto de aumento de la participación individual en decisiones
presupuestales, manteniendo constante la antigüedad en la
fuerza de trabajo
~ 3 = pendiente que representa la interacción de la antigüedad en la
fuerza de trabajo y la participación en las decisiones presupuestales
E¡ = error aleatorio en Y correspondiente al empleado i

Otros tipos de modelos de regresión 811


1 8. 1 3 .2 Modelos de regresión que utilizan transformaciones
En la sección 17.8 analizamos las suposiciones de normalidad, homoscedasticidad e
independencia de error que están implicadas en el modelo de regresión. En muchas
circunstancias, el efecto de las violaciones a tales suposiciones puede sobrepasarse al
transformar la variable dependiente, las variables independientes o todas.
Al utilizar las variables transformadas, a menudo, somos capaces de obtener un
modelo más sencillo que el que tendríamos si mantuviéramos las variables origi-
nales. Al reexpresar X y/o Y podemos simplificar la relación y hacer que se vuelva
lineal después de su transformación. Desafortunadamente, la selección de una
transformación apropiada, con frecuencia, es difícil de hacer. Entre las transfor-
maciones que se encuentran a lo largo de una "escala de potencias" analizadas por
Tukey (véanse referencias 4 y 19) se encuentra la transformación de raíz cuadrada,
la transformación de logaritmo y la transformación recíproca. Si se aplicara una
transformación de raíz cuadrada a los valores de cada una de las dos varia-
bles explicativas, el modelo de regresión múltiple sería:

Y¡ =~o+ ~1 ~X¡¡ + ~z~Xz¡ +E¡ (18.17)

Si se aplicara una transformación logarítmica, el modelo sería:

Y¡ =~o+ ~ 1 In X¡¡+ ~ 2 lnX 2 ¡ +E¡ (18.18)

Si aplicáramos una transformación recíproca, el modelo sería:

(18.19)

Es interesante observar que en algunas situaciones el uso de una transforma-


ción puede cambiar lo que parece ser un modelo no lineal en uno lineal. Por ejem-
plo, el modelo multiplicativo

Yi --Ax~1x~z
1-'0 1i 2i E¡ (18.20)

puede ser transformado (tomando el algoritmo natural tanto en la variable depen-


diente como en las explicativas) en el modelo

In Y¡ = ln ~o+ ~ 1 lnX 1¡ + ~2 lnX 2 ¡ +In E¡ (18.21)

En consecuencia, la ecuación (18.21) es lineal en los logaritmos naturales. De


manera parecida, el modelo exponencial

822 Capítulo 18 Modelos de regresión múltiple


(18.22)

puede ser transformado, también, a una forma lineal (tomando el logaritmo natu-
ral tanto en la variable dependiente como en las explicativas). El modelo resultante
es

In Y; (18.23)

Problemas de la sección 18. 13


18.49 Refiérase al problema 18.46 de la página 819, suponga que deseamos incluir
en el modelo de regresión múltiple un término que represente la interacción
del valor mediano de las casas y la colocación del cajero automático (ATM).
Vuelva a analizar los datos utilizando un paquete de software estadístico para
el modelo. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Al nivel de significación de .OS, determine si la adición de un término de
interacción hizo una contribución significativa al modelo que ya tenía
incluidos el valor mediano de las casas y la situación del cajero
automático. Basándose en estos resultados, indique el modelo de regresión
que debería utilizarse en este problema.
18.50 Refiérase a los datos del problema 18.40 de la página 814, realice una
transformación de raíz cuadrada en la variable explicatoria (velocidad) como
se hizo en la ecuación (18.17) y utilice un programa de software estadístico
para volver a analizar los datos con este modelo. Basándose en los resultados
obtenidos
(a) Establezca la ecuación de regresión.
(b) Prediga el número de millas por galón obtenidas cuando el automóvil es
conducido a 55 millas por hora.
(c) Lleve a cabo un análisis de residuos en los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(d) Al nivel de significación de .05, ¿existe alguna relación significativa entre
las millas recorridas por galón y la raíz cuadrada de la velocidad?
(e) Interprete el significado del coeficiente de determinación, ?, en este
problema.
(f) Calcule el coeficiente? ajustado.
(g) Compare los resultados obtenidos con los del problema 18.40. ¿Cuál modelo
escogería usted? ¿Por qué?
18.51 Refiérase a los datos del problema 18.40 de la página 814, realice una
transformación logarítmica de la variable explicativa (velocidad) como se hizo
en la ecuación (18.18) y utilice un paquete de software estadístico para volver
a analizar los datos con este modelo. Basándose en los resultados obtenidos
(a) Establezca la ecuación de regresión.
(b) Prediga el número de millas por galón obtenidas cuando el automóvil es
conducido a 55 millas por hora.
(c) Lleve a cabo un análisis de residuos en los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(d) Al nivel de significación de .05, ¿existe alguna relación significativa entre
las millas recorridas por galón y el logaritmo de la velocidad?
(e) Interprete el significado del coeficiente de determinación, r 2, en este
problema.
(f) Calcule el coeficiente r 2 ajustado.

Otros tipos de modelos de regresión 823


(g) Compare los resultados obtenidos con los de los problemas 18.40 y 18.50.
¿Cuál modelo escogería usted? ¿Por qué?

Problemas intercapítulo de la sección 18.13


e 18.52 Refiérase al problema 18.47 de la página 820, suponga que deseamos incluir en
el modelo de regresión un término que represente la interacción de espacio
en estante y colocación en pasillo. Vuelva a analizar los datos utilizando un
paquete de software estadístico para este modelo. Basándose en los resultados
obtenidos
(a) Establezca la ecuación de regresión múltiple.
(b) Al nivel de significación de .05, determine si la adición del término de
interacción hizo una contribución significativa al modelo que ya tiene
incluidos el espacio en estante y la localización en pasillo. Basándose en
estos resultados, indique el modelo de regresión que debería utilizarse en
este problema.
18.53 Refiérase al problema 18.48 de la página 820, suponga que deseamos incluir
en el modelo de regresión múltiple un término que represente la interacción
del promedio de carreras admitidas (E.R.A.) y la liga. Vuelva a analizar los
datos utilizando un paquete de software estadístico para este modelo.
Basándose en los resultados obtenidos
(a) Establezca la ecuación de regresión múltiple.
(b) Al nivel de significación de .05, determine si la adición del término de
interacción hizo una contribución significativa al modelo que ya tiene
incluidos el E.R.A. y la liga. Basándose en estos resultados, indique el
modelo de regresión que debería utilizarse en este problema.

e
l l:H 1 Multicolinealidad
Un problema importante en la aplicación del análisis de regresión múltiple implica
la posible multicolinealidad de las variables explicativas. Esta condición se
refiere a situaciones en las que algunas de las variables independientes están alta-
mente correlacionadas entre sí. En tales situaciones, las variables colineales no pro-
porcionan información nueva, y se vuelve difícil separar el efecto de tales variables
sobre las variables dependiente o de respuesta. En estos casos, los valores de los
coeficientes de regresión para las variables correlacionadas pueden fluctuar drásti-
camente, dependiendo de qué variables estén incluidas en el modelo.
Un método para me<fir la colinealidad utiliza el factor inflacionario de
varianza (VIF) (por sus siglas: Variance Inflationary Factor) para cada variable
independiente. Este VIF se define en la ecuación (18.24):

1
VIF¡ (18.24)
1 - RI2

en la que R7 representa el coeficiente de determinación múltiple de la variable


explicativa X¡ con todas las demás variables X.
Si solamente se tienen dos variables explicativas, RI
es meramente el coefi-
ciente de determinación entre X 1 y X 2 . Si, por ejemplo, se tuvieran tres variables
explicativas, entonces R21 sería el coeficiente de determinación múltiple de X1 con
Xz y X3.
Si el conjunto de variables explicativas no está correlacionado, entonces el VIF¡
sería de uno. Si el conjunto de variables independientes estuviera altamente correla-
cionado, entonces el VIF¡ podría incluso ser mayor que 10. Marquardt (véase referen-

824 Capítulo 18 Modelos de regresión múltiple


cía 10) sugiere que si el VlF; es mayor que 10, entonces existe demasiada correlación
entre la variable X¡ y las otras variables explicativas. Sin embargo, otros investigadores
(véase referencia 16) sugieren un criterio más conservador que emplearía alternativas
a la regresión de mínimos cuadrados si el máximo VIF; fuera mayor que S.
Si examinamos los datos correspondientes al petróleo para calefacción, obser-
vamos, en la tabla 18.2 de la página 792, que la correlación entre las dos variables
explicativas, temperatura y aislamiento en el ático, es de solamente .00892. Por
consiguiente, como se tienen únicamente dos variables explicativas en el modelo,
podemos calcular el VIF¡ de la ecuación (18.24):

1
1 - (.00892) 2
VIF1 = VIF2 =: 1.00

Así pues, podemos llegar a la conclusión de que no existe razón para sospechar la
presencia de multicolinealidad para los datos correspondientes al petróleo para
calefacción.
Regresaremos a este tema de la multicolinealidad en la sección 18.16, en Ja cual
estudiaremos la construcción de modelos.

Problemas de la sección 18. 14


18.54 Refiérase al problema 18.3 de la página 787, correspondiente al costo de
distribución, determine el VIF para cada variable explicativa del modelo.
¿Existe razón para sospechar la presencia de multicolinealidad?
18.55 Refiérase al problema 18.4 de la página 788, correspondiente a los medios de
publicidad, determine el VlF para cada variable explicativa del modelo. ¿Existe
razón para sospechar la presencia de multicolinealidad?
18.56 Refiérase al problema 18.5 de la página 788, correspondiente al salario de los
empleados, determine el VlF para cada variable explicativa del modelo. ¿Existe
razón para sospechar la presencia de multicolinealidad?
18.5 7 Refiérase al problema 18.6 de la página 789, correspondiente a las horas de
reserva, determine el VIF para cada variable explicativa del modelo. ¿Existe
razón para sospechar la presencia de multicolinealidad?

1l:H11 Análisis de influencia en la


regresión múltiple

1 8. 1 5. 1 Introducción
Ahora que ya hemos tomado en consideración Ja cuestión de si existe
multicolinealidad entre las variables explicativas, y hemos evaluado lo adecuado
del modelo ajustado a través del uso del análisis de residuos, estamos listos para
utilizar las técnicas del análisis de influencia, estudiadas en la sección 17 .14,
para determinar si alguna observación individual tiene alguna influencia negativa
sobre el modelo ajustado.
Podemos recordar que en la sección 17 .14 tomamos en consideración tres
observaciones:
l. Los elementos de la matriz sombrero, h¡
2. Los residuos de la t de Student eliminados, t~
3. La estadística de distancia de Cook, D¡

Análisis de influencia en la regresión múltiple 82S


En la figura 18.16 se presentan los valores de estas estadísticas correspondien-
tes a los datos sobre el consumo de petróleo para calefacción de la tabla 18.1, y que
fueron obtenidos con el paquete estadístico MINITAB. En esta figura observamos
que ciertos puntos de datos han sido resaltados para su análisis posterior.

,····- '"'·
. :R6w • 1 i:it:ng:<:Ai · ':,:: pred.~

1 ·275.3 284.651 -0139144 0.156757 -0.37720 o. 009495 ' '


2 3,63,,8 355.3a6 '' 0.36087 0.185246 0.34740 0.009870
3 164.3 i44.s65 · .. o,0i.s61 ,o.11s1i? • 0.82.438 0.049616
4 40. 8 . 45 ;207.;,; :jO ..1.9519 . O. 246777 :-O.i8717 o .004161
5 94;3 94.136 · 0;00609 0.161023 0.00660 · O'.OOOÓ03
6 230.9 257;233 ;, -1.05200 0:;074084 -1.057l4 0.029517
7 366.7 393.148 ' -1~1~911 6:230654' -1.17765 G.134267
8 300,~ 318 •.535 -0.85651 0.352057 -0.84632 0.132.868
9 231:.a··.··. 236•..986., 0,03557 0 .. 22 . 6001· 1.0 .. 0:3405' o. oop1.24 · ,!
,1(), .· 12.h4 . )59:15R~T ·::~<:~9094 0'.2~4:~67;,; -l. 85367 9.3()~~90 .. '
11 ··:····. :h.4 8.650 . L0.2779 0.275988 · i:o:H>43
12 203. 5 .·· 219 :·177 -o. 62414 o. 067663 -0.6Ó751 ~:~~~i~l
"·'13 .., 441:± 30•7i;94·5 ·.-, 2•~Jo9ao: · 0:;211430 2.96740 . '0.494131'
14 . 323;0 295.52.4 1~1506.lh·,·0.;15:\7~6.5 .> 1 .. 16802' .Q·.082488' '
15 52,5 45:195 o,.25330, 0.226864 o.24317 0.006276

Figura 18.16
Estadística de influencia obtenida con el paquete MINITAB para los daóM sobre el consumo de
petróleo para calefacción.

18.15.2 Uso de los elementos de la matriz sombrero, hi


De la sección 17 .14 podemos recordar que cada h; refleja la influencia de cada valor
de X¡ sobre el modelo de regresión ajustado. En un modelo de regresión múltiple
que contiene P variables independientes o explicativas, Hoaglin y Welsch (véase
referencia 7) sugieren la siguiente regla de decisión:

si h¡ > 2(P + l)/n

entonces X; es un punto de influencia y puede considerársele como candidato para


su eliminación del modelo.
Para los datos correspondientes al consumo de petróleo para calefacción,
como n = 15 y P = 2, nuestro criterio sería señ.alar cualquier valor de h¡ mayor que
.40. Refiriéndonos a la figura 18.16, observamos que ninguno de los valores de h¡
es mayor que .36¡ por consiguiente, basados en este criterio, no parece que haya
ninguna observación que pueda ser considerada para su eliminación del modelo.

18. 1 5. J Uso de los residuos de la t de


Student eliminados, t~
De la sección 17.14 podemos recordar que los residuos de la t de Student elimina-
A
dos miden la diferencia entre cada valor observado, Y¡, y el valor predicho, Y¡,
obtenido con un modelo que incluye todas las observaciones diferentes de la i. En
el modelo de regresión múltiple, Hoaglin y Welsch sugieren que

Sf ¡t; 1 > t.10,n-P-2

826 Capitulo 18 Modelos de regresión múltiple


entonces los valores observado y predicho son tan diferentes que la observación i
es un punto de influencia que afecta negativamente al modelo y puede ser con-
siderado como candidato para su eliminación.
Para los datos correspondientes al consumo de petróleo para calefacción,
puesto que n = 15 y P = 2, nuestro criterio sería señalar cualquier valor de t~ mayor
~ue !I.7959! (véase tabla E.3). Refiriéndonos a la figura 18.16, observamos que
t 10 = -1.854 y t~ 3 = 2.967. Por consiguiente, la décima y la decimotercera observa-
ciones pueden, cada una, tener efectos negativos sobre el modelo. Debemos obser-
var que estos puntos no habían sido señalados anteriormente de acuerdo con el
criterio h¡. En consecuencia, consideraremos la estadística D¡ de Cook que está
basada tanto en h¡ como en los residuos estandarizados.

18. 1 5 .4 Uso de la estadística de distancia D¡ de Cook


Ahora que ya hemos considerado las estadísticas h¡ y t~, volvamos nuestra atención
hacia la estadística D¡ que fue estudiada en la sección 17 .14.4. En el modelo de
regresión múltiple, Cook y Weisberg (véase referencia 5) sugieren que

si -D¡ > F.so,P+l,n-P-1

entonces la observación puede tener un impacto sobre los resultados de ajustar el


modelo de regresión múltiple.
Para los datos correspondientes al consumo de petróleo para calefacción, ya
que n = 15 y P = 2, nuestro criterio sería señalar cualquier valor D¡ > F.so,3, 12 = .835.
Refiriéndonos a la figura 18.16, observamos que ninguno de los valores D¡ es
mayor que .495, de manera que, de acuerdo con este criterio, no hay valores que
puedan ser eliminados (aunque debemos observar que los valores de D¡ más
grandes son los correspondientes a las observaciones 13 y 10, respectivamente). En
consecuencia/ no tendríamos una clara base para eliminar cualquiera de las obser-
vaciones del modelo de regresión múltiple.

18.1 S.S Resumen


En la presente sección hemos analizado varios criterios para la evaluación de la
influencia de cada observación sobre el modelo de regresión múltiple. Las diferen-
tes estadísticas no nos conducen a un conjunto consistente de conclusiones. De
acuerdo a los criterios h¡ y D¡, ninguna de las observaciones son candidatos para su
eliminación del modelo. Sin embargo, de acuerdo con el criterio t~, las observa-
ciones 13 y 10 pueden estar afectando negativamente el ajuste del modelo. Aun-
que algunos estadísticos podrían argumentar en favor de que se les elimine, parece
razonable mantenerlas en el modelo debido tanto a la inconsistencia de las estadís-
ticas de influencia como también porque el modelo ajusta bastante bien
(ri 12 = .96) independientemente de si se incluyen o no tales observaciones.
El uso del diagnóstico de regresión (como son los análisis de residuos y de
influencia) nos ha proporcionado la oportunidad de evaluar estrechamente cada
punto de los datos. Quizá podríamos ser capaces de explicar el hecho de tener
residuos grandes en las observaciones 13 y 10 como que se deben a otros factores
además de la temperatura atmosférica y la cantidad de aislamiento en el ático. Por
ejemplo, es bastante posible que el residuo positivo grande correspondiente a la
observación 13 pueda ser explicado por el hecho de que el control termostático fue
puesto en un nivel especialmente alto durante un mes en el cual la temperatura
promedio mensual fue de solamente 21 grados Fahrenheit. Por otro lado, el
residuo negativo grande correspondiente a la observación 10 podría explicarse por
el hecho de que en un mes en que la temperatura promedio mensual fue de 63 gra-
dos Fahrenheit, el control del termostato fue puesto en un nivel inferior al que se
esperaría en tales situaciones.

Análisis de influencia en la regresión múltiple 827


Problemas
En los problemas 18.58 a 18.66, efectúe un análisis de influencia y determine si hay alguna
observación que deba ser eliminada del modelo. Si es necesario, vuelva a analizar el
modelo de regresión después de eliminar las observaciones pertinentes y compare los
resultados obtenidos con los del modelo original.
18.58 Refiérase al problema correspondiente a los costos de distribución (véanse
páginas 787, 790 y 792) .

• 18.59 Refiérase al problema correspondiente a los medios de publicidad (véanse


páginas 788, 790 y 792).
18.60 Refiérase al problema correspondiente al salario de los empleados (véanse
páginas 788, 790 y 792).
18.61 Refiérase al problema correspondiente a las horas de reserva (véanse páginas
789, 790 y 792) .

• 18.62 Refiérase al problema 18.40 de la página 814.


18.63 Refiérase al problema 18.41, de la página 815.
18.64 Refiérase al problema 18.42, de la página 815.
18.65 Refiérase al problema 18.43, de la página 816.
18.66 Refiérase al problema 18.46, de la página 819.
18.67 Refiérase al problema 18.50 de la página 823:
(a) Lleve a cabo un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de eliminar las observaciones pertinentes y compare
los resultados obtenidos con los del modelo original.
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 18.62.
18.68 Refiérase al problema 18.51 de la página 823:
(a) Lleve a cabo un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de eliminar las observaciones pertinentes y compare
los resultados obtenidos con los del modelo original.
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en los
problemas 18.62. y 18.67.

Problemas intercapítulo de la sección 18.15


e 18.69 Refiérase al problema 18.47 de la página 820.
(a) Lleve a cabo un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de eliminar las observaciones pertinentes y compare
los resultados obtenidos con los del modelo original.
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 17.69 de la página 759.
18.70 Refiérase al problema 18.48 de la página 820.
(a) Lleve a cabo un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de eliminar las observaciones pertinentes y compare
los resultados obtenidos con los del modelo original.
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 17.82 de la página 778.

l l:H [.j Un ejemplo de construcción de modelos:


la escuela de satisfacción de empleados
18.16.1 Introducción
En el presente capítulo hemos desarrollado el modelo de regresión lineal múltiple
y, posteriormente, analizamos el modelo polinomial curvilíneo, modelos que im-

828 Capítulo 18 Modelos de regresión múltiple


plican variables ficticias y modelos que involucran transformaciones de las variables. En la
presente sección concluiremos nuestro estudio de la regresión con el desarrollo de un
modelo que incluya un conjunto de varias variables explicativas categóricas y numéricas.
Del capítulo 17 podemos recordar que sólo una variable numérica (antigüedad en
años en la planta de trabajo) se utilizó en el desarrollo de un modelo de regresión para
predecir el ingreso en nuestra Encuesta de satisfacción de los empleados. Evaluemos,
ahora, de nuevo, este modelo de regresión, tomando en cuenta también otras variables
explicativas como el nivel de educación, los años trabajados en la compañía y el
número de promociones recibidas. Además, consideremos variables independientes
categóricas como el sexo de los empleados (0 =mujer, 1 =hombre), la participación en
decisiones presupuestales, la participación en decisiones que afectan su trabajo (regis-
trado como O para nunca o algunas veces y 1 para casi todo el tiempo y siempre), la
importancia de la escolaridad formal y la importancia del entrenamiento en el trabajo
(registrado como O para una participación sin importancia o con poca importancia, y
1 para una participación importante o muy importante) y el orgullo de estar trabajando
en la organización (registrado como O para indiferente y en lo absoluto orgulloso, y 1
para algo orgulloso o muy orgulloso).
Antes de desarrollar un modelo para predecir el ingreso, debemos tener presente un
criterio ampliamente utilizado en la construcción de modelos, la parquedad. Es decir, que
deseamos desarrollar un modelo de regresión que incluya el menor número de variables
explicativas que permita una adecuada interpretación de la variable dependiente de
interés. Los modelos de regresión con menos variables explicativas son, inherentemente,
más fáciles de interpretar, en patte porque son menos probables de verse afectados por el
problema de la multicolinealidad (véase sección 18.14).
Además, debernos darnos menta de que la selección de un modelo apropiado cuando
se van a tornar en cuenta diez variables explicativas implica complejidades que no se
encuentran presentes en un modelo que únicamente contiene dos variables explicativas.
Primero, la evaluación de todos los modelos posibles de regresión se vuelve, desde el punto
de vista de los cálculos, más compleja. Segundo, aunque los modelos L'n competencia
pueden ser evaluados cuantitativamente, puede no existir un modelo exclusivamente
mejor sino varios modelos igualmente apropiados.
Debemos iniciar nuestro análisis de los datos correspondientes a la Encuesta de
satisfacción de los empleados midiendo, primero, la cantidad de colinealidad que existe
entre las variables explicativas, mediante el uso del factor inflacionario de varianza
!véase ecuación ( 18.24)1. En la figura 18.17 de la página 830 se presenta el resultado par-
cial obtenido con el programa estadístico MINITAB para un modelo de regresión lineal
múltiple en el cual el ingreso se predice basándose en las diez variables explicativas.
Podemos observar que la mayoría de los valores Vlf son relativamente pequeños, y van
desde un valor alto de 2.0, para la antigüedad en la compañía, a un valor bajo de 1.2,
en cuanto a la importancia de la escolaridad formal para desempeñar el trabajo. Así
pues, basados en los criterios desarrollados por Marquardt (véanse referencias 1O y 11 ),
existe poca evidencia de que haya multicolinealidad entre el conjunto de variables
explicativas. Observamos también que el coeficiente de determinación múltiple es .41 O
y el coeficiente? ajustado es .281.

1 8.16.2 Planteamiento de regresión paso a paso


en la construcción de modelos
Podemos ahora continuar con nuestro análisis de los datos intentando determinar
las variables explicativas que podrían ser eliminadas del modelo terminado.
Primero utilizaremos un procedimiento de búsqueda ampliamente usado que se
conoce como regresión por pasos (o paso a paso), en el que se intenta encon-
trar el mejor modelo de regresión sin examinar todas las regresiones posibles. Ya
que se ha encontrado el mejor modelo, se utiliza el análisis de residuos para eva-
luar lo adecuado del modelo, y se calculan medidas de influencia para determinar
si alguna observación puede ser eliminada.

Un ejemplo de construcción de modelos 819


The ~gression equation is ·. ,

rnc;o . • = º.··'. ~ ,+' 4 .•~ 3 óR.G?10NEY. • + o •. 7·6. s.. WRKYEA!ls . ~...1. '. o1 Enu'é
. . ·. · + ·3 ;25 SEX :.: O. 2j}5 EMPYEAR:S + O. 31 NUMPROMO + 5 .38 !ilEcrn:E:
1~75 PROUDORtf+ 2.13 SCH00LNG - 6.78 TRAINING

Predi e to COef . Stdev i:-ratio . p . VIF


o.as' 14.00 o .'06 0.950'
4~329 3.724 1.16 0.251 l. 3
WRKYEARS · 0.7Íi51 0.2274 3 .37 .· ·0.002 l. 7
EDUC :1.0097 ó...8611 1.17 ·0.247 l. 3
3.246 4.025 0.81 b .42.4 l. 5
''
SEX
'EMPYEARS - .2051 o. 3310 -o ..62 o.~38 2.0
NUMP ROMO0
~.3cl'1 1~ 713 0.18 0.859 1.4
IDECIDE .382 4.765 1.13 '0.265 1.2
PROUDORG '-1..748 6.009 -0.29 0.772 l. 3
.' SCHOOLNG '.2.¡'133 3.932 0.54 0.590 1.2 .
TRAINÍÑG -6 .¡182 4.856 -1.40 o.i~9 l. 3

. ''s =-12;30 R-Sq 41.0% R-sq(adj) 28.1%


'(·;:

Figura 18. 17
Resultado obtenido con MINITAB para el modelo de regresión completo con diez variables
explicativas.

De la sección 18.7 podemos recordar que se utilizó el criterio de la prueba F


parcial para evaluar porciones de un modelo de regresión múltiple. La regresión
por pasos extiende este criterio de prueba F parcial a un modelo que contiene
cualquier número de variables explicativas. Una caracteríatica importante de este
proceso por pasos es que una variable explicativa que ha sido incluida en el mode-
lo en cualquier etapa puede, posteriormente, ser eliminada cuando se tomen en
cuenta otras variables independientes. Esto es, en la regresión por pasos, las varia-
bles son añadidas o eliminadas del modelo de regresión en cada paso del proceso
de construcción dd modelo. El procedimiento por pasos termina con la selección
del modelo de meji>r ajuste, en el momento en que no haya variables que puedan
ser agregadas o eli:cninadas del último modelo ajustado.
Podemos, ahora, observar el proceso por pasos en nuestros datos. En la figura
18.18 se representa un resultado parcial obtenido con el paquete de software
MINITAB. En este ejemplo se utilizó un nivel de significación de .05 ya sea para
incluir una variable en el modelo o para eliminarla del mismo. La primera variable
incluida en el modelo es WRKYEARS (antigüedad en la planta de trabajo). Puesto
que el valor de t de 3.98 es mayor que el valor crítico para ex = .05 (esto es,
t.os,ss = ±2.004) WRKYEARS se incluye en el modelo de regresión.

STEP ··r '2


CONSTAN'J:'. rr:t:~". f).;94 '
. \'.:> ; . :"''.:<:. ,: ,_".' .:·~~

.~:~~ .>t"'<'ti~'·
0
WRKYEARS
T-:-RATIO '·,.'.! . .

~. ;:<~r:'j:~.::~/·?·;
g .... ; ' .... ,,12.,9,,, ¡,.1:;¡.4.,.\;;:.:
·.AJf~;s~',/::·/,;·_/:;?_:!,:.'3'.~ ;', . ~9:8,~;;;· · ·

Figura 18. 18
Resultado parcial obtenido con el paquete MINITAB para el modelo que predice el
ingreso utilizand<' la regresión por pasos.

830 Capítulo 18 Modelos de regresión múltiple


El siguiente paso implica la evaluación de la segunda variable que será inclui-
da en el modelo. La variable que se va a seleccionar es aquella que haga la mayor
contribución al modelo, dado que la primera variable explicativa ya ha sido selec-
cionada. Para este modelo, la segunda variable es ORGMONEY (participación en
decisiones presupuestales). Como el valor de t de 2.40 para ORGMONEY es mayor
que el valor crítico para a= .05 (esto es, t.os, 54 = 2.0049), la variable ORGMONEY
es incluida en el modelo de regresión.
Ya que la variable ORGMONEY ha sido incluida en el modelo, podemos determi-
nar si WRKYEARS todavía sigue siendo una variable cuya contribución es importante
o si puede ser eliminada del modelo. Puesto que el valor de tde 4.16 para WRKYEARS
es también mayor que el valor crítico para a= .05 (es decir, t_05,54 = ±2.0049), la vari-
able WRKYEARS deberá permanecer en el modelo de regresión.
El siguiente paso consiste en determinar si cualquiera de las variables restantes
debe añadirse al modelo o no. Puesto que ninguna de las demás variables cumple
con el criterio de .05 para ser incluida o no en el modelo, el procedimiento por
pasos termina con un modelo que incluye la antigüedad en la planta de trabajo y
si el empleado participa en decisiones presupuestales.
Antes de utilizar el análisis de residuos para probar lo adecuado de este mode-
lo, sería apropiado determinar si se justifica o no tener un modelo que contenga
un término de interacción entre las variables WRKYEARS y ORGMONEY (véase
sección 18.13). En la figura 18.19 presentamos un resultado parcial obtenido con
el paquete MINITAB para un modelo que incluya la interacción entre la antigüedad
en la fuerza de trabajo y si el empleado participa en decisiones presupuestales. De
f
este modelo odemos observar que el valor t para la contribución WRKYEARS*
ORGMONEY WRKYEARS,ORGMONEY es de 1.90. Puesto que 1.90 < 2.0057 (esto
es, cuando a= .05, t.os, 53 = ±2.005 7), podemos llegar a la conclusión de que el tér-
mino de interacción no debería incluirse como parte del modelo. Así pues, el mode-
lo seleccionado para predecir el ingreso solamente incluye la antigüedad, en años,
en la planta de trabajo y si el empleado participa en decisiones presupuestales.

'1. ,.. ·,':¡ '. ·:··':'(


. ':: i . : . . ' . ·. .. . .· · '. . .. ·. •···.
',:.:'',, ·: . : ;:
-The :régre'ssiori ·eqUatiOn· ••'4,s ; .. · .J . · . .
INCOME ;:: 1 i , 6 ~ , ó • 5 31 WRKYlÚ.RS - 5 ; 2 8 ·ORGMONE~,),~ ~ ()'. 73i0!~WRk*ORG · .·
·.1.:· -h(;~.~::~Ú-:. .:!~-..; ·,: :·:':·J~\11: : :.: , "'';,··~···:··'»·F~·f··~-¡~ ·1:;.~l;\~J~~. . ,';:· '.';i.:': i··;·'::~·· •' .. ,~~:-" ic~~···~·~.:J,~>t·,_;1 1 ::~, ,·:á:~·\~l·~··.· ~:;.<..
'Pred.ictor' Coef .:, ~l¡·::-.:$'~(!éV':•:' ''''t:::·r¿.:tifo-·:''''.ohi:·,':"'~·>;1 1.{:,.
c6nstéilit 17,595 4.227 4.16 o.o.oo
WRKYEARS! 0.5310 Ó.Z017 2.Éi3 0.011
ORGMONEY -5.282 7.741 -0.68 0.498
WRK*ORG 0.1301 o.. 3851 · 1.90 o.d63.
. : ·•:, ,. '': 1,. .'

Figura 18. u~
Resultado parcial del modelo de interacción, obtenido con el paquete MINITAB.

Ahora que ya hemos seleccionado las variables explicativas que deberán


incluirse en el modelo, debe realizarse un análisis de residuos para evaluar lo ade-
cuado del ajuste del modelo. En la figura 18.20, de las páginas 832-833, presenta-
mos un resultado parcial obtenido con el paquete de software MINITAB utilizado
para tales fines. En esta figura podemos observar que las gráficas de los residuos
estandarizados. contra la antigüedad en la fuerza de trabajo y contra la partici-
pación del empleado en las decisiones presupuestales no revelan ningún patrón
evidente. Además, un histograma de los residuos estandarizados solamente indica
que hay una desviación moderada de la normalidad. Ya que el análisis de residuos
parece confirmar lo adecuado del modelo ajustado, podernos, ahora, utilizar varias
medidas de influencia para determinar si alguna de las observaciones ha influido
negativamente sobre el modelo ajustado. En la figura 18.21 de la página 834 se
representan los valores de las estadísticas h¡, y D¡ de Cook para nuestro modelo t;,

Un ejemplo de construcción de modelos 83 1


The regression equation is
INCOME = 13 . 9 + 0.731 WRKYEARS + 8.03 ORGMONEY

Predictor Coef Stdev t-ratio p VIF


Constant 13.936 3.850 3.62 0.001
WRKYEARS 0.7314 0.1759 4.16 0.000 1.0
ORGMONEY 8.027 3.341 2.40 0.020 l. o

s = 12.37 R-sq 29.9% R-sq(adj) = 27.3%

Analysis of Variance

SOURCE DF SS MS F p
Regression 2 3523.3 1761. 7 11. 51 0.000
Error 54 8267.7 153.1
Total 56 11791. o

SOURCE DF SEQ SS
WRKYEARS 1 2639.2
ORGMONEY 1 884.1

Histogram of STRES N 57

Midpoint Count
-2.0 2 **
-l. 5 3 ***
-l. o 5 *****
-0.5 12 ************
o.o 19 *******************
0.5 5 *****
l. o 5 *****
l. 5 3 ***
2.0 o
2.5 1
3.0 2 **

Figura 18.20
Resultado obtenido con MINITAB para un modelo que incluye los años de trabajo y
la participación en decisiones presupuestales.

ajustado. En la figura 18.21 observamos que ciertos puntos de datos han sido seña-
lados para su posterior análisis.
Para nuestro modelo ajustado, como n = S7 y P = 2, utilizando la regla de
decisión sugerida por Hoaglin y Welsch (véase sección 18.15.2), nuestro criterio
sería señalar cualquier valor de h¡ mayor que 2(2 + 1)/57 = .1053. Refiriéndonos a
la figura 18.21, observamos que las observaciones 2 (h 2 = .1249), 19 (h 19 = .1074),
y 43 (h 43 = .2081) tienen valores de h¡ que exceden a .1053 y, por consiguiente, se
les considera como candidatos para su eliminación del modelo.
Regresando a la medida de los residuos de la t de Student eliminados, t;', para
nuestro modelo, como P == 2 y n = 5 7, y utilizando la regla de decisión sugerida por
Hoaglin y Welsch (véase sección 18.15.3), nuestro criterio sería señalar cualquier
valor de jt'¡j mayor que 1.6741 (véase tabla E.3). Refiriéndonos a la figura 18.21,
t; t;
observamos que t*13 = 3.58772, 9 = 3.07302, 1 == 1.73938, t~ 5 = 2.49158,
t~ 0 = -1.84229, y t~ 5 = -2.03612. Así pues, estas observaciones pueden tener un
efecto negativo sobre el modelo. Notamos que la observación 19 también fue se-
ñalada de acuerdo con el criterio h¡, pero las observaciones 13, 31, 45, SO y SS no.

832 Capítulo 18 Modelos de regresión múltiple


4.0+

*
STRES *
*
2.0+
* *
* *
*** * *
* * *
o.o+ ***2* *3* * ** * *
*** **
* 2* * * *
***
-2.0+ * *
+---------+---------+---------+---------+---------+-----WRKYEARS
o 10 20 30 40 50

4.0+

*
STRES *
*
2.0+
* *
* *
5
4
O.O+ 9 7
2 8
8 *
2 2

-2.0+ * *
--+---------+---------+---------+---------+---------+---ORGMONEY
o 0.20 0.40 0.60 0.80 1.00

Figura 18.20 (continuación).

Por consiguiente, debido a la falta de consistencia entre h; y t~, deberíamos


tomar en cuenta un tercer criterio, la estadística D; de Cook, que está basada tanto
en h; como en los residuos estandarizados. Para nuestro modelo, en el cual P = 2 y
n = 5 7, utilizando la regla de decisión sugerida por Cook y Weisberg (véase sección
18.15.4), nuestro criterio sería señalar cualquier D; > F.so,(3, 54i = .800. Refiriéndonos
a la figura 18.21, observamos que ninguno de los valores D; es mayor que .327, de
modo que de acuerdo con este criterio no existen valores que deban ser elimina-
dos. En consecuencia, no tendríamos una clara base para eliminar cualquier obser-
vación del modelo de regresión múltiple.
En la figura 18.20 observamos que los valores VIF son de 1.0, de manera que
no hay multicolinealidad entre las dos variables explicatorias. El coeficiente de
determinación múltiple es .299 y el coeficiente? ajustado es de .273. Esto se com-
para favorablemente con el coeficiente? ajustado de .281 para el modelo con diez
variables explicativas. Así pues, nuestro modelo ajustado puede expresarse como
/\
Y;= 13.936 + 0.7314X 1 ; + 8.027 X 2 ;

Un ejemplo de construcción de modelos 83 3


ROW INCOME YHAT stres hi tresids cookd

1 20.2 16.1302 0.34226 0.076499 0.33944 0.003234


2 35.7 43.1903 -0.64710 0.124879 -0.64358 0.019918
3 33.3 22. 7124 0.87210 0.037343 0.87014 0.009834
4 32.0 28.5632 0.28202 0.030020 0.27960 0.000821
5 35.7 36.5907 -0.07362 0.044120 -o. 07294 0.000083
6 33.8 32.2026 0.13225 0.047073 0.13104 0.000288
7 30.3 32.9339 -0.21789 0.045570 -o. 21596. 0.000756
8 20.4 21. 9811 -0.13042 0.040077 -0.12922 0.000237
9 18.4 30.7573 -1.01608 0.033943 -1. 01639 0.012092
10 11. 8 27.1005 -1. 25516 0.029426 -1.26203 0.015921
11 40.2 24.1751 l. 31706 0.033087 l. 32629 0.019786
12 22.0 27.8144 -0.48586 0.064574 -0.48239 0.005432
13 78 .o 38.7847 3.24837 0.048101 3.58772 0.177733
14 13.7 24.9065 -0.92032 0.031566 -0.91900 0.009202
15 40.8 39.5335 0.10706 0.086008 0.10608 0.000360
16 23.0 24.9065 -0.15657 0.031566 -0.15515 0.000266
17 10.3 18.3243 -0.66881 0.059809 -0.66535 0.009485
18 22.7 24.9065 -0.18120 0.031566 -0.17957 0.000357
19 81. 7 48.2923 2.85772 0.107380 3.07302 0.327472
20 55.3 36.5907 1.54654 0.044120 1.56726 0.036799
21 16.0 27.8319 -0.97066 0.029521 -o. 97013 0.009553
22 33.1 35.8593 -0.22803 0.043602 -0.22602 0.000790
23 25.1 35.8768 -0.89700 o. 057242 -0.89535 0.016285
24 16.1 24.1577 -0.68275 0.090274 -0.67934 0.015419
25 25.2 28.5458 -0.27899 0.060647 -0.27660 0.001675
26 30.6 32.9339 -0.19307 0.045570 -0.19134 0.000593
27 41.5 32.9513 0.70568 0.041503 0.70236 o. 007188
28 38.1 37.3395 0.06365 0.067536 0.06306 0.000098
29 24.7 33.6827 -0.74280 0.044832 -0.73968 0.008632
30 13 .6 17.5929 -o. 33372 0.064968 0.33096 0.002579
31 45.7 24.9065 l. 70765 0.031566 l. 73938 0.031683
32 39.0 41. 7101 -0.22580 0.059066 -0.22380 0.001067
33 26.9 21. 9811 0.40575 0.040077 0.40259 0.002291
34 17.3 33.6653 -1. 35303 0.044472 .,-1.36376 0.028401
35 38.3 39.5161 -0.10085 0.050236 -0.09992 0.000179
36 34.4 23.4438 0.90138 o.035013 0.89979 0.009826
37 23.1 22.7124 0.03193 0.037343 0.03163 0.000013
38 26.0 27.8144 -0.15162 0.064574 -,0.15024 0.000529
39 23.4 21. 9811 0.11704 0.040077 0.11597 0.000191
40 36.6 40.2474 -0.30288 0.052775 -0.30031 0.001704
41 25.0 25.6378 -0.05235 0.030448 -0.05186 0.000029
42 27.5 34.3966 -0.56998 0.043778 -0.56639 0.004958
43 58.0 49.0411 o. 81362 0.208089 o. 81104 0.057982
44 20.8 20.5184 0.02331 0.046757 0.02310 0.000009
45 51. 6 22.7124 2.37947 0.037343 2.49158 0.073211
46 31.2 36.5907 -0.44560 0.044120 -0.44227 0.003055
47 31.3 20. 5184 0.89246 0.046757 0.89075 0.013023
48 17.6 21. 2497 -0.30155 0.043215 -0.29899 0.001369
49 36.9 38. 7847 -0.15612 0.048101 -0.15470 o.000411
50 17.4 38. 8022 -1.80276 0.079447 -1.84229 0.093494
51 17.8 34.3966 -1. 37166 0.043778 -1.38321 o. 028712
52' 38.4 31.4886 0.56891 0.036059 0.56532 0.004036
53 16.5 24.9065 -0.69037 0.031566 -0.68699 0.005178
54 48.4 35.1280 1.09673 0.043488 1.09883 0.018229
55 21. 9 45.3669 -1.97928 0.081865 -2.03612 0.116437
56 16.4 25.6378 -0.75821 0.030448 -o. 75519 ' 0.006016
57 28.9 29 .2772 -o. 03139 0.057124 -o. 03110 0.000020

Figura 18.21
Estadisticas de influencia obtenidas con MINITAB para el modelo de la
figura 18.20.

834 Capítulo 18 Modelos de regresión múltiple


De este modelo podemos llegar a la conclusión de que si mantenemos cons-
tante el efecto de si el individuo participa en las decisiones presupuestales, cada
año adicional que trabaje en la compañía se estima que vale un promedio de
$731.40 en su ingreso. Manteniendo el número de años de antigüedad en el tra-
bajo, se estima que un empleado que participa en decisiones presupuestales tendrá
un ingreso de $8,027 por arriba de alguien que no participa en tales decisiones.
Comparado con el modelo de regresión lineal simple, el añadir la segunda
variable independiente, participación en decisiones presupuestales, ha mejorado
r
el coeficiente ajustado a .2728, en comparación con su valor anterior de .2097.
Sin embargo, deberíamos darnos cuenta de que con más de 70% de la variación en
el ingreso todavía sin explicar, este modelo puede ser de valor práctico limitado
como predictor del ingreso, aunque cada una de las dos variables independientes
haga una contribución significativa estadísticamente al modelo de regresión.

1 8. 16. J El planteamiento de mejor subconjunto para la


construcción de modelos
A pesar de que la regresión por pasos ha sido utilizada de manera extensiva en la
construcción de modelos, en los últimos años, con el aumento de la potencia
computacional disponible en los paquetes de software estadísticos se ha logrado la
habilidad de examinar todos los modelos de regresión posibles para un conjunto
dado de variables independientes o, al menos, el mejor subconjunto de modelos
para un número dado de variables independientes. En la figura 18.22, de la página
836, se presenta el resultado parcial obtenido con el paquete STATISTIX; en éste se
proporcionan los tres mejores modelos de regresión para un número dado de
parámetros, de acuerdo con dos criterios ampliamente utilizados. El primer crite-
rio que se utiliza a menudo es el del coeficiente r 2 ajustado, que ajusta el coefi-
ciente r 2 de cada modelo para justificar el número de variables incluidas en el
modelo (véase sección 18.4). Puesto que se van a comyarar modelos con diferente
número de variables independientes, el coeficiente r ajustado es el criterio más
adecuado para utilizarse en este caso, en lugar de usar el criterio r 2 .
Refiriéndonos a la figura 18.22, observamos que el coeficiente? alcanza un valor
máximo de .3283 cuando se tienen cinco variables independientes (WRKYEARS,
ORGMONEY, EDUC, IDECIDE y TRAINING) más el término de intersección (para un
r
total de seis términos). Otros modelos con coeficientes ajustados similares son
.3138 para el modelo de cuatro variables que consisten en WRKYEARS, ORGMONEY,
EDUC y TRAINING; .3268 para el modelo de seis variables que consisten en
WRKYEARS, ORGMONEY, EDUC, SEX, IDECIDE y TRAINING; y .3199 para el mode-
lo de siete variables que consisten en WRKYEARS, ORGMONEY, EDUC, SEX,
EMPYEARS (tiempo que tiene trabajando en Industrias Kalosha), IDECIDE y TRAIN-
ING. Así pues, el planteamiento de mejor subconjunto, a diferencia de la regresión
por pasos, nos ha proporcionado varios modelos alternativos para realizar una evalua-
ción más profunda, utilizando otros criterios, como el de parquedad, el de inter-
pretabilidad, el de desviaciones de las suposiciones del modelo (evaluadas mediante
un análisis de residuos) y el de influencia de las observaciones individuales.
Un segundo criterio que se utiliza a menudo en la evaluación de modelos que
compiten está basado en el desarrollo estadístico realizado por Mallows (véanse
referencias 4 y 17). Esta estadística, conocida como estadística Cf!'' mide las diferen-
cias de un modelo de regresión ajustado con respecto a un modelo real, junto con
el error aleatorio. La estadística e,. se define como

_ (1 - R:. )( n - T) _ ( _ •) (18.25)
cP. - 2 n 2p
1- RT

Un ejemplo de construcción de modelos SJS


BEST SUBSET REGRESSION MODELS FOR INCOME

UNFORCED INDEPENDENT VARIABLES: (A)WRKYEARS (B)ORGMONEY (C)EDUC (D)SEX


(E)EMPYEARS (F)NUMPROMO (G)IDECIDE (H)PROUDORG (I)SCHOOLNG ( J) TRAINING
3 11 BEST 11 MODELS FROM EACH SUBSET SIZE LISTED.

ADJUSTED
p CP R SQUARE R SQUARE RESID SS MODEL VARIABLES

1 22.9 0.0000 0.0000 11790.9 INTERCEPT ONLY


2 7.5 0.2097 0.2238 9151. 71 A
2 17.4 0.0805 0.0970 10647.6 D
2 17.9 0.0740 0.0905 10723.7 J
3 3.6 0.2728 0.2988 8267.65 A B
3 4.0 0.2676 0.2937 8327.46 AD
3 5.1 0.2534 0.2801 8488.35 A C
4 2.8 0.2979 0.3355 7834.57 A B e
4 3.2 0.2919 0.3299 7901. 70 A B J
4 3.3 0.2903 0.3283 7919.75 A B D
5 2.7 0.3138 0.3628 7513.25 AB e J
5 2.8 o. 3119 0.3611 7533.53 A B D J
5 2.9 0.3106 0.3598 7548.03 A B C G
6 2.7 0.3283 0.3882 7213. 33 A B C G J
6 3.2 0.3207 0.3814 7294.40 A BCD J
6 3.4 0.3180 0.3789 7323.81 A C D G J
7 3.8 0.3268 0.3990 7086.73 A B C D G J
7 4.3 0.3205 0.3933 7153.96 A B C E G J
7 4.3 0.3198 0.3927 7161. 06 A B C G I J
8 5.4 0.3199 0.4049 7016.77 A B C D E G J
8 5.5 0.3183 0.4035 7032.86 AB e D G I J
8 5.8 0.3140 o. 3 998 7077.40 A B e D F G J
9 7.1 0.3095 0.4082 6978.28 A B C D E G I J
9 7.3 0.3067 0.4057 7007.30 AB C D E G H J
9 7.4 0.3059 0.4051 7014.91 A B C D E F G J
10 9.0 0.2961 0.4092 6965.72 A B e D E G H I J
10 9.1 0.2953 0.4086 6973.68 AB e DE F G I J
10 9.3 0.2921 0.4059 7005.38 AB C D E F G H J
11 11. o 0.2813 0.4096 6960.87 A B C D E F G H I J

Figura 18.22
Resultado de la regresión de mejor subconjunto, obtenido con el paquete STATISTIX.

en la que
p* = P + 1, número de parámetros incluidos en un modelo de regresión
con P variables independientes
T = número total de parámetros a ser considerados para su inclusión en el
modelo de regresión
R~. = coeficiente de determinación múltiple para un modelo de regresión
que tiene p* parámetros
R~ = coeficiente de determinación múltiple para un modelo de regresión
que contiene a todos los T parámetros
Utilizando la ecuación (18.25) para calcular CP. para el modelo que contiene cinco
variables independientes (WRKYEARS, ORGMONEY, EDUC, IDECIDE y TRAIN-
ING) tendríamos

n = 57 p* 6 T 10 + 1 = 11 R;. = .3882

836 Capítulo 18 Modelos de regresión múltiple


de modo que

e.p =
( 1 - .3882 )( 5 7 - 11) -
[57 - 2 (6 )]
1 - .4096
el'. = 2.667
Cuando un modelo de regresión con P variables independientes solamente con-
tiene diferencias aleatorias respecto a un modelo real, el valor promedio de Cp* es
p', el número de parámetros. Por lo tanto, al evaluar muchos modelos de regresión
alternativos, nuestro objetivo es encontrar modelos cuya Cp• esté cerca de p* o por
debajo de ésta.
En la figura 18.22 observamos que muchos modelos contienen valores de Cp•
C\ue se encuentran por debajo de p*. Como fue el caso con el criterio del coeficiente
r ajustado, Cp* nos ha proporcionado varios modelos alternativos para que los
podamos evaluar con más profundidad utilizando otros criterios, como el de par-
simonia, el de interpretabilidad, el de desviaciones de las suposiciones del modelo
(evaluadas mediante un análisis de residuos) y el de influencia de las observaciones
individuales.

Problemas de la sección 18.16


18.71 Refiérase a la figura 18.22 y seleccione tres modelos alternativos para hacerles
un análisis más detallado. Compare los resultados obtenidos con estos modelos
con los obtenidos con el modelo analizado en la sección 18.16.

Regresión logística

18.17.1 Desarrollo del modelo de regresión logística


En los análisis que hicimos del modelo de regresión lineal simple, en el capítulo 17,
y de los modelos de regresión múltiple, en las secciones 18.1a18.16, nos hemos limi-
tado a considerar solamente variables de respuesta numéricas. Sin embargo, en
muchos casos, la variable de respuesta es categórica y toma únicamente un valor de
dos posibles. El uso de regresiones de mínimos cuadrados simples o múltiples para
este tipo de variable dependiente a menudo conduce a predecir valores menores que
cero o mayores que uno, valores que no es posible que se presenten.
Un planteamiento alternativo, la regresión logística, aplicada original-
mente a los datos de supervivencia en las ciencias de la salud (véase referencia 9),
ha sido desarrollado para permitirnos utilizar los modelos de regresión en la
predicción de la probabilidad de tener una respuesta categórica particular para un
conjunto dado de variables explicativas (que pueden ser numéricas o categóricas).
Este modelo de regresión logística está basado en el cociente de posibilidades, que
representa la probabilidad de un éxito en comparación con la probabilidad de fra-
caso. El cociente de posibilidades se expresa como

. . .. probabilidad de un éxito
Cociente de pos1b1hdades = 1 - b b·i·d· d d , . (18.26)
- pro a i i a e un exito

Utilizando la ecuación (18.26), si la probabilidad de éxito de un evento fue de .50,


el cociente de posibilidades sería de

Regresión logística 837


.so
Cociente de posibilidades
1 _ .SO = 1.0 o 1 a 1

y si la probabilidad de éxito de un evento es de .75, el cociente de posibilidades


sería

.75
Cociente de posibilidades 1 __ 75 =3.0 o 3 a 1

El modelo de regresión logística está basado en el logaritmo natural de este


cociente de posibilidades. 3 Normalmente se utiliza un método matemático cono-
cido como estimación de posibilidad máxima para desarrollar un modelo de regre-
sión y predecir así el logaritmo natural de dicho cociente de posibilidades. Este
modelo se puede expresar como

en(estimacióndelcociente =Po+ p1 Xu + p2 x 2 ; + ... + PKXKi +E; (18.27)


de posibilidades¡)

en el cual K es el número de variables independientes del modelo y E¡ es el error


aleatorio de la observación i. Para datos de muestra tendremos:

en (estimación del cociente de = b0 + b1 X 1 ; + b2 X 2 ¡ +:..:: + bKXKi (18.28)


posibilidades;)

Una vez que el modelo de regresión logística ha sido ajustado a un conjunto de


datos, se puede obtener el cociente de posibilidades estimado elevando la cons-
tante matemática e a una potencia igual al logaritmo natural del cociente de posi-
bilidades estimado. Lo anterior se puede expresar como:

en (estimación del cociente de = e .-


En (Estimación del coclcnt~
di! pmibllidadcs)
(18.29)
posibilidades)

Ya que hemos obtenido el cociente, podemos encontrar la probabilidad estimada


de éxito con la ecuación
Estimación del cociente de
posibilidades
Probabilidad estimada de éxito (18.30)
1+ Estimación del cociente
de posibilidades

18.17.2 Aplicación
Para ilustrar el modelo de regresión logística, supongamos que el departamento de
comercialización de una compañía de viajes y de entretenimiento que opera
mediante tarjetas de crédito está a punto de iniciar una campaña periódica para
convencer a los actuales clientes que poseen una tarjeta de crédito estándar de la
compañía para que la cambien por una de sus tarjetas premium, por un cargo
nominal anual. La principal decisión que enfrenta el departamento de comerciali-
zación tiene que ver con la cuestión de saber a cuáles de los clientes con tarjeta

BJB Capítulo 18 Modelos de regresión múltiple


estándar debe dirigirse la campaña. Los datos disponibles correspondientes a una
muestra de 30 tarjetahabientes, que fueron contactados durante la campaña del
año anterior, indican lo siguiente: si el poseedor de la tarjeta pasó de tener una
estándar a tener una tarjeta premium (O= no, 1 =sí); la cantidad total de adquisi-
ciones de tarjetas (en miles de dólares); uso de la tarjeta de crédito de la compañía
durante el año anterior a la campaña (X 1); y si el poseedor de una tarjeta de crédito
tiene tarjetas adicionales (lo cual requiere un cargo adicional) para otros miembros
de su familia (X 2 : O= no, 1 =yes). Los datos se presentan en la tabla 18.10.

Tabla 18.10 Comportamiento de adquisición, gastos anuales con tarjeta de crédito y posesión de tarjetas de
crédito adicionales para una muestra de 30 tarjetahabientes.
Posesión de Posesión de
Comportamiento Gastos tarjeta de Comportamiento Gastos tarjeta de
Observación de adquisición anuales credito adicional Observación de adquisición anuales credito adicional
1 o 32.1007 o 16 o 23.7609 o
2 34.3706 1 17 o 35.0388 1
3 o 4.8749 o 18 1 49.7388 1
4 o 8.1263 o 19 o 24.7372 o
5 o 12.9783 o 20 1 26.1315
6 o 16.0471 o 21 o 31.3220
7 o 20.6648 o 22 40.1967 1
8 1 42.0483 23 o 35.3899 o
9 o 42.2264 24 o 30.2280 o
10 37.9900 1 25 1 50.3778 o
11 1 53.6063 1 26 o 52.7713 o
12 o 38.7936 o 27 o 27.3728 o
13 o 27.9999 o 28 59.2146 1
14 42.1694 o 29 50.0686
15 56.1997 30 35.4234

En la figura 18.23 se presenta el resultado parcial obtenido con el paquete STATIS-


TIX para el modelo de regresión logística.

UNWEIGHTED LOGLSTIC REGRESSION OF BUY

PRED.ICTOR Wald Stalistlc


VAR.I:A~LES COEFFICIE~rr s•ro ERROR COEF/SE p

CONST?'J'IT . bo -6.9292.3 2.83241 -2.45 0 .. 0144


SPENDING b, o. j 3~J2:j 0,06594 ~ .l L o. ,J3,¡7
EXTRA b2 :'. . 7 ~} i l B 1.16550 ~.3R O. O.l º7 :¡

DEVIANCE :rn. oB
P-V~LUÉ . . o. s:~? s
DEGREES··•OF
.
FRÉEOoM:
. .

c.l\~Es IN~LUPEO lo MISSINq CASES O


·-- ----------~-----~-------------~~

Figura 18.21
Resultado parcial de la regresión logística para los datos de la tabla 18.1 O, obtenido con
el paquete STATISTIX.

En esta figura observamos que la variable de respuesta ha sido llamada BUY, X 1


recibió el nombre de SPENDING y X 2 tiene el nombre de EXTRA. Los coeficientes
de regresión, b0 , b 11 y b2 pueden interpretarse de la manera siguiente:
l. La constante de regresión b0 es igual a -6.92923.

Regresión logística 819


2. El coeficiente de regresión b1 es igual a .13925. Esto se puede interpretar
como que si mantenemos constante el efecto de si el tarjetahabiente
tiene tarjetas adicionales para miembros de su familia, por cada aumento
de $1,000 en los gastos anuales de la tarjeta, utilizando la tarjeta de
crédito de la compañía, estimaremos que el logaritmo natural del
coeficiente de probabilidades de adquirir la tmjeta premium se incrementará
en .13925.
3. El coeficiente de regresión b2 es 2.77118. Esto puede interpetarse
como que si mantenemos constante los gastos anuales en tarjetas de
crédito, estimaremos que el logaritmo natural del cociente de posibili-
dades de adquirir una tarjeta premium aumentará en 2. 77118, para un
tarjetahabiente que posee tarjetas adicionales para otros miembros de
su familia, en comparación con uno que no tenga tarjetas adicionales.
Como fue el caso con los modelos de regresión de mínimos cuadrados, uno de
los propósitos principales de efectuar el análisis de regresión logístico consiste en
proporcionar predicciones para una variable de respuesta. Suponga que deseamos
predecir la probabilidad de que un tarjetahabiente que tuvo un cargo de $36,000
en la tarjeta de la compañía durante el año anterior adquiera una tarjeta premium
durante la campaña de comercialización. Si estuviéramos intentando predecir para
un cliente que ha adquirido tarjetas extra para los miembros de su familia, ten-
dríamos X 1 = 36 y X 2 = 1, y de la ecuación (18.28), los resultados para el modelo de
regresión ajustado en la figura 18.23 serían

En (posibilidad estimada de adquirirla contra no adquirirla)= -6.92923 + (0.13925 )(36)


+ (2.77118)(1)
= 0.85495

Utilizando la ecuación (18.29), tendríamos:

Estimación del cociente de posibilidades = e· 85495 = 2.3513

Esto se puede interpretar como que las posibilidades de que un cliente que gastó
$36,000 el año anterior y posee tarjetas adicionales adquiera la tarjeta premium
durante la campaña en vez de no adquirirla son de 2.3513 a l. Esto puede conver-
tirse a una probabilidad si utilizamos la ecuación (18.30), de modo que

2.3513
Probabilidad estimada de adquirir la tarjeta premium
1 + 2.3513
.7016

Así pues, estimaríamos que la probabilidad de que un cliente que gastó $36,000 el
año anterior y tenga tarjetas adicionales adquiera la tarjeta premium durante la
campaña es de. 7016. En otras palabras, se podría esperar que 70.16% de tales indi-
viduos adquieran la tarjeta premium.
Ahora que ya hemos usado el modelo de regresión logística para hacer una
predicción, tomaremos en consideración otros dos aspectos del proceso de ajuste
de modelos: el hecho de si el modelo ajustado es un modelo que ajusta bien, y el
hecho de si cada una de las variables independientes incluidas en el modelo hace
una contribución significativa al mismo. Una estadística que se utiliza en oca-
siones para evaluar la cuestión de si el ajuste del modelo es un buen ajuste es la
estadística de desviación. Ésta mide el ajuste del modelo actual en compara-
ción con un modelo que tiene tantos parámetros como puntos de datos (a lo que
se le conoce como modelo saturado). La estadística de desviación sigue una <lis-

840 Capítulo 18 Modelos de regresión múltiple


tribución chi-cuadrada con n - K - 1 grados de libertad. Las hipótesis nula y alter-
nativa para esta estadística son:

Ha: El modelo es un modelo que ajusta bien.


H 1: El modelo no es un modelo que ajusta bien.

Utilizando un nivel de significación a, la regla de decisión es:

Rechace Ha si la desviación> lu(n _ K _ 1);

en cualquier otro caso, no rechace Ha.

Tomando en cuenta la figura 18.23, de la página 839, y utilizando un nivel de


significación de .05, observamos que

desviación = 20.08 < lu(Z?l = 40.113.

En consecuencia, Ha no sería rechazada. El valor de p de .8275 es mayor que .05.


Llegaríamos a la conclusión de que el modelo está bien ajustado.
Ahora que ya llegamos a la conclusión de que el modelo está bien ajustado,
necesitamos evaluar si cada una de las variables independientes o explicatorias
hace una contribución significativa al modelo. Como fue el caso con la regresión
lineal de las secciones 17 .13 y 18.8, la estadística de prueba está basada en el
cociente del coeficiente de regresión entre el error estándar del coeficiente de regre-
sión. En la regresión logística, a este cociente se le conoce como estadística de
Wald y sigue la distribución normal. En la figura 18.23 observamos que la estadís-
tica de Wald es 2.11 para X 1 y 2.38 para X2 . Cada una de éstas es mayor que el valor
crítico de 1.96 para la distribución normal al nivel de significación de .05 (los va-
lores de p son .0347 y .0174). Así pues, podemos llegar a la conclusión de que cada
una de las dos variables explicativas hace una contribución significativa al modelo
y ambas deben ser incluidas.

Problemas de la sección I 8.17


18.72 Refiérase a los datos de la figura 18.23 de la página 839:
(a) Prediga la probabilidad de que un cliente con tarjeta estándar que ha
cargado $36,000 a la tarjeta de la compañía durante el año anterior, y que
no posee tarjetas adicionales para los miembros de su familia, adquiera la
tarjeta premium durante la campaña de comercialización.
(b) Compare los resultados obtenidos en el inciso (a) con los de la página 840.
(c) Prediga la probabilidad de que un cliente con tarjeta estándar que ha
cargado $18,000 a la tarjeta de la compañía durante el año anterior, y que
no posee tarjetas adicionales para los miembros de su familia, adquiera la
tarjeta premium durante la campaña de comercialización.
(d) Compare los resultados obtenidos en los incisos (a) y (c) e indique qué
implicaciones podrían tener tales resultados para la estrategia de la
campaña de comercialización.
18. 73 Al director de estudios de posgrado de una conocida universidad le gustaría
predecir el éxito de los estudiantes de licenciatura. Se tienen disponibles dos
variables explicativas, el promedio puntual en las calificaciones del último año
de estudios y el resultado en el examen GMAT, para una muestra aleatoria de
30 estudiantes, 20 de los cuales han terminado exitosamente la licenciatura
(codificados como 1), y los 10 restantes no han terminado sus estudios en el
tiempo requerido (codificados como O). Los resultados fueron los siguientes:

Regresión logística 84 1
Éxito en la Promedio puntual de Resultado
licenciatura calificaciones en el último año GMAT

o 2.93 617
o 3.05 557
o 3.11 599
o 3.24 616
o 3.36 594
o 3.41 567
o 3.45 542
o 3.60 551
o 3.64 573
o 3.57 536
1 2.75 688
1 2.81 647
1 3.03 652
1 3.10 608
1 3.06 680
1 3.17 639
1 3.24 632
1 3.41 639
1 3.37 619
1 3.46 665
1 3.57 694
1 3.62 641
1 3.66 594
1 3.69 678
1 3.70 624
1 3.78 654
1 3.84 718
1 3.77 692
1 3.79 632
1 3.97 784

(a) Ajuste un modelo de regresión logística para predecir la probabilidad de


terminar con éxito la licenciatura, basándose en el promedio puntual de
calificaciones del último año y el resultado en el examen GMAT.
(b) Explique el significado de los coeficientes de regresión para el ajuste de
modelo del inciso (a).
(c) Prediga la probabilidad de terminar con éxito la licenciatura de un
estudiante con un promedio puntual de calificaciones en el último año de
3.25 y con un resultado en el examen GMAT de 600.
(d) Al nivel de significación de .05, ¿existe evidencia de que-un modelo de
regresión logística que utilice el promedio puntual de calificaciones en el
último año y el resultado en el examen GMAT para predecir la probabili-
dad de éxito en la licenciatura es un modelo bien ajustado?
(e) Al nivel de significación de .05, ¿existe evidencia de que el promedio pun-
tual de calificaciones en el último año y el resultado en el examen GMAT,
cada uno por separado, hacen una contribución significativa al modelo de
regresión logística?
(f) Ajuste un modelo de regresión logística que incluya solamente el
promedio puntual de calificaciones en el último año para predecir la
probabilidad de éxito en la licenciatura.
(g) Ajuste un modelo de regresión logística que incluya únicamente el
resultado en el examen GMAT para predecir la probabilidad de éxito en la
licenciatura.
(h) Compare los modelos ajustados en los incisos (f) y (g) con el modelo
ajustado en el inciso (a). ¿Cómo evaluaría usted si existe una diferencia
entre los modelos?
18.74 Al gerente de comercialización de una compañía grande de servicio de
jardinería concesionado le gustaría estudiar las características que diferencian a
los dueños de casas que contratan el servicio de jardinería de los que no lo

842 Capítulo 18 Modelos de regresión múltiple


hacen. Se seleccionó una muestra aleatoria de 30 casas localizadas en un área
suburbana de una ciudad grande: lS de éstas no tenían servicio de jardinería
(codificadas como O) y las lS restantes sí lo tenían (codificadas como 1).
También se tiene información disponible sobre las 30 casas acerca de lo
siguiente: el ingreso familiar de sus habitantes (en miles de dólares), el tamaño
del jardín (en miles de pies cuadrados), la actitud de los habitantes con
respecto a actividades recreativas en el exterior de la casa (O = desfavorable,
1 =favorable), número de adolescentes en la familia y la edad del jefe de
familia. Se obtuvieron los siguientes resultados:

Sevicio de jardinería Ingreso Tamaño del jardín Actitud Adolescentes Edad

o 24.3 3.0 o 2 38
o 2S.6 4.3 1 45
o 61.7 1.9 2 47
o 34.9 4.5 1 o 37
o 37.2 1.7 o 1 39
o 27.5 3.2 o 2 37
o 40.0 4.6 45
o 33.1 7.9 1 46
o 35.3 5.6 3 37
o 44.8 6.0 2 39
o 27.9 4.S 2 47
o 54.6 9.1 3 36
o 32.3 4.2 1 38
o 40.6 9.4 2 44
o 48.9 2.3 o o 32
1 57.3 6.9 1 43
1 74.1 8.3 1 39
1 44.6 10.8 o 2 40
1 70.1 10.1 o 1 SS
1 71.4 10.3 1 49
1 63.1 6.8 1 2 53
1 84.1 7.2 o o Sl
1 44.7 3.3 1 3 48
1 36.2 4.7 o 2 41
1 S2.9 5.7 o 45
1 39.S 10.9 o 2 43
1 84.6 8.3 o o 62
1 67.4 7.8 o 3 sz
51.6 6.3 o o 34
S6.4 7.2 4S

(a) Ajuste un modelo de regresión logística para predecir la probabilidad de


utilizar un servicio de jardinería basándose en el ingreso familiar (en miles
de dólares), en el tamaño del jardín (en miles de pies cuadrados), en la
actitud hacia las actividades recreativas en el exterior de la casa (O= no
favorable, 1 =favorable), número de adolescentes en la familia y la edad
del jefe de familia.
(b) Explique el significado de los coeficientes de regresión para el modelo
ajustado en el inciso (a).
(c) Prediga la probabilidad de contratar un servicio de jardinería para un
dueño de casa con 48 años, un ingreso familiar de $50,000, un tamaño de
jardín de S,000 pies cuadrados, una actitud negativa hacia las actividades
en el exterior de la casa y un adolescente en la familia.
(d) Al nivel de significación de .05, ¿existe evidencia de que un modelo logís-
tico que utilice el ingreso familiar, el tamaño de jardín, la actitud hacia
actividades en el exterior de la casa, el número de adolescentes en la
familia y la edad del jefe de ésta es un modelo bien ajustado?

Regresión logística 843


(e) Al nivel de significación de O.OS, ¿existe evidencia de que cada una de las
cinco variables explicativas (ingreso familiar, tamaño de jardín, actitud
hacia actividades en el exterior de la casa, número de adolescentes en la
familia y edad del jefe de la familia) hace una contribución significativa al
modelo de regresión?

1l:H1:1 Paquetes de computación y


regresión múltiple
En el presente capítulo hemos puesto énfasis en cómo interpretar los resultados que
se pueden obtener con los paquetes de computación. De hecho, es esta amplia
disponibilidad de diferentes paquetes de computación estadísticos lo que ha con-
ducido a una gran expansión de las aplicaciones de los modelos de regresión en áreas
como la de los negocios y la de economía. Entre los paquetes que se utilizan común-
mente cuando se están desarrollando modelos de regresión para aplicaciones en los
negocios son el Sistema de Análisis Estadístico (SAS, por sus siglas: Statistical Analysis
System) (referencia 15), el Paquete Estadístico para las Ciencias Sociales (SPSS, por sus
siglas: Statistical Package for the Social Sciencies) (referencia 12), MINITAB (referen-
cia 14) y STATISTIX (referencia 17). Con el propósito de observar algunas de las simili-
tudes y diferencias entre estos paquetes, los datos correspondientes al modelo sobre
el consumo de petróleo para calefacción (tabla 18.1), que fueron analizados con el
paquete SAS (véase figura 18.2 de la página 785), también son analizados utilizando
los paquetes STATISTIX y MINITAB. En la figura 18.24 se ilustra el resultado parcial
obtenido con STATISTIX y en la figura 18.25 se hace lo mismo con los resultados del
paquete MINITAB.

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF HTNGOIL

PREDICTOR
VARIABLES COEFFICIENT STO ERROR STUDENT'S T p

CONSTANT bo 562.15 21.093 26.65 0.0000


TEMPF bj-5.4366 3.3622E-Ol -16.17 0.0000
INSU b2 -2 o. 012 2.3425 -8.54 0.0000

R SQUARED 0.9656 RESID. MEAN SQUARE (MSE} 676.7


ADJUSTED R SQUARED 0.9599 STANDARD DEVIATION 26.01

SOURCE DF SS MS F p

REGRESSION 2 2.2801E+05 l.1401E+05 168.47 0.0000


RESIDUAL 12 8120.6 676. 72
TOTAL 14 2.3614E+05

Figura 18.24
Resultado parcial obtenido con STATISTIX para los datos sobre el consumo de petróleo para
calefacción.

l l:H C·) Dificultades en la regresión múltiple


y cuestiones éticas

18.19.1 Dificultades en la regresión múltiple


En la sección 17.16 analizamos las dificultades que podemos encontrar en la regre-
sión y cuestiones éticas. Ahora que hemos examinado un buen número de mode-

844 Capítulo 18 Modelos de regresión múltiple


THE REGRESSION EQUATION IS
htngoil 562 - 5.44 tempf - 20.0 insu

ST. DEV. T-RATIO =


COLUMN COEFFICIENT OF COEF. COEF/S.D. V. I.F.
CONSTANT bo 562. 15 21.09 26.65
tempf b, -5.4366 0.3362 -16.17 1.0
insu b2 -20. 012 2.343 -8.54 1.0

s = 26.01

R-SQUARED 96.6 PERCENT


R-SQUARED 96.0 PERCENT, ADJUSTED FOR D.F.

ANALYSIS OF VARIANCE

DUE TO DF SS MS=SS/DF
REGRESSION 2 228015 114007
RESIDUAL 12 8121 677
TOTAL 14 236135

FURTHER ANALYSIS OF VARIANCE


SS EXPLAINED BY EACH VARIABLE WHEN ENTERED IN THE ORDER GIVEN
DUE TO DF SS
REGRESSION 2 228015
tempf 1 178624
insu 1 49390

Figura l 8.2S
Resultado parcial obtenido con MINITAB para los datos correspondientes al consumo de
petróleo para calefacción.

Jos de regresión, tenemos dificultades adicionales relacionadas con el uso del análi-
sis de regresión de las cuales necesitamos preocuparnos. i~stas son:
1. La necesidad de entender que el coeficiente de regresión para una variable
independiente particular es interpretado desde una perspectiva en la
cual los valores de todas las demás variables independientes se
mantienen constantes.
2. La necesidad de utilizar gráficas de residuos para cada variable inde-
pendiente incluida en el modelo.
3. La necesidad de evaluar los términos de interacción para determinar si
la pendiente de otras variables independientes con la variable de
respuesta es la misma en cada nivel de la variable ficticia.
4. La necesidad de obtener el factor inflacionario de varianza (VIF) para
cada variable independiente antes de determinar cuáles de éstas se
deben incluir en el modelo.
S. La necesidad de examinar varios modelos alternativos utilizando la
regresión de mejor subconjunto además de cualquier procedimiento
de regresión por pasos.
6. La necesidad de emplear la regresión logística en lugar de la regresión
de mínimos cuadrados cuando la variable de respuesta es categórica.

18. 19.2 Consideraciones éticas


Las consideraciones éticas surgen cuando el usuario que desea desarrollar predic-
ciones manipula el proceso de desarrollo del modelo de regresión múltiple. La
clave, en este caso, es Ja intención. Además de las situaciones analizadas en Ja sec-
ción 17.16.3, un comportamiento no ético se presenta cuando alguna persona uti-
liza el análisis de regresión múltiple y:

Dificultades en la regresión múltiple y cuestiones éticas 84S


l. Con conocimiento de causa: (1) retira del modelo las variables que
muestran una alta multicolinealidad con otras variables independientes
o (2) usa métodos diferentes al de mínimos cuadrados cuando las suposi-
ciones necesarias para efectuar la regresión de mínimos cuadrados han
sido violadas.
2. Utiliza un planteamiento simple de regresión por pasos sin tomar en
cuenta la oportunidad de considerar otros modelos alternativos.

1 l:HfJ.j Resumen y visión general


En este capítulo desarrollamos el modelo de regresión múltiple, incluyendo varia-
bles ficticias, multicolinealidad, transformaciones, construcción de modelos y
regresión logística. En la página 782 de la sección 18.1, se proporcionó una lista
donde se señalan los puntos importantes que se estudiarían en el capítulo. Revise
ahora esa lista para ver si siente que ha entendido esos puntos clave. Para asegu-
rarse, deberá ser capaz de responder a las siguientes preguntas conceptuales:
l. ¿De qué manera difiere la interpretación de los coeficientes de regresión
en la regresión múltiple en comparación con la regresión simple?
2. ¿En qué difiere la prueba de la significación del modelo de regresión
completo de la prueba de la contribución de cada variable indepen-
diente en el modelo de regresión múltiple?
3. ¿En qué difieren los coeficientes de determinación parcial del coefi-
ciente de determinación múltiple?
4. ¿Por qué y cómo se utilizan las variables ficticias?
S. ¿Cómo podemos evaluar si la pendiente de una variable
independiente con la variable de respuesta es la misma para cada
nivel de la variable ficticia?
6. ¿Cuál es el propósito de utilizar transformaciones en el análisis de
regresión múltiple?
7. ¿De qué manera evaluamos si las variables independientes están
correlacionadas entre sí?
8. ¿Por qué es útil la regresión de mejor subconjunto en la selección de
un modelo de regresión?
9. ¿En qué circunstancias es apropiada la regresión logística?
10. ¿En qué difiere la interpretación de los coeficientes de regresión en la
regresión logística en comparación con los de la regresión lineal simple?
En el capítulo 19 continuaremos con nuestro estudio del pronóstico, tomando en
consideración una variedad de modelos de predicción de series de tiempo.

Juntando todo
TÉRMINOS CLAVE
cociente de posibilidades 837 estadística c/I" 835
coeficiente de determinación estadística de desviación 840
múltiple 790 estadística de Wald 841
coeficiente de determinación factor inflacionario de varianza (VIF) 824
parcial 805
modelo curvilíneo centrado 807
coeficiente de regresión neta 784
modelo de regresión curvilíneo 806
criterio de prueba F parcial 797

846 Capítulo 18 Modelos de regresión múltiple


Análisis de
regresión múltiple

Ajuste de
un modelo

Regresión Regresión Variables


Construcción Regresión Interacción Regresión
de modelos de variables lineal transformadas
curviHnea en la regresión logística
ficticias múltiple en la regresión

Regresión
Regresión
de mejor
por pasos
subconjunto Determinación e
interpretación de los
oeficlentes de regresió

Ajustado
i2

Si

Utilice el modelo
para predicción
y estimación

Estimado Estimado Estimado


p, µYX Y¡

)iagrama de resumen del capítulo 18

Diagrama de resumen del capítulo 847


multicolinealidad 824 términos de interacción 821
regresión de mejor subconjunto 835 transformación de raíz cuadrada 822
regresión logística 837 transformación logarítmica 822
regresión múltiple 782 transformación recíproca 822
regresión por pasos 829 variables ficticias 817

Problemas de repaso del capítulo


18.75 En el problema 18.6 de la página 789, utilizamos las variables correspondientes al
total del personal presente y a las horas remotas para predecir las horas de
reserva. Suponga que además de estas dos variables explicativas nos gustaría
tomar en consideración otras dos variables explicativas: el número de horas para
la máquina de animación y texto Dubner y el total de tiempo, en horas, de labor
en casa. La tabla siguiente muestra la información con respecto a estas dos varia-
bles para la muestra de 26 semanas.

Total de Total
Horas horas de Horas Horas de
Semana Dubner trabajo Semana Dubner trabajo
1 323 2,001 14 207 1,720
2 340 2,030 15 287 2,056
3 340 2,226 16 290 1,890,
4 352 2,154 17 355 2, 187,
5 380 2,078 18 300 2,032
6 339 2,080 19 284 1,856
7 331 2,073 20 337 2,068
8 311 1,758 21 279 1,813
9 328 1,624 22 244 1,808
10 353 1,889 23 253 1,834
11 518 1,988 24 272 1,973
12 440 2,049 25 223 1,839
13 276 1,796 26 272 1,935

Con la ayuda de un paquete de cómputo estadístico, desarrolle un modelo de


regresión para predecir las horas de reserva. Asegúrese de llevar a cabo un
análisis de residuos completo y de evaluar las diferentes medidas de influencia.
Además, proporcione una explicación detallada de los resultados obtenidos.
18. 76 A Crazy Dave, un conocido analista de béisbol, le gustaría determinar qué
variables son importantes en la predicción del número de juegos ganados por
un equipo durante una temporada, y también le gustaría predecir el promedio
de carreras admitidas del equipo (E.R.A). Los siguientes datos correspondientes
a juegos ganados, carreras anotadas, E.R.A., salvamentos, hits permitidos, bases
por bola y errores fueron recogidos en una temporada reciente y los resultados
se presentan en la tabla de la página 849.
Parte 1
Suponga que le gustaría desarrollar un modelo para predecir el E.R.A. basán-
dose en los hits y en las bases por bola permitidos. Utilice un paquete de soft-
ware y lleve a cabo un análisis de regresión lineal múltiple. Sobre la base de los
resultados obtenidos
(a) Establezca el modelo de regresión múltiple.
(b) Interprete el significado de las pendientes de este problema.
(c) Prediga el E.R.A. para un equipo que ha permitido 1,500 hits y 500 bases
por bola.
(d) Determine si existe una relación significativa entre el E.R.A. y las dos
variables explicativas (hits permitidos y bases por bola permitidas), el nivel
de significación de .OS.

848 Capítulo 18 Modelos de regresión múltiple


Juegos Hits Bases por bola
Equipo ganados Carreras ERA Salvamento permitidos permitidas Errores

1 89 705 3.79 48 1,419 538 93


2 73 599 3.58 39 1,403 535 139
3 72 579 3.84 42 1,449 532 134
4 86 738 3.82 52 1,400 550 129
5 76 674 4.11 46 1,507 566 141
6 75 791 4.60 36 1,534 564 116
7 72 610 3.81 44 1,426 512 122
8 92 740 3.43 39 1,344 435 89
9 90 747 3.70 so 1,391 479 95
10 76 733 4.21 44 1,453 612 114
11 96 745 3.73 58 1,396 601 125
12 64 679 4.55 30 1,466 661 112
13 77 682 4.09 42 1,471 598 154
14 96 780 3.91 49 1,346 541 93
15 98 682 3.14 41 1,321 489 109
16 78 593 3.39 37 1,337 575 114
17 90 660 3.46 55 1,362 470 96
18 81 608 3.72 45 1,386 539 114
19 63 548 3.41 29 1,401 553 174
20 87 648 3.25 49 1,296 525 124
21 72 599 3.66 34 1,404 482 116
22 70 686 4.11 34 1,387 549 131
23 96 693 3.35 43 1,410 455 101
24 83 631 3.38 47 1,405 400 94
25 82 617 3.56 46 1,444 439 115
26 72 574 3.61 30 1,385 502 113

(e) Calcule el valor de p en el inciso (d) e interprete su significado.


(f) Interprete el significado del coeficiente de determinación múltiple, rf: 12 .
(g) Calcule el coeficiente 12 ajustado.
(h) Al nivel de significación de .05, determine si cada variable explicativa hace
una contribución significativa al modelo de regresión. Sobre la base de
estos resultados, indique el modelo de regresión que debería ser utilizado
en el presente problema.
(i) Calcule los valores de p en el inciso (h) e interprete su significado.
(j) Establezca una estimación de intervalo de confianza de 95'!1> de la
pendiente de población entre el E.R.A. y el número de hits permitidos.
(k) Calcule los coeficientes de determinación parcial, r~1.z y r~2 . 1 , e interprete
su significado.
(l) Determine el VIF para cada variable explicativa del modelo. ¿Existe alguna
razón para sospechar que se tenga multicolinealidad?
(m)Lleve a efecto un análisis de residuos sobre los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(n) Lleve a cabo un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de haber eliminado las observaciones necesarias y
compare los resultados obtenidos con los del modelo original.

Parte JI
Suponga que nos gustaría desarrollar un modelo para predecir el número de
juegos ganados. Evalúe las otras seis variables proporcionadas (carreras, E.R.A.,
salvamentos, hits permitidos, bases por bola concedidas y errores) como posi-
bles variables explicativa a ser incluidas en el modelo. Asegúrese de llevar a
cabo un análisis de residuos completo y de evaluar las medidas de influencia.
Además, proporcione una explicación detallada de los resultados obtenidos.

Problemas de repaso del capítulo 849


18. 77 Un encabezado de la página 1 del New York Times del 4 de marzo de 1990,
decía "La ecuación del vino saca algunas narices de la jugada." El artículo
procedía a explicar que el profesor Orley Ashenfelter, un economista de la
Universidad de Princeton, había desarrollado un modelo de regresión
múltiple para predecir la calidad del Bordeaux francés, basándose en la
cantidad de lluvia invernal, la temperatura promedio durante la estación de
crecimiento y la lluvia durante la cosecha. La ecuación desarrollada es
Q= -12.145 + .00117 WR + .6164 TMP- .00386 HR
en la que
Q =índice de calidad logarítmico, en el cual 1961 es igual a 100
WR =lluvia de invierno (de octubre a marzo), en milímetros
TMP =temperatura promedio durante la estación de crecimiento (de
abril a septiembre), en grados centígrados
HR =lluvia durante la cosecha (de agosto a septiembre),
en milímetros

Usted se encuentra en una fiesta, bebiendo un vaso de vino, cuando una de


sus amigas le menciona que ha leído el artículo. Le pide que le explique el sig-
nificado de los coeficientes de la ecuación y también le pregunta sobre qué
análisis debieron haberse llevado a cabo y que no se incluyeron en el artículo.
Usted responde ......... .

Problemas intercapítulo del capítulo 18


e 18.78 Refiérase al problema 17.75 de la página 771, el estadístico que trabaja para el
fabricante de automóviles cree que una segunda variable explicatoria, la dis-
tancia recorrida en el envío, puede estar relacionada con el tiempo de entrega.
La distancia recorrida en el envío (en cientos de millas) para los 16
automóviles de la muestra se presenta a continuación:

Distancia recorrida en
Automóvil entrega (cientos de millas)
1 7.5
2 13.3
3 4.7
4 14.6
5 8.4
6 12.6
7 6.2
8 16.4
9 9.7
10 17.2
11 10.6
12 11.3
13 9.0
14 12.3
15 8.2
16 11.5

Utilice un paquete de software estadístico y lleve a cabo un análisis de


regresión lineal. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes de este problema.

aso Capítulo 18 Modelos de regresión múltiple


(c) Si un automóvil es ordenado con 10 opciones y tiene que ser enviado a un
lugar que está a 800 millas, ¿cuál será la predicción del tiempo promedio
de entrega?
(d) Determine si existe una relación significativa entre el tiempo de entrega y
las dos variables explicatorias (número de opciones y distancia recorrida
en el envío), al nivel de significación de .OS.
(e) Calcule el valor de p en el inciso (d) e interprete su significado.
(f) Interprete el significado del coeficiente de determinación múltiple, r} 12 .
(g) Calcule el coeficiente r 2 ajustado.
(h) Al nivel de significación de .OS, determine si cada variable explicativa hace
una contribución significativa al modelo de regresión. Sobre la base de
estos resultados, indique el modelo de regresión que debería ser utilizado
en el presente problema.
(i) Calcule los valores de p en el inciso (h) e interprete su significado.
(j) Calcule los coeficientes de determinación parcial, rii.z y riz.v e interprete
su significado.
(k) Determine el VIF para cada variable explicativa del modelo. ¿Existe alguna
razón para sospechar que se tenga multicolinealidad?
(1) Lleve a efecto un análisis de residuos sobre los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(m)Lleve a efecto un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de haber eliminado las observaciones necesarias y
compare los resultados obtenidos con los del modelo original.
18.79 Refiérase al problema 17.78 de la página 774, suponga que también deseamos
incluir en el modelo el periodo en el que la casa fue vendida. La siguiente tabla
representa el periodo (en meses) en el cual cada una de las 30 casas fue
vendida.

Periodos para la muestra de 30 casas.


Periodo Periodo
Casa (meses) Casa (meses)
1 10 16 12
2 10 17 5
3 11 18 14
4 2 19 1
5 5 20 3
6 4 21 14
7 17 22 12
8 13 23 11
9 6 24 12
10 5 25 2
11 7 26 6
12 4 27 12
13 11 28 4
14 10 29 9
15 17 30 12

Utilice un paquete de software estadístico y lleve a cabo un análisis de regresión


lineal. Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de las pendientes de este problema.
(c) Prediga el precio promedio de venta para una casa que tiene un valor
estimado de $70,000 y que fue vendida en un periodo de 12 meses.

Problemas de repaso del capítulo SS 1


(d) Determine si existe una relación significativa entre el precio de venta y las
dos variables explicativa (valor estimado y periodo de venta), al nivel de
significación de .OS.
(e) Calcule el valor de p en el inciso (d) e interprete su significado.
(f) Interprete el significado del coeficiente de determinación múltiple, rf'. 12 •
r
(g) Calcule el coeficiente ajustado.
(h) Al nivel de significación de .OS, determine si cada variable explicativa hace
una contribución significativa al modelo de regresión. Sobre la base de
estos resultados, indique el modelo de regresión que debería ser utilizado
en el presente problema.
(i) Calcule los valores de p en el inciso (h) e interprete su significado.
(j) Establezca una estimación de intervalo de confianza de la pendiente de
población verdadera entre el precio de venta y el valor estimado. ¿De qué
manera difiere, en este caso, la interpretación de la pendiente respecto a la
del problema 17.78(k)?
rt
(k) Calcule los coeficientes de determinación parcial, rf,1.z y 2 . 1, e interprete
su significado.
(1) Determine el VIF para cada variable explicatoria del modelo. ¿Existe
alguna razón para sospechar que se tenga multicolinealidad?
(m) Lleve a un análisis de residuos sobre los resultados obtenidos y determine
lo adecuado del ajuste del modelo.
(n) Lleve a efecto un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de haber eliminado las observaciones necesarias y
compare los resultados obtenidos con los del modelo original.
18.80 Refiérase a los datos del problema 17.76 de la página 772, suponga que
deseamos ajustar un modelo curvilíneo para predecir la cantidad de dinero
apostado basándonos en la asistencia. Utilice un paquete de software estadístico
para llevar a cabo el análisis de regresión.
(a) Establezca la ecuación de regresión.
(b) Prediga la cantidad promedio de dinero apostado durante un día en el cual
la asistencia fue de 30,000.
(c) Determine si existe una relación significativa entre la asistencia y la
cantidad apostada, al nivel de significación de .05.
(d) Calcule el valor de p en el inciso (c) e interprete su significado.
(e) Calcule el coeficiente de determinación múltiple, r~ 12 , e interprete su
significado.
(f) Calcule el coeficiente r2 ajustado.
(g) Al nivel de significación de .05, determine si el modelo curvilíneo es supe-
rior al modelo de regresión lineal.
(h) Calcule el valor p del inciso (g) e interprete su significado.
(i) Lleve a efecto un análisis de residuos sobre los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(j) Lleve a efecto un análisis de influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de haber eliminado las observaciones necesarias y
compare los resultados obtenidos con los del modelo original.
18.81 Refiérase al problema 17. 78 de la página 774, suponga que además de utilizar
el valor estimado para predecir el precio de venta, también deseamos usar la
información concerniente a si la casa es completamente nueva. Las casas 1, 2,
10, 14, 18, 20, 22, 24, 25, 26, 28 y 30 son completamente nuevas. Utilice un
paquete de software estadístico y lleve a cabo un análisis de regresión múltiple.
Basándose en los resultados obtenidos:
(a) Establezca la ecuación de regresión múltiple.
(b) Interprete el significado de la_s pendientes de este problema.
(e) Prediga el precio de venta promedio para una casa completamente nueva
con un valor estimado de $7S,OOO.
(d) Determine si existe una relación significativa entre el precio de venta y las
dos variables explicativas (valor estimado y si la casa es completamente
nueva), al nivel de significación de .OS.

852 Capítulo 18 Modelos de regresión múltiple


(e) Calcule el valor de p en el inciso (d) e interprete su significado.
(f) Interprete el significado del coeficiente de determinación múltiple, rL 2.
(g) Calcule el coeficiente r2 ajustado.
(h) Al nivel de significación de .OS, determine si cada variable explicativa hace
una contribución significativa al modelo de regresión. Sobre la base de
estos resultados, indique el modelo de regresión que debería ser utilizado
en el presente problema.
(i) Calcule los valores de p en el inciso (h) e interprete su significado.
(j) Establezca una estimación de intervalo de confianza de 9S% de la
pendiente de población entre el precio de venta y el valor estimado.
rf,
(k) Calcule los coeficientes de determinación parcial, r~1.z y 2 . 1, e interprete
su significado.
(1) Determine el V!F para cada variable explicativa del modelo. ¿Existe alguna
razón para sospechar que se tenga multicolinealidad?
(m) ¿Qué suposiciones con respecto a la pendiente del precio de venta y el
valor estimado deben hacerse en este problema'!
(n) Al nivel de significación de O.OS, determine si la inclusión de un término
de interacción hace una contribución significativa al modelo que ya
contiene el valor estimado y si la casa es completamente nueva. Basándose
en estos resultados, indique el modelo de regresión que
debería utilizarse en el presente problema.
(o) Calcule el valor de p del inciso (n) e interprete su significado.
(p) Lleve a efecto un análisis ele residuos sobre los resultados obtenidos y
determine lo adecuado del ajuste del modelo.
(q) Lleve a efecto un análisis ele influencia y determine si alguna observación
debe ser eliminada del modelo. Si es necesario, vuelva a analizar el modelo
de regresión después de haber eliminado las observaciones necesarias y
compare los resultados obtenidos con los del modelo original.
18.82 En el problema 17.78 de la página 774 utilizamos el valor estimado para
predecir el precio de venta de las casas; en el problema 18.79 de la página 8S 1,
también tomamos en consideración el periodo en el cual la casa fue adquirida,
y en el problema 18.81 consideramos si la casa es o no completamente nueva.
Suponga que deseamos tomar en cuenta estas tres variables explicativas: valor
estimado, periodo de adquisición y si la casa es completamente nueva. Con la
ayuda de un paquete de software estadístico, desarrolle un modelo de
regresión para predecir el precio de venta de las casas. Asegúrese de efectuar un
análisis de residuos completo y de evaluar las diferentes medidas de influencia.
Además, proporcione una explicación detallada de sus resultados.

Proyecto de encuesta/base de datos del capítulo 18


Los siguientes problemas se refieren a los datos de muestra obtenidos del rnestionario
de la figura 2.6 de las páginas 28 a 29, y presentados en la tabla 2.3 en las páginas
33 a 40. Deben resolverse con la ayuda de un paquete de software estadístico.

18.83 En la sección 18.16 utilizamos el análisis de regresión múltiple para desarrollar


un modelo para predecir el ingreso de los empleados de Industrias Kalosha
cuya ocupación fue clasificada como técnica/de ventas, basados en la posible
consideración de diez variables explicativas. Suponga que nos gustaría hacer
un análisis parecido para cada uno de los seis grupos ocupacionales, aparte de
los empleados que están en el grupo técnico/de ventas. Desarrolle cada uno de
tales modelos y escriba un resumen ejecutivo dirigido a Bud Conley en el que
se analicen sus resultados.
18.84 Nos gustaría desarrollar un modelo de regresión para ser capaces de determinar
qué factores son importantes en la satisfacción en el trabajo. Con el fin de
desarrollar dicho modelo, reclasificaremos la variable satisfacción en el trabajo
(SATJOB) en dos categorías, muy satisfecho (codificada con 1) y no muy satis-
fecho (valor registrado de cero, códigos originales de 2, 3 y 4). Tomaremos en
consideración seis variables explicativas para su inclusión en el modelo, sexo

Proyecto de encuesta/base de datos sn


(SEX, registrado como O= mujeres, 1 =hombres), ingreso personal
(RINCOME), número de años trabajados en Industrias Kalosha (EMPYEARS),
número de promociones recibidas (NUMPROMO), si el trabajo permite la par-
ticipación en la toma de decisiones que afectan al trabajo (!DECIDE, registrado
como 1 = siempre y O = respuesta diferente de siempre) y si existe partici-
pación en decisiones presupuestales (ORGMONEY, registrado como O = no y 1
=sí). Desarrolle varios modelos utilizando estas variables explicativas para pre-
decir la satisfacción en el trabajo. Compare y contraste los modelos ajustados.
Escriba un resumen ejecutivo dirigido a Bud Conley en el cual se analicen sus
resultados.

Estudio de caso 1: La Compañía Mountain States Patato


La Compañía Mountain States Potato SOLIOS Porcentaje de sólidos en
es una empresa procesadora de papas el pastel de filtro.
situada en el este de Idaho. Un pro- PH Acidez. Esto indica la
acción bacteriana en el
ducto secundario del proceso, cono- clarificador. A medida
cido como pastel de filtro, ha sido que progresa esta acción,
vendido a los granjeros como alimento se producen ácidos
para el ganado. Recientemente, uno de orgánicos que pueden ser
Jos granjeros se quejó de que el ganado medidos utilizando el pH.
no estaba ganando peso y creía que el Esto se controla durante
los tiempos de receso del
problema era el pastel de filtro que sistema.
habían adquirido de esta Compañía. LOWER Presión de línea de vacío
Inicialmente, todo Jo que se sabía que se encuentra debajo
del sistema del pastel de filtro era que los de la línea de fluido en el
registros históricos mostraban que en tambor giratorio.
años anteriores la cantidad de sólidos UPPER Presión de línea de vacío
era de aproximadamente 11.5%. En que se encuentra arriba de
la línea de fluido en el
aquel momento, los sólidos se encontra- tambor giratorio.
ban entre 8 y 9%. Se hicieron varias adi- THICK Grueso del pastel medido
ciones a la planta durante los años en el tambor.
intermedios y se incrementó significa- VARIDRIV Estructura utilizada para
tivamente el volumen de agua y de só- controlar la velocidad del
lidos, así como la temperatura del tambor. Puede ser
clarificador. Lo que realmente estaba diferente de DRUMSPD
debido a deficiencias
afectando a los sólidos era un misterio, mecánicas.
pero como la planta necesitaba desha- DRUMSPD Velocidad a la cual estaba
cerse de sus desperdicios sólidos para girando el tambor cuando
poder funcionar, tenía que hacerse algo se recogió el pastel de
y rápido. La única sólución práctica con- filtro. Medida con un
sistía en determinar alguna manera de cronómetro.
que el contenido de sólidos regresara a Los datos obtenidos al monitorear el
sus niveles originales. A los individuos proceso en varias ocasiones diariamen-
implicados en el proceso se les pidió que te durante 20 días se presentan en Ja
identificaran variables que pudieran ser página 855.
manipuladas y que, a su vez, pudieran Desarrolle un modelo de regresión
estar afectando el contenido de los sóli- para predecir el porcentaje de sólidos.
dos. Esta revisión dio como resultado Escriba un resumen ejecutivo al presi-
seis variables que podrían afectar el con- dente de la Compañía Mountain States
tenido de sólidos. Las variables son: Pota tos.

854 Capítulo 18 Modelos de regresión múltiple


Obs. SOLIOS PH LOWER UPPER THICK VARIDRIV DRUMSPD

1 9.7 3.7 13 14 0.2SO 6 33.00


2 9.4 3.8 17 18 0.87S 6 30.43
3 10.S 3.8 14 lS O.SOO 6 34.00
4 10.9 3.9 14 14 O.SOO 6 34.00
s 11.6 4.3 17 I8 0.37S 6 36.24
6 I0.9 4.2 16 17 O.SOO 6 31.76
7 11.0 4.3 I6 19 0.37S 6 34.00
8 10.7 3.9 1S 16 0.37S 6 32. I3
9 11.8 3.6 8 8 0.37S 6 37.00
10 9.7 4.0 18 18 O.SOO 6 36.00
11 11.6 4.0 I2 13 0.313 s 4S.OO
12 10.9 3.9 IS lS O.SOO s S0.00
13 10.0 3.8 17 I8 0.625 5 46.9I
14 10.3 3.8 13 14 0.500 4 S7.SO
I5 10.I 3.6 17 I7 0.62S 4 60.40
I6 9.9 3.8 17 18 0.500 4 53.14
17 9.S 3.5 17 18 0.625 6 :H.40
IS 10.5 3.8 IS 17 0.500 6 33.96
19 10.8 3.9 1S I7 0.750 6 3S.OO
20 10.4 3.9 14 IS O.SOO 6 3S.OO
21 10.9 4.0 1S 16 O.SOO 6 34.00
22 11.2 4.4 17 19 0.37S 6 34.00
23 9.S 3.8 17 17 O.SOO 6 33.49
24 10.7 3.9 lS 17 O.SOO 6 33.38
2S 10.1 3.8 lS 17 O.SOO 6 41.00
26 10.S 3.8 17 17 O.SOO 6 36.00
27 10.9 4.0 lS 17 0.250 6 34.00
28 15.S 4.3 13 1S 0.625 6 41.00
29 13.1 4.0 17 17 O.SOO 6 3S.00
30 11.0 4.0 14 1S 0.375 6 36.00
31 12.S 4.2 lS I7 0.313 6 37.72
32 11.7 4.2 14 14 0.2SO 6 36.00
33 11.9 4.4 lS 16 0.375 6 36.S2
34 11.7 3.4 8 10 0.313 6 38.08
35 17.8 4.:~ 12 12 03B 6 38.00
36 11.8 4.5 14 lS o.zso 6 33.00
37 10.0 3.7 12 13 0.250 s 48.00
38 10.3 3.7 lS IS 0.500 5 48.00
39 9.8 3.8 14 15 0.500 5 47.24
40 10.0 3.7 13 14 0.500 6 3 7 .00
41 10.6 4.1 14 lS 0.500 6 33.70
42 11.2 3.9 13 14 0375 6 38.26
43 I0.9 3.7 13 14 0.313 6 38.00
44 11.0 4.1 13 14 0.37S 6 37.00
45 11.0 4.1 14 15 0.375 6 38.00
46 11.7 4.5 14 14 0.2SO 6 :~6.26
47 11.8 4.4 13 I4 0.250 6 37.4S
48 I2.0 4.2 13 13 0.37S 6 38.00
49 11.8 4.6 14 I4 0.37S 6 36.90
50 I 1.1 4.0 14 lS 0.500 6 37.00
SI I 1.6 3.9 14 14 0.500 6 37.SO
52 11.0 4.0 14 IS 0.500 6 36.00
53 I 1.2 3.9 15 IS 0.313 6 35.00
54 11.0 4.2 I4 I4 0.375 6 37.00
Fuente: Midwest Society for Case Research, 1994.

Estudio de caso 1: La compañía Mountain States Potato 85 5


No tas finales
l. La relación entre t y F señalada en la ecuación (18.9) es 3. El logaritmo natural, normalmente abreviado como In, es
válida cuando tes una prueba de dos extremos. el logaritmo base e, una constante matemática cuyo valor
2. Si los dos grupos tienen pendientes diferentes, es necesario aproximado es 2.71828.
incluir en el modelo un término de interacción (véase sec-
ción 18.13 y referencia 4 ).

Referencias
l. Andrews, D. F. y D. Pregibon, "Finding the Outliers That 11. Marquardt, D. W. y R. D. Sncc, "Ridge Regression in
Matter", fu11mal uf t/Je Royal Statistical Society, Ser. B., 1978, Practice", T/1e American St11tisticia11, 1975, vol. 29, pp. 3-
vol. 40, pp. 85-93. 19.
2. Atkinson, A. C., "Robust and Diagnostic Regression 12. Norusis, M. J. SPSS fin Wi11dows Base Systems User\ Cuide
Analysis", Cu1111111111irntions in Statistics, 1982, vol. 11, pp. Rr:lease 5.0 (Chicago, IL: SPSS, lnc., 1992).
2559-2572. 13. Pregibon, D., "Logistic Regression Diagnostics" , A111wls of
3. Belsley, D. A., E. Kuh y R. Welsch, Regression Diagnustics: Statistics, 1981, vol. 9, pp. 705-724.
Identifying Influentiol Data al/(/ Somas of Col/inearity 14. Ryan, B. F. y B. L. Joiner, Mi11itab St11de11t Handbook, 3a. ed.
(Nutva York: John Wiley, 1980). (North Scituate, MA: Duxbury Press, 1994).
4. Berenson, M. L., D.M. Levine y M. Goldstein, lntermediate 15. SAS Language allll Procrdures Usagr, Versión 6 (Cary, NC:
Statistical Metlwds al1{f Applirntions: A Computer Package SAS lnstitute, 1988).
Approach, (Englewood Cliffs, NJ: Prentice-Hall, 1983).
16. Snee, R. D., "Sorne Aspects of Nonorthogonal Data
5. Cook, R. D. y S. Weisberg, Residuals and I11(111e11ce in Analysis, Part l. Developing Prediction Equations", founwl
Regressiu11 (Nueva York: Chapman and Hall, 1982). of Quality Tec/1110/ogy, 1973, vol. 5, pp. 67-79.
6. Dillon, W.R. y M. Goldstein, Multivariate Anolysis: Methods 17. STATISTIX Usa\ G11idr (Tallahassee, FL: Analytical
and Applications, Za. ed. (Nueva York: John Wiley, 1988). Software, 1992).
7. Hoaglin, D. C. y R. Welsch, "The Hat Matrix in Regression 18. Tukey, J. W. "Data Analysis, Computation and
and ANOVA", The American Statisticia11, 1978, vol. 32, pp. Mathematics", Quaterly foumal of Applird Mat/Jrmatics,
17-22. 1972, vol. :rn, pp. 51-65.
8. Hocking, R. R., "Developments in Linear Regression 19. Tukey, J. W., Explomtory Data Analysis (Reading, MA:
Methodology: 1959-1982" Tecl1110111etrics, 1983, vol. 25, Addison-Wesley, 1977).
219-250.
20. Velleman, P. F y R. Welsch, "Efficient Computing of
9. Hosmer, D., y S. Lemeshow, Applied Logistic Regressiu11 Regression Diagnostics" , The American Statistida11, 1981,
(Nueva York: john Wiley, 1989). vol. 35, pp. 234-242.
10. Marquardt, D. W., "You Should Standardize the Predictor 21. Weisberg, S., Applied Linear Regressiu11 (Nueva York: John
Variables in Your Regression Models", análisis de "A Wiley, 1980).
Critique of Sorne Ridge Regression Methods" por G. Smith
y F. Campbell, fournal uf t/1e American Stotistical Associatiun,
1980, vol. 75, pp. 87-91.

8S6 Chapter 18 Modelos de regresión múltiple


capítulo

Pronóstico de series
de tiempo
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Introducir una variedad de modelos
de series de tiempo para fines de
CAPÍTULO pronóstico.

857
j C·JI 1 Introducción
En los dos capítulos anteriores estudiamos el tema del análisis de regresión como
una herramienta para la construcción de modelos y la predicción. A este respecto,
el análisis de regresión brinda una útil guía para la toma de decisiones adminis-
trativas. En el presente capítulo desarrollaremos otros métodos de predicción
empresarial. Al término de este capítulo, el lector deberá ser capaz de:
l. Entender los componentes del modelo clásico de series temporales.
2. Predecir el valor futuro de una serie de tiempo utilizando los métodos
de mínimos cuadrados.
3. Utilizar los métodos del suavizado exponencial y de los promedios
móviles.
4. Utilizar los modelos de predicción de Holt-Winters y el autorregresivo
S. Utilizar la desviación absoluta media (MAD, por sus siglas:
mean absolute deviation) para predecir errores.
6. Utilizar, con datos mensuales, la proyección de la tendencia de mínimos
cuadrados y los índices estacionales con fines de predicción.

1C·jj La importancia del pronóstico empresarial

19.2.1 Introducción a la predicción


Puesto que las condiciones económicas y empresariales varían con el tiempo, los
líderes empresariales deben encontrar formas de mantenerse informados acerca de
los efectos que tales cambios tendrán en sus operaciones. Una técnica que los
líderes empresariales pueden utilizar como una ayuda en la planificación del nivel
de necesidades operativas futuras es la predicción. Aunque se han diseñado
numerosos métodos de predicción, todos ellos tienen un objetivo común,
hacer predicciones de sucesos futuros, de modo que estas proyecciones puedan,
después, ser incorporadas al proceso de toma de decisiones. Como ejemplo de lo
anterior, el gobierno debe ser capaz de predecir cuestiones como el desempleo,
la inflación, la producción industrial y los ingresos por impuestos provenientes de
personas físicas y morales, con el fin de formular sus políticas; y el departamento
de comercialización de una empresa grande que vende productos al menudeo debe
ser capaz de predecir la demanda de los productos, los ingresos por ventas, las pre-
ferencias de los consumidores, el inventario, etc., con el propósito de tomar deci-
siones oportunas respecto a sus estrategias de publicidad.

19.2.2 Tipos de métodos de predicción


Básicamente, existen dos planteamientos para la predicción: cualitativa y rnantita-
tiva. Los métodos de predicción cualitativa son especialmente importantes cuando
no se dispone de datos históricos, como sería el caso, por ejemplo, si el departa-
mento de comercialización deseara predecir las ventas de un producto nuevo. Los
métodos de predicción cualitativos se consideran altamente subjetivos y sujetos a
juicios de opinión. Entre éstos se encuentra el método de listado de factor, la opinión
experta y la técnica Delp/Ji (véase referencia 4). Por el otro lado, los métodos de
predicción cuantitativa hacen uso de los datos históricos. El objetivo es estudiar los
sucesos pasados con el propósito de tener un mejor entendimiento de la estructura

858 Capítulo 19 Pronóstico de series de tiempo


subyacente de los datos y, en consecuencia, proporcionar los medios necesarios
para predecir los sucesos futuros.
Los métodos de predicción cuantitativa pueden clasificarse en dos tipos: de se-
ries de tiempo y causales. Los métodos de predicción causal implican la determi-
nación de factores que se relacionan con la variable que se va a predecir. Entre tales
factores se tienen el análisis de regresión múltiple con variables retrasadas, cons-
trucción de modelos econométricos, análisis de indicadores líderes, índices de
difusión y otros barómetros econométricos (véanse referencias 5 y 6). En el otro
extremo, los métodos de predicción de series de tiempo implican la proyección de
valores futuros de una variable, basándose por completo en observaciones pasadas
y presentes de dicha variable. Son estos últimos métodos los que estudiaremos en
este capítulo.

19.l.J Introducción al análisis de series de tiempo


Una serie de tiempo es un conjunto de datos numéricos que se obtienen
en periodos regulares a través del tiempo.
Por ejemplo, los precios de cierre diarios de un tipo particular de acciones de la
Bolsa de Valores de Nueva York constituyen una serie de tiempo. Otros ejemplos
de series de tiempo en economía o en los negocios son la publicación mensual del
índice de precios al consumidor; el estado trimestral del producto nacional bruto
(PNB); y los ingresos totales por ventas registradas an11alme11te, correspondientes a
una empresa en particular. Las series de tiempo, sin embargo, no están restringidas
a datos sobre cuestiones económicas y empresariales. Por ejemplo, el decano de
estudiantes de alguna universidad podría desear hacer una investigación sobre si
existe alguna señal de inflación persistente de calificaciones durante la década
pasada. Para llevar a efecto la investigación se puede examinar, anualmente, la lista
del decano acerca del porcentaje de estudiantes del primer y segundo años, o se
puede estudiar el porcentaje de estudiantes que se graduaron con honores.

19.l.4 Objetivos del análisis de series temporales


La suposición básica que subyace en el análisis de series temporales es que los factores
que han ocasionado patrones de actividad en el pasado y en el presente conti-
nuarán haciéndolo, más o menos de la misma forma, en el futuro. Por consiguiente,
los principales objetivos del análisis de series temporales consisten en identificar y
aislar tales factores de influencia con propósitos de hacer predicciones (pronósti-
cos), así como para efectuar una planeación y un control administrativos.

i C·jl Factores componentes del modelo


multiplicativo clásico de series temporales

19.J. 1 Introducción
Para lograr los objetivos del análisis de series de tiempo, se han diseñado muchos
modelos matemáticos para explorar la fluctuación entre los factores componentes
de una serie de tiempo. Tal vez el más esencial es el modelo multiplicativo
clásico para los datos registrados anual, trimestral o mensualmente. En el pre-
sente texto será este método el que estudiaremos.

Factores componentes del modelo multiplicativo clásico de series temporales 859


íil 22
~
~ 20
"O
Cll 18
"O
¡g 16
e
g 14
.E 12
Cll
"O
"'
~ 10
·E· 8
e
~ 6
"'
<ll
Q)
4
e 2
"' o
.l'!l
e
Cll
> 70 72 74 76 78 80 82 84 86 88 90 92
Año

Figura 1SI. I
Ventas netas (en miles de millones de dólares) de la Compañía Eastman Kodak ( 1970-1992).
Fuente: Moody's Handbook o(Common Stocks, 1980, 1989, 1993.

Para mostrar el modelo multiplicativo clásico de series de tiempo, en la figura


19.1, se presentan las ventas netas correspondientes a la Compañía Eastman Kodak
desde 1970 a 1992. Si podemos caracterizar estos datos de serie de tiempo, es claro
que las ventas netas han mostrado una tendencia a incrementarse en este periodo
de 23 años. Tal tendencia o impresión a largo plazo (de movimientos a la baja y a
la alta) se conoce como tendencia.
Sin embargo, la tendencia no es el único factor componente que influye a estos
datos en particular o a otras series de tiempo anuales. También se encuentran pre-
sentes en los datos otros dos factores, el componente cíclico y el componente irre-
gular. El componente cídico representa la oscilación o los movimientos a la baja
y a la alta que se dan a lo largo de la serie. Los movimientos cíclicos varían en lon-
gitud, por lo general duran de dos a 10 años; difieren en intensidad o en amplitud;
y a menudo están correlacionados con un ciclo de negocios. En algunos años los
valores serán más altos de lo predicho por una simple línea de tendencia (es decir,
se encuentran cercanos o en el pico de un ciclo). Cualquier dato observado que no
siga la curva de tendencia modificada por el componente cíclico es una señal del
componente irregular o aleatorio. Cuando los datos se registran mensual o
trimestralmente, además de la tendencia cíclica y los componentes irregulares, se
debe tomar en cuenta un tercer componente, conocido como el factor estacional
(véase sección 19.9).

19.3.2 El modelo multiplicativo clásico


de las series temporales
Hasta este momento hemos mencionado que existen tres o cuatro factores compo-
nentes, respectivamente, que influyen en una serie de tiempo económica o de ne-
gocios. Éstos se resumen en la tabla 19.1 de la página 861. El modelo multiplicativo
clásico de series temporales establece que cualquier valor observado en una serie de
tiempo es el producto de los factores de influencia; esto es, cuando los datos se obtienen
anualmente, una observación Y¡ registrada en el año i puede expresarse como

(19.1)

860 Capítulo 19 Pronóstico de series de tiempo


Tabla 19.1 Factores que influyen sobre los datos de series de tiempo.
Clasificación
Componente del componente Definición Razón por la que influye Duración
Tendencia Sistemático General o persistente, Cambios en tecnología, Varios años
patrón de movimiento población, costo, valor
hacia arriba o hacia
abajo de largo plazo
Estacional Sistemático Fluctuaciones periódicas Condiciones En un lapso de 12
bastante regulares que se climatológicas, costumbres meses (o cada mes o
presentan dentro de sociales y cada cuatro meses)
cada periodo de 12 religiosas
meses, año tras año
Cíclico Sistemático Oscilaciones repetidas Interacción de Por lo general de dos a
hacia arriba y hacia numerosas 10 años, con
abajo o movimientos combinaciones de intensidad no uniforme
que pasan por cuatro factores que influyen para un ciclo completo
fases: desde un pico sobre la economía
(prosperidad) hasta una
contracción (recesión),
luego hasta un valle
(depresión) y finalmente
hacia una expansión
(recuperación o
crecimiento)
Irregular No sistemático Las fluctuaciones Variaciones aleatorias en Corta duración y no
erráticas o "residuales" los datos o debidas a repetitivos
en una serie de tiempo sucesos no previstos
que existen después de como huelgas,
tomar en cuenta los huracanes, inundaciones,
efectos sistemáticos: asesinatos políticos, etc.
tendencia, estacional y
ciclíca

en la que, en el año i,
T¡ = valor del componente de tendencia
C¡ = valor del componente cíclico
I¡ = valor del componente irregular
Por otra parte, cuando los datos se obtienen de manera trimestral o mensual,
una observación Y¡ registrada en el periodo i puede estar dada como

(19.2)

en la que, en el periodo i, T¡, C¡ e I¡ son los valores de los componentes de tenden-


cia, cíclico e irregular, respectivamente, y S¡ es el valor del componente estacional.
El primer paso de un análisis de series de tiempo consiste en graficar los datos
y observar sus tendencias a través del tiempo. Primero debemos determinar si
parece haber un movimiento a largo plazo hacia arriba o hacia abajo en la serie (es
decir, una tendencia) o si la serie parece oscilar alrededor de una línea horizontal,
a través del tiempo. Si este último parece ser el caso (esto es, no existe un movi-
miento a largo plazo hacia arriba o hacia abajo), entonces debe emplearse el
método de promedios móviles o el de suavizado exponencial, para suavizar la serie
y proporcionarnos una impresión global a largo plazo (véase sección 19.4). Por
otro lado, si en realidad se encuentra presente una tendencia, se puede considerar
una variedad de métodos de predicción de series temporales (véanse secciones 19.5
a 19.8), cuando se trata de datos anuales. Para el caso de datos de serie de tiempo
mensuales, el proceso de predicción será desarrollado en la sección 19.9.

Factores componentes del modelo multiplicativo clásico de series temporales 86 1


1C·! i Suavizado de las series temporales anuales:
promedios móviles y suavizado exponencial
La tabla 19.2 presenta las ventas anuales de fábrica, a nivel mundial, de automó-
viles, camiones y autobuses fabricados por la General Motors Corporation durante
el periodo de 23 años, comprendido entre 1970 y 1992, y en la figura 19.2 se tiene
una gráfica de serie de tiempo correspondiente a tales datos. Cuando analizamos
datos anuales como los presentes, nuestra impresión visual de las tendencias glo-
bales a largo plazo o movimientos de tendencias en la serie se ve oscurecida por la
cantidad de variación existente de un año a otro. Se hace, entonces, difícil juzgar
si realmente existe en la serie algún efecto de tendencia hacia arriba o hacia abajo
a largo plazo.
En situaciones como éstas, puede utilizarse el método de promedios móviles
o el de suavizado exponencial para suavizar una serie y, en consecuencia, darnos una
impresión global del patrón de movimiento en los datos respecto al tiempo.

Tabla 151.l Ventas de fábrica (en millones de


unidades*) de la General Motors Corp.
( 1970-1992).

Año Ventas de fábrica Año Ventas de fábrica


1970 5.3 1982 6.2
1971 7.8 1983 7.8
1972 7.8 1984 8.3
1973 8.7 1985 9.3
1974 6.7 1986 8.6
1975 6.6 1987 7.8
1976 8.6 1988 8.1
1977 9.1 1989 7.9
1978 9.5 1990 7.5
1979 9.0 1991 7.0
1980 7.1 1992 7.2
1981 6.8
Fuente: Moody's Handbook ofCommon Stocks, 1980, 1989, 1993.
•oe todas las fuentes, incluyendo autobuses de pasajeros, camiones y
plantas extranjeras.

19.4.1 Promedios móviles


El método de promedios móviles para suavizar una serie de tiempo es altamente
subjetivo y dependiente de la longitud del periodo elegido para la construcción
de los promedios. Para eliminar las fluctuaciones cíclicas, el periodo escogido debe
ser un valor entero que corresponda a la duración promedio estimada de un ciclo
(o un múltiplo de éste) en la serie.
Pero, ¿qué son los promedios móviles y cómo se calculan?
Los promedios móviles para un periodo elegido de longitud L consisten
en una serie de medias aritméticas calculadas en el tiempo de tal modo que
cada media se calcula para una secuencia de valores observados que tienen
esa longitud particular, L.
Por ejemplo, los promedios móviles de cinco años consisten en una serie de
medias obtenidas en el tiempo a través del cálculo del promedio de secuencias
consecutivas que contienen cinco valores observados. En general, para cualquier

862 Capítulo 19 Pronóstico de series de tiempo


10

Q)

al
"O
·e:
::::1
Q)
"O
(/)
Q)
e:
~
.E
e:
~
~

~
Q)
"O
(/)

~Q)
>
ro n ~ m ~ oo ~ M ~ ~ oo ~
Año

Figura 19.2
Ventas de fábrica (en millones de unidades) de la General Motors Corp. (1970-1992).
Fuente: Los datos fueron tomado de la tabla 19.2.

serie compuesta den años, un promedio móvil de longitud L (dado por el símbolo
MA;(L) puede calcularse al año i de la forma siguiente:

l (L-1)/ 2

MA¡(L) = L _Lyi+t (19.3)


t =(1-L)/2

en la que L = un número impar de años


y

.= (L-1)
1 - + (L-1) +
2- 1, - 2- 2, .. . ,n - (L-1)
-2-

Para ilustrar el uso de la ecuación (19.3), suponga que deseamos calcular los
promedios móviles de cinco años de una serie que contienen= años. Puesto que
L = 5, entonces i = 3, 4, 5, 6, 7, 8, 9. Por consiguiente tenemos
11
MA 3 (5) = (1/5) (Y1 + Y2 + Y3 + Y4 + Y5 )
MA 4 (5) = (1/5) (Y2 + Y3 + Y4 + Y5 + Y6 )
MA 5 (5) = (1/5) (Y3 + Y4 + Y5 + Y6 + Y7)
MA 6 (5) = (1/5) (Y4 + Y5 + Y6 + Y7 + Y8)
MA 7 (5) = (1/5) (Y5 + Y 6 + Y 7 + Y8 + Y 9 )
MA 8 (5) = (1/5) (Y6 + Y7 + Y8 + Y9 + Y10)
MA9(5) = (1/5) (Y7 + Ys + Y9 + Y10 + Y11 )

Suavizado de las series temporales anuales 863


Observamos que cuando el periodo escogido de longitud L es un número im-
par, el promedio móvil MA;(L) al año i está centrado en i, el año central de la
secuencia de L valores anuales utilizados para calcularlo. Así pues, con L = 5,
MA 3 (5) está centrado en el tercer año, MA 4 (5) está centrado en el cuarto año, ... , y
MA 9 (5) está centrado en el noveno año. Observamos también que ningún prome-
dio móvil puede obtenerse para los primeros (L - 1)/2 años o para los últimos
(L - 1)/2 años de la serie. Por lo tanto, en un promedio móvil de cinco años, no
podemos hacer cálculos para los dos primeros años o los últimos dos años de la
serie.
Echemos ahora otro vistazo a los datos correspondientes a las ventas de fábrica
de la empresa General Motors Corporation para el periodo de 23 años compren-
dido entre 1970 y 1992. En la tabla 19 .3 se presentan los datos anuales junto con
los cálculos correspondientes a promedios móviles de tres años y de siete años.
Estas dos series construidas se grafican en la figura 19.3 con los datos originales
(véase página 865).
En la práctica, para calcular los promedios móviles de tres años, primero obte-
nemos una serie de totales móviles de tres años como se indica en la columna (3)
de la tabla 19.3 y después dividimos cada uno de estos totales entre tres. Los resul-
tados se dan en la columna (4). Por ejemplo, puesto que nuestra serie de tiempo
observada fue registrada por primera vez en 1970, el primer total móvil de tres años
consiste en la suma de los tres primeros valores anuales registrados: 5.3, 7.8 y 7.8.
Este total móvil, 20.9, se centra entonces de modo que el registro se hace para
1971. Para obtener el total móvil correspondiente al año 1972, que consiste en los
datos correspondientes a las ventas anuales observadas para los años 1971, 1972 y
1973, agregamos el siguiente valor observado de la serie de tiempo (año 1973) al

Tabla 19.l Promedios móviles de tres años y de siete años de las ventas de fábrica en
la General Motors Corp. ( 1970-1992).
(2) (3) (4) (5) (6)
(1) Venta de fábrica Total móvil Promedio móvil Total móvil Promedio móvil
Año (en millones) de 3 años de 3 años de 7 años de 7 años
1970 5.3
1971 7.8 20.9 7.0
1972 7.8 24.3 8.1
1973 8.7 23.2 7.7 51.5 7.4
1974 6.7 22.0 7.3 55.3 7.9
1975 6.6 21.9 7.3 57.0 8.1
1976 8.6 24.3 8.1 58.2 8.3
1977 9.1 27.2 9.1 56.6 8.1
1978 9.5 27.6 9.2 56.7 8.1
1979 9.0 25.6 8.5 56.3 8.0
1980 7.1 22.9 7.6 55.5 7.9
1981 6.8 20.l 6.7 54.7 7.8
1982 6.2 20.8 6.9 54.5 7.8
1983 7.8 22.3 7.4 54.1 7.7
1984 8.3 25.4 8.5 54.8 7.8
1985 9.3 26.2 8.7 56.l 8.0
1986 8.6 25.7 8.6 57.8 8.3
1987 7.8 24.5 8.2 57.5 8.2
1988 8.1 23.8 7.9 56.2 8.0
1989 7.9 23.5 7.8 54.1 7.7
1990 7.5 22.4 7.5
1991 7.0 21.7 7.2
1992 7.2
Fuente: Los datos fueron tomados de la tabla 19 .2.

864 Capítulo 19 Pronóstico de series de tiempo


10

Datos originales
promedio móvil de tres años
promedio móvil de siete años

70 72 74 76 78 80 82 84 86 88 90 92
Año

Figura 19.l
Gráfica de los promedios móviles de tres y siete años.
Fuente: Los datos fueron tomados de la tabla 19.3.

total móvil anterior y luego se resta el primer valor (el más antiguo) de la serie. Este
proceso continúa de manera que el total móvil de tres años para cualquier año en
particular i de la serie representa la suma del valor observado para el año i, junto
con los valores observados correspondientes al año que le precede y al año que le
sigue. Por otro lado, con totales móviles de siete años, el resultado calculado y re-
gistrado para el año i consiste en el valor observado en la serie de tiempo corres-
pondiente al año i más los tres valores observados que le preceden y los tres valores
observados que le siguen. Para "mover" el total de siete años de un año al siguiente,
agregamos al total anterior el siguiente valor observado en la serie de tiempo y
eliminamos el valor más antiguo que hubiera aparecido en el total anterior. Este
proceso continúa a través de la serie. Los promedios móviles de siete años se
obtienen, entonces, dividiendo la serie de totales móviles entre siete.
Observamos en las columnas (3) y (4) de la tabla 19.3 que, al obtener los
promedios móviles de tres años, no se puede calcular ningún resultado para el
primer y último valores observados en la serie de tiempo. Además, como se ve en
las columnas (5) y (6), cuando calculamos los promedios móviles de siete años no
se tienen resultados para los tres primeros valores observados ni para los tres últi-
mos. Esto es así porque el primer promedio móvil de siete años para los datos que
se tienen consiste en las ventas de fábrica durante los años de 1970 a 1976, y está
centrado en 1973, y el último total móvil consiste en las ventas de fábrica regis-
tradas desde 1986 hasta 1992, y está centrado en 1989.
En la figura 19 .3 podemos ver que los promedios móviles de siete años sua-
vizan la serie mucho más que los promedios móviles de tres años, ya que el periodo
de los primeros tiene una mayor duración. Desafortunadamente, sin embargo,
como ya lo hicimos notar, cuanto más largo sea el periodo, menor será el número
de valores de promedio móvil que se pueden calcular y graficar. Por consiguiente,
la selección de promedios móviles con periodos de longitud mayores a siete años
es, por lo general, no deseable puesto que habrá demasiados puntos de datos que
faltan al inicio y al final de la serie, haciendo que sea más dificil de obtener una
impresión global de la serie completa.

Suavizado de las series temporales anuales 865


19.4.2 Suavizado exponencial
El suavizado exponencial es otra técnica que puede utilizarse para suavizar una
serie de tiempo y, por consiguiente, nos proporciona una impresión de los movi-
mientos globales a largo plazo de los datos. Además, el método de suavizado expo-
nencial puede utilizarse para obtener predicciones a corto plazo (un periodo hacia
el futuro) para series como las presentadas en la figura 19.2 (página 863), para las
cuales se puede cuestionar sobre qué tipo de efecto de tendencia a largo plazo, si la
hay, está presente en los datos. A este respecto, la técnica posee una ventaja prin-
cipal en relación al método de promedios móviles.
El método de suavizado exponencial deriva su nombre del hecho de que nos
proporciona un promedio móvil pesado o ponderado exponencialmente a través de
la serie de tiempo; esto es, a lo largo de la serie cada cálculo de suavizado o pre-
dicción depende de todos los valores observados anteriormente. Ésta es otra ven-
taja respecto al método de promedios móviles, que no toma en cuenta, de esta
manera, todos los valores observados. Con el suavizado exponencial, los pesos
asignados a los valores observados disminuyen con el tiempo, de modo que
cuando se hace un cálculo, el valor observado más reciente recibe el mayor peso,
el valor observado anterior a éste recibe el segundo peso más alto y así sucesiva-
mente, hasta que el valor observado inicialmente recibe el peso más bajo.
Aunque la magnitud de trabajo que se deduce con la descripción que acabamos
de hacer puede parecer formidable, deberíamos darnos cuenta que los métodos de
suavizado exponencial y de promedios móviles, por lo general, se encuentran
disponibles entre los procedimientos proporcionados en muchos paquetes de soft-
ware estadístico (véanse, por ejemplo, referencias 8, 9 y 10).
Si podemos centrar nuestro interés en los aspectos suavizantes de la técnica (en
vez de considerar los aspectos de predicción), las fórmulas desarrolladas para la téc-
nica del suavizado exponencial de una serie de tiempo en cualquier periodo i están
basadas únicamente en tres términos: el valor observado en el presente en la serie
de tiempo, Y;, el valor suavizado de manera exponencial calculado anteriormente,
E;. 1, y algún peso o coeficiente de suavizado asignado de manera subjetiva, W. Así
pues, para suavizar una serie de tiempo en cualquier periodo i tenemos la siguiente
expresión: 1

E; = WY; + (1 - W)E;_ 1 (19.4)

en la que E; = valor de la serie suavizada exponencialmente que se calcula en el


periodo i
E; _ 1 = valor de la serie suavizada exponencialmente ya calculado en el
periodo i - 1
Y¡ = valor observado de la serie de tiempo en el periodo i
W = peso o coeficiente de suavizado que se asigna de manera subjetiva
(con O< W < 1)

La selección de un coeficiente de suavizado o peso que debemos asignar a


nuestra serie de tiempo es bastante importante, puesto que éste afectará nuestros
resultados. Desafortunadamente, esta selección es demasiado subjetiva. Sin em-
bargo, tomando en cuenta la habilidad para suavizar series, podemos observar en
las figuras 19.3 (página 865) y 19.4 (página 868) que una serie de promedios
móviles de L términos está relacionada con una serie suavizada exponencialmente
con peso W de la siguiente manera:

866 Capítulo 19 Pronóstico de series de tiempo


W=-2- (19.5)
L +1

L = -2 -1 (19.6)
w

De las ecuaciones (19.5) y (19.6) observamos que respecto a la habilidad para


suavizar, se encontraron similitudes entre la serie de tres años de promedios mó-
viles (figura 19 .3) y la serie suavizada exponencialmente que tiene un peso W = .SO
(véase figura 19.4). Además, observamos que la serie de promedios móviles de siete
años (figura 19.3) corresponde a la serie suavizada exponencialmente que tiene un
peso W = .25 (véase figura 19.4). Al examinar cómo las dos series suavizadas (una
con W = .25 y la otra con W = .50) se ajustan a los datos observados en la figura
19 .4, podemos darnos cuenta que la elección de un coeficiente de suavizado par-
ticular, W, depende del propósito del usuario. Si deseamos solamente suavizar una
serie mediante la eliminación de las variaciones cíclicas e irregular no deseadas,
debemos seleccionar un valor pequeño de W (cercano a cero). Por el otro lado, si
nuestro objetivo es hacer predicciones, deberíamos seleccionar un valor más grande
de W (cercano a uno). En el primer caso, las tendencias globales a largo plazo de la
serie serán evidentes; en el segundo caso, las direcciones futuras a corto plazo
pueden predecirse de una manera más adecuada.

e Suavizando En la tabla 19.4 se presentan los valores suavizados exponen-


cialmente (utilizando coeficientes de suavizado W = .50 y W = .25) para las ventas
de fábrica anuales de la General Motors Corporation en un periodo de 23 años, de
1970 hasta 1992. Como se indicó anteriormente, las dos series suavizadas están
graficadas en la figura 19.4 de la página 868, junto con los datos originales de la
serie de tiempo.
Para mostrar los cálculos que se tienen que hacer para obtener los valores
suavizados exponencialmente como se muestran en la tabla 19.4 de la página 868,
consideremos la serie que tiene un coeficiente de suavizado W = .25. Como punto
de inicio podemos utilizar el valor observado primeramente, Y1970 = 5.3 como
nuestro primer valor suavizado (E 1970 = 5.3). Ahora, utilizando el valor observado
de la serie de tiempo correspondiente a 1971 (Y 1971 = 7.8), podemos suavizar la
serie para el año 1971 calculando

E¡971 = WY1971 + (1 - W)E¡970

= (.25)(7.8) + (.75)(5.3) = 5.9 millones


Al suavizar la serie para el año 1972, tenemos

E19n = WY1972 + (1 - W)E¡971


= (.25)(7.8) + (.75)(5.9) = 6.4 millones

Suavizado de las series temporales anuales 867


Tabla 19.4 Serie suavizada exponencialmente de
las ventas de fábrica de la General
Motors Corp. ( 1970-1992).
Venta de fábrica
Año (en millones) W=.50 W=.25
1970 5.3 5.3 5.3
1971 7.8 6.6 5.9
1972 7.8 7.2 6.4
1973 8.7 7.9 7.0
1974 6.7 7.3 6.9
1975 6.6 7.0 6.8
1976 8.6 7.8 7.3
1977 9.1 8.4 7.7
1978 9.5 9.0 8.2
1979 9.0 9.0 8.4
1980 7.1 8.0 8.1
1981 6.8 7.4 7.7
1982 6.2 6.8 7.4
1983 7.8 7.3 7.5
1984 8.3 7.8 7.7
1985 9.3 8.6 8.1
1986 8.6 8.6 8.2
1987 7.8 8.2 8.1
1988 8.1 8.1 8.1
1989 7.9 8.0 8.1
1990 7.5 7.8 8.0
1991 7.0 7.4 7.8
1992 7.2 7.3 7.7
Fuente: Los datos fueron tomados de la tabla 19.2.

10

Q)
1'
«l
9
1'
·e:
:;;¡
Q) 8
1'
"'
Q)
e:
g 7
.E
e:
~ 6
«l
t.)

~ 5 Datos originales
~ W=.50
Q)
1' W=.25
~"'
4
Q)
> o
70 72 74 76 78 80 82 84 86 88 90 92
Año

Figura 19.4
Gráfica de la serie suavizada exponencialmente (W = .50 y W = .25).
Fuente: Los datos fueron tomados de la tabla 19.4.

868 Capítulo 19 Pronóstico de series de tiempo


Al suavizar la serie para el año 1973, tenemos

Ei973 = WY1973 + (1 - W)E1972


= (.25)(8.7) + (.75)(6.4) = 7.0 millones
Este proceso continúa hasta que se han obtenido los valores suavizados exponen-
cialmente para los 23 años de la serie, como se muestran en la tabla 19.4 y en la
figura 19 .4.
e Predicción Para utilizar el promedio móvil pesado exponencialmente con
fines de predicción, en lugar de usarlo con fines de suavizado, tomamos el valor
suavizado de nuestro periodo actual (digamos el periodo i) como nuestra esti-
mación proyectada del valor observado de la serie de tiempo en el siguiente pe-
riodo, i + 1, esto es:

A
Y¡+1 =E; (19.7)

Por ejemplo, para predecir el número de unidades vendidas en las plantas de la Ge-
neral Motors Corporation durante el año 1993, utilizaríamos el valor suavizado
correspondiente al año 1992 como su estimación. De la tabla 19.4, para un coefi-
ciente de suavizado de W =.SO, esa proyección es de 7.3 millones de unidades.
Cuando ya se tienen disponibles los datos observados correspondientes al año
1993, podemos utilizar la ecuación (19.4) para hacer la predicción correspondiente
al año 1994, obteniendo el valor suavizado para 1993 de la siguiente manera:

Ei993 = WY1993 + (1 - W)E1992


valor suavizado actual: = (W)(valor observado actual)
+ (1 - W)(valor suavizado anterior)

o, en términos de la predicción:
A A
Y1994 = WY1993 + (1 - W)Y1993
predicción nueva = (W)(valor observado actual)
+ (1 - W)(predicción actual)

Problemas de la sección 19.4


19.1 Los datos que se encuentran en la parte superior de la página 870 representan
el ingreso mediano de las familias en Estados Unidos (en dólares de 1990) para
todas las razas, blancos y negros, correspondientes al periodo de 14 años
comprendido entre 1977 y 1990. Para cada uno de los tres conjuntos de datos
(todas las razas, blancos y negros):
(a) Grafique los datos en un diagrama.
(b) Ajuste un promedio móvil de tres años a sus datos y ·grafique los resultados
en el diagrama.
(c) Utilizando un coeficiente de suavizado de O.SO, suavice exponencialmente
la serie y grafique los resultados obtenidos en el diagrama.
(d) ¿Cuál es su predicción suavizada exponencialmente para la tendencia en
1991?

Suavizado de series temporales anuales 869


(e) f.t'iil'l!·i·l·P. Acuda a la biblioteca y registre el valor real correspondiente a
1991 tomado de la tabla publicada por el Departamento de Comercio de
Estados Unidos. Compare los resultados obtenidos con la predicción que
hizo en el inciso (d). Explique los resultados.
(f) f·f'iiM.J.¡,p. Escriba una carta a uno de los senadores de Estados Unidos
donde le explique la tendencia en el ingreso mediano familiar para cada
uno de los dos grupos y todas las razas combinadas para el periodo com-
prendido entre 1970 y 1990.

Ingreso familiar mediano en Estados Unidos


(1977-1990).
Año Todas las razas Blancos Negros
1977 34,528 36,104 20,625
1978 35,361 36,821 21,808
1979 35,262 36,796 20,836
1980 33,346 34,743 20,103
1981 32,190 33,814 19,074
1982 31,738 33,322 18,417
1983 32,378 33,905 19,108
1984 33,251 34,827 19,411
1985 33,689 35,410 20,390
1986 35,129 36,740 20,993
1987 35,632 37,260 21, 177
1988 35,565 37,470 21,355
1989 36,062 37,919 21,301
1990 35,353 36,915 21,423
Fuente: Departamento de Comercio de Estados Unidos,
Oficina del Censo. Tabla B-28.

19.2 Los datos de la siguiente tabla representan las ganancias anuales por acción de
la empresa TRW !ne. durante el periodo de 23 años comprendido entre 1970 y
1992.

Ganancias por acción en la TRW lnc. ( 1970-1992).


Ganancias Ganancias
por por
Año acción Año acción
1970 2.39 1982 5.49
1971 1.85 1983 5.53
1972 2.22 1984 G.66
1973 2.95 1985 3.79
1974 2.76 1986 7.25
1975 3.08 1987 4.01
1976 4.02 1988 4.23
1977 4.77 1989 4.31
1978 5.42 1990 3.39
1979 5.86 1991 2.30
1980 6.15 1992 :~.09
1981 6.60
Fuente: Muody's Handbuuk o( Cummon Stucks, 1980, 1989, 1993.

(a) Grafique los datos en un diagrama.


(b) Ajuste un promedio móvil de tres años a sus datos y grafique los resultados
en el diagrama.
(e) Utilizando un coeficiente de suavizado de .50, suavice exponencialmente
la serie y grafique los resultados obtenidos en el diagrama.

870 Capítulo 19 Pronóstico de series de tiempo


(d) ¿Cuál es su predicción suavizada exponencialmente para la tendencia en 1993?
e 19.3 Los datos presentados en la siguiente tabla representan el número anual de
empleados (en miles) de una compañía suministradora de petróleo,
correspondientes al periodo comprendido entre 1974 y 1993.

Número de empleados (miles).

Año Número Año Número Año Número


1974 1.45 1982 2.06 1990 1.88
'
1975 1.55 1983 1.80 1991 2.00
1976 1.61 1984 1.73 1992 2.08
1977 1.60 1985 1.77 1993 1.88
1978 1.74 1986 1.90
1979 1.92 1987 1.82
1980 1.95 1988 1.65
1981 2.04 1989 1.73

(a) Grafique los datos en un diagrama.


(b) Ajuste un promedio móvil de tres años a sus datos y grafique los resultados
en el diagrama.
(c) Utilizando un coeficiente de suavizado de .SO, suavice exponencialmente
la serie y grafique los resultados obtenidos en el diagrama.
(d) ¿Cuál es su predicción suavizada exponencialmente para la tendencia en
1994?
19.4 Los datos dados en la siguiente tabla representan las ventas anuales (en millones
de dólares) de una compañía procesadora de alimentos durante el periodo
comprendido entre los años 1968 y 1993.

Ventas anuales (millones de dólares).

Año Ventas Año Ventas Año Ventas

1968 41.6 1977 53.2 1986 36.4


1969 48.0 1978 53.3 1987 38.4
1970 51.7 1979 51.6 1988 42.6
1971 55.9 1980 49.0 1989 34.8
1972 51.8 1981 38.6 1990 28.4
1973 57.0 1982 37.3 1991 23.9
1974 64.4 1983 43.8 1992 27.8
1975 60.8 1984 41.7 1993 42.1
1976 56.3 1985 38.3

(a) Grafique los datos en un diagrama.


(b) Ajuste un promedio móvil de siete años a sus datos y grafique los resultados
en el diagrama.
(c) Utilizando un coeficiente de suavizado de .25, suavice exponencialmente
la serie y grafique los resultados obtenidos en el diagrama.
(d) ¿Cuál es su predicción suavizada exponencialmente para la tendencia eri 1994?

l (·IJ Análisis de series temporales de datos anuales:


ajuste de tendencia de mínimos cuadrados y
pronóstico
El factor componente de una serie de tiempo que se estudia más a menudo es la
tendencia. Principalmente, estudiamos la tendencia con fines de predicción; esto

Análisis de series temporales de datos anuales 871


es, podemos desear estudiar la tendencia directamente como una ayuda para
realizar proyecciones de predicción a largo y mediano plazos. En segundo lugar,
podemos desear estudiar la tendencia con el objeto de aislar y luego eliminar sus
efectos sobre el modelo de serie de tiempo, como una guía hacia la predicción a
corto plazo (un año o menos) de las condiciones generales del ciclo de negocios.
Como se muestra en la figura 19 .1 de la página 860, para obtener alguna impresión
visual o sentimiento acerca de los movimientos generales a largo plazo en una serie
de tiempo, construimos un diagrama en el cual los datos observados (variable
dependiente) son graficados en el eje vertical y los periodos (variable indepen-
diente) en el eje horizontal. Si parece que se puede ajustar adecuadamente una
línea recta a los datos, entonces los dos métodos más ampliamente utilizados de
ajuste de tendencias son el método de mínimos cuadrados (véase sección 17.4) y
el método de suavizado exponencial doble (referencias 1, 2 y 4). Si los datos de la
serie de tiempo señalan la presencia de un movimiento a largo plazo hacia abajo o
hacia arriba, los dos métodos más ampliamente utilizados de ajuste de tendencia
son el método de mínimos cuadrados (sección 18.11) y el método de suavizado
exponencial triple (referencias 1, 2 y 4). En la presente sección centraremos nues-
tra atención en los métodos de mínimos cuadrados para ajustar tendencias lineales
y curvilíneas como guías para la predicción. En las secciones 19.6 y 19.7 se
describirán otros planteamientos de predicción más elaborados.

19.S. I El modelo lineal


Recordamos de la sección 17.4 que el método de mínimos cuadrados nos permite
ajustar una línea recta de la forma

(19.8)

tal que los valores que calculamos para los dos coeficientes, la intersección b0 y la
pendiente b 1 , tienen como resultado la minimización de la suma de las diferencias
al cuadrado entre cada valor observado, Y¡, en los datos y cada valor predicho, Y¡,
a lo largo de la línea de tendencia; esto es

L (Y; -
11 /\

Y;) 2 = mínimo
i=l

Para obtener esta línea, recordamos que en el análisis de regresión lineal calcu-
lamos la pendiente con la ecuación:

i=l (19.9)
b¡= ~n~~~~~

:¿x;- nX 2

i=l

y la intersección con la ecuación:

(19.10)

872 Capítulo 19 Pronóstico de series de tiempo


/\
Ya que hemos llevado a cabo lo anterior y hemos obtenido la recta Y¡= b0 + b1X¡,
podemos sustituir los valores de X en la ecuación (19 .8) para predecir varios valores
para Y.
Cuando utilizamos el método de mínimos cuadrados para ajustar tendencias
en series de tiempo, nuestros esfuerzos de cálculo pueden minimizarse si codifi-
camos apropiadamente los valores de X. Se selecciona la primera observación de
nuestra serie de tiempo como el origen y se le asigna un valor de código de X = O.
A todas las observaciones subsecuentes se les asigna un valor de código de 1, 2, 3,
... , de modo que la n-ésima y última observación de la serie tiene el código n - l.
Así pues, por ejemplo, para los datos de serie temporal registrados anualmente
durante 23 años, al primer año se le asignará un valor de código de O, el segundo
año será codificado como 1, el tercer año tendrá un código de 2, ... , y el último año
(el vigésimo tercero) tendrá un código de 22.
La serie de tiempo anual presentada en la tabla 19.5, y graficada en la figura
19.1 de la página 860, representa las ventas netas (en miles de millones de dólares)
de la Compañía Eastman Kodak durante el periodo de 23 años comprendido entre
1970 y 1992. Al codificar los valores consecutivos de X desde cero hasta 22, y luego
al utilizar las ecuaciones (19.9) y (19.10) o, como se mostró en la figura 19.5, al uti-
lizar un paquete de software estadístico, como MINITAB (véase referencia 8), deter-
minamos que
/\
Y¡= 1.2011 + 0.8003X;
en la que el origen es 1970 y las unidades de X= 1 año.

Tabla 19.S Ventas netas (en miles de millones de dólares) de


la Compañía Eastman Kodak (1970-1992).
Ventas netas Ventas netas
Año (miles de millones Año (miles de millones
de dólares) de dólares)

1970 2.8 1982 i0.8


1971 3.0 1983 10.2
1972 3.5 1984 10.6
1973 4.0 1985 10.6
1974 4.6 1986 11.5
1975 5.0 1987 13.3
1976 5.4 1988 17.0
1977 6.0 1989 18.4
1978 7.0 1990 18.9
1979 8.0 1991 19.4
1980 9.7 1992 20.1
1981 10.3
Fuente: Moody's Handbook ofCommon Stocks, 1980, 1989, 1993.

The regression equation is


sales = 1.20 + 0.800 years

Predictor Coef Stdev t-ratio p


Constant bo l. 2011 0.5510 2.18 0.041
years b1 O. 80030 0.04290 18.66 0.000

s = 1.365 R-sq = 94.3% R-sq(adj) = 94.0%


Figura 19.5
Resultado parcial obtenido con el paquete MINITAB en cuanto al
ajuste del modelo de regresión lineal para predecir las ventas netas
anuales en la Compañía Eastman Kodak.

Análisis de series temporales de datos anuales 873


La intersección b0 = 1.2011 es el valor de tendencia ajustado que refleja las
ventas netas (en miles de millones de dólares) de la Eastman Kodak durante el ori-
gen o el año base, 1970. La pendiente b1 = 0.8003 indica que las ventas netas se
están incrementando con una rapidez de 0.8003 miles de millones de dólares por
año.
Para proyectar la tendencia en las ventas netas para el año 1993, sustituimos
X= 23, que es el código correspondiente a 1993, en la ecuación, y nuestra predic-
ción es
f\
1993 Y24 = 1.2011 + (0.8003)(23) = 19.6 miles de millones de dólares

La línea de tendencia ajustada proyectada a 1993 se graficó en la figura 19.6,


junto con la serie de tiempo original. Un examen cuidadoso de esta figura revela
que se ha presentado un marcado aumento en los años más recientes de la serie.
¿Tal vez, entonces, un modelo de tendencia curvilínea sería un mejor ajuste para
la serie? Dos de estos modelos, uno de tendencia cuadrática y uno de tendencia
exponencial, se presentan en las secciones 19.5.2 y 19.5.3, respectivamente.

~22
"' 20
!!!
.!!!
:g 18
Q)
"O 16
"'
~ 14
e-º 12
~ 10
"'
_g¡ 8
1 6
~e: 4
2
~Q) o
> 70 72 74 76 78 80 82 84 86 88 90 92
Año

Figura 19.6
Ajuste de la línea de tendencia de mínimos cuadrados.

19.S.2 El modelo cuadrático


Un modelo cuadrático o polinomio de segundo grado es el más sencillo de los mode-
los curvilíneos. Utilizando el método de mínimos cuadrados de la sección 18.11,
podemos ajustar una ecuación de tendencia cuadrática de la forma

(19.11)

en la que b0 = intesección estimada con el eje Y


b 1 = efecto lineal estimado sobre Y
b 11 = efecto curvilíneo estimado sobre Y

874 Capítulo 19 Pronóstico de series de tiempo


The regression equation is
sales = 2.92 + 0.309 years + 0.0223 yearsq

Predictor Coef Stdev t-ratio p


Constant bo 2.9217 0.5949 4.91 0.000
years b1 0.3087 0.1253 2.46 0.023
yearsq b 11 o. 022346 0.005499 4.06 0.001

s = 1.035 R-sq = 96.9% R-sq(adj} = 96.6%

Figura 19.7
Resultado parcial obtenido con MINITAB para el ajuste de un modelo
de regresión cuadrático a fin de predecir las ventas netas anuales en la
Compañía Eastman Kodak.

De nuevo, podemos utilizar un paquete de software estadístico para llevar a cabo


los cálculos necesarios para obtener el ajuste de mínimos cuadrados. En la figura
19.7 se presenta el resultado obtenido con el paquete MINITAB para el modelo
cuadrático que representa las ventas netas anuales de la Eastman Kodak. De ésta
podemos determinar que
/\ 2
Y;= 2.9217 + 0.3087X; + 0.0223X;

en la que el origen es 1970 y la unidad de X es = 1 año.


Para utilizar la ecuación de tendencia cuadrática con propósitos de predicción,
sustituimos los valores de código de X apropiados en esta ecuación. Por ejemplo,
para predecir la tendencia en las ventas netas para el año 1993 (es decir, X= 23),
tenemos
1993 .Y24 = 2.9217 + (o.3087)(23) + (0.0223)(23 2)
= 21.82 miles de millones de dólares

La ecuación de tendencia cuadrática ajustada proyectada a 1993 se grafica en


la figura 19.8, junto con la serie de tiempo original.

~ 22
(/) A 2
~ 20
Y;= 2.9217 + 0.3087X¡+ 0.0223X¡
:g18 O<lgoo = 1970; ~ = 1 afio

~ 16
(/)

~ 14
o
~ 12
~ 10
(/)
.9'1 8
I 6
~e: 4
la 2
e: o ........
>
~ ~.__..._....._ ......_.__....__,..__.__.._....._......._._.................__.._....__._...............................__..._.....__
m n ~ m n M ~ M M M oo ~
Año

Figura 19.8
Ajuste de la ecuación de tendencia cuadrática.

Análisis de series temporales de datos anuales 87S


19.5.J El modelo exponencial
Cuando una serie parece estarse incrementando a una rapidez cada vez mayor tal
que la diferencia porcentual de una observación a otra es constante, podemos ajus-
tar una ecuación de tendencia exponencial de la forma

(19.12)

en la que b0 =intersección estimada en el eje Y


(b1 - 1) x 100 1YcJ =tasa de crecimiento compuesta estimada anual (en
porcentaje)

Si tomamos el logaritmo (base 10) de ambos lados de la ecuación (19 .12),


tenemos

/\
log Y;= log b 0 + X; log b 1 (19.13)

Puesto que la ecuación (19.13) tiene forma lineal, podemos utilizar el método de
mínimos cuadrados si trabajamos con el logaritmo de los valores de Y; en lugar
de hacerlo con los valores de Y¡, y obtener la pendiente (log b 1) y la intersección
(log b0 ). De nueva cuenta, podemos utilizar un paquete de software estadístico para
llevar a cabo los cálculos necesarios.
En la figura 19.9 se presenta el resultado obtenido con MINlTAB para un mo-
delo exponencial de las ventas netas anuales de la Eastman Kodak. De ésta deter-
minamos que:
/\
log Y; = 0.49949 + 0.0389X;

en la que el origen se encuentra en 1970 y las unidades de X representan el ai'í.o.

The regression equation is


logsales = 0.499 + 0.0389 years

Predictor Coef Stdev t-ratio p


Constant 0.49949 0.01918 26.04 0.000
years 0.038902 0.001493 26.05 0.000

s = 0.04751 R-sq = 97.0% R-sq(adj) 96.9%

Figura 19.9
Resultado parcial obtenido con MINITAB para el ajuste de un modelo
de regresión exponencial para predecir las ventas netas anuales en la
Compañía Eastman Kodak.

Los valores de b0 y b 1 pueden obtenerse tomando el antilogaritmo de los coefi-


cientes de regresión de la ecuación:

b0 = antilog .49949 = 3.155


b 1 = antilog .0389 = 1.0937

876 Capítulo 19 Pronóstico de series de tiempo


Así pues, la ecuación de tendencia exponencial ajustada puede expresarse como:

A X
Y¡ = (3. lSS )(1.093 7)' ¡

en la cual el origen se encuentra en 1970 y las unidades de X representan el


aíio.
La intersección b0 =::u SS es el valor de tendencia ajustado que representa las
ventas netas durante el año base de 1970. El valor (b 1 - 1) x 1001Xi = 9.37% es la
tasa de crecimiento anual compuesta en las ventas netas de la Eastrnan Kodak.
Para fines de predicción, podemos sustituir los valores de código apropiados de
X en cualquiera de las dos ecuaciones. Por ejemplo, para predecir la tendencia en
las ventas netas para el aíio 1993 (es decir, X= 23), tenemos
f\
1993 log Y 24 = 0.49949 + (0.0389)(n) = 1.3937
f\
Y24 = antilog 1.3937 = 24.76 miles de millom·s de dólares

1993 Y24 = (3. lSS)(l .0937) 23 = 24.76 miles de millones de dólares

La ecuación de tendencia exponencial ajustada proyectada al aiio 1993 está


graficada en la figura 19.10, junto con la serie de tiempo original.

28
26
w 24 •
ro
:o 22 •
""()

~ 20
Y¡= (3.155)(1.0937)X; •
(/) Origen = 1970; X unidades = 1 año
e 18

~
Q)

g 16
.E
Q)
""()
14
_9l 12
I10
(/)
ro
Q)
8 •
e
(f) 6
ro
e:
Q)
4
> 2
o
70 72 74 76 78 80 82 84 86 88 90 92
Año

Figura 19. 1O
Ajuste de la ecuación de tendencia exponencial.

Ahora hemos visto los datos sobre las ventas netas anuales de la Eastman
Kodak ajustados por tres modelos diferentes: lineal, cuadrático y exponencial. En
la sección 19 .8 compararemos los resultados de éstos y de otros modelos de predic-
ción para determinar, a posteriori, el mejor ajuste. En los problemas 19.5 J y 19.52
de las páginas 914 y 915 el estudiante tendrá la oportunidad de utilizar métodos
a priori a fin de determinar el !fiOdelo apropiado para una serie dada de datos.

Análisis de series temporales de datos anuales 877


Problemas de la sección 19.5
e 19.5 Los datos dados en la siguiente tabla representan las ventas netas anuales (en
miles de millones de dólares) de la empresa Upjohn Co. durante un periodo de
23 años comprendido entre 1970 y 1992.

Ventas anuales de la compañía Upjohn


( 1970- 1992).

Año Ventas Año Ventas

1970 0.4 1982 1.8


1971 0.4 1983 1.7
1972 0.5 1984 1.9
1973 0.7 1985 2.0
1974 0.8 1986 2.3
1975 0.9 1987 2.5
1976 1.0 1988 2.7
1977 1.1 1989 2.9
1978 1.3 1990 3.0
1979 1.5 1991 3.4
1980 1.8 1992 3.6
1981 1.9
Fuente: Moody's Handbook o(Com111011 Stocks, 1980,
1989, 1993.

(a) Grafique los datos en un diagrama.


(b) Ajuste una línea de tendencia lineal de mínimos cuadrados a los datos y
grafique la línea en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1993,
1994, 1995 y 1996?
19 .6 Los datos dados en la siguiente tabla representan los ingresos anuales netos
por operación (en miles de millones de dólares) de Coca-Cola Co. durante el
periodo de 23 años comprendido entre 1970 y 1992.

Ingresos por operación de la compañía Coca·


Cola ( 1970-1992).

Año Ingresos Año Ingresos

1970 1.6 1982 5.9


1971 1.7 1983 6.6
1972 1.9 1984 7.2
1973 2.1 1985 7.9
1974 2.5 1986 7.0
1975 2.9 1987 7.7
1976 3.1 1988 8.3
1977 3.6 1989 9.0
1978 4.3 1990 10.2
1979 4.5 1991 11.6
1980 5.3 1992 13.0
1981 5.5
Fuente: Moody's Handbook o(Common Stocks, 1980, 1989, 1993.

(a) Grafique los datos en un diagrama.


(b) Ajuste una línea de tendencia lineal de mínimos cuadrados a los datos y
grafique la línea en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1993,
1994, 1995 y 1996?

878 Capi1:ulo 19 Pronóstico de series de tiempo


19.7 Los datos dados a continuación representan las ventas netas anuales (en miles
de millones de dólares) de la compañía Gillette, Inc. durante el periodo cde 23
años comprendido entre 1970 y 1992.

Ventas netas de la compañía Gillette,


lnc. ( 1970-1992).

Año Ventas Año Ventas

1970 0.7 1982 2.2


1971 0.7 1983 2.2
1972 0.8 1984 2.3
1973 1.1 1985 2.4
1974 1.2 1986 2.8
1975 1.4 1987 3.2
1976 1.5 1988 3.6
1977 1.6 1989 3.8
1978 1.7 1990 4.3
1979 2.0 1991 4.7
1980 2.3 1992 5.2
1981 2.3
Fuente: Moody's Ha11dbook o(Co111mo11 Stocks, 1980,
1989, 199:~.

(a) Grafique los datos en un diagrama.


(b) Ajuste una línea de tendencia lineal de mínimos cuadrados a los da.tos y
grafique la línea en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años l '993,
1994, 1995 y 1996?
19.8 Los datos dados en la tabla siguiente representan las ventas netas anua!les (en
miles de millones de dólares) de la empresa Georgia-Pacific Corp. durante el
periodo de 23 años comprendido entre 1970 y 1992.

Ventas netas de Georgia-Pacific Corp.


( 1970-1992).

Año Ventas Año Ventas

1970 1.1 1982 5.4


1971 1.3 1983 6.5
1972 1.8 1984 6.7
1973 2.2 1985 6.7
1974 2.4 1986 7.2
1975 2.4 1987 8.6
1976 3.0 1988 9.5
1977 3.7 1989 10.1
1978 4.4 1990 12.7
1979 5.2 1991 11.5
1980 5.0 1992 11.8
1981 5.4
Fuente: Moody's Handbook o( Common Stocks, 1980,
1989, 1993.

(a) Grafique los datos en un diagrama.


(b) Ajuste una línea de tendencia lineal de mínimos cuadrados a los datos y
grafique la línea en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1993,
1994, 1995 y 1996?

Análisis de series temporales de datos anuales 879


19.9 Los datos dados en la siguiente tabla representan el ingreso total anual (en
miles de millones de dólares) de la compañía Boeing Co. durante el periodo de
23 años comprendido entre 1970 y 1992.

Ingreso total de la compañía Boeing ( 1970-1992).

Año Ingreso Año Ingreso

1970 3.7 1982 9.2


1971 3.0 1983 11.3
1972 2.4 1984 10.6
1973 3.4 1985 14.0
1974 3.8 1986 16.8
1975 3.8 1987 15.8
1976 4.0 1988 17.3
1977 4.1 1989 20.6
1978 5.6 1990 27.5
1979 8.5 1991 29.3
1980 9.8 1992 30.2
1981 10.1
Fuente: Moody's Handbook o(Common Stocks, 1980, 1989,
1993.

(a) Grafique los datos en un diagrama.


(b) Ajuste una ecuación de tendencia cuadrática a los datos y grafique la
curva en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1993,
1994, 1995 y 1996?
19.10 Los datos que se muestran en la siguiente tabla representan los resultados
obtenidos en el examen SAT (oral y matemáticas) para hombres y mujeres,
junto con el resultado total promedio en el SAT durante un periodo de 20
años, de 1972 hasta 1991.

Resultados SAT ( 1972-1 991 ).

Hombres Mujeres
Año Oral Matemáticas Oral Matemáticas Total

1972 454 505 452 461 937


1973 446 502 443 460 926
1974 447 501 442 459 924
1975 437 495 431 449 906
1976 433 497 430 446 903
1977 431 497 427 445 899
1978 433 494 425 444 897
1979 431 493 423 443 894
1980 428 491 420 443 890
1981 430 492 418 443 890
1982 431 493 421 443 893
1983 430 493 420 445 893
1984 433 495 420 449 897
1985 437 499 425 452 906
1986 437 501 426 451 906
1987 435 500 425 453 906
(Continúa)

880 Capítulo 19 Pronóstico de series de tiempo


Resultados SAT 1972-1991 (continuación).
Hombres Mujeres
Año Oral Matemáticas Oral Matemáticas Total

1988 435 498 422 455 904


1989 434 500 421 454 903
1990 429 499 419 455 900
1991 426 497 418 453 896
Fuente: New York Times, 27 de agosto de 1991, p. A20 y 28 de agosto de 1990.

Para cada una de las cinco variables (resultado promedio SAT en oral y
matemáticas para hombres y mujeres paralelamente con e resultado total
promedio):
(a) Grafique los datos en un diagrama.
(b) Ajuste una ecuación de tendencia cuadrática a los datos y grafique la
curva en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1992,
1993 y 1994?
19.11 Los siguientes datos representan las recaudaciones y los gastos correspondientes
a los gobiernos estatal y local para un periodo de 22 años, desde 1970 hasta
1991.

Gastos gubernametales estatales y locales ( 1970-1991 ).

Superávit
Año Recaudación Gastos o déficit

1970 129.0 127.2 1.80


1971 145.3 142.8 2.50
1972 169.7 156.3 13.40
1973 185.3 171.9 13.40
1974 200.6 193.5 7.10
1975 225.6 221.0 4.60
1976 253.9 239.3 14.60
1977 281.9 256.3 25.60
1978 309.3 278.2 31.10
1979 330.6 305.4 25.20
1980 361.4 336.6 24.80
1981 390.8 362.3 28.50
1982 409.0 382.1 26.90
1983 443.4 403.2 40.20
1984 492.2 434.1 58.10
1985 528.7 472.6 56.10
1986 571.2 517.0 54.20
1987 594.3 554.2 40.10
1988 631.3 593.0 38.30
1989 677.0 635.9 41.10
1990 724.5 698.8 25.70
1991 770.6 741.1 29.50
Fuente: Departamento de Comercio de Estados Unidos, Oficina de
Análisis Económicos, Tabla B-77.

Por cada una de las tres variables (recaudación, gastos y superávit o déficit):
(a) Grafique un diagrama con los datos.
(b) Ajuste a los datos una ecuación de tendencia lineal.
(c) Ajuste a los datos una ecuación de tendencia cuadrática.
(d) Utilizando los modelos ajustados en los incisos (b) y (c), haga predicciones
anuales para 1992, 1993 y 1994.

Análisis de series temporales de datos anuales 881


(e) f·toliilJl·f·f•' Acuda a la biblioteca y registre los valores reales
correspondientes a 1992, 1993 y 1994 que vienen en la tabla
proporcio-nada por el Departamento de Comercio de Estados Unidos.
Compare los resultados obtenidos con los del inciso (d). Explique sus hal-
lazgos.
19.12 Los datos dados en la tabla siguiente representan los ingresos anuales por
operación (en miles de millones de dólares) de las compañías Philip Morris,
Inc., durante un periodo de 23 años, desde 1970 hasta 1992.

Ingreso total de las compañías Phillip Morris


( 1970-1992).

Año Ingreso Año Ingreso

1970 1.5 1982 11.6


1971 1.9 1983 13.0
1972 2.1 1984 13.8
1973 2.6 1985 16.0
1974 3.0 1986 25.9
1975 3.6 1987 28.2
1976 4.3 1988 31.7
1977 5.2 1989 44.8
1978 6.6 1990 51.3
1979 8.1 1991 56.5
1980 9.6 1992 59.1
1981 10.7
Fuente: Moody's Handbook ofCommon Stocks, 1980, 1989,
1993.

(a) Grafique los datos en un diagrama.


(b) Ajuste una ecuación de tendencia exponencial a los datos y grafique la
curva en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1993,
1994, 1995 y 1996?
e 19.13 Los datos dados a continuación representan las ventas netas anuales (en miles
de millones de dólares) de la empresa Black Decker Corp., durante el
periodo de 23 años comprendido entre 1970 y 1992.

Ventas netas en Black & Decker Corp.


( 1970-1992).

Año Ventas Año Ventas

1970 0.3 1982 1.2


1971 0.3 1983 1.2
1972 0.3 1984 1.5
1973 0.4 1985 1.7
1974 0.6 1986 1.8
1975 0.7 1987 1.9
1976 0.7 1988 2.3
1977 0.8 1989 3.2
1978 1.0 1990 4.8
1979 1.2 1991 4.7
1980 1.2 1992 4.8
1981 1.2
Fuente: Moody's Handbook ofCommon Stocks, 1980,
1989, 1993.

882 Capítulo 19 Pronóstico de series de tiempo


(a) Grafique los datos en un diagrama.
(b) Ajuste una ecuación de tendencia exponencial a los datos y grafique la
curva en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1993,
1994, 1995 y 1996?
19.14 Los siguientes datos representan el número de empleados (en miles) que se
encuentran en empleos no agrícolas, correspondientes al periodo de 42 años
comprendido entre 1950 y 1991. Los datos están divididos en industrias
productoras de bienes, industrias no gubernamentales que producen servicios,
gobiernos federal, y estatal y local:

Empleo total en las nóminas no agrícolas (1950-1991).


Producción Servicios Gobierno Gobiernos
Año de bienes no gubernamentales federal estatal y local

1950 45,197 20,665 1,928 4,098


1951 47,819 21,471 2,302 4,087
1952 48,793 21,987 2,420 4,188
1953 50,202 22,483 2,305 4,340
1954 48,990 22,488 2,188 4,563
1955 50,641 23,214 2,187 4,727
1956 52,369 23,988 2,209 5,069
1957 52,853 24,273 2,217 5,399
1958 51,324 23,972 2,191 5,648
1959 53,268 24,774 2,233 5,850
1960 54,189 25,402 2,270 6,083
1961 53,999 25,548 2,279 6,315
1962 55,549 26,208 2,340 6,550
1963 56,653 26,787 2,358 6,868
1964 58,283 27,682 2,348 7,248
1965 60,765 28,765 2,378 7,696
1966 63,901 29,959 2,564 8,220
1967 65,803 31,104 2,719 8,672
1968 67,897 32,321 2,737 9,102
1969 70,384 33,828 2,758 9,437
1970 70,880 34,748 2,731 9,823
1971 71,214 35,397 2,696 10,185
1972 73,675 36,674 2,684 10,649
1973 76,790 38,166 2,663 11,068
1974 78,265 39,301 2,724 11,446
1975 76,945 39,660 2,748 11,937
1976 79,382 41,159 2,733 12,138
1977 82,471 42,999 2,727 12,399
1978 86,697 45,441 2,753 12,919
1979 89,823 47,416 2,773 13,174
1980 90,406 48,507 2,866 13,375
1981 91,156 49,628 2,772 13,259
1982 89,566 49,916 2,739 13,098
1983 90,200 50,996 2,774 13,096
1984 94,496 53,746 2,807 13,216
1985 97,519 56,266 2,875 13,519
1986 99,525 58,274 2,899 13,794
1987 102,200 60,482 2,943 14,067
1988 105,536 62,977 2,971 14,415
1989 108,329 65,228 2,988 14,791
1990 109,971 66,692 3,085 15,237
1991 108,975 66,720 2,965 15,469
Fuente: Departamento de Trabajo de Estados Unidos, Oficina de Estadísticas Laborales, Tabla B-41.

Análisis de series temporales de datos anuales 883


Para cada una de las cuatro variables (empleados en industrias productoras de
bienes, en industrias no gubernamentales productoras de servicios, en gobier-
nos federal y en gobierno estatal y local):
(a) Grafique los datos en un diagrama.
(b) Ajuste una ecuación de tendencia lineal a los datos.
(c) Ajuste una ecuación de tendencia exponencial a los datos.
(d) Utilizando los modelos ajustados en los incisos (b) y (e), haga predicciones
para los años 1992, 1993 y 1994.
(e) P·fflii'1/.M» Acuda a Ja biblioteca y registre los valores reales correspondientes
a 1992, 1993 y 1994 que vienen en la tabla proporcionada por el
Departamento de Trabajo de Estados Unidos. Compare estos resultados
con los del inciso (d). Analice sus hallazgos.

IC·!.) El método de Holt-Winters para el ajuste


de la tendencia y del pronóstico
El método de Holt-Winters (referencia 7) es una sofisticada extensión del plan-
teamiento de suavizado exponencial descrito en la sección 19.4.2. Mientras que el
procedimiento de suavizado exponencial proporciona una impresión de los movi-
mientos globales a largo plazo que se encuentran presentes en los datos y permite
hacer predicciones a corto plazo, la más elaborada técnica de Holt-Winters tam-
bién permite el estudio de la tendencia a través de predicciones o proyecciones al
futuro a mediano y/o largo plazos. Las diferencias entre los dos procedimientos se
resal tan en la figura 19 .11.

..
.....

Predicción con el método de Predicción con el de Holt-Winters


suavizado exponencial (b)
(a)

Figura 19.11
Suavizado exponencial y método de Holt-Winters.

En la parte (a) de tal figura observamos que el suavizado exponencial puede


utilizarse con más eficiencia para predicciones a corto plazo (un periodo en el
futuro). Desde luego, podemos extender hacia el futuro esta predicción muchos
periodos; esto tendría algún significado si no existieran movimientos hacia abajo
o hacia arriba en la serie. Sin embargo, si existe algún movimiento hacia arriba o
hacia abajo, esta proyección horizontal no lo detectaría en lo absoluto. Por otro
lado, el método de predicción de Holt-Winters de la parte (b) de la figura está dise-
ñado para detectar tales fenómenos. En consecuencia, la técnica de Holt-Winters
proporciona, concurrentemente, el estudio del nivel global de movimientos y de
la tendencia futura de una serie.
Para utilizar el método de Holt-Winters en cualquier periodo i, debemos esti-
mar de manera continua el nivel de la serie (esto es, el valor suavizado E¡) y el valor
de la tendencia (T¡). Esto se logra a través de la solución de las siguientes ecua-
ciones:

884 Capítulo 19 Pronóstico de series de tiempo


Nivel E; = U(E;_ 1 + T¡_ 1 ) + (1 - U)Y; (19.14a)
Tendencia T; = VT¡_ 1 + (1 - V)(E; - E¡_ 1 ) (19.14b)

en la que E¡ =nivel de la serie suavizada que se calcula en el periodo i


E; _ 1 =nivel de la serie suavizada ya calculado en el periodo i - 1
T¡ =valor del componente de tendencia que se calcula en el periodo i
T¡ _ 1 =valor del componente de tendencia ya calculado en el periodo
i - 1
Y¡ = valor observado de la serie de tiempo en el periodo i
U= constante de suavizado asignada de manera subjetiva (en la que
o< u< 1)
V= constante de suavizado asignada de manera subjetiva (en la que
O< V< 1)

Para empezar a realizar los cálculos, hacemos E2 = Y2 y T 2 = Y2 - Y1, y escoge-


mos los valores correspondientes a U y V. Después calculamos E¡ y T¡ para i años,
con i = 3, 4, ... , n.
Para ilustrar el método de Holt-Winters, retornemos a la serie de tiempo que
presentamos en la tabla 19.5 (en la página 873) y graficada en la figura 19.1
(página 860), que representa las ventas netas (en miles de millones de dólares) de
la Compañía Eastman Kodak durante un periodo de 23 años, comprendido entre
1970 y 1992. Los cálculos se muestran en la tabla 19.6 con valores elegidos de U=
.3 y V= .3.

Tabla 19.6 Uso del método de Holt-Winters respecto a las ventas netas anuales (en miles de millones de
dólares) de la Compañía Eastman Kodak (1970-1992).

Ventas
Año Netas Y; (U)(E¡ -1 + T¡ _ 1) + (1 - U)(Y;) =E¡ (V)(T¡ _ 1) + (1 - V)(E; - E;_ 1) = T;

1970 2.8 **** ****


1971 2 3.0 3.0 0.2
1972 3 3.5 (.3)( 3.0 + 0.2) + (.7)( 3.5) = 3.4 (.3)( 0.2) + (.7)( 3.4 - 3.0) = 0.3
1973 4 4.0 (.3)( 3.4 + 0.3) + (.7)( 4.0) = 3.9 (.3)( 0.3) + (.7)( 3.9 - 3.4) = 0.4
1974 5 4.6 (.3)( 3.9 + 0.4) + (.7)( 4.6) = 4.5 (.3)( 0.4) + (.7)( 4.5 - 3.9) = 1.6
1975 6 5.0 (.3)( 4.5 + 1.6) + (. 7)( 5.0) = 5.3 (.3)( 1.6) + (. 7)( 5.3 - 4.5) = 1.0
1976 7 5.4 (.3)( 5.3 + 1.0) + (.7)( 5.4) = 5.7 (.3)( 1.0) + (.7)( 5.7 - 5.3) = 0.6
1977 8 6.0 (.3)( 5.7 + 0.6) + (.7)( 6.0) = 6.1 (.3)( 0.6) + (.7)( 6.1 - 5.7) = 0.5
1978 9 7.0 (.3)( 6.1 + 0.5) + (. 7)( 7 .O) = 6.9 (.3)( 0.5) + (.7)( 6.9 - 6.1) = 0.7
1979 10 8.0 (.3)( 6.9 + 0.7) + (.7)( 8.0) = 7.9 (.3)( 0.7) + (.7)( 7.9 - 6.9) = 0.9
1980 11 9.7 (.3)( 7.9 + 0.9) + (.7)( 9.7) = 9.4 (.3)( 0.9) + (.7)( 9.4 - 7.9) = 1.3
1981 12 10.3 (.3)( 9.4 + 1.3) + (.7)(10.3) = 10.4 (.3)( 1.3) + (.7)(10.4 - 9.4) = 1.1
1982 13 10.8 (.3)(10.4 + 1.1) + (.7)(10.8) = 11.0 (.3)( 1.1) + (.7)(11.0 -10.4) = 0.8
1983 14 10.2 (.3)(11.0 + 0.8) + (.7)(10.2) = 10.7 (.3)( 0.8) + (.7)(10.7 -11.0) = o.o
1984 15 10.6 (.3)(10.7 + O.O) + (.7)(10.6) = 10.6 (.3)( O.O) + (.7)(10.6 - 10.7) = -0.1
1985 16 10.6 (.3)(10.6 - 0.1) + (.7)(10.6) = 10.6 (.3)(-0.1) + (.7)(10.6 - 10.6) = o.o
1986 17 11.5 (.3)(10.6 +O.O) + (.7)(11.5) = 11.2 (.3)( O.O) + (. 7)(11.2 - 10.6) = 0.4
1987 18 13.3 (.3)(11.2 + 0.4) + (.7)(13.3) = 12.8 (.3)( 0.4) + (. 7)(12.8 - 11.2) = 1.2
1988 19 17.0 (.3)(12.8 + 1.2) + (.7)(17.0) = 16.1 (.3)( 1.2) + (.7)(16.1 - 12.8) = 2.7
1989 20 18.4 (.3)(16.1 + 2.7) + (.7)(18.4) = 18.5 (.3)( 2.7) + (.7)(18.5 -16.1) = 2.5
1990 21 18.9 (.3)(18.5 + 2.5) + (.7)(18.9) = 19.5 (.3)( 2.5) + (.7)(19.5 - 18.5) = 1.5
1991 22 19.4 (.3)(19.5 + 1.5) + (.7)(19.4) = 19.9 (.3)( 1.5) + (.7)(19.9 - 19.5) = 0.7
1992 23 20.1 (.3)(19.9 + 0.7) + (.7)(20.1) = 20.2 (.3)( 0.7) + (.7)(20.2 - 19.9) = 0.5
Fuente: Los datos fueron tomados de la tabla 19.5.

El método de Holt-Winters para el ajuste de tendencia y del pronóstico 885


Para empezar, establecemos:

E2 = Y2 = 3.0
y

T 2 = Y2 - Y 1 = 3.0 - 2.8 = 0.2

Con los valores elegidos de U= .3 y V= .3, las ecuaciones (19.14a) y (19.14b) se


vuelven:

E;= (.3)(E; _ 1 + T; _ 1) + (.7)(Y;)

T; = (.3)(T; _ 1) + (.7)(E; - E; - 1)

A manera de ejemplo, para 1972, el tercer año, i = 3 y tenemos:

E3 = (.3)(3.0 + 0.2) + (.7)(3.5) = 3.4

T3 = (.3)(0.2) + (.7)(3.4 - 3.0) = 0.3

Si continuamos, estos valores entonces se utilizarían en las ecuaciones (19.14a) y


(19.14b) para obtener E4 y T4 , y así sucesivamente, produciendo los resultados que
se presentan en la tabla 19.6 de la página 885.
Para utilizar el método de Holt-Winters para predicción, suponemos que todos
los movimientos de tendencia futuros continuarán a partir del último nivel suavi-
zado, En- En consecuencia, para predecir j años tenemos

(19.15)

en la que Yn +¡=valor predicho j años en el futuro


En= nivel de la serie suavizada calculado en el periodo n más
reciente
Tn = valor del componente de tendencia calculado en el periodo n
más reciente
j = número de años en el futuro

Utilizando E23 y T 23 , las últimas estimaciones del nivel actual y de la tenden-


cia, respectivamente, nuestras predicciones de las ventas netas para los años 1993
a 1996 se obtienen con la ecuación (19.15) de la manera siguiente:

886 Capítulo 19 Pronóstico de series de tiempo


A
Y,,+;= E,, + j(T11 )
1993: a 1 año Y24 = E 23 + (l)(T23 ) = 20.2 + (1)(0.5)

= 20. 7 milesde millones de


dólares
1994: a 2 años = 20.2 + (2)(0.5)

= 21 2 miles de millones de
· dólares
1995: a 3 años = 20.2 + (3)(0.5)
= 21. 7 m}lesde millones de
dolares
1996: a 4 años = 20.2 + (4)(0.5)
= 22.2 miles de millones de
dólares

Los datos, el ajuste y las predicciones están graficados en la figura 19.12.

28
U)"
26
~ 24
<ti
:o
u 22
Q) Método Holt-Winters
u 20
(J)
Q)
e: 18
g
.E 16 Datos originales " '
Q)
u 14
(J)
~ 12
§_ 10
(J)

~e: 8
V)
6
.l!!
e:
Q) 4
>
2
o
70 72 74 76 78 80 82 84 86 88 90 92 94 96
Año

Figura 19.12
Uso del método de Holt-Winters para los datos de la Compañía Eastman Kodak.
Fuente: Los datos fueron tomados de las tablas 19.5 y 19.6.:

Problemas de la sección 19.6

e 19.15 Dada una serie de tiempo anual con 20 observaciones consecutivas, si el nivel
de suavizado para el valor más reciente es de 34.2 y el correspondiente
nivel de tendencia está calculado en 5.6:
(a) ¿Cuál es su predicción para el año entrante?
(b) ¿Cuál es su predicción para cinco años a partir de ahora?

El método de Holt-Winters para el ajuste de tendencia y del pronóstico 887


19.16 Dada la siguiente serie de tiempo con n = 15 periodos consecutivos:
3 5 6 8 10 10 12 15 16 13 16 17 22 19 24

Utilice el método de Holt-Winters (con U= .30 y V= .30) para predecir la serie


para los periodos décimo sexto a vigésimo.
19.17 Dada la siguiente serie de tiempo con n = 10 periodos consecutivos:
137 125 116 110 103 96 86 79 72 66

Utilice el método de Holt-Winters (con U= .20 y V= .20) para predecir la serie


para los periodos décimo primero a décimo cuarto.
Q 19.18 El método de Holt-Winters fue descrito como una extensión sofisticada del
planteamiento de suavizado exponencial presentado en la sección 19.4.2. ¿En
qué condiciones todavía sería preferible emplear el procedimiento de
suavizado exponencial? Explique su respuesta.
En los problemas 19.19 a 19.26 utilice el método de Holt-Winters (con U= .30 y V= .30)
paia realizar predicciones anuales desde 1993 hasta 1996.
19.19 Refiérase al problema 19.2, correspondiente a las ganancias por acción en la
empresa TRW, !ne., de la página 870 .

• 19.20 Refiérase al problema 19.5, correspondiente a las ventas netas en la compañía


Upjohn, de la página 878.
19.21 Refiérase al problema 19 .6, correspondiente a los ingresos de operación netos
de la compañía Coca-Cola, de la página 878.
19.22 Refiérase al problema 19.7, correspondiente a las ventas netas en la empresa
Gillette Company, !ne., de la página 879.
19.23 Refiérase al problema 19.8, correspondiente a las ventas netas en la empresa
Georgia-Pacific Corp., de la página 879.
19.24 Refiérase al problema 19.9, correspondiente al ingreso neto en la compañía
Boeing, de la página 880.
19.25 Refiérase al problema 19.12, correspondiente a los ingresos de operación en las
compañías Philip Morris, Inc., de la página 882 .

• 19.26 Refiérase al problema 19.13, correspondiente a las ventas netas en la empresa


Black & Decker Corp., de la página 882.

1C·!) Modelado autorregresivo para el ajuste


de tendencia y el pronóstico

Otro planteamiento útil para hacer predicciones con datos de series de tiempo
anuales está basado en el modelado autorregresivo. 2 A menudo, encontramos
que los valores de una serie de datos en puntos particulares del tiempo están alta-
mente correlacionados con los valores que les anteceden y que les siguen. Una
autocorrelación de primer orden se refiere a la magnitud de la asociación entre va-
lores consecutivos de una serie de tiempo. Una autocorrelación de segundo orden
se refiere a la magnitud de la relación entre valores que están separados dos perio-
dos. Además, una autocorrelación de orden p se refiere a la magnitud de la corre-
lación entre valores de una serie de tiempo que están separados p periodos. Para
obtener un mejor ajuste histórico de nuestros datos y, al mismo tiempo, ser capaces
de hacer predicciones útiles de su comportamiento futuro, podemos aprovechar-
nos de las características potenciales de autocorrelación inherentes a los datos,
mediante la consideración de métodos de modelado autorregresivo.
Un conjunto de modelos autorregresivos se presentan en las ecuaciones (19.16),
(19.17) y (19.18).

888 Capítulo 19 Pronóstico de series de tiempo


Modelo autorregresivo de primer orden
Y, = ro+ 'lf1Y;_1 +O; (19.16)
Modelo autorregresivo de segundo orden
Y1 = w + 'lf 1 Y1-1 + w2 Y1_2 +o, (19.17)
Modelo autorregresivo de tercer orden
(19.18)

en la que Y¡ = valor observado de la serie al tiempo i


Y; _ 1 = valor observado de la serie al tiempo i - 1
Y¡ _ 2 = valor observado de la serie al tiempo i - 2
Y;_ P = valor observado de la serie al tiempo i - p
w =parámetro fijo que se va a estimar a partir del análisis de
regresión de mínimos cuadrados
\¡1 1 , \\fz, ... , \\lp =parámetros de autorregresión que deben ser estimados a partir
del análisis de regresión de mínimos cuadrados
O¡= componente (error) aleatorio no autocorrelacionado (con
media O y varianza constante)

Observamos que el modelo autorregresivo de primer orden [ecuación (19.16)]


tiene una forma parecida al modelo de regresión lineal simple [ecuación (17.1), de
la página 719] y que el modelo autorregresivo de orden p [ecuación (19.18)] tiene
una forma similar al modelo de regresión lineal múltiple [ecuación (18. la) de la
página 784]. En los modelos de regresión, los parámetros de regresión están repre-
sentados por los símbolos p0 , p1, ... , Pp, con las estadísticas correspondientes deno-
tadas con b0 , bv ... , bp· En los modelos autorregresivos los parámetros análogos
están dados por los símbolos w, \ji¡, ... , 'llpi con las correspondientes estimaciones
/\ /\ /\
representa d as ro, \ji 1, .•• , 'llp·
Un modelo autorregresivo de primer orden [ecuación (19.16)] tiene que ver
solamente con la correlación entre valores consecutivos de una serie. Un modelo
autorregresivo de segundo orden [ecuación (19.17)] toma en consideración los
efectos de la relación entre valores consecutivos de una serie, así como la corre-
lación entre los valores que están separados dos periodos. Un modelo autorregre-
sivo de orden p [ecuación (19.18)] trata con los efectos de las relaciones entre
valores consecutivos, valores separados dos periodos, y así sucesivamente, hasta
tomar en cuenta los efectos de la relación entre valores separados p periodos. La
selección de un modelo autorregresivo apropiado, por consiguiente, no es una
tarea sencilla. Debemos sopesar las ventajas de la parquedad con la preocupación
de no tomar en cuenta el importante comportamiento de autocorrelación inhe-
rente a los datos. En el otro extremo, debemos preocuparnos igualmente por no
seleccionar un modelo de orden alto que requiera la estimación de numerosos
parámetros innecesarios, en especial si n, el número de observaciones de la serie,
no es demasiado grande. La razón de esto es que de n datos, p se perderán al
obtener una estimación de 'llp cuando se compara cada valor de dato, Y¡, con su
"vecino más cercano", Y;_p, que se encuentrap periodos separado (esto es, las com-
paraciones son Yi+p con respecto a Y1, Yz+p con respecto a Y2, ... , yYn con respecto
a Yn-p)· Para ilustrar lo anterior, suponga que tenemos la siguiente serie den= 7 va-
lores consecutivos:

31 34 37 35 36 43 40

Modelado autorregresivo para el ajuste de tendencia y del pronóstico 889


En la tabla siguiente hemos establecido un esquema de comparaciones para mo-
delos autorregresivos de orden uno y orden dos:

Modelo autorregresivo de primer orden Modelo autorregresivo de segundo orden


(Y; contra Y¡_ 1) (Y; contra Y;_ 1 y Y; contra Y¡_ 2 )

1 31H··· 31 H· ··y 31 H · · ·
2 34H31 34H31 y 34H· · •
3 37 H34 37 H 34 y 37 H 31
4 35 H 37 35 H 3 7 y 35 H 34
5 36H35 36 H 35 y 36 H 37
6 43 H36 43 H 36 y 43 H 35
7 40H43 40 H 43 y 40 H 36
(se pierde una comparación en el (se pierden dos comparaciones en
análisis de regresión) el análisis de regresión)

Ya que un modelo ha sido seleccionado y se han utilizado los métodos de


regresión de mínimos cuadrados para obtener estimaciones de los parámetros, el
siguiente paso sería determinar lo adecuado del modelo. Podemos elegir un mode-
lo autorregresivo dado de orden p basándonos en experiencias anteriores con datos
parecidos o podemos elegir, como punto de inicio, un modelo con varios paráme-
tros y después eliminar aquellos que no hagan una contribución significativa. En
este último planteamiento, Newbold (referencia 7) sugiere la siguiente prueba de
la significación del parámetro autorregresivo de mayor orden del modelo ajustado:

H0 : 'l'p =O (El parámetro de orden más grande es O)

contra la hipótesis alternativa

H 1: 'l'p *O (El parámetro 'l'p es significativamente expresivo)

La estadística de prueba, fácilmente obtenible haciendo uso de los diferentes pa-


quetes de software estadístico que realizan regresión múltiple (los cuales propor-
cionan estimaciones de los coeficientes de regresión y de los errores estándar), está
aproximada por:

(19.19)

en la que o/p = la estimación del parámetro de mayor orden, 'l'pi en el modelo


autorregresivo
s~p =a la desviación estándard de ~p
Utilizando un nivel de significación a, la regla de decisión consiste en rechazar
H 0 si Z > + Zatz (el valor crítico de extremo superior de una distribución normal
estandarizada) o si Z < -Za12 (el valor crítico de extremo inferior de una distribu-
ción normal estandarizada), y no rechazar H 0 si -Za12 :o:; Z :o:; +Za/Z·
Si la hipótesis nula de que 'l'p = O no es rechazada, podemos llegar a la con-
clusión de que el modelo seleccionado contiene demasiados parámetros estima-
dos. Entonces descartaríamos el término de orden más alto y obtendríamos un
modelo autorregresivo de ordenp - 1 mediante una regresión de mínimos cuadra-
dos. Enseguida se repetiría la prueba de la hipótesis de que el nuevo término de
orden más grande es O.

890 Capítulo 19 Pronóstico de series de tiempo


Este procedimiento de prueba y modelado continúa hasta que rechazamos H 0 .
Cuando esto ocurre, sabemos que nuestro parámetro de mayor orden es significa-
tivo y estamos en disposición de utilizar el modelo particular para fines de predic-
ción.
El modelo autorregresivo de orden p ajustado tiene la siguiente forma:

f\ A Ay Ay Ay
Y¡ = CO + 'l'1 i-1 + 'l'2 i-2 + ··· + 'Jlp i-p (19.20)

A
en la que Y¡ = valor ajustado de la serie al tiempo í
Y¡ _ 1 = valor observado de la serie al tiempo í - 1
Y; _ 2 = valor observado de la serie al tiempo i - 2
Y¡ _ P = valor observado de la serie al tiempo í - p
d ., d ,
co, 'l'v 'Jfz, ... , 'Jfp = est1mac1ones e regres10n e 1os parametros ro, '!'¡, 'l'z, ... , 'l'p
A A A A • •

Para predecir j años hacia el futuro a partir del n-ésimo periodo actual, tenemos

(19.21)

en la que <1, -o/ 11 -o/2 , ••. , -o/p son las estimaciones de regresión d~ los parámetros co, 'lfl,
'Jf2, ... , 'Jfp; j es el número de años en el futuro; y, para k > Q, Yn+k es la predicción de
Yn+k a partir del periodo actual, mientras que para k ~O, Yn+k es el valor observado
de Yn+k·
Así pues, para hacer predicciones j años hacia el futuro a partir de, digamos, un
modelo autorregresivo de tercer orden (p = 3), únicamente necesitamos los valores
de datos observados de p = 3, Yn, Yn-l y Yn_ 2 , y las estimaciones de los parámetros
ro, 'l'v 'Jf2 y 'Jf3 obtenidos con un programa de regresión múltiple. Para predecir un
año en el futuro, la ecuación (19.21) se vuelve:

Para predecir dos años en el futuro, la ecuación (19.21) se vuelve:


'YA
YA n + 2 = (J)A + 'l'1 Ay 'Y
n + 1 + '1'2 n + 'Jf3 n - 1

Para predecir tres años en el futuro, la ecuación (19.21) se vuelve:

Para predecir cuatro años en el futuro, la ecuación (19.21) se vuelve:

y así sucesivamente.
Para mostrar la técnica del modelado autorregresivo, regresemos de nueva
cuenta a la serie de tiempo presentada en la tabla 19.5 (de la página 873) y grafi-
cada en la figura 19.1 (en la página 860), que representa las ventas netas (en miles
de millones de dólares) de la Compañía Eastman Kodak durante un periodo de 23
años, comprendido entre 1970 y 1992. En la tabla 19.7 se presenta la estructura de
los modelos autorregresivos de primero, segundo y tercer orden. Todas las coluro-

Modelado autorregresivo para el ajuste de tendencia y del pronóstico 891


nas de la tabla son necesarias para ajustar modelos autorregresivos de tercer orden.
La última columna se omitirá cuando se ajusten modelos regresivos de segundo
orden, y se eliminarán las últimas dos columnas cuando el modelo regresivo ajus-
tado sea de primer orden. Así pues, observamos que p = 1, 2 o 3 observaciones de
un total de n = 23 se pierden en las comparaciones necesarias para el desarrollo de
estos modelos autorregresivos de primero, segundo y tercer orden.

Tabla 19.7 Desarrollo de los modelos autorregresivos de


primero, segundo y tercer orden de las ventas netas
de la Compañía Eastman Kodak ( 1970-1 992).

Variables de predicción
Variable
Año dependiente Y¡ Y¡_ 1 Y¡_z Y¡_3

1970 1 2.8 *
1971 2 3.0 2.8
1972 3 3.5 3.0 2.8 *
1973 4 4.0 3.5 3.0 2.8
1974 5 4.6 4.0 3.5 3.0
1975 6 5.0 4.6 4.0 3.5
1976 7 5.4 5.0 4.6 4.0
1977 8 6.0 5.4 5.0 4.6
1978 9 7.0 6.0 5.4 5.0
1979 10 8.0 7.0 6.0 5.4
1980 11 9.7 8.0 7.0 6.0
1981 12 10.3 9.7 8.0 7.0
1982 13 10.8 10.3 9.7 8.0
1983 14 10.2 10.8 10.3 9.7
1984 15 10.6 10.2 10.8 10.3
1985 16 10.6 10.6 10.2 10.8
1986 17 11.5 10.6 10.6 10.2
1987 18 13.3 11.5 10.6 10.6
1988 19 17.0 13.3 11.5 10.6
1989 20 18.4 17.0 13.3 11.5
1990 21 18.9 18.4 17.0 13.3
1991 22 19.4 18.9 18.4 17.0
1992 23 20.1 19.4 18.9 18.4

Utilizando el paquete de software MINITAB (referencia 8), el siguiente modelo


autorregresivo de tercer orden es ajustado a los datos correspondientes a las ventas
netas de la Eastman Kodak (véase figura 19.13):
/\
Y;= 0.446 + l.534Y¡ _ 1 - 0.739Y¡ _ 2 + 0.218Y¡ _ 3

en la que el origen es 1973 y las unidades de "Y" son años.


A continuación uno debería probar la significación del parámetro de orden
más alto. Por otro lado, si nuestra experiencia con datos parecidos permiten
plantear hipótesis sobre el hecho de que un modelo autorregresivo sea apropiado
para esta serie de tiempo, nuestro modelo ajustado puede utilizarse directamente
con fines de predicción sin la necesidad de probar la significación de los paráme-
tros. Por consiguiente, para mostrar el procedimiento de predicción para nuestro
modelo autorregresivo de tercer orden, utilizamos las estimaciones:

cO = 0.446, o/1 = 1.534, ~2 = -0.739, \jr3 = 0.218

892 Capítulo 19 Pronóstico de series de tiempo


The regression equation is
sales= 0.446 + 1.53 laglyear - 0.739 lag2year + 0.218 lag3year

20 cases used 3 cases contain missing values

Predictor Coef Stdev t-ratio p


Constant ro 0.4459 0.4301 1.04 0.315
laglyear· 'i'1 l . 5343 0.2450 6.26 0.000
lag2year w2 -o.1394 0.4226 -1. 75 0.099
lag3year 'if3 o. 2179 0.2688 0.81 0.429

s = 0.8251 R-sq = 97.9% R-sq(adj) = 97.5%

Figura 19.1 J
Resultado parcial obtenido con MINITAB para el modelo autorregresivo de tercer orden.

así como los tres valores de datos más actuales:

Yz 1 =18.9, Y 22 = 19.4,

Nuestra predicción de las ventas netas en la Compañía Eastman Kodak para los
años 1993 a 1996 se obtienen con la ecuación (19.21) de la manera siguiente:

/\ /\ /\ /\
Y 11 +¡=0.446+1.534Y ,,+;-i - 0.739Y 11 +;- 2 + 0.218Y n+¡- 3
1993: 1 año y24 = 0.446 + (1.534)(20.1)- (0.739)(19.4) + (0.218)(18.9)
adelante = 21.0 miles de millones de dólares

1994: 2 años y25 = 0.446 + (1.534)(21.0)- (0.739)(20.1) + (0.218)(19.4)


adelante = 21.9 miles de millones de dólares
1995: 3 años y26 = 0.446 + (1.534)(21.9)- (0.739)(21.0) + (0.218)(20.1)
adelante = 22.9 miles de millones de dólares
1996: 4 años y27 = 0.446 + (1.534)(22.9)- (0.739)(21.9) + (0.218)(21.0)
adelante = 23.8 miles de millones de dólares

Sin embargo, antes de hacer predicciones, la mayoría de los investigadores pre-


fiere probar la significación de los parámetros de un modelo ajustado. Utilizando
el resultado obtenido con el paquete MINITAB (figura 19.13), la estimación de
parámetro de orden más grande, '1'3, para el modelo autorregresivo de tercer orden
es de 0.218 (redondeado) con una desviación estándar Slí/ 3 de 0.269 (redondeado).
Para probar

Ho: '1'3 =O

contra

tenemos de la ecuación (19.19),

z= \ji 3 = 0.218 = 0.81


S.¡, 3 0.269

Modelado autorregresivo para el ajuste de tendencia y del pronóstico 89J


Utilizando un nivel de significación de O.OS, la prueba de dos extremos tiene va-
lores críticos Z de ±1.96. Como Z = +0.81 < +1.96, el valor crítico de extremo supe-
rior bajo la distribución normal estandarizada (tabla E.2), podemos no rechazar H0
y llegaríamos a la conclusión de que el parámetro de tercer orden del modelo
autorregresivo no es significativamente importante y que puede ser eliminado.
Utilizando de nuevo el paquete MINITAB, obtenemos un modelo autorregre-
sivo de segundo orden y el resultado parcial se muestra en la figura 19 .14.

The regression equation is


sales = 0.473 + 1.45 laglyear - 0.455 lag2year

21 cases used 2 cases contain missing values

Predictor Coef Stdev t-ratio p


Constant @ 0.4728 0.3825 1.24 0.232
laglyear íif1 1.4530 0.2132 6.82 0.000
lag2year w 2 -o. 4548 0.2249 -2.02 0.058

s = 0.7939 R-sq 98.0% R-sq(adj) = 97.8%

Figura 19.14
Resultado parcial obtenido con MINITAB para el modelo regresivo de
segundo orden.

El modelo autorregresivo de segundo orden es


/\
Y;= 0.473 + 1.453 Y;_ 1 - 0.455 Y;-z

en la que el origen es 19 72 y las unidades de Y son = 1 año.


Del resultado obtenido con MINITAB la estimación de parámetro de segundo
orden, \j!2 , es -0.455 (redondeado) con una desviación estándar So/ 2 = 0.225
(redondeado).
Para probar

Ho: 'l'z =O

contra

tenemos, de la ecuación (19.9),

z = "'2 = -0.455 = -2.02


S.¡; 2 0.225

Al hacer la prueba con un nivel de significación de .05, puesto que Z = -2.02 <
-1.96, podemos rechazar H0 y llegaríamos a la conclusión de que el parámetro de
segundo orden del modelo autorregresivo es significativamente importante y
debería ser incluido en el modelo.
Nuestro planteamiento de construcción de modelos nos ha conducido a la se-
lección del modelo autorregresivo de segundo orden como el más apropiado para
los datos dados. Utilizando las estimaciones ci> = 0.473, "11 = 1.453, y 'Ífz = -0.455,
así como los dos valores de datos más recientes, Y22 = 19.4 y Y23 = 20.1, nuestras

894 Capítulo 19 Pronóstico de series de tiempo


predicciones de las ventas netas en la Eastman Kodak para los años 1993 a 1996 se
obtienen de la ecuación (19.21) de la manera siguiente:
A A A
Yn + ¡ = 0.473 + l.453Y11 + ¡ _ i - 0.455 Yn + ¡ _ 2
A
1993: 1 año adelante Y 24 = 0.473 + (l.453)(20.1) - 0.455(19.4)
= 20.8 miles de millones de dólares

A
1994: 2 años adelante Y 25 = 0.4 73 + (1.453)(20.8) - 0.455(20.1)
= 21.4 miles de millones de dólares
A
1995: 3 años adelante Y 26 = 0.473 + (l.453)(21.4) - 0.455(20.8)
= 22.1 miles de millones de dólares
A
1996: 4 años adelante Y27 = 0.473 + (l.453)(22.1) - 0.455(21.4)
= 22. 7 miles de millones de dólares
Los datos y el pronóstico están en el trazo de la figura 19.15.

Ci)
~
<G
22
20
\
Modelo autorregresivo de segundo orden ______ .. ......
........

:g 18
~ 16 Datos originales -.._
U)

~ 14
o
~ 12
~ 10
~ 8
§. 6
~e 4
l3 2
~ o "-'~~.._...._......._.___..__.~~..._...._......._.___..__..__.__............_......_.___.__..__..__..............._.___..~
> 70 72 74 76 78 80 82 84 86 88 90 92 94 96
Año

Figura 19.15
Uso de un modelo autorregresivo de segundo orden para las ventas
netas anuales en la Compañía Eastman Kodak.

Problemas de la sección 19.7

e 19.27 Dada una serie de tiempo anual con 40 observaciones consecutivas, si usted
fuera a ajustar un modelo autorregresivo de quinto orden:
(a) ¿Cuántas observaciones se perderían en el desarrollo del modelo
autorregresivo?
(b) ¿Cuántos parámetros necesitaría estimar?
(c) ¿Cuáles de los 40 valores originales necesitaría para hacer predicciones?
(d) Exprese el modelo.
(e) Escriba una ecuación general en la que se indique cómo haría la predicción
a j años en el futuro.

Modelado autorregresivo para el ajuste de tendencia y del pronóstico 895


19.28 Se obtuvo una serie de tiempo anual con 17 valores consecutivos. Un modelo
autorregresivo de tercer orden es ajustado a los datos y tiene los siguientes
parámetros estimados y las siguientes desviaciones estándar:

cO = 4.50, 1.80, .70, \V3 = .20

s.\ji¡
.50, s.\ji 2
.30, S,¡¡ 3 = .10

Al nivel de significación de .05, pruebe lo adecuado del modelo ajustado.


19.29 Refiérase al problema 19.28. Las tres observaciones más recientes son:

Y15 =23, Y16 = 28, Y 17 = 34

(a) Prediga la serie para los dos siguientes años.


(b) Suponga, cuando prueba lo adecuado del modelo ajustado en el problema
19.28, que las desviaciones estándar son:

s.
'l'z
= .15

(1) ¿A qué conclusiones llega?


(2) Analice de qué manera continuaría si la predicción sigue siendo su
objetivo principal.
Para los problemas 19.30 a 19.37:
(a) Ajuste un modelo autorregresivo de tercer orden y pruebe la significación
del parámetro autorregresivo de tercer orden. (Utilice el nivel a= .05.)
(b) Si es necesario, ajuste un modelo autorregresivo de segundo orden y
pruebe la significación del parámetro autorregresivo de segundo orden.
(Utilice el nivel a= .05.)
(e) Si es necesario, ajuste un modelo autorregresivo de primer orden y pruebe
la significación del parámetro autorregresivo de primer orden. (Utilice el
nivel a= .05.)
(d) Si es pertinente, proporcione predicciones anuales desde 1993 a
1996.
19.30 Refiérase al problema 19.2, correspondiente a las ganancias por acción de la
TRW Inc., de la página 870 .

• 19.31 Refiérase al problema 19.5 correspondiente a las ventas netas en la compañía


Upjohn, de la página 878.
19.32 Refiérase al problema 19.6, correspondiente a los ingresos de operación netos
de la compañía Coca-Cola, de la página 878.
19.33 Refiérase al problema 19.7, correspondiente a las ventas netas en la empresa
Gillette Company, Inc., de la página 879.
19,34 Refiérase al problema 19.8, correspondiente a las ventas netas en la empresa
Georgia-Pacific Corp., de la página 879.
19.35 Refiérase al problema 19.9, correspondiente al ingreso neto en la compañía
Boeing, de la página 880.
19.36 Refiérase al problema 19.12, correspondiente a los ingresos de operación en las
compañías Philip Morris, !ne., de la página 882 .
• 19.37 Refiérase al problema 19 .13 correspondiente a las ventas netas en la empresa
Black & Decker Corp., de la página 882.

l (·j:i Elección de un modelo de predicción apropiado


En las secciones 19.5 a 19.7 se desarrollaron siete métodos alternativos de predic-
ción de series de tiempo. En la sección 19.5 estudiamos tres modelos de uso común

896 Capítulo 19 Pronóstico de series de tiempo


que están basados en el método de mínimos cuadrados: los modelos lineal, cuadrá-
tico y exponencial. En la sección 19.6 describimos el método de Holt-Winters, y en
la sección 19.7 cubrimos tres métodos autorregresivos: los modelos de primero,
segundo y tercer orden.
En este momento debe responderse a una pregunta importante: ¿existe un
mejor modelo? Esto es, entre modelos como los descritos, ¿cuál deberá elegirse si
estamos interesados en la predicción de series de tiempo? Se tienen tres plantea-
mientos que se ofrecen como guías para la selección de modelos:

l. Lleve a cabo un análisis de regresión.


2. Mida la magnitud del error residual.
3. Utilice el principio de parsimonia.

Los métodos utilizados más ampliamente para determinar lo adecuado de un


modelo de predicción particular están basados en un juicio de qué tan bien se
han ajustado a un conjunto dado de datos de serie de tiempo. Estos métodos,
desde luego, suponen que los movimientos futuros en la serie pueden ser proyec-
tados por un estudio de los patrones de comportamiento pasado. Uno de tales
métodos consiste en llevar a cabo un análisis de residuos; otro consiste en medir
la magnitud del error residual; y un tercero consiste en seleccionar el modelo más
sencillo y menos aparatoso que se ajuste bien a los datos (esto es, el principio de
parsimonia).

1 9.8. 1 Análisis residual


Podemos recordar de nuestro estudio del análisis de regresión, en las secciones 17.9
y 18.5, que las diferencias entre los datos observados y los ajustados se conocen
como residuos. Así pues, para el i-ésimo año de una serie de tiempo anual den años,
el residuo se define como:

(19.22)

en la que Y¡ es el valor observado en el año i


/\
y Y¡ es el valor ajustado en el año i

Una vez que un modelo particular ha sido ajustado a una serie de tiempo dada, po-
demos graficar los residuos en los n periodos. Como se muestra en la figura 19.16(a)
de la página 898, si el modelo particular se ajusta adecuadamente, los residuos re-
presentan el componente irregular de la serie de tiempo y, por consiguiente, deben
estar distribuidos aleatoriamente a través de toda la serie. Por otro lado, como se
ilustra en los tres paneles restantes de la figura 19.16, si el modelo particular no
se ajusta adecuadamente, los residuos pueden estar señalando algún patrón sis-
temático como podría ser la incapacidad de explicar la tendencia [panel (b)], un fra-
caso para explicar la variación cíclica [panel (c)] o, con datos mensuales, una
incapacidad de explicar la variación estacional [panel (d)].

Elección de un modelo de predicción apropiado 897


<~~¡.
}º_,:·;
o
o•º

1 2 3 4 5 6 7 8 9 10
,:1:
• 11
Q¡-
l
<~~ 01-----.---------
• ••

o

••••

,__T..__.1_._1_._1......._1_,_1_..1_..1__.1__,1
. 2 3 4 5 6 7 8 9 10
Tiempo (años) Tiempo (años)
(a) Errores de predicción distribuidos aleatoriamente (b) Tendencia no explicada

<:,;,~ ot-·-~-·_·_•_·_.
<::.:.-
'
::.:,-
11 o
Q¡- • 1 •• <i>-
1 - . I• 1 1 1 1
o 1 2 3 4 5 6 7 8 9 10 o 1 2 3 4 5 6 7 8 9. 10
Tiempo (años) Tiempo (años)
(c) Efectos cíclicos no explicados (d) Efectos estacionales no explicados

Figura 19.16
Análisis de residuos para el estudio de patrones de error.

19.8.l Medición de la magnitud del error residual


Si, después de llevar a efecto un análisis de residuos, todavía creemos que dos o más
modelos parecen ajustar los datos de manera adecuada, entonces se puede emplear
un segundo método, que se utiliza para la selección de modelos y que está basado
en alguna medida de la magnitud del error residual. Se han propuesto numerosas
mediciones (véanse referencías 1, 2, 7 y 11) y, desafortunadamente, no existe con-
senso entre los investigadores acerca de cuál medida en particular es mejor para
determinar el modelo de predicción más apropiado.
Basándose en el principio de mínimos cuadrados, una medida que ya hemos
utilizado en el análisis de regresión (véanse secciones 17 .5 y 17 .6) es la variación no
explicada:

SSE =variación no explicada = Ln (Y¡ A


- Y¡)
'2
(19.23)
1=1

Para un modelo en particular, esta medida está basada en la suma de las diferen-
cias al cuadrado entre los valores reales y observados en una serie de tiempo dada.
Si un modelo ajustara los datos pasados de una serie de tiempo perfectamente, la
variación no explicada sería de cero. Por otro lado, si el modelo ajustara los datos
pasados de una serie de tiempo pobremente, la variación no explicada sería grande.
Así pues, cuando comparamos lo adecuado de dos o más modelos de predicción,
se puede seleccionar aquel que tenga la mínima variación no explicada como el
más apropiado, basándose en ajustes pasados de la serie de tiempo dada.
Sin embargo, una desventaja importante que se tiene al utilizar la medida de
variación no explicada cuando se comparan modelos de predicción es que se
penaliza demasiado a un modelo por tener errores grandes de predicción indivi-
dual. Esto es, siempre que se tenga una discrepancia grande entre Y¡ y Y¡, el cálculo

898 Capítulo 19 Pronóstico de series de tiempo


de la variación no explicada se magnifica en el proceso de elevar al cuadrado. Por
esta razón, una medida que parece preferir la mayoría de los investigadores para
evaluar lo adecuado de los diferentes modelos de predicción es la desviación
absoluta media (MAD, por sus siglas: mean absolute deviation):

n A
¿¡vi - v,¡ (19.24)
MAD = _;=--
1 ---
n

Para un modelo particular, la MAD es una medida del promedio de las discrepan-
cias absolutas entre los valores reales y ajustados de una serie de tiempo dada. Si se
fuera a ajustar un modelo a los datos pasados de la serie de tiempo perfectamente,
la MAD sería de cero; mientras que si el modelo ajustara pobremente a los datos
pasados de una serie de tiempo, la MAD sería grande. En consecuencia, cuando se
comparan los méritos de dos o más modelos de predicción, aquel con la MAD mí-
nima puede ser elegido como el más apropiado sobre la base de los ajustes pasados
a la serie de tiempo dada.

19.8.3 Principio de parsimonia


Si, después de efectuar un análisis de residuos y de comparar las medidas de MAD
obtenidas todavía creemos que dos o más modelos parecen ajustar adecuadamente
a los datos, entonces podemos utilizar un tercer método para la selección del mo-
delo, que se basa en el principio de parsimonia. Esto es, debemos seleccionar
el modelo más sencillo que se ajusta de manera adecuada.
Entre los siete modelos de predicción estudiados en el presente capítulo, los
modelos lineal y cuadrático de mínimos cuadrados y el modelo autorregresivo de
primer orden serían considerados, por la mayoría de los investigadores, como los
más sencillos. Su clasificación probablemente estaría en ese orden dado. El modelo
exponencial de mínimos cuadrados y el método de Holt-Winters se clasificarían
como los más complejos de las técnicas presentadas.

19.8.4 Una comparación de cinco métodos de predicción


Para ilustrar el proceso de selección de modelo, consideremos de nuevo los datos
correspondientes a la serie de tiempo anual sobre las ventas netas en la Compañía
Eastman Kodak durante el periodo de 23 años comprendido entre 1970 y 1992. Se
van a comparar cinco de los métodos de predicción descritos en las secciones 19.5
a 19.7: los modelos lineal, cuadrático, exponencial, de Holt-Winters y el auto-
rregresivo de segundo orden. (No hay necesidad de estudiar más el modelo autor-
regresivo de tercer orden para esta serie de tiempo puesto que podemos recordar,
de la sección 19.7 que dicho modelo no mejorará significativamente el ajuste res-
pecto al más sencillo modelo autorregresivo de segundo orden.)
En los paneles (a) a (e) de la figura 19.17 de las páginas 900 y 901 se muestran
las gráficas de residuos correspondientes a los modelos lineal, cuadrático, expo-
nencial, de Holt-Winters y autorregresivo de segundo orden para los datos sobre
las ventas netas en la Eastman Kodak. Se debe tener precaución cuando se obtienen
conclusiones a partir de estas gráficas, pues solamente se han observado 23 puntos
de datos.

Elección de un modelo de predicción apropiado 899


3
(J)
o 2
"l:l
ctS
• • •
N
ºfij • • •
"l:l
e:
• • • • •
~<ll o •
(J)
•• • • •
o:;:¡ -1
"l:l
• • •
·¡¡;
~ -2 • •
-3
70 72 74 76 78 80 82 84 86 88 90 92
Año

(a) Modelo de tendencia lineal

3
(J)
o 2
• • • •
"l:l
ctS
N
·e:
ctS • •
• •
"l:l
e:
t1l<ll o

(J)
• • • • • • •
g -1 •
"l:l
·¡¡; •
<ll
a: -2 • •
-3
70 72 74 76 78 80 82 84 86 88 90 92
Año

(b) Modelo de tendencia cuadrática

3
(J)
o
"O
2 • •
ctS
N
-~ • •
"O
e: • • •
t1l<ll o
• • •
(J)
o -1
:;:¡
• •
"O
·¡¡;
<ll
• • • • •
a: -2
-3
Figura 19.17 70 72 74 76 78 80 82 84 86 88 90 92
Gráficas de residuos para cinco Año
métodos de predicción.
Fuente: Los datos fueron tomados de (c) Modelo de tendencia exponencial
la tabla 19 .8 en la página 902.

900 Capítulo 19 Pronóstico de series de tiempo


3
(/)
o 2
"O
<11
N
-~ •
• •
"O
e:
<11
o •
'lií
• • • •
• •
Q)
(/)
g -1
"O
·¡¡¡
~ -2

-3
70 72 74 76 78 80 82 84 86 88 90 92
Año

(d) Modelo de Holt-Winters

3 •
(/)
o 2
"O
<11
N
'f¿ • •
"O
e:
19 • • •
o
• • • • •
(/)

• •
Q)
(/)

g -1 • •
"O
·¡¡¡ • •
~ -2

-3
70 72 74 76 78 80 82 84 86 88 90 92
Año

(e) Modelo autorregresivo de segundo orden

Figura 19. 17 (Continuación)

En los paneles (a), (b) y (c) observamos que los efectos cíclicos no quedaron de-
tallados en cada uno de los modelos de mínimos cuadrados. Sin embargo, las grá-
ficas de residuos para los modelos cuadrático y exponencial parecen sugerir que
estos modelos proporcionan un mejor ajuste a la serie que el modelo lineal, debido
a que los paneles (b) y (c) muestran una mayor aleatoriedad (esto es, un patrón
menos sistemático) en los residuos en los primeros ocho años de la serie. Por otro
lado, la creciente amplitud (más ancha) observada en los últimos años de las cinco
gráficas de residuos puede sugerir que ninguno de los modelos examinados aquí se
desempeña sobresalientemente bien respecto a la captura de los grandes movimien-
tos de ventas netas que se han presentado en los años más recientes. Sin embargo,
en los paneles (d) y (e) observamos que el método de Holt-Winters parece propor-
cionar el ajuste más cercano, pero el método autorregresivo de segundo orden
muestra una estructura sistemática más pequeña.
Para resumir, sobre la base de los análisis de residuos de los cinco modelos de
predicción, parecería que el modelo de Holt-Winters y el autorregresivo de se-
gundo orden pueden ser los más apropiados y que el modelo lineal es el menos
adecuado. Para verificar lo anterior, comparemos los cinco modelos respecto a la
magnitud de sus errores residuales.

Elección de un modelo de predicción apropiado 90 1


En la tabla 19.8 se presentan los valores reales (Y¡) junto con los valores ajus-
tados (Y¡) y los residuos (e¡) para cada uno de los cinco modelos. Además, se mues-
tra la MAD correspondiente a cada modelo.

Tabla 19.8 Comparación de cinco métodos de predicción utilizando la desviación absoluta media (MAD).

Método de predicción
Ventas Holt- Autorregresivo
netas Lineal Cuadrático
/\
Exponencial
/\ /\
Winters de segundo
/\
orden
/\
Año Y¡ Y¡ e¡ Y¡ e1 Y¡ e; Y¡ e¡ Y; e¡

1970 2.8 1.2 1.6 2.9 -0.1 3.2 -0.4


1971 3.0 2.0 1.0 3.3 -0.3 3.5 -0.5 3.0 o.o
1972 3.5 2.8 0.7 3.6 -0.1 3.8 -0.3 3.4 0.1 3.6 -0.1
1973 4.0 3.6 0.4 4.0 o.o 4.1 -0.1 3.9 0.1 4.2 -0.2
1974 4.6 4.4 0.2 4.5 0.1 4.5 0.1 4.5 0.1 4.7 -0.1
1975 5.0 5.2 -0.2 5.0 o.o 4.9 0.1 5.3 -0.3 5.3 -0.3
1976 5.4 6.0 -0.6 5.6 -0.2 5.4 o.o 5.7 -0.3 5.6 -0.2
1977 6.0 6.8 -0.8 6.2 -0.2 5.9 0.1 6.1 -0.1 6.0 o.o
1978 7.0 7.6 -0.6 6.8 0.2 6.5 0.5 6.9 0.1 6.7 0.3
1979 8.0 8.4 -0.4 7.5 0.5 7.1 0.9 7.9 0.1 7.9 0.1
1980 9.7 9.2 0.5 8.2 1.5 7.7 2.0 9.4 0.3 8.9 0.8
1981 10.3 10.0 0.3 9.0 1.3 8.5 1.8 10.4 -0.l 10.9 -0.6
1982 10.8 10.8 o.o 9.8 1.0 9.3 1.5 11.0 -0.2 11.0 -0.2
1983 10.2 11.6 -1.4 10.7 -0.5 10.1 0.1 10.7 -0.5 11.5 -1.3
1984 10.6 12.4 -1.8 11.6 -1.0 11.1 0.5 10.6 o.o 10.4 0.2
1985 10.6 13.2 -2.6 12.6 -2.0 12.1 -1.S 10.6 o.o 11.2 -0.6
1986 11.5 14.0 -2.5 13.6 -2.1 13.2 1.7 11.2 0.3 11.1 0.4
1987 13.3 14.8 -1.5 14.6 -1.3 14.5 -1.2 12.8 0.5 12.4 0.9
1988 17.0 15.6 1.4 15.7 1.3 15.8 1.2 16.l 0.9 14.6 2.4
1989 18.4 16.4 2.0 16.8 1.6 17.3 1.1 18.5 -0.1 19.1 -0.7
1990 18.9 17.2 1.7 18.0 0.9 18.9 o.o 19.5 -0.6 19.5 -0.6
1991 19.4 18.0 1.4 19.3 0.1 20.7 -1.3 19.9 -0.5 19.6 -0.2
1992 20.1 18.8 1.3 20.5 -0.4 22.7 -2.6 20.2 -0.1 20.1 o.o
suma 24.9 16.7 19.5 5.3 10.2
abundante
MAD 24.9 = 1.08 16.7 =0.73 li35 = 0.85 ll.= 0.24 10·2 = 0.49
23 23 22 21

Una comparación de la MAD correspondiente a cada uno de los modelos


indica claramente que el modelo más sencillo, el lineal, para esta serie de tiempo,
es el que se adapta más pobremente. Además, los otros dos modelos de mínimos
cuadrados (cuadrático y exponencial) no muestran una suficiente mejora con el
tiempo sobre el modelo lineal. Como pudimos darnos cuenta con el análisis de
residuos (figura 19.17 de las páginas 900 y 901), los modelos con la MAD más
pequeña son el de Holt-Winters y el autorregresivo de segundo orden. Aunque el
modelo de Holt-Winters puede ser ligeramente superior, basándonos en el princi-
pio de parsimonia, el modelo regresivo de segundo orden es el que se elige con
fines de predicción de las ventas netas de la Compañía Eastman Kodak.

19.8.S Selección de modelos: una advertencia


Ya que hemos elegido un modelo particular para hacer predicciones, se vuelve
imperativo que revisemos apropiadamente el modelo escogido. Después de todo,

902 Capítulo 19 Pronóstico de series de tiempo


el objetivo al seleccionar el modelo consiste en ser capaces de proyectar o predecir
movimientos futuros en un conjunto de datos de serie de tiempo. Desafortunada-
mente, los modelos de predicción tratados por lo general son malos para detectar
cambios en la estructura subyacente de la serie de tiempo. Es importante, entonces,
que tales proyecciones sean examinadas junto con las obtenidas con otros tipos de
modelos de predicción (como el uso de indicadores líderes). Tan pronto como se
observe un nuxvo valor de datos (Yr) en el periodo t, éste debe ser comparado con
su proyección Y,. Si la diferencia es muy grande, debe revisarse el modelo de predic-
ción. Estos procedimientos de control adaptables son descritos en la referencia 2.

Problemas de la sección 19.8

En los problemas 19.38 a 19.45:


(a) Lleve a cabo un análisis de residuos para cada modelo ajustado.
(b) Calcule la MAD para cada modelo ajustado.
(c) Basándose en los resultados de los indsos (a) y (b), y en el principio de
parsimonia, ¿qué modelo escogería usted con fines de predicción?
Explique su respuesta.
19.38 Refiérase a los problemas 19.2 de la página 870, 19.9 de la página 888 y 19.30
de la página 896, correspondientes a las ganancias por acción en la TWR, Inc .

• 19.39 Refiérase a los problemas 19.5 (página 878), 19.20 (página 888) y 19.31
(página 896), correspondientes a los ingresos netos por operación en la com-
pañía Upjohn.
19.40 Refiérase a los problemas 19.6 (página 878), 19.21 (página 888) y 19.32
(página 896), correspondientes a las ventas netas en la compañía Coca-Cola.
19.41 Refiérase a los problemas 19.7 (página 879), 19.22 (página 888) y 19.33
(página 896), correspondientes a las ventas netas en la compañía Gillette, lnc.
19.42 Refiérase a los problemas 19.8 (página 879), 19.23 (página 888) y 19.34
(página 896), correspondientes a las ventas netas en la empresa Georgia-Pacific
Corp.
19.43 Refiérase a los problemas 19.9 (página 880), 19.24 (página 888) y 19.35
(página 896), correspondientes al ingreso total en la compañía Boeing.
19.44 Refiérase a los problemas 19.12 (página 882), 19.25 (página 888) y 19.36
(página 896), correspondientes a los ingresos por operación en la empresa
Philip Morris, Inc.
• 19.45 Refiérase a los problemas 19.13 (página 882), 19.26 (página 888) y 19.37
(página 896), correspondientes a las ventas netas en la empresa Black &
Decker Corp.

l (·X·J Pronóstico de series temporales


de datos mensuales
En la tabla 19.9 de la página 904 se presentan los gastos mensuales de construcción
de residencias privadas (en millones de dólares) en una ciudad pequeña de Estados
Unidos, desde enero de 1988 hasta diciembre de 1993. Esta serie de tiempo se
muestra en la figura 19.18 (página 904). Para series de tiempo mensuales como
ésta, el modelo de series de tiempo multiplicativo clásico incluye un componente
estacional además de los componentes de tendencia, cíclico e irregular. El mode-
lo está expresado por la ecuación (19.2) de la página 861 como:

Y¡ = T¡ · S¡ · C¡ · l¡

Pronóstico de series temporales de datos mensuales 903


Tabla 19.9 Gastos de construcción de residencias privadas mensuales (en millones
de dólares) en una ciudad pequeña de Estados Unidos (enero de 1988 a
diciembre de 1993).
Año
Mes 1988 1989 1990 1991 1992 1993
Enero 10.2 11.2 12.5 12.6 13.2 13.0
Febrero 9.7 11.0 12.0 12.0 12.5 12.7
Marzo 11.3 12.7 13.9 14.2 14.4 14.8
Abril 12.4 14.3 15.4 15.6 15.8 15.9
Mayo 13.6 16.2 17.0 17.1 17.l 17.1
Junio 14.5 17.7 18.2 18.3 18.1 17.7
Julio 14.8 18.4 18.6 18.9 18.7 17.9
Agosto 15.3 18.6 18.8 19.3 18.9 18.0
Septiembre 15.0 18.1 18.4 18.7 18.l 16.8
Octubre 15.0 18.0 18.2 18.7 17.8 16.3
Noviembre 14.2 16.7 17.1 17.7 16.7 14.7
Diciembre 12.4 14.2 14.5 15.0 14.0 12.2

Figura 19.18
Construcción de residencias privadas (en millones de dólares) en una cuidad pequeña de Estados Unidos
(desde enero de 1988 hasta diciembre de 1993).
Fuente: Los datos fueron tomados de la tabla 19.9.

19.9.1 Ajuste de previsión y tendencia con mínimos


cuadrados
Para ajustar un línea de tendencia de mínimos cuadrados a la serie mensual de seis
años, codificamos los valores consecutivos de X desde O hasta 71 y empleamos un
paquete de software estadístico como MINITAB. Como se puede observar del resul-
tado obtenido con este paquete y mostrado en la figura 19 .19, el modelo lineal está
dado por
/\
Y¡= 14.033 + 0.043X¡

en la que el origen 3 es el 15 de enero de 1988 y las unidades de X son meses.

904 Capítulo 1 S> Pronóstico de series de tiempo


The regression equation is
rescon = 14.0 + 0.0431 months

Predictor Coef Stdev t-ratio p


Constant bo 14.0330 0.5599 25.07 0.000
months b1 0.04312 o. 01361 3.17 0.002

s = 2.400 R-sq = 12.5% R-sq(adj) 11. 3%

Figura 19.19
Resultado parcial obtenido con MINITAB para el ajuste del modelo de regresión lineal a los
datos de la serie de tiempo mensual sobre los gastos en construcción residencial privada.

La intersección b0 = 14.033 es el valor de tendencia ajustado que refleja los gas-


tos de construcción de residencias privadas (en millones de dólares) durante el mes
de origen o base, enero de 1988. La pendiente b 1 = 0.043 indica que los gastos de
construcción de residencias privadas estuvieron aumentando con una tasa de 0.043
millones de dólares (esto es, 43 mil dólares) por mes durante este periodo de seis
años. Lo anterior se representa en la figura 19.20, en la que la pendiente de la recta
de tendencia ajustada mensualmente muestra una ligera tendencia a aumentar con
el tiempo. Esta ecuación puede ser utilizada para proyectar valores de tendencia
mensual en los gastos de construcción de residencias privadas. Sin embargo, series
de tiempo mensual como ésta se ven influenciadas por factores estacionales, y debe-
mos desarrol.lar un índice estacional que explique las fluctuaciones que se dan de
un mes a otro.

U> 21 11
!!! Y;= 14.033 + 0.043X;
~ 20
Origen = enero de 1988
~ 19 Unidades X= 1 mes
"O

"'e:<1> 18
,g 17
.E
<1>
16
"O
15
"'
..!!?
14
:§.
(ij
-¡::;
13
e: 12
<1>
"O
·¡¡;
11
!!!
e: 10
•O
·¡;;
o 9
2
¡¡¡
e:
o
u o
EFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASOND
1988 1989 1990 1991 1992 1993 1994
Mes y año

Figura 19.20 Ajuste de la línea de tendencia de mínimos cuadrados.


Fuente: Los datos fueron tomados de la tabla 19.8 y la línea ajustada de la figura 19.19.

19.9.2 Cálculo del índice estacional


Es importante aislar y estudiar los movimientos estacionales de una serie de
tiempo mensual por dos razones. Primero, al conocer el valor del componente esta-
cional para cualquier mes en particular, podemos fácilmente ajustar y mejorar
las proyecciones de tendencia con propósitos de predicción. Segundo, al conocer
el valor del componente estacional, podemos descomponer la serie de tiempo

Pronóstico de series temporales de datos mensuales 905


mediante la eliminación de sus influencias, junto con aquellas pertenecientes a la
tendencia y a las fluctuaciones irregulares, y, en consecuencia, concentrarnos en
los movimientos cíclicos de la serie. Si, como se supone a menudo, los movimien-
tos estacionales son bastante constantes respecto al tiempo, la construcción de un
índice estacional puede ser ilustrada según se aprecia en las tablas 19 .10 y 19 .11
que se encuentran en las páginas 906 a 908.

Tabla 19.1 O Desarrollo del índice estacional.

(2)
Gastos de (3) (4)
(1) construcción Totales Promedios (5)
Año residencial móviles móviles Cocientes , (6) (7)
y privada pesados pesados de promedios Indice Datos
mes (millones de dólares) de 13 meses (de 13 meses) móviles estacional desestacionarios
1988 Ene. 10.2 * * 0.78228 13.0388
Feb. 9.7 * * 0.75287 12.8841
Mar. 11.3 0.86680 13.0364
Abr. 12.4 0.95242 13.0194
May. 13.6 * 1.04975 12.9555
Jun. 14.5 * 1.12183 12.9253
Jul. 14.8 317.8 13.2417 1.11768 1.14530 12.9223
Ago. 15.3 320.l 13.3375 1.14714 1.16050 13.1840
Sep. 15.0 322.8 13.4500 1.11524 1.12460 13.3381
Oct. . 15.0 326.1 13.5875 1.10396 1.11809 13.4157
Nov. 14.2 330.6 13.7750 1.03085 1.04196 13.6282
Dic. 12.4 336.4 14.0167 0.88466 0.88360 14.0334
1989 Ene. 11.2 343.2 14.3000 0.78322 0.78228 14.3171
Feb. 11.0 350.1 14.5875 0.75407 0.75287 14.6108
Mar. 12.7 356.5 14.8542 0.85498 0.86680 14.6516
Abr. 14.3 362.6 15.1083 0.94650 0.95242 15.0144
May. 16.2 368.1 15.3375 1.05623 1.04975 15.4323
Jun. 17.7 372.4 15.5167 1.14071 1.12183 15.7778
Jul. 18.4 375.5 15.6458 1.17603 1.14530 16.0656
Ago. 18.6 377.8 15.7417 1.18158 1.16050 16.0276
Sep. 18.1 380.0 15.8333 1.14316 1.12460 16.0947
Oct. 18.0 382.3 15.9292 1.13000 1.11809 16.0989
Nov. 16.7 384.2 16.0083 1.04321 1.04196 16.0275
Dic. 14.2 385.5 16.0625 0.88405 0.88360 16.0705
1990 Ene. 12.5 386.2 16.0917 0.77680 0.78228 15.9789
Feb. 12.0 386.6 16.1083 0.74496 0.75287 15.9390
Mar. 13.9 387.1 16.1292 0.86179 0.86680 16.0360
Abr. 15.4 387.6 16.1500 0.95356 0.95242 16.1693
May. 17.0 388.2 16.1750 1.05100 1.04975 16.1943
Jun. 18.2 388.9 16.2042 1.12317 1.12183 16.2235
Jul. 18.6 389.3 16.2208 1.14667 1.14530 16.2402
Ago. 18.8 389.4 16.2250 1.15871 1.16050 16.1999
Sep. 18.4 389.7 16.2375 1.13318 i.12460 16.3614
Oct. 18.2 390.2 16.2583 1.11943 1.11809 16.2778
Nov. 17.1 390.5 16.2708 1.05096 1.04196 16.4114
Dic. 14.5 390.7 16.2792 0.89071 0.88360 16.4101
1991 Ene. 12.6 391.1 16.2958 0.77320 0.78228 16.1067
Feb. 12.0 391.9 16.3292 0.73488 0.75287 15.9390
Mar. 14.2 392.7 16.3625 0.86784 0.86680 16.3821
Abr. 15.6 393.5 16.3958 0.95146 0.95242 16.3793
May. 17.l 394.6 16.4417 1.04004 1.04975 16.2896
Jun. 18.3 395.7 16.4875 1.10993 1.12183 16.3127

906 Capítulo 19 Pronóstico de series de tiempo


Tabla 19.1 O (continuación)

(2)
Gastos de (3) (4)
(1) construcción Totales Promedios (5)
Año residencial móviles móviles Cocientes , (6) (7)
y privada pesados pesados de promedios Indice Datos
mes (millones de dólares) de 13 meses (de 13 meses) móviles estacional desestacionarios
Jul. 18.9 396.8 16.5333 1.14315 1.14530 16.5022
Ago. 19.3 397.9 16.5792 1.16411 1.16050 16.6308
Sep. 18.7 398.6 16.6083 1.12594 1.12460 16.6282
Oct 18.7 399.0 16.6250 1.12481 1.11809 16.7250
Nov. 17.7 399.2 16.6333 1.06413 1.04196 16.9872
Dic. 15.0 399.0 16.6250 0.90226 0.88360 16.9759
1992 Ene. 13.2 398.6 16.6083 0.79478 0.78228 16.8737
Feb. 12.5 398.0 16.5833 0.75377 0.75287 16.6032
Mar. 14.4 397.0 16.5417 0.87053 0.86680 16.6128
Abr. 15.8 395.5 16.4792 0.95879 0.95242 16.5893
May. 17.1 393.6 16.4000 1.04268 1.04975 16.2896
Jun. 18.1 391.6 16.3167 1.10930 1.12183 16.1344
Jul. 18.7 390.4 16.2667 1.14959 1.14530 16.3275
Ago. 18.9 390.4 16.2667 1.16189 1.16050 16.2861
Sep. 18.1 391.0 16.2917 1.11100 1.12460 16.0947
Oct. 17.8 391.5 16.3125 1.09119 1.11809 15.9200
Nov. 16.7 391.6 16.3167 1.02349 1.04196 16.0275
Dic. 14.0 391.2 16.3000 0.85890 0.88360 15.8442
1993 Ene. 13.0 390.0 16.2500 0.80000 0.78228 16.6181
Feb. 12.7 388.3 16.1792 0.78496 0.75287 16.8688
Mar. 14.8 386.l 16.0875 0.91997 0.86680 17.0743
Abr. 15.9 383.3 15.9708 0.99556 0.95242 16.6943
May. 17.1 379.8 15.8250 1.08057 1.04975 16.2896
Jun. 17.7 376.0 15.6667 1.12979 1.12183 15.7778
Jul. 17.9 * * 1.14530 15.6290
Ago. 18.0 * * * 1.16050 15.5106
Sep. 16.8 1.12460 14.9387
Oct. 16.3 * * 1.11809 14.5784
Nov. 14.7 * * 1.04196 14.1080
Dic. 12.2 * * 0.88360 13.8071
Nota: Se escribió un macro en MINITAB (referencia 8) para producir las columnas (3) a (7).
Fuente: Los datos fueron tomados de la tabla 19.9.

Para empezar, se obtiene una serie de totales móviles pesados de 13 meses. Para
calcular un total móvil pesado de 13 meses, el primero y el último mes reciben un
peso de uno y los meses que están en medio reciben un peso de dos. Así pues, por
ejemplo, el primer total móvil pesado de 13 meses se obtiene sumando los valores
de gastos de construcción de residencias privadas correspondientes a enero de
1988 y enero de 1989 al doble de los valores de los gastos dados para los 11 meses
de enmedio (febrero de 1988 a diciembre de 1988).
Esto es:

(l)(Ene. 88) + (2)(Feb. 88) + (2)(Mar. 88) + · · · + (2)(Dic. 88) + (l)(Ene. 89)

El total móvil resultante, 317.8, se registra en el mes de enmedio: julio de 1988. El


segundo total móvil pesado de 13 meses se obtiene sumando los valores de los gas-
tos de constructión de residencias privadas correspondientes a febrero de 1988 y

Pronóstico de series temporales de datos mensuales 907


febrero de 1989 al doble de los valores de los gastos dados para los 11 meses de
enmedio (marzo de 1988 a enero de 1989). Esto es

(l)(Feb. 88) + (2)(Mar. 88) + (2)(Abr. 88) + · · · + (2)(Ene. 89) + (l)(Feb. 89)

El total móvil resultante, 320.1, se registra en el mes intermedio: agosto de 1988.


Este proceso continúa sumando siempre los extremos, los valores que repre-
sentan el primero y último meses del total móvil, al doble del valor de los 11 meses
de enmedio. Como se observa en la columna (3) de la tabla 19.10, cuando regis-
tramos estos valores, los resultados se presentan en el mes de enmedio que com-
prende a cada total móvil respectivo.
Al dividir estos totales móviles de la columna (3) entre 24, se obtienen los pro-
medios móviles pesados, como se muestra en la columna (4). Se dice que estos
promedios móviles pesados consisten en los componentes de tendencia y cíclico
de las series. Los datos originales [columna (2)] se dividen entonces entre los pro-
medios móviles pesados correspondientes [columna (4)], produciendo los cocientes
de promedios móviles mostrados en la columna (5). Esencialmente, estos cocientes
de promedios móviles representan las fluctuaciones estacional e irregular de la
serie, puesto que la división de los datos observados [columna (2)] entre los prome-
dios móviles pesados [columna (4)] elimina efectivamente las influencias cíclica y
de tendencia, como se muestra en la ecuación (19.25):

T 1 • S; · C 1 • I 1
- - - - - - = S1 • I1 (19.25)
Promedio móvil pesado¡ T; ·C;

Para formar el índice estacional, los datos correspondientes a los cocientes de


promedios móviles de la tabla 19 .10 son reordenados de acuerdo con los valores
mensuales, como se muestra en la tabla 19.11.

Tabla 19.11 Cálculo del índice estacional a partir de la mediana de los cocientes de promedios móviles mensuales.

Año
Índice
Mes 1988 1989 1990 1991 1992 1993 Mediana estacional
Enero 0.78322 0.77680 0.77320 0.79478 0.80000 0.78322 0.78228
Febrero 0.75407 0.74496 0.73488 0.75377 0.78496 0.75377 0.75287
Marzo 0.85498 0.86179 0.86784 0.87053 0.91997 0.86784 0.86680
Abril 0.94650 0.95356 0.95146 0.95879 0.99556 0.95356 0.95242
Mayo 1.05623 1.05100 1.04004 1.04268 1.08057 1.05100 1.04975
Junio 1.14071 1.12317 1.10993 1.10930 1.12979 1.12317 1.12183
Julio 1.11768 1.17603 1.14667 1.14315 1.14959 1.14667 1.14530
Agosto 1.14714 1.18158 1.15871 1.16411 1.16189 1.16189 1.16050
Septiembre 1.11524 1.14316 1.13318 1.12594 1.11100 1.12594 1.12460
Octubre 1.10396 1.13000 1.11943 1.12481 1.09119 * 1.11943 1.11809
Noviembre 1.03085 1.04321 1.05096 1.06413 1.02349 1.04321 1.04196
Diciembre 0.88466 0.88405 0.89071 0.90226 0.85890 0.88466 0.88360
12.01436 12.00000
índice estacional = (l 2 .0)(mediana)
12.01436
Fuente: Los datos fueron tomados de la tabla 19 .1 O.

908 Capítulo 19 Pronóstico de series de tiempo


En la tabla 19 .11 se puede ver que, para cada mes, se pueden eliminar las varia-
ciones irregulares si la mediana de los diferentes cocientes de promedios pesados
obtenidos se utiliza como un indicador de la actividad estacional respecto al
tiempo. Como se muestra en la tabla 19.11, estos valores medianos se ajustan
después de modo que el valor total de los índices estacionales durante el año sea
de 12.0, y el valor promedio de cada índice estacional (mensual) sea de 1.0. Por
consiguiente, observamos que un índice estacional de 0.782 correspondiente al
mes de enero nos indica que el valor de los gastos de construcción de residencias
privadas para el mes de enero es de solamente 78.2% del promedio mensual. Un
índice estacional de 1.145 correspondiente al mes de julio nos indica que el valor
de los gastos en julio es 14.5% mayor que el promedio.

19.9.3 Uso del índice estacional para hacer pronósticos


Con el propósito de utilizar el índice estacional para ajustar una proyección de
tendencia con fines de predicción, solamente multiplicamos el valor de la tenden-
cia proyectado para un mes en particular por el correspondiente índice estacional.
Por ejemplo, utilizando nuestro modelo, los valores de tendencia mensual proyec-
tados para los gastos en construcción de residencias privadas durante el año de
1996 se enumeran en la columna (1) de la tabla 19.12. Los respectivos índices es-
tacionales mensuales se presentan en la columna (2). Haciendo ajustes de las fluctua-
ciones estacionales, el producto de los diferentes valores de tendencia mensuales
proyectados con respectivos índices estacionales produce el conjunto de predic-
ciones mensuales que se muestran en la columna (3).

Tabla 19. I 2 Ajuste de proyecciones de tendencia de


mínimos cuadrados mediante índices
estacionales con propósitos de
predicción.
(1)
Proyección de , (2)
tendencia mensual Indice (3)
Mes para el año 1996 estacional Predicción
Enero 18.173 0.78228 14.216
Febrero 18.216 0.75287 13.714
Marzo 18.259 0.86680 15.827
Abril 18.302 0.95242 17.431
Mayo 18.345 1.04975 19.258
Junio 18.389 1.12183 20.629
Julio 18.432 1.14530 21.110
Agosto 18.475 1.16050 21.440
Septiembre 18.518 1.12460 20.825
Octubre 18.561 1.11809 20.753
Noviembre 18.604 1.04196 19.385
Diciembre 18.647 0.88360 16.477
Fuente: Los datos fueron tomados de la tabla 19.11 y del modelo de tendencia
anual.

Problemas de la sección 19. 9


e 19.46 Los datos de la siguiente tabla representan los gastos (en miles de dólares)
hechos por un cierto municipio y que fueron canalizados a su departamento
de salud, desde enero de 1985 hasta diciembre de 1994.

Pronóstico de series temporales de datos mensuales 909


Gastos mensuales.

Año

Mes 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

Enero 262 259 271 251 298 260 275 315 354 417
Febrero 295 276 241 231 283 291 321 342 365 408
Marzo 333 310 301 252 315 307 352 370 389 416
Abril 252 238 265 293 287 293 322 316 198 398
Mayo 274 270 255 278 301 279 309 361 366 397
Junio 245 292 301 447 185 287 314 320 389 452
Julio 377 289 278 216 368 344 299 324 341 423
Agosto 291 289 262 247 310 359 355 320 413 456
Septiembre 273 273 246 267 313 250 324 344 387 356
Octubre 266 271 249 281 312 368 310 300 384 479
Noviembre 286 272 246 297 325 359 339 350 415 425
Diciembre 285 284 221 288 326 345 320 333 328 499

(a) Grafique los datos en un diagrama.


(b) Calcule el índice estacional.
(c) Ajuste una línea de tendencia lineal de mínimos cuadrados a la serie de
tiempo mensual.
(d) Utilice la ecuación de tendencia mensual y el índice estacional para predecir
los desembolsos mensuales para los 12 meses de 1995 y 1996.
Para los problemas 19.47 a 19.49:
(a) Grafique los datos en un diagrama.
(b) Calcule el índice estacional.
(c) Ajuste una línea de tendencia lineal de mínimos cuadrados a la serie de
tiempo mensual.
(d) Utilice la ecuación de tendencia mensual y el índice estacional para hacer
una predicción correspondiente a los 12 meses de 1994.
(e) 0;¡¡91.J.to> Acuda a su biblioteca y, utilizando las fuentes apropiadas,
registre los datos reales para 1994. Compare los valores reales con los
predichos. Explique sus resultados.
(f) Haga una predicción para diciembre de 1996.
19.47 Los datos de la siguiente tabla representan las ventas totales al menudeo en
Estados Unidos correspondientes al periodo que va de enero de 1989 a diciembre
de 1993.

Ventas al menudeo mensuales.


Año

Mes 1989 1990 1991 1992 1993

Enero 124.2 133.3 134.5 141.9 148.4


Febrero 120.5 128.0 131.6 142.8 145.0
Marzo 141.9 149.2 152.7 154.5 164.6
Abril 140.4 145.8 151.7 158.8 170.3
Mayo 151.0 155.0 163.5 165.7 176.1
Junio 149.8 154.4 157.5 164.2 175.7
Julio 145.3 149.7 158.3 165.4 177.7
Agosto 153.8 158.2 163.4 165.9 177.l
Septiembre 144.8 146.3 149.8 160.2 171.1
Octubre 143.l 151.5 155.5 168.7 176.4
Noviembre 149.6 156.1 159.1 167.0 180.9
Diciembre 177.4 179.7 185.2 204.0 218.3
F11e11te: Departamento de Comercio de Estados Unidos.

910 Capítulo 19 Pronóstico de series de tiempo


19.48 Los datos de la tabla siguiente representan las ventas totales mensuales de
fondos mutuos (en millones de dólares) desde enero de 1990 hasta diciembre
de 1993.

Valor mensual total del mercado de fondos mutuos.

Año

Mes 1990 1991 1992 1993

Enero 13,719 13,409 32,589 36,877


Febrero 11,818 13,915 26,230 35,419
Marzo 13,843 15,810 30,411 42,212
Abril 14,052 20,429 29,906 40,936
Mayo 12,517 18,255 26,984 36,901
Junio 13,027 16,964 28,287 40,692
Julio 12,502 19,398 32,016 43,629
Agosto 13,221 19,993 29,777 45,575
Septiembre 9,974 20,892 29,360 43,199
Octubre 10,564 24,618 28,049 45,526
Noviembre 10,444 22,677 28,740 50,650
Diciembre 15,379 28,167 38,796 55,830
Fuente: Bolsa de Valores de Nueva York, 1994.

19.49 Los datos de la tabla siguiente representan los precios mensuales promedio de
gasolina al menudeo (en centavos por galón) en Estados Unidos desde enero
de 1989 hasta diciembre de 1993.

Precios mensuales al menudeo de la gasolina.

Año

Mes 1989 1990 1991 1992 1993

Enero 91.8 104.2 124.7 107.3 111.7


Febrero 92.6 103.7 114.3 105.4 110.8
Marzo 94.0 102.3 108.2 105.8 109.8
Abril 106.5 104.4 110.4 107.9 111.2
Mayo 111.9 106.1 115.6 113.6 112.9
junio 111.4 108.8 116.0 117.9 113.0
Julio 109.2 108.4 112.7 117.5 110.9
Agosto 105.7 119.0 114.0 115.8 109.7
Septiembre 102.9 129.4 114.3 115.8 108.5
Octubre 102.7 137.8 112.2 115.4 112.7
Noviembre 99.9 137.7 113.4 115.9 111.3
Diciembre 98.0 135.4 112.3 113.6 107.0
Fuente: Administración de Información sobre Energía de Estados Unidos, 1994.

IE·!l·J Dificultades referentes al análisis


de series temporales
El valor de la metodología para hacer predicciones como el análisis de series tem-
porales, que utiliza la información pasada y presente como una guía hacia el fu-
turo, fue reconocido y expresado elocuentemente hace más de dos siglos por el
estadista norteamericano Patrick Henry, quien dijo:

Dificultades de referentes al análisis de series temporales S> 1 1


Solamente tengo una lámpara que guía mis pasos, y esta es la lámpara de
la experiencia. No conozco otra forma de juzgar el futuro más que con el
pasado. [Discurso pronunciado en la Convención de Virginia (Richmond), el 23
de marzo de 1775.]
Si fuera cierto (como lo supone el análisis de series temporales) que los factores
que han ocasionado patrones particulares en la actividad económica en el pasado
y en el presente continuarán haciéndolo de forma parecida en el futuro, el análisis
de series de tiempo, por sí mismo, sería con certeza una herramienta de predicción
más apropiada y efectiva, así como una ayuda en el control administrativo de
actividades presentes.
Por otro lado, los críticos de los métodos clásicos de las series de tiempo argu-
mentan que éstos son excesivamente ingenuos y mecánicos; esto es, un modelo
matemático basado en información pasada no debería utilizarse para extrapolar
mecánicamente tendencias hacia el futuro, sin tomar en consideración juicios
personales, experiencias en los negocios o tecnologías, hábitos y necesidades
cambiantes (véase problema 19.50 en la página 914). Así pues, en los últimos
años, la gente dedicada a la econometría ha estado interesada en incluir tales fac-
tores en el desarrollo de modelos computarizados altamente sofisticados de la
actividad económica, todo esto con fines de pronóstico. Tales métodos de predic-
ción, sin embargo, están más allá del alcance del presente texto (véanse referen-
cias 1 a 5, 7 y 11).
Sin embargo, como hemos visto en las secciones anteriores del capítulo, los
métodos de series de tiempo proporcionan guías útiles para que los líderes empre-
sariales puedan proyectar tendencias futuras (ya sea a largo o a corto plazo). Si se
les utiliza apropiadamente, en conjunción con otros métodos de predicción, al
tiempo que se torna en cuenta el juicio empresarial y la experiencia, los métodos
de series de tiempo continuarán siendo una excelente herramienta empresarial
para la toma de decisiones.

1C·j I 1 Resumen y visión general


Como observamos en el diagrama resumen del presente capítulo, hemos desarro-
llado numerosos planteamientos para la predicción de series de tiempo, incluyen-
dolos modelos de promedios móviles, suavizado exponencial, de tendencia lineal,
cuadrática y exponencial, el planteamiento de Holt-Winters y el modelo autorre-
gresivo, y hemos descrito la contribución y el empleo de los índices estacionales.
En la página 858 de la sección 19.1, dimos una lista en la que se resaltan los pun-
tos importantes que se tratarían en el capítulo. Revise ahora la lista para ver si
siente que ha entendido estos puntos clave. Para asegurarse, el lector debe ser capaz
de responder las siguientes preguntas conceptuales:

l. ¿En qué difieren los modelos de predicción de series de tiempo,


desarrollados en el presente capítulo, de los modelos de regresión
simple y múltiple estudiados en los capítulos 17 y 18?
2. ¿Cuál es la diferencia entre los promedios móviles y el suavizado
exponencial?
3. ¿En qué circunstancias sería más apropiado utilizar el modelo de
tendencia exponencial?
4. ¿Cuál es la diferencia entre el suavizado exponencial y el método de
Holt-Winters?
5. ¿En qué difieren los planteamientos de modelado autorregresivo de
los otros planteamientos para hacer predicciones?

912 Capítulo 19 Pronóstico de series de tiempo


6. ¿Cuáles son los planteamientos alternativos para escoger un modelo
de predicción adecuado?
7. ¿En qué difiere la predicción para datos mensuales y trimestrales de la
predicción de datos anuales?

sr

sr

Diagrama de resumen del capítulo 19.

Juntando todo
TÉRMINOS CLAVE
cociente de promedios móviles 908 modelo de tendencia lineal 872
componente cíclico 860 modelo multiplicativo clásico 859
componente estacional 903 predicción 858
componente irregular 860 principio de parsimonia 899
desviación absoluta media (MAD) 899 promedios móviles 863
índice estacional 905 promedios móviles pesados 908
método de Holt-Winters 884 series de tiempo 859
modelado autorregresivo 888 suavizado exponencial 866
modelo de tendencia cuadrática 874 tendencia 859
modelo de tendencia exponencial 876

Términos clave 91 J
Problemas de repaso del capítulo
19.50 Los datos dados a continuación representan las tasas de incidencia anual (por
100,000 personas) de casos de poliomielitis aguda reportados y que fueron
registrados en periodos de cinco años, desde 1915 hasta 1955.

Tasas de incidencia de casos agudos de poliomielitis reportados


Año 1915 1920 1925 1930 1935 1940 1945 1950 1955
Tasa 3.1 2.2 5.3 7.5 8.5 7.4 10.3 22.1 17.6
Fuente: Los datos fueron tomados de B. Wattenberg, editor, The Statistical History ofthe United States: From
Colonial Times to the Present (Series B303), (Nueva York: Basic Books, 1976).

(a) Grafique los datos en un diagrama.


(b) Ajuste una línea de tendencia lineal de mínimos cuadrados y grafique la
recta en el diagrama del inciso (a).
(c) ¿Cuáles son sus predicciones de tendencia para los años de 1960, 1965 y
1970?
(d) f·fOid'Jl•i·f·~ Acuda a la biblioteca y, utilizando la referencia dada en la
tabla, busque las tasas de incidencia realmente reportadas de casos agudos
de poliomielitis para los años 1960, 1965 y 1970. Registre sus resultados.
(e) ¿Por qué no son útiles las extrapolaciones de tendencia mecánica a partir
de su modelo de mínimos cuadrados? Explique su respuesta.
19.51 Si un modelo de tendencia lineal se ajustara perfectamente a una serie de
tiempo, entonces las primeras diferencias serían constantes. Esto es, las
diferencias entre observaciones consecutivas de la serie serían iguales en toda
la serie:

Y2 - Y1 = Y 3 - Y2 = · · · = Y¡+ 1 - Y¡= · · · = Yn - Yn _ 1

Si un modelo de tendencia cuadrática se ajustara perfectamente a una serie de


tiempo, entonces las segundas diferencias serían constantes. Esto es,

[(Y3 - Y2) - (Y2 - Y1)] = [(Y4 - Y 3 ) - (Y3 - Y2)]

=· · · =[(Y¡+ 2 - Y¡+ 1) - (Y¡+ 1 - Y¡)]


= · · · = [(Yn - Yn-1) - (Yn-l - Yn_z)]

Si un modelo de tendencia exponencial se ajustara perfectamente a una serie


de tiempo, entonces las diferencias porcentuales entre observaciones
consecutivas serían constantes. Esto es:

(
y
2
-
yl
y)
1 X 100% = ( y 3 ~ Y, ) x 100%

( Y;+i y~ Y; ) x 100%

y n - y n-I ) 100%
( X
Yn-1

S> 14 Capítulo 1S> Pronóstico de series de tiempo


Aunque no deberíamos esperar un modelo de ajuste perfecto para algún
conjunto particular de datos de serie de tiempo, podemos evaluar las primeras
· diferencias, las segundas diferencias y las diferencias porcentuales para una
serie dada como una guía para determinar un modelo apropiado que se pueda
elegir.
Para cada uno de los conjuntos de datos de series de tiempo presentados a
continuación:
(a) Determine el modelo más apropiado para ajustar.
(b) Desarrolle esta ecuación de tendencia.
(c) Prediga el valor de tendencia para el año 1999.

Año
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

Serie de tiempo 1 10.0 15.l 24.0 36.7 53.8 74.8 100.0 129.2 162.4 199.0
Serie de tiempo 11 30.0 33.1 36.4 39.9 43.9 48.2 53.2 58.2 64.5 70.7
Serie de tiempo III 60.0 67.9 76.1 84.0 92.2 100.0 108.0 115.8 124.l 132.0

19.52 Una gráfica de serie de tiempo a menudo es de ayuda al pronosticador para


determinar un modelo apropiado. Para cada uno de los conjuntos de datos de
series de tiempo que se presentan a continuación:
(a) Grafique los datos observados (Y) con respecto al tiempo (X), así como el
logaritmo de los datos observados (log Y) respecto al tiempo (X) para
determinar si es más apropiado un modelo de tendencia lineal o uno
exponencial. Sugerencia: recuerde, de la sección 19.5.3, que si la gráfica de
log Y respecto a X parece ser lineal, un modelo de tendencia
exponencial proporciona un mejor ajuste.
(b) Desarrolle esta ecuación de tendencia.
(c) Prediga el valor de tendencia para el año 1999.

Año
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Serie de tiempo 1 100.0 115.2 130.1 144.9 160.0 175.0 189.8 204.9 219.8 235.0
Serie de tiempo 11 100.0 115.2 131.7 150.8 174.1 200.0 230.8 266.1 305.5 351.8

19.53 Los datos que se presentan en la siguiente tabla representan los ingresos brutos
anuales (en millones de dólares) obtenidos por una compañía de servicio
público durante el período comprendido entre 1981y1994.

Ingresos anuales brutos

Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Ingresos
brutos 13.0 14.1 15.7 17.0 18.4 20.9 23.5 26.2 29.0 32.8 36.5 41.0 45.4 50.8

(a) Compare las primeras diferencias, las segundas diferencias y las diferen-
cias porcentuales (véase problema 19.51) para determinar el modelo más
apropiado que se deba ajustar.
(b) Desarrolle la ecuación de tendencia.
(c) ¿Cuál ha sido el aumento anual en los ingresos brutos durante los 14 años
del periodo?
(d) Prediga el valor de tendencia para el año 1999.

Problemas de repaso del capitulo 91 S


19.54 Los datos dados en la tabla siguiente representan los ingresos anuales
(en millones de dólares) de una agencia de publicidad durante el periodo
comprendido entre 1975 y 1994.

Ingresos anuales (millones de dólares).

Año Ingresos Año Ingresos Año Ingresos


1975 51.0 1982 93.0 1989 100.9
1976 54.1 1983 102.8 1990 110.9
1977 56.4 1984 98.0 1991 133.3
1978 58.1 1985 83.6 1992 192.8
1979 69.5 1986 81.0 1993 234.0
1980 79.2 1987 87.0 1994 238.9
1981 89.2 1988 102.9

(a) Grafique los datos respecto al tiempo, así como también el logaritmo de
los datos respecto al tiempo para determinar si un modelo de tendencia
lineal o uno de tendencia exponencial es el ajuste más apropiado (véase
problema 19.52).
(b) Desarrolle la ecuación de tendencia.
(c) ¿Cuál ha sido el crecimiento anual en los ingresos por publicidad durante
los 20 afios del periodo?
(d) Prediga el valor de tendencia para el año 1998.

Para los problemas 19.55 a 19.58:


(a) Grafique los datos en un diagrama.
(b) Ajuste una línea de tendencia lineal de mínimos cuadrados a los datos.
(c) Ajuste una ecuación de tendencia cuadrática a los datos.
(d) Ajuste una ecuación de tendencia exponencial a los datos.
(e) Utilice el método de Holt-Winters (con U= .30 y V= .30) para ajustar la
serie de tiempo.
(f) Ajuste un modelo autorregresivo de tercer orden y pruebe la significación
del parámetro autorregresivo de tercer orden. (Utilice a= .OS.)
(g) Si es necesario, ajuste un modelo autorregresivo de segundo orden y
pruebe la significación del parámetro autórregresivo de segundo orden.
(Utilice a = .05.)
(h) Si es necesario, ajuste un modelo autorregresivo de primer orden y pruebe
la significación del parámetro autorregresivo de primer orden. (Utilice
a= .05.)
(i) Lleve a cabo un análisis de residuos para cada uno de los modelos ajustados
en los incisos (b) a (e), y para el modelo autorregresivo más apropiado de
los incisos (f) a (h).
(j) Calcule la MAD para cada modelo correspondiente en el inciso (i).
(k) Basándose en los resultados de los incisos (i), (j) y en el principio de
parsimonia, ¿qué modelo seleccionaría usted con fines de predicción?
Explique su respuesta.
(1) Utilizando el modelo seleccionado en el inciso (k), haga una predicción
anual para el periodo comprendido entre 1993 y 1996.
19.55 Los datos de la tabla siguiente representan las ventas anuales totales (en
miles de millones de dólares) de la empresa International Business
Machines Corp. (IBM) durante el periodo de 23 años comprendido entre
1970 y 1992.

916 Capítulo 1SJ Pronóstico de series de tiempo


Ventas totales en la IBM ( 1970-1992).

Año Ventas Año Ventas Año Ventas


1970 7.5 1978 21.1 1986 52.2
1971 8.3 1979 22.9 1987 55.3
1972 9.5 1980 26.2 1988 59.7
1973 11.0 1981 29.1 1989 62.7
1974 12.7 1982 34.4 1990 43.9
1975 14.4 1983 40.2 1991 37.0
1976 16.3 1984 45.9 1992 33.8
1977 18.1 1985 50.1
Fuente: Moody's Handbook ofCommon Stocks, 1980, 1989, 1993.

19 .56 Los datos de la tabla siguiente representan los ingresos anuales totales (en
miles de millones de dólares) de la empresa McDonald's Corp. durante el
periodo de 22 años comprendido entre 1971y1992.

Ingresos totales de McDonald's Corp. ( 1971-1992).

Año Ingresos Año Ingresos Año Ingresos


1971 0.3 1979 1.9 1987 4.9
1972 0.4 1980 2.2 1988 5.6
1973 0.6 1981 2.5 1989 6.1
1974 0.7 1982 2.8 1990 5.0
1975 1.0 1983 3.1 1991 4.9
1976 1.2 1984 3.4 1992 5.1
1977 1.4 1985 3.8
1978 1.7 1986 4.2
Fuente: Moody's Handbook ofCommon Stocks, 1980, 1989, 1993.

19.57 Los datos de la tabla siguiente corresponden a los ingresos anuales totales (en
miles de millones de dólares) de la empresa Sears, Roebuck & Co. durante el
periodo de 23 años comprendido entre 1970 y 1992.

Ingresos totales de Sears, Roebuck & Co. ( 1970-1992).

Año Ingresos Año Ingresos Año Ingresos


1970 8.9 1978 22.9 1986 42.3
1971 9.3 1979 24.5 1987 45.9
1972 10.0 1980 25.2 1988 50.3
1973 11.0 1981 27.4 1989 53.8
1974 12.3 1982 30.0 1990 50.3
1975 13.1 1983 35.9 1991 50.9
1976 17.7 1984 38.8 1992 52.3
1977 19.6 1985 40.7
Fuente: Moody's Handbook ofCommon Stocks, 1980, 1989, 1993.

19.58 Los datos que se presentan en la tabla siguiente corresponden a las ventas
netas anuales (en miles de millones de dólares) de la empresa Xerox
Corporation, durante el periodo de 23 años comprendido entre 1970 y
1992.

Problemas de repaso del capítulo 91 7


Ingreso Año Ingreso Año Ingreso
Año
1.7 1978 5.9 1986 13.3
1970
2.0 1979 6.9 1987 15.1
1971
2.4 1980 8.0 1988 16.4
1972
3.0 1981 8.5 1989 17.6
1973
3.5 1982 8.5 1990 13.6
1974
4.1 1983 8.3 1991 13.8
1975
4.4 1984 8.6 1992 14.7
1976
5.1 1985 9.0
1977

Caso de estudio j cambio de moneda


Como miembro de una empresa finan- del dólar canadiense, el franco francés,
ciera que ha sido contratada por un el marco alemán, el yen japonés y la
grupo de inversionistas para llevar a libra inglesa en términos del dólar
cabo acciones comerciales con diferen- estadounidense. Los datos de la siguien-
tes monedas, a usted se le ha asignado te tabla han sido recogidos durante un
la tarea de estudiar las tendencias a periodo de 26 años, comprendido en-
largo plazo en las tasas de intercambio tre 1967 y 1992:

Tasas de intercambio de cinco monedas en términos del dólar estadounidense

Dólar Franco Marco Yen Libra


canadiense francés alemán japonés inglesa
Año
4.9206 3.9865 362.13 275.04
1967 1.0789
4.9529 3.9920 360.55 239.35
1968 1.0776
5.1999 3.9251 358.36 239.01
1969 1.0769
1.0444 5.5288 3.6465 358.16 239.15
1970
1.0099 5.5100 3.4830 347.79 244.42
1971
0.9907 5.0444 3.1886 303.13 250.34
1972
4.4535 2.6715 271.31 245.25
1973 1.0002
0.9780 4.8107 2.5868 291.84 234.03
1974
1.0175 4.2877 2.4614 296.78 222.17
1975
4.7825 2.5185 296.45 180.48
1976 0.9863
1.0633 4.9161 2.3236 268.62 174.49
1977
1.1405 4.5091 2.0097 210.39 191.84
1978
1.1713 4.2567 1.8343 219.02 212.24
1979
1.1693 4.2251 1.8175 226.63 232.46
1980
1.1990 5.4397 2.2632 220.63 202.43
1981
1.2344 6.5794 2.4281 249.06 174.80
1982
1.2325 7.6204 2.5539 237.55 151.59
1983
8.7356 2.8455 237.46 133.68
1984 1.2952
1.3659 8.9800 2.9420 238.47 129.74
1985
1.3896 6.9257 2.1705 168.35 146.77
1986
1.3259 6.0122 1.7981 144.60 163.98
1987
1.2306 5.9595 1.7570 128.17 178.13
1988
1.1842 6.3802 1.8808 138.07 163.82
1989
1.1668 5.4467 1.6166 145.00 178.41
1990
1.1460 5.6468 1.6610 134.59 176.74
1991
1.2085 5.2935 1.5618 126.78 176.63
1992
Fuente: Consejo de Gobernadores del Sistema de Reserva Federal de Estados Unidos, Tabla B-107.

918 Capítulo 19 Pronóstico de series de tiempo


Desarrolle modelos de predicción para dicciones para los años 1995, 1996 y
la tasa de intercambio de cada una de 1997 para cada tipo de moneda. Escri-
estas cinco monedas, basándose en los ba un resumen ejecutivo para una pre-
datos de la tabla. Asegúrese de indicar sentación que está programada para
qué modelo de predicción ha escogido una reunión con el grupo de inver-
para cada moneda y qué limitaciones sionistas la próxima semana.
tiene dicho modelo. Proporcione pre-

No tas Finales
l. El hecho de que todos los valores observados en la serie de · En general, en el periodo i,
tiempo están incluidos en el cálculo del valor suavizado
exponencialmente en el periodo i se puede ver si observa- E;= WY; + (1 - W)E;_ 1 = WY; + W(l - W)Y;_ 1
mos que el valor suavizado presente es calculado utilizando + W(l - W)ZY¡_z + ... + (1- W)(i-lly¡
el valor suavizado del periodo anterior, y ese valor, a su vez,
fue calculado utilizando el valor suavizado del periodo ante- Así pues, vemos que con el tiempo, conforme el valor de i
rior y así sucesivamente. Algebraicamente hablando, lo se hace más grande, los pesos asignados a los primeros
anterior puede establecerse de la siguiente manera: valores (los más viejos) de la serie de tiempo pueden
En el periodo 1, volverse tan pequeños que son despreciables.
2. Debería advertirse que el modelo de suavizado exponencial
de la sección 19.4.2, el modelo de Holt-Winters de la
En el periodo 2, sección 19.6 y los modelos autorregresivos de la sección
19. 7 son todos casos especiales de los modelos
autorregresivos de promedios móviles integrados (ARIMA, por
E2 = WY2 + (1 - W)E1 = WY2 + (1 - W)Y 1
sus siglas: AutoRegressive Integrated Moving Average) desarrol-
lados por Box y Jenkins (referencia 3). El planteamiento de
En el periodo 3, Box y jenkins, sin embargo, está más allá del objetivo de
este texto.
E3 = WY3 + (1 - W)Ez = WY3 + (1 - W)[WY2 + (1 - W)Y1] 3. Los datos mensuales, por lo general, son registrados y
graficados a mitad de mes. Por consiguiente, el origen en
=WY3 + W(l - W)Yz + (1 - W) 2 Y1 este caso se presenta como el 15 de enero de 1988.

Referencias
l. Bails, D.G. y L.C. Peppers, Business Fluctuations: 6. Mahmoud, E., "Accuracy in Forecasting: A Survey",
Forecasting Techniques and Applications (Englewood Cliffs, foumal of Forecasting, vol. 3, 1984, pp. 139-159.
NJ: Prentice-Hall, 1982). 7. Newbold, P., Statistics for Business and Economics, 4a. ed.
2. Bowerman, B.L. y R.T. O'Connel, Forecasting and Time- (Englewood Cliffs, NJ: Prentice-Hall, 1994).
Series, 3a. ed. (North Scituate, MA: Duxbury Press, 1990). 8. Ryan B.F. y B.L. Joiner, MINITAB Student Handbook,
3. Box, G.E.P y G.M. Jenkins, Time Series Analysis: 3a. ed. (North Scituate, MA: Duxbury Press, 1994).
Forecasting and Control, Za. ed. (San Francisco, CA: 9. SAS-ETS User's Guide (Cary, NC: SAS Institute, 1988).
Holden-Day, 1977).
10. STATISTIX 4.0 (Tallahassee, FL: Analytical Software,
4. Brown, R.G., Smoothing, Forecasting and Prediction 1992).
(Englewood Cliffs, NJ: Prentice-Hall, 1963).
11. Wilson, J.H. y B. Keating, Business Forecasting
5. Chambers, J.C., S.K. Mullick y D.D. Smith, "How to (Homewood, IL: Richard D. Irwin, 1990).
Choose the Right Forecasting Technique", Harvard
Business Review, vol. 49, Núm. 4, julio-agosto de 1971,
pp. 45-74.

Referencias 919
Respuestas a los problemas seleccionados ( •)

Capítulo 2
2.4 (a) numérica discreta, razón
(b) categórica, nominal
(c) numérica discreta, razón
(d) numérica continua, razón
(e) categórica, nominal
(f) numérica continua, razón
(g) categórica, nominal
(h) numérica discreta, razón
(i) numérica continua, razón
(j) categórica, nominal
(k) categórica, nominal
2.32 (a) numérica continua, razón
(b) numérica discreta, razón
(c) categórica, nominal
(d) . numérica continua, razón
(e) categórica, nominal
(f) numérica discreta, razón
(g) categórica, nominal
2.33 (a) categórica, nominal
(b) categórica, nominal
(c) numérica continua, razón
(d) numérica continua, razón
(e) categórica, nominal
(f) categórica, nominal
(g) numérica discreta, razón
(h) numérica discreta, razón
(i) numérica continua, razón
(j) numérica continua, razón
(k) categórica, nominal
(1) numérica discreta, razón
(m) numérica continua, razón
(n) numérica continua, razón
(o) categórica, nominal
(p) numérica continua, razón
2.37 N =93 n =15 Muestra sin reemplazo
Renglón 29: 12 47 83 76 22 65 93 10 61 36 89 58 86 92 71
2.42 línea 401-EDUC 41
línea 402_RICHWORK 4

Respuestas a los problemas seleccionados ( •) 921


línea 403-AGE 10
línea 404-SCHOOLNG 5
línea 405-SEX 3

Capítulo 3
3.1 (a) 9 147
10 02238
11 135566777
12 223489
13 02

(c) La representación de tallo y hojas muestra cómo los datos se


distribuyen y agrupan.
3.5 (b) Representación de tallo y hojas: valor en libros
OL 4
OH 556666777777888888888999999
lL 000000001122334
lH 555668
2L 3
3.12 (b) Las frecuencias son 4 7 9 13 9 5 3
3.14 Las clases son O< 5, 5 < 10, etc.
Las frecuencias son 1 27 15 6 1
3.19 Los porcentajes son
8 14 18 26 18 10 6
3.21 Los porcentajes son
2 54 30 12 2
3.34 (a) Las frecuencias acumuladas son
o 4 11 20 33 42 47 50
(b) Los porcentajes acumulados son
o 8 22 40 66 84 94 100
3.36 (a) Las frecuencias acumuladas son
o 1 28 43 49 50
(b) Los porcentajes acumulados son
o 2 56 86 98 100
3.72 (a) Las clases son:
O< 10; 10 < 20, etcétera
Las frecuencias de la Bolsa de Valores Americana son:
16 6 1 1 1 o o o o
Las frecuencias de la Bolsa de Valores de Nueva York son:
13 8 15 7 2 3 1 o 1

Capítulo 4
4.2 (a) Lote 1 Lote 2
media 4 14
mediana 3 13
moda 2 12
alcance medio 6 16
eje medio 3.5 13.5
(b) Cada una de las observaciones del Lote 1 son diez unidades
menores que las observaciones del Lote 2.

S>ll Respuestas a los problemas seleccionados ( •)


4.10 (a) Reparación de tallo y hojas revisada

2 8
3 458
4 1
5 01157
6 28
7 16
8 5
9
10
11 9
12
13 12
14 19
15 9
(b) media= 7.78; mediana= 6.20; moda= 5.10
rango medio= 9.35; eje medio= 8.53
(c) El rango medio y el eje medio son los más grandes.
4.15 (a) media= 147.1; mediana= 148.5; bimodal;
rango miedo= 147.5; eje medio= 147.5
4.17 (a) Lote 1 Lote 2
rango 8 8
IQR 3 3
varianza 8.33 8.33
s 2.89 2.89
cv 72.2% 20.6%
4.22 (a) rango= 13.10; rango intercuartil = 7.95;
varianza= 17.95; S = 4.24; CV = 54.5%
(b) La mayoría de los datos caen dentro de ±4.24 de la media.
4.27 (a) rango= 131; rango intercuartil = 41;
s = 31.7; cv = 21.5%
4.28 (a) y (b) Para cada lote los datos son positivos o sesgados a la
derecha, ya que la media es mayor que la mediana.
4.31 Los datos son positivos o sesgados a la derecha, ya que la media
es mayor que la mediana.
4.36 Los datos son aproximadamente simétricos.
4.39 (a) Resumen de cinco números (MINITAB):
2.80 4.55 6.20 12.50 15.90
(b) y (c) Los datos están sesgados a la derecha.
4.44 (a) Resumen de cinco números:
82 127 148.5 168 213
(b) y (c) Los datos son aproximadamente simétricos.
4.45 (a) media= 6.0; mediana= 6.5; moda= 8.0;
rango medio= 6.0; eje medio= 5.5
(b) rango= 10.0; rango intercuartil = 5.0;
varianza= 9.40; ax= 3.07; CVpob = 51.1%
(c) Los datos son aproximadamente simétricos.
4.50 (d) (1) media= 7.7; mediana= 4.2; moda= 5.0;
rango medio= 9.0; eje medio= 5.8
(d) (2) rango= 14.0; intercuartil
rango= 6.8; S = 4.3; CV = 55.8%
(d) (3) Los datos están sesgados a la derecha.

Respuestas a los problemas seleccionados (•) ~21


4.53 (a) (1) media= 148.8; mediana= 148; moda= 150;
rango medio= 150; eje medio= 147
(a) (2) rango= 140; rango intercuartil = 48;
s =29.7; cv =20.0%
(a) (3) Los datos son aproximadamente simétricos.
4.55 (b) (1) media= 9.8; mediana= 9.0; moda= 8.0;
rango medio= 13.5; eje medio= 9.0
(b) (2) rango= 19.0; rango intercuartil = 4.0;
s = 3.7; cv =37.8%
(b) (3) Los datos están sesgados a la derecha.
4.76 (a) media= $41.78; mediana= $42.00;
rango medio= $58.50; eje medio= $39.88;
rango= $97.00; IQR = $29.75;
s = $21.30; cv = 51.0%.
Resumen de cinco números:
$10.00 $25.00 $42.00 $54.75 $107.00

Capítulo 5
5.15 (a)

Nivel educativo
Grado H.S. Universitario Universitario
Condición financiera o menor sin grado con nivel superior Totales
Peor ahora que antes 60) 30.0 18.1 43.4
Sin diferencias 24.2 45.6 19.5 27.2
Mejor antes que ahora ....1ll 24.4 62.4 29.4
Totales 100.0 100.0 100.0 100.0

(b) Más gente siente que está en peores circunstancias que en


mejores.

Capítulo 6
6.5 (a) Con una tarjeta de crédito bancaria, puesto que solamente se
satisface un criterio.
(b) Con una tarjeta de crédito bancaria y una de crédito para
viaje y entretenimiento, puesto que están implicados dos
criterios.
(c) El no tener tarjeta de crédito bancaria es el complemento de
tener tarjeta de crédito bancaria, puesto que implica a todos
los eventos distintos de tener una tarjeta de crédito bancaria.
(d) Satisface dos criterios, tener una tarjeta de crédito bancaria y
tener una tarjeta de crédito para viajes y entretenimiento.
6.7 (b) Disfrutar el ir de compras para adquirir ropa es un evento
sencillo pues satisface un criterio.
(c) Un hombre que disfruta el ir de compras para adquirir ropa
es un evento conjunto, ya que satisface dos criterios.
(d) El no disfrutar ir de compras para adquirir ropa es el
complemento.
6.10 (a) P(B) = 120/200
(b) P(B') = 80/200
(c) P(1) = 75/200
(d) P(T) = 125/200

924 Respuestas a los problemas seleccionados ( •)


6.12 (a) 240/500
(b) 360/500
(c) 260/500
(d) 140/500
6.15 (a) P(B y T) = 60/200
(b) P(B' y T) = 15/200
(c) P(B' y T) = 65/200
6.17 (a) 224/500
(b) 104/500
(c) ~?º
6.23 (a) 135/200
(b) 140/200
1(c) 200/200 = 1.0
6.25 ¡ (a)_396/500
(b) 276rsoo
(c) 500/500 = 1.0
6.28 (a) 60/120
(b) 60/125
*
(c) Puesto que P(TIB) = 60/120 P(D = 75/200; no
estadísticamente independientes.
6.30 (a) 36/260
(b) 136/360
*
(c) P(Disfrutarlmujer) = 224/260 P(disfruta) = 360/500; no
estadísticamente independientes.
6.33 (120/200)(75/200) -¡:. 60/200; no estadísticamente
independientes.
6.35 *
(360/500)(240/500) (136/500); no estadísticamente
independientes.
6.44 (a) 2/3
(b) .36
6.46 (a) .625
(b) .56
(c) .325
6.49 (a) 27,000
(b) 1/27,000 = .000037
(c) Las "combinaciones de discos" siguen la regla de conteo 1,
en la cual K eventos diferentes mutuamente excluyentes y
colectivamente exhaustivos pueden presentarse en cada una
de las n pruebas.
6.55 720
6.58 35
6.65 (a) (1) 80/200
(2) 55/200
(3) 125/200
(b) 55/80
*
(c) P(< 5lgrado univ) = 55/80 P(< 5) = 130/200; l}q
estadísticamente independientes. , ..

Capítulo 7
7.1 (a) A: 1.00; B: 3.00
(b) A: 1.22; B: 1.22
(c) A: sesgado a la derecha; B: sesgado a la izquierda

Respuestas a los problemas seleccionados ( •) 925


7.6 (a) 7
2
(b) 5.8333
(J X=

2.42
<Jx =
(d) -.056
(e) Pierde 5.6 centavos por apuesta.
(f) Gana 5.6 centavos por apuesta.
7.10 E(500) = $500; E(l,000) = $800; E(2,000) = $600
Adquiera 1,000 libras.
7.19 (a) .0778
(b) .6826
(c) P(X =O)= .0102 P(X = 1) = .0768 P(X = 2) = .2304.
La distribución está ligeramente sesgada a la izquierda.
7.23 (a) .2851
(b) .1606
(c) .7149
(d) .2945
7.35 (a) (1) .6496
(2) .1503
(3) .1493
(c) 7; P(X = 7) = .2668
(d) 1.449
7 ± 2(1.449)¡ P(4 <X< 10) = .9244
7.36 (a) (1) .8171
(2) .1667
(3) .0162
(b) (1) .8187
(2) .1637
(3) .0176
(c) (1) .3679
(2) .3679
(3) .2642

Capítulo 8
8.3 (a) (1) .3599
(2) .6401
(3) .0832
(4) .9168
(5) .8599
(6) .5832
(7) .4431
(8) .5569
(b) (1) .1401
(2) .4168
(3) .3918
(4) .8349
(5) .1151
(c) o
(d) -1.00
(e) +l.00

92.6 Respuestas a los problemas seleccionados ( •)


8.7 (a) .4082
(b) .0669
(c) 25.08%
(d) 749.2 camiones
(e) Z = -0.84 de modo que X= 39.92 miles de millas.
8.14 (a) .1587
(b) .0466
(c) .7865
(d) 46.4 horas
(e) 40.0 horas
(f) 6.7 horas
8.20 Área bajo la curva normal cubierta: .1429 .2857 .4286 .5714
.7143 .8571
Valor cuantil normal estandarizado: -1.07 -0.5 7 -0.18 +0.18
+0.57 +1.07
8.21 (a) X.= $106.80
s = $38.16
(b) Resumen de cinco números
$40 $80 $100 $135 $200
(e) Sesgado ligeramente a la derecha
8.33 (a) (1) .2051
(2) .8282
(3) .3770
(4) .1719
(5) .6231
(6) .7735
(b) (1) .2034
(2) .8289
(3) .3745
(4) .1711
(5) .6255
(6) .7718
8.37 (a) (1) .0821
(2) .5438
(b) (1) .1841
(2) .7286
8.40 (a) (1) .3413
(2) .3413
(3) .6826
(4) .8413
(5) .1587
(6) .1160
(b) 10.0 millones de dólares
(c) 6.8 millones de dólares
(d) 3.4 millones de dólares
8.44 Altura: P(X > 67) = .2119
Peso: P(X > 135) = .1587
El peso es, ligeramente, la característica más usual.
8.47 (a) Exacto (binomial), utilizando la tabla E.7.
(1) .5325
(2) .9961

Respuestas a los problemas seleccionados (•) 927


(b) Aproximado (normal)
(1) .2776
(2) .99926
8.50 (a) .0287
(b) .0108

Capítulo 9
9.6 µX = 1.30; <JX = Ü.Ü4
.1915
(a)
(b) .1747
( c) 1.2664 a 1.3336
(d) (1) µX= 1.30; ax= 0.01
(2) normal
(3) .4772
(4) .15735
(5) 1.2916 a 1.3084
(e) y (f) Como se están tomando muestras de tamaño 16, en
lugar de valores individuales (muestras den= 1), porque
ax= oxl ¡n, más valores se encuentran cercanos a la media
con el tamaño de muestra aumentado, y menos valores
están más alejados de la media.
(g) Tienen la misma posibilidad de ocurrir (probabilidad
= .1587) puesto que, a medida que n aumenta, más medias
de muestra estarán más cerca de la media de la población.
9.9 (a) .2486
(b) .0918
(c) .1293 y .2514
(d) Es más probable que se presente un porcentaje de defectos
por arriba de 10.5%, puesto que es sólo una desviación
estándar de .33 sobre el valor de población de 10%.
9.14 . 14833
9.16 .2549 y .0823

Capítulo 10
10.5 (a) .9877 $ µx $ 1.0023
(b) Puesto que el valor de 1.0 está incluido en el intervalo, no
hay razón para creer que el promedio está por debajo de 1.0.
ºx
(c) No, ya que se conoce y n = 50 del teorema del límite
central podemos suponer que X está normalmente
distribuida.
(d) Un valor individual de .98 está únicamente a .75
desviaciones estándar por debajo de la media de la muestra
de .995. El intervalo de confianza representa la estimación
del promedio de una muestra de SO, no un valor individual.
10.9 $1,067.40 $µX$ $1,332.60
10.13 (a) 87.769 $µX$ 109.964
10.29 (a) $653.37 < Xr< $1,746.73
10.32 (a) 34.477 < Xr< 143.255
10.39 .2246 :<:::p $ .3754
10.41 .342 $ p $ .478

928 Respuestas a los problemas seleccionados ( •)


10.48 n == 97
10.50 n == 167
10.56 n == 323
10.57 n == 271
10.61 (a) 322.62 $µX$ 377.38
(b) n = 93
10.63 (a) .2284 $ p $ .3716
(b) n = 214
10.85 (a) 14.085 $µX$ 16.515
(b) .530 $ p $ .820
(c) 7.52 < Xr < 23.08
(e) n=25
(f) n == 784

Capítulo 11
11.12 -1.96<Z==-0.80<+1.96. No rechazar H0 . No hay evidencia de
que la cantidad promedio dispensada sea diferente de ocho onzas.
11.16 (a) H0 : µx = 375
H1: µX* 375
(b) -1.96<Z=-1.768<+1.96. No rechazar H0 . No existe eviden-
cia de que la media sea diferente de 375 horas (a== .05).
11.20 valor de p == .4238
11.24 valor de p == .0768
11.29 (a) H0 : µx:::: 2.8; H 1: µx < 2.8
(b) Z = -1.75 < -1.645. Rechazar H 0 • El promedio es
significativamente menor que 2.8 y, por consiguiente, no
podemos llegar a la conclusión de que hay evidencia que el
proceso no está funcionando adecuadamente.
11.36 Z= -1.75; el valor dep == .5000 - .4599 == .0401, que es menor
que a= .05. Existe evidencia de que el proceso no está
funcionando adecuadamente.
11.42 (a) Potencia== .6387; J3 == .3613
(b) Potencia== .9908; J3 = .0092
11.43 (a) Potencia== .3707; J3 = .6293
(b) Potencia= .9525; J3 = .0475
(c) La disminución en a ha provocado un aumento en J3 y una
disminución en la potencia.
11.44 (a) Potencia== .8037; J3 = .1963
(b) Potencia== .9996; J3 = .0004
(c) El aumento en el tamaño de la muestra ha aumentado la
potencia.
11.49 n == 64
11.52 n = 17
11.55 (a) n = 19 familias
(b) Potencia== .3707
(c) Potencia== .99988
(d) Al ser casi doble el tamaño de la muestra (de 19 a 36), la
potencia aumentó de .975 a .99988.
(e) Potencia== .6387; J3 = .3613
(f) Potencia == 1.0; J3 = O
(g) El aumento en a ha reducido J3 y aumentado la potencia.
(h) Potencia= .6331; J3 = .3669
(i) Potencia == 1.0; J3 == O

Respuestas a los problemas seleccionados ( •) 929


(j) El aumento en el tamaño de la muestra ha aumentado la potencia
(k) $14.37 s; µX s; $16.95
(l) Z = 3.32 > 2.33. Rechazar H0 •
(m) Establezca el servicio de desayunos. Existe evidencia
suficiente de que los pedidos promedio serán mayores de $14.

Capítulo 12
12.l (a) t = 3.30 > t35 = 2.0301. Rechazar H0 . Existe evidencia de que
el EER es diferente de 9.0.
(b) Los datos están distribuidos de manera aproximada normal.
(c) Utilizando el paquete SAS, el valor de pes de .0022
12.3 (a) t = 3.552 > t99 = 1.9842. Rechazar H 0 • Existe evidencia de que
el saldo promedio es diferente de $75.
(b) valor de p < .005
12.10 (a) t= 1.714 < t 14 = 1.7613. No rechazar H0 • No existe evidencia
de que el tiempo promedio de espera es mayor a los 90 días.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente está distribuida de
manera aproximada normal.
(c) .05< valor de p < .10
12.12 -2.58 < Z = -0.35 < 2.58. No rechazar H0 . No existe evidencia
de que el contenido medio de alquitrán de esta nueva marca es
diferente de 17 miligramos.
12.14 (a) W = 471 de esta manera Z = 2.96 > 1.96. Rechazar H 0 • Existe
evidencia de que la mediana del EER de los
acondicionadores de aire es diferente de 9.0.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente es aproximadamente
simétrica.
(c) Los resultados son los mismos. El valor p aquí es de .0030.
12.19 (a) W= 87 < Wu= 95. No rechazar H 0 . No existe evidencia de
que la mediana del tiempo de espera sea mayor de 90 días.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente es aproximadamente
simétrica.
(c) Los resultados son los mismos.
12.21 (a) x2 = 88.81>xtc29)=42.557. Rechazar H0 • Existe evidencia de
que la desviación estándar de la población ha aumentado
por arriba de 1.2º.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente está distribuida de
manera aproximada normal.
(c) valor de p < .005 en el extremo superior.
2 2 2
12.27 (a) Xrci 9) = 8.907 < x = 22.29 < Xuc 19¡ = 32.852. No rechazar H0 .
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente está distribuida
de manera aproximada normal.
(e) .1 O < valor de p < .25 en el extremo superior.
12.28 (a) x2 = 24.8004 > xh9¡ == 21.666. Rechazar H0 . Existe evidencia
de que la desviación estándar del proceso ha aumentado.
(b) Los datos están medidos en una escala de cociente o
de intervalo y la población subyacente está distribuida
aproximada normal.
(c) valor de p < .005.

S>JO Respuestas a los problemas seleccionados (•)


12.31 Mediana= 4.15. U= 4 < Ur = 11, de modo que rechazar H 0 •
Existe evidencia de una tendencia.
12.34 U::; 8 < Ur = 10, de modo que rechazar H 0 . Existe evidencia de
que el proceso está fuera de control.
12.40 (a) Sí, a partir de una gráfica de probabilidad normal.
(b) t = -2.98 < ti 4 = -1.7613. Rechazar H0 • Existe evidencia de
que el tiempo medio es menor que 30 segundos.
(c) W = 16 < Wr = 25. Rechazar H 0 . Existe evidencia de que el
tiempo mediano es menor que 30 segundos.
(d) Puesto que las dos pruebas dan el mismo resultado, la forma
de la población subyacente no afecta las conclusiones.
(e) Si es eficiente en cuanto a los costos, se debe instrumentar el
nuevo método.
(f) x2 = 28.88 > xt(i 4) = 26.119. Rechazar H0 • Existe evidencia de
que la desviación estándar ha aumentado.

Capítulo 13
13.1 (a) Z = +0.39<+1.96. No rechazar H 0 . No existe evidencia de
que haya alguna diferencia en la vida útil promedio de las
bombillas eléctricas producidas por las dos máquinas.
(b) valor de p = .6966
13.3 (a) t= + 1.91>ti 98 =+1.645. Rechazar H0 . Existe evidencia de
que hay alguna diferencia entre los dos turnos.
(b) .OS <valor de p < .10 (o .OS62 estimado a partir de una
distribución normal).
13.8 (a) t= -2.19 < t48 = -2.0106. Rechazar H0 . Existe evidencia de
que hay una diferencia en el tiempo promedio de
comunicación antes de la recarga. La batería desarrollada
recientemente dura más.
(b) Normalidad en cada población e igualdad de varianzas.
(c) .02 <valor de p <.OS
13.11 (a) t= +2.948 > t28 = +2.7633. Rechazar H0 . Existe evidencia de
que el promedio de gastos escolares es mayor en las escuelas
preparatorias del noreste que las del medio oeste.
(b) valor de p < .01
13.13 Si. t' = +4.18 > + l.990S. Rechazar H 0 • Los valores estimados son
mayores en Farmingdale.
13.18 (a) t' = -2.19 < t'47 = -2.0117. Rechazar H 0 . Existe evidencia de
que hay una diferencia en el tiempo promedio de
comunicación antes de la recarga. El valor de p está entre
.02y .os.
(b) Normalidad en cada población.
(c) Los resultados son muy parecidos.
13.23 (a) Si. t' = +2.948 > +2.624S. Rechazar H0 .
(b) Los resultados de los problemas 13.11y13.23 (a) son muy
parecidos.
13.25 No. Puesto que 78 < Ti = 84 < 132, no rechazar H0 .
13.29 (a) Sí. Hagamos que la muestra de níquel-cadmio sea el grupo l.
Así pues, Ti= S02.S; puesto que Z =-2.62 <-1.96, rechazar H 0 •
(b) Igual variabilidad en las dos poblaciones.
(c) Todos los resultados son parecidos.
13.34 (a) Sí, rechazar H 0 . Ti= 292.5 de modo que Z = +2.49 > +2.33.
El valor de p es .0064.
(b) Todos los resultados son parecidos.

Respuestas a los problemas seleccionados ( •) 93 1


13.36 (a) Fr(9 ,9) = 0.248 < F = 0.811 < Fuc9,9) = 4.03. No rechazar H 0 •
(b) Uno es el recíproco del otro si los tamaños de muestra son iguales.
(c) Rechazar H 0 si F > Fu(9 ,9 ) = 3.18.
(d) Rechazar H0 si F < Fr(9,9 ) = 0.314.
13.41 (a) No. No rechazar H0 puesto que F1 c24,24) = 0.441 < F = 0.867 <
Fuc24,24) = 2.27. Observe que el valor de p >.OS.
(b) Dependiendo de la suposición de normalidad subyacente en
las poblaciones, la prueba t de varianza conjunta o la prueba
de suma de rangos de Wilcoxon es la más apropiada.
13.46 (a) No. No rechazar H0 puesto que Frc 14 , 14) = 0.232 < F = 0.478
< Fu(14,14) = 4.31.
(b) valor de p >.OS
13.63 (a) Puesto que t = -0.46 se encuentra entre t9 = ±2.2622, no
rechazar H0 • No existe evidencia de que haya alguna
diferencia en la distancia recorrida por galón de gasolina
promedio entre las gasolinas regular y de alto octanaje.
(b) valor de p > .50
13.69 (a) No. Puesto que Wr = S < W = 18.5 < Wu= 40, No rechazar H 0 .
(b) Estos resultados son los mismos que se obtuvieron
anteriormente.
13.72 (a) [$104.64 $µX$ $115.36]
(b) t = -1 O.O < t24 = -2. 7969. Rechazar H 0 . El saldo promedio
mensual de las cuentas del Plan A no es igual a $105.
(c) Fr{24,49) = 0.37 < F = 1.125 < Fv(z4,49 ) = 2.40. No rechazar H0 .
No existe evidencia de que haya una diferencia en las
varianzas entre el Plan A y el Plan B.
(d) t= -9.903 < t 73 = -2.6449. Rechazar H0 • Existe evidencia de
que hay una diferencia en el saldo mensual promedio entre
el Plan A y el Plan B. El saldo del Plan A es menor.
(e) Los respectivos valores de p son< .01, > .05, y< .01.

Capítulo 14
14.5 (d) Fmáx = 1.184 < Fmáx{4, 7) = 8.44. No rechazar Ho.
(e) Si, podemos seguir adelante.
(f) F = 4.22 > Fu(3,28) = 2.95. Rechazar H0 . Existe evidencia de que
hay diferencia.
(g) El programa A es superior al B y al C.
14.8 (a) Fmáx = 7.22 <Fmáx(S, 3) = 50.7. No rechazar Ho. F= 10.30 > Fu(4,l7)
= 2.96. Rechazar H0 . La aleación 2 es más débil.
14.12 H = 0.635 < ¡, 2U(Z) = 9.210. No rechazar H 0 •
14.15 H = 9.51 > x v( 3) = 7.815. Rechazar H 0 . Utilizando el procedimiento
de Dunn, el alcance crítico es de 12.38. El programa A es superior
al Programa C.
14.33 (b) F = 7.02 > Fuc 4,24) = 2.78. Rechazar H0 • Existe evidencia de
que hay diferencia.
(c) Alcance crítico= 0.472. La sustancia de tratamiento 2 tuvo como
resultado un tiempo de coagulación significativamente más corto
que las sustancias 3, 4 o 5. La sustancia de tratamiento 1
también es significativamente más rápida que la 4. Otras
diferencias de parejas no son significativa.
(d) RE= 15.9.
14.37 (a) F = 0.21 </uci, 9) = 5.12. No rechazar H0 .
(b) Fu(l,df> = t df

932 Respuestas a los problemas seleccionados (•)


14.38 (a) FR = 8.244 < x2u( 4) = 9.488. No rechazar H 0 •
(b) No se utiliza el procedimiento de Nemenyi porque H 0 no fue
rechazada en el inciso (a).
14.42 FR =14.71>xt(4)=9.488. Rechazar Ha. Utilizando el procedimiento
de Nemenyi, el rango crítico es de 2.31. La sustancia 2 tiene como
resultado un tiempo de coagulación significativamente menor que la
sustancia 4.
14.45 (a) (1) F = 0.51 < Fu(z, 9) = 4.26. No rechazar H 0 • No existe efecto
debido al centro de servicio.
(2) F = 17.58 > Fu(z, 9) = 4.26. Rechazar H 0 • Existe evidencia
de un efecto debido a la marca
(3) F = 3.36 < Fu<Ü> = 3.63. No rechazar H 0 . La interacción
no es significativa.
(c) Rango críti(:o = 8.36. La marca C requiere una cantidad
significativamente mayor de tiempo para su reparación que
cualquiera de las otras.
(f) La prueba para la igualdad de las marcas podría haber sido

F = 472.9 . db"'hb
90 .3 = 5.24 < Fucz. 4 ¡ = 6.94, y no e 10 a erse
realizado el procedimiento de Tukey para comparaciones por
parejas.
14.48 (a) (1) F = 26.57 > Fu(3,24) = 3.01. Rechazar H0 . Existe evidencia
de un efecto del operador.
(2) F= 43.60 > Fu(z, 24) = 3.40. Rechazar H 0 • Existe evidencia
de un efecto de la máquina.
(3) F= 3.81>Fu(6,24)=2.51. Rechazar H 0 • Existe evidencia de
una interacción significativa entre operador y máquina.
(c) No se utiliza el procedimiento de Tukey para comparaciones
por parejas. La interacción significativa hace difícil el estudio
de los efectos principales.

Capítulo 15
15.4 (a) Z = -1.60 > -2.33. No rechazar H0 . No existe evidencia de
que la porción sea menor que .25.
(b) valor de p = .0548.
15.5 (a) Z = +2.93 > +1.645. Rechazar Ha. Existe evidencia de que la
porción es diferente de 0.30.
(b) valor de p = .0034.
15.12 (a) Z = +2.37>+1.96. Rechazar Ha. Existe evidencia de que hay una
diferencia en la porción de mujeres de los dos grupos que hacen
la comida en un restaurante durante la semana de trabajo.
(b) valor de p = .0178.
15.14 (a) Z = +2.58 > + 1.645. Rechazar Ha. Existe
evidencia de que se prefiere el ciclo de alta temperatura.
(b) valor de p = .005.
15.17 (a) Z= +7.34 > +1.96. Rechazar Ha.
(b) valor de p = .0000.
(ci Z = +7.3\> + 1.645. Rechazar Ha.
15.22 x =5.617>Xu(i)=3.841.RechazarH0 .
15.27 (a) x2 = 53.826 > xt(l) = 3.841. Rechazar Ha.
(b) valor de p = .0000.
(d) Se puede utilizar la prueba x 2 únicamente para probar una
diferencia entre dos porciones.

Respuestas a los problemas seleccionados ( •) 9:U


15.30 (a) x2 = 1.125 < xt(z) = 9.210. No existe evidencia de que haya
una diferencia en la actitud hacia el trimestre entre los
diferentes grupos.
15.34 (a) x2 = 11.2949 > xt(z) = 9.210. Rechazar H0 . Existe evidencia de
que hay una diferencia. Utilizando el procedimiento de
Marascuilo, los residentes de casas de una sola familia
adquieren el servicio de televisión por cable significativamente
más que los residentes de edificios de departamentos.
15.38 (a) x2 = 22.780 > x2u(S) = 15.507. Rechazar H0 . Existe una
relación entre el tipo de área de residencia y la preferencia de
fabricante en la adquisición de automóviles.
(b) valor de p < .005.
15.40 (a) x2 = 9.82 < xt( 4 l = 13.277. No rechazar H0 . No existe evidencia de
que haya una relación entre el tiempo de cambio y la tensión .
(b) .025 <valor de p <.OS.
15.59 (a) Z = -3.90 < -2.33. Rechazar H 0 . Existe evidencia de que la
porción de empleados con un ausentismo de menos de cinco
días es menor en el año l.
(b) valor de p = .00005.
(e) Que el plan de incentivos redujo significativamente el
ausentismo.
15.60 (a) Z = -4.08 < -1.96. Rechazar H 0 . Existe evidencia de que hay
una diferencia.
(b) valor de p = .0000.
15.62 (a) Z = -5.00 < -2.33. Rechazar H 0 . Existe evidencia de que la
porción de médicos hombres que sufren ataques al corazón
es menor para aquellos que toman aspirina que para los que
no la toman.
(b) El valor de pes menor que .0001. Existe una posibilidad muy
pequeña de que estos resultados hayan podido presentarse si la
aspirina no redujera la incidencia de ataques al corazón.
(c) La prueba x2 no es apropiada debido a que tenemos una
hipótesis alternativa direccional.

Capítulo 16
16.6 (a) p = .1145; LCL = .0522; UCL = .1768. La porción de llegadas tarde
durante el día 13 está, sustancialmente, fuera de control. Las
posibles causas especiales de este valor deben ser investigadas.
Además, los siguientes puntos más altos se presentan en viernes.
(b) X =26.9; UCL = 41.54, y LCL = 12.26.
(c) Los resultados son exactamente los mismos. El diagrama p
expresa los resultados en términos de la porción y el diagrama
np expresa los resultados en término del número de éxitos.
(d) La tormenta de nieve podría explicar porqué la porción de
llegadas tarde es tan alta durante el día 13.
16.10 (a) p = .01288; UCL = .01753; LCL = .00823. Aunque ninguno de
los puntos está fuera de los límites de control, existe evidencia
de la presencia de un patrón en el tiempo, ya que los últimos
ocho puntos se encuentran todos por encima de la media y la
mayoría de los puntos primeros están por debajo de ésta. Así
pues, las causas especiales que podrían estar contribuyendo a
la formación de este patrón deben ser investigadas antes de
realizar cualquier cambio en el sistema de operación.

914 Respuestas a los problemas seleccionados (•)


(b) Una vez que las causas especiales han sido eliminadas y que
el proceso es estable, deberían trazarse los diagramas de flujo
y de esqueleto de pescado para aumentar el conocimiento
sobre el proceso. Luego se pueden aplicar los catorce puntos
de Deming para mejorar el sistema.
16.15 (a) e= 6.458; UCL = 14.082. El proceso parece estar bajo control,
ya que no hay puntos fuera del límite de control superior y
no aparece ningún patrón de los resultados con respecto al
tiempo.
(b) El valor de 12 está dentro de los límites de control, de modo
que debe ser identificado como una fuente de causas
comunes de variación. Por lo tanto, no debe llevarse a cabo
ninguna acción concerniente a este valor. Si el valor hubiera
sido de 20 en lugar de 12, e= hubiera sido de 6.792 y UCL
de 14.61. En esta situación, un valor de 20 hubiera estado
sustancialmente por arriba del UCL y se debería llevar a cabo
acciones para explicar esta causa especial de variación.
(c) Puesto que el proceso está bajo control, deberían trazarse los
diagramas de flujo y de esqueleto de pescado para aumentar
el conocimiento del proceso.
16.22 (a) R = 271.57; UCL = 574.20. El LCL no existe. No existen puntos
fuera de los límites de contrq). y no hay evidencia de un patrón
en el diagrama de alcances. X 198.67; UCL = 355.31; y
LCL = 42.03. No hay puntos fuera de los límites de control y
ninguna eviqencia de un patrón en el diagrama X.
16.23 (a) R = 4.8325, X= 3.549, Para el diagrama R LCL = 1.0786, y
UCL = 8.5864. Para el diagrama X: LCL = 2.06, y UCL = 5.038.
El proceso parece estar en control puesto que no hay puntos
fuera de los límites de control superior e inferior y tampoco
hay patrones en los resultados con respecto al tiempo.
(b) Puesto que el proceso está bajo control, queda al administrador
reducir la causa común de variación mediante la aplicación de
los 14 puntos de la teoría de Deming sobre el proceso de
administración. Además, se podría mejorar el conocimiento del
proceso mediante el trazado de diagramas de flujo y de esqueleto
de pescado.
16.25 (a) X= 11.9998; MR = .03648; LCL = 11.903; UCL = 12.097.
(b) No existe evidencia de una variación de causa especial.

Capítulo 17
17.7 (a) b0 = 1.45; b 1 = .074.
(b) Por cada aumento de 1 pie de espacio en estante, las ventas
'\umentarán en $7.40 a la semana.
(c) Y¡= 2.042 o $204.20.
17.9 (a) b0 = 12.6786; b 1 = 1.9607.
A
(b) La intersección con Y, b0 (igual a 12.6786) representa la porción
de las horas del trabajador que no se ven afectadas por la
variación en el tamaño del lote. La pendiente b1 (igual a 1.96),
significa que por cada aumento de una unidad en el tamaño del
l9te, se predice que las horas del trabajador aumentarán en 1.96.
(c) Y¡= 100.91.
(d) El tamaño de lote tuvo una variación de 20 a 80, de modo
que la predicción de un tamaño de lote de 100 sería una
extrapolación más allá del rango de la variable X.

Respuestas a los problemas seleccionados ( •) S> J S


17.13 Syx=0.308.
17.15 Syx = 4.71.
17.19 (a) r 2 = .684; 68.4% de la variación en las ventas se puede
explicar por la variación del espacio en estantes.
2
(b) r aju = .652.
17.21 (a) r 2 = .9878. 98.78% de la variación en las horas del trabajador
pueden ser explicadas por la variación en el tamaño del lote.
2
(b) r aju = .987.
17.28 r= +.827.
17.30 T= +.9939.
17.36 Basado en un análisis de residuos, el modelo parece ser adecuado.
17.38 Basado en un análisis de residuos, el modelo parece ser adecuado.
17.43 Los datos han sido recolectados, durante un solo periodo, de un
conjunto de tiendas. No hay una naturaleza secuencial con
respecto al conjunto de tiendas. Por consiguiente, no es necesario
calcular la estadística de Durbin-Watson.
17.47 1.835::;; µyx :s; 2.249.
17.49 98.597 :s; µyx::; 103.223.
17.53 (a) 1.447:s;Y1 ::;2.637.
(b) Ésta es una estimación de una respuesta individual más que
un valor promedio predicho.
17.55 (a) 92.20::; Y1 ::; 109.62.
(b) Ésta es una estimación de una respuesta individual más que
un valor promedio predicho.
17.59 t = 4.653 > t10 = 1.8125. Rechace H0 . Existe evidencia de una
relación lineal.
17.61 t = 31.15 > t 12 = 1.7823. Rechace H0 • Existe evidencia de una relación
significativa entre el tamaño de lote y las horas del trabajador.
17.69 Máx h¡ = .2333 < .3333; máx lt¡•¡ = 1.49 < 1.8331; máx D¡ = .369
< .743. Así pues, no existe evidencia de que alguna observación
deba ser eliminada del modelo.
17.71 Máx h¡ = .232 < .286; las observaciones 12 y 14 tienen residuos
studentizados eliminados grandes Clt¡·¡ = 2.967 y lt¡•¡ = 2.057
> 1.7823); Las D¡ de Cook para estas observaciones son .445 y
.504, menores que .735. Sin embargo, éstas son los valores D¡
más grandes. Así pues, uno podría desear el tomar en cuenta
estas observaciones como influyentes y eliminarlas del modelo;
sin embargo, el modelo es un ajuste extremadamente
bueno con o sin las observaciones dichas.
17.75 (b) b0 = 21.9256; b 1 = +2.0687.
(c) Si los automóviles no tienen aditamentos, el tiempo de entrega
tiene un promedio de 22 días aproximadamente; por cada
aditamento pedido, el tiempo de entrega aumenta en 2.0687
días.
(d) 55.0248 días.
(e) Syx = 3.0448.
(t) r2 = .9575; 95.75% de la variación del tiempo de entrega puede ser
explicado por la variación en el número de aditamentos pedidos.
(g) r= 2
+.9785.
.
(h) r aju = .955.
(i) 53.1115::; µyx::; 56.9381.
(j) 48.22::; Y1 $ 61.83.
(k) t= 17.769 > t 14 = 2.1448. Rechace H0 . Existe evidencia de
una relación lineal.
(1) +1.8187::; ~1 $ +2.3187.

936 Respuestas a los problemas seleccionados (•)


(m) Basándose en un análisis dP residuos, el modelo parece ser adecuado.
(n) El valor de h¡ para la observación 16 = .3096 > .25. Por
consiguiente, esta observación es un puntn de influencia. Sin
embargo, el valor de !l1¡para la observación 16 = 1.50
< 1.76, de modo que esta observación no afecta negativamente
al modelo. La mayor 1(1=1.57 < 1.76. La mayor D¡ de Cook
corresponde a la observación 16 = .465 < .73. Por lo tanto,
podemos llegar a la conclusión de que no hay suficiente razón
para eliminar la observación del modelo.
17.80 (a) b0 = +0.30; b1 = +.00487.
(b) La pendiente b 1 puede ser interpr-+ada como que por cada
aumento de un punto en el resultado G;.1AT, se predice que el
índice puntual aumente en 0.00487 puntos (o por cada aumento
de 100 puntos en el resultado de GMAT, se predice que el índice
puntual aumente en .487 puntos). La intersección con Y, b0 ,
representa la porción del índice puntual que varía con los
factores diferentes al resultado GMAT.
(c) Y= 3.222.
(d) s1x = .158.
(e) r = .793; 79.3% de la variación en el índice puntual puede
ser explicada por la variación en el resultado GMAT.
(f) r = + .891.
(g) r~¡u = . 781.
(h) t = 8.31 > t 18 = 2.1009. Rechace H0 • Existe evidencia de una
relación lineal entre el resultado en GMAT y el índice puntual.
(i) 3.143 ~ µyx :5 3.301.
(j) 2.881 ~ Y1 ~ 3.563.
(k) +.00364 :5 ~1 :5 +.00610.
(l) Existe una gran dispersión en la gráfica de residuos, pero no
hay ningún patrón en la relación entre los residuos y X 1•
(m) h 20 = .305 > .20, de modo que la observación 20 es un punto de
influencia. Sin embargo, los valores de lt*I correspondientes a las
observaciones 3, 5, 14 y 20 son iguales a 1.879, 2.216, 2.228 y
1.961, son todos menores a 1.7396. Observamos que la D de
Cook para la observación 20 = .729 > .720. Por consiguiente,
necesitamos explorar un modelo alternativo que no incluya la
observación 20. Para este modelo?-= .819 y el modelo ajustado
es Y;= - .0799 + .0055081 X 1• La eliminación de la vigésima
observación ha cambiado un poco los coeficientes de regresión y
ha producido un modelo ligeramente mejor ajustado. Sin
embargo, el rango de las predicciones del GPI que se pueden
llevar a cabo ha sido ajustado de los resultados GMAT que van
de 536 a 759 a resultados GMAT que van de 536 a 718.

Capítulo 18
18.2 (a) Y;=
-.02686 + .79116 X 1 ; + .60484 X2r
(b) Para un impacto dado en la suela media, cada aumento de una
unidad en la capacidad de absorbencia de impacto en la parte
delantera del pie tiene como resultado un aumento en la
habilidad a largo plazo para absorber los golpes en .79116 unidades.
Para una capacidad dada de absorbencia de impacto en la parte
delantera del pie, cada aumento de una unidad en el impacto en
la suela media tiene como resultado un aumento en la habilidad
a largo plazo para absorber los golpes en .60484 unidades.

Respuestas a los problemas seleccionados (•)


18.4 (a) Y;= 156.4 + 13.081 X1¡ + 16.795 2¡ en la que X1 =costos de
publicidad en radio y televisión en miles de dólares, y
X 2 = costos de publicidad en periódicos en miles de dólares.
(b) Manteniendo constantes los gastos de publicidad en periódicos,
por cada aumento de $1,000 en publicidad en radio y televisión,
se predice que las ventas aumenten en $13,081. Manteniendo
los costos de publicidad en radio y televisión constantes, por
cada aumento de $1,000 en publicidad en periódicos, se predice
que las ventas aumenten en $16,795.
18.8 Y;= $753.95
18.11 (a) rt.
12 = .9421; 94.21% de la variación en la habilidad a largo
plazo para absorber los golpes pueden explicarse por la
variación en la capacidad de absorbencia de impacto en la
parte delantera del pie y por la variación en el impacto en la
suela media
2
(b) r aju = .9263.
18.13 (a) rt.
12 = .809; 80.9% de la variación en las ventas puede
explicarse mediante la variación en los costos de publicidad en
radio y televisión y mediante los costos en publicidad en
periódicos.
2
(b) r aju = .789.
18.15 (a) rt.12 = .490; 49.0% de la variación en las horas de reserva
pueden ser explicadas por la variación en el personal total y
por la variación en las horas remotas.
2
(b) r aju = .446.
18.17 Parece que hay una relación curvilínea en la gráfica de los residuos
con respecto tanto a los costos de publicidad en radio y televisión
como eón respecto a los gastos de publicidad en periódicos. Así pues,
los términos curvilíneos correspondientes a cada una de estas variables
explicatorias deben considerarse para su inclusión en el modelo.
18.20 F = 97 .69 > Fuc2,12) = 3.89. Rechace H 0 • Al menos una de las variables
independientes está relacionada con la variable dependiente Y.
18.22 F = 40.16 > Fuc 2, 19 ) = 3.52. Rechace H0 . Existe una relación
significativa entre las ventas y los costos en publicidad en radio y
televisión y en periódicos.
18.25 F= 157.98 >Fuc1,12¡ = 4.75 y F= 71.09 >Fuc1,12) = 4.75ot=12.57 >
t12 = 2.1788 y t= 8.43 > t 12 = 2.1788; cada variable independiente
hace una contribución significativa en la presencia de la otra
variable, y ambas variables deben ser incluidas en el modelo.
18.27 t= 7.43 > t 19 = 2.093 y t= 5.67 > t 19 = 2.093. Cada variable
explicatoria hace una contribución significativa y debe ser incluida
en el modelo.
18.30 .654 ~ ~1 ~ .928.
18.32 9.399 ~ ~1~16.763.
18.35 rti. 2 = .9294; manteniendo el efecto del impacto en la suela
media constante, 92.94% de la variación en la habilidad a largo
plazo para absorber los golpes puede ser explicada por la
variación en la capacidad de absorbencia de impacto en la parte
rt
delantera del pie. 2.1 = .8556; manteniendo constante el efecto
de la capacidad de absorbencia de impacto en la parte delantera
del pie, 85.56% de la variación en la habilidad a largo plazo para
absorber golpes puede ser explicada por la variación en el
impacto en la suela media ..
18.37 rti. 2 = .7442. Para una cantidad dada de costos en publicidad en
periódicos, 74.42% de la variación en las ventas puede ser explicada

938 Respuestas a los problemas seleccionados (•)


por la variación en los costos de publicidad en radio y televisión.
r}2 . 1 = .8556. Para una cantidad dada en los costos de publicidad en
radio y televisión, 62.83% de la variación en las ventas puede ser
explicada por la variación en los costos de publicidad en periódicos.
18.40 (a) ~ = 20.2983 + .03908(X¡ - X) - .0145(X¡ - X) 2.
(c) Y¡= 18.52.
(d) F = 141.46 > Fu(z, 2s) = 3.39. Rechazar H 0 • Existe evidencia de
una relación curvilínea entre la velodc:iad y las millas recorri-
das por galón.
(e) rt. 12 = .9188; 91.88% de la variación en las millas recorridas
por galón puede ser explicado por la relación curvilínea con
la velocidad.
2
(f) T aju = .912
(g) El modelo solamente señala residuos positivos para los
valores intermedios de (X¡ - X)
(h) t= -16.63 < -2.0595. El efecto curvilíneo hace una
contribución
A
significativa al modelo.
18.47 (a) Y¡= 1.30 + .074.X:1; + .45X2;, donde X1 =espacio en estante,
X 2 = O para la parte posterior del pasillo y 1 para la parte
delantera del mismo.
(b) Manteniendo constante el efecto de la colocación en pasillo,
por cada pie adicional de espacio en estante, las ventas
predichas aumentan en .074 miles de dólares ($7.40). Para
una cantidad dada de espacio en estante, una colocación en
la parte delantera del pasillo aumenta las ventas promedio
en .45 miles de dólares ($45).
(c) ~ = 1.892 o $189.20.
(d) F = 28.562 > Fu( 2,9) =4.26. Rechazar H 0 • Existe evidencia de
una relación entre las ventas y las dos variables
independientes.
(e) r}. 12 = .864; 86.4% de la variación en las ventas puede ser
explicada por la variación en el espacio en estante y la
variación en la colocación en pasillo.
2
(f) T aju = .834.
(g) r}. 12 = .864 mientras que 1- = .684; r~¡u = .834 en compara-
ción con .652. La inclusión de la variable colocación en
pasillo ha tenido como resultado un aumento en r 2 .
(h) t= 6.72 > t 9 = 2.2622 y t= 3.45 > t9 = 2.2622. Por consiguiente,
cada variable explicatoria hace una contribución significativa y
debería ser incluida en el modelo.
(i) [.049 :::; 131 :::; .099).
[.155:::; 132:::; .745).
(j) La pendiente b1 = .07 4 queda sin cambiar en este caso porque
las variables espacio en estante y colocación en pasillo no están
correlacionadas.
(k) r}l.2 = .834. Manteniendo constante el efecto de la colocación
en pasillo, 83.4% de la variación en las ventas puede ser expli-
cada por la variación en el espacio en estante; rt2 .1 = .569; para
una cantidad dada de espacio en estante, 56.9% de la variación
en las ventas puede ser explicada por la variación en la colo-
cación en pasillo.
(1) Que la pendiente del espacio en estante y las ventas es la
misma independientemente de si la colocación en pasillo es
en la parte posterior o en la anterior.

Respuestas a los problemas seleccionados (•) 939


(m) Basándose en un análisis de residuos, el modelo parece ser
adecuado.
18.52 (a) Y;= 1.20 + .082X1¡ + .7SX2; - .024X1¡ X2 ¡, donde X 1 =es el
espacio en estante, X2 = O para una colocación en pasillo
posterior y uno para una colocación en la parte
delantera.
(b) t= -1.03 > t 8 = -2.306. No rechazar H0 . No hay evidencia
de que el término de interacción haga una contribución al
modelo. Por consiguiente, deberíamos utilizar el modelo
~ = b0 + b1X 1¡, + b2X 2¡.
18.59 Las observaciones 1, 2, 13, 14 son puntos de influencia (h 1 y
h 2 = .2924, y h13 y h14 = .3564 > .2727). Observaciones 2, 4, 7, y
13 tienen un efecto sobre el modelo (t ~ = 2.44, t~ = 1.98,
t*7 = 1.87, t ~ 3 =1.96>11.73411. Los valores más grandes de las D¡
de Cook son de .652 para la observación 2 y de .619 para la
observación 13, ambos menores que .82. Sin embargo, como
estos valores están sustancialmente por arriba de los valores D¡
correspondientes a las otras observaciones y también se encontró
que tenían un efecto sobre el modelo y que eran puntos de
influencia, se estudió un modelo en el cual se eliminaron las
observaciones, r 2 es de .88, mientras que b0 = -24.7, b1 =14.932,
y b2 = 19.107.
18.62 Ninguna de las observaciones es mayor que h¡ = .214. Sin
embargo, la observación 14 tiene lt:I = 2.30 > 1.7081. Como la D;
de Cook más grande corresponde a la observación 27
(D27 = .238) y la que le sigue en valor corresponde a la
observación 14 (D 14 = .131), y las dos son menores que 0.81, no
hay evidencia suficiente de que alguna observación deba ser
eliminada del modelo.
18.69 (a) Máx h¡ = .40 < .SO; máx 1(1=2.16 > 1.8331; máx D; = .28 < .845.
La observación 5, cuyo ltsl = 2.16, tiene D5 = .183. Así pues,
no existe evidencia suficiente de que esta observación deba
ser eliminada del modelo.
(b) El modelo del problema 17.69 no tiene ninguna observación
que se deba eliminar; no posee ninguna observación
significativa lt: I·
· 18.78 (a) Y;= 16.19567 + 2.03779 X1¡ + 0.56262 X2r
(b) Para un recorrido de envío dado, cada aditamento adicional
ordenado aumenta el tiempo de entrega en 2.03779 días.
Para un número de aditamentos dado, cada aumento de 100
millas en el recorrido de envío, aumenta el tiempo de
entrega en 0.56262 días.
(c) 41.07 días.
(d) F = 270.58 > Fuc2, 13i = 3.81, de modo que podemos rechazar
H0 • Existe una relación significativa entre el tiempo de
entrega, el número de aditamentos ordenados y el recorrido
de envío.
(e) r}. 12 = .9765; 97.65% de la variación en el tiempo de entrega
puede ser explicada por la variación en el número de
aditamentos ordenados y el recorrido de entrega.
2
(f) r aju = .973.
(g) F = 509.16 > Fu(l,l3J = 4.67 y F = 10.53 > Fuc 1, 13i = 4.67. Cada
variable independiente hace una contribución significativa y
debería ser incluida en el modelo.
(h) .18794::; ~2::; .93730.

940 Respuestas a los problemas seleccionados ( •)


(j) r}i. 2 = .975 l. Para un recorrido de envío dado, 97.51 % de la
variación en el tiempo de entrega puede ser explicada por
la variación en el número de aditamentos.
r}2 .1 = .4474. Para un número de opciones dado, 44.74% de
la variación en el tiempo de entrega puede ser explicada por
la variación en los envíos por distancia recorrida.
(k) VIF 1 = 1.0. VIF 2 = 1.0. No existe razón para sospechar la
existencia de la multicolinealidad
(l) Basándose en un análisis de residuos, el modelo parece ser adecuado.
(m) Máx h¡ = .333 < .375; no hay indicios 9ue señalen la existencia
de observaciones de influencia. Las it;I correspondientes a las
observaciones 13 (2.91) y 16 (2.07) son ambas mayores que
1.7709. D 13 = .253 and D16 = .511 ambas menores que 0.826,
de modo que parece
que no hay evidencia suficiente para eliminar alguna de las
observaciones. Sin embargo, como estos valores de D¡
exceden con mucho a los demás, se puede contrargumentar
que se debe llevar a cabo una investigación más exhaustiva
sobre si estas observaciones deben ser eliminadas o no del
modelo.

Capítulo 19
19.3 (b) y (c)

Total móvil Prom. móvil (W = .SO)


Pd. Año Y¡ en 3 años de tres años E¡

1 1972 1.45 ** ** 1.45


2 1973 1.55 4.61 1.54 1.50
3 1974 1.61 4.76 1.59 1.55
4 1975 1.60 4.95 1.65 1.58
5 1976 1.74 5.26 1.75 1.66
6 1977 1.92 5.61 1.87 1.79
7 1978 1.95 5.91 1.97 1.87
8 1979 2.04 6.05 2.02 1.95
9 1980 2.06 5.90 1.97 2.01
10 1981 1.80 5.59 '1.86 1.90
11 1982 1.73 5.30 1.77 1.82
12 1983 1.77 5.40 1.80 1.79
13 1984 1.90 5.49 1.83 1.85
14 1985 1.82 5.37 1.79 1.83
15 1986 1.65 5.20 1.73 1.74
16 1987 1.73 5.26 1.75 1.74
17 1988 1.88 5.61 1.87 1.81
18 1989 2.00 5.96 1.99 1.90
19 1990 2.08 5.96 1.99 1.99
20 1991 1.88 ** ** 1.94

/\
(d) ~1994 = E1993
= 1.94.
19.5 (b) Y¡= 0.216 + .139 X¡, en la que el origen es= 1970 y las
unidades de X son años.
(c) 1993: 3.413
1994: 3.552
1995: 3.691
1996: 3.830

Respuestas a los problemas seleccionados ( •) 941


19.13 (b) log Y¡= -.51371 + .0532X¡ o Y¡= (.3062) (1.1303)x¡ en la
que el origen= 1970 y las unidades de X son años.
(c) 1993: 5.12
1994: 5.79
1995: 6.55
1996: 7.40
19.15 (a) 39.8
(b) 62.2
A •
19.20 ~ + j = 3.597 + (j)(0.259)
19.26 Yn + ¡ = 5.076 + (j)(0.289)
19.27 (a) 5.
(b) 6.
(c) Los cinco valores observados más recientes:-Y36, Y37, Y38,
Y39,
~ Y40·
(d) Y;=&+ °W1Y;-1 + "12Y;-2 + · · · + \lfsYi-s·
" A,.A .... " ,..A
(e) Yn+¡=co + 'lf1Yn+j-l + 'lf2Yn+¡-2 + · · · + 'lfsYn+j-S·
19.31 Se escoge el modelo de primer orden.
19.37 Se escoge el modelo de tercer orden.
19.39 MADLT = 0.09; MADA1=0.11
19.45 MAD~T = 0.25; MADA3 = 0.21
19.46 (c) Y¡= 244.909 + 1.192X¡, en que el origen es= 15 de enero de
1985, y las unidades de X son meses.

Afio Mes S¡ Y¡ Predicción


1995 Ene. 0.941 387.97 364.884
Feb. 0.985 389.16 383.165
Mar. 1.072 390.35 418.389
Abr. 0.964 391.54 377.389
May 0.964 392.73 378.620
]un. 1.045 393.93 411.640
Jul. 1.033 395.12 407.969
Ago. 1.027 396.31 407.136
Sep. 0.985 397.50 391.649
Oct. 0.964 398.70 384.482
Nov. 1.024 399.89 409.323
Dic. 0.997 401.08 399.923
1996 Ene. 0.941 402.27 378.339
Feb. 0.985 403.46 397.250
Mar. 1.072 404.66 433.722
Abr. 0.964 405.85 391.177
May 0.964 407.04 392.412
]un. 1.045 408.23 426.589
Jul. 1.033 409.42 422.740
Ago. 1.027 410.62 421.832
Sep. 0.985 411.81 405.744
Oct. 0.964 413.00 398.278
Nov. 1.024 414.19 423.967
Dic. 0.997 415.39 414.187

SJ42 Respuestas a los problemas seleccionados ( •)


(e) Obtención de los relativos cíclicos (C¡) para 1993 y 1994.

Total móvil
Año Mes Y¡ S¡ T¡C¡I¡ f; C¡I¡ pesado C¡
1993 Ene. 354.00 0.941 376.39 359.35 1.047 4.055 1.014
Feb. 365.00 0.985 370.71 360.55 1.028 4.107 1.027
Mar. 389.00 1.072 362.93 361.74 1.003 3.601 0.900
Abr. 198.00 0.964 205.43 362.93 0.566 3.178 0.794
May 366.00 0.964 379.64 364.12 1.043 3.670 0.918
Jun. 389.00 1.045 372.26 365.32 1.019 3.982 0.995
Jul. 341.00 1.033 330.26 366.51 0.901 3.915 0.979
Ago. 413.00 1.027 402.02 367.70 1.093 4.153 1.038
Sep. 387.00 0.985 392.78 368.89 1.065 4.299 1.075
Oct. 384.00 0.964 398.19 370.08 1.076 4.309 1.077
Nov. 415.00 1.024 405.43 371.28 1.092 4.143 1.036
Dic. 328.00 0.997 328.95 372.47 0.883 4.045 1.011
1994 Ene. 417.00 0.941 443.38 373.66 1.187 4.362 1.090
Feb. 408.00 0.985 414.38 374.85 1.105 4.430 1.107
Mar. 416.00 1.072 388.12 376.04 1.032 4.264 1.066
Abr. 398.00 0.964 412.93 377.24 1.095 4.310 1.077
May 397.00 0.964 411.80 378.43 1.088 4.410 1.103
Jun. 452.00 1.045 432.55 379.62 1.139 4.443 1.111
Jul. 423.00 1.033 409.68 380.81 1.076 4.453 1.113
Ago. 456.00 1.027 443.88 382.01 1.162 4.343 1.086
Sep. 356.00 0.985 361.32 383.20 0.943 4.340 1.085
Oct. 479.00 0.964 496.71 384.39 1.292 4.604 1.151
Nov. 425.00 1.024 415.20 385.58 1.077 4.740 1.185
Dic. 499.00 0.997 500.44 386.77 1.294 ** **

Res1»uestas a los Droblemas seleccionados ( •) 943


APÉNDICE

A
Repaso de aritmética y álgebra

it¡fi I Reglas para efectuar las operaciones aritméticas


Lo que sigue es un resumen de varias reglas para efectuar operaciones aritméticas;
cada regla viene ilustrada con un ejemplo numérico:
Regla Ejemplo
l. a + b =e y b + a= e 2+1=3 y 1+2=3
2. a + (b + e) = (a + b) + e 5 + (7 + 4) = (5 + 7) + 4 = 16
3. a - b = e pero b - a i= e 9 - 7 =2 pero 7 - 9=- 2
4. ax b = b x a 7 X 6 = 6 X 7 = 42
5. a x (b + e) = (a x b) + (a x e) 2 X (3 + 5) = (2 X 3) + (2 X 5) = 16
6. a+ b i= b +a *
12 + 3 3 + 12
a+ b a b 7+3=Z.+i=5
7. - - = -+-
e e e 2 2 2
a a a 3 3 3
8. - - ;é - +- --;é-+-
b +e b e .4+5 4 5
9 .!+.!_=b+a 1 1 5+3 8
-+-=--=-
· a b ab 3 5 (3){5) 15
a e ax e 2 6 2 X 6 12
lO. bXd = b X d -X-=--=-
3 7 3 X 7 21
11 a.c_axd 5 3 5 X 7 35
·-¡;~d-bxc S+ 7 = 8 X 3 = 24

A-1
t¡lj Reglas del. álgebra: exponentes
y raíces cuadradas
Lo que sigue es un resumen de varias reglas para llevar a cabo operaciones arit-
méticas; cada regla está ilustrada con un ejemplo numérico:
Regla Ejem~lo
l. Xª·Xb=Xª+b 42. 43 = 45
2. (Xª)b =Xªb - (Z2)3 = z6

3. (Xª/Xb) =Xª - b r_
33
= 32

4. -Xª =X=

o
1 r_
34
= 3º =1

5. -J XY = IX ,.¡y ~(25)( 4) = f2s ..¡¡ = 10

6.
#=!; f& = ..fi6 = .40
-J100

A-2 Apéndice A Repaso de aritmética y álgebra


APÉNDICE

Notación de sumatorias
B
Puesto que la operación de adición se presenta con mucha frecuencia en la estadís-
tica, se utiliza el símbolo especial L (sigma) para denotar "tomar la suma de".
Suponga, por ejemplo, que tenemos un conjunto de n valores para alguna
n
variable X. La expresión LX; significa que estos n valores deben sumarse. Por
consiguiente ;= 1
n

LX¡= X1 + X2 + X3 + ... + xn
i =1

El uso de la notación sigma (o sumatoria) puede ilustrarse en el siguiente prob-


lema. Suponga que tenemos cinco observaciones de una variable X: X 1 =2, X2 =
O, X3 = -1, X4 = 5, y X5 = 7. Por consiguiente
s
LX;= X 1 + X 2 + X 3 + X 4 + X 5 = 2 + O + (-1) + 5 + 7 = 13
j =1

Eh estadística nos vemos involucrados muy a menudo con la suma de los valores
al cuadrado de una variable. Por tanto:
n
L x¡ = x; + x; + x; + ... + x;
1=1

y, en nuestro ejemplo, tenemos:

s
L x¡ = x; + x; + x; + x¡ + x~
l=l =22+02+(-1)2+52+72
= 4+ o + 1 + 25 + 49
= 79

n
Debemos observar, aquí que L Xf, la sumatoria de los cuadrados no es
1=1

igual a (t. J.
X, el cuadrado de la suma, esto es

t. Xi * (t. X, J
En nuestro ejemplo, la sumatoria de los cuadrados es igual a 79. Esto no es igual
al cuadrado de la suma, cuyo resultado es 13 2 = 169.

Apéndice B Notación de sumatorias B·I


Otra operación que se utiliza con frecuen-.:ia implica la sumatoria del producto.
Esto es, suponga que tenemos dos variables, X y Y, cada una con n observaciones.
Entonces,
n
L X¡Y¡ = X 1 Y1 + X 2 Y 2 + X 3 Y3 + ··· + XnYn
j = 1

Continuando con nuestro ejemplo anterior, suponga que también se tiene una
segunda variable Y cuyos valores son Y1 = 1, Y2 = 3, Y 3 = -2, Y4 = 4, y Y5 = 3.
Entonces,
s
L X¡Y¡ = X 1 Y1 + X 2 Y2 + X 3 Y3 + X 4 Y4 + X 5 Y5
j =1
= (2)(1) + (0)(3) + (-1)(-2) + (5)(4) + (7)(3)

= 2 + o + 2 + 20 + 21
= 45
n
Al calcular L X¡Y¡ debemos tomar en consideración que el primer valor de X
j =1
el segundo valor de X por el segundo de Y, y así sucesivamente. Estos productos
cruzados luego se suman con el propósito de obtener el resultado deseado. Sin
embargo, debemos observar en este punto que la sumatoria de productos cruzados
no es igual al producto de las sumas individuales, es decir,

5 5
En nuestro ejemplo, LX¡ = 13 y L Y¡ = 1 + 3 + (-2) + 4 + 3 = 9 de modo
que i =r ; =r

(~X¡)(¡~ Y¡) = (13)(9) = 117. Esto no es lo mismo que ~ X Y¡, que es igual
1

a 45.
Antes de estudiar las cuatro reglas básicas para efectuar operaciones con
notación sigma, será de ayuda presentar los valores de cada una de las cinco obser-
vaciones de X y de Y en forma de tabla:

Observación X¡ Y¡
1 2 1
2 o 3
3 -1 -2
5 4
5 7 3
5 5
¿xi= 13
i=l
¿v,= 9
i=l

8·2 Apéndice B Notación de sumatorias


Regla 1: La sumatoria de los valores de dos variables es igual a la suma de los valo-
res de cada variable sumada.
"
"

Así pues, en nuestro ejemplo:

5
L (X; + Y1) = (2 + 1) +(o+ 3) + (-1 + (-2)) + (s + 4) + (7 + 3)
i =1

= 3 + 3 + (-3) + 9 + 10
5 5
= 22 = L Xi + L Y¡
i = 1 j = 1
= 13 + 9 = 22

Regla 2: La sumatoria de una diferencia entre los valores de dos variables es igual
a la diferencia entre los valores sumados de las variables. 1

·,:\• ·. r,¡ ·:! ">, ,.,

•'·,•;.

Por consiguiente, en nuestro ejemplo,

5
L (x 1 - Y1 ) = (2 - 1) +(o - 3) + (-1 - (-2)) + (s - 4) + (7 - 3)
i =1

= 1 + ( -3) + 1 + 1 + 4
5 5
=4 = LX¡ - LY;
i =1 j =1
= 13 - 9 =4

Regla 3: La sumatoria de una constante por una variable es igual a la constante


que multiplica a la sumatoria de los valores de la variable.

en la que e es una constante.

Apéndice B Notación de sumatorias B·3


Por tanto, en nuestro ejemplo, e = 2,
5 5
L cX¡ = L 2X; = (2)(2) + (2)(0) + (2)(-1) + (2)(5) + (2)(7)
i = 1 i = 1

=4+0+(-2)+10+14
5
= 26 = 2:¿x = (2)(13) = 26
i =1

Regla 4: Una constante sumada n veces será igual a n veces al valor de la cons-
tante.

en la que e es una constante. Así pues, si la constante e= 2 se suma cinco veces


tendremos:
5
:¿e =2+2+2+2+2
j=1
= 10 = (5)(2) = 10
Para ilustrar cómo se utilizan las reglas de la sumatoria, podemos mostrar una
de las propiedades matemáticas pertenecientes al promedio o media aritmética
(véase sección 4.5.3), esto es,
n
L(X¡ -X)=O
i= 1

Esta propiedad establece que la sumatoria de las diferencias entre cada obser-
vación y la media aritmética es cero. Esto se puede probar matemáticamente de la
siguiente manera:

l. De la ecuación (4.1),

x=--
n
j = 1

Así pues, utilizando la regla 2 de la sumatoria, tenemos:

i =1 i=1 i =1

2. Puesto que, para cualquier conjunto fijo de datos, X puede ser consi-
derada como una constante, de la regla 4 de la sumatoria tenemos:
n

Lix =nx
i =l

B·4 Apéndice B Notación de sumatorias


Por consiguiente,
n n
L (X¡ - X) = LX¡ -
j = 1 j = 1
nX

3. Sin embargo, de la ecuación (4.1), pusto que

n
después nX = L X¡
i = 1

Por consiguiente,

n n n
L(X¡ - X)= LX¡ - LX¡
j =1 j =1 j =1

Así pues, hemos mostrado que


n
L(X¡ -X)=O
i = 1

Problema
Suponga que se tienen seis observaciones de las variables X y Y tales que X 1 = 2, X 2 = 1, X 3
= 5, X 4 = - 3, X 5 = 1, X 6 = - 2, y Y1 = 4, Y2 =O, Y3 = - 1, Y4 = 2, Y5 = 7, y Y6 = - 3. Calcule
cada una de las siguientes sumatorias:
6 6
(a) LX¡ (b) LY¡
; = 1 i = 1
6 6
(e) LX¡2 (d) LY/
t =1 i =l
6 6
(e) LX;Y¡ (f) L(X; +Y;)
i =1 i = 1

6 6
(g) L(X; - Y;) (h) L(X¡ - 3Y¡ + 2xn
i = 1 j =1
6 6
(i)
i =1
L(cX;), cuando e = -1 (j) L(X; - 3Y; +e), cuando e= +3
I = 1

Referencias
l. Bashaw, W. L., Mathematics for Statistics (Nueva York: Wiley, 1969).
2. Lanzer, P. Video Review of Arithmetic (Roslyn Heights, NY: Video Aided Instruction, 1990).
3. Levine, D. Video Review of Statistics (Roslyn Heights, NY: Video Aided Instruction, 1989).
4. Shane, H., Video Review of Elementary Algebra (Roslyn Heights, NY: Video Aided Instruction,
1990).

Apéndice B Notación de sumatorias B-5


APÉNDICE

e
Símbolos estadísticos
y alfabeto griego

i j1 Símbolos estadísticos
+ suma x multiplicación
- resta división
= igual =t- diferente
= aproximadamente igual
> mayor que < menor que
;::::: o ~ mayor o igual que o ~ menor o igual que
=::;

1~1 Alfabeto griego

Letra Nombre Equivalente Letra Nombre Equivalente


griega griego en inglés griega griego en inglés
A a Alfa a N V Niu n
B 13
r 'Y
Beta
Gama
b
g
-o i;
o
Xi
Omicron
X
o
~ o Delta d n 1t Pi p
E E Épsilon e p p Ro r
z ¡; Zeta z E cr Sigma s
H Tl Ita e T 't Tao t
e e Teta th y '\) Ipsilon u
1 t lota i <I> <!> Fi ph
K K Kapa k X X Chi ch
A A. Lambda l 'I' 'l' Psi ps
M µ Miu m Q (¡) Omega 6

C-1
APÉNDICE

D
Conjuntos especiales de datos
(.para los .proyectos de minicasos
de aprendizaje colectivo)

i •H 1 Conjunto especial de datos 1


Éste es un archivo que contiene los datos correspondientes a los gastos de matrícula
de escuelas en los estados norteamericanos de Texas, North Carolina y Pennsyl-
vania. Se tomaron 60 escuelas de Texas, 45 de North Carolina y 90 de Pennsylva-
nia. Para utilizar el archivo, tome en cuenta los siguientes códigos para los datos:
• Cargos de matrícula (en $000)
• Tipo de institución: 1 = privado¡ 2 = público
• Localización de la institución: 1 = rural; 2 = suburbana; 3 = urbana
• Calendario académico: 1 =trimestral (quarter)¡ 2 =semestral (semestre);
3 =trimestral (trimester); 4 = 414; 5 =otro
• Clasificación de la institución: 1 = NLA¡ 2 = NU; 3 = RLA; 4 = RU; 5 =SS
• Estado: 1 = Texas; 2 = North Carolina; 3 = Pennsylvania
Además, para el calendario académico tenemos: Qtr. =trimestre (quarter); Sem. =
semestre; Tri. = trimestre (trimester); 414 = 4-1-4. Para la clasificación institu-
cional: NLA = escuela liberal nacional de artes (National Liberal Arts School); NU
= universidad nacional (National University); RLA = escuela liberal regional de
artes (Regional Liberal Arts School); RU = universidad regional (Regional
University); SS= escuela con atención especial (School with Special Focus).

Gastos de matrícula
Escuela (en $000) Tipo Localización Calendario Clase
Texas
Abilene Christian Univ. 7.2 Privada Suburbana Sem. RU
Angelo State Univ. 4.9 Pública Ciudad Sem. RU
Austin College 10.7 Privada Ciudad 414 NLA
Baylor Univ. 10.4 Privada Ciudad Sem. NU
Concordia Lutheran College 6.4 Privada Ciudad Sem. RLA
Dallas Baptist Univ. 4.8 Privada Ciudad 414 RLA
East Texas Baptist Univ. 4.7 Privada Ciudad 414 RLA
East Texas State Univ. 4.6 Privada Ciudad Qtr. RU
Hardin Simmons Univ. 6.0 Privada Ciudad Sem. RU
Houston Baptist Univ. 5.4 Privada Ciudad Qtr. RU
Howard Payne Univ. 4.8 Privada Campo Sem. RLA
Huston-Tillotson College 4.7 Privada Ciudad Sem. RLA

D·I
Gastos en matrícula
Escuela (en $000) Tipo Localización Calendario Clase
Texas (contlnuadón)
Incarnate Word College 8.3 Privado Ciudad Sem. RLA
Jarvis Christian College 3.8 Privado Campo Sem. RLA
LamarUniv. 4.8 Pública Ciudad Sem. RU
LeTourneau Univ. 8.3 Privada Ciudad Sem. RLA
Lubbock Christian Univ. 6.4 Privada Ciudad Sem. RLA
McMurry Univ. 6.6 Privada Ciudad 414 RLA
Midwestern State Univ. 4.5 Pública Ciudad Sem. RU
Our Lady of the Lake 8.0 Privada Ciudad Sem. RU
Paul Quinn College 3.6 Privada ·Ciudad Sem. RLA
Prairie View A&M Univ. 2.4 Póblica Campo Sem. RU
Rice Univ. 8.5 Privada Ciudad Sem. NU
St. Edward's Univ. 8.8 Privada Campo Sem. RU
St. Mary's Univ. 7.7 Privada Ciudad Sem. RU
Sam Houston State Univ. 4.9 Pública Campo Sem. RU
Schreiner College 8.6 Privada Campo 414 RLA
Southern Methodist Univ. 12.0 Privada Suburbana Sem. NU
Southwest Texas State Univ. 4.9 Pública Ciudad Sem. RU
Southwestern Adventist 7.0 Privada Campo Sem. RLA
Southwestern Univ. ll.O Privada Suburbana Sem. RLA
Stephen F. Austin State U. 4.9 Pública Campo Sem. RU
Sul Ross State Univ. 3.9 Pública Campo Sem. RU
Tarleton State Univ. 4.9 Pública Campo Sem. RU
Texas A&I Univ. 4.4 Pública Campo Sem. RU
Texas A&M Univ. 4,9 Pública Ciudad Sem. NU
Texas A&M at Galveston 4.9 Pública Ciudad Sem. RU
Texas Christian Univ. 8.0 Privada Ciudad Sem. NC
Texas College 3.6 Privada Ciudad Sem. RLA
Texas Lutheran College 7.4 Privada Ciudad Sem. RLA
Texas Southern Univ. 7.9 Pública Ciudad Sem. RU
Texas Tech Univ. 4.9 Pública Ciudad Sem. RU
Texas Wesleyan Univ. 5.8 Privada Ciudad Sem. RU
Texas Woman's Univ. 3.9 Pública Ciudad Sem. RU
Trinity Univ. ll.6 Privada Ciudad Sem. RU
U. of Dallas 10.3 Privada Suburbana Sem. NLA
U. of Houston 3.4 Pública Ciudad Sem. NU
U. of Houston-Downtown 3.9 Pública Ciudad Sem. RU
U. of Mary Hardin-Baylor 5.0 Privada Suburbana Sem. RLA
U. of North Texas 3.9 Pública Ciudad Sem. RU
U. of St. Thomas 8.0 Privada Ciudad Sem. RU
U. of Texas at Arlington 3.5 Pública Suburbana Sem. NU
U. of Texas at Austin 4.9 Pública Ciudad Sem. NU
U. of Texas at Dallas 5.8 Pública Suburbana Sem. RU
U. of Texas at El Paso 4.1 Pública Ciudad Sem. RU
U. of Texas-Pan American 3.5 Pública Ciudad Sem. RU
U. ofTexas, San Antonio 3.9 Pública Ciudad Sem. RU
Wayland Baptist Univ. 4.8 Privada Ciudad 414 RU
West Texas State Univ. 5.9 Pública Campo Sem. RU
Wiley College 3.6 Privada Ciudad Sem. RLA

D·1 Apéndice D Conjunto especial de datos


Gastos de matrícula
Escuela (en $000) Tipo Localización Calendario Clase
North Carolina
Appalachian State Univ. 6.5 Pública Campo Sem. RU
Barber Scotia College 4.0 Privada Ciudad Sem. RLA
Barton College 7.1 Privada Ciudad Sem. RLA
Belmont Abbey College 8.3 Privada Suburbana Sem. RLA
Bennett College 5.4 Privada Ciudad Sem. RLA
Campbell Univ. 7.6 Privada Campo Sem. RU
Catawba College 9.0 Privada Suburbana Sem. RLA
Davidson College 15.7 Privada Suburbana Sem. NLA
Duke Univ. 16.7 Privada Ciudad Sem. NU
East Carolina Univ. 6.4 Pública Ciudad Sem. RU
Elizabeth City State Univ. 5.0 Pública Campo Sem. RU
Elon College 8.5 Privada Suburbana 414 RU
Fayetteville State Univ. 5.7 Pública Ciudad Sem. RU
Gardner Webb Univ. 7.7 Privada Campo Sem. RU
Greensboro College 7.2 Privada Ciudad Sem. RLA
Guilford College 12.4 Privada Suburbana Sem. NLA
High Point Univ. 7.1 Privada Ciudad Sem. RU
Johnson C. Smith Univ. 5.5 Privada Ciudad Sem. RLA
Lenoir-Rhyne College 9.7 Privada Suburbana Sem. RLA
Livingston College 4.4 Privada Ciudad Sem. RLA
Mars Hill College 7.0 Privada Campo Sem. RLA
Meredith College 6.3 Privada Ciudad Sem. RU
Methodist Co!lege 8.3 Privada Ciudad Sem. RLA
N.C. A&T Univ. 6.9 Pública Ciudad Sem. RU
N.C. Central Univ. 5.7 Pública Ciudad Sem. RU
N.C. School of the Arts 7.6 Pública Ciudad Tri. SS
N.C. State Univ. 7.9 Pública Ciudad Sem. NU
N.C. Wesleyan College 7.9 Privada Suburbana Sem. RLA
Pembrooke State Univ. 6.0 Pública Campo Sem. RU
Pfeiffer College 8.2 Privada Campo Sem. RLA
Queens College 10.4 Privada Suburbana Sem. RLA
St. Andrews Presbyterlan Col!. 9.9 Privada Campo 414 RLA
St. Augustine's College 3.9 Privada Ciudad Sem. RU
Salero College 9.8 Privada Ciudad 414 RU
ShawUniv. 8.2 Privada Ciudad Sem. RU
U. of N.C. at Asheville 5.6 Pública Ciudad Sem. RU
U. of N.C. at Chapel Hill 7.9 Pública Ciudad Sem. NU
U. of N.C. at Charlotte 6.4 Pública Ciudad Sem. RU
U. ofN.C. at Greensboro 7.4 Pública Ciudad Sem. NU
U. of N.C. at Wilmington 7.0 Pública Suburbana Sem. RU
Wake Forest Univ. 13.0 Privada Suburbana Sem. RU
Warren Wilson College 8.7 Privada Campo Sem. RLA
Western Carolina Univ. 6.4 Pública Campo Sem. RU
Wingate College 6.7 Privada Suburbana Sem. RU
Winston-Salem State Univ. 7.4 Privada Ciudad Sem. RU

Apéndice D Conjunto especial de datos D·3


Gastos de matrícula
Escuela (en $000) Tipo Localización Calendario Clase
Pennsylvanta
Albright College 14.9 Privada Suburbana 414 NLA
Allegheny College 16.4 Privada Campo Sem. NLA
Al'town College St. Francis 9.3 Privada Campo Sem. RLA
Alvernia College 8.4 Privada Ciudad Sem. RLA
Beaver College 12.3 Privada Suburbana Sem. RU
Bloomsburg Univ. of Pa. 4.9 Pública Campo Sem. RU
Bryn Mawr College 17.1 Privada Suburbana Sem. NLA
Bucknell Univ. 17.7 Privada Campo Sem. NLA
Cabrini College 9.7 Privada Suburbana Sem. RLA
California Univ. of Pa. 6.3 Pública Campo Sem. RU
Carlow College 9.4 Privada Ciudad Sem. RLA
Carnegie Mellon Univ. 17.0 Privada Ciudad Sem. NU
Cedar Crest College 13.7 Privada Suburbana Sem. RLA
Chatham College 12.6 Privada Ciudad 414 NLA
Chestnut Hill College 9.5 Privada Suburbana Sem. NLA
Cheyney Univ. 2.7 Pública Campo Sem. RU
Clarion Univ. of Pa. 4.4 Pública Campo Sem. RU
College Misericordia 10.0 Privada Suburbana Sem. RLA
Delaware Valley College 11.6 Privada Suburbana Sem. RU
Dickinson College 17.7 Privada Ciudad Sem. NLA
Drexel Univ. 11.7 Privada Ciudad Qtr. NU
Duquesne Univ. 10.6 Privada Ciudad Sem. NU
East Stroudsburg Univ. 4.9 Pública Campo Sem. RU
Eastern College 10.6 Privada Suburbana Sem. RLA
Edinboro Univ. 6. 1 Pública Campo Sem. RU
Elizabethtown College 13.2 Privada Suburbana Sem. RU
Franklin & Marshall College 22.3 Privada Ciudad Sem. NLA
Gannon Univ. 9.1 Privada Ciudad Sem. RU
Geneva College 8.9 Privada Suburbana Sem. RLA
Gettysburg College 18.9 Privada Campo Sem. NLA
Grove City College 5.0 Privada Campo Sem. RU
Gwynedd Merey College 10.2 Privada Suburbana Sem. RU
Hahnemann Univ. 8.3 Privada Ciudad Sem. NU
Haverford College 17.9 Privada Suburbana Sem. NLA
Holy Family College 8.3 Privada Ciudad Sem. RLA
Immaculata College 9.4 Privada Suburbana Sem. RLA
Indiana Univ. of Pa. 4.9 Pública Campo Sem. RU
Juniata College 14.2 Privada Campo Sem. NLA
King's College 10.2 Privada Ciudad Sem. RU
Kutztown Univ. 8.3 Pública Ciudad Sem. RU
LaRoche College 8.4 Privada Suburbana Sem. RU
LaSalle Univ. 11.5 Privada Ciudad Sem. RU
Lafayette College 17.9 Privada Ciudad Sem. NLA
Lebanon Valley College 13.3 Privada Ciudad Sem. NLA
Lehigh Univ. 17.8 Privada Ciudad Sem. NU
Lincoln Univ. 4.0 Pública Campo Tri. RLA
Lock Haven Univ. of Pa. 6.1 Pública Campo Sem. RU

D-4 ADéndice D Coniunto esoecial de datos


Gastos de matrícula
Escuela (en $000) Tipo Localización Calendario Clase
Pennsylvania ( continuadón)
Lycoming College 13.0 Privada Campo 414 RLA
Mansfield Univ. 5.5 Pública Campo Sem. RU
Marywood College 9.6 Privada Suburbana Sem. RU
Mercyhurst College 9.3 Privada Suburbana Otro RU
Messiah College 9.7 Privada Suburbana 414 RU
Millersville Univ. of Pa. 7.7 Pública Suburbana 414 RU
Moore College Art and Design 13.5 Privada Ciudad Sem. SS
Moravian College 14.3 Privada Ciudad Sem. RU
Muhlenberg College 16.4 Privada Suburbana Sem. NLA
Neumann College 10.0 Privada Suburbana Sem. NLA
Penn State U. at Erie 10.1 Pública Ciudad Sem. RU
Penn State U. at College Park 9.6 Pública Ciudad Sem. NU
Philadelphia College Tex. & Sci. 11.7 Privada Suburbana Sem. RU
Point Park College 9.3 Privada Ciudad Sem. RU
Robert Morris College 6.0 Privada Ciudad Sem. SS
Rosemont College 10.7 Privada Suburbana Sem. RLA
St. Francis College 10.3 Privada Campo Sem. RU
St. Joseph's Univ. 11.9 Privada Ciudad Sem. RU
St. Vincent College 10.2 Privada Campo Sem. RLA
Seton Hill College 10.2 Privada Suburbana Sem. RLA
Shippensburg Univ. 6.1 Pública Campo Sem. RU
Slippery Rock Univ. 7.7 Pública Campo Sem. RU
Susquehanna Univ. 15.6 Privada Campo Sem. RU
Swarthmore College 18.3 Privada Suburbana Sem. NLA
Temple Univ. 9.1 Pública Ciudad Sem. NU
Thiel College 10.4 Privada Campo Sem. RLA
Univ. of the Arts 11.2 Privada Ciudad Sem. SS
Univ. of Pennsylvania 16.1 Privada Ciudad Sem. NU
Univ. of Pittsburgh 10.3 Pública Ciudad Sem. NU
U. of Pittsburgh at Bradford 9.7 Pública Campo Sem. RLA
U. of Pittsburgh at Greensburg 10.3 Pública Suburbana Sem. RLA
U. of Pittsburgh at Johnstown 9.7 Pública Suburbana Sem. RU
U. of Scranton 10.7 Privada Ciudad 414 RU
Ursinus College 14.1 Privada Suburbana Sem. NLA
Villanova Univ. 15.2 Privada Suburbana Sem. RU
Washington andJefferson College 15.4 Privada Suburbana 414 NLA
Waynesburg College 8.4 Privada Campo Sem. RU
West Chester Univ. 6.1 Pública Suburbana Sem. RU
Westminster College 11.4 Privada Campo 414 RLA
Widener Univ. 11.7 Privada Suburbana Sem. RU
Wilkes Univ. 9.5 Privada Suburbana Sem. RU
Wilson College 11.4 Privada Campo Tri. RLA
York College of Pa. 4.8 Privada Suburbana Sem. RU
Fuente: "America's Best Colleges, 1994 College Guide" (Los mejores colegios de Norteamérica, guía de
colegios, 1994), U.S. News & World Report, tomado de Co!lege Counsel 1993 de Natick, Mass. Reimpreso
con licencia, U.S. News & World Report, © 1993 por U.S. News & World Reporty por College Counsel.

Apéndice D Conjunto especial de datos D-5


l 1jj Conjunto especial de datos 2
Éste es un archivo que contiene los datos correspondientes a una muestra de n = 84
cereales listos para el consumo. Para utilizar el archivo, tome en consideración lo
siguiente:
• Tipo de producto (H para un alto contenido de fibra, M para un contenido
bajo de fibra).
• Costo por ración (en centavos).
•Peso por ración (en onzas).
• Calorías por ración.
•Cantidad de azúcar por ración (en gramos).

Cereal listo para consumo Tipo de Costo Peso Calorías Azúcar


producto
All-Bran with Extra Fiber H 38 2.0 100 o
Fiber One H 34 2.0 120 o
Bran Buds H . 21 1.5 110 12
100% Bran H 23 1.5 110 9
All-Bran Original H 23 1.5 110 8
100% Organic Raisin Bran Flakes H 51 2.0 180 17
Uncle Sam H 28 2.0 220 o
Bran Flakes H 23 1.5 140 8
Bran Flakes H 21 1.5 140 8
Crunchy Corn Bran H 28 1.5 140 9
Fiberwise H 43 1.5 140 8
Raisin Bran H 30 2.0 180 21
Multi Bran Chex H 25 1.5 140 9
Shredded Wheat 'N Bran H 28 1.5 140 o
Fruit & Fibre Peaches, Raisins
Almonds & Oat Clusters H 38 2.0 180 12
Fruitful Bran H 43 2.0 180 18
Raisin Bran H 29 1.75 160 16
Shredded Wheat H 29 1.67 160 o
Cracklin' Oat Bran H 44 2.0 220 14
Skinner's Raisin Bran H 27 2.0 220 12
Frosted Wheat Squares H 40 2.0 200 12
Grape-Nuts H 29 2.0 220 6
Shredded Wheat Spoon Size M 28 1.5 140 o
Common Sense Oat Bran M 27 1.33 130 8
Frosted Mini-Wheats M 28 1.25 130 8
Grape-Nuts Flakes M 19 1.25 110 6
Whole Grain Total M 23 1.0 100 3
Whole Grain Wheat Chex M 24 1.5 150 5
Whole Grain Wheaties M 16 1.0 100 3
Total Raisin Bran M 30 1.5 140 14
Raisin Nut Bran M 37 2.0 220 16
Raisin Squares M 38 2.0 180 12
Oatios with Extra Oat Bran M 27 1.0 110 2
Nutri-Grain Almond Raisin M 47 2.0 210 11
Crispy Wheats 'N Raisins M 24 1.33 130 13
Life M 26 1.5 150 9
Multi Grain Cheerios M 24 1.0 100 6
Oat Squares M 34 2.0 200 12
Mueslix Crispy Blend M so 2.25 240 19
Cheerios M 15 .8 90 o
Cinnamon Oat Squares M 35 2.0 220 14

D-6 Apéndice D Conjunto especial de datos


Cereal listo para consumo Tipo de Costo Peso Calorías Azúcar
producto
Clusters M 44 2.0 220 2S
100% Natural Whole Grain
with Raisins (Low Fat) M 39 2.0 220 14
Honey Bunches of Oats
with Almonds M 29 1.S 180 9
Low-Fat Granola with Raisins M 36 1.67 180 14
Basic 4 M 38 l.7S 170 11
Just Right with Fruit & Nuts M 42 l.7S 190 12
Apple Cinnamon Cheerios M 2S 1.33 lSO 13
Honey Nut Cheerios M 26 1.33 lSO 13
Oatmeal Raisin Crisp M 47 2.S 260 20
Nut & Honey Crunch M 29 l.S 170 12
Puffed Rice L 13 .s so o
Puffed Wheat L 15 .s so o
Kix L 16 .67 70 2
Honey-Comb L 17 .7S 80 8
Corn Flakes L 10 1.0 100 2
Product 19 L 23 1.0 100 3
Rice Chex L 17 1.0 100 2
AppleJacks L 23 1.0 110 14
Cocoa Puffs L 21 1.0 110 13
Cookie-Crisp Chocolate Chip L 2S 1.0 110 13
Corn Chex L 19 1.0 110 3
Corn Pops L 22 1.0 110 12
Crispix L 21 1.0 110 3
Froot Loops L 21 1.0 110 13
Lucky Charms L 22 1.0 110 12
Marshmallow Alpha-Bits L 23 1.0 110 14
Rice Krispies L 18 1.0 110 3
Special K L 22 1.0 110 3
Teenage Mutant Ninja Turtles L 23 1.0 110 11
Total Corn Flakes L 28 1.0 110 3
Trix L 24 1.0 110 12
Fruity Pebbles L 24 1.2S 130 14
Wheaties Honey Gold L 20 1.33 130 13
Cocoa Krispies L 28 1.33 150 lS
Cocoa Pebbles L 28 1.33 lSO 17
Frosted Flakes L 20 1.33 lSO lS
Golden Grahams L 27 1.33 lSO 12
Kenmei Rice Bran L 22 1.33 lSO s
Smacks L 24 1.33 lSO 20
Triples L 22 1.33 lSO 4
Cap'n Crunch L 22 1.33 160 16
Cap'n Crunch's Crunch Berries L 23 1.33 160 16
Cinnamon Toast Crunch L 26 1.33 160 12
Fuente: Copyright 1992 por Consumers Union of United States, !ne., Yonkers, NY 10703. Adaptado
con licencia de Consumer Reports, noviembre de 1992, pp. 693-695.

Apéndice D Conjunto especial de datos D-7


i •!i Conjunto especial de datos 3
Éste es un archivo que contiene los datos correspondientes a una muestra de n = 83
fragancias. Para utilizar este archivo, torne en cuenta lo siguiente:
• sexo (M = mujer y H = hombre, con valores de código de 1 y 2, respectiva-
mente).
• Tipo de fragancia (P = perfume, C = colonia, O =-otro;
con valores de código de 1, 2 y 3, respectivamente),
• Costo en dólares por hora.
• Intensidad de la fragancia
(MF = muy fuerte, F = fuerte, Me = mediana y Li = ligera;
los respectivos valores de código son 1, 2, 3, 4)

Fragrancia Sexo Tipo Costo Intensidad


Gió M p 300 F
Cabochard M p 175 F
"Delicious" M p 190 F
Chane! No. 5 M c 19 F
Obsession M p 180 F
Sublime M p 250 MF
Vivid M p 230 F
Chane! No. 5 M o 32 F
Dune M p 185 F
Ninja M c 8 F
Safari M e 19 Li
Soft Musk M c 7 Me
360 M p 200 F
Tresor M p 220 Li
Venzia M p 320 MF
Coco M p 215 F
Opium M o 30 MF
Osear de la Renta M p 200 Li
Volupte M p 220 Me
WildHeart M e 9 F
"An Impression of Chanel # 5" M e 4 Me
Chanel No. S M p 215 F
Ch loe M p 170 Li
Mesmerize M c 9 Me
Obsession M c 21 Li
Aliage Sport Fragrance M c 12 Me
Chanel No. 5 M o 19 Li
Passion M p 185 F
Charlie M c 8 F
RealmWomen M o 29 MF
Shalimar M p 205 MF

D-8 Apéndice D Conjunto especial de datos


Fragancia Sexo Tipo Costo Intensidad
White Diamonds M p 225 MF
Wind Song M e 10 Me
Incognito M e 13 F
L' Air du Temps M p 260 Me
Ma Griffe M p 152 MF
Navy M e 11 F
WhiteLinen M p 170 Li
Samsara M p 210 Me
Tuscany per Donna M p 190 MF
Versus M o 22 F
Halston M p 272 F
Red M e 23 F
Catalyst M p 250 F
Escape M e 23 F
Liz Claiborne M p 135 MF
Chantilly M e 2 F
Amarige M p 280 F
Feminite du Bois M p 240 F
Opium M p 205 Me
Giorgio M e 23 MF
Primo M e 7 F
Anais Anais M p 210 Me
Chloe Narcisse M p 225 MF
Donna Karan New York M p 350 MF
Tribu M p 220 MF
Our Version of White Diamonds M e 8 MF
Calyx M e 26 Me
Jean Naté M e 7 F
White Diamonds M o 23 MF
Emeraude M e 6 Li
Poison M e 19 MF
Joy M p 300 MF
Angelfire M e 9 Li
Caliente M e 11 Lí
Dewberry M o 19 F
Drakkar Noir M o 15 MF
Lancer H e 4 F
Eternity for Men H e 12 MF
Realm for Men H e 29 F
Preferred Stock H e 9 F
Gravity H e 10 F
Obsession for Men H e 10 F
Escape for Men H o 21 F
Old Spice H e 2 F
Tribute H e 7 F
Egois te H e 16 F
Stetson H e 7 Me
English Leather H e 3 Me
Safari for Men H o 14 MF
Aramis H e 9 F
Brut H e 4 MF
Polo H e 10 MF
Fuente: Copyright 1993 por Consumers Unlon of Unlted States, Inc., Yonkers, NY 10703. Adaptado con
licencia de Consumer Reports, diciembre de 1993, pp. 772-773.

Apéndice D Conjunto especial de datos D-9


i •! 1 Conjunto especial de datos 4
Éste es un archivo que contiene los datos correspondientes a n = 59 cámaras com-
pactas de 35 mm. Para utilizar el archivo, tome en cuenta lo siguiente:
• Tipo de cámara (ML = longitud focal larga múltiple, MM = longitud focal
media múltiple, MS longitud focal corta múltiple, SA = longitud focal sen-
cilla automática y SF = longitud focal sencilla fija; los valores de código
respectivos son 1, 2, 3, 4, 5).
• Precio promedio, en dólares.
• Peso en onzas.
• Capacidad para acercamientos (close-up) o "campo más pequeño".
• Alcance o distancia más grande para tomar una foto con flash, en pies.
• Precisión de encuadre o porcentaje de área de imagen en la impresión que
puede verse con el buscador de imágenes (viewfinder).
• Número de rollos de 24 exposiciones por batería o "vida útil de la batería".

Marca y modelo Precio Peso Capacidad de Alcance Precisión de Número


de cámara promedio ($) (onzas) acercamiento (pies) encuadre(%) de rollos
Ricoh Mirai Zoom 3 265 20 6 18 85 31
Nikon Zoom-Touch 800 359 19 7 22 83 33
Olympus Infinity SuperZoom 3000 277 13 4 17 78 45
Pentax IQ Zoom 105-R 271 19 14 16 92 46
Konica AIBORG 339 21 7 18 80 36
Canon Sure Shot Megazoom 105 224 17 5 15 76 46
Yashica Zoomtec 105 Super 292 17 5 15 76 46
Samsung AF Zoom 1050 230 16 10 18 73 52
Nikon Zoom-Touch 400 171 14 10 15 74 38
Canon Sure Shot Megazoom 76 175 15 8 14 79 40
Nikon Zoom-Touch 500S 185 15 9 14 76 34
Sigma Zoom Super 70 200 18 13 19 71 41
Olympus lnfinity Zoom 210 186 14 8 11 77 37
Yashica Zoomtec 70 199 13 16 14 79 30
Canon Sure Shot Tele Max 113 9 10 14 75 33
Chinon Auto 4001 150 14 16 14 81 46
Konica Big Mini BM-311Z 159 12 16 16 76 33
Samsung AF Zoom 777i 158 15 16 20 72 35
Ricoh Shotmaster Zoom Super 219 14 7 12 80 38
Leica C2-Zoom 430 13 11 17 89 36
Minolta Freedom ?Oc 184 11 11 14 68 23
Olympus Infinity Tele 133 11 13 18 82 44
Rokinon 35AFZ 150 13 16 13 85 10
Fuji Discovery Mini Dual QD Plus 185 8 11 11 82 30
Olympus Infinity Zoom 220 Panorama 217 14 13 16 74 36
Vivitar 320Z Series 1 121 12 20 10 81 21
Yashica Twintec 100 11 33 14 79 25
Minolta Freedom Dual C 115 11 19 10 84 48
Yashica T4 183 7 11 10 74 51
Olympus Infinity Stylus 130 7 11 12 78 33

D-10 Apéndice D Conjunto especial de datos


Marca y modelo Precio peso Capacidad de Alcance Precisión de Númuro
de cámara promedio ($) (onzas) acercamiento (pies) encuadre(%) de rollo11
ContaxT2 718 12 22 12 90 45
Minolta Freedom Escort 132 7 21 12 89 25
Konica Big Mini BM-201 171 8 11 10 84 49
Leica Mini 289 7 22 11 88 33
Nikon One-Touch 200 lOS 9 22 11 79 29
Canon Sure Shot Max 86 9 20 11 78 41
Ricoh Shotmaster AF-P 89 9 36 11 92 so
Canon Snappy LX S7 10 55 9 80 46
Konica MT-100 100 9 45 9 81 24
Ansco Mini AF 99 8 45 8 86 13
Kodak Star 83S AF 65 11 46 12 82 37
Minolta Freedom AF 35 92 10 34 8 81 3S
Fuji Discovery 80 83 10 47 11 77 30
Chinon Splash AF-2 119 15 47 13 81 17
Kalimar Spirit AF 70 10 40 7 82 60
Kalimar Spirit 2 45 10 S5 6 97 63
Samsung AF-200 79 11 5S 6 74 S3
Vivitar EZ200 S7 10 40 7 S6 33
Yashica J Mini 6S 9 48 10 91 37
Chinan Auto GL-AF 8S 10 47 11 7S 4S
Yashica Sensation 67 10 47 13 92 41
Konica TOP's so 9 S7 8 76 41
Kodak Star 93S 62 10 43 9 79 39
Fuji DL-2S S2 10 SS 11 88 34
Ricoh Shotmaster FF S8 10 36 9 78 62
Chinan Auto GL-II so 11 47 10 79 26
Olympus Trip Junior S2 9 38 11 67 37
Minolta Freedom SON S8 9 SS 10 83 32
Olympus Trip AF Super 76 10 47 10 64 29
Fuente: Copyright 1992 por Consurners Union of United States, !ne., Yonkers, NY 10703. Adaptado con licencia de Consumer Reports,
diciembre de 1992, pp. 762-765.

Apéndice D Conjunto especial de datos D-11


APÉNDICE

E
Tablas

Tabla Página
E.l Tabla de números aleatorios E-2
E.2 La distribución normal estándar E-4
E.3 Valores críticos de t E-5
E.4 Valores críticos de x2 E-7
E.5 Valores críticos de F E-8
E.Sa Valores críticos selectos de los va:lóres F para estadística D; de Cook's E-12
E.6 Tabla de probabilidades de Poisson E-13
E.7 Tabla de probabilidades binominales E-17
E.8 Valores críticos de la prueba Fmáx Hartley E-26
E.9 Valores ctíticos inferiores y superiores U para la prueba de aleatoriedad
en corridas E-27
E.10 Valores críticos inferiores y superiores W de la prueba de rangos con
signo de Wilcoxon E-28
E.11 Valores críticos inferiores y superiores T1 de la prueba de suma de
rangos de Wilcoxon E-29
E.12 Valores críticos del alcance Q estudentizado E-30
E.13 Factores de diagrama de control E-32
E.14 Valores críticos dL y dude la estadística D de Durbin-Watson E-33

-=-·
TABLA E. 1 Tabla de números aleatorios

Columna
00000 00001 11111 11112 22222 22223 33333 33334
Renglón 12345 67890 12345 67890 12345 67890 12345 67890
01 49280 88924 35779 00283 81163 07275 89863 02348
02 61870 41657 07468 08612 98083 97349 20775 45091
03 43898 65923 25078 86129 78496 97653 91550 08078
04 62993 93912 30454 84598 56095 20664 12872 64647
05 33850 58555 51438 85507 71865 79488 76783 31708
06 97340 03364 88472 04334 63919 36394 11095 92470
07 70543 29776 10087 10072 55980 64688 68239 20461
08 89382 93809 00796 95945 34101 81277 66090 88872
09 37818 72142 67140 50785 22380 16703 53362 44940
10 ' 60430 22834 14130 96593 23298 56203 92671 ·15925
11 82975 66158 84731 19436 55790 69229 28661 13675
12 39087 71938 40355 54324 08401 26299 49420 59208
13 55700 24586 93247 32596 11865 63397 44251 43189
14 14756 23997 78643 75912 83832 32768 18928 57070
15 32166· 53251 70654 92827 63491 04233 33825 69662
16 23236 73751 31888 81718 06546 83246 47651 04877
17 45794 26926 15130 82455 78305 55058 52551 47182
18 09893 20505 14225 68514 46427 56788 96297 78822
19 54382 74598 91499 14523 68479 27686 46162 83554
20 94750 89923 37089 20048 80336 94598 26940 36858
21 70297 34135 53140 33340 42050 82341 44104 82949
22 85157 47954 32979 26575 57600 40881 12250 73742
23 11100 02340 12860 74697 96644 89439 28707 25815
24 36871 50775 30592 57143 17381 68856 25853 35041
25 23913 48357 63308 16090 51690 54607 72407 55538
26 79348 36085 27973 65157 07456 22255 25626 57054
27 92074 54641 53673 54421 18130 60103 69593 49464
28 06873 21440 75593 41373 49502 17972 82578 16364
29 12478 37622 99659 31065 83613 69889 58869 29571
30 57175 55564 65411 42547 70457 03426 72937 83792
31 91616 11075 80103 07831 59309 13276 26710 73000
32 78025 73539 14621 39044 47450 03197 12787 47709
33 27587 67228 80145 10175 12822 86687 65530 49325
34 16690 20427 04251 64477 73709 73945 92396 68263
35 70183 58065 65489 31833 82093 16747 10386 59293
36 90730. 35385 15679 99742 50866 78028 75573 67257
37 10934 93242 13431 24590 02770 48582 00906 58595
38 82462 30166 79613 47416 13389 80268 05085 96666
39 27463 10433 07606 16285 93699 60912 94532 95632
40 02979 52997 09079 92709 90110 47506 53693 49892
41 46888 69929 75233 52507 32097 37594 10067 67327
42 53638 83161 08289 12639 08141 12640 28437 09268
43 82433 61427 17239 89160 19666 08814 37841 12847
44 35766 31672 50082 22795 66948 65581 84393 15890
45 10853 42581 08792 13257 61973 24450 52351 16602
46 20341 27398 72906 63955 17276 10646 74692 48438
47 64458 90542 77563 51839 52901 53355 83281 19177
48 ' 28337 66530 16687 35179 46560 00123 44546 79896
49 34314 23729 85264 05575 96855 23820 11091 ' 79821
50 28603 10708 68933 34189 92166 15181 66628 58599
,I

Apéndice E Tablas E-2


TABLA E. I (continuación)

Columna
00000 00001 11111 11112 22222 22223 33333 33334
Renglón 12345 67890 12345 67890 12345 67890 12345 67890

51 66194 28926 99547 16625 45515 67953 12108 57846


52 78240 43195 24837 32511 70880 22070 52622 61881
53 00833 88000 67299 68215 11274 55624 32991 17436
54 12111 86683 61270 58036 64192 90611 15145 01748
55 47189 99951 05755 03834 43782 90599 40282 51417
56 76396 72486 62423 27618 84184 78922 73561 52818
57 46409 17469 32483 09083 76175 19985 26309 91536
58 74626 22111 •87286 46772 42243 68046 44250 42439
59 34450 81974 93723 49023 58432 67083 36876 93391
60 36327 72135 33005 28701 34710 49359 50693 89311
61 74185 77536 84825 09934 99103 09325 67389 45869
62 12296 41623 62873 37943 25584 09609 63360 47270
63 90822 60280 88925 99610 42772 60561 76873 04117
64 72121 79152 96591 90305 10189 79778 68016 13747
65 95268 41377 25684 08151 61816 58555 54305 86189
66 92603 09091 75884 93424 72586 88903 30061 14457
67 18813 90291 05275 01223 79607 95426 34900 09778
68 38840 26903 28624 67157 51986 42865 14500 49315
69 05959 33836 53758 16562 41081 38012 41230 20528
70 85141 21155 99212 32685 51403 31926 69813 58781
71 75047 59643 31074 38172 03718 32119 69506 67143
72 30752 95260 68032 62871 58781 34143 68790 69766
73 22986 82575 42187 62295 84295 30634 66562 31442
74 99439 86692 90348 66036 48399 73451 26698 39437
75 20389 93029 11881 71685 65452 89047 63669 02656
76 39249 05173 68256 36359 20250 68686 05947 09335
77 96777 33605 29481 20063 09398 01843 35139 61344
78 04860 32918 10798 50492 52655 33359 94713 28393
79 41613 42375 00403 03656 77580 87772 86877 57085
80 17930 00794 53836 53692 67135 98102 61912 11246
81 24649 31845 25736 75231 83808 98917 93829 99430
82 79899 34061 54308 59358 56462 58166 97302 86828
83 76801 49594 81002 30397 52728 15101 72070 33706
84 36239 63636 38140 65731 39788 06872 38971 53363
85 07392 64449 17886 63632 53995 17574 22247 62607
86 67133 04181 33874 98835 67453 59734 76381 63455
87 77759 31504 32832 70861 15152 29733 75371 39174
88 85992 72268 42920 20810 29361 51423 90306 73574
89 79553 75952 54116 65553 47139 60579 09165 85490
90 41101 17336 48951 53674 17880 45260 08575 49321
91 36191 17095 32123 91576 84221 78902 82010 30847
92 62329 63898 23268 74283 26091 68409 69704 82267
93 14751 13151 93115 01437 56945 89661 67680 79790
94 48462 59278 44185 29616 76537 19589 83139 28454
95 29435 88105 59651 44391 74588 55114 80834 85686
96 28340 29285 12965 14821 80425 16602 44653 70467
97 02167 58940 27149 80242 10587 79786 34959 75339
98 17864 00991 39557 54981 23588 81914 37609 13128
99 79675 80605 60059 35862 00254 36546 21545 78179
00 72335 82037 92003 34100 29879 46613 89720 13274

Fuente: Extraído de una parte de The Rand Corporation, A Mil/ion Random Digits with 100,000 Normal
Deviates (Glencoe, Ill.: The Free Press, 1995).

Apéndice E Tablas
TABLA E.2 La distribución normal estandarizada

o z
Cada entrada representa el área bajo la distribución normal estandarizada desde la media hasta Z

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

o.o .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 . .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2~9' .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
i
1.0 .3413 .3438 ".3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6,. .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4~73 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4760 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4860 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4986 .4986 .4986
3.0 .49865 .49869 .49874 .49878 .49882 .49886 .49889 .49893 .49897 .49900
3.1 .49903 .49906 .49910 .49913 .49916 .49918 .49921 .49924 .49926 .49929
3.2 .49931 .49934 .49936 .49938 .49940 .49942 .49944 .49946 .49948 .49950
3.3 .49952 .49953 .49955 .49957 .49958 .49960 .49961 .49962 .49964 .49966
3.4 .49966 .49968 .49969 .49970 .49971 .49972 .49973 .49974 .49975 .49976
3.5 .49977 .49978 .49978 .49979 .49980 .49981 .49981 .49982 .49983 .49983
3.6 .49984 .49986 .49985 .49986 .49986 .49987 .49987 .49988 .49988 .49989
3.7 .49989 .49990 .49990 .49990 .49991 .49991 .49992 .49992 .49992 .49992
3.8 .49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995
3.9 .49995 .49995 .49996 .49996 .49996 .49996 .49996 .49996 .49997 .49997

Apéndice E Tablas E-4


TABLA E.3 Valores críticos de t

~
Para un número particular de grados de libertad, las
entradas representan el valor crítico de t correspondiente
a un área de extremo superior especificada (o;)

o f(cx,gl)

Grados Áreas de extremos superior (a}


de
libertad .25 .10 .05 .025 .01 .005

1 1.0000 3.0777 6.3138 12.7062 31.8207 63.6574


2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0322
6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074
7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995
8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554
9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.6912 1.3406 1.7531 2.1315 2.6025 2.9467
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208
17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982
18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784
19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453
21 0.6864. 1.3232 1.7207 2.0796 2.5177 2.8314
22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188
23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073
24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969
25 0.6844 1.3163 1.7081 2.0595 2.4851 2.787d
26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787
27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707
28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633
29 0.6830 1.3114 1.6991 2.0452 2.4620 2.7564
30 0.6828 1.3104 1.6973 2.0423 2.4573 2.7500
31 0.6825 1.3095 1.6955 2.0395 2.4528 2.7440
32 0.6822 1.3086 1.6939 2.0369 2.4487 2.7385
33 0.6820 1.3077 1.6924 2.0345 2.4448 2.7333
34 0.6818 1.3070 1.6909 2.0322 2.4411 2.7284
35 0.6816 1.3062 1.6896 2.0301 2.4377 2.7238
36 0.6814 1.3055 1.6883 2.0281 2.4345 2.7195
37 0.6812 1.3049 1.6871 2.0262 2.4314 2.7154
38 0.6810 1.3042 1.6860 2.0244 2.4286 2.7116
39 0.6808 1.3036 1.6849 2.0227 2.4258 2.7079
40 0.6807 1.3031 1.6839 2.0211 2.4233 2.7045
41 0.6805 1.3025 1.6829 2.0195 2.4208 2.7012
42 0.6804 1.3020 1.6820 2.0181 2.4185 2.6981
43 0.6802 1.3016 1.6811 2.0167 2.4163 2.6951
44 0.6801 1.3011 1.6802 2.0154 2.4141 2.6923
45 0.6800 1.3006 1.6794 2.0141 2.4121 2.6896
46 0.6799 1.3002 1.6787 2.0129 2.4102 2.6870
47 0.6797 1.2998 1.6779 2.0117 2.4083 2.6846
48 0.6796 1.2994 1.6772 2.0106 2.4066 2.6822
49 0.6795 1.2991 1.6766 2.0096 2.4049 2.6800
50 0.6794 1.2987 1.6759 2.0086 2.4033 2.6778

E·S Apéndice E Tablas


TABLA E.J (continuación)

Grados Áreas de extremos superior (a)


de
libertad .25 .10 .05 .025 .01 .005
51 0.6793 1.2984 1.6753 2.0076 2.4017 2.6757
52 0.6792 1.2980 1.6747 2.0066 2.4002 2.6737
53 0.6791 1.2977 1.6741 2.0057 2.3988 2.6718
54 0.6791 1.2974 1.6736 2.0049 2.3974 2.6700
55 0.6790 1.2971 1.6730 2.0040 2.3961 2.6682
56 0.6789 1.2969 1.6725 2.0032 2.3948 2.6665
fil 0.6788 1.2966 1.6720 2.0025 2.3936 2.6649
58 0.6787 1.2963 1.6716 2.0017 2.3924 2.6633
59 0.6787 1.2961 1 .6711 2.0010 2.3912 2.6618
60 0.6786 1.2958 1.6706 2.0003 2.3901 2.6603
61 0.6785 1.2956 1.6702 1.9996 2.3890 2.6589
62 0.6785 1.2954 1.6698 1.9990 2.3880 2.6575
63 0.6784 1.2951 1.6694 1.9983 2.3870 2.6561
64 0.6783 1.2949 1.6690 1.9977 2.3860 2.6549
65 0.6783 1.2947 1.6686 1.9971 2.3851 2.6536
66 0.6782 1.2945 1 .6683 1.9966 2.3842 2.6524
67 0.6782 1.2943 1.6679 1.9960 2.3833 2.6512
68 0.6781 1.2941 1.6676 1.9955 2.3824 2.6501
69 0.6781 1.2939 1.6672 1.9949 2.3816 2.6490
70 0.6780 1.2938 1.6669 1.9944 2.3808 2.6479
71 0.6780 1.2936 1.6666' 1.9939 2.3800 2.6469
72 0.6779 1.2934 1.6663 1.9935 2.3793 2.13459
73 0.6779 1.2933 1.6660 1.9930 2.3785 2.6449
74 0.6778 1.4931 1.6657 1.9925 2.3778 2.6439
75 0.6778 1.2929 1.6654 1.9921 2.3771 2.6430
76 0.6777 1.2928 1.6652 1.9917 2.3764 2.6421
n 0.6777 1.2926 1.6649 1.9913 2.3758 2.6412
78 0.6776 1.2925 1.6646 1.9908 2.3751 2.6403
79 0.6776 1.2924 1.6644 1.9905 2.3745 2.6395
80 0.6776 1.2922 1.6641 1.9901 2.3739 2.6387
81 0.6775 1.2921 1.6639 1.9897 2.3733 2.6379
82 0.6775 1.2920 1.6636 1.9893 2.3727 2.6371
83 0.6775 1.2918 1.6634 1.9890 2.3721 2.6364
84 0.6774 1.2917 1.6632 1.9886 2.3716 2.6356
85 0.6774 1.2916 1.6630 1.9883 2.3710 2.6349

86 0.6774 1.2915 1.6628 1.9879 2.3705 2.6342


87 0.6773 1.2914 1.6626 1.9876 2.3700 2.6335
88 0.6773 1.2912 1.6624 1.9873 2.3695 2.6329
89 0.6773 1.2911 1.6622 1.9870 2.3690 2.6322
90 0.6772 1.2910 1.6620 1.9867 2.3685 2.6316

91 0.6772 1.2909 1.6618 1.9864 2.3680 2.6309


92 0.6772 1.2908 1.6616 1.9861 2.3676 2.6303
93 0.6771 1.2907 1.6614 1.9858 2.3671 2.6297
94 0.6771 1.2906 1.6612 1.9855 2.3667 2.6291
95 0.6771 1.2905 1.6611 1.9853 2.3662 2.6286
96 0.6771 1.2904 1.6609 1.9850 2.3658 2.6280
97 0.6770 1.2903 1.6607 1.9847 2.3654 2.6275
98 0.6770 1.2902 1.6606 1.9845 2.3650 2.6269
99 0.6770 1.2902 1.6604 1.9842 2.3646 2.6264
100 0.6770 1.2901 1.6602 1.9840 2.3642 2.6259
110 0.6767 1.2893 1.6588 1.9818 2.3607 2.6213

120 0.6765 1.2886 1.6577 1.9799 2.3578 2.6174


00 0.6745 1.2816 1.6449 1.9600 2.3263 2.5758

Apéndice E · Tablas E-6


111
TABLA E.4 Valores críticos de i
.....1
Para una combinación particular de grados de
libertad en el numerador y en el denominador,
las entradas representan los valores críticos de x2
,,,. correspondientes a un área de extremo superior
ID•
especificada (a). a
::::11
A
;¡· 2
ID
111
P'-.
o Xu(a,gl)

¡¡!
CT
Pi"
Grados
de
Áreas de extremos superior {a}
'
"' libertad .995 .99 .975 .95 .90 .75 .25 .10 .05 .025 .01 .005

1 0.001 0.004 0.016 0.102 1.323 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 0.575 2.n3 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 1.923 5.385 1.n9 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 2.675 6.626 9.236 11.071 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 3.455 7.841 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 4.255 9.037 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 5.071 10.219 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 5.899 11.389 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 6.737 12.549 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 7.584 13.701 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 8.438 14.845 18.549 21.026 23.337 26.217 28.299
13 3.565 4.107 5.009 5.892 7.042 9.299 15.984 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 10.165 17.117 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 11.037 18.245 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 11.912 19.369 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.385 12.792 20.489 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 13.675 21.605 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 -14.562 22.718 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 15.452 23.828 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 16.344 24.935 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.042 17.240 26.039 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 18.137 27.141 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 19.037 28.241 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 19.939 29.339 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 20.843 30.435 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 21.749 31.528 36.741 40.113 43.194 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 22.657 32.620 37.916 41.337 44.461 48.278 50.993
29 13.121 14.257 16.047 17.708 19.768 23.567 33.711 39.087 42.557 45.722 49.588 52.336
30 13.787 14.954 16.791 18.493 20.599 24.478 34.800 40.256 43.773 46.979 50.892 53.672

Para un número mayor de grados de libertad (gl) se puede utilizar la expresión Z = W -~~df)-1 y se puede obtener el área de extremo superior resultante a partir
de la tabla correspondiente a la distribución normal estandarizada (tabla E.2)
TABLA E.5 Valor crítico de F
Para una combinación particular de
grados de libertad en el numerador y
en el denominador, las entradas
representan los valores críticos de F
correspondientes a un área de
extremo superior especificada (a). ~"!°'.
o FU(a:,g1,,g1.¡

Numerador gl,
Denominador~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~ 2 3 4 5 6 7 B 9 10 12 15 20 24 30 40 60 120

1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.311 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.n 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.n 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 ·3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 4.87 3.81 3.41 3.18 3.03 2.92 2.83 2.n 2.71 2.87 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2. 11 2.(11
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 un
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1..9&
18 4.41 3.55 3.16 2.93 2.n 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1..SZ
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.M
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.M
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1J!7 1.B1
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1..!M .. 1.18
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1..96 1.91 ... 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.91 1.73
f• u.
::u.
25 4.24 3.39 2.99 2-15 .uo 2M 2119 _J.m 137 1.71
~ ~ ~ ··~ .a4!' -~-·.-·1'tJll. ·Hi'
26 4.23 3.37 ·2.98 2.74 2.59 2Jrl 2.39 2:32 'U'I 2.22 1.99 1Jiis , .. 1.80
1r , 1.75 1.69
27 4.21 3.35 2.96 2.73
28 4.20 3.34 2.95 2.71
2.57
2.56
2.46
2.45
2.37
2.36
2.31
2.29
2.25
2.24
2.20
2.19
2.13
2.12
2.06
2.04
1.97
1.96
1.93
1.91
1.88
1.87
..
1.84
1.82
1.79
1.n
1.73
1.71
1.87
1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10
f 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
A 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53
s 120 3.92 3.07 2.68 2.45
2.37
2.29
2.25
2.17
2.17
2.09
2.10
2.02
2.04 1.99 1.92 1.84 1.75. 1.70 1.65 1.59 1.53 1.47 1.39
"' 1.96 1.91 1.63 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
¡;!
~

'1'co
111 TABLA E.S (continuación)
1
10

.,,J>
ID• ~:>'.~.:~:~·-,;-,·
:::1
A o Fu(a,gl,,gl,)
ñ"
ID
111
g/2 del numerador
gl1 del
numerador 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120

~ 647.8 799.5 864.2 899.6 921.8 937.1 948.2 956.7 963.3 968.6 976.7 984.9 993.1 997.2 1001 1006 1010 1014 1018
e-
¡¡;- 2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
"' 3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14. 12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 10:01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14
8 7.'S1 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4;24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08
11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 6.56 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 6.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2JI7 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
TABLA E.S (continuación)

~,!:º'
o FU(a,91,.91,¡

g/1 del g/2 del numerador


numerador 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120

1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.86 14.55 . 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.116 3.78 3.69 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.86 3.51 3.43 3.35 3.27 3.18 3.09 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49

20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21

25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 299 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17
26. 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 296 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13
:J:io 27 7.68 5.49 4.60 4.11 3,78 3.56 3.39 3.26 3.15 3.06 2~ 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10
"a
ID• 28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2~ 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06
::::1 29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 287 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03
A
;:;· 30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 284 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
ID 40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2~ 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 250 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
"' 120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47. 2~ 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.IB 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
¡;;I
O"
&"

"'
--!.
o
m
1 TABLA E.S (continuación)

)> ~ ""ºº'
'a ¡g~,fum1
ID-
:::11 o Fu(a,gl"gl,)
A
ft gl1 del glz del numerador
tD
m numerador 1 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 720
2

1 16211 20000 21615 22500 23056 23437 23715 23925 24091 24224 24426 24630 24836 24940 25044 25148 25253 25359 25465
2 198.5 199.0 199.2 199.2 199.3 199.3 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.5 199.5 199.5 199.5 199.5 199.5
¡;;! 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83
CT 3 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69
¡;- 4 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.44 20.17 20.03 19.89 19.75 19.61 19.47 19.32
"' 5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.38 13.15 12.90 12.78 12.66 12.53 12.40 12.27 12.14
6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.03. 9.81 9.59 9.47 9.36 9.24 9.12 9.00 8.88
7 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97 7.75 7.65 7.53 7.42 7.31 7.19 7.08
8 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21 7.01 6.81 6.61 6.50 6.40 6.29 6.18 6.06 5.95
9 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42 6.23 6.03 5.83 5.73 5.62 5.52 5.41 5.30 5.19

10 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47 5.27 5.17 5.07 4.97 4.86 4.75 4.64
11 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42 5.24 5.05 4.86 4.76 4.65 4.55 4.44 4.34 4.23
12 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72 4.53 4.43 4.33 4.23 4.12 4.01 3.90
13 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82 4.64 4.46 4.27 4.17 ll:07 3.97 3.87 3.76 3.65
14 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60 4.43 4.25 4.06 3.96 3.86 3.76 3.66 3.55 3.44

15 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07 3.88 3.79 3.69 3.58 3.48 3.37 3.26
16 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 4.27 4.10 3.92 3.73 3.64 3.54 3.44 3.33 3.22 3.11
17 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.3~ 4.25 4.14 3.97 3.79 3.61 3.51 3.41 3.31 3.21 3.10 2.98
18 10.22 7.21 6.03 5.37 4.96 4:66 4.44 4.28 4.14 4.03 3.86 3.68 3.50 3.40 3.30 3.20 3.10 2.99 2.87
19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.76 3.59 3.40 3.31 3.21 3.11 3.00 2.89 2.78

20 9.94 6.99 5.92 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50 3.32 3.22 3.12 3.02 2.92 2.81 2.69
21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.60 3.43 3.24 3.15 3.05 2.95 2.84 2.73 2.61
22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.54 3.36 3.18 3.08 2.98 2.88 2.77 2.66 2.55
23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.47 3.30 3.12 3.02 2.92 2.82 2.71 2.60 2.48
24 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59 3.42 3.25 3.06 2.97 2.87 2.77 2.66 2.55 2.43

25 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 3.54 3.37 3.20 3.01 2.92 2.82 2.72 2.61 2.50 2.38
26 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60 3.49 3.33 3.15 2.97 2.87 2.77 2.67 2.56 2.45 2.33
27 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56 3.45 3.28 3.11 2.93 2.83 2.73 2.63 2.52 2.41 2.29
28 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52 3.41 3.25 3.07 2.89 2.79 2.69 2.59 2.48 2.37 2.25
29 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48 3.38 3.21 3.04 2.86 2.76 2.66 2.56 2.45 2.33 2.21

30 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01 2.82 2.73 2.63 2.52 2.42 2.30 2.18
40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 2.95 2.78 2.60 2.50 2.40 2.30 2. 18 2.06 1.93
60 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57 2.39 2.29 2.19 2.08 1.96 1.83 1.69
120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37 2.19 2.09 1.98 1.87 1.75 1.61 1.43
7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62 2.52 2.36 2.19 2.00 1.90 1.79 1.67 1.53 1.36 1.00

Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables far Statisticians, 3a. ed., 1966. Con licencia de The Biometrika Trustees.
TABLA E.Sa Valores críticos selectos de F para la estadística D, de Cook

a= .50
gl en el numerador = p + 1

gl en el denominador= n - p - 1 2 3 4 5 6 7 8 9 10 12 15 20

10 .743 .845 .899 .932 .954 .971 .983 .992 1.00 1.01 1.02 1.03
11 .739 .840 .893 .926 .948 .964 .977 .986 .994 1.01 1.02 1.03
12 .735 .835 .888 .921 ;943 .959 .972 .981 .989 1.00 1.01 1.02
15 .726 .826 .878 .911 .933 .949 .960 .970 .977 .989 1.00 1.01
20 .718 .816 .868 .900 .922 .938 .950 .959 .966 .977 .989 1.00
24 .714 .812 .863 .895 .917 .932 .944 .953 .961 .972 .983 .994
30 .709 .807 .858 .890 .912 .927 .939 .948 .955 .966 .978 .989
40 .705 .802 .854 .885 .907 .922 .934 .943 .950 .961 .972 .983
60 .701 .798 .849 .880 .901 .917 .928 .937 .945 .956 .967 .978
120 .697 .793 .844 .875 .896 .912 .923 .932 .939 .950 .961 .972
00 .693 .789 .839 .870 .891 .907 .918 .927 .934 .945 .956 .967
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables for Statisticians, 3a. ed., 1966. Con licencia de The
Biometrika Trustees.

Apéndice E Tablas E-12


TABLA E.6 Tabla de probabilidades de Poisson

Para un valor dado de A., las entradas indican la probabilidad de obtener un valor especificado de X

;\.
X 0.1 0.2 0.3 0.4 0.5 0.6 0.7 o.e 0.9 1.0

o .9048 .8187 .7408 .6703 . .6065 .5488 .4966 .4493 .4066 .3679
1 .0905 .1637 .2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679
2 .0045 .0164 .0333 .0536 .0758 .0988 .1217 .1438 .1647 .1839
3 .0002 .0011 .0033 .0072 .0126 .0198 .0284 .0383 .0494 .0613
4 .0000 .0001 .0003 .0007 .0016 .0030 .0050 .0077 .0111 .0153
5 .0000 .0000 .0000 .0001 .0002 .0004 .0007 .0012 .0020 .0031
6 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0003 .0005
7 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001

;\.
X 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0

o .3329 .3012 .2725 .2466 .2231 .2019 .1827 .1653 .1496 .1353
1 .3662 .3614 .3543 .3452 .3347 .3230 .3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 .0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 0812 .0902
5 .0045 .0062 .0084 .0111 .0141 .0176 .0216 .0260 .0309 .0361
6 .0008 .0012 .0018 .0026 .0035 .0047 .0061 .0078 .0098 .0120
7 .0001 .0002 .0003 .0005 .0008 .0011 .0015 .0020 .0027 .0034
8 .0000 .0000 .0001 .0001 .0001 .0002 .0003 .0005 .0006 .0009
9 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002

;\.
X 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0

o .1225 .1108 .1003 .0907 .0821 .0743 .0672 .0608 .0550 .0498
1 .2572 .2438 .2306 .2177 .2052 .1931 .1815 .1703 .1596 .1494
2 .2700 .2681 .2652 .2613 .2565 .2510 .2450 .2384 .2314 .2240
3 .1890 .1966 .2033 .2090 .2138 .2176 .2205 .2225 .2237 .2240
4 .0992 .1082 .1169 .1254 .1336 .1414 .1488 .1557 .1622 .1680

5 .0417 .0476 .0538 .0602 .0668 .0735 .0804 .0872 .0940 .1008
6 .0146 .0174 .0206 .0241 .0278 .0319 .0362 .0407 .0455 .0504
7 .0044 .0055 .0068 .0083 .0099 .0118 .0139 .0163 .0188 .0216
8 .0011 .0015 .0019 .0025 .0031 .0038 .0047 .0057 .0068 .0081
9 .0003 .0004 .0005 .0007 .0009 .0011 .0014 .0018 .0022 .0027

10 .0001 .0001 .0001 .0002 .0002 .0003 .0004 .0005 .0006 .0008
11 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0002
.0000 .0000 .0000 .0000 .0001
12 .0000 .0000 .0000 .0000
·ºººº
;\.
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0

o .0450 .0408 .0369 .0334 .0302 .0273 .0247 .0224 .0202 .0183
1 .1397 .1304 .1217 .1135 .1057 .0984 .0915 .0850 ,0789 .0733
2 .2165 .2087 .2008 .1929 .1850 .1771 .1692 .1615 .1539 .1465
3 .2237 .2226 .2209 .2186 .2158 .2125 .2087 .2046 .2001 .1954
4 .1734 .1781 .1823 .1858 .1888 .1912 .1931 .1944 .1951 .1954
5 .1075 .1140 .1203 .1264 .1322 .1377 .1429 .1477 .1522 .1563
6 .0555 .0608 .0662 .0716 .0771 .0826 .0881 .0936 .0989 .1042
7 .0246 .0278 .0312 .0348 .0385 .0425 .0466 .0508 .0551 .0595
B .0095 .0111 .0129 .0148 .0169 .0191 .0215 .0241 .0269 .0298
9 .0033 .0040 .0047 .0056 .0066 .0076 .0089 .0102 .0116 .0132

E·U Apéndice E Tablas


TABLA E.es (continuación)

,\
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0

10 .0010 .0013 .0016 .0019 .0023 .0028 .0033 .0039 .0045 .0053
11 .0003 .0004 .0005 .0006 .0007 .0009 .0011 .0013 .0016 .0019
12 .0001 .0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005 .0006
13 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0002 .0002
14 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
,\
X 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0

o .0166 .0150 .0136 .0123 .0111 .0101 .0091 .0082 .0074 .0067
1 .0679 .0630 .0583 .0540 .0500 .0462 .0427 .0395 .0365 .0337
2 .1393 .1323 .1254 .1188 .1125 .1063 .1005 .0948 .0894 .0842
3 .1904 .1852 .1798 .1743 .1687 .1631 .1574 .1517 .1460 .1404
4 .1951 .1944 .1933 .1917 .1898 .1875 .1849 .1820 .1789 .1755
5 .1600 .1633 .1662 .1687 .1708 .1725 .1738 .1747 .1753 .1755
6 .1093 .1143 . 1191 .1237 .1281 .1323 .1362 .1398 .1432 .1462
7 .0640 .0686 .0732 .0778 .0824 .0869 .0914 .0959 .. 1002 .1044
8 .0328 .0360 .0393 .0428 .0463 .0500 .0537 .0575 .0614 .0653
9 .0150 .0168 .0188 .0209 .0232 .0255 .0280 .0307 .0334 .0363
10 .0061 .0071 .0081 .0092 .0104 .0118 .0132 .0147 .0164 .0181
11 .0023 .0027 .0032 .0037 .0043 .0049 .0056 .0064 .0073 .0082
12 .0008 .0009 .0011 .0014 .0016 .0019 .0022 .0026 .0030 .0034
13 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0011 .0013
14 .0001 .0001 .0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005
15 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0002
,\
X 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0

o .0061 .0055 .0050 .0045 .0041 .0037 .0033 .0030 .0027 .0025
1 .0311 .0287 .0265 .0244 .0225 .0207 .0191 .0176 .0162 .0149
2 .0793 .0746 .0701 .0659 .0618 .0580 .0544 .0509 .0477 .0446
3 .1348 .1293 .1239 .1185 .1133 .1082 .1033 .0985 .0938 .0892
4 .1719 .1681 .1641 .1600 .1558 .1515 .1472 .1428 .1383 .1339
5 .1753 .1748 .1740 .1728 .1714 .1697 .1678 .1656 .1632 .1606
6 .1490 .1515 .1537 .1555 .1571 .1584 .1594 .1601 .1605 .1606
7 .1086 .1125 .1163 .1200 .1234 .1267 .1298 .1326 .1353 .1377
8 .0692 .0731 .0771 .0810 .0849 .0887 .0925 .0962 .0998 .1033
9 .0392 .0423 .0454 .0486 .0519 .0552 .0586 .0620 .0654 .0688
10 .0200 .0220 .0241 .0262 . .0285 .0309 .0334 .0359 .0386 .0413
11 .0093 .0104 .0116 .0129 .0143 .0157 .0173 .0190 .0207 .0225
12 .0039 .0045 .0051 .0058 .0065 .0073 .0082 .0092 .0102 .0113
13 .0015 .0018 .0021 .0024 .0028 .0032 .0036 .0041 .0046 .0052
14 .0006 .0007 .0008 .0009 .0011 .0013 .0015 .0017 .0019 .0022
15 .0002 .0002 .0003 .0003 .0004 .0005 .0006 .0007 .0008 .0009
16 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002 .0003 .0003
17 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001

.A.
X 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0

o .0022 .0020 .0018 .0017 .0015 .0014 .0012 .0011 .0010 .0009
1 .0137 .0126 .0116 .0106 .0098 .0090 .0082 .0076 .0070 .0064
2 .0417 .0390 .0364 .0340 .0318 .0296 .0276 .0258 .0240 .0223
3 .0848 .0806 .0765 .0726 .0688 .0652 .0617 .0584 .0552 .0521
4 .1294 .1249 .1205 . 1162 . 1118 .1076 .1034 .0992 .0952 .0912

Apéndice E Tablas E-14


TABLA E.G (continuación)

A.
X 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
5 .1579 .1549 .1519 .1487 .1454 .1420 .1385 .1349 .1314 .1277
6 .1605 .1601 .1595 .1586 .1575 .1562 .1546 .1529 .1511 .1490
7 .1399 .1418 .1435 .1450 .1462 .1472 .1480 .1486 .1489 .1490
8 .1066 .1099 .1130 .1160 .1188 .1215 .1240 .1263 .1284 .1304
9 .0723 .0757 .0791 .0825 .0858 .0891 .0923 .0954 .0985 .1014
10 .0441 .0469 .0498 .0528 .0558 .0588 .0618 .0649 .0679 .0710
11 .0245 .0265 .0285 .0307 .0330 .0353 .0377 .0401 .0426 .0452
12 .0124 .0137 .0150 .0164 .0179 .0194 .0210 .0227 .0245 .0264
13 .0058 .0065 .0073 .0081 .0089 .0098 .0108 .0119 .0130 .0142
14 .0025 .0029 .0033 .0037 .0041 .0046 .0052 .0058 .0064 .0071
15 .0010 .0012 .0014 .0016 .0018 .0020 .0023 .0026 .0029 .0033
16 .0004 .0005 .0005 .0006 .0007 .0008 .0010 .0011 .0013 .0014
17 .0001 .0002 .0002 .0002 .0003 .0003 .0004 .0004 .0005 .0006
18 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002
19 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001
A.
X 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0

o .0008 .0007 .0007 .0006 .0006 .0005 .0005 .0004 .0004 .0003
1 .0059 .0054 .0049 .0045 .0041 .0038 .0035 .0032 :-0029 .0027
2 .0208 .0194 .D180 .0167 .0156 .0145 .0134 .0125 .0116 .0107
3 .0492 .0464 .0438 .0413 .0389 .0366 .0345 .0324 .0305 .0286
4 .0874 .0836 .0799 .0764 .0729 .0696 .0663 .0632 .0602 .0573
5 .1241 .1204 .1167 .1130 .1094 .1057 .1021 .0986 .0951 .0916
6 .1468 .1445 .1420 .1394 .1367 .1339 .1311 .1282 .1252 .1221
7 .1489 .1486 .1481 .1474 .1465 .1454 .1442 .1428 .1413 .1396
8 .1321 .1337 .1351 .1363 .1373 .1382 .1388 .1392 .1395 .1396
9 .1042 .1070 .1096 .1121 .1144 .1167 .1187 .1207 .1224 .1241
10 .0740 .0770 .0800 .0829 .0858 .0887 .0914 .0941 .0967 .0993
11 .0478 .0504 .0531 .0558 .0585 .0613 .0640 .0667 .0695 .0722
12 .0283 .0303 .0323 .0344 .0366 .0388 .0411 .0434 .0457 .0481
13 .0154 .D168 .0181 .0196 .0211 .0227 .0243 .0260 .0278 .0296
14 .0078 .0086 .0095 .0104 .0113 .0123 .0134 .0145 .0157 .D169
15 .0037 .0041 .0046 .0051 .0057 .0062 .0069 .0075 .0083 .0090
16 .0016 .0019 .0021 .0024 .0026 .0030 .0033 .0037 .0041 .0045
17 .0007 .0008 .0009 .0010 .0012 .0013 .0015 .0017 .0019 .0021
18 .0003 .0003 .0004 .0004 .0005 .0006 .0006 .0007 .0008 .0009
19 .0001 .0001 .0001 .0002 .0002 .0002 .0003 .0003 .0003 .0004
20 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002
21 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001
A.
X 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0

o .0003 .0003 .0002 .0002 .0002 .0002 .0002 .0002 .0001 .0001
1 .0025 .0023 .0021 .0019 .0017 .0016 .0014 .0013 .0012 .0011
2 .0100 .0092 .0086 .0079 .0074 .0068 .0063 .0058 .0054 .0050
3 .0269 .0252 .0237 .0222 .0208 .0195 .0183 .0171 .0160 .0150
4 .0544 .0517 .0491 .0466 .0443 .0420 .0398 .0377 .0357 .0337
5 .0882 .0849 .0816 .0784 .0752 .0722 .0692 .0663 .0635 .0607
6 .1191 .1160 .1128 .1097 .1066 .1034 .1003 .0972 .0941 .0911
7 .1378 .1358 .1338 .1317 .1294 .1271 .1247 .1222 .1197 .1171
8 .1395 .1392 .1388 .1382 .1375 .1366 .1356 .1344 .1332 .1318
9 .1256 .1269 .1280 .1290 .1299 .1306 .1311 .1315 .1317 .1318

E-IS Apéndice E Tablas


TABLA E.es (continuación)
).
X 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0

10 .1017 .1040 .1063 .1084 .1104 .1123 .1140 .1157 .1172 .1186
11 .0749 .0776 .0802 .0828 .0853 .0878 .0902 .0925 .0948 .0970
12 .0606 .0530 .0555 .0579 .0604 .0629 .0664 .0679 .0703 .0728
13 .0315 .0334 .0354 .0374 .0395 .0416 .0438 .0459 .0481 .0504
14 .0182 .0196 .0210 .0225 .0240 .0256 .0272 .0289 .0306 .0324
15 .0098 .0107 .0116 .0126 .0136 .0147 .0158 .0169 .0182 .0194
16 .0050 .0055 .0060 .0066 .0072 .0079 .0086 .0093 .0101 .0109
17 .0024 .0026 .0029 .0033 .0036 .0040 .0044 .0048 .0053 .0058
18 .0011 .0012 .0014 .0015 .0017 .0019 .0021 .0024 .0026 .0029
19 .0005 .0005 .0006 .0007 .0008 .0009 .0010 .0011 .0012 .0014
20 .0002 .0002 .0002 .0003 .0003 .0004 .0004 .0005 .0005 .0006
21 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002 .0002 .0003
22 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0001
).
X 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10

o .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0000
1 .0010 .0009 .0009 .0008 .0007 .0007 .0006 .0005 .0005 .0005
2 .0046 .0043 .0040 .0037 .0034 .0031 .0029 .0027 .0025 .0023
3 .0140 .0131 .0123 .0115 .0107 .0100 .0093 .0087 .0081 .0076
4 .0319 .0302 .0285 .0269 .0254 .0240 .0226 .0213 .0201 .0189
5 .0581 .0555 .0530 .0506 .0483 .0460 .0439 .0418 .0398 .0378

:i~~-
6 .0881 .0851 .0822 .0793 .0764 .0736 .0709 .0682 .0656
7 .1145 .1118 .1091 .1064 .1037 .1010 .0982 .0955 .0928
8 .1302 .1286 .1269 .1251 .1232 .1~12 .1191 .1170 .1148 .1126
9 .1317 .1315 .1311 .1306 .1300 .1293 .1284 .1274 .1263 .1251

10 .1198 .1210 .1219 .1228 .1235 .1241 .1245 .1249 .1250 .1251
11 .0991 .1012 .1031 .1049 .1067 .1083 .1098 .1112 .1125 .1137
12 .0752 .0776 .0799 .0822 .0844 .0866 .0888 .0908 .0928 .0948
13 .0526 .0549 .0572 .0594 .0617 .0640 .0662 .0685 .0707 .0729
14 .0342 .0361 .0380 .0399 .0419 .0439 .0459 .0479 .0500 .0521
15 .0208 .0221 .0235 .0250 .0265 .0281 .0297 .0313 .0330 .0347
16 .0118 .0127 .0137 .0147 .0157 .0168 ,0180 .0192 .0204 .0217
17 .0063 .0069 .0075 .0081 .0088 .0095 .0103 .0111 .0119 .0128
18 .0032 .0035 .0039 .0042 .0046 .0051 .0055 .0060 .0065 .0071
19 .0015 .0017 .0019 .0021 .0023 .0026 .0028 .0031 .0034 .0037

20 .0007 .0008 .0009 .0010 .0011 ·.0012 .0014 .0015 .0017 .0019
21 .0003 .0003 .0004 .0004 .0005 .0006 .0006 .0007 .0008 .0009
22 .0001 .0001 .0002 .0002 .0002 .0002 .0003 .0003 .0004 .0004
23 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002
24 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001
X 'J..=20 X 'J..=20

o .0000 20 .0888
1 .0000 21 .0846
2 .0000 22 .0769
3 .0000 23 .0669
4 .0000 24 .0557
5 .0001 25 .0446
6 .0002 26 .0343
7 .00015 27 .0254
8 .0013 28 .0181
9 .0029 29 .0125
10 .0058 30 .0083
11 .0108 31 .0054
12 .0178 32 .0034
13 .0271 33 .0020
14 .0387 34 .0012
15 .01118 35 .0007
16 .0848 36 .0004
17 .0180 37 .0002
18 .01144 38 .0001
19 .oeu 39 .0001

Fuentl: Tomado di Wllllam H. Beyer, ed., CRC Basic Statistical Tables (Cleveland, Ohio: The Chemical Rubber
Co., 1971), Rllmpnao con licencia. <C1 The Chemical Rubber Co., CRC Press, Inc.

Apéndice E Tablas E· I es
111
1

...
)>
'V
fD.,
:::1
a.
ñ
ID
111

¡;;I
CT
¡¡;-
"'
TABLA E.7Tabla de probabilidades de binomial
Para una combinación dada de n y p, las entradas indican la probabilidad de obtener un valor específico de X. Para localizar la entrada: mando
p :<> O.SO, lea p a lo largo del primer renglón y tanto n y X en el margen izquierdo; cuando p ;:: O.SO, lea p en el último renglón de la tabla y
tanto n y X en el margen derecho.

p
n X 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 X n
2 o 0.9801 0.9604 0.9409 0.9216 0.9025 0.8836 0.8649 0.8464 0.8281 0.8100 0.7921 0.7744 0.7569 0.7396 0.7225 0.7056 0.6889 0.6724 2
1 0.0198 0.0392 0.0582 0.0768 0.0950 0.1128 0.1302 0.1472 0.1638 0.1800 0.1958 0.2112 0.2262 0.2408 0.2550 0.2688 0.2822 0.2952 1
2 0.0001 0.0004 0.0009 0.0016 0.0025 0.0036 0.0049 0.0064 0.0081 0.0100 0.0121 0.0144 0.0169 0.0196 0.0225 0.0256 0.0289 0.0324 o 2

3 o 0.9703 0.9412 0.9127 0.8847 0.8574 0.8306 0.8044 0.7787 0.7536 0.7290 0.7050 0.6815 0.6585 0.6361 0.6141 0.5927 0.5718 0.5514 ·3
1 0.0294 0.0576 0.0847 0.1106 0.1354 0.1590 0.1816 0.2031 0.2236 0.2430 0.2614 0.2788 0.2952 0.3106 0.3251 0.3387 0.3513 0.3631 2
2 0.0003 0.0012 0.0026 0.0046 0.0071 0.0102 0.0137 0.0177 0.0221 0.0270 0.0323 0.0380 0.0441 0.0506 0.0574 0.0645 0.0720 0.0797 1
3 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0005 0.0007 0.0010 0.0013 0.0017 0.0022 0.0027 0.0034 0.0041 0.0049 0.0058 o 3

4 o 0.9606 0.9224 0.8853 0.8493 0.8145 0.7807 0.7481 0.7164 0.6857 0.6561 0.6274 0.5997 0.5729 0.5470 0.5220 0.4979 0.4746 0.4521 4
1 0.0388 0.0753 0.1095 0.1416 0.1715 0.1993 0.2252 0.2492 0.2713 0.2916 0.3102 0.3271 0.3424 0.3562 0.3685 0.3793 0.3888 0.3970 3
2 0.0006 0.0023 0.0051 0.0088 0.0135 0.0191 0.0254 0.0325 0.0402 0.0486 0.0575 0.0669 0.0767 0.0870 0.0975 0.1084 0.1195 0.1307 2
3 0.0000 0.0000 0.0001 0.0002 0.0005 0.0008 0.0013 0.0019 0.0027 0.0036 0.0047 0.0061 0.0076 0.0094 0.0115 0.0138 0.0163 0.0191 1
4 - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0008 0.0010 o 4

5 o 0.9510 0.9039 0.8587 0.8154 0.7738 0.7339 0.6957 0.6591 0.6240 0.5905 0.5584 0.5277 0.4984 0.4704 0.4437 0.4182 0.3939 0.3707 . 5
1 0.0480 0.0922 0.1328 0.1699 0.2036 0.2342 0.2618 0.2866 0.3086 0.3280 0.3451 0.3598 0.3724 0.3829 0.3915 0.3983 0.4034 0.4069 4
2 0.0010 0.0038 0.0082 0.0142 0.0214 0.0299 0.0394 0.0498 0.0610 0.0729 0.0853 0.0981 0.1113 0.1247 0.1382 0.1517 0.1652 0.1786 3
3 0.0000 0.0001 0.0003 0.0006 0.0011 0.0019 0.0030 0.0043 0.0060 0.0081 0.0105 0.0134 0.0166 0.0203 0.0244 0.0289 0.0338 0.0392 2
4 - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 0.0007 0.0009 0.0012 0.0017 0.0022 0.0028 0.0035 0.0043 1
5 - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 o 5

6 o 0.9415 0.8858 0.8330 0.7828 0.7351 0.6899 0.6470 0.6064 0.5679 0.5314 0.4970 0.4644 0.4336 0.4046 0.3771 0.3513 0.3269 0.3040 6
1 0.0571 0.1085 o. 1546 0.1957 0.2321 0.2642 0.2922 0.3164 0.3370 0.3543 0.3685 0.3800 0.3888 0.3952 0.3993 0.4015 0.4018 0.4004 5
2 0.0014 0.0055 0.0120 0.0204 0.0305 0.0422 0.0550 0.0688 0.0833 0.0984 0.1139 0.1295 0.1452 0.1608 0.1762 0.1912 0.2057 0.2197 4
3 0.0000 0.0002 0.0005 0.0011 0.0021 0.0036 0.0055 0.0080 0.0110 0.0146 0.0188 0.0236 0.0289 0.0349 0.0415 0.0486 0.0562 0.0643 3
4 - 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005 0.0008 0.0012 0.0017 0.0024 0.0032 0.0043 0.0055 0.0069 0.0086 0.0106 2
5 - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 1
6 - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 o 6
7 o 0.9321 0.8681 0.8080 0.7514 0.6983 0.6485 0.6017 0.5578 0.5168 0.4783 0.4423 0.4087 0.3773 0.3479 0.3206 0.2951 0.2714 0.2493 7
1 0.0659 0.1240 0.1749 0.2192 0.2573 O.rl897 0.3170 0.3396 0.3578 0.3720 0.3827 0.3901 0.3946 0.3965 0.3960 0.3935 0.3891 0.3830 6
2 0.0020 0.0076 0.0162 0.0274 0.0406 0.0555 0.0716 0.0886 0.1061 0.1240 0.1419 0.1596 0.1769 0.1936 0.2097 0.2248 0.2391 0.2523 5
3 0.0000 0.0003 0.0008 0.0019 0.0036 0.()059 0.0090 0.0128 0.0175 0.0230 0.0292 0.0363 0.0441 0.0525 0.0617 0.0714 0.0816 0.0923 4
4 - 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0011 0.0017 0.0026 0.0036 0.0049 0.0066 O.ooS6 0.0109 0.0136 0.0167 0.0203 3
5 - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 0.0006 0.0008 0.0012 0.0016 0.0021 0.0027 2
6 - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 1
7 - - - - - - 0.0000 0.0000 0.0000 0.0000 o 7
-- - - - - - - -
8 O 0.9227 0.8508 0.7837 0.7214 0.6634 0.6096 0.5596 0.5132 0.4703 0.4305 0.3937 0.3596 0.3282 0.2992 0.2725 0.2479 0.2252 0.2044 8
1 0.0746 0.1389 0.1939 0.2405 0.2793 0.3113 0.3370 0.3570 0.3721 0.3826 0.3892 0.3923 0.3923 0.3897 0.3847 0.3777 0.3691 0.3590 7
2 0.0026 0.0099 0.0210 0.0351 0.0515 0.0695 0.0888 0.1087 0.1288 0.1488 0.1684 0.1872 0.2052 0.2220 0.2376 0.2518 0.2646 0.2758 6
3 0.0001 0.0004 0.0013 0.0029 0.0054 0.0089 0.0134 0.0189 0.0255 0.0331 0.0416 0.0511 0.0613 0.0723 0.0839 0.0959 0.1084 0.1211 5
4 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0013 0.0021 0.0031 0.0046 0.0064 0.0087 0.0115 0.0147 0.0185 0.0228 0.0277 0.0332 4
5 - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0006 0.0009 0.0014 0.0019 0.0026 0.0035 0.0045 0.0058 3
6 - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0006 2
7 - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1
8 - - - - - - - - - - - - - - o 8
-- - -
-
9 o 0.9135 0.8337 0.7602 0.6925 0.6302 0.5730 0.5204 0.4722 0.4279 0.3874 0.3504 0.3165 0.2855 0.2573 0.2316 0.2082 0.1869 0.1676 9
1 0.0830 0.1531 0.2116 0.2597 0.2985 0.3292 0.3525 0.3695 0.3809 0.3874 0.3897 0.3884 0.3840 0.3770 0.3679 0.3569 0.3446 0.3312 8
2 0.0034 0.0125 0.0262 0.0433 0.0629 0.0840 0.1061 0.1285 0.1507 0.1122. 0.1927 0.2119 0.2295 0.2455 0.2597 0.2720 0.2823 0.2908 7
3 0.0001 0.0006 0.0019 0.0042 0.0077 0.0125 0.0186 0.0261 o.0348 o.0446 o.0556 o.0674 o.oaoo o.0933 0.1069 0.1209 o. 1349 0.1489 6
4 0.0000 0.0000 0.0001 0.0003 0.0006 0.0012 0.0021 0.0034 0.0052 0.0074 0.0103 0.0138 0.0179 0.0228 0.0283 0.0345 0.0415 0.0490 5
5 - - 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005 0.0008 0.0013 0.0019 0.0027 0.0037 0.0050 0.0066 0.0085 0.0108 4
6 - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 0.0006 0.0008 0.0012 0.0016 3
7 - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 2
-- -
8 - - - - - - - - - - - - - - 0.0000 0.0000 0.0000 1
9 - -- - - - - - - - - - - - - - - - - o 9

10 o 0.9044 0.8171 0.7374 0.6648 0.5987 0.5386 0.4840 0.4344 0.3894 0.3487 0.3118 0.2785 0.2484 0.2213 0.1969 0.1749 0.1552 0.1374 10
1 0.0914 0.1667 0.2281 0.2770 0.3151 0.3438 0.3643 0.3777 0.31!51 0.3874 0.3854 0.3798 0.3712 0.3603 0.3474 0.3331 0.3178 0.3017 9
2 0.0042 0.0153 0.0317 0.0519 0.0746 0.0988 0.1234 0.1478 0.1714 0.1937 0.2143 0.2330 0.2496 0.2639 0.2759 0.2856 0.2929 0.2980 8
3 0.0001 0.0008 0.0026 0.0058 0.0105 0.0168 0.0248 0.0343 0.0452 0.0574 0.0706 0.0847 0.0995 0.1146 0.1298 0.1450 0.1600 0.1745 7
4 0.0000 0.0000 0.0001 0.0004 0.0010 0.0019 0.0033 0.0052 0.0078 0.0112 0.0153 0.0202 0.0260 0.0326 0.0401 0.0483 0.0573 0.0670 6
5 - - 0.0000 0.0000 0.0001 0.0001 0.0003 0.0005 0.0009 0.0015 0.0023 0.0033 0.0047 0.0064 0.0085 0.0111 0.0141 0.0177 5
6 - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0006 0.0009 0.0012 0.0018 0.0024 0.0032 4
7 - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 3
8 - - - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 2
9 - - - - - - 1
-- - - - - - -
10
- - -
- -
- - o 10
- - - - - - - - - - -
- - - --
..
J> n X 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 0.90 0.89 0.88 0.87 0.86 0.85 0.84 0.83 0.82 X n
l p
A
;;·
CD

"'
¡¡¡!
c:r
¡¡;
.,,

1
"'
CI)
111
1

J>
'V
CD•
:a
A
ft
CD
111

¡¡;!
fJ"
¡¡;-
"'

TABLA E.7 (continuación)

p
n X 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 X n
2 o 0.6561 0.6400 0.6241 0.6084 0.5929 0.5776 0.5625 0.5476 0.5329 0.5184 0.5041 0.4900 0.4761 0.4624 0.4489 0.4356 0.4225 0.4096 2
1 0.3078 0.3200 0.3318 0.3432 0.3542 0.3648 0.3750 0.3848 0.3942 0.4032 0.4118 0.4200 0.4278 0.4352 0.4422 0.4488 0.4550 0.4608 1
2 0.0361 0.0400 0.0441 0.0484 0.0529 0.0576 0.0625 0.0676 0.0729 0.0784 0.0841 0.0900 0.0961 0.1024 0.1089 0.1156 0.1225 0.1296 o 2

3 o 0.5314 0.5120 0.4930 0.4746 0.4565 0.4390 0.4219 0.4052 0.3890 0.3732 0.3579 0.3430 0.3285 0.3144 0.3008 0.2875 0.2746 0.2621 3
1 0.3740 0.3840 0.3932 0.4015 0.4091 0.4159 0.4219 0.4271 0.4316 0.4355 0.4386 0.4410 0.4428 0.4439 0.4444 0.4443 0.4436 0.4424 2
2 o.osn 0.0960 0.1045 0.1133 0.1222 0.1313 0.1406 o.1so1 0.1597 0.1693 0.1791 0.1890 0.1989 0.2089 0.2189 0.2289 0.2389 0.2488 1
3 0.0069 0.0080 0.0093 O.o106 0.0122 0.0138 0.0156 0.0176 0.0197 0.0220 0.0244 0.0270 0.0298 0.0328 O.Ol59 0.0393 0.0429 0.0467 o 3
4 o 0.4305 0.4096 0.3895 0.3702 0_.3515 0.3336 0.3164 0.2999 0.2840 0.2687 0.2541 0.2401 0.2267 0.2138 0.2015 0.1897 0.1785 0.1678 4
1 0.4039 0.4096 0.4142 0.4176 0.4200 0.4214 0.4219 0.4214 0.4201 0.4180 0.4152 0.4116 0.4074 0.4025 0.3970 0.3910 0.3845 0.3775 3
2 0.1421 0.1536 0.1651 0.1767 0.1882 0.1996 0.2109 0.2221 0.2331 0.2439 0.2544 0.2646 0.2745 0.2841 0.2933 0.3021 0.3105 0.3185 2
3 0.0222 0.0256 0.0293 0.0332 0.0375 0.0420 0.0469 0.0520 0.0575 0.0632 0.0693 0.0756 0.0822 0.0891 0.0963 0.1038 0.1115 0.1194 1
4 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0046 0.0053 0.0061 0.0071 0.0081 0.0092 0.0105 0.0119 0.0134 0.0150 0.0168 o 4

5 o 0.3487 0.3277 0.3077 0.2887 0.2707 0.2536 0.2373 0.2219 0.2073 0.1935 0.1804 0.1681 0.1564 0.1454 0.1350 0.1252 0.1160 0.1074 5
1 0.4089 0.4096 0.4090 0.4072 0.4043 0.4003 0.3955 0.3898 0.3834 0.3762 0.3685 0.3601 0.3513 0.3421 0.3325 0.3226 0.3124 0.3020 4
2 0.1919 0.2048 0.2174 0.2297 0.2415 0.2529 0.2637 0.2739 0.2836 0.2926 0.3010 0.3087 0.3157 0.3220 0.3275 0.3323 0.3364 0.3397 3
3 0.0450 0.0512 0.0578 0.0648 0.0721 0.0798 0.0879 0.0962 0.1049 0.1138 0.1229 0.1323 0.1418 0.1515 0.1613 0.1712 0.1811 0.1911 2
4 0.0053 0.0064 0.0077 0.0091 O.D108 0.0126 0.0146 0.0169 0.0194 0.0221 0.0251 0.0283 0.0319 0.0357 0.0397 0.0441 0.0488 0.0537 1
5 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 0.0012 0.0014 0.0017 0.0021 0.0024 0.0029 0.0034 0.0039 0.0045 0.0053 0.0060 o 5

6 o 0.2824 0.2621 0.2431 0.2252 0.2084 0.1927 0.1780 0.1642 0.1513 0.1393 0.1281 0.1176 0.1079 0.0989 0.0905 0.0827 0.0754 0.0687 6
1 0.3975 0.3932 0.3877 0.3811 0.3735 0.3651 0.3560 0.3462 0.3358 0.3251 0.3139 0.3025 0.2909 0.2792 0.2673 0.2555 0.2437 0.2319 5
2 0.2331 0.2458 0.2577 0.2687 0.2789 0.2882 0.2966 0.3041 0.3105 0.3160 0.3206 0.3241 0.3267 0.3284 0.3292 0.3290 0.3280 0.3261 4
3 0.0729 0.0819 0.0913 0.1011 0.1111 0.1214 0.1318 0.1424 0.1531 0.1639 0.1746 0.1852 0.1957 0.2061 0.2162 0.2260 0.2355 0.2446 3
4 0.0128 0.0154 0.0182 0.0214 0.0249 0.0287 0.0330 0.0375 0.0425 0.0478 0.0535 0.0595 0.0660 0.0727 0.0799 0.0873 0.0951 0.1032 2
5 0.0012 0.0015 0.0019 0.0024 0.0030 0.0036 0.0044 0.0053 0.0063 0.0074 0.0087 0.0102 0.0119 0.0137 0.0157 0.0180 0.0205 0.0232 1
6 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0015 0.0018 0.0022 o 6
1 o CLZZ88 o.2097 0.1920 0.1757 0.1605 0.1465 0.1335 0.1215 0.1105 0.1003 0.0910 0.0824 0.0745 0.0672 0.0606 0.0546 0.0490 0.0440 7
1 a3P.ill G.3610 G.3573 G.3468 0.3356 0.3237 0.3115 0.2989 0.2860 0.2731 0.2600 0.2471 0.2342 0.2215 0.2090 0.1967 0.1848 0.1732 6
2 a2llG G.2153 o.2850 0.2935 0.3007 0.3067 0.3115 0.3150 0.3174 0.3186 0.3186 0.3177 0.3156 0.3127 0.3088 0.3040 0.2985 0.2922 5
3 a1E3 0.1147 0.1263 0.1379 0.1497 0.1514 0.1130 0.1845 0.1956 0.2065 0.2159 0.2269 0.2363 0.2452 0.2535 0.2610 o.2679 0.2140 4
• OJIM2 Q.0287 0.0336 0.0389 0.0447 0.0510 0.0577 0.0648 0.0724 0.0803 0.0886 0.0972 0.1062 0.1154 0.1248 0.1345 0.1442 0.1541 3
5 Ct.0034 0.0043 0.0054 0.0066 0.0080 0.0097 0.0115 0.0137 0.0161 0.0187 0.0217 0.0250 0.0286 0.0326 0.0369 0.0416 0.0466 0.0520 2
6 ! 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 0.0013 0.0016 0.0020 0.0024 0.0030 0.0036 0.0043 0.0051 0.0061 0.0071 0.0084 0.0098 1
71 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0008 o 7

8 o 0.1853 0.1678 0.1517 0.1370 0.1236 0.1113 0.1001 0.0899 0.0806 0.0722 0.0646 0.0576 0.0514 0.0457 0.0406 0.0360 0.0319 0.0281 8
1 0.3477 0.3355 0.3226 0.3092 0.2953 0.2812 0.2670 0.2527 0.2386 0.2247 0.2110 0.1977 0.1847 0.1721 0.1600 0.1484 0.1373 0.1267 7
2 0.2855 0.2936 0.3002 0.3052 0.3087 0.3108 0.3115 0.3108 0.3089 0.3058 0.3017 0.2965 0.2904 0.2835 0.2758 0.2675 0.2587 0.2494 6
3 0.1339 0.1468 0.1596 0.1722 0.1844 0.1963 0.2076 0.2184 0.2285 0.2379 0.2464 0.2541 0.2609 0.2668 0.2717 0.2756 0.2786 0.2805 5
4 0.0393 0.0459 0.0530 0.0607 0.0689 0.0775 0.0865 0.0959 0.1056 0.1156 0.1258 0.1361 0.1465 0.1569 0.1673 0.1775 0.1875 0.1973 4
5 0.0074 0.0092 0.0113 0.0137 0.0165 0.0196 0.0231 0.0270 0.0313 0.0360 0.0411 0.0467 0.0527 0.0591 0.0659 0.0732 0.0808 0.0888 3
6 0.0009 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0058 0.0070 0.0084 0.0100 0.0118 0.0139 0.0162 0.0188 0.0217 0.0250 2
7 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 0.0012 0.0015 0.0019 0.0023 0.0028 0.0033 0.0040 1
8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 o 8

9 o 0.1501 0.1342 0.1199 0.1069 0.0952 0.0846 0.0751 0.0665 0.0589 0.0520 0.0458 0.0404 0.0355 0.0311 0.0272 0.0238 0.0207 0.0180 9
1 0.3169 0.3020 0.2867 0.2713 0.2558 0.2404 0.2253 0.2104 0.1960 0.1820 0.1685 0.1556 0.1433 0.1317 0.1206 0.1102 0.1004 0.0912 8
2 0.2973 0.3020 0.3049 0.3061 0.3056 0.3037 0.3003 0.2957 0.2899 0.2831 0.2754 0.2668 0.2576 0.2478 0.2376 0.2270 0.2162 0.2052 7
3 0.1627 0.1762 0.1891 0.2014 0.2130 0.2238 0.2336 0.2424 0.2502 0.2569 0.2624 0.2668 0.2701 0.2721 0.2731 0.2729 0.2716 0.2693 6
4 0.0573 0.0661 0.0754 0.0852 0.0954 0.1060 0.1168 0.1278 0.1388 0.1499 0.1608 0.1715 0.1820 0.1921 0.2017 0.2109 0.2194 0.2272 5
5 0.0134 0.0165 0.0200 0.0240 0.0285 0.0335 0.0389 0.0449 0.0513 0.0583 0.0657 0.0735 0.0818 0.0904 0.0994 0.1086 0.1181 0.1278 4
6 0.0021 0.0028 0.0036 0.0045 0.0057 0.0070 0.0087 0.0105 0.0127 0.0151 0.0179 0.0210 0.0245 0.0284 0.0326 0.0373 0.0424 0.0479 3
7 0.0002 0.0003 0.0004 0.0005 0.0007 0.0010 0.0012 0.0016 0.0020 0.0025 0.0031 0.0039 0.0047 0.0057 0.0069 0.0082 0.0098 0.0116 2
8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0007 0.0008 0.0011 0.0013 0.0016 1
9 - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.00<?1 o 9

10 o 0.1216 0.1074 0.0947 0.0834 0.0733 0.0643 0.0563 0.0492 0.0430 0.0374 0.0326 0.0282 0.0245 0.0211 0.0182 0.0157 0.0135 0.0115 10
1 0.2852 0.2684 0.2517 0.2351 0.2188 0.2030 0.1877 0.1730 0.1590 0.1456 0.1330 0.1211 0.1099 0.0995 0.0898 0.0808 0.0725 0.0649 9
2 0.3010 0.3020 0.3011 0.2984 0.2942 0.2885 0.2816 0.2735 0.2646 0.2548 0.2444 0.2335 0.2222 0.2107 0.1990 0.1873 0.1757 0.1642 8
3 0.1883 0.2013 0.2134 0.2244 0.2343 0.2429 0.2503 0.2563 0.2609 0.2642 0.2662 0.2668 0.2662 0.2644 0.2614 0.2573 0.2522 0.2462 7
4 0.0773 0.0881 0.0993 0.1108 0.1225 0.1343 0.1460 0.1576 0.1689 0.1798 0.1903 0.2001 0.2093 0.2177 0.2253 0.2320 0.2377 0.2424 6
5 0.0218 0.0264 0.0317 0.0375 0.0439 0.0509 0.0584 0.0664 0.0750 0.0839 0.0933 0.1029 0.1128 0.1229 0.1332 0.1434 0.1536 0.1636 5
6 0.0043 0.0055 0.0070 0.0088 0.0109 0.0134 0.0162 0.0195 0.0231 0.0272 0.0317 0.0368 0.0422 0.0482 0.0547 0.0616 0.0689 0.0767 4
7 0.0006 0.0008 0.0011 0.0014 0.0019 0.0024 0.0031 0.0039 0.0049 0.0060 0.0074 0.0090 0.0108 0.0130 0.0154 0.0181 0.0212 0.0247 3
8 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0023 0.0028 0.0035 0.0043 0.0052 2
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 1
10 - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 o 10

2> n X 0.81 0.80 0.79 0.78 0.77 0.76 0.75 0.74 0.73 0.72 0.71 0.70 0.69 0.68 0.67 0.66 0.65 0.64 X n
1:::s p
A.
.,.ñ
rn

¡;;-!
CT
~

.
w
o
1
~
'"

.,,J>
ID•
:::1
a.
¡;·
CD

'"
p;I
CT
~

TABLA E.7 (continuación)

p
n X 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 X n
2 o 0.3969 0.3844 0.3721 0.3600 0.3481 0.3364 0.3249 0.3136 0.3025 0.2916 0.2809 0.2704 0.2601 0.2500 2
1 0.4662 0.4712 0.4758 0.4800 0.4838 0.4872 0.4902 0.4928 0.4950 0.4968 0.4982 0.4992 0.4998 0.5000 1
2 0.1369 0.1444 0.1521 0.1600 0.1681 0.1764 0.1849 0.1936 0.2025 0.2116 0.2209 0.2304 0.2401 0.2500 o 2

3 o 0.2500 0.2383 0.2270 0.2160 0.2054 0.1951 0.1852 0.1756 0.1664 0.1575 0.1489 0.1406 0.1327 0.1250 3
1 0.4406 0.4382 0.4354 0.4320 0.4282 0.4239 0.4191 0.4140 0.4084 0.4024 0.3961 0.3894 0.3823 0.3750 2
2 0.2587 0.2686 0.2783 0.2880 0.2975 0.3069 0.3162 0.3252 0.3341 0.3428 0.3512 0.3594 0.3674 0.3750 1
3 0.0507 0.0549 0.0593 0.0640 0.0689 0.0741 0.0795 0.0852 0.0911 0.0973 0.1038 0.1106 0.1176 o. 1250 o 3

4 o 0.1575 0.1478 0.1385 0.1296 0.1212 0.1132 0.1056 0.0983 0.0915 0.0850 0.0789 0.0731 0.0677 0.0625 4
1 0.3701 0.3623 0.3541 0.3456 0.3368 0.3278 0.3185 0.3091 0.2995 0.2897 0.2799 0.2700 0.2600 0.2500 3
2' 0.3260 0.3330 0.3396 0.3456 0.3511 0.3560 0.3604 0.3643 0.3675 0.3702 0.3723 0.3738 0.3747 0.3750 2
3 0.1276 0.1361 0.1447 0.)536 0.1627 0.1719 0.1813 0.1908 Q.2005 0.2102 0.2201 0.2300 0.2400 0.2500 1
4 0.0187 0.0209 0.0231 0.0256 0.0283 0.0311 0.0342 0.0375 0.0410 0.0448 0.0488 0.0531 0.0576 0.0625 o 4

5 o 0.0992 0.0916 0.0845 0.0778 0.0715 0.0656 0.0602 0.0551 0.0503 0.0459 0.0418 0.0380 0.0345 0.0312 5
1 0.2914 0.2808 0.2700 0.2592 0.2484 0.2376 0.2270 0.2164 0.2059 0.1956 0.1854 0.1755 0.1657 0.1562 4
2 0.3423 0.3441 0.3452 0.3456 0.3452 0.3442 0.3424 0.3400 0.3369 0.3332 0.3289 0.3240 0.3185 0.3125 3
3 0.2010 0.2109 0.2207 0.2304 0.239!1 0.2492 0.2583 0.2671 0.2757 0.2838 0.2916 0.2990 0.3060 0.3125 2
4 0.0590 0.0646 O.Q706 0.0768 0.0834 0.0902 0.0974 0.1049 0.1128 0.1209 0.1293 0.1380 0.1470 0.1562 1
5 0.0069 0.0079 0.0090 0.0102 0.0116 0.0131 0.0147 0.0165 0.0185 0.0206 0.0229 0.0255 0.0282 0.0312 o 5

6 o 0.0625 0.0568 0.0515 0.0467 0.0422 0.0381 0.0343 0.0308 0.0277 0.0248 0.0222 0.0198 0.0176 0.0156 6
1 0.2203 0.2089 0.1976 0.1866 0.1759 0.1654 0.1552 0.1454 0.1359 0.1267 0.1179 0.1095 0.1014 0.0937 5
2 0.3235 0.3201 0.3159 0.3110 0.3055 0.2994 0.2928 0.2856 0.2780 0.2699 0.2615 0.2527 0.2436 0.2344 4
3 0.2533 0.2616 0.2693 0.2765 0.2831 0.2891 0.2945 0.2992 0.3032 0.3065 0.3091 0.3110 0.3121 0.3125 3
4 0.1116 0.1202 0.1291 0.1382 0.1475 0.1570 0.1666 0.1763 0.1861 0.1958 0.2056 0.2153 0.2249 0.2344 2
5 0.0262 0.0295 0.0330 0.0369 0.0410 0.0455 0.0503 0.0554 0.0609 0.0667 0.0729 0.0795 0.0864 0.093711
6 0.0026 0.0030 0.0035 0.0041 0.0048 0.0055 0.0063 0.0073 0.0083 0.0095 0.0108 0.0122 0.0138 0.0156 o 6
7 o 0.0394 0.0352 0.0314 0.0280 0.0249 0.0221 0.0195 0.0173 0.0152 0.0134 0.0117 0.0103 0.0090 0.0078 7
1 0.1619 0.1511 0.1407 0.1306 0.1211 0.1119 0.1032 0.0950 0.0872 0.0798 0.0729 0.0664 0.0604 0.0547 6
2 0.2853 0.2778 0.2698 0.2613 0.2524 0.2431 0.2336 0.2239 0.2140 0.2040 0.1940 0.1840 0.1740 0.1641 5
3 0.2793 0.2838 0.2875 0.2903 0.2923 0.2934 0.2937 0.2932 0.2918 0.2897 0.2867 0.2830 0.2786 0.2734 4
4 0.1640 0.1739 0.1838 0.1935 0.2031 0.2125 0.2216 0.2304 0.2388 0.2468 0.2543 0.2612 0.2676 0.2734 3
5 0.0578 0.0640 0.o705 0.0774 0.0847 0.0923 0.1003 0.1086 0.1172 0.1261 0.1353 0.1447 0.1543 0.1641 2
6 0.0113 0.0131 0.0150 0.0172 0.0196 0.0223 0.0252 0.0284 0.0320 0.0358 0.0400 0.0445 0.0494 0.0547 1
7 0.0009 0.0011 0.0014 0.0016 0.0019 0.0023 0.0027 0.0032 0.0037 0.0044 0.0051 0.0059 0.0068 0.0078 o 7

8 o 0.0248 0.0218 0.0192 0.0168 0.0147 0.0128 0.0111 0.0097 0.0084 0.0072 0.0062 0.0053 0.0046 0.0039 8
1 0.1166 0.1071 0.0981 0.0896 0.0816 0.0742 0.0672 0.0608 0.0548 0.0493 0.0442 0.0395 0.0352 0.0312 7
2 0.2397 0.2297 0.2194 0.2090 0.1985 0.1880 0.1776 0.1672 0.1569 0.1469 0.1371 0.1275 0.1183 0.1094 6
3 0.2815 0.2815 0.2806' 0.2787 0.2759 0.2723 0.2679 0.2627 0.2568 0.2503 0.2431 0.2355 0.2273 0.2187 5
4 0.2067 0.2157 0.2242 0.2322 0.2397 0.2465 0.2526 0.2580 0.2627 0.2665 0.2695 0.2717 0.2730 0.2734 4
5 0.0971 0.1058 0.1147 0.1239 0.1332 0.1428 0.1525 0.1622 0.1719 0.1816 0.1912 0.2006 0.2098 0.2187 3
6 0.0285 0.0324 0.0367 0.0413 0.0463 0.0517 0.0575 0.0637 0.0703 0.0774 0.0848 0.0926 0.1008 0.1094 2
7 0.0048 0.0057 0.0067 0.0079 0.0092 0.0107 0.0124 0.0143 0.0164 0.0188 0.0215 0.0244 0.0277 0.0312 1
8 0.0004 0.0004 0.0005 0.0007 0.0008 0.0010 0.0012 0.0014 0.0017 0.0020 0.0024 0.0028 0.0033 0.0039 o 8
9 o 0.0156 0.0135 0.0117 0.0101 0.0087 0.0074 0.0064 0.0054 0.0046 0.0039 0.0033 0.0028 0.0023 0.0020 9
1 0.0826 0.0747 0.0673 0.0605 0.0542 0.0484 0.0431 0.0383 0.0339 0.0299 0.0263 0.0231 0.0202 0.0176 8
2 0.1941 0.1831 0.1721 0.1612 0.1506 0.1402 0.1301 0.1204 0.111 o 0.1020 0.0934 0.0853 0.0776 0.0703 7
3 0.2660 0.2618 0.2567 0.2508 0.2442 0.2369 0.2291 0.2207 0.2119 0.2027 0.1933 0.1837 0.1739 0.1641 6
4 0.2344 0.2407 0.2462 0.2508 0.2545 0.2573 0.2592 0.2601 0.2600 0.2590 0.2571 0.2543 0.2506 0.2461 5
5 0.1376 0.1475 0.1574 0.1672 0.1769 0.1863 0.1955 0.2044 0.2128 0.2207 0.2280 0.2347 0.2408 0.2461 4
6 0.0539 0.0603 0.0671 0.0743 0.0819 0.0900 0.0983 0.1070 0.1160 0.1253 0.1348 0.1445 0.1542 0.1641 3
7 0.0136 0.0158 0.0184 0.0212 0.0244 0.0279 0.0318 0.0360 0.0407 0.0458 0.0512 0.0571 0.0635 0.0703 2
8 0.0020 0.0024 0.0029 0.0035 0.0042 0.0051 0:0060 0.0071 0.0083 0.0097 0.0114 0.0132 0.0153 0.0176 1
9 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0008 0.0009 0.0011 0.0014 0.0016 0.0020 o 9

10 o 0.0098 0.0084 0.0071 0.0060 0.0051 0.0043 0.0036 0.0030 0.0025 0.0021 0.0017 0.0014 0.0012 0.0010 10
1 0.0578 0.0514 0.0456 0.0403 0.0355 0.0312 0.0273 0.0238 0.0207 0.0180 0.0155 0.0133 0.0114 0.0098 9
2 0.1529 0.1419 0.1312 0.1209 0.1111 0.1017 0.0927 0.0843 0.0763 0.0688 0.0619 0.0554 0.0494 0.0439 8
3 0.2394 0.2319 0.2237 0.2150 0.2058 0.1963 0.1865 0.1765 0.1665 0.1564 0.1464 0.1364 0.1267 0.1172 7
4 0.2461 0.2487 0.2503 0.2508 0.2503 0.2488 0.2462 0.2427 0.2384 0.2331 0.2271 0.2204 0.2130 0.2051 6
5 0.1734 0.1829 0.1920 0.2007 0.2087 0.2162 0.2229 0.2289 0.2340 0.2383 0.2417 0.2441 0.2456 0.2461 5
6 0.0849 0.0934 0.1023 0.1115 0.1209 0.1304 0.1401 0.1499 o. 1596 0.1692 o. 1786 0.1878 0.1966 0.2051 4
7 0.0285 0.0327 0.0374 0.0425 0.0480 0.0540 0.0604 0.0673 0.0746 0.0824 0.0905 0.0991 0.1080 0.1172 3
8 0.0063 O.OQ75 0.0090 0.0106 0.0125 0.0147 0.0171 0.0198 0.0229 0.0263 0.0301 0.0343 0.0389 0.0439 2
9 0.0008 0.0010 0.0013 0.0016 0.0019 0.0024 0.0029 0.0035 0.0042 0.0050 0.0059 0.0070 0.0083 0.0098 1
10 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 o 10
n X 0.63 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.50 X n
~
,,
CD- p
:::1
D.
i
111

p;I
cr
PI

111
1
..,,
..,,
.1
~
"'
w

,,.,,l>
:s
a.
;:¡·
m
"'
¡¡;!
C"
¡¡j'
"'

TABLA E.7 (continuación)

p
n X 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.18 0.17 0.18 X n
20 o 0.8179 0.6676 0.5438 0.4420 0.3585 0.2901 0.2342 0.1887 0.1516 0.1216 0.0972 0.0776 0.0617 0.0490 0.0388 0.0306 0.0241 0.0189 20
1 0.1652 0.2725 0.3364 0.3683 0.3774 0.3703 0.3526 0.3282 0.3000 0.2702 0.2403 0.2115 0.1844 0.1595 0.1368 0.1165 0.0986 0.0829 19
2 0.0159 0.0528 0.0988 0.1458 0.1887 0.2246 0.2521 o.2111 0.2818 0.2852 0.2822 0.2740 0.2618 0.2466 0.2293 0.2109 0.1919 0.1730 18
3 0.0010 0.0065 0.0183 0.0364 0.0596 0.0860 0.1139 0.1414 0.1672 0.1901 0.2093 0.2242 0.2347 0.2409 0.2428 0.2410 0.2358 0.2278 17
4 0.0000 0.0006 0.0024 0.0065 0.0133 0.0233 0.0364 0.0523 0.0703 0.0898 0.1099 0.1299 0.1491 0.1666 0.1821 0.1951 0.2053 0.2125 16
5 - 0.0000 0.0002 0.0009 0.0022 0.0048 0.0088 0.0145 0.0222 0.0319 0.0435 0.0567 0.0713 0.0868 0.1028 0.1189 0.1345 0.1493 15
6 - - 0.0000 0.0001 0.0003 0.0008 0.0017 0.0032 0.0055 0.0089 0.0134 0.0193 0.0266 0.0353 0.0454 0.0566 0.0689 0.0819 14
7 - - - 0.0000 0.0000 0.0001 0.0002 0.0005 0.0011 0.0020 0.0033 0.0053 0.0080 0.0115 0.0160 0.0216 0.0282 0.0360 13
8 - - - - - 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0019 0.0030 0.0046 0.0067 0.0094 0.0128 12
9 - - - - - - - 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0007 0.0011 0.0017 0.0026 0.0038 11
10 - - - - - - - - - 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0006 0.0009 10
11 - - - - - - - - - - - - 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 9
12 - - - - - - - - - - - - - - - 0.0000 0.0000 0.0000 8
13 - - - - - - - - - - - - - - - - - - 7
14 - - - - - - - - - - - - - - - - - - 6
15 - - - - - - - - - - - - - - - - - - 5
16 - - - - - - - - - - - - - - - - - - 4
17 - - - - - - - - - - - - - - - - - - 3
18 - - - - - - - - - - - - - - - - - - 2
19 - - - - - - - - - - - - - - - - - - 1
20 - - - - - - - - - - - - - - - - - - o 20
n X 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 0.90 0.89 0.88 0.87 0.86 0.85 0.84 0.83 0.82 X n
p
p

n X 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 X n
20 o 0.0148 0.0115 0.0090 0.0069 0.0054 0.0041 0.0032 0.0024 0.0018 0.0014 0.0011 0.0008 0.0006 0.0004 0.0003 0.0002 0.0002 0.0001 20
1 0.0693 0.0576 0.0477 0.0392 0.0321 0.0261 0.0211 0.0170 0.0137 0.0109 0.0087 0.0068 0.0054 0.0042 0.0033 0.0025 0.0020 0.0015 19
2 0.1545 0.1369 0.1204 0.1050 0.0910 0.0783 0.0669 0.0569 0.0480 0.0403 0.0336 0.0278 0.0229 0.0188 0.0153 0.0124 0.0100 0.0080 18
3 0.2175 0.2054 0.1920 0.1777 0.1631 0.1484 0.1339 0.1199 0.1065 0.0940 0.0823 0.0716 0.0619 0.0531 0.0453 0.0383 0.0323 0.0270 17
4 0.2168 0.2182 0.2169 0.2131 0.2070 0.1991 0.1897 0.1790 0.1675 0.1553 0.1429 0.1304 0.1181 0.1062 0.0947 0.0839 0.0738 0.0645·16
5 0.1627 0.1746 0.1845 0.1923 0.1979 0.2012 0.2023 0.2013 0.1982 0.1933 0.1868 0.1789 0.1698 0.1599 0.1493 0.1384 0.1272 0.1161 15
6 0.0954 0.1091 0.1226 0.1356 0.1478 0.1589 0.1686 0.1768 0.1833 0.1879 0.1907 0.1916 0.1907 0.1881 0.1839 0.1782 0.1712 0.1632 14
7 0.0448 0.0545 0.0652 0.0765 0.0883 0.1003 0.1124 0.1242 0.1356 0.1462 0.1558 0.1643 0.1714 0.1770 0.1811 0.1836 0.1844 0.1836 13
8 0.0171 0.0222 0.0282 0.0351 0.0429 0.0515 0.0609 0.0709 0.0815 0.0924 0.1034 0.1144 0.1251 0.1354 0.1450 0.1537 0.1614 0.1678 12
9 0.0053 0.0074 0.0100 0.0132 0.0171 0.0217 0.0271 0.0332 0.0402 0.0479 0.0563 0.0654 0.0750 0.0849 0.0952 0.1056 0.1158 0.1259 11
10 0.0014 0.0020 0.0029 0.0041 0.0056 0.0075 0.0099 0.0128 0.0163 0.0205 0.0253 0.0308 0.0370 0.0440 0.0516 0.0598 0.0686 0.0779 10
11 0.0003 0.0005 0.0007 0.0010 0.0015 0.0022 0.0030 0.0041 0.0055 0.0072 0.0094 0.0120 0.0151 0.0188 0.0231 0.0280 0.0336 0.0398 9
12 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0021 0.0029 0.0039 0.0051 0.0066 0.0085 0.0108 0.0136 0.01f8 8
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0007 0.0010 0.0014 0.0019 0.0026 0.0034 0.0045 0.0058 7
14 - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009 0.0012 0.0016 6
15 - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 5
16 - - - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 4
17 - - - - - - - - - - - - - - 0.0000 3
18 - - - - - - - - 2
-
-- -
-- - - - - -
--
19 - - - - - - - - - - - - - - - - 1
20 - - - - - - - - o 20
-- - - -
- -
--
- - -
n X 0.81 0.80 0.79 0.78 0.77 0.76 0.75 0.74 0.73 0.72 0.71 0.70 0.69 0.68 0.67 0.66 0.65 0.64 X n
p

)>
"a ·:.~;·

fD.,
:::s
A
ñ
CD
m

¡¡;l
c:r
¡;;-
"'

1
..,m
~
1
..,.,."'

,,>
CD>
:s
A
ft
111

"'
¡;l
CT
~

TABLA E.7 (continuación)

p
n X 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 X n
;¿u
u U.uuu1 U.uuu1 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 20
1 0.0011 0.0009 0.0007 0.0005 0.0004 0.0003 0.0002 0.0001 0.0001 0.0001 0.0001 0.0000 0.0000 0.0000 19
2 0.0064 0.0050 0.0040 0.0031 0.0024 0.0018 0.0014 0.0011 0.0008 0.0006 0.0005 0.0003 0.0002 0.0002 18
3 0.0224 0.0185 0.0152 0.0123 0.0100 0.0080 0.0064 0.0051 0.0040 0.0031 0.0024 0.0019 0.0014 0.0011 17
4 0.0559 0.0482 0.0412 0.0350 0.0295 0.0247 0.0206 0.0170 0.0139 0.0113 0.0092 0.0074 0.0059 0.0046 16
5 0.1051 0.0945 0.0843 0.0746 0.0656 0.0573 0.0496 0.0427 0.0365 0.0309 0.0260 0.0217 0.0180 0.0148 15
6 0.1543 0.1447 0.1347 0.1244 0.1140 0.1037 0.0936 0.0839 0.0746 0.0658 0.0577 0.0501 0.0432 0.0370 14
7 0.1812 0.1774 0.1722 0.1659 0.1585 0.1502 0.1413 0.1318 0.1221 0.1122 0.1023 0.0925 0.0830 0.0739 13
8 0.1730 0.1767 0.1790 0.1797 0.1790 0.1768 0.1732 0.1683 0.1623 0.1553 0.1474 0.1388 0.1296 0.1201 12
9 0.1354 0.1444 0.1526 0.1597 0.1658 0.1707 0.1742 0.1763 0.1771 0.1763 0.1742 0.1708 0.1661 0.1602 11
10 0.0875 0.0974 0.1073 0.1171 0.1268 0.1359 0.1446 0.1524 0.1593 0.1652 0.1700 0.1734 0.1755 0.1762 10
11 0.0467 0.0542 0.0624 0.0710 0.0801 0.0895 0.0991 0.1089 0.1185 0.1280 0.1370 0.1455 0.1533 0.1602 9
12 0.0206 0.0249 0.0299 0.0355 0.0417 0.0486 0.0561 0.0642 0.0727 0.0818 0.0911 0.1007 0.1105 0.1201 8
13 0.0074 0.0094 0.0118 0.0146 0.0178 0.0217 0.0260 0.0310 0.0366 0.0429 0.0497 0.0572 0.0653 0.0739 7
14 0.0022 0.0029 0.0038 0.0049 0.0062 0.0078 0.0098 0.0122 0.0150 0.0183 0.0221 0.0264 0.0314 0.0370 6
15 0.0005 0.0007 0.0010 0.0013 0.0017 0.0023 0.0030 0.0038 0.0049 0.0062 0.0078 0.0098 0.0121 0.0148 5
16 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 0.0013 0.0017 0.0022 0.0028 0.0036 0.0046 4
17 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0006 0.0008 0.0011 3
18 - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 2
19 - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 1
20 - - - - - - - - - - - - - - o 20
n X 0.63 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.50 X n
p
TABLA E.8 Valores críticos de la prueba Fm.vc de Hartley
S~ayor
[Foo = S~enor _, l moxl-o:(c,v)

• Puntos 5% superior (a = 0.05)

2 3 4 5 6 7 8 9 10 11 12

2 39.0 87.5 142 202 266 333 403 475 550 626 704
3 15.4 27.8 39.2 50.7 62.0 72.9 83.5 93.9 104 114 124
4 9.60 15.5 20.6 25.2 29.5 33.6 37.5 41.1 44.6 48.0 51.4
5 7.15 10.8 13.7 16.3 18.7 20.8 22.9 24.7 26.5 28.2 29.9
6 5.82 8.38 10.4 12.1 13.7 15.0 16.3 17.5 18.6 19.7 20.7
7 4.99 6.94 8.44 9.70 10.8 11.8 12.7 13.5 14.3 15.1 15.8
8 4.43 6.00 7.18 8.12 9.03 9.78 10.5 11.1 11.7 12.2 12.7
9 4.03 5.34 6.31 7.11 7.80 8.41 8.95 9.45 9.91 10.3 10.7
10 3.72 4.85 5.67 6.34 6.92 7.42 7.87 8.28 8.66 9.01 9.34
12 3.28 4.16 4.79 5.30 5.72 6.09 6.42 6.72 7.00 7.25 7.48
15 2.86 3.54 4.01 4.37 4.68 4.95 5.19 5.40 5.59 5.77 5.93
20 2.46 2.95 3.29 3.54 3.76 3.94 4.10 4.24 4.37 4.49 4.59
30 2.07 2.40 2.61 2.78 2.91 3.02 3.12 3.21 3.29 3.36 3.39
60 1.67 1.85 1.96 2.04 2.11 2.17 2.22 2.26 2.30 2.33 2.36
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
"'
Puntos I % superior (a = O.O I)

2 3 4 5 6 7 8 9 10 11 12

2 199 448 729 1036 1362 1705 2063 2432 2813 3204 3605
3 47.5 85 120 151 184 21(6) 24(9) 28(1) 31(0) 33(7) 36(1)
4 23.2 37 49 59 69 79 89 97 106 113 120
5 14.9 22 28 33 38 42 46 50 54 57 60
6 11.1 15.5 19.1 22 25 27 30 32 34 36 37
7 8.89 12.1 14.5 16.5 18.4 20 22 23 24 26 27
8 7.50 9.9 11.7 13.2 14.5 15.8 16.9 17.9 18.9 19.8 21
9 6.54 8.5 9.9 11 .1 12.1 13.1 13.9 14.7 15.3 16.0 16.6
10 5.85 7.4 8.6 9.6 10.4 11.1 11.8 12.4 12.9 13.4 13.9
12 4.91 6.1 6.9 7.6 8.2 8.7 9.1 9.5 9.9 10.2 10.6
15 4.07 4.9 5.5 6.0 6.4 6.7 7.1 7.3 7.5 7.8 e.o
20 3.32 3.8 4.3 4.6 4.9 5.1 5.3 5.5 5.6 5.8 5.9
30 2.63 3.0 3.3 3.4 3.6 3.7 3.8 3.9 4.0 4.1 4.2
60 1.96 2.2 2.3 2.4 2.4 2.5 2.5 2.6 2.6 2.7 2.7
1.00 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
"'
S2m1, 0 ,es el más grande y S2m'"º' es el más pequeño en un conjunto de e cuadrados medios independientes,
cada uno basado en v (ni) grados de libertad.
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables for Statisticians, 3a. ed., 1966.
Con lic.encia de The Biometrika Trustees.

Apéndice E Tablas E-26


'1'
.,,
...
J>
"a
ID•
::t
a.
ñ
ID

"'
¡;;!
o-
~

TABLA E.9 Valores críticos inferiores y superiores U para la prueba de aleatoriedad en corridas

Parte 1. Extremo Parte 2. Extremo


inferior (a = 0.025) superior (a = 0.025)

23456789 10 11 12 13 14 15 16 17 18 19 20 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
~• ~.
2 2 2 2 2 2 2 2 2 2 2
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 9 9
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 9 10 10 11 11
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6 6 9 10 11 12 12 13 13 13 13
7 .2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6 7 11 12 13 13 14 14 14 14 15 15 15
8 2333445 5 5 6 6 6 6 6 7 7 7 7 8 11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8 9 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9 10 13 14 15 16 16 17 17 18 18 18 19 19 20 20
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9 11 13 14 15 16 17 17 18 19 19 19 20 ~~ 20 21 21
12 22344566 7 7 7 8 8 8 9 9 9 10 10 12 13 14 16 16 17 w 19 19 20 20 21 21 21 22 22
13 22345566 7 7 8 8 9 9 9 10 10 10 10 13 15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11 14 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12 15 15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12 16 17 18 19 20 21 21 22 23 23 24 25 25 25
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13 17 17 18 19 20 21 22 23 23 24 25 25 26 26
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13 18 17 18 19 20 21 22 23 24 25 25 26 26 27
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13 19 17 18 20 21 22 23 23 24 25 26 26 27 27
20 2 3 4 5 6 6 7 B 9 9 10 10 11 12 12 13 13 13 14 20 17 18 20 21 22 23 24 25 25 26 27 27 28

Fuente: Adaptado de F. S. Swed y C. Eisenhart, Ann. Math. Statist., vol. 14, 1943, pp. 83-86.
TABLA E. I O Valores críticos inferiores y superiores W de la prueba de rangos
con signo de Wilcoxon

De un extremo: a= .05 a= .025 a= .01 a= .005


n De dos extremos a = . 1O a =.05 a= .02 a= .01
(Inferior, Superior)

5
6
0,15
2,19 0,21
-.-
-.- -.-
-.-
7
8
3,25
5,31
2,26
3,33
0,28
1,35
-.-
0,36
9 8,37 5.40 3,42 1,44
10 10.45 8.47 5,50 3,52
11 13,53 10,56 7,59 5,61
12 17,61 13,65 10,68 7,71
13 21,70 17,74 12,79 10,81
14 25,80 21,84 16,89 13,92
15 30,90 25,95 19,101 16,104
16 35,101 29, 107 23,113 19,117
17 41,112 34,119 27,126 23,130
18 47,124 40,131 32,139 27,144
19 53,137 46,144 37,153 32,158
20 60, 150 52,158 43,167 37,173
Fuente: Adaptado de la tabla 2 de F. Wilcoxon y R. A. Wilcoxon, Sorne Rapíd Approxímate Statistical Procedures
(Pearl River, NY: Lederle Laboratories, 1964), con licencia de la American Cyanamid Company.

ApéndiC!! E Tablas E·28


TABLA E.11 Valores critlcos inferiores y superiores T 1 de la prueba de suma de rangos
deWilcoxon

na n,
°'
De un extremo De dos extremos 4 5 6 7 8 9 10

.05 .10 11,25


.025 .05 10,26
4
.01 .02
.005 .01 -.-
.05 .10 12,28 19,36
.025 .05 11.29 17,38
5 .01 .02 10,30 16,39
.005 .01 -.- 15.40

.05 .10 13,31 20.40 28,50


.025 .05 12,32 18.42 26,52
6 .02 11,33 17,43 24,54
.01
.006 .01 10,34 16,44 23,55

.05 .10 14,34 21,44 29,55 39,66


.026 .05 13,35 20.45 27,57 36,69
7 11,37
.01 .02 18,47 25,59 34,71
.005 .01 10,38 16.49 24,60 32,73

.05 .10 15,37 23.47 31,59 41,71 51,85


.025 .05 14,38 21.49 29,61 38,74 49,87
8 12,40 27,63
.01 .02 19,51 35,77 45,91
.005 .01 11,41 17,53 25,65 34,78 43,93

.05 .10 16,40 24,51 33,63 43,76 54,90 66,105


.025 .05 14,42 22,53 31,65 40,79 51,93 62,109
9 .01 37,82
.02 13.43 20,55 28,68 47,97 59,112
.005 .01 11,45 18,57 26,70 35,84 45,99 56,115
·'
,\
.05 .10 17.43 26,54 35,67 45,81 56,96 69,111 82,128
.025 .05 15.45 23,57 32,70 42,84 53,99 65,115 78,132
10 \
.01 .02 13.47 21,59 29,73 39,87 49,103 61,119 74,136
.005 .01 12,48 19,61 27,75 37.89 47,105 58,122 71, 139

Fuente: Adaptado de F. Wilcoxon y R. A. Wilcoxon, Sorne Rapid Approximate Statistical Procedures (Pearl River,
NY: Lederie Laboratories, 1964), con licencia de la American Cyanamid Company.

E-29 Apéndice E Tablas


TABLA E. 11 Valores críticosª del alcance Q estudentizado
Puntos 5% superior (a = 0.05)

,, 2 3 4 6 7 8 10 11 12 13 14 IS 16 17
s 9 18 19 20
"
1 18.0 27.0 32.8 37.1 40.4 43.t 4S.4 47.4 49.1 S0.6 52.0 53.2 S4.3 SS.4 56.3 .57.2 .58.0 58.8 59.6
2 6.09 8.3 9.8 10.9 11.7 12.4 13.0 13.S 14.0 14.4 14.7 15.1 IS.4 15.7 IS.9 16.1 16.4 16.6 16.8
3 4.50 5.91 6.82 7.50 8.04 8.48 8.85 9.18 9.46 9.72 9.95 10.15 10.35 10.52 10.69 10.84 10.98 11.11 11.24
4 3.93 5.04 S.76 6.29 6.71 1.0S 7.35 7.60 7.83 8.03 8.21 8.37 8.52 8.66 8.79 8.91 9.03 9.13 9.23
s 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.17 7.32 7.47 7.60 7.72 7.83 7.93 8.03 8.12 8:21
6 3.46 4.34 4.90 5.31 5.63 5.a9 6.12 6.32 6.49 6.65 6.79 6.92 7.03 7.14 7.24 7.34 7.43 7.51 7.59
7 3.34 4.16 4.68 5.06 5.36 5.61 S.82 6.00 6.16 ·6.30 6.43 6.55 6.66 6.76 6.8S 6.94 7.02 7.09 7.17
8 3.26 4.04 4.SJ 4.89 5.17 S.40 S.60 5.77 S.92 6.05 6.18 6.29 6.39 6.48 6.57 6.65 6.73 6.80 6.87
9 3.20 3.95 4.42 4.76 S.02 5.24 5.43 S.60 S.74 S.87 5.98 6.09 6.19 6.28 6.36 6.44 6.SI 6. .58 6.64
10 3.IS 3.88 4.33 4.6.5 4.91 s.12 5.30 5.46 5.60 5.72 5.83 5.93 6.03 6.11 6.20 6.27 6.34 6.40 6.47
11 3.11 3.82 4.26 4.57 4.82 5.03 S.20 5.35 S.49 S.61 5.71 5.81 5.90 5.99 6.06 6.14 6.20 6.26 6.33
12 3.08 3.77 4.20 4.51 4.75 4.95 S.12 S.27 S.40 5.51 S.62 5.71 5.80 S.88 S.95 6.03 6.09 6.1s 6.21
13 3.06 3.73 4.IS 4.4.5 4.69 4.88 5.05 S.19 5.32 5.43 5.53 5.63 5.71 5.79 S.86 S.93 6.00 6.0S 6.11
14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 S.13 S.2S 5.36 S.46 5.'5 5.64 5.72 S.19 5.8.5 5.92 S.91 6.03
IS 3.01 3.67 4.08 4.37 4.60 4.78 4.94 5.08 5.20 5.31 S.40 S.49 S.58 S.6S 5.12 5.79 S.8S S.90 S.96
16 3.00 3.65 4.0.5 4.33 4 ..56 4.74 4.90 S.03 . 5.IS 5.26 5.35 5.44 5.52 S.S9 S.66 5.72 5.19 5.84 5.90
17 2.98 3.63 4.02 4.30 4.S2 4.71 4.86 4.99 s.11 S.21 S.31 S.39 5.47 s.ss 5.61 S.68 S.74 S.79 5.84
18 2.97 3.61 4.00 4.28 4.49 4.67 4.82 4.96 5.07 5.17 5.27 S.35 S.43 s.so S.57 5.63 5.69 5.74 S.79
19 2.96 3.59 3.98 4.25 4.47 4.6S 4.79 4.92 S.04 5.14 S.23 5.32 S.39 S.46 S.53 5.59 5.65 S.70 5.75
20 2.95 3.58 3.96 4.23 4.4.5 4.62 4.77 4.90 S.01 5.11 S.20 5.28 5.36 5.43 5.49 5.55 5.61 5.66 5.71
24 2.92 3.S3 3.90 4.17 4.37 4.54 4.68 4.81 4.92 5.01 5.10 5.18 5.2S 5.32 S.38 5.44 S.50 5. .54 5.59
30 2.89 3.49 3.84 4.10 4.30 4.46 4.60 4.72 4.83 4.92 S.00 S.08 S.-15 5.21 S.27 5.33 S.38 S.43 5.48
40 2.86 3.44 3.79 4.04 4.23 4.39 4.52 4.63 4.74 4.82 4.91 4.98 5.0S 5.11 S.16 5.22 5.27 5.31 5.36
60 2.83 3.40 3.74 3.98 4.16 4.31 4.44 4.55 4.65 4.73 4.81 4.88 4.94 5.00 5.06 S.11 5.16 S.20 5.24
120 2.80 3.36 3.69 3.92 4.10 4.24 4.36 4.48 4.56 4.64 4.72 4.78 4.84 4.90 4.95 5.00 S.05 S.09 5.13
00 2.77 3.31 3.63 3.86 4.03 4.17 4.29 4.39 4.47 4.55 4.62 4.68 4.74 4.80 4.85 4.89 4.93 4.97 5.01

l>
"a
111•
:::1
A.
ft
•111

~
u-
=
1

·w

111
1
w
-
)>
'V
ID'I
:::11
A
ft
ID
111

¡;;t
~
¡;-
"'
TABLA E. 12 (continuación)
Puntos I % superior (a =O.O I)
., 2 3 4 s 6 7 8 9 10 11 12 13 14 u 16 17 18 19 20
"
1 90.0 135 164 186 202 216 227 237 246 253 260 266 272 277 282 286 290 294 2911
2 14.0 19.0 22.3 2A.1 26.6 28.2 29.5 30.7 31.7 32.6 33.• 34.1 34.8 35.4 36.0 36.5 37.0 37.5 37.9
3 8.26 10.6 12.2 13.3 l•.2 15.0 U.6 16.2 16.7 17.1 17.S 17.9 18.2 18.5 18.8 19.1 19.3 19.5 19.8
4 6.51 8.12 9.17 9.96 10.6 11.1 l.., 11.9 12.3 12.6 12.8 13.1 13.3 13.5 13.7 13.9 14.1 14.2 14.4
5 S.70 6.97 7.80 8.42 8.91 9.32 9.67 9.97 10.24 l0.48 10.70 10.89 11.08 11.24 11.40 11.55 11.68 11.81 11.93
6 5.24 6.33 7.03 7.56 1.91 8.12 8.61 1.17 9.10 9.30 9.49 9.65 9.11 9.95 10.08 10.21 10.32 10.43 10.54
7 4.95 5.92 6.54 7.01 7.37 7.68 7.94 8.17 8.37 8.55 8.71 8.86 9.00 9.12 9.24 9.35 9.46 9.55 9.65
8 4.74 5.63 6.20 6.63 6.96 7.24 7.47 7.68 7.87 8.03 8.18 8.31 U4 8.SS 8.66 8.76 8.8S 8.94 9.03
9 4.60 MJ S.96 6.35 6.66 6.91 7.13 7.32 7.49 7.6S 7.78 7.91 8.03 8.13 8.23 8.32 8.41 8.49 8.$7
10 4.48 S.27 S.77 6.14 6.43 6.67 6.17 7.05 7.21 7.36 7.48 7.60 7.71 7.81 7.91 7.99 8.07 8.15 8.22
ll 4.39 S.14 5.62 5.97 6.25 6.48 6.67 6.84 6.99 7.13 7.25 7.36 7.46 7.56 7.65 7.73 7.81 7.88 7.95
12 4.32 5.04 5.SO 5.84 6.10 6.32 6.51 6.67 6.81 6.94 7.06 7.17 7.26 7.36 7.44 7.S2 7.59 7.66 7.73
13 4.26 4.96 5.40 5.73 5.98 6.19 6.37 6.53 6.67 6.79 6.90 7.01 7.10 7.19 7.27 7.34 7.42 7.48 7.55
l• 4.21 4.89 5.32 5.63 S.8& 6.08 6.26 6.41 6.54 6.66 6.77 6.87 6.96 7.05 7.12 7.20 7.27 7.33 7.39
u 4.17 4.83 S.2S 5.56 5.80 S.99 6.16 6.31 6.44 6.S5 6.66 6.76 6.84 6.93 7.00 7.07 7.14 7.20 7.26
16 4.13 4.78 5.19 S.49 5.72 5.92 6.08 6.22 6.35 6.46 6.56 6.66 6.74 6.82 6.90 6.97 7.03 7.09 7.IS
17 4.10 4.74 s.1• s.•3 5.66 S.8S 6.01 6.IS 6.27 6.38 6.48 6.57 6.66 6.73 6.80 6.87 6.94 7.00 7.0S
18 4.07 4.70 5.09 5.38 5.60 5.79 S.94 6.08 6.20 6.31 6.41 6.50 6.58 6.65 6.72 6.79 6.8' 6.91 6.96
19 4.0S 4.67 S.05 5.33 S.5S S.73 S.89 6.02 6.14 6.2S 6.34 6.43 6.Sl 6.S8 6.~ 6.72 6.78 6.84 6.89
20 4.02 •.64 5.02 S..29 5.51 5.69 S.84 S.97 6.09 6.19 6.29 6.37 6.4S 6.S2 6.59 6.6S 6.71 6.76 6.82
24 3.96 4.5'4 ••91 S.17 5.37 s.s. S.69 HI S.92 6.02 6.11 6.19 6.26 6.33 6.39 6.45 6.51 6.56 6.61
30 3.89 4.45 4.80 5.05 S.24 5.40 5.54 5.65 S.76 S.8S 5.93 6.01 6.08 6.14 6.20 6.26 6.31 6.36 6.41
40 3.82 4.37 4.70 4.93 5.11 5.27 5.39 s.so S.60 5.69 S.77 S.84 5.90 5.96 6.02 6.07 6.12 6.17 6.21
60 3.76 4.28 4.60 •.12 4.99 5.13 5.25 5.36 5.45 S.53 S.60 5.67 S.73 S.19 S.84 5.89 S.93 S.98 6.02
120 3.70 4.20 4.SO 4.71 4.87 S.01 S.12 S.21 S.30 S.38 S.44 S.SI S.S6 S.61 S.66 S.11 s.1s S.79 S.83
3.64 4.12 4.40 4.60 4.76 4.8& 4.99 S.08 S.16 S.23 S.29 S.35 5.40 S.45 S.49 S.54 5.57 5.61 5.6'

ªAlcance/Sy- (súnbolo "parecido a") Q1_a;o;v. r¡ es el tamaño de la muestra de la cual se obtiene el alcance, y ves el número de grados de libertad de Sv.
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables for Statisticians, vol. 1, 3a. ed., 1966. Con licencia de The Biometrika Trustees, Londres.
TABLA E. 1 3 Factores de diagrama de control
Número de observaciones
en la muestra dz d3 D3 D4 Az E2
2 1.128 0.853 o 3.267 1.880 2.659
3 1.693 0.888 o 2.575 1.023 1.772
4 2.059 0.880 o 2.282 0.729 1.457
5 2.326 0.864 o 2.114 0.577 1.290
6 2.534 0.848 o 2.004 0.483 1.184
7 2.704 0.833 0.076 1.924 0.419 1.109
8 2.847 0.820 0.136 1.864 0.373 1.054
9 2.970 0.808 0.184 1.816 0.337 1.010
10 3.078 0.797 0.223 1.777 0.308 0.975
11 3.173 0.787 0.256 1.744 0.285 0.946
12 3.258 0.778 0.283 1.717 0.266 0.921
13 3.336 0.770 0.307 1.693 0.249 0.899
14 3.407 0.763 0.328 1.672 0.235 0.881
15 3.472 0.756 0.347 1.653 0.223 0.864
16 3.532 0.750 0.363 1.637 0.212 0.849
17 3.588 0.744 0.378 1.622 0.203 0.836
18 3.640 0.739 0.391 1.609 0.194 0.824
19 3.689 0.733 0.404 1.596 0.187 0.813
20 3.735 0.729 0.415 1.585 0.180 0.803
21 3.778 0.724 0.425 1.575 0.173 0.794
22 3.819 0.720 0.435 1.565 0.167 0.785
23 3.858 0.716 0.443 1.557 0.162 0.778
24 3.895 0.712 0.452 1.548 0.157 0.770
25 3.931 0.708 0.459 1.541 0.153 0.763
Fuente: Reimpreso de ASTM-STP 15D con licencia de la American Soclety for Testing and Materlals.

Apéndice E Tablas E·32


1 TABLA E.14 Valores críticos dL- y dude
-
la estadística D de Durbin-Watson (Los valores críticos son de un lado)"
'"
"""" a= .OS ex = .01
P=l P=2 P=3 P=4 P=S P=l P=2 P=3 P=4 P=S
~CD• n dL du dL du dL du dL du dL du dL du dL du dL du dL du dL du
:::11 1.08 1.36 .95 1.54 .82 1.75 .69 1.97 .56 2.21 .81 1.07 .70 1.25 .59 1.46 .49 1.70 .39 1.96
A. 15
16 1.10 1.37 .98 1.54 .86 1.73 .74 1.93 .62 2.15 .84 1.09 .74 1.25 .63 1.44 .53 1.66 .44 1.90
ñ .87 1.10 .77 1.25 .67 1.43 .57 1.63 .48 1.85
CD 17 1.13 1.38 1.02 1.54 .90 1.71 .78 1.90 .67 2.10
18 1.16 1.39 1.05 1.53 .93 1.69 .82 1.87 .71 2.06 .90 1.12 .80 1.26 .71 1.42 .61 1.60 .52 1.80
'" 19 1.18 1.40 1.08 1.53 .97 ·1.68 .86 1.85 .75 2.02 .93 1.13 .83 1.26 .74 1.41 .65 1.58 .56 1.77
20 1.20 1.41 1.10 1.54 1.00 1.68 .90 1.83 .79 1.99 .95 1.15 .86 1.27 .77 1.41 .68 1.57 .60 1.74
p;I 21 1.22 1.42 1.13 1.54 1.03 1.67 .93 1.81 .83 1.96 .97 1.16 .89 1.27 .80 1.41 .72 1.55 .63 1.71
CT
[ 22 1.24 1.43 1.15 1.54 1.05 1.66 .96 1.80 .86 1.94 1.00 1.17 .91 1.28 .83 1.40 .75 1.54 .66 1.69
23 1.26 1.44 1.17 1.54 1.08 1.66 .99 1.79 .90 1.92 1.02 1.19 .94 1.29 .86 1.40 .77 1.53 .70 1.67
24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 .93 1.90 1.04 1.20 .96 1.30 .88 1.41 .80 1.53 .72 1.66
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 .95 1.89 1.05 1.21 .98 1.30 .90 1.41 .83 1.52 .75 1.65
26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 .98 1.88 1.07 1.22 1.00 1.31 .93 1.41 .85 1.52 .78 1.64
27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86 1.09 1.23 1.02 1.32 .95 1.41 .88 1.51 .81 1.63
28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85 1.10 1.24 1.04 1.32 .97 1.41 .90 1.51 .83 1.62
29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84 1.12 1.25 1.05 1.33 .99 1.42 .92 1.51 .85 1.61
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83 1.13 1.26 1.07 1.34 1.01 1.42 .94 1.51 .88 1.61

31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83 1.15 1.27 1.08 1.34 1.02 1.42 .96 1.51 .90 1.60
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82 1.16 1.28 1.10 1.35 1.04 1.43 .98 1.51 .92 1.60
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81 1.17 1.29 1.11 1.36 1.05 1.43 1.00 1.51 .94 1.59
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81 1.18 1.30 1.13 1.36 1.07 1.43 1.01 1.51 .95 1.59
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80 1.19 1.31 1.14 1.37 1.08 1.44 1.03 1.51 .97 1.59
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80 1.21 1.32 1.15 1.38 1.10 1.44 1.04 1.51 .99 1.59
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80 1.22 1.32 1.16 1.38 1.11 1.45 1.06 1.51 1.00 1.59
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79 1.23 1.33 1.18 1.39 1.12 1.45 1.07 1.52 1.02 1.58
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79 1.24 1.34 1.19 1.39 1.14 1.45 1.09 1.52 1.03 1.58
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79 1.25 1.34 1.20 1.40 1.15 1.46 1.10 1.52 1.05 1.58
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78 1.29 1.38 1.24 1.42 1.20 1.48 1.16 1.53 1.11 1.58
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77 1.32 1.40 1.28 1.45 1.24 1.49 1.20 1.54 1.16 1.59
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77 1.36 1.43 1.32 1.47 1.28 1.51 1.25 1.55 1.21 1.59
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77 1.38 1.45 1.35 1.48 1.32 1.52 1.28 1.56 1.25 1.60
65 1.57 1.63 1.54 1.66 1.50 l. 70 1.47 1.73 1.44 1.77 1.41 1.47 1.38 1.50 1.35 1.53 1.31 1.57 1.28 1.61
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77 1.43 1.49 1.40 1.52 1.37 1.55 1.34 1.58 1.31 1.61
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77 1.45 1.50 1.42 1.53 1.39 1.56 1.37 1.59 1.34 1.62
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77 1.47 1.52 1.44 1.54 1.42 1.57 1.39 1.60 1.36 1.62
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77 1.48 1.53 1.46 1.55 1.43 1.58 1.41 1.60 1.39 1.63
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65
'n = número de observaciones; P = número de variables independientes.
Fuente: Esta tabla es reproducida de Biometrika, vol. 41 (1951), pp. 175, con licencia de The Biometrika Trustees.
Índice

A ANOVA de dos direcciones) Censo, 2


modelo de diseño factorial de dos Chebishev (véase Regla de Bienaymé-
o: (alfa), probabilidad de un error del factores (véase ANOVA de dos Chebyshev)
tipo l, 388 direcciones) Chi-cuadrada (X 2)
o: (nivel de significación), 388 modelos: fijo, aleatorio y mixto, tabla de contingencias, 616, 618
a posteriori, análisis, 53 7 S88 grados de libertad, 440, 619
a priori, probabilidad clásica, 204 niveles, 577 distribución, 438, 619
Administración niveles de tratamiento, SS8, 586 relación con la distribución nor-
por acción, 661 procedimiento de Tukey, 566 mal estandarizada, 622-623
por control, 661 procedimiento de Tuke-Kramer, tabla de, E-7
por dirección, 661 S37 Clases
por proceso, 661 prueba F de bloque aleatorizado, número de agrupamientos, 63
Administración para la calidad total S62 subjetividad en la selección, 65
(TQM), 4, 661 prueba F de efecto de bloque, S66 Clasificación ordenada, SS
Agrupamientos de clase (categorías), prueba F de una dirección, S27 Cociente de posibilidades, 837, 838
62 SSA, 530 Cociente de promedios móviles, 908
Ajustador, 731, 791, 812 SST, S29 Coeficiente de confianza (1-a), :ns
Ajuste de tendencia de mínimos cua- ssw, 530 Coeficiente de correlación, 732
drados, 871, 904 prueba F para interacción, 581 fórmula computacional, 733
para modelos cuadráticos, 874 prueba F máx de Hartley, S40 prueba de significación para, 7S3
para modelos exponenciales, 876 pruebas F para los factores A y B, Coeficiente de determinación, 731
para modelos lineales, 872 580-581 determinación múltiple, 790
Alcance, 118 tabla ANOVA, S32, S63, S82 determinación parcial, 80S
Alcance crítico, 537, 549, 566, 574, tablas F, E-8-E-11 Coeficiente de regresión neta, 784
587 Análisis de varianza de un factor, S27 Coeficiente de variación, 124
Alcance intercuartil, 119 Análisis exploratorio de datos, 128 Colectivamente exhaustivo, 213,
Alcance medio, 111 Análisis objetivo, lOS 216-217
Alcance móvil, 701 Análisis residual, 737, 742, 792, 897 Combinaciones, 231
Alcance relevante, 725 Análisis subjetivo, 105 Comparaciones múltiples
Aleatoriedad, 442, 539 Ancho de intervalo de clase, 63 procedimiento de Dunn, 549
Aleatorización, 412 ANOVA de dos direcciones, 577 procedimiento de Marascuilo, 628
Alfabeto griego, C-1 ANOVA de una dirección, 527 procedimiento de Nemenyi, 574
Análisis de correlación, 714 Árboles de decisión, 219 procedimiento de Tukey, 566, 586
Análisis de datos, 104-106, 296 Área de oportunidad, 687 Procedimiento de Tukey-Kramer,
Análisis de influencia, 755, 825 Asociación, intensidad de, 713, 732 S37
Análisis de varianza (ANOVA), 527 Autocorrelación, 742 Complemento, 207
ANOVA de dos direcciones, 577 prueba de Durbin-Watson, 744-74S Componente cíclica, 860
ANOVA de una dirección, 527 Componente de tendencia, 8S9
bloques, 559 B Componente estacional, 860, 903
eficiencia relativa, 567 Componente irregular, 860
factor (de tratamiento), 526-527 13 (beta), probabilidad de error del Componentes de una serie de tiem-
factores, 577 tipo Il, 388 po, 859-860
grados de libertad, 530 13¡ (beta), coeficientes de regresión, Conexión entre intervalos de
interacción, 585-586 intervalo de confianza para, 7S2- confianza y prueba de hipóte-
medidas de variación 7S3, 803 sis, 396
SSAB, S79 prueba para, 7Sl, 801 Conjunto nulo, 216
SSE, S79 "Basura de diagrama", 88, 156, 189 Consistencia, 323
SSFA, 578 Bloqueo, 559, 566 Construcción de modelos, 828
SSFB, 579 frecuencia relativa del, 567 Contribución de las variables
SST, S78 prueba para, S62 independientes, 796-803
modelo de diseño completamente Bloques, 5S8-5S9 prueba para la, 799-801
aleatorizado (véase, ANOVA de Contribución del efecto curvilineal,
una dirección) e 812
modelo de diseño de bloque Control estadístico de procesos y de
aleatorizado, S58 Calidad, 660 la calidad del producto, 4-6,
medidas de variación Cantiles, 168, 296 660-664
SSA, S60 Causas asignables de variación Corrección de continuidad, 305
SSBL, S60 (véanse Causas especiales) Corridas, 443
SSE, S61 Causas comunes de la variación, 662 Criterio de prueba F parcial, 797
SST, S60 Causas especiales de variación, 662 Cuadrado medio
modelo de diseño factorial (véase Celda, 180, 208, 518 MSA (entre), S30, 561

Índice 1-1
MSAB, 580 para una secuencia de valores indi- media, 257
MSBL, 561 viduales (diagrama de corri- - parámetros, 254
MSE, 561, 580 da), 701-705 propiedades, 252
MSFA, 580 tabla de factores, E-32 tabla de la, E-17 - E-25
MSFB, 580 teoría de, 662 Distribución de frecuencias, 62
MSR, 795 Diagrama de dispersión, 715 establecimiento de los límites de la
MST, 530 Diagrama de esqueleto de pescado clase, 64
MSW (dentro), 530 (Ishikawa), 665 obtención de Jos intervalos de
Cuantiles normales estándar, 296-297 Diagrama de pastel, 172-173 clase, 63
Cuartiles, 112 Diagrama de tallo y hojas, 55 selección del número de clases, 63
Cuestionario Diagrama de tallo y hojas revisado, 57 subjetividad en la selección de las
diseño de, 20 Diagrama de Venn, 208 clases, 65
longitud de, 21 Diagrama np, 678 Distribución de frecuencias relativas,
modo de respuesta, 21 Diagrama p, 674 67-68
prueba (piloto), 22 Diagrama R, 693 Distribución de muestreo, 320
redacción, 21 Diagrama X, 701 de la media, 320-332
Cuestiones éticas, 45, 92, 159, 191, Diagrama X, 692 de la porción, :n4-336
232, 374, 412, 455, 518,593, Diagramas para poblaciones no normales, 329
650, 769,845 para datos categóricos para poblaciones normales, 324
Curioseo de datos, 413 gráfica de barras, 171-172 Distribución de muestreo de la
Curva de potencia, 405 gráfica de Pareto, 17 6-1 77 estadística de prueba, 320,
Curva menor que (véase Ojiva) gráfica de pastel, 1 72-173 334, 391,425,437, 489
gráfica de puntos, 172-17:{ Distribución de muestreo repetido,
D para datos numéricos 356
diagrama de dispersión, 715 Distribución de porcentaje acumulati-
Datos agrupados, 141 gráfica de caja y sesgos, 128-129 vo, 74
Datos categóricos, 15, 170, 606 gráfica digi punto, 78-81 Distribución de porcentajes, 67-68
Datos censurados, 414 histograma, 70 Distribución de probabilidad unifor-
Datos continuos, 15 ojiva (polígono acumulativo), me, 252
Datos de código, 31 75 Distribución en forma de U, 130, 144
Datos discretos, 15 polígono, 71 Distribución en forma rectangular,
Datos no agrupados, 141 para estudiar un proceso 144, :Bl
Datos numéricos, 12 diagramas de control, 622 Distribución exponencial, :n2
Datos numéricos continuos, 15-16 diagramas de esqueleto de Distribución F, 489, s:~ 1, 795
Datos numéricos discretos, 15 pescado, 665 Distribución F11,.;_,, 540
Datos, 12 diagrama de flujo de proceso, Distribución gaussiana (véase
Datos, agrupados y no agrupados, 141 666 Distribución normal)
Deciles, 168 Diagramas de atributos, 671 Distribución normal, 275
Definición operacional, 18 Diagramas de variables, 692 aplicaciones, 281-290
Deming, W. Edwards, 4, 661, 670 Diferencia media, 504 aproximación a la distribución bi-
Depresión, 860 Dificultades nomial, 306-308
Descomposición de SST, 528, 559, en ANOVA, 592 aproximación a la distribución de
578, 728 en el análisis de regresión, 765- Poisson, 308-310
Desestacionalización, 905-908 769, 844-845 bondad de ajuste, 294
Desviación estándar en el análisis de series temporales, evaluación de las propiedades,
fórmula definitoria, 121 911-912 294-295
fórmula de "calculadora de bolsi- en el análisis y en la inter- expresión matemática de, 277
llo", 123 pretación, importancia de, 275
de una variable aleatoria discreta, 155-159 parámetros de, 277
245 en investigación de encuesta, 41- propiedades de, 275-276
Desviación estándar de muestra (S), 121 45 tabla de, E-4
Diagrama e, 687 en presentación tabular y de dia- uso de la tabla de, 279-281
Diagrama de alcance, 693 gramas, 88-92, 189-191, 844- Distribución t de Student (véase t dis-
Diagrama de barras, 171-172 845 tribución)
Diagrama de causa y efecto (véase en prueba de hipótesis, 411-412, Distribución (Z) normal
Diagrama de esqueleto de 455, 518, 649-650 estandarizada, 278
pescado) Dispersión Distribución uniforme (con forma de
Diagrama de control de valor indivi- (Véanse Medidas de dispersión) rectángulo), 331
dual, 701 Dispersión media, 119 Distribuciones discretas, 251
Diagrama de control, 662 Distribución acumulativa, 74
para el alcance, 693-695 Distribución binomial, 252 E
para el número de presentaciones aproximación de Poisson a, 264
por unidad, 687-689 aproximación normal a, 306 Ecuaciones normales, 722
para Ja media, 695-698 características, 25 7 Ecuaciones simultáneas, 722
para la porcion y para el número desarrollo, 254 Edición de datos, 31
de elementos que no se ajus- desviación estándar, 259 Efecto curvilineal, 807
tan, 674-680 expresión matemática para, 255 Efecto de banda de confianza, 748

1-1 Índice
l·ln·to de tendencia, 443 de la media (µx conocida), 344 Función de densidad de probabilidad
l·kl'lo lineal, 807 de la media (µx desconocida), 349, normal, 274
l·kcto periódico, 443 352 Función de distribución de probabili-
Fkcto sistemático (periódico), 443 de la respuesta media en regresión, dad, 251
l·Jectos de interacción, 586 747,864 Funciones de densidad de probabili-
FJectos de tratamiento, 534 de la pendiente de población, 753, dad continuas, 274
Efectos principales, 586 803
Eficiencia, 323 de la porción, 360 G
Eficiencia relativa (RE), 567 Estimación de mínimo esfuerzo, 356-
Eje medio (midhinge), 112 358 GIGO, 15
Elementos diagonales (h;) de la matriz Estimaciones de intervalo, 344, 346 Gosset, W. S., 3, 350
de sombrero, 739, 756, 826 Estimaciones puntuales, 344 Grados de libertad, 352, 619
Elementos equilibrados o apareados, Estudio observacional, 14 Gráfica de caja y sesgo, 128-129
503 Estudio piloto, 364 Gráfica de dispersión, 532-533, 563-
Encuesta por teléfono, 21 Estudios analíticos, 5 564
Encuesta sobre la Satisfacción de los Estudios enumerativos, 5 Gráfica de probabilidad normal, 296-
Empleados, 25-29, 83-86, Evento, 204 302
150-153, 184-187, 370-373, Evento cierto, 204 Gráfica digipunto, 78-81
449-454, 495-501, 552-557, Evento conjunto, 207 Gran media (véase Media general)
639-643, 759-765, 828-836 Evento sencillo, 206 Gran total, 5 77
Encuestas, 4-5, 41-45, 3 74-3 75 Eventos independiente, 223, 255, Grupo (clase) modal, 146
Encuestas de opinión (véase Encuestas) 632-633 Grupos de tratamiento, 526-527, 558
Entrada de datos, 31 Eventos nulos, 204 Grupos o niveles, 577
Entrevistas personales, 21 Experimento de la cuenta roja, 684-687
Error aleatorio inherente (SSE), 561 Experimento diseñado, 14 H
Error de cobertura, 42 Externos, 105
Error de medición, 44 Extrapolación, 725 Hartley, prueba F111ax de, 540-541
Error de muestreo, 43, 363, 366 tabla de, E-26
Error de no respuesta, 43 F Herramientas de comportamiento, 4
Error del tipo 1, 388 Herramientas de planeación adminis-
Error del tipo 11, 388 Factor, 527 trativa
Error estándar Factor A2 , 696 diagrama de esqueleto de pescado
de una estimación, 726 Factor d 2, 693 (de lshikawa), 665
de la media, 323-324 Factor d 3 , 693 diagrama de flujo de proceso, 666
de la porción, 335 Factor 0 3 , 693 Hipótesis alternativa, 385
del coeficiente de regresión, 751- Factor 0 4, 693 Hipótesis nula, 385
752, 801 Factor de corrección ele población Histograma, 70
Error experimental, 528 finita, 337, :{68 Histograma de frecuencias (véase His-
Error residual, 898 Factor Ev 702 tograma)
Errores de encuesta, 41 Factor inflacionario de varianza Histograma de frecuencias relativas,
Escala de cociente, 17 (VIF), 824 70
Escala de puntos, 107 Factorial, 231 Homogeneidad de porciones, 611,
Escala nominal, 16 Fases del ciclo de negocios, 860-861 616, 618, 624
Escala ordinal, 16 Fisher, R. A., 3, 489 Homogeneidad de varianza (véase
Escalamiento de intervalo, 17 Ford, Henry, 661 Homoscedasticidad)
Escalas de medición Forma, 127, 136 Homoscedasticidad, 489, 539, 737,
intervalo y cociente, 17 Forma sin procesar, 54, 105 739
nominal y ordinal, 16 Fórmula de transformación, 278 Hunter, J. S., 80
Espacio muestra!, 206 Fórmulas de colocación de punto
Esperanza matemática, 243 (para Q,, Mediana, Q1), 113
Estadística, 3 Fórmulas de definición, 120-121
Estadística C/, 835 Frecuencia esperada (fe), 618 Igualdad de porciones, 611, 616, 622,
Estadística de desviación, 840 Frecuencia observada (f,,), 618 624
Estadística de prueba, 391 Frecuencia teórica [véase Frecuencia Igualdad de varianzas, 48'J-490, 539-
Estadística de Wald, 841 esperada (f..)] 541, 737, 739
Estadística descriptiva, 3 Fuente principal, 13 Imparcialidad, 321
Estadística D; de Cook, 757, 827 Fuente secundaria, 13 Independencia, 220, 6:U
Estadística inferencia!, 3 Fuentes de datos Independencia de error, f'i:l9, 737,
Estadística moderna, 2 conducción de una investigación, 740
Estadística, sujeto de la, 2 14, 41 Independencia estadíst Ira, 220-221
Estandarización de la distribución diseño de un experimento, 14 Indicador guía, 859
normal, 278-279 estudio observacional, 14-15 Índice estacional, 90.S
Estimación combinada (p) de porción material publicado, 14 cálculo del, 905
de población común, 612, Fuentes de variación, 528, 559, 578, 728 desestacionalización, '>O.S
624-625 Fuentes publicadas de datos, 13-14 uso de la predicción, '>09
Estimación de intervalo de confianza Función de densidad de probabilidad, Inferencia estadística, :120
para una población finita, 368-369 274 Interacción, 566, 585

Indice 1-J
Interpolación, 725 alcance, 118 aleatorias simple, 23
Interpretación de datos, 104-105 alcance intercuartil (dispersión de agrupación, 23
Interrelación entre t y F, 802-803 media), 119 estratificadas, 23
Interrelación entre Z y x2 , 622-623 coeficiente de variación, 124 sistemáticas, 23
Intersección, 208 desviación estándar, 120 Muestras apareadas (véase Muestras
Intersección (véase Intersección Y) varianza, 120 relacionadas)
Intersección Y, 720-721 Meta-análisis, 414-415 Muestras equilibradas (véase Muestras
Intervalo de confianza, 346 Método de centrado, 807 relacionadas)
Intervalo de predicción para un valor Método de grupo nominal, 4 Muestras relacionadas, 503, 644
futuro individual, 358-359 Método de mínimos cuadrados, 721- Muestreo con y sin sustituciones, 24
Intervalo de predicción para una res- 722, 872 Multicolinealidad, 824
puesta individual, 749, 804 Método de predicción de Holt-Win- Mutuamente excluyentes, 213, 216
Intervalos de clase, 63 ters, 884
Investigación de correo, 21 Metodología de prueba de hipótesis, N
Investigación de encuestas, 14-15 384
Investigación de muestra, 41, 374-375 planteamiento valor p, 394-395, Nemenyi, procedimiento de, 5 74
lshikawa, Kaoru, 661, 665 400 tabla para, E-30 - E31
pasos, 393-394 Nivel de confianza, 347
J Mínimos cuadrados pesados, 737 Nivel de medición, 16
MINITAB (véase Paquetes de compu- Nivel de significación, 388
Juran, Joseph, 4, 661 tación, uso de) Niveles (véanse Grupos)
JUSE, 670 Moda, 111 Notación algebraica, 106, A-2
Modelado autorregresivo, 888 Números aleatorios, tabla de, 25, E-2 -
K Modelo, 251 E-3
Modelo de diseño completamente
Kruskal-Wallis, prueba de rango para aleatorizado [véase Análisis de o
muestras e independientes, varianza (ANOVAJI
545 Modelo de diseño de bloque aleatori- Observaciones restringidas, 16
procedimiento de Dunn, 549 zado (véase Análisis de Ojiva (polígono acumulativo), 75
varianza) Olkin, lngram, 415
L Modelo de diseño factorial, 577 Organización de datos, 54
Modelo de efectos aleatorios, 588
Ladera de potencias, 822 Modelo de efectos fijos, 588 p
Ley de grandes números, 923 Modelo de efectos mezclados, 588
Límite de control inferior (LCL), 663 Modelo de regresión curvilineal, 806 Paquetes de computación
Límite de control superior (UCL), 663 Modelo de regresión lineal múltiple, características comparativas en re-
Límites de clase, 64 782 gresión, 759
Linealidad, 737 Modelo de regresión lineal simple, en ANOVA, 553-557
Lluvia de ideas, 4 719, 721 en estadística descriptiva, 83-87,
Logaritmo del cociente de posibilida- Modelo de regresión logística, 83 7 151-154, 185-187
des, 838 estadística de desviación, 840 en prueba de hipótesis, 449-454,
estadística de Wald, 841 495-501, 640-643
M Modelo de tendencia cuadrática, 874 en regresión, 759-765
Modelo de tendencia exponencial, uso de Microsoft EXCEL para Win-
MAD (desviación absoluta media), 899 876 dows, 186, 553
Marco de población (listado), 5, 24 Modelo (de tendencia) lineal, 872 uso de MINITAB, 87, 151, 357,
Marco [véase Marco de población (lis- Modelo de tiempo multiplicativas 428,
tado)] clásicas, 859-861 435, 451-554, 477-478, 495,
Matriz de correlación, 791-792 Modelo saturado, 840 499, 554, 742-743, 760-764,
Media, 106 Modelos ARIMA, 919 793, 809, 826, 830-834, 845,
Media aritmética (véase Media) Modelos de variable ficticia, 816 873, 875-87~ 893-894, 905
Media de muestra (X), 106 Muestra, 3 uso de SAS, 153, 187, 497, 557,
Media general, 529 Muestra aleatoria simple, 23 641, 759, 785, 798,804
Mediana Muestra de agrupación, 23 uso de SPSS, 84, 154, 186, 497, 642
de datos agrupados, 145-147 Muestra de cuota, 23 uso de STATISTIX, 85-86, 152, 186,
de datos no agrupados, 109 Muestra de juicio, 23 496,498, 555, 760,836,839,
Mediciones repetidas (véase Muestras Muestra de parte grande, 23 844
relacionadas) Muestra de probabilidad, 22-23 Parabólica, 721
Medidas de resumen descriptivas, 106 Muestra estratificada, 23 Parámetro, 3
Medidas de tendencia central, 106 Muestra no probabilística, 22 Pareto, diagrama de, 176-177
alcance medio, 111 Muestra sistemática, 23 Parsimonia, principio de, 829, 897,
eje medio, 112 Muestras 899
media aritmética, 106 no probabilísticas, 23 Pendiente, 720-721
mediana, 109 de parte grande, 23 Pensamiento estadístico, 4
moda, 111 - muestra de cuota, 23 Percentiles, 168
Medidas de variación o de dispersión, muestra de juicio, 23 Permutaciones, 231
118 probabilísticas Pico, 860

1-4 Índice
'" •l>l<1ción1 3 Probabilidad, distribución de, para la porción de población, 606
desviación estándar dt•, 1:u de una variable aleatoria discreta, para la significación de un modelo
finita, 24, 337, :~68 242 de regresión, 794
infinita, 52 Probabilidad empírica clásica, 205 para la varianza de población, 437
media de, 132 Probabilidad estimada de éxito, 838 para las diferencias entre dos
varianza de, 1:n Probabilidad marginal, 211 medias, 463-464, 472-473
Población normal, 324 Probabilidad simple, 211 para las diferencias entre dos
Población objetivo (véase Marco de Probabilidad subjetiva, 205 medianas, 481
población) Problema de Behrens-Fisher, 468, 472 para las diferencias entre dos por-
Poblaciones independientes, 463, Procedimiento de Dunn, 549 ciones, 611, 616
472, 481, 489 Procedimiento de Marascuilo, 628 para las diferencias entre
Poblaciones relacionadas, 503, 644 Procedimientos clásicos (véanse Méto- medianas e, 545, 571
Poisson, distribución de, 260 dos paramétricos) para las diferencias entre medias e,
aproximación a la distribución Procedimientos de muestra e, 527, 624 527, 529
binomial, 264 Procedimientos de predicción de para las diferencias entre por-
aproximación normal a, 308 control adaptable, 903 ciones e, 624
características, 264 Procedimientos de prueba libres de para muestras relacionadas, 504,
desviación estándar, 262 distribución, 423 511, 644
expresión matemática de, 261 desventajas de los, 424 para porciones del modelo de
media, 262 ventajas de los, 423 regresión múltiple, 796, 801
tabla de, E-13 - E-16 Procedimientos de prueba no pa- para un coeficiente de regresión
Polígono de frecuencias relativas, 71 ramétricos, 423 en regresión múltiple, 796,
Polígono de porcentaje acumulativo, desventaja de, 423 801
75 ventajas de, 423 Prueba de McNemar, 644
Polígono de porcentajes, 71 Procedimientos de prueba paramétri- Prueba de rango de Friedman para
Polígonos, 71 cos, 422-423 muestras e relacionadas, 5 71
Polinomial, 807 Proceso, 664 procedimiento de Nemenyi, 574
Porción de éxitos, 334 Proceso de Poisson, 261 Prueba de significación (véase Prueba
Porción de muestra (p), :B4, 606 Proceso, diagrama de flujo de, 666 de hipótesis)
Porción de población p, 607 Promedio, 106 Prueba exacta de Fisher, 622
Potencia de una prueba estadística Promedio móvil pesado, 908 Prueba F
(1-~), 389, 401-407 Promedios móviles, 862-866 para efectos de bloqueo, 562
determinación del tamaño de Propiedad de mínimos cuadrados, para efectos de interacción, 581
muestra basado en errores a y 722 para la contribución de una
~/ 408-410 Propiedades de la media, 320-323 variable predictor, 799
efecto del nivel de significación, 407 Propiedades de los datos numéricos, para la igualdad de dos varianzas,
efecto del tamaño de muestra, 407 106 489
efecto del tipo de prueba, 407 Prueba de Durbin-Watson, 742-745 para la significación de un modelo
efecto del valor del parámetro ver- tabla para la, E-33 de regresión múltiple, 794-
dadero, 407 Prueba de hipótesis 795
Precisión, 43 para aleatoriedad, 442 para las diferencias entre medias e,
Predicción, 714 para autocorrelación positiva, 531
Predicción, 858, 869, 897, 903 744-745 Prueba F ANOVA de bloque aleatori-
modelos para efectos de bloqueo, 562 zado, 562
cualitativos, 858 para efectos de interacción, 581 Prueba F ANOVA de una dirección,
listado de factores, 858 para el efecto curvilíneo, 812 527
opinión experta, 858 para el efecto lineal en un modelo Prueba piloto, 22
técnica de Delphi, 858 curvilineal, 813 Prueba t
cuantitativos, 858 para el modelo de regresión para el coeficiente de correlación,
causales, 859 curvilínea, 810 753
series temporales, 859 para el parámetro autorregresivo para la diferencia entre dos
selección de modelo, 899, 903 de mayor orden, 890 medias, 464
Predicción de negocios, importancia para independencia, 632 para la diferencia media, 504-506
dela, 858 para independencia en la tabla, para la media, 424
Premio Malcolm Baldrige, 661 632 para la pendiente, 751, 801
Preparación de datos, 31 para la existencia de correlación, Prueba t de diferencias apareadas, 504
Presentación de datos (véanse Diagra- 753 Prueba t de varianza aunada para
mas; Tablas) para la igualdad de dos varianzas, diferencias; entre dos medias,
Primer cuartil, 113 489 464
Probabilidad, 204 para la igualdad de varianzas e, Prueba t' de varianza separada para
Probabilidad clásica, 204-205 540 diferencias de dos medias, 472
Probabilidad condicional, 218 para la media de población Prueba t' para la diferencia entre dos
Probabilidad conjunta, 212 crx conocida, 390 medias, 472
Probabilidad de un error del tipo 1 crx desconocida, 424 Prueba X 2
(a), 388 para la mediana de población, 430 para independencia, 632
Probabilidad de un error del tipo II para la pendiente de población, para la diferencia entre dos por-
(~), 388 751 ciones, 616

Índice 1-S
para la diferencia entre porciones Reglas del álgebra, A-2 Suma de Cuadrados Bloques (SSBL),
e, 624 Regresión, análisis de, 714 560
para la varianza de población, 437 Regresión, coeficientes de, 721, 784 Suma de Cuadrados debida a la Inter-
procedimiento de Marascuilo, 628 Regresión de mejores subconjuntos, acción (SSAB), 579
Prueba Z 835 Suma de Cuadrados debida a la Regre-
para diferencias en dos medias, Cp"• 835 sión (SSR), 728, 730, 795, 811
463 r ajustada, 835 Suma de Cuadrados debida al Factor A
para diferencias en dos porciones, Regresión, diagnóstico de, 737, 755 (SSFA), 578
611 Regresión, modelos de, 715 Suma de Cuadrados debida al Factor B
para la diferencia media, 504 · Regresión por pasos, 829 (SSFB), 579
para la media, 390 Relación lineal, 715 Suma de Cuadrados Dentro (SSW),
para la porción, 606 Residuos, 737 530
Pruebas de dos extremos, 391 Residuos de la t de Student elimina- Suma de Cuadrados Entre (SSA), 530,
Pruebas de dos muestras, 462, 503, dos, 757, 826 560
611, 616, 644 Residuos estandarizados, 739 Suma de Cuadrados Error (SSE), 561,
Pruebas de un extremo, 397-399 Resistencia, propiedad de, 114 579, 728-729, 795, 811
Pruebas de un extremo contra prue- Respuesta categórica, 15 Suma de cuadrados tipo ll, 798
bas de dos extremos, 413 Respuesta numérica, 15 Suma de Cuadrados Total (SST), 529,
Pruebas de una muestra, 422 Respuestas a problemas seleccionados, 560, 578, 728-729, 795, 811
Pruebas direccionales, (véanse Pruebas 921 Suma de regresión de medidas cua-
de un extremo) Resultado de diferencia (D¡), 431, 504, dradas de variación
Pruebas libres de distribución 512 SSE, 728-729, 795, 811
para muestras e relacionadas, 571 Resumen de cinco números, 128-129 SSR, 728, 730, 795, 811
prueba de McNemar, 644 Resumen de datos, 104 SST, 728-729, 795,811
prueba de rango de Friedman Riesgo ~, 388 Suma errónea de cuadrados, 728-729
prueba de rango de Kruskal-Wallis Robusto, 424, 440, 443 Sumatoria, notación de, 106, B-1-B-5
para muestras e independientes, Supertabla, 182-183
545 5 Suposición de normalidad, 539, 736,
prueba de rangos con signo de 740
Wilcoxon para la diferencia SAS (véanse Paquetes de compu- Suposiciones,
de medianas, 511 tación, uso de) de análisis de varianza, 537
prueba de rangos con signo de Satterthwaite, F. E., 472 de la estimación del intervalo de
Wilcoxon para la mediana, 430 Scherkenbach, W. W., 672 confianza, 350, 356, 360
prueba de suma de rangos de Selección de muestra, 23-25 de la prueba Xz para independen-
Wilcoxon, 4 72 Selección del modelo de predicción, cia, 633
prueba de Wald-Wolfowitz para 897 de la prueba Xz para la igualdad de
aleatoriedad, 442 análisis residual, 897-898 porciones, 618-619, 624-625
Punto medio de clase, 65 error de predicción (MAD), 898- de la prueba Xz para la varianza,
Puntos, diagrama de, 172-173 899 440
principio de parsimonia, 897, 899 de la prueba de McNemar, 644-645
Q Series temporales, 859 de la prueba de rango de Friedman,
datos anuales, 862 571
Q1 : primer cuartil, 113 datos mensuales, 903 de la prueba de rango de Kruskal-
Q¡: tercer cuartil, 113 objetivos, 859 Wallis, 545
Sesgo de la prueba de rangos con signo
R sesgado a la derecha (positivo), de Wilcoxon para la mediana,
127 431
Rangos, 432,482, 512,546, 571 sesgado a la izquierda (negativo), de la prueba de rangos con signo
Recolección de datos, 13-15, 30, 412 127 de Wilcoxon para la diferencia
carta explicatoria, 30 sesgo cero (simetría), 127 media, 511
consentimiento informado, 413 Sesgo derecho, 127, 129 de la prueba de suma de rangos de
Región crítica, 387 Sesgo izquierdo, 127, 129 Wilcoxon, 481
Región de no rechazo, 387 Shewhart, ciclo de, 671 de la prueba de Wald-Wolfowitz
Región de rechazo, 387 actuación, 671 para aleatoriedad, 492
Registros de etiqueta, 64 estudio, 671 de la prueba Durbin-Watson, 742
Regla de adición general, 215 planeación, 671 de la prueba F de bloque aleato-
Regla de Bienaymé-Chebyshev, 138- realización, 671 rizado, 559, 566
139 Shewhart, W.A., 660, 662, 670-671 de la prueba F de una dirección, 53 7
Regla de la adición, 214 Símbolos estadísticos, C-1 de la prueba F para la igualdad de
Regla de multiplicación, 222 Simetría, 127-129 varianzas, 493
Regla de multiplicación general, 222 Sistema logarítmico Napieriano (na- de la prueba Fmáx de Hartley, 540
Regla de multiplicación para eventos tural), 264 de la prueba t para la diferencia de
independientes, 223 SPSS (véase, Paquetes de compu- dos medias, 464
Regla empírica, 138 tación, uso de) de la prueba t para la diferencia
Reglas de conteo, 229-231 Suavizado exponencial, 866-869 media, 505
Reglas de las operaciones aritméticas, Suavizado exponencial doble, 872 de la prueba t para la media (crx no
A-7 Suavizado exponencial triple, 872 conocida), 427

1-e indice
de la prueba t' para la diferencia Tipos de datos Varianza,
de dos medias, 472 datos _categóricos, 15 de una variable aleatoria discreta,
de la prueba Z para la diferencia datos numéricos, 15 245
de dos medias, 463 TQM (véase Administración para la dentro de grupos (véase Cuadrado
de la prueba Z para la diferencia calidad total) medio)
media, 504 Transcripción de datos, 31 entre grupos (véase Cuadrado me-
de la prueba Z para la media (cr, Transformación de resultados normal dio)
no conocida), 423-424 inversa, 296 fórmula definitoria, 120
de la prueba Z para la porción, Transformación logarítmica, 822 fórmula de "calculadora de bolsi-
606-607 Transformación recíproca, 822 llo", 123
de procedimientos libres de dis- Transformaciones, para modelos de VIF (véase Factor inflacionario de va-
tribución, 424 regresión exponenciales, 822- rianza)
de procedimientos no paramétri- 823 Varianza aunada, 464
cos, 424 logarítmicas, 822 Varianza de error, 795
de procedimientos paramétricos raíz cuadrada, 822 Varianza de muestra (52), 120, 123
clásicos, 424 recíprocas, 822
de regresión y de correlación, 736 Tratamientos, 526-527 w
del análisis de series temporales, 859 Tukey, John W., 3, 586, 822
Tukey-Kramer, procedimiento de, 537 Wald-Wolfowitz, prueba de corridas
T tabla para, E-30-E-31 de una muestra para aleato-
Tukey, procedimiento de, 566, 586 riedad, 442
t, distribución tabla para el, E-30-E-31 tabla de, E-27
aproximación normal, 350 Wilcoxon, prueba de rangos con
propiedades de, 350-351 u signo para la diferencia
tabla t, E-5 - E-6 mediana, 5 11
Tabla de números aleatorios, 25, E-2- Unidades experimentales, 558 para la mediana, 430
E-3 Uniformidad, 867 tabla de, E-28
Tabla sumaria, 170-171 Unión, 208 Wilcoxon, prueba de suma de rangos
Tablas de clasificación cruzada (véase Universo (véase Población) de, 481
Tablas de contingencia) tabla de, E-29
Tablas de contingencia, 180-182, 208, V
616
Tablas de datos categóricos Valor crítico, 347, 386-387
supertabla, 182-183 Valor esperado de una variable
de datos numéricos, distribu- aleatoria, 243-244
ción acumulativa, 74-75 Valor monetario esperado, 246
distribución de frecuencias, 62 Valor p, 394, 400, 427
distribución de frecuencias rela- Valores extremos (véase Externos)
tivas, 67-68 Valores faltantes, 31
distribución de porcentajes, 67- Variable aleatoria, categórica, 15
68 ficticia, 817
tabla de contingencias, 180- Variable aleatoria, numérica, 15
182, 208 616 continua, 15
tabla sumaria, 170-171 discreta, 15
Tablas F, E-8-E- l 1 Variable categórica, 15, 170
obtención de un valor crítico más Variable de respuesta, 714
bajo, 491-492 Variable dependiente (véase Variable
Tallo dividido, 5 7-58 de respuesta)
Tamafio de muestra Variable explicatoria, 714
determinación, 22 Variable independiente (véase Varia-
para controlar los riesgos a y ~. ble explicatoria)
408 Variable numérica continua, 15-16
para la media, 362 Variable numérica discreta, 15, 242
para una población finita, 368-371 Variable predictor (véase Variable
para una porción, 365 explicatoria)
Tasa de crecimiento compuesto, 876 Variables, 15
Taylor, Frederick W., 661 Variables ficticias, 817
Técnica de Delphi, 858 Variables numéricas, 15-16
Tendencia central (véase Medidas de Variación dentro de grupos (SSW),
tendencia central) 530
Tendencia de no respuesta, 43 Variación entre bloques (SSBL), 560
Tendencia de selección, 42 Variación entre grupos (SSA), 530
Tendencia (o locación) no central, 112 Variación explicada, 728
Teorema de Bayes, 225 Variación no explicada, 728
Teorema del límite central, 329 Variación total (SST), 529, 728
Tercer cuartil, 113 Variación (véanse Medidas de
Términos de interacción, 821 variación o de dispersión)

fndice 1-7

You might also like