Professional Documents
Culture Documents
Estadistica Basica en Administracion Conceptos y Apliucaciones - Mark Berenson
Estadistica Basica en Administracion Conceptos y Apliucaciones - Mark Berenson
o z
La entrada representa el área bajo la distribución normal estandarizada desde la media hasta la Z
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
o.o .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3630
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .40115
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .45415
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4825 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4787
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .48150 .48M .48157
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4087 .4800
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .411111
2.4 .4918 .4920 4922 .4925 .4927 .4929 .4931 .4932 .41134 .i!U:tll
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 A0!\1 .41115:1
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .41111:l .i!llM
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .41173 .4'1.174
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4UllO .4U01
2.9 .4981 .4982 ,.4982 .4963 .4984 .4984 .4985 .49815 .4980 .'1980
3.0 .49865 .49869 .49874 .49878 .49882 .49886 .49889 .49893 .49897 .49900
3.1 .49903 .49906 .49910 .49913 .49916 .49918 .49921 .49924 .49926 .49929
3.2 .49931 .49934 .49936 .49938 .49940 .49942 .49944 .49946 .49948 .49950
3.3 .49952 .49953 .49955 .49957 .49958 .49960 .49961 .49962 .49964 .49965
3.4 .49966 .49968 .49969 .49970 .49971 .49972 .49973 .49974 .49975 .49976
3.5 .49977 .49978 .49978 .49979 .49980 .49981 .49982 .49982 .49983 .49963
3.6 .49984 .49985 .49985 .49986 .49986 .49987 .49987 .49968 .49988 .49989
3.7 .49989 .49990 .49990 .49990 .49991 .49991 .49992 .49992 .49992 .49992
3.8 .49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995
3.9 .49995 .49995 .49996 .49996 .49996 .49996 .49996 .49996 .49997 .49997
,
ESTADISTICA
,
BASICA EN ,
ADMINISTRACION,
CONCEPTOS Y APLICACIONES
Sexta Edición
,
ESTADISTICA
,
BASICAEN ,
ADMINISTRACION,
CONCEPTOS Y APLICACIONES
Mark L. Berenson
David M. Levine
Department of Statistics and Computer Information Systems
Baruch College, University of New York
Traducción:
Ariadne Catalina Domínguez R.
Traductora
A. Homero Flores Samaniego
Colegio de Ciencias y Humanidades
UNAM
Revisor Técnico:
Ing. Juan Antonio Torremarina
Ing. Mecánico Electricista
Universidad Anáhuac
-------
PEARSON
Educación
®
Traducido del inglés de la obra: BASIC BUSINESS STATISTICS, Concepts and Applications.
Ali Rights Reserved. Authorized translation from English languaje edition published by Prentice Hall loe. A Simon & Schuster
Company.
Todos los lkrl•t"IH>s Rt•st•rvados. Traducción autorizada de la edición en inglés publicada por Prcntln• 1-lall lnc.
Ali !lights Rt'Sl'I"Vl'd. No part of thls hook may he reproducnl or transmlttt•d In any form or hy any llll'ans, l'lectronlc or
mechanil"al, lndudlng photon1pylng rt•cordlng or hy any lnfor111al1011 storagt• rt•tril•val systt•111, wlthout pt•rmlsslon in writing
from tht• puhllsht•r.
Prohibida la reproducción total o parrlal dl' 1•sta ol>ra, por nmlqull•r llll'dlo o 111(•lmlo sin autorlzadún por t•scrito del editor.
DPrechos reservados© 1996 respecto a la st·gunda l'dldú11 t'll t•spanol puhllrnda por
Prentice Hall Hispanoamericana, S.A.
Atlacomulco Núm. 500-5° Piso
Col. Industrial Atoto
53519, Naucalpan de Juárez, Edo. de México
ISBN 968-880-784-2
ISBN 0-13-303009-1
vil
Contenido detallado
Prefacio xix
1 Introducción I
1.1 ¿Qué es la estadística moderna? 2
1.2 El crecimiento y desarrollo de la estadística moderna 2
1.3 Pensamiento estadístico y administración moderna 4
1.4 Estudios enumerativos frente a estudios analíticos 5
1.5 El papel de los paquetes de computación en estadística 7
1.6 Resumen y visión general 7
Términos clave 8
Problemas de repaso del capítulo 8
2 Recolección de datos
2.1
//
Introducción: La necesidad de datos 12
2.2 Obtención de datos 13
2.3 Obtención de datos mediante investigación de encuesta 15
2.4 Diseño del cuestionario 20
2.5 Elección del tamaño de muestra para la encuesta 22
2.6 Selección de los sujetos respondientes: tipos de muestras 22
2.7 Extracción de la muestra aleatoria simple 23
2.8 Encuesta sobre la satisfacción de los empleados de Kalosha
industries 25
2.9 Obtención de las respuestas 30
2.10 Preparación de los datos: edición, codificación y
transcripción 31
2.11 Reconocimiento y práctica de una buena investigación de
encuestas y de exploración de cuestiones éticas 41
2.12 Recolección de datos: Un repaso y una visión preliminar 46
Términos clave 48
Problemas de repaso del capítulo 48
Proyectos de aprendizaje colaborativo 50
CASO DE ESTUDIO: Encuesta de la asociación de exalumnos 51
1'111
3.9 Reconocimiento y práctica de una adecuada lll'l'Sl'llladú11
tabular y de diagramas y exploración de cuestlorH's
éticas 88
3.10 Presentación de datos numéricos: un repaso y una n•vlslón
preliminar 93
Términos clave 94
Problemas de repaso del capítulo 95
Proyectos de minicasos de aprendizaje colaborativo 1O1
X
Términos clave 193
Problemas de repaso del capítulo 194
Proyectos de minicasos de aprendizaje colaborativo 198
CASO DE ESTUDIO C: Preparación de un programa de televisión e11
red nacional 200
1O 10.1
Estimación 343
Introduction 344
10.2 Estimación de intervalo de confianza para la media
( cr conocida) 344
10.3 Estimación de intervalo de confianza de la media
( cr desconocida) 349
10.4 Estimación mediante el mínimo esfuerzo 356
10.5 Intervalo de predicción para un valor individual
futuro 359
10.6 Estimado del intervalo de confianza de la
porción 360
10.7 Determinación del tamaño de muestra para la media 362
10.8 Determinación del tamaño de muestra para la
porción 365
10. 9 Estimación y determinación del tamaño de muestra para
poblaciones finitas 368
10.10 Nueva consideración de la investigación sobre la satisfac-
ción de los empleados de Kalosha Industries 3 72
10.11 Estimación, de terminación de tamaño de muestra y
cuestiones. éticas 3 74
1(). i:Z Estipiación. e inferencia estadística: repaso y
· ' · ' pre1iniinares 3 75
T6rmlno1 clave 377
Problema• dft t'.41Pª'º d'I c~pftulo . 3.77
Proyecto1 d.e' rnlnl~uol 'de aprendlza)e colaborativo 381
XII
11.9 La potencia de una prueba 401
11.1 O Planeación de un estudio: determinación del tamaño de
muestra basándose en ex y ~ 408
11.11 Riesgos potenciales de la prueba de hipótesis y cuestiones
éticas 411
11.12 Metodología de la prueba de hipótesis: un repaso y una
visión preliminar 415
Términos clave 417
Problemas de repaso del capítulo 417
XIII
13.12 Prueba de hipótesis basada en dos muestras de datos
numéricos: repaso 518
Términos clave 520
Problemas de repaso del capítulo 520
Proyectos de minicasos de aprendizaje colaborativo 523
xiv
15.9 Dificultades potenciales de la prueba de hipótesis
y cuestiones éticas 649
15.10 Prueba de hipótesis basada en datos categóricos: un repaso
650
Términos clave 651
Problemas de repaso del capítulo 652
Proyectos de minicasos de aprendizaje colaborativo 655
ESTUDIO DE CASO F: Encuesta de satisfacción de
aerolíneas 655
xvi
19.5 Análisis de series temporales de datos anuales: ajuslL' dL•
tendencia de mínimos cuadrados y pronóstico 871
19.6 método de Holt-Winters para el ajuste de tendencia
y el pronóstico 884
19.7 Modelado autorregresivo para el ajuste de tendencia
y el pronóstico 888
19 .8 Elección de un modelo de predicción apropiado 896
19.9 Pronóstico de series temporales de datos mensuales 903
19 .10 Dificultades referentes al análisis de series temporales 911
19.11 Resumen y visión general 912
Términos clave 913
Problemas de repaso del capítulo 914
CASO DE ESTUDIO J: Cambio de Moneda 918
Índice 1-1
llVH
Prefacio
Al planear o revisar un libro de texto, los autores deben decidir en qué se diferen-
ciará de los ya disponibles y la contribución que hará al campo de estudio.
Inicialmente, cuando comenzamos a escribir la primera edición de Estadística
Básica en Administración, conceptos y aplicaciones en 1976, pensamos que lo que
faltaba a otros textos de introducción a la estadística en administración era un
tema común que uniera los diversos tópicos y proporcionara una sensación de real-
ismo al estudiante. Así que concebimos un planteamiento práctico y analítico de
datos de la enseñanza de estadística empresarial mediante el desarrollo y uso de una
encuesta que integrara los diversos tópicos, permitiendo un estudio cohesivo del
tema de la estadística en administración.
Al proponer cambios en esta sexta edición, nuestro principal objetivo es un
mejoramiento continuo de la calidad de ediciones anteriores
• incorporando tendencias en pedagogía (por ejemplo, aprendizaje
activo y colaborativo)
• proponiendo el uso cada vez mayor de software estadístico en com-
putadoras personales
• presentando desarrollos estadísticos modernos
• incluyendo tendencias en los planes de estudio de las escuelas comer-
ciales (por ejemplo, ética, globalización y calidad)
de tal forma que el estudiante aprecie el valor del tema de la estadística en los
planes de estudio de las escuelas comerciales y encuentre más placentero el apren-
dizaje.
Según nuestra percepción, los puntos fundamentales )le nuestro texto son su
novedoso enfoque de investigación de encuestas y de adálisis de datos, así como
sus características pedagógicas.
Jéll
comprender el tema de la estadística empresarial. Además, permite a los estudian-
tes entender de manera realista el proceso de la investigación de encuestas y de
análisis de datos y los ayuda a conducir tal investigación en otros cursos y en mar-
cos ocupacionales.
La Encuesta sobre la Satisfacción de los Empleados se desarrolla en el capítulo
2 y se usa como ejemplos del texto y/o asignaciones de proyectos a los estudiantes
en los capítulos 3-6, 8, 10, 12-15, 17 y 18. El material de las secciones y los proyec-
tos de los estudiantes que tienen que ver con la encuesta se resaltan.
ic:x
rativo. Resulta interesante que estos dos enfoques pedagógicos van de acuerdo
con los principios expresados en la filosofía de "administración por proceso"
desarrollada por W. Edwards Deming cuyo planteamiento de la mejora de la cali-
dad figura entre los principales avances industriales de la década. La adaptación
de la filosofía TQM en toda una organización da como resultado una transforma-
ción cultural que incluye una destreza en la administración, la habilitación de la
fuerza de trabajo y la resolución de problemas mediante el uso de equipos de con-
tacto funcional. En una tónica similar, si nosotros como profesores empleamos los
principios del aprendizaje activo y colaborativo, podemos reducir nuestras diser-
taciones y habilitar a los estudiantes para que aprendan más por su cuenta y a
través del trabajo en equipo. Debemos desarrollar las habilidades de pensamiento
crítico de los estudiantes para que podamos manejar nuestros salones de clase de
manera más eficaz alentando la participación. Todavía más importante resulta el
que, con tales desarrollos, los futuros graduados no sólo estarán preparados para
tomar su lugar como ciudadanos de sus comunidades, sino que también estarán
más preparados para experimentar una vida de autoaprendizaje en un mundo
dinámico.
La colaboración amplía el aprendizaje y desarrolla habilidades de trabajo en
equipo necesarias para la participación en los negocios y la sociedad. A lo largo de
este texto, una serie de Proyectos de minicasos de aprendizaje colaborativo, refe-
rentes a cuatro grandes conjuntos de datos (que tienen que ver con colegios y uni-
versidades, cereales, fragancias y cámaras) que se encuentran en el apéndic;e D, se
presentan al final de la mayor parte de los capítulos. Además, donde resulta apro-
piado se incluyen otros Proyectos de aprendizaje colaborativo diseñados para el
salón de clases, así pues, el profesor interesado en un aprendizaje activo y colabo-
rativo ahora tiene la oportunidad de aplicar estos planteamientos pedagógicos
dentro y fuera del salón de clases mediante la creación de equipos de estudiantes
y la selección de los proyectos de minicasos de aprendizaje colaborativo y/u otros
proyectos de aprendizaje colaborativo dados en el texto.
La estadística es una materia viva. ¡No se trata sólo del ruidoso masticar de números!
Se debe poner énfasis en la comprensión e interpretación, y es esencial que los estu-
diantes puedan expresar lo que han aprendido. Los problemas de activi-
dad t·fiiMM·i·J> incrementan la capacidad de leer y escribir pidiéndole al estudiante
que escriba cartas, memoranda e informes, y que prepare conferencias. Los proble-
mas de foco V son particularmente estimulantes de ideas o no tienen una respuesta
"exacta". Juntos, los problemas de acción y foco permiten a los estudiantes pensar y
los habilita para comprender la utilidad del análisis estadístico como una ayuda para
la solución de problemas reales en un medio organizacional.
....
en los cuatro componentes de un buen análisis de datos, la delineación, obser-
vación, cálculo y descripción, y subraya la importancia de satisfacer las suposi-
ciones al emplear las técnicas de inferencia estadísticas. Esto ofrece muchos
bene-ficios al estudiante. Mediante una cuidadosa observación de los datos, el
estudiante amplía sus habilidades de pensamiento crítico y de análisis de datos.
Además, a través de una cuidadosa evaluación de las suposiciones, es probable que
el estudiante seleccione la técnica de inferencia estadística apropiada para una
situación dada.
qlll' la111IM11 Sl' l'lllrl'laza l'I uso dl' la ro111puladora rnmo una hl•rramienta de
nywla l'll 1•1 prm·1•so dl• In 1011111 d1• dl dslo111..•s t'll los dlVl'rsos capítulos.
1
lll s11lla lw11Nlrn In llll'lll'i(111 d1• 1111a varll•dad dt• paqut•ll's dl• software estadís-
0
llrns. l.os t•sl 11dl11nlt•s 11pt't 1Hll•11 a lllll'l'fll'l'lar l'I r1•s11ltado dt• una diversidad de
1
xxii
ción gerencial (es decir, los diagramas de flujo de procesos y los diagramas ele
esqueleto de pescado) y las herramientas estadísticas (es decir, los diagramas de con-
trol de procesos) que subrayan la utilidad del análisis estadístico en una organi-
zación que practica la administración para la calidad total (TQM). Más aún, este
libro cubre detalladamente la base conceptual de la administración para la calidad
total (TQM) con un análisis de los catorce puntos de la filosofía de "administración
por proceso" de W. Edwards Deming. Los tópicos adicionales sobre este tema que se
presentan incluyen las definiciones operacionales, el pensamiento estadístico, los
estudios enumerativos frente a los analíticos, los diagramas de Pareto, las gráficas
digipunto y la parábola de la cuenta roja, un experimento cuyo propósito es demos-
trar los conceptos de la variación de causa común contra la de causa especial.
Esperamos que las ayudas pedagógicas, junto con las características y enfoques úni-
cos tomados en este libro de texto hagan más significativo, satisfactorio y com-
prensible el estudio de la estadística empresarial básica, para todos los lectores.
Agradecimientos
xxiv
Una nota de agradecimiento
Agradecimiento especial
MARI< L. BERENSON
DAVID M. LEVINE
XXV
capítulo
Introducción
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVO DEL Presentar una visión general del tema
de la estadística y de sus aplicaciones,
CAPÍTULO particularmente en los negocios.
¿Qué es la estadística moderna?
Hace cien años, H. G. Wells comentó que "el pensamiento estadístico algún día
será tan necesario para la ciudadanía eficiente como la capacidad de leer y
escribir". Cada día de nuestras vidas estamos expuestos a una amplia variedad de
información numérica relativa a fenómenos como la actividad del mercado devalo-
res, los hallazgos de estudios de mercados, los resultados de encuestas de opinión,
las tasas de desempleo, los pronósticos de éxito futuro de industrias específicas y
datos deportivos. El tema de la estadística moderna abarca la recolección, pre-
sentación y caracterización de información para ayudar tanto en el análisis de·
datos como en el proceso de la toma de decisiones.
En términos de áreas funcionales de negocios, la estadística puede aplicarse en:
Contabilidad
• Para seleccionar muestras con propósitos de auditoría.
• Para comprender los derroteros de costos en contabilidad de costos.
Finanzas
• Para estar al tanto de medidas financieras en el transcurso del
tiempo.
• Para desarrollar formas de pronosticar valores de estas medidas en
momentos futuros.
Administración
• Para describir características de empleados dentro de una
organización.
• Para mejorar la calidad de los productos fabricados o de los
servicios procurados por la organización.
Mercadeo
• Para estimar la proporción de clientes que prefieren un producto en
vez de otro y la razón de esto.
• Para sacar conclusiones respecto a la estrategia de publicidad que
sería más útil para el incremento de ventas de un producto.
<:oml·nzarl•tnos en este capítulo introductorio con algunas definiciones impor-
tanll'S. lk·spu(•s analizaremos un desarrollo histórico en el campo de la estadística
y la dlstlnd(lll l'llln• distintos tipos de estudios estadísticos. Concluiremos con el
papl•I dl•I softwarl' lil' ro111putal'iú11 en l'I anMisis l'Stadístico.
2 Capítulo 1 Introducción
1.2.1 Estadística descriptiva
Éstas y otras necesidades de datos a nivel nacional estuvieron estrechamente vincu-
ladas al desarrollo de la estadística descriptiva.
La estadística descriptiva puede definirse como aque~los mét()dos
que incluyen lci reécíieq::ión, présent~cióny car_act~rizaci_é>p de un
c1:mjt1Q!Q_Q~ Qíl!<?._S_~_qp_~Uin de describir.apropiada_rnente l~s div~rsas
carac_:t~rí~t~c_:ª~-cl-~_e_~~-~()__r:iju.nto de datos.
Aunque los métodos de la estadística descriptiva son importantes para presentar y
caracterizar los datos (véase los capítulos 3,4 y 5), éstos han sido la base de los
métodos de la estadíst.!il.,,W.f~r!'!n~ii!l.Y servido para mejorar la teoría de la proba-
bilidad que, en la actualidad, ha hecho posible aplicar la estadística a todos los
campos de la investigación.
4 Capitulo 1 Introducción
Métodos Herramientas de
estadísticos comportamiento
Figura 1.1
Un modelo del proceso para mejorar la calidad.
Los estudios analíticos involucran realizar alguna actividad sobre u:p. ·:" ;
proceso para mejorar el desempeño en el futuro. ·
• 1:
En el estudio analítico, hay varias etapas que componen un proceso. Estas eta-
pas por lo general incluyen entradas que podrían abarcar alguna combinación de
personas, equipo, material e información; salidas que tienen la forma de un pro-
ducto fabricado o un servicio proporcionado; y el paso de transformación inter-
medio que convierte las entradas en las salidas deseadas. Una pregunta clave gira
en torno a cómo puede usarse cualquier dato que pudiera ser recabado como parte
del proceso (a menudo en un periodo) para mejorar el proceso en el futuro. Esto se
indica en la figura 1.3 mediante la presencia de un ciclo de retroalimentación.
La distinción entre estudios enumerativos y analíticos es importante, puesto
que los métodos que han sido desarrollados principalmente para estudios enu-
merativos pueden ser engañosos o incorrectos para estudios analíticos (véanse las
referencias 1-3).
En este texto desarrollaremos métodos apropiados para estos tipos distintos de
estudios.
Algunos de los métodos son apropict9os para cualquier tipo de estudio. Otros
métodos son apropiados principalmentepara estudios enumerativos o principal-
menté para estudtos·analfticos.
, ·I ·• '·
Capítulo 1 Introducción
l 8j El papel de los paquetes de
computación en estadística
Durante los últimos veinte años, el campo de la estadística ha cambiado dramáti-
camente mediante el desarrollo de software de computadora especialmente escrito
para el análisis estadístico. Durante los ochenta, el software estadístico experi-
mentó una vasta revolución tecnológica. Además de las mejoras manifestadas en
actualizaciones periódicas, la disponibilidad de computadoras personales condujo
al desarrollo de nuevos paquetes que usaban una interfaz manejada por menúes.
Además, rápidamente se dispuso de las versiones de computadoras personales
de paquetes como SAS, SPSS y MINITAB (véanse las referencias 8, 12 y 13). Más
aún, el uso cada vez mayor de los paquetes de hojas de cálculo populares como
Lotus 1-2-3 y Excel llevai:on a la incorporación de peculiaridades estadísticas en
estos paquetes.
El final de la década de los años ochenta y el principio de los noventa repre-
sentaron un periodo continuo de avances tecnológicos. Mientras que los primeros
paquetes desarrollados para las computadoras personales sólo estaban disponi-
bles para máquinas IBM o compatibles, actualmente los paquetes han sido adap-
tados al ambiente de las computadoras Macintosh. Además, los rápidos avances en
el hardware de las computadoras implicó que se pudiera disponer de cantidades
más grandes de memoria de computadora a un costo menor. Esto permitió a los
creadores de paquetes incluir procedimientos estadísticos adicionales más sofisti-
cados en cada versión posterior.
Por tanto, es fácil comprender por qué el uso de estos paquetes de software es
algo común dentro de las comunidades empresariales, académicas y de investi-
gación. Así pues, en este texto adoptaremos la posición de que al realizar un análi-
sis estadístico, es casi seguro que se tenga acceso a algún paquete o paquetes (o un
paquete de hoja de trabajo) de software estadístico. Con esto en mente, nuestra
atención está puesta en la interpretación de la salida de varios de estos paquetes
(principalmente MINITAB, SAS y SPSS), con un énfasis más limitado en los pasos
involucrados en los cálculos. Esto es congruente con el tema del texto, que subraya
el uso apropiado de los métodos estadísticos antes que la teoría matemática sub-
yacente a los métodos.
Aunque el software estadístico ha hecho factibles incluso los análisis más
sofisticados, los problemas surgen cuando usuarios inexpertos estadísticamente,
que no comprenden las premisas que están detrás de los procedimientos o las limi-
taciones de los resultados obtenidos, son engañados por la salida estadística gene-
rada por la computadora. Por razones pedagógicas, creemos que es importante que
las aplicaciones de los métodos incluidos en el texto se ilustren mediante el uso de
ejemplos resueltos.
Juntando todo
TÉRMINOS CLAVE
Admlnlstraclón para la Calidad Total 4 estudios enumerativos S
estadfstlca , , '3 muestra 3
estadfstléa descriptiva d parámetro 3
estadfstlca tnferénclal ' 3 'pensamiento estadístico 4
,estadfsttca moderna 2 población 3
:·estudios analftlcos S universo 3
8 Capitulo 1 Introducción
Revistas de negocios
Business Week
Forbes
Fortune
Revistas generales
Newsweek
Time
U.S. News & World Report
Periódicos
New York Times
U.S.A. Today
WallStreetfournal
Periódicos locales
Información general
Statistical Abstract of the United Sta tes
Nota: La bala • indica que las soluciones a estos proplemas están enla s~~tj~it de
Respuestas alos problemas seleccionados, al final del libro. .s.
.. '', : '·!","·." ;'.)~:··.:
·:',.~,,
•, . . . '
'
Referencias
l. Deming, W. E., "On Probability as a Basis for Action", 9. Pearson, E. S., ed., The History of Statistics in the
American Statistician, vol. 29, 1975, pp. 146-152. Seventeenth and Eighteenth Centuries (Nueva York:
2. Deming, W. E., Out of the Crisis (Cambridge, MA: McMillan, 1978).
Massachusetts Institute of Technology Center for 10. Pearson, E. S., y M. G. Kendall, eds., Studies in the History
Advanced Engineering Study, 1986). of Statistics and Probability (Darien, CT: Hafner, 1970).
3. Deming, W. ~., The New Economics far lndustry, 11. Robbins, S. P., Management, 41 ed. (Englewood Cliffs, NJ:
Govemment;'Education (Cambridge, MA: Massachusetts Prentice-Hall, 1994).
Institute of Technology Center for Advanced 12. Ryan, B. F., y B. L. Joiner, Minitab Student Handbook, 31
Engineering Study, 1993). ed. (North Scituate, MA: Duxbury Press, 1994).
4. Juran, J. M., furan on Leadership far Quality (Nueva York: 13. SAS Lang11age and Procedures Usage, Version 6 (Raleigh,
The Free Press, 1989). NC: SAS Institute, 1988).
5. Juran, J. M. y F. M. Gryna, Quality Planning and Analysis, 14. Walker, H. M., Studies in the History of the Statistical
21 ed. (Nueva York: McGraw-Hill, 1980). Method (Baltimore, MD: Williams & Wilkins, 1929).
6. Kendall, M. G., y R. L. Plackett, eds., Studies in the History 15. Wattenberg, B. E., ed., Statistical History ofthe United
of Statistics and Probability, vol. 11 (Londres: Charles W. States: From Colonial Times to the Present (Nueva York:
Grlffln, 1977). Basic Books, 1976).
7. Klrk, R. E., ed., Statistical lssues: A Reader far the Behavioral
Sclences (Monterey, CA: Brooks/Cole, 1972).
8. Norusls, M., SPSS Gulde to Data Analysis for SPSS-X: With
Add/tlonal Instr11ctlons for SPSSIPC+ (Chlcago, IL: SPSS
lnc. 1 1986).
10 Capitulo 1 Introducción
capítulo
Recolección de datos
••••••••••••••••••••••••••• • ••••••••••••••••••••••••••••••
OBJETIVOS DEL Describir la importancia de obtener
buenos datos y demostrar cómo se
CAPÍTULO recolectan y preparan para su
presentación tabular y en diagramas,
su resumen descriptivo, análisis e
interpretación.
11
181 Introducción: La necesidad de datos
¿Para qué necesitamos recolectar datos? Pueden darse cuatro razones importantes.
Los datos se necesitan para:
l. Proporcionar la introducción imprescindible para un estudio de
investigación.
2. Medir el desempeño en un servicio o proceso de producción en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un
proceso de toma de decisiones.
4. Satisfacer nuestra curiosidad.
Como ejemplos:
• El gerente desea controlar un proceso de manera regular para
investigar si la calidad del servicio proporcionado o de los productos
fabricados se ajustan a los estándares de la compañía.
• El investigador de mercados busca las características que distinguen
un producto del de sus competidores.
• El inversionista potencial desea determinar qué compañías de qué
industrias es probable que hayan acelerado el crecimiento en un
periodo de recuperación económica.
• El fabricante farmacéutico necesita determinar si una nueva medicina
es más eficaz que las actualmente en uso.
Para el estadístico o investigador, la in.formación re_g~~Ei~<l: pr_<?~_eE~..9_<:.l9s d~9.s.
¿Qué queremos decir exactamente con datos?
Los datos pueden concebirse como ioJmmªciQD.f1.~m~rica necesa.ria
para ayudarnos a. to.maL.UD.lLd.e.cisi.6.u_coIJ._Jil-ª-~1>-ªsg~ en una situacióQ
particular.
Para que un análisis estadístico sea útil en el proceso de toma dL• decisiones, l,os dato...s
d~~~n.tm!.l.íLJ.l.l.:.bCll..JiCL.apropiarlos Por tanto, la rccole~:l0n..-~.~-l.!ato~ ~~ extremada-
llll'lllt• l111porl"antt•. SI los datos t•stán t•stro¡wados por st•sgos, ambigikdades u otro
tipo dt• l'l'l'o1·1 «..'S lmprobablL• l(lll' lnduso las llll'lodologías l'Sladísticas más finas y
soflsl !radas Sl'llll sulkil'lllt's para rn111¡wnsar talL•s dl'fkil•11cias.
l'm•sto qttl' la m•n•sldad dl• lnl'or111adó11 íttll l'S tan importante para el proceso
de toma dl' dl'l'lslrnws, l'Sll' rapítulo trnla dl· la rl·rnlccciún de datos. En particular,
dt•mostrart•mos d11110 Sl' l'l'l'Oll'l'lan y 1m•paran para su presentación tabular y en
diagramas, su rt'Sllllll'll dL•snlptlvo, anúlisis L' interpretación. Para motivar nuestro
análisis dt• la l'L'l'oiL•l'l'l(m dt• dalos, vernos en el diagrama de resumen del capítulo de
la página 47, qut• los d¡1tun.vn ..tl1.,•_ ljos tipos: los resl!-1.ta.sios. e:'~ vari(J:_b!es él:~~~~~.rl~.-
n,uméric~_mc<,H~l¡1s l'll 1.•scalas. dl' interyalo o proporciqn, o bien, los resultados de
variables categóricas m1.·d i_das en 1.•scalas nominales u ordinal e~. Además, observamos
en el diagrama de rl·sumen del capítulo, que existen varios métodos para obtener
datos. En este texto nos centramos en la investigación de encuestas a través del
desarrollo de una Encuesta sobre la Satisfacción de los Empleados (sección 2.8) que
resaltamos como un caso integrado completo, demostrando cómo se conduce y se
usa la investigación básica para ayudar en el proceso de toma de decisiones.
Al terminar este capítulo, deberá ser capaz de:
l. Comprender por qué necesitamos datos.
2. Comprender las diferencias entre datos numéricos y datos categóricos
y sus niveles de medición.
3. Comprender los diversos métodos usados en la obtención de datos.
4. Desarrollar una apreciación para formular un problema de
investigación y conducir una investigación de encuestas.
Obtención de datol
El gobierno federal es un importante recolector y compilador de datos con
propósitos tanto públicos como privados. La Oficina Gubernamental de Estadísticas
Laborales es responsable de recabar datos sobre empleo, así como de establecer men-
sualmente el conocido Índice de Precios al Consumidor. Además de su requerimiento
constitucional de levantar un censo decena!, la Oficina Gubernamental de Censos
tiene que ver con una diversidad de encuestas referidas a la población, vivienda y
fabricación, y cada cierto tiempo emprende estudios especiales sobre cuestiones
como delincuencia, viajes y cuidado de la salud.
Además del gobierno federal, varias publicaciones comerciales presentan datos
de grupos industriales específicos. Los servicios de investigación como Moody's
muestran datos financieros de compañías. Los servicios periodísticos como A. C.
Nielsen proporcionan a sus clientes información que permite la comparación de
productos con sus competidores. Y, claro está, los periódicos están llenos de infor-
mación numérica referente a precios de valores, condiciones meteorológicas y
estadísticas deportivas. A lo largo de este texto, diversas aplicaciones utilizarán los
datos obtenidos de tales fuentes.
De ~.uestrq a,~ljsls, antc=rlor,: vemos entonces, que nuestros datos resultantes tam-
bién pueden.d~s~riblrse de acuerdo con el nivel de medición obtenido.
En el sentido más ampli~, todos los datos recolectados son "medidos" de la
misma manera. Incluso por ejemplo, los datos numéricos discretos pueden con-
siderarse como producto de un proceso de medición mediante conteo. Los cuatro
niveles de medición ampliamente reconocidos son, del nivel de medición más
débil al más fuerte, las escalas nominal, ordinal, de intervalo y de cociente.
• Escala nominal y ordinal Se dice que los datos obtenidos de una variable
categórica han sido medidos en una escala nominal o en una escala ordinal. Si los
datos observados simplemente se clasifican en las diversas c~gi;uías distintas en
las que no se implica ningún orden, se obtiene un nivel d~l!ledición nominal.
Por otra parte, si los datos observados se clasifican en las distintas categorías ea las
9fil se irnpJl~_'!!&.(!n ()rd~!J.L.~e. __Q.btiene un nivel de I!!~Qi_~.i0Lf!!'dinal. Estas dis-
'tinciones se describen en las figuras 2.2 y 2.3, respectivamente.
La escala nominal es la forma más débil de medición porque no se puede hacer
ningún intento para explicar las diferencias dentro de una categoría particular o de
especificar cualquier orden o dirección entre las diversas categorías. La escala ordi-
nal es una forma de medición algo más fuerte, porque se dice que un valor obser-
' . . '··-1:li1(~; ,
... ....
(lnte;/or-Superlor)
Designación de clase de estudiante Primero Segundo Tercero Cuarto . '· } :tb.';~:¡i
.Satisfacción de producto . Muy insatisfecho Bastante insatisfecho Neutra!. :
Muy ;satisfecho ·. ¡,,;¡ 1~::'>
Clasificación de película ... .... G PG . PG~1S R. X.. ' .
... . (Superior-Inferior) ,
, , :, ,
..... ...
Rango de facultad Profesor Profesor Asociado Profesor Aslst~nte
Tasas de bonos estándar y pobres AAA AA A BBB BB. B ccc ce e i''óé>ID
Rango de restoranes
Grados de los estudiantes .. . ***** •itr•• *** ** *
A B C D E F
vado clasificado en una categoría posee más de una propiedad de clasificación que
un valor observado clasificado en otra categoría. No obstante, dentro de una cate-
goría particular, no se hace ningún intento de explicar las diferencias entre los
valores clasificados. Además, la escala ordinal sigue siendo una forma débil de
medición, porque no pueden hacerse afirmaciones numéricas significativas
respecto a las diferencias entre las categorías. Esto es, el orden implica sólo qué
categoría es "mayor", "mejor" o "preferida", no cuánto "mayor", "mejor" o
"preferida". Por ejemplo, las clasificaciones colegiales de básquetbol o de futbol
son otras aplicaciones de la escala ordinal. Las diferencias de habilidad entre los
equipos clasificados en primer y segundo lugares pueden no ser iguales a las dife-
rencias en habilidad entre los equipos clasificados en segundo y tercero, o aquellos
clasificados como sexto y séptimo, etcétera.
Kelvin, la temperatura está en una escala de cociente, porque el doble de una tem-
peratura realmente es el doble de la rapidez promedio de las moléculas que com-
ponen la sustancia. La figura 2.4 da ejemplos de variables de escala de intervalo y
de cociente.
Generalmente se supone que los datos obtenidos de una variable numérica han
sido medidos en una escala de intervalo o en una de cociente. Estas escalas consti-
tuyen los niveles más altos de medición. Son formas más sólidas de rp.edición que
una escala ordinal, porque podemos distinguir no sólo qué val o_!:- observado es el
mayor sino también por cuánto lo es. ,.
l
Muestras no probabilísticas Muestras de probabilidad
t
juicio
l
Muestra de Muestra de
cuota
De parte
grande
Muestra Muestra
1
Muestra Muestra de
aleatoria sistemática estratificada agrupación
simple
Para muchos estudios sólo se dispone de una muestra no probabilística como una
muestra de juicio. En estos casos, la opinión de un experto en la materia objeto de
un estudio es crucial para poder usar los resultados obtenidos con el fin de hacer
cambios en un proceso. Algunos otros procedimientos típicos del muestreo no
probabilístico son el muestreo de cuota y el muestreo de parte grande; éstos se ana-
lizan con detalle en libros especializados sobre métodos de muestreo (véanse las
referencias 1, 3 y 8).
En un estudio enumerativo, la única forma de que hagamos inferencias
estadísticas correctas de una muestra a una población es mediante el uso de una
muestra de probabilidad.
Una muestra de probabilidad es aquélla en la que los sujetos de la
_i!iuesfra_ s~ eligen s_obre la base-cié- proba)Jilidades conocidas.
Los cuatro tipos de muestras de probabilidad de uso más común son la muestra
aleatoria simple, la muestra sistemática, la muestra estratificada y la muestra de
agrupación.
_]'.:n _una muestra aleatoria simple cada indiyiduo_ o _elemento tiene la
misma Qp~ntunJd_ad_\le sekc.ción que _cualquier otro,_yJa selección de un individuo
o elemento en particular no afecta.la probabilidad de que se elija cualquier otro.
Además, una muestra aleatoria simple también puede interpretarse como aguéll<!__
e~-~~! cada Eºs~'?_~~~~d~_tiene_~ misma 12.robabili~g de selección
™cualg_~!FL!!!ill:~trª-._q!!~-~~J!lt~<:J.a extrn.~.r.
Un análisis detallado de los procedimientos de muestreo sistemático, estratifi-
cado y de agrupación puede encontrarse en las referencias 1, 3 y 8.
Fuente: Parcialmente extraído de The Rand Corporation, A Mil/ion Random Digits with 100,000 Normal Deviates (Glencoe, lL: The Free Press,
1955) y mostrado en la tabla E.1 del apéndice E al final de este texto.
10
--
11
3. ¿Cuál es su edad (respecto al último cumpleaños)? _
-13- -14- 4. ¿Cuántos años de escuela concluidos? _
--
16
5. ¿Cuál es su género? [I] Masculino l1J Femenino
-18- 6. Entre los miembros de su familia que viven en su casa
actualmente, ¿cuántos, incluyéndose usted, estuvieron
empleados el año pasado?_
-20- -21- -22- -23- 7. ¿Cuáles fueron sus ingresos "antes de los impuestos" el
año pasado (en miles de dólares)?_
-25- -26- -27- -28- 8. ¿Cuáles fueron sus ingresos familiares totales "antes de
impuestos" el año pasado
(en miles de dolares)?_
9. En general, ¿qué tán satisfecho está con su trabajo?
30
ITJ Sí l1J No
15. Desde los 16 años, ¿aproximadamente cuántos años ha
42 43
trabajado tiempo completo a cambio de un salario?_
- - - - - 16. ¿Cuántos años en total ha trabajado para su actual
45 46 47 48 49
empleador?_
Problemas de la sección 2. 9
2.23 Escriba un borrador de la carta explicatoria necesaria para la Encuesta sobre la
satisfacción de los empleados de Kalosha Industries.
Figura 2. 7 Entradas de datos para las respuestas de Clark Kent, número de identificación de c6cll10 de
archivo 0033 .
La tabla 2.3 de las páginas 33-40 es una impresión de los datos. Esta impresión
corresponde a las respuestas de los 400 empleados de tiempo completo que parti-
ciparon en la encuesta de los 445 empleados invitados. Observamos que las
respuestas de Clark Kent aparecen primero, puesto que él fue el primer empleado
de Kalosha Industries seleccionado en la muestra.
Problemas de la sección 2. I O
2.25 Codifique las siguientes respuestas para los datos:
(a) Altura: 5 pies 2 pulgadas _pulgadas
(b) Peso al nacer: 7 libras 8 onzas _libras
(c) Fecha de nacimiento: Junio 27, 1958 años de edad
2.26 Para cada caso del problema 2.25 describa las reglas que usó para codificar.
¿Qué alternativas podría haber considerado?
51 51 40 2 31 18 1 1 2
27.6 :z9_4 2 5 l o 2 9 4.00 o 2 3 3 2 1 2 2 l 1 1 2
52 52 45 2 33 19 1 1 36.3 37.4 2 1 5 1 o 2 7 4.00 l l l 2 2 1 2 2 2 1 2 2
S3 S3 32 1 36 18 1 2 30.3 71.3 ·4 1 5 2 o 1 16 4.08 1 4 2 2 1 2 3 4 5 3 1 1
54 54 62 5 28 12 1 2 41~ _•17-1 1 1 4 2 o 2 12 5.00 3 1 3 1 1 1 1 1 2 1 4 1
55 S5 40 2 40 17 2 1 29~· :44.1 4 1 s 3 o 1 23 4.50 o 5 2 3 4 1 4 5 4 4 1 4
S6 56 40 1 25 16 1 2 -32~2 -43.2 1 1 4 l o 2 2 2.00 o 1 1 3 1 2 2 4 4 2 1 1
57 57 40 3 39 16 2 1 ..&0:-2 45.2 2 2 5 1 o 2 14 2.00 1 1 3 2 3 2 2 4 3 3 2 2
SS SS 40 4 27 12 1 3 -22~.5 32.5 1 1 5 1 o 2 10 s.oo o 4 l 2 2 l 1 2 1 l l 1
59 S9 40 1 40 17 -1 -2 ;20.1 ·35_1 2 1 1 1 o 2 18 11.83 4 l 3 2 1 1 2 4 2 2 1 1
60 60 40 s 27 9 2 3 ~11_:"6 -48.9 2 2 5 1 o 2 4 4.00 o 5 3 3 1 2 l 2 l l 2 3
61 61 so 1 53 ·1' -1 _-3 :so~5 75.1 2 1 1 3 o 2 36 10.00 o 2 l 2 2 l 2 4 3 l 2 2
62 62 46 1 39 13 2 2 22 ..-s 50.1 l l 5 l o 2 23 1.00 o 5 3 3 1 1 1 1 l l l l
63 63 72 6 47 14 1 1 ,55.7 -59.5 l 1 1 1 o 2 27 S.00 o s 1 3 3 2 l 5 3 3 4 l
64 64 40 1 27 11 2 2 :-is.:-s 30.4 4 2 2 2 1 2 5 2.00 2 5 3 l 2 2 2 4 2 3 1 3
6S 65 40 6 40 10 2 -.2 -_1'7.0 %9.3 2 1 s 3 o 2 13 4.00 o 5 3 3 4 2 2 s 2 2 4 2
66 66 30 7 27 12 1 1 15.S 17.0 2 l s 1 2 2 27 o.so o l 3 3 4 2 3 s l l 4 2
67 67 so 1 35 15 1 1 ~43.3 43.3 l l 1 1 l 2 18 l.o.oo o 5 1 1 2 2 2 4 1 3 1 2
68 68 40 3 25 16 1 -3 22~0 52.3 1 1 5 1 o 2 8 2.SO o 5 1 2 l 1 l 2 l l l 2
69 69 35 7 53 9 1 1 10.2 15.6 l 1 5 1 1 2 34 5.00 o l 3 3 2 2 4 5 3 3 2 2
70 70 40 2 35 16 1 1 41.3 41.3 2 l s 1 o 2 13 6.41 3 1 l 2 2 1 2 2 2 1 2 1
71 71 48 7 43 12 1 2 Sl.2 67.9 l 2 1 1 o 2 26 11. 00 2 1 1 2 l 1 l 4 3 l 1 1
72 72 40 2 33 14 -2 ,3 19.8 62.S 2 2 1 1 1 l 12 2.00 l 2 3 2 3 l 2 s 2 1 1 2
73 73 40 6 48 12 1 3 so.o 54.l 2 1 4 3 2 l 32 21.00 4 s 2 2 4 2 2 5 3 l 4 3
74 74 SS 1 29 16 1 1 23 •. 6 34.8 2 l 5 1 o 2 11 1.00 1 l 1 l 2 1 3 4 1 2 1 4
7S 75 40 4 26 13 2 1 19.3 19.6 2 2 3 1 o 2 10 4.00 5 4 2 2 1 1 2 4 2 2 3 2
76 76 40 1 23 16 2 1 16.0 16.9 1 l 2 1 o 2 6 0.75 o l 1 3 1 1 1 l 2 1 l 4
77 77 48 4 30 14 2 2 ]:8.1 41.8 2 1 1 2 l 2 4 1.00 1 l 3 2 1 2 2 4 1 2 1 1
78 78 40 4 53 12 2 1 21.7 35.7 2 l 5 2 o 2 15 12.50 1 1 3 2 3 2 2 4 4 2 2 1
79 79 40 6 53 12 1 -2 39.0 43.9 2 2 s 1 o l 30 o.os o 2 3 2 2 2 2 3 2 2 2 l
80 80 40 7 . 43 14 1 1 30.9 30.9 l 1 5 3 o 2 37 2.00 o 4 3 3 3 2 2 3 1 1 4 3
81 81 40 6 30 13 1 2 32.3 39.3 2 1 5 1 o 2 11 10.00 2 2 3 2 2 2 2 3 2 2 3 1
82 82 40 4 27 14 1 2 17.9 46.S 2 2 5 1 2 2 17 o.so o 2 3 3 3 2 2 3 2 2 2 2
83 83 35 2 S9 15 1 2 39.8 69.0 1 1 5 1 o 2 42 6.00 o s 3 3 1 1 1 2 l 2 1 4
84 84 40 2 36 16 2 1 37.2 -38.8 2 l 4 2 o 2 19 12.50 1 4 3 3 3 2 2 2 3 1 1 1
85 8S 40 2 52 16 1 2 54.6 56.7 4 2 s 1 o 1 30 21.00 l 4 3 3 2 1 2 3 3 2 2 2
86 86 50 6 40 14 1 2 18.8 57.4 1 1 5 3 o 2 24 1.50 1 s 3 1 1 l 1 1 l 1 1 1
87 87 59 7 29 17 1 2 39.6 46.6 1 1 l 2 o 2 8 2.83 o s 3 3 1 2 2 2 4 2 3 3
88 88 40 3 40 14 1_ 2 78.0. 92.9 1 1 s 1 o 2 23 4.33 o 1 l 3 1 1 3 4 5 2 1 3
89 89 45 1 36 12 2 1 25.2 2S.9 3 2 1 l o 2 20 10.00 1 2 2 2 3· 2 2 3 2 1 4 1
90 90 45 2 38 20 1 1 64.S 65.7 1 1 s 3 o 2 21 4.00 2 l l l l 1 2 2 2 2 l 4
91 91 43 1 64 13 2 1 28.6 35.2 1 2 4 1 o 2 21 7.00 1 5 3 2 1 l l 1 2 2 2 1
92 92 SS l 43 16 2 2 61.7 78.8 1 1 5 1 o 2 25 18.00 2 5 3 2 2 1 2 2 2 1 2 4
- 93 93 46 1 28 16 2 1 35.l 38.3 2 2 5 1 o 1 12 0.16 o 2 2 3 2- 2 2 5 2 2 1 2
94 94 40 4 52 14 2 1 20.6 47.3 2 1 s 1 o 2 20 3.00 1 2 1 3 1 2 2 4 2 1 2 2
9S 95 30 3 48 12 2 2 13.7 36.1 1 2 5 l o 2 15 1.66 o 5 l 3 1 2 l 2 1 3 1 1
96 96 40 3 52 12 1 2 40.8 96.2 3 l 5 1 1 2 35 0.08 o 5 1 3 l 2 2 4 l 1 3 1
97 97 40 4 43 12 2 2 19.7 57.8 1 2 5 1 o 2 27 9.41 1 4 3 3 3 2 1 2 2 2 1 2
98 98 36 4 39 13 2 3 27.l 31.2 2 2 5 l o 2 21 16.00 o s 2 2 2 1 2 4 3 2 2 1
99 99 so 6 29 15 1 1 39.2 63.6 1 2 4 2 o l 8 1.00 o 4 3 3 2 2 2 4 2 1 2 2
100 100 48 5 34 14 l 2 21.1 33.4 1 1 5 1 o 2 17 10.00 2 l 3 2 1 l 2 4 1 1 1 2
Tabla 2.1 (Continuación)
R G M W E N F S A O P U e S T
W R F IJE E R M UUEDIRRSNOCR
O E I I SCOTTM K P MTXVDGOTMWHA
I RO A N N AHBARU Y Y PPPAEMUAAROI
D KC E Re e TWCHAI E E RRRNCODYNKON
O N HC A DSN O O JOHEUN A A OOOCINOORRLI
B U R U G U E R M M O R A A M O R R M M M E D E R R E E N N
S M SP E CXS E E BKRDAN SS OOOSEYGGLLGG
2. 1 1• 1 · La encuesta de la muestra
Diariamente leemos noticias referentes a los resultados de investigaciones o
encuestas de opinión en nuestro periódico u oímos algún comentario interesante
o emocionante por radio o televisión. Es claro que los avances en la tecnología de
la información han llevado a una proliferación de la investigación de encuestas.
No toda esta investigación es buena, significativa o importante (referencia 2). Es
esencial que aprendamos a evaluar críticamente lo que leemos y escuchamos y que
descartemos las encuestas que carezcan de objetividad y credibilidad. En particu-
lar, debemos examinar el propósito de la encuesta, por qué se elaboró y para quién.
Recuerde que existen cuatro razones principales para recolectar datos: (1) propor-
cionar la entrada para un estudio de investigación, (2) medir el desempeño, (3)
ampliar la toma de decisiones o (4) satisfacer nuestra curiosidad. Una encuesta de
opinión o un estudio aplicado para satisfacer nuestra curiosidad es principalmente
para entretenimiento. Su resultado es un "fin en sí mismo" más que un "medio
para un fin". Debemos ser más escépticos respecto a una encuesta semejante
debido a que el resultado no debe aplicarse a otro uso.
El primer paso para evaluar una encuesta es determinar si se basó en una mues-
tra de probabilidad o en una no probabilística (como se analizó en la sección 2.6). Tal
vez recuerde que en un estudio enumerativo, la única forma de que hagamos infe-
rencias estadísticas correctas para una población partiendo de una muestra y de que
interpretemos los resultados es a través del uso de una muestra de probabilidad. Las
encuestas que emplean métodos de muestreo no probabilístico están sujetas a graves
sesgos en las entrevistas, tal vez no intencionales, que pueden invalidar sus resulta-
dos. En 1948, por ejemplo, cada uno de los encuestadores principales empleó el
muestreo de cuota y predijo incorrectamente el resultado de las elecciones presiden-
ciales (véase la referencia 9). Como se muestra en la fotografía de la página 42 (figura
2.8), al menos un periódico de amplia circulación confió en la exactitud de los son-
deos e imprimió su primera edición basándose en lo que se predijo que ocurriría, ¡en
vez de esperar a que se contaran las boletas! Desconcertadas por la sorprendente vic-
toria del beneficiado, el presidente Harry S. Truman, después de que todas predijeron
la elección del gobernador Thomas E. Dewey, las organizaciones de sondeos adop-
taron los métodos de muestreo de probabilidad para elecciones futuras.
Aun cuando las encuestas emplean métodos de muestreo de probabilidad
aleatorios, están sujetas a errores potenciales. Existen cuatro tipos de errores de
encuesta (referencia 7):
l. Error de cobertura o sesgo de selección.
2. Error de no respuesta o sesgo de no respuesta.
3. Error de muestreo.
4. Error de medición.
Un buen diseño de investigación de encuestas intenta reducir o minimizar estos
diversos errores de encuesta, a menudo a un costo considerable.
2. 1 1 • 5 Error de medición
En la práctica de una buena investigación de encuestas, se diseña un cuestionario
con la intención que permita la recolección de información significativa. Los datos
obtenidos deben ser válidos; es decir, deben evaluarse las respuestas "buenas" y esto
debe hacerse de una manera que se obtengan mediciones significativas.
Pero aquí hay un dilema: la obtención de mediciones significativas es a
menudo más fácil de decir que de hacer. Considere el siguiente proverbio.
El hombre que tiene un reloj siempre sabe la hora;
el hombre que tiene dos relojes siempre busca identificar el que está correcto;
el hombre que tiene diez relojes siempre recuerda la dificultad de medir el tiempo.
Desafortunadamente, el proceso para obtener una medición a menudo está regu-
lado por lo que es conveniente, no por lo que se necesita. Y las mediciones obtenidas
son a menudo sólo un sustituto de las realmente deseadas.
El error de mrdiciqn se i;efiere a inexactitudes en las respuestas
registradas gue ocurren debido a una mala fo~~ulació~- de las pregunta~
el efecto de ~trevistador sobre el encuestado o el esfuerzo hecho por el
encuestado.
Se ha puesto mucha atención al error de medición que ocurre debido a una
mala formulación de las preguntas. Una pregunta debe ser clara, no ambigua.
Además, debe presentarse objetivamente de una manera neutral; las "preguntas
sugerentes" deben evitarse.
Como un ejemplo, en noviembre de 1993 el Departamento del Trabajo de
Estados Unidos informó que la tasa de desempleo en ese país se había subestimado
durante más de una década debido a una formulación errónea del cuestionario en
la encuesta de población actual. En particular, la formulación conducía a un sub-
conteo significativo de mujeres en la fuerza laboral. Dado que las tasas de desem-
pleo están vinculadas con los programas de beneficios como los sistemas de
compensación de desempleo estatal, era imperativo que los investigadores de
encuestas gubernamentales rectificaran la situación ajustando la formulación del
cuestionario.
Podemos demostrar el impacto de la formulación de preguntas sobre las
respuestas obtenidas refiriéndonos a las dos versiones siguientes de una pregunta
hecha por Yankelovich & Partners en encuestas nacionales aplicadas durante la
campan.a presidencial de 1992 (Véase la referencia 6):
• ¿Piensa que por cada dólar de incremento de impuestos debería haber
$2 de reducción de gastos, destinando los ahorros a una reducción del
déficit y la deuda?
• ¿Estaría a favor o en contra de una propuesta de reducir el gasto en $2
por cada dólar de nuevos impuestos, destinando los ahorros a una
reducción del déficit, incluso si esto significa reducciones en programas
sociales como atención médica y educación?
Las respuestas a la primera versión de la pregunta fueron las siguientes: 67% dijo
"sí", 18% dijo "no" y 15% dijo "no sé". Por otra parte, las respuestas a la versión
alternativa de la pregunta fueron completamente opuestas: 33% dijo estar "a
favor", 61% dijo estar "en contra" y 6% dijo "no sé". ¿Qué pasó aquí? ¿Por qué
.,,
~.i
'".'
Categórica Numérica
a leer cualquiera de las secciones que pudieran haber parecido poco claras para ver
si ahora tienen más sentido.
Una vez que los datos han sido recolectados, ya sea en forma de una fuente
publicada, un experimento diseñado, un estudio observacional o una encuesta
como la usada en Kalosha Industries, los datos deben organizarse y prepararse con
el fin de ayudarnos a hacer diversos análisis. En los siguientes tres capítulos, se
demostrarán métodos para la presentación tabular y diagramática, se describi-
rán diversas técnicas de "análisis exploratorio de datos" y se desarrollarán una
diversidad de mediciones de resumen descriptivo, útiles para el análisis e interpre-
tación de datos.
TÉRMINOS CLAVE
datos 12 medición nominal 16
datos continuos 15 medición ordinal 16
datos discretos 15 muestra aleatoria simple 23
definición operacional 18 muestra con reemplazo 24
diseño de un experimento 14 muestra de probabilidad 23
encuesta 14 muestra no probabilística 22
error de cobertura 42 muestra sin reemplazo 24
error de medición 44 población objetivo 24
error de muestreo 43 preguntas de extremo abierto 31
error de no respuesta 43 prueba piloto 22
errores de encuesta 41 sesgo de no respuesta 43
escala de cociente 17 sesgo de selección 42
escala de intervalo 17 tabla de números aleatorios 25
estudio observacional 14 valores faltantes 31
fuentes primarias y secundarias 13 variable aleatoria categórica 15
GIGO 15 variables aleatorias 15
marco de población (listado) 24
Estudio de caso A 11
2. Un análisis de cómo y encuestados, a fin de
dónde se aplicará la ayudarlos en el llenado del
encuesta (es decir, cómo cuestionario.
planea muestrear 300 ex 6. Un análisis de cómo planea
alumnos de la lista de 3000 probar la validez y/o
graduados en las dos clases) ambigüedad del
3. Un primer borrador del cuestionario
cuestionario (que contenga 7. Una demostración de cómo
una secuencia organizada se codificarán e ingresarán
de preguntas tanto las respuestas simulando la
numéricas como entrada de datos para un
categóricas, incluyendo encuestado hipotético,
definiciones operacionales John Q. Doe, graduado de
para cada variable, todas las la generación 85.
etiquetas de categoría y la 8. Una declaración de que ha
asignación de columnas tomado en consideración
para la entrada de datos) aspectos como los costos
4. Un primer borrador de la involucrados en la
carta introductoria que se conducc.ión de la encuesta,
usará con el cuestionario · necesidades personales y
S. Un primer borrador de tiempo requerido para
cualquier instrucción instrumentación y
especial para los conclusión.
Notas finales
1 Newsday, abril 25, 1988. 3 De las experiencias del proyecto de lotería de 1969, la
2 Es interesante observar que ya sea que muestreemos con lotería de 1970 intentó corregir los posibles problemas de
reemplazo de poblaciones finitas o que muestreemos sin mezclado y selección. Hoy en día, el proceso de mezclado y
reemplazo de poblaciones infinitas (como algunos procesos selección usado en las loterías estatales televisadas parece
de producción continuos actuales), las fórmulas usadas son aleatorio; la única intervención humana es el anuncio de
las mismas. los números seleccionados.
Referencias
l. Cochran, W. G., Sampling Techniques, 3a. ed. (Nueva York: 7. Groves, R. M., Survey Errors and Survey Costs (Nueva York:
Wiley, 1977). Wiley, 1989).
2. Crossen, C., "Margln of Error: Studles and Surveys 8. Hansen, M. H., W. N. Hurwltz, y W. G. Madow, Sample
Proiiferate, but Poor Methodology Makes Many Survey Methods and Theory, vols. I y II (Nueva York: Wiley,
Unreiiable", The Wall Street Journal, 14 de noviembre de 1953).
1991, pp. Al y A9. 9. Mosteller, F., et al. The Pre-Election Polls of 1948 (Nueva
3. Deming, W. E., Sample Design In Business Research (Nueva York: Social Sclence Research Council, 1949).
York: Wiley, 1960). 10. Rand Corporation, A Million Random Digits with 100,000
4. Deming, W. E., Out of the Crisis (Cambildge, MA: Normal Deviates (Nueva York: Free Press, 1955).
Massachusetts lnstitute of Technology Center for 11. Robbins, S. P., Management, 4ta. ed. (Englewood Cliffs, NJ:
Advanced Engineering Study, 1986). Prentice Hall, 1994).
5. Gallup, G. H., The Sophisticated Poll-Watcher's Guide
(Princeton, NJ: Princeton Opinion Press, 1972).
6. Goleman, D., "Pollsters Enlist Psychologists in Quest for
Unbiased Results", The New York Times, 7 de septiembre de
1993, pp. el y el l.
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVO DEL Mostrar cómo organizar y presentar
"' de manera más eficaz datos
CAPITULO numéricos reunidos en tablas y
diagramas.
IH 1 Introducción
En el capítulo anterior aprendimos cómo recolectar datos mediante una investi-
gación de encuestas. Corno se señaló en la sección 2.5, puesto que el muestreo
ahorra tiempo, dinero y mano de obra, generalmente tratamos con información
de muestras antes que con datos de toda una población. No obstante, sin importar
si tratamos con una muestra o con una población, corno regla general, cuando una
serie de datos que hemos reunido contiene aproximadamente 20 o más observa-
ciones, la mejor forma de examinar tales datos masivos es presentarlos en forma
de resumen construyendo tablas y diagramas apropiados. Entonces podemos
extraer las características importantes de los datos de estas tablas y diagramas.
Por lo tanto, este capítulo trata sobre la presentación de datos. En particular,
mostraremos cómo grandes series de datos numéricos pueden organizarse y pre-
sentarse de manera más eficaz en forma de tablas y diagramas con el fin de inten-
sificar el análisis e interpretación de datos, aspectos clave del proceso de torna de
decisiones. Para motivar nuestro análisis sobre la presentación tabular y de dia-
grama de los datos numéricos, podemos ver en el diagrama de resumen del capí-
tulo de la página 94 que las observaciones en nuestra serie de datos son de dos
tipos, de orden de tiempo o independientes. Las observaciones de orden de tiempo
pueden controlarse sobre una gráfica digipunto, mientras que las observaciones
independientes pueden organizarse en una clasificación ordenada o diagrama de
tallo y hojas y luego presentarse en forma tabular como una distribución de fre-
cuencia o en forma gráfica como un histograma, polígono u ojiva.
Después de terminar este capítulo, debe poder:
Tabla 3.1 Datos sin procesar referentes a colegiaturas (en $000) para residentes
fuera del estado en 60 colegios y universidades de Texas.
7.2 4.9 10.7 10.4 6.4 4.8 4.7 4.6 6.0 5.4
4.8 4.7 8.3 3.8 4.8 8.3 6.4 6.6 4.5 8.0
3.6 2.4 8.5 8.8 7.7 4.9 8.6 12.0 4.9 7.0
11.0 4.9 3.9 4.9 4.4 4.9 4.9 8.0 3.6 7.4
7.9 4.9 5.8 3.9 11.6 10.3 3.4 3.9 5.0 3.9
8.0 3.5 4.9 5.8 4.1 3.9 3.5 4.8 5.9 3.6
Fuente: Véase Conjunto de datos especiales 1, apéndice D, páginas Dl-02, tomado de" America's Best Colleges,
1994 College Guide", U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass.
Reimpresión con permiso especial, U.S. News & World Report, © 1993 por U.S. News & World Report y por
College Counsel.
Aun cuando resulta útil colocar los datos sin procesar en una clasificación
ordenada antes de desarrollar tablas de resumen o de calcular mediciones de
resumen descriptivas (véase el capítulo 4), mientras mayor sea el número de obser-
vaciones presentes en una serie de datos, más pesado es formar la clasificación
ordenada. En tales situaciones se hace particularmente útil organizar la serie de
datos en un diagrama de tallo y hojas con el fin de estudiar sus características (referen-
cias 1, 13 y 14).
2 4
3 869694995956
4 9876878599994999918
5 48089
6 4046
7 27049
8 33058600
9
Figura J. I
Diagrama de tallo y holas de 10 743
colegiaturas de residentes fuera del 11 06
estado en 60 colegios y 12 o
universidades de Texas.
Fuente: Tabla 3.1. N=60
2
3
4 9
5
6
7 2
8
9
10 74
11
12
2 4
3 455666899999
4 1456778888999999999
5 04889
6 0446
7 02479
8 00033568
9
10 347
11 06 Figura 3.2
Diagrama de tallo y hojas revisado de
12 o colegiaturas de residentes fuera del estado
N=60 en 60 colegios y universidades de Texas.
También es útil otro tipo de nuevo arreglo. Si deseamos alterar el tamaño del
diagrama de tallo y hojas, éste es lo bastante flexible para tal ajuste. Suponga, por
ejemplo, que deseamos incrementar el número de tallos para que podamos
obtener una menor concentración de hojas en los tallos restantes. Esto se hace en
el diagrama de tallo y hojas presentado en la figura 3.3.
2L 4
2H
3L 4
3H 55666899999
4L 14
4H 56778888999999999
5L 04
5H 889
6L 044
6H 6
7L 024
7H 79
8L 00033
BH 568
9L
9H
lOL 34
lOH 7
llL O Figura 3.3
Diagrama de tallo y hojas revisado de
llH 6 colegiaturas de residentes fuera del estado en
12L O 60 colegios y universidades de Texas usando
N=60 más tallos.
Fuente: Figura 3.2.
2,3 4455666899999
Figura 3.4 4,5 145677888899999999904889
Diagrama de tallo y hojas
revisado de colegiaturas de 6, 7 044602479
residentes fuera del estado en 8,9 00033568
60 colegios y universidades de 10,11 34706
Texas después de condensar 12,13 o
tallos. N=60
Fuente: Figura 3.2.
Observe que las parejas consecutivas de tallos de la figura 3.2 forman el con-
junto reducido de tallos de la figura 3.4 y las hojas correspondientes al miembro
superior de cada pareja están en negritas.
El diagrama de tallo y hojas (revisado) es, tal vez, la técnica más versátil de la
estadística descriptiva. Organiza simultáneamente los datos para posteriores análi-
sis descriptivos (como veremos en el capítulo 4) y prepara los datos tanto para
forma tabular como de diagrama.
(a) Vuelva a arreglar las hojas y forme el diagrama de tallo y hojas revisado.
(b) Disponga los datos en una clasificación ordenada.
(e) /.Cuál de estos dos mecanismos parece dar más información?
Analice.
3.2 Después de cxamirnar los registros de facturación mensuales de una compañía
dt• libros por correo, el auditor toma una muestra de 20 de sus cuentas no
pagadas. Las cantidades adeudadas a la compañía fueron
$4, $18, $11, $7, $7, $10, $5, $33, $9, $12
$3, $11, $10, $6, $26, $37, $15, $18, $10, $21
(a) Desarrolle la clasificación ordenada.
(b) Forme el diagrama de tallo y hojas.
3.3 Los siguientes datos representan la tasa de flujo máxima (en galones por
minuto) de una muestra aleatoria de 34 regaderas probadas a 80 libras por
pulgada cuadrada de presión:
Fuente: Copyright 1990 por Consumers Union of United States, !ne., Yonkers, N. Y.
10703. Adaptado con permiso de Consumer Reports, julio 1990, pp. 472-473.
50 50 50 28 65 40 50 22 32 30
79 50 22 20 35 24 25 120 35 35
65 20 14 25 24 48 15 10 17 50
25 22 60 30 12 30 10 12 20
Fuente: Copyright 1993 por Consumers Union of United States, !ne., Yonkers, N. Y. 10703.
Adaptado con permiso de Consumer Reports, enero 1993, pp. 34-35.
7 9 8 6 12 6 9 15 9 16
8 s 14 8 7 6 10 8 11 4
10 6 16 5 10 12 7 10 lS 7
10 8 8 10 18 8 10 11 7 10
7 8 15 23 13 9 8 9 9 13
La distribución de frecuencia
Usando ya sea los datos sin procesar, la clasificación ordenada o el diagrama de
tallo y hojas revisado de las colegiaturas de residentes fuera del estado de 60 cole-
gios y universidades de Texas (véanse las tablas 3.1 y 3.2 de la página 55 y de la
figura :~.1 de la página 56), el analista investigador desea construir las tablas y dia-
gramas apropiados que amplíen el Informe que está preparando para el gerente de
mercadotl'cnla dl' la cornpaflía dl• servidos de asesoría colegial.
Sin Importar si Sl' sell•cdona una l'laslflcadón ordenada o un diagrama de tallo
y hojas para organizar los datos, al crecer el número de observaciones se hace nece-
sario condensar aún más los datos en tablas de resumen apropiadas_ Así pues, tal
vez deseemos ill'Omodar los datos en agrupamientos de clase (por ejemplo, cate-
gorías) de acuerdo rnn divisiones establecidas convenientemente del alcance de las
observaciones. Tal acomodo de los datos enJq.r,_:rn~.Ja_q:t:t!é!r~~.~-~en.p_m_igª ~I).a~:
tribución de frecuencia .
• ;-..:.::..:-.:.~:-~· ; • ·- ·~ ......._ _ _ ,, ., •.•. , ......... , ••.• 11
Colegiaturas Número de
(en $000) escuelas
2.0-13.0 60
Total 60
rango
Ancho de intervalo (3.1)
número de agrupamiento de clase deseado
Colegiaturas
(en $000) Registros Frecuencia
2.0 pero menor que 4.0 .¡..¡..¡..¡..¡..¡..¡..¡.111 13
4.0 pero menor que 6.0 .¡..¡..¡..¡. .¡..¡..¡..¡. .¡..¡..¡..¡. .¡..¡..¡..¡.1111 24
6.0 pero menor que 8.0 .¡..¡..¡..¡.1111 9
8.0 pero menor que 10.0 .¡..¡..¡..¡.111 8
10.0 pero menor que 12.0 .¡..¡..¡..¡. 5
12.0 pero menor que 14.0 I t
Total 60
Estableciendo los límites de cada clase de esta manera, las 60 observaciones se han
registrado en seis clases, cada una con un ancho de intervalo de 2.0 miles de dólares,
sin traslape. De esta "hoja de trabajo" la distribución de frecuencia se presenta en
la tabla 3.3.
La principal ventaja de usar una de estas tablas de resumen es que las princi-
pales características de los datos se hacen evidentes inmediatamente para el lector.
Por ejemplo, de la tabla 3.3 vemos que el alcance aproximado de las 60 colegiaturas
va de 2.0 a 14.0 miles de dólares, en la enseñanz¡i. fuera del estado, en la mayoría
de las escuelas de Texas tendiendo a agruparse entre 4.0 y 6.0 miles de dólares.
Usando las distribuciones de porcentaje de las tablas 3.5 y 3.7, ahora resulta sig-
nificativo comparar las escuelas de los dos estados en términos de las colegiaturas
cobradas a residentes fuera del estado. De las dos tablas resulta evidente que las cole-
giaturas generalmente son menores en Texas que en Carolina del Norte. Por ejemplo,
en Texas las colegiaturas por lo general se agrupan entre 4.0 y 6.0 miles de dólares
(es decir, 40.0% de las escuelas), mientras que en Carolina del Norte las colegiatu-
ras por lo general se agrupan entre 6.0 y 8.0 miles de dólares (es decir, 46.7% de las
escuelas). Además, podemos observar que los alcances en las colegiaturas pueden
aproximarse fácilmente a partir de las tablas. En Carolina del Norte, el alcance en las
colegiaturas es aproximadamente 16.0 miles de dólares (es decir, la diferencia entre
18.0, el límite superior de la última clase, y 2.0, el límite inferior de la primera clase),
mientras que en Texas el alcance es aproximadamente 12.0 miles de dólares (es decir,
14.0- 2.0). En el capítulo 4 se analizarán otras mediciones de resumen que amplia-
rán un análisis comparativo de las colegiaturas entre los dos estados.
3.S.I Histogramas
Los histogramas son diagramas de barras verticales en los que se cons-
truyen barras rectangulares en los límites de cada clase.
Al graficar histogramas, la variable aleatoria o fenómeno de interés se despliega a
lo largo del eje horizontal; el eje vertical representa el número, proporción o por-
centaje de observaciones por intervalo de clase, dependiendo de si el histograma
particular es, respectivamente, un histograma de frecuencia, un histograma de fre-
cuencia relativa o un histograma de porcentaje.
40
35
-- 40.0
(/)
ca
Qi
;:¡
o(/)
30 -
Ql
Ql
"O
25 - 21.7
N
Ql
e:
20 -
Ql
eo 15 - 15.0
13.3
c..
10 - 8.3
5 -
1.7 Figura 3.S
o .· 1 1
Histograma de porcentaje de
o 2 4 6 8 10 12 14 16 colegiaturas de residentes fuera del
Colegiaturas (en $000) estado en 60 escuelas de Texas.
Fuente: Los datos fueron tomados de la
tabla 3.5.
3.S.2 Polígonos
Al igual que con los histogramas, al graficar polígonos el fenómeno de interés se
despliega a lo largo del eje horizontal y el eje vertical representa el número, pro-
porción o porcentaje de observaciones por intervalo de clase.
El polígono de porcentaje se forma permitiendo que el punto medio
de cada clase represente los datos de esa clase y luego conectando la
sucesión de puntos medios con sus respectivos porcentajes de clase.
Debido a que los puntos medios consecutivos son conectados por una serie de
líneas rectas, el polígono algunas veces está dentado en apariencia. Sin embargo,
al tratar con una serie de datos muy grande, si tuviéramos que crear los límites de
las clases en su distribución de frecuencia más juntos (incrementando así el
número de clases en esa distribución), las líneas dentadas del polígono se
"suavizarían".
40 .
I \
35 I \
"'cu
a¡ I \
::::J 30
o
1/)
CD
CD 25
.,·' ''
"'O .1 '
CD f#:
'
·--.. -
20
~CD I
eo 15 I '
a.. I
10
I
I
''
Figura J.6
Polígono de porcentaje de colegiaturas
5
I
I
' ' 'e.
de residentes fuera del estado en 60 o
escuelas de Texas. o 2 4 8 10 12 14. 16
Fuente: Los datos fueron tomados de la
tabla 3.5. ·:Colegiaturas (en $000}
Figura J.7
Polígonos de porcentaje de colegiaturas de residentes fuera del estado
en 60 escuelas de Texas y 45 escuelas de Carolina del Norte.
Fuente: Los datos fueron tomados de las tablas 3.5 y 3. 7.
.,,,
20 ·-·~·,.,
"' .
10 •'.:''
._,. ! .::; ~ ~... , ··~·, '·
o
o 2 ~·,, 6 8 10 12 14 16 18 20
'•\~· .. '1 '.·
Colegiaturas (en $000)
Figura 3.8
Polígono de porcentaje acumulativo de colegiaturas de
residentes fuera del estado en 60 escuelas de Texas.
Fuente: Los datos fueron tomados de la tabla 3.8
analista investigador tal vez desee también aproximar diversas colegiaturas que
correspondan a porcentajes acumulativos particulares. Por ejemplo, ¿25% de
to.das las escuelas de Texas tienen colegiaturas por debajo de esa cantidad? Para
determinar esto, se dibuja una línea horizontal desde el punto de porcentaje acu-
mulativo especificado (25.0) hasta que interseca la curva "menor que". La colegia-
tura qeseada se aproxima entonces bajando una perpendicular (una línea vertical)
en el punto de intersección hacia el eje horizontal. De la figura 3.8, observamos
que esta colegiatura es aproximadamente 4.2 miles de dólares. Otros puntos de
porcentaje comúnmente considerados para tal análisis (véase el capítulo 4) son el
valor de 50.0% y el de 75.0%.
90 ,. ---:
4!-- ...-- --- - --..
... .• ... ;.. 1
,,
60 escuelas de Texas /'
C/l
ca
Qi
::i
80
70
\ '/
/,/
o
C/l
CD
CD
"C
60
f I
l
50
I I
~
CD
CD
40 I ,......__
I
,,, ,,.
o
a. 30 I
20
/ ' I
10 /
o
o 2 4 6 8 10 12 14 16 18 20
Colegiaturas (en $000)
Figura J.S>
Polígonos de porcentaje acumulativo de colegiaturas de residentes fuera del estado en 60 escuelas
de Texas y 45 escuelas de Carolina del Norte.
Fuente: Los datos fueron tomados de las tablas 3.5 y 3.7.
tPagador At t tt tt i\\i.
•·t
Tiempo de procesamiento (en minutos) 1.0 4.e
,.ttttttt
5.0 1.4 1.0 1.7 1.2 2.0 1.3
Figura J. I o
Datos sin procesar referentes al tiempo de procesamiento del pagador (en minutos) para 24
clientes consecutivos en un banco de Manhattan.
Los datos enumerados en la figura 3.10 aparecen en forma sin procesar. Aun
cuando los datos fueron registrados cronológicamente, no deberíamos esperar que
los tiempos de procesamiento (en minutos) relativos a los 24 clientes consecutivos
siguieran ningún patrón ordenado observable. (De hecho, una importante suposi-
ción en los procedimientos inferenciales que analizaremos de los capítulos 10 al 15
será que nuestras observaciones de muestra recolectadas se extraen aleatoria e
independientemente.) Aquí, entonces, sería de interés evaluar gráficamente si los
datos están realmente en forma sin procesar o si existe alguna relación insospe-
chada. -
'--~~~~~~~~~Tiempo
Tendencia positiva Tendencia negativa
en ventas en ventas
Figura J.11
Tendencias observadas en datos graficados en orden secuencial.
Tiempo Número
(en minutos) de clientes
12
•
/""\
11
,1Ó ,,.
ió "g
~ 8 ' ''
'''
'§
~
~
7
6
:' ,,
''
'
..
5
E 4
2 ''
"
3 \
\
2
1 .,, .
' ' .,...,. _"'
QL-411J-1-~...L---l~-L~-'---,1.~-L.~J..:.lll.__,
Figura 3.12
Organización y presentación de datos de tiempo de procesamiento de un pagador de banco.
Fuente: Figura 3.10.
7:
6,
••
o 5. H
8 4.
38 3.
11.
1 •
'
••••'
08305· 2. •
327044037152 1.
98 o.
Figura J.n
Gráfica digipunto de Hunter del tiempo de procesamiento (en minutos) de 24 clientes
consecutivos en un banco de Manhattan.
Por otra parte, las mayores oscilaciones de la gráfica por encima de la línea del cen-
tro comparadas con las distancias por debajo de ésta demuestran la falta de
simetría en esta serie de datos.
(a) Forme una gráfica digipunto para estos ensayos de tiempos usando la
línea del centro de 81 segundos para este periodo de 27 días.
(b) ¿Qué puede concluirse de esta gráfica? Analice.
3.43 Los recibos de ventas totales (en miles de dólares) se registran diariamente en
Ethel's, una boutique de vestidos en la ciudad de Nueva York, durante el
periodo de 28 días de 1 de febrero a 28 de febrero de 1993:
(a) Analice los datos construyendo una gráfica digipunto en donde la línea
del centro sea de 3.9 miles de dólares. Describa cualquier cosa inusual.
(b) ¿Parece haber algún patrón en los recibos de ventas totales con el
tiempo?
RINCOME:
Figure J.IS
Salida de STATISTIX de distribución de frecuencia y porcentaje
Histogram
150
F
r
e
q
u
e 100
n
e
y
D
e
n
s 50
i
t
y
o
10 20 30 40 50 60 70 80 90 100
RINCOME
Figura J. I C5
Histograma de frecuencia de salida de STATISTIX.
Nota: Figuras 3.15, 3.16 y 3.17
Como analizamos en la sección 3.3.4 de la página 65, existe mucha subjetividad al seleccionar límites de clase
en las distribuciones de frecuencia. Aquí observamos que los límites de clase en las distribuciones de
frecuencia y porcentaje obtenidos por STATISTIX en la figura 3.15 coinciden con aquéllos para el histograma y
la ojiva obtenidos por STATISTIX en las figuras 3.16 y 3.17. Puesto que cada paquete estadístico se programa
de manera diferente para establecer los límites de las clases en una distribución de frecuencia, otros paquetes
pueden producir resultados diferentes. Sin embargo, podríamos controlar esto ejerciendo ciertas opciones.
Podríamos entonces establecer los límites inferiores y superiores de las clases según lo deseemos y nuestra
salida sería consistente sin importar el paquete que elijamos.
.80
:: p '"i.
e 60
r
e
e
n 40
t
10 20 ' 30 40 50 .
RINCOM;E
Figura J.17
Ojiva de porcentaje de salida de STATISTIX.
dólare~ yporlp gen~(~ ~~ agiµpa.rr-en los veintes bajos; para las m:ujeres, lo ingresos
:; y·~ · <e' tte'lQ:ty6~.. ~·iru1es cled(>lá;res y se agrupan abrumadorainente en los die-
:' l~~f.::~.S.\~(~t'épóµ'q~rª1)~ia d~los ingresos persop.a~es.femeninos en
. :;tas'Etós'distrlbüdones son :razonablemente similares en forma.
. .' ,;.~~l~ftall"lbi~:tj estatfa ~terésado e~ evaluar otras difer,endas de género
. . ........ , esrespecto aporastraba1adas, duración del empleo y n:umero. de promo-
i.f /_óne$. Un análisis estadístico descriptivo basado en l¡lsrespuestas a éstas y otras
:ptegtlntas referentes a las.yariables numéricas ,en la Encuesta sobre.las.atisfacción
·de los empleados (véase Ensu~sta/Proyecto de. base de datosJle ayudará a tener una
mejor comprensión de l;i composición dela·ftier2la'de tÍábaj() de tiempo completo
de Kaloshá Industries y lo asistirá eíi sus deliberadones coil)a B&L (2orpora:tion
respectq al desartoll() de hri paquete de beneficios a• empleados; · ·
Encuesta/Proyecto de la sección 3 .e
Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestio-
nario de la figura 2.6 de las páginas 28-29 y presentados en la tabla 2.3 de las
páginas 33-40. Deben resolverse con la ayuda de un paquete de computadora
disponible.
Suponga que fue contratado como asistente de investigación de Bud
Conley, vicepresidente de recursos humanos de Kalosha Industries. Él le ha
dado una lista de preguntas (véanse los problemas 3.44 a 3.59) que
necesita responder antes de su encuentro con representantes de B&L
Corporation, la compañía consultora de beneficios a empleados que
contrató.
Para cada uno de los siguientes problemas (3.44 a 3.59) referentes a la
Encuesta sobre la satisfacción de los empleados:
(a) Forme el diagrama de tallo y hojas.
(b) Forme las distribuciones de frecuencia y de porcentaje.
(c) Grafique el histograma. -
2· 8 l
l. .8
l 9 l.
lo· 4. 'ool.34
5 4
,,, 5¡, .s.· 01, .. ;':"!.,' '·1
3 5 S., .,_,-
2 ''6' 12
MTB.· > note• •.sEX•.;:= l 111. for Mala and •s:Ex• = 2 ·is for ~emal:e
·;11
Figura 3.18
Diagramas de tallo y hoja de MINITAB de ingresos personales de empleados de tiempo
completo mujeres y hombres.
Nota: En un diagrama de talio y hojas de MINITAB, los números de la primera columna son conteos
acumulados de las observaciones hasta llegar a la clase que contiene el valor mediano o medio. En el grupo
superior el (29) significa que hay 29 observaciones en la clase que contiene el valor medio. Los números
escritos debajo de (29) son los conteos acumulados, comenzando desde los ingresos más grandes y
retrocediendo hasta la clase que contiene el valor medio. Además, en estos diagramas de tallo y hojas de
MINITAB, los tallos se han dividido en dígitos bajos (L) y altos (H), pero estas letras no aparecen en la
impresión.
A Shrlnklng Catch
Captura anual, estimada, de
otras en la Bahla de
Chesapeake especificada en
millones de buhels
1890's/. . .
,'~ 20 millones
de bushels
1930'• • 7
1962 • 4
1972
1982
1992
...
... 5
3.5
166,000
bushels
Figura 3. 1S>
Representación "inadecuada" de la captura estimada de ostras
(en millones de bushels) en la bahía de Chesapeake durante
varios periodos.
Fuente: The New York Times, 17 de octubre de 1993, pág. 26.
20
"'
al
Qj
15
::l
o
"'
Q)
Q)
"'O 10
e
Q)
E
•::l
z
5
o
o 2 4 6 8 10 26
Colegiaturas (en $000) ··
Figura 3.20
Polígonos de frecuencia "inadecuados" de las colegiaturas de residentes fuera del estado en 60
escuelas de Texas, 45 escuelas de Carolina del Norte y 90 escuelas de Pennsylvania.
Fuente: Los datos fueron tomados de las tablas 3.3 y 3.7 y de "Arnerlca's Best Colleges, 1994 College Guide",
U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass. Reimpresión con permiso
especial, U.S. News & World Report, © 1993 por U.S. News & World Report y por College Counsel.
90
80
70
60
~Q)
::l
50
&lQ)
Q)
40
"'O
eQ) 30
E
'::l
z 20
10
o
o · 14
... ;,e,.. ·,;;'
· .·. ·t'.s. ··
. stú~'.1:.%: ¡ J:;olegiaturllsJen$OOO) .
1
.
- ~ '' :' '
Figura 3.21
Polígonos de frecuencia acumulativa "inadecuados" de las colegiaturas de residentes fuera del
estado en 60 escuelas de Texas, 45 escuelas de Carolina del Norte y 90 escuelas de Pennsylvania.
Fuente: Los datos fueron tomados de las tablas 3.3 y 3.7 y de" Amerlca's Best Colleges, 1994 College Guide",
U.S. News & World Report, resumido de College Counsel 1993 de Natick, Mass. Reimpresión con permiso
especial, U.S. News & World Report, © 1993 por U.S. News & World Report y por College Counsel.
400.
320
,240
Figura J.22
Representación "inadecuada" del
volumen de ventas (en millones de 80
acciones negociadas) de la Bolsa de
2 9 16
Valores de Nueva York en el tiempo.
Fuente: The New York Times, 20 de octubre de bct;
1993, pág. 07.
tado adecuadamente sobre el eje vertical, la gráfica hubiera reflejado con precisión
que sólo se duplicó el número de acciones negociadas el 17 de septiembre respecto
al 12 de octubre.
Problemas de la sección 3. 9
3.60 Según lo enunciado en el último párrafo de la sección 3.9.3 de la página 91,
vuelva a trazar el histograma de porcentaje (figura 3.5 de la página 71)
seleccionando marcas de tictac sobre el eje vertical de O a 100 y luego comente
la estética de su diagrama.
3.61 (Proyecto del estudiante) Traiga a la clase un diagrama de periódico o
revista que considere que es una representación mal trazada de alguna variable
numérica. Esté preparado para presentar el diagrama al instructor con
comentarios sobre las razones por las que considera que es inapropiado.
Asimismo, esté preparado para exponer esto y comentarlo en clase.
Juntando todo
TÉRMINOS CLAVE
agrupamientos de clase 62 distribución de porcentaje 68
ancho de intervalo de clase 63 forma sin procesar 54
"basura diagramática" 88 gráfica digipunto 79
clases 63 histograma 70
clasificación ordenada 55 límites de clase 64
diagrama de tallo y hojas 55 polígono 71
diagrama de tallo y hojas revisado 57 punto medio de clase "o marca de
distribución acumulativa 74 clase" 65
distribución de frecuencia 62 ojiva (polígono acumulativo) 75
distribución de frecuencia relativa 68
3.62 t·fíiiM·l·I•> Escriba una carta a un amigo subrayando lo que considera son las
características más interesantes o más importantes de este capítulo.
3.63 En sus propias palabras, explique la diferencia entre datos sin procesar y una
clasificación ordenada.
3.64 ¿Por qué es ventajoso usar un diagrama de tallo y hojas en vez de una
clasificación ordenada?
3.65 Explique las diferencias entre distribuciones de frecuencia, distribuciones de
frecuencia relativa y distribuciones de porcentaje.
3.66 Al comparar dos o más conjuntos de datos con diferentes tamaños de muestra,
¿por qué es necesario comparar sus distribuciones de frecuencia o de
porcentaje relativas?
3.67 Explique las diferencias entre histogramas, polígonos y ojivas (polígonos
acumulativos).
3.68 Explique las diferencias entre diagramas de tallo y hojas y gráficas
digipunto.
3.69 Los datos sin procesar mostrados a continuación son los sueldos de inicio
de una muestra aleatoria de 100 estudiantes de computación o de sistemas
de cómputo que recibieron sus grados de bachillerato durante 1993:
4.50 6.50 2.00 2.50 4.00 3.50 5.00 3.00 5.00 5.50
1.00 7.50 3.00 2.00 3.00 3.50 3.50 5.00 6.00 4.50
2.00 3.00 3.50 3.50 3.00 3.00 4.00 1.50 1.50 2.50
Fuente: Copyright 1993 por Consumers Union of United States, !ne., Yonkers, N.Y. 10703. Adaptado con per-
miso de Consumer Reports, febrero de 1993, pp. 98-99.
1.00.r-,--~.--~----r----'-'-..--~- ........--.........,...
.90t---,,.'__,.-t-~-'---t--._..,.+.;;;......._~,;.;.....j---~·
-8 .60 1-..;....--+--,;.._+-~""-'-:iil.-;::..,,.,;,:.+;;..+;,,..:....:,-,;.~
<U
~ .sor----+~-'-..........,."-.;..:..,.,.;.,.,f-'--""--+'---"-----1
~<U •401------t-""'--''4-"'+""""-""""-+-------1----~·
·o
~ ,301------t~-+-"---+------+-----1-------1
'
::3
o
I!! .•20 1------1--,....,..--r----+----+-----t
u..
.1 o 1------........._-.,..-;-¡.-...--,-m--.,--_,,.-.,,...,..,----t
.oo~~-------""'eo_,....;.--.~90"'"·_ _ _1_,_2_0_"--.,-,..., Polígonos de frecuencia
relativa acumulativa de
····' · lrigres~s
. '
~aniluare~i(en
,• " .. .
$000) ;' :. .
'
Ingresos familiares para
dos comunidades.
100 r--~---.-~_...,.-"·-·~---.----,..-~----=--
901--~--+~---¡,,,,,.,,,.._,.,.¡.,-,,.-:-~~--='"-t-~--1
801-----11-----t---::tr=--+~--+---~
.g
-m 70
·a.
e 60 1----+----t---#---t---r-+---1-----1
a.
·~ 50
-~: 40 ....._·._ _ _ _ _....,________.,..__ _ _ _ _,___ ___,
ll 30"1----+---..;.i-''---"""*---+---1-----1
~
o
~ 201----+-----...'F---..r--+----+---+-----l
de hipotecas de 100
propietarios de casas de
Penn Estates y 200 de
º...L..:=--~.....~~. ~1~..~~.-1~,5---'-~a-----a~;5-·.--'-'--'e·
Hemlock Farms. T.~sa a~ hiptjt~91l~ (o/~j: · · ·
~. - :. ..·'. ·:'.,:~ ."'
Nota Final
l. Al final de la sección 3.2 comentamos que el diagrama de tanto, el diagrama de tallo y hojas (revisado) es,
tallo y hojas (revisado) es, tal vez, la técnica más versátil en esencialmente, una clasificación ordenada, una distribución
estadística descriptiva porque simultáneamente organiza de frecuencia y un histograma de frecuencia, todos en unó,
los datos para análisis descriptivos posteriores y los sin sacrificar la información original relativa a las mismas
presenta tanto en forma tabular como diagramática. Por lo observaciones individuales.
Referencias
l. Chambers, J. M., W. S. Cleveland, B. Klelner, y P. A. 9. SAS User's Guide Version 6 (Raleigh, NC: SAS Institute,
Tukey, Graphical Methods for Data Analysls (Boston, MA: 1988).
Duxbury Press, 1983). 10. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
2. Croxton, F., D. Cowden, y S. Kleln, Applied General Statistics, Software, Inc., 1992).
3d ed. (Englewood Cliffs, NJ: Prentlce-Hall, 1967). 11. Tufte, E. R., The Visual Display ofQuantitative Information
3. Ehrenberg, A. S. C., "Rudiments of Numeracy", Toumal of (Cheshire, CT: Graphics Press, 1983).
the Royal Statistical Society, Series A, vol. 140 (1977), pp. 12. Tufte, E. R., Envisioning Information (Cheshire, CT:
277-297. Graphics Press, 1990):
4. Huff, D., How to Lie with Statistics (Nueva York: W.W. 13. Tukey, J., Exploratory Data Analysis (Reading, MA:
Norton, 1954). Addison-Wesley, 1977).
5. Hunter, J. S., "The Digidot Plot", The American Statistician, 14. Velleman, P. F., and D. C:Hoaglin, Applications, Basics,
vol. 42 (Febrero de 1988), p. 54. and Computing of Exploratory Data Analysis (Boston, MA:
6. Kimble, G. A., How to Use (and Misuse) Statistics Duxbury Press, 1981).
(Englewood Cliffs, NJ, Prentice-Hall, 1978). 15. Wainer, H., "How to Display Data Badly," The American
7. MINITAB Reference Manual Release 8 (State College, PA: Statistician, vol. 38 (mayo 1984), pp. 137-147.
Minitab, lnc., 1992).
8. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
Additional Instructions for SPSSJPC+ (Chicago, IL: SPSS Inc.,
1986).
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVO DEL Proporcionar una comprensión de las
características o propiedades de los
CAPÍTULO datos numéricos (tendencia central,
variación, forma) y sus mediciones
descriptivas de resumen
correspondientes, como una ayuda
para el análisis e interpretación
de datos.
103
IHI Introducción: Lo que sigue
En los capítulos anteriores aprendimos cómo recolectar y presentar datos numéri-
cos tanto en formato tabular como en formato gráfico. Ahora bien, ¿cómo le
sacamos sentido a tal información? Por ejemplo, ¿qué nos dicen los datos de la
Encuesta sobre la satisfacción de los empleados de Industrias Kalosha de la tabla
2.3 (páginas 33-40)? ¿Cómo puede la B&L Corporation, la compañía de consultoría
sobre beneficios a empleados, usar finalmente estos resultados para desarrollar un
paquete de beneficios para los empleados? Aunque la recolección y la posterior
presentación de los datos son dos componentes esenciales del tema de la estadís-
tica descriptiva, éstos no cuentan toda la historia. Un buen análisis de datos no sólo
implica la presentación (es decir, la graficación) de los datos numéricos recolectados
y la observación (es decir, el estudio) de lo que los datos tratan de transmitir, sino
que también implica el cómputo (es decir, la caracterización o resumen) de las carac-
terísticas clave y la descripción (es decir, el análisis) de los hallazgos. En este capí-
tulo, examinaremos estos últimos aspectos: el resumen, descripción y, finalmente,
la interpretación de los datos.
Con el fin de presentar las ideas importantes del capítulo, podemos ver en el dia-
grama de resumen del capítulo de la página 160 que existen tres características o
propiedades esenciales de los datos numéricos: la tendencia central, la variación y la
forma. El objetivo de este capítulo es proporcionar una comprensión de estas carac-
terísticas o propiedades de los datos numéricos y sus mediciones descriptivas de
resumen correspondientes, como una ayuda para el análisis e interpretación de datos.
Después de concluir este capítulo, usted debe poder:
l. Comprender la propiedad de la tendencia central.
2. Interpretar las diferencias entre las diversas mediciones de tendencia
central como la media, la mediana, la moda, el alcance medio y el
eje medio.
3. Comprender la diferencia entre la tendencia central y la tendencia
no central.
4. Comprender fa· propiedad de la variación.
S. Interpretar las diferencias entre las diversas medidas de variación
como el alcance, el alcance intercuartil, la varianza, la desviación
estándar y el coeficiente de variación.
6. Comprender el papel y el uso de las reglas de Bienaymé-Chebyshev y
reglas empíricas.
7. Comprender la propiedad de la forma.
8. Apreciar el valor de las técnicas de análisis de datos exploratorio: los
resúmenes de cinco números y las gráficas de caja y bigotes.
9. Saber cómo aproximar mediciones descriptivas de resumen de una
distribución de frecuencia, polígono u ojiva.
10. Apreciar el valor de paquetes de software estadístico para calcular las
mediciones descriptivas de resumen.
11. Aprender a distinguir entre las mediciones descriptivas de resumen
adecuadas e inadecuadas que se reportan en los periódicos y revistas,
así como las cuestiones éticas implicadas.
Observamos que las seis escuelas (registradas en el orden en que fueron selec-
cionadas) se presentan junto con sus colegiaturas (en miles de dólares) cobradas a
residentes fuera del estado. ¿Qué puede aprenderse de estos datos que ayude a
nuestro analista investigador en su evaluación? Basándonos en esta muestra,
observamos lo siguiente:
l. Los datos están en forma sin procesar. Esto es, los datos recolectados
parecen estar en un orden aleatorio sin un patrón aparente respecto a la
manera en que se enumeran las observaciones individuales.
2. Cada una de las colegiaturas ocurre sólo una vez. Es decir, ninguna de
ellas se observa con más frecuencia que cualquier otra.
3. La extensión de las colegiaturas varía entre 4.9 y 11.7 miles de dólares.
4. No parece haber ninguna colegiatura inusual o extraordinaria en esta
muestra. Arregladas en orden numérico (es decir la clasificación
ordenada), estas colegiaturas (en miles de dólares) son 4.9, 6.3, 7.7, 8.9,
10.3, 11.7. (Si las colegiaturas, en miles de dólares, hubieran sido 4.9,
6.3, 7.7, 8.9, 10.3 y 28.0, entonces 28.0 miles de dólares se hubiera
considerado una observación extrema o externa.)
Si nuestro analista investigador nos pidiera examinar los datos y' presentar un
breve resumen de nuestros hallazgos, entonces lo único que básicamente
podríamos esperar hacer, sin más entrenamiento estadístico formal, serían comen-
tarios similares a los cuatro anteriores. Sin embargo, al hacer tales comentarios,
hemos analizado e interpretado lo que los datos tratan de transmitir. Un análisis es
objetivo; debemos estar de acuerdo con estos resultados. Por otra parte, una inter-
pretación es subjetiva; podemos formar diferentes conclusiones al interpretar nues-
tros resultados analíticos. De lo anterior, los puntos 2 a 4 se basan en el análisis,
mientras que el punto 1 es una interpretación. Con respecto a esta última, no se
hizo ninguna prueba analítica formal (véase la prueba de corridas del capítulo 12),
simplemente es nuestra conjetura que no existe ningún patrón de la secuencia
de datos recolectados. Además, nuestra conjetura parecería apropiada si la mues-
tra de seis escuelas se extrajo de manera aleatoria e independiente del listado de
población usando los métodos de encuesta descritos en el capítulo 2. Ése fue el caso
aquí.
Ahora veamos cómo podemos aumentar nuestra comprensión de lo que los
datos nos dicen al examinar de manera más formal tres propiedades de los datos
numéricos.
X= X¡ + Xz + ... + xn
n
Para simplificar la notación y por comodidad se usa convencionalmente el término
(que significa la sumatoria de todos los valores X.) siempre que deseemos sumar una
serie de observaciones. Esto es, '
n ,
- L,x,
- í=l
·X=------
n
Figura 4.2
Escala de puntos que representa las
• : ¡,
X=S.3 colegiaturas (en $000) en seis
escuelas de Texas.
4 6 10 12
Figura 4.J
Escala de puntos que representa las
X=8.3 colegiaturas (en $000) en seis
escuelas de Carolina del Norte.
4.4.2 La mediana
La mediana es el valor medio de una secuencia ordenada de datos. Si no hay
empates, la mitad de las observaciones serán menores y la otra mitad serán ma-
yores. La mediana no se ve afectada por ninguna observación extrema de una serie
de datos. Por tanto, siempre que esté presente una observación extrema es apro-
piado usar la mediana en vez de la media para describir una ~~Jie de datos.
Para calcular la mediana de una serie de datos recolectados en su forma sin
procesar, primero debemos poner los datos en una clasificación ordenada. Después
usamos la f'órmula del punto de posicionamiento
n+l
2
Obsevación
ordenada
4.9 6.3
2
7.7
3
1 8.9
4
10.3
5
11.7
6
Mediana = 8.30 miles de dólares
7· 7 + 8 ·9 = 8.30miles de dólares
2
4.4. J La moda
Algunas veces, al resumir o describir una serie de datos, la moda se usa como una
medición de tendencia central. La moda ~Lel~ªlor_de un¡i serie de datos que
aparece co~_J!l~Ji:~<::l.!~P.rtª. Se obtiene fácilmente de una clasificación ordenada.
A diferencia de la media aritmé'°iica~lamocta.no-seveatecta4ii_Q!l<1. o<;,urreI.KJª-·ªe
.f.Ualesquier valores...extremos. Sin embargo, la moda no se u~ª-l!ªra RroJ2QSM.Q1.!!@§
que descriptivos porque es más variable de muestra a muestra que otras mediciones
de tendencia central.
Usando la clasificación ordenada de las colegiaturas cobradas en una muestra
de seis escuelas de Pennsylvania
4.9 6.3 7.7 8.9 10.3 11.7
Moda= Oº
En Richmond vemos que hubo dos modas, 28º y 43º. Estos datos se <k:scrihen coma.
/Ji'mº-4.qle!_~
Xmenores + Xmayores
Rango medio
2
4 ·9 + ll.? = 8.30 miles de dólares
2
.. ·i' . i
2 1 = n + 1 observación clasificada
~= mediana, el valor correspondiente a (n + )
4 2
3(n + 1)
~= valor correspondiente a observación clasificada
4
Q1 = n 4+ 1 observación clasificada
6+1
=- -= 1.75ta. :: 2da. observación clasificada
4
3(n + 1)
Q3 = observación clasificada
4
3( 6 + 1)
= --
4
- = 5.25ta. :: 2da. observación clasificada
Serie 2: 20 12 13 12 14 12 15
(a) Para cada serie, calcule la media, mediana, moda, rango medio y eje
medio.
(b) Compare sus resultados y resuma sus hallazgos.
(c) Compare el primer elemento muestreado de cada serie, compare el
segundo elemento muestreado de cada serie, etc. Describa brevemente sus
hallazgos aquí a la luz de su resumen de la parte (b).
f 4.3 Un entrenador debe decidir cuál de dos corredores de velocidad seleccionar
para la carrera corta de 100 metros en un futuro encuentro. El entrenador
basará la decisión en los resultados de cinco carreras entre los dos atletas
corridas con intervalos de descanso de 15 minutos. Los siguientes tiempos (en
segundos) se registraron para las cinco carreras:
Raza
Atleta 1 2 3 4 5
Sharyn 12.1 12.0 12.0 16.8 12.1
Tamara 12.3 12.4 12.4 12.5 12.4
(a) Basándose en estos datos, ¿cuál de los dos corredores debe seleccionar el
entrenador? ¿Por qué?
(b) ¿Debería ser distinta la elección si el entrenador supiera que Sharyn se
cayó al inicio de la cuarta carrera? ¿Por qué?
(c) Analice las diferencias en los conceptos dela media y la mediana como
mediciones de tendencia central y cómo se relaciona esto con (a) y (b).
n
L(X; -X)= o
í =1
(a) Usando las colegiaturas a residentes fuera del estado de la muestra de seis
colegios y universidades de Texas (véase la página 108), verifique que se
cumple esta propiedad. .
(b) Usando las colegiaturas a residentes fuera del estado de la muestra de seis
colegios y universidades de Carolina del Norte (véase la página 108),
verifique que se cumple esta propiedad.
4. 7 Los siguientes datos representan los precios (sin receptores de césped) de una
muestra de 15 segadoras mecánicas de bolsa lateral de un alcance de
20 pulgadas:
<f (d) Analice las razones de las diferencias en sus respuestas de (a) y (c).
4.8 Los siguientes datos son las cantidades de calorías de una ración de 30 gramos
para una muestra aleatoria de 10 tipos de galletas de chispas de chocolate
recién horneadas:
Producto Calorías
Hillary Rodham Clinton's 153
Original Nestle Toll House 152
Mrs. Fields 146
Stop & Shop 138
Duncan Hines 130
David's 146
David's Chocolate Chunk 149
Great American Cookie Company 138
Pillsbury Oven Lovin' 168
Pillsbury 147
Fuente: Copyright 1993 por Consumers Union of
United States, !ne., Yonkers, N.Y. 10703. Adaptado
con permiso de Consumer Reports, octubre de 1993,
págs. 646-647.
• 4.15 Usando los datos sobre cobros de servicios eléctricos y de gas (problema 3.12
de la página 66):
(a) Calcule la media, la mediana, la moda, el rango medio y el eje medio.
(b) f.Ad?m·f•) Describa la propiedad de tendencia central para estos datos.
4.s.1 --~L.r.3:r.i.82_
El rango es la diferencia el).j;re1ª_n:rnyQi::_yJª.menQrobservación.en..una..serie.de__
datos. Esto es,
. (4.4)
o
o 8
o
7 8 9 10
Figura 4.4
Comparación de tres
EscalaC conjuntos de datos con el
mismo rango.
Mediciones de la variación 1 19
Para los datos de colegiaturas de Pennsylvania tenemos
4. S. 3 La varianza
·----· ...
y la desviación estándar
-_,. ·-- "'"-··---···-- -----·-···----·
~·---·-.•--. ·-··· .. :·-. ··-.-.·..
52 =
f (x
1 -
2
_i=_1_ _ _ __
X')
(4.6)
n-1
...•.;' ..
donde
X = media aritmética de muestra
n = tamaño de muestra
X 1 = iésimo valor de la variable aleatoria X
n
}2(x, - X )2 =sumatoria de todas las_diferencias cuadradas
i =1 entre los valores X 1 y X
Si el denominador hubiera sido nen lugar den - 1, se hubiera obtenido el prome-
dio de las diferencias cuadradas alrededor de la media. Sin embargo. n - Lse usa
aquí debido a ciertas propiedades matemáticas deseables que la estadística 52 posee
que la hacen apropiada para la inferencia estadística (véase el capítulo 9). Si el
tamaño de muestra es grande, la división entre no n - 1 realmente no hace mucha
diferencia.
;=1
S= (4.i(.
n-1 ':'·:
:¿(x; -x) 2
i =1
52
n-1
(10.3- 8.3) 2 + (4.9 - 8.3)2 + ... + (7.7 - 8.3) 2
6-1
31.84
5
= 6.368 (en miles de dólares cuadrados)
y la desviación estándar se calcula como
11
L(X; - x)2
5 = fS2 = ; =1
n-1
= -J 6.368 = 2.52 miles de dólares
Mediciones de la variación ll I
e Lo que indican la varianza y la desviación estándar La varianza y la
desviación estándar miden la dispersión "promedio" alrededor de la media, es
decir, cómo las observaciones mayores fluctúan por encima de ésta y cómo las
observaciones menores se distribuyen por debajo de ésta.
La varianza posee ciertas propiedades matemáticas útiles. Sin embargo, su
cálculo da como resultado unidades cuadradas, miles de dólares cuadrados, dólares
cuadrados, pulgadas cuadradas, etc. Por lo tanto, para un trabajo práctico, nuestra
principal medición de variación será la desviación estándar, cuyo valor está en las
unidades originales de los datos, miles de dólares, dólares, pulgadas, etcétera.
En la muestra de colegiaturas de Pennsylvania la desviación estándar es de 2.52
miles de dólares. Esto nos dice que la mayoría de las colegiaturas de esta muestra se
agrupan en 2.52 miles de dólares alrededor de la media de 8.30 miles de dólares (es
decir, entre 5.78 y 10.82 miles de dólares).
como numerador, porque tal vez recuerde que la media actúa como un punto de equi-
librio para observaciones mayores y menores que ésta. Por tanto, la suma de las
desviaciones alrededor de la media siempre es cero3; es decir
n
L,(X¡ - X)= o
i =1
En consecuencia,
n
L (X¡ -X) = (10.3 - 8.3) + (4.9 - 8.3) + (8.9 - 8.3)
i =1
+ (11.7 - 8.3) + (6.3 - 8.3) + (7.7 - 8.3)
=Ü
Colegiaturas en
. .séis escuelas dt;i
4 Pénrisylvania
Figura 4.S
La media como un Escala en ($000) · X= a.3 ·
punto de equilibrio.
n
rx; ·- nX 2·
(4.8)
sz = _1_=_1_ _ __
n ..::. 1
n
·:k4t~ 11x 2 ..
s =. i·~'t >1·¡
i=I
Las fórmulas de calculadora, ecuaciones (4.8) y (4.9), son idénticas a las fórmu-
las de definición, ecuaciones (4.6) y (4.7). Puesto que los denominadores son
iguales, es fácil mostrar mediante la expansión y el uso de las reglas de sumatoria
(véase el apéndice B) que ·
n n
L(x; - x)2
i =1
Lxf
1=1
-nx 2
"
rx;
i=I
4. 5 .4 El coeficiente de variación
A diferencia de las mediciones previas que hemos estudiado, el coeficiente de
variación es una medk;js)n_relativ.a.de.:variaGKm.. ---···--··.
~
Se expresa
antes que en términos de las unidades de los datos particulares.
como ······-·-
----------·-----· __
un _porcentaje
_, ...
cv = (-=-s)
X
100% = (2.52)
- - 100% = 30.4%
8.30
i!·I Forma
Una tercera propiedad importante de una serie de datos es su forma, la manera en
que los datos se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea.
Si la distribución de los datos no es simétrica, se denomina asimétrica o sesgada.
Para describir la forma sólo necesitamos comparar la media y la mediana. Si
estas dos mediciones son iguales, por lo general podemos considerar que los datos
son simétricos (o de sesgo cero). Por otra parte, si la media excede la mediana, los
datos pueden describirse por lo común como de sesgo positivo o sesgados a la
derecha. Si la media es excedida por la mediana, esos datos generalmente pueden
llamarse de sesgo negativo o sesgados a la izquierda. Esto es,
Media > mediana: sesgo positivo o derecho
Media = mediana: simetría o de sesgo cero
Media < mediana: sesgo negativo o izquierdo
'
El sesgo positivo surge cuando la media se incrementa en algunos valores inu-
sualmente altos¡ el sesgo negativo ocurre cuando la media se reduce en algunos va-
lores extremadamente bajos. Los datos son simétricos cuando no existen valores
extremos reales en una dirección particular de forma tal que los valores bajos y
altos se compensan entre sí.
La figura 4.6 de la página 128 describe las formas de tres series de datos: los
datos de la escala L son de sesgo negativo o izquierdo (puesto que la distorsión a la
izquierda es ocasionada por valores extremadamente pequeños)¡ los datos de la es-
cala R son de sesgo positivo o derecho (puesto que la distorsión a la derecha es oca-
sionada por valores extremadamente grandes)¡ y los datos de la escala S son
simétricos (los valores altos y bajos de la escala se equilibran, y la media es igual a
la mediana).
Para nuestra muestra de seis escuelas de Pennsylvania, los datos de colegiaturas
se muestran a lo largo de la escala de puntos de la figura 4.1 (véase la página 108).
La media y la mediana son iguales a 8.3 miles de dólares, y los datos parecen estar
simétricamente distribuidos alrededor de estas mediciones de tendencia central.
Forma 127
Este conjÚnto de datos está
· sesgado a la izquierda. Describe
un buen desempeño en una
prueba po~:Un€l,cla~e de 15
estudiantes, L,a media (80) es
inferior a ía, mediana (90) debido
a las poéas' c~lif.icaciones malas.
4.30 Usando los datos de precios de las segadoras de pasto del problema 4.7 de la
página 115, describa la forma. (No incluya el precio de la unidad de bolsa
posterior.)
e 4.31 Usando los datos de donaciones del problema 4.10 de la página 116, describa
la forma.
4.32 Usando los datos de "tardanza" del tren del problema 4.11 de la página 117,
describa la forma.
4.33 Usando los datos de consumo de agua del problema 4.12 de la página 117,
describa la forma.
Combina tres mediciones de tendencia central (la mediana, el eje medio y el rango
medio) y dos mediciones de variación (el rango intercuartil y el rango) para darnos
una mejor idea de la forma de la distribución.
Si los datos fueron perfectamente simétricos, lo siguiente se cumpliría:
l. La distancia de ~ a la mediana sería igual a la distancia de la mediana
aQ.
2. La distancia de X a ~ sería igual a la distancia de ~ a X .
3. La mediana, el ejeemedio y el rango medio serían todos iguales:ºlEstas
mediciones también serían iguales a la media en los datos.)
Por otra parte, para distribuciones no simétricas, lo siguiente sería cierto:
l. En distribuciones se~gadas a l~ dere.cha la distancia de ~ a X mayor
excede en gran medida a la distancia de X a ~.
2. En distribuciones sesgadas a la derecha, mediana < eje medio < rango
medio.
3. En distribuciones sesgadas a la izquierda la distancia de X a~
excede en gran medida a la distancia de ~ a X . menor
..,............t-~-----~--1
(e) DistñHuéióri sesgáélaa la,der~ha'.
(e)'p1stÚt¡udq~
,,,, . ':
'fin torm.a
··.-''•,.· ...
·, ' .
·,
d.e u
·'
Figura 4.8
Cinco distribuciones hipotéticas examinadas a través de sus gráficas de caja y sesgos y sus
polígonos correspondientes.
Nota: Las áreas bajo el polígono están divididas en cuartiles correspondientes al resumen de cinco números
para las gráficas de caja y sesgos.
Problemas de la sección 4. 7
4.37 Usando los datos sobre la duración de baterías del problema 4.5 de la página 115:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.29 de la página 127.
Analice.
4.38 Usando los datos de los precios de segadoras (excluyendo la unidad de bolsa
posterior) del problema 4.7 de la página 115:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.30 de la página 128.
Analice.
• 4.39 Usando los datos de las donaciones del problema 4.10 de la página 116:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.31 de la página 128.
Analice.
4.40 Usando los datos de la "tardanza" del tren del problema 4.11 de la página 117:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compare su respuesta en (b) con la del problema 4.32 de la página 128.
Analice.
4.41 Usando los datos del consumo de agua del problema 4.12 de la página 117:
(a) Enumere el resumen de cinco números.
(b) Forme la gráfica de caja y sesgos y describa la forma.
(c) Compara su respuesta en (b) con la del problema 4.33 de la página 128.
Analice.
(4.11)
(4.12)
·N
donde
N = tamaño de la población
X,1 = iésimo valor de la variable aleatoria X
N
L X;= sumatoria de todos los valores X; de la población
i=I
N
L(X;-µx)2 = sumatoria de todas las diferencfas entre los valores X, y µ 1 X
;=1
,. {4:J3j':
cr X = , ·~~f} ,,··:<.'~f~:~}?~~-¡_~··J
N
CV
pob
= (crx
µX
)iooo/o (4.14)
4.8.3 Resultados
Los datos sin procesar de las colegiaturas cobradas (en miles de dólares) en los
N = 90 colegios y universidades del estado de Pennsylvania se presentan en el
Conjunto de datos especiales 1 del apéndice D de las páginas D4-DS. De estos
datos, se obtiene el siguiente diagrama de tallo y hojas revisado (figura 4.9):
2 7
3
4.048999
5.05
6 011113
7 77
8 3334449
9 113334455667777
1ooófa22233346677
' 11 244567779
12 36
.13 0~357
14 1239
. lS 246
·. ··.:··,. ·.· .... , .16 144
Figura 4.9 'J.7 '0177899
Diagrama de tallo y hojas 18 39
revisado de las colegiaturas
cobradas a residentes fuera del 19
estado en 90 colegios y 20
universidades de Pennsylvania. 21
Fuente: Conjunto de datos especiales 22 3
l del apéndice D, páginas 04-DS.
Usando los datos sin procesar o los datos arreglados en el diagrama de tallo y
hojas, se obtienen las siguientes mediciones de resumen:
• Media
· · · to
Punt o d e pos1c10nam1en N +-
=- l ob servac1on
. , c1as1"f'icad a
2
90 + 1 = 45. Sa
= --- observac1on
. , c1as1'f"tca da
2
Para obtener la mediana simplemente contamos (de izquierda a derecha, fila por
fila) hasta la 45a y 46a observaciones clasificadas y tomamos el promedio. En nues-
tros datos, estas observaciones se encuentran en la fila con un "tallo" de 10. Las
"hojas" respectivas son 2 y 2, correspondientes a las colegiaturas de 10.2 y 10.2 , ~
miles de dólares. Por tanto, la mediana es (10.2 + 10.2 )/2 = 10.20 miles de dólares.
• Moda Las colegiaturas observadas con más frecuencia cobradas a residentes
fuera del estado por colegios y universidades de Pennsylvania son 6.1, 9.7 y 10.2
miles de dólares. Los datos son multimodales.
• Alcance medio
X menores + X mayores 2 · 7 + 22 ·3 = 12.50 miles de dólares
2 2
punto de posicionamiento N +-
=- l ob servac1on
. ' c1as1'ficad a
4
• Alcance
•- Alcance intercuartil
• Varianza
N
L(Xi-µx) 2
i =1 (14.9 - 10.89) 2 + (16.4 -10.89) 2 + ... + (4.8 - 10.89) 2
N 90
= 15.594 (en miles de dólares cuadrados)
• Desviación estándar
• Coeficiente de variación
4.8.4 Forma
La forma de la población se obtiene mediante una comparación relativa de la
media y la mediana, apoyada por una evaluación del resumen de cinco números y
la gráfica de caja y sesgos.
El resumen de cinco números es
X menor ~ mediana ~ X mayor
2.70 8.40 10.20 13.30 22.30
Figura 4.10
Gráfica de caja y sesgos de las colegiaturas cobradas a residentes fuera del estado en 90 escuelas
de Pennsylvania.
µx= 10.89
Figura 4.11
Escala de puntos que muestra las colegiaturas cobradas (en $000) en 90 escuelas de Pennsylvania.
Nota: Figura 4.9.
a causa del pequeño tamaño de la muestra y únicamente debido al azar, las cole-
giaturas cobradas por los colegios y universidades seleccionadas son bastante
homogéneas y no logran justificar el rango de las colegiaturas que existe en la
población entera de 90 escuelas. Esto se ilustra claramente en el diagrama de pun-
tos de la figura 4.11. Los datos de muestra no están sesgados a la derecha porque
ninguna de las escuelas seleccionadas tuvo una colegiatura para residentes fuera
del estado (puntos claros) que estuviera entre el 30% de las más altas de la
población de escuelas.
( 1- k\ )100%
Por tanto, para datos con cualquier forma
• Al menos [1- (1/2 2)]100% = 75.0% de las observaciones deben estar
contenidas dentro de distancias de ±2 desviaciones estándar alrededor
de la media.
• Al menos [1 - (1/3 2)] 100% = 88.89% de las observaciones deben estar
contenidas dentro de distancias de ±3 desviaciones estándar alrededor
de la media.
• Al menos [1 - (1/4 2)] 100% = 93.75% de las observaciones deben estar
contenidas dentro de distancias de ±4 desviaciones estándar alrededor
de la media.
Aunque la regla de Bienaymé-Chebyshev es general en naturaleza y se aplica a
cualquier tipo de distribución de da~os, veremos en el capítulo 8 que si los datos
forman la distribución normal de "campana" o gaussiana, 68.26% de todas las
observaciones estarán contenidas dentro de distancias de± 1 desviaciones están-
dar alrededor de la media, mientras que 95.44%, 99.73% y 99.99% de las observa-
ciones estarán incluidas, respectivamente, dentro de distancias de ± 2, ± 3 y ± 4
desviaciones estándar alrededor de la media. Estos resultados (entre otros) se
resumen en la tabla 4.2.
Figura 4.13 A
. B.
Dos distribuciones normales de
campana simétricas.
Figura 4.14
Do1 dl1trlbuclones normales de
campana 1lmétrlcas que difieren
1610 en la tendencia central.
Figura 4.le
Tres distribuciones que difieren
principalmente en forma.
Figura 4.17
Distribución sesgada a la izquierda.
rango medio < media < eje medio < mediana < moda
moda< mediana < eje medio < media < rango medio
1
1
1
1
1
1
1
1
1
1
Media
Mediana
Rango medio
Figura 4.19
Eje medio
Curva de forma rectangular.
Nota: No incluye moda.
30
·r-•
(J)
ca
Qi 25
........ .
::l
o(J) '. . \
Qj ~o I .\.
Qj I ';:' ·:
\ .
"C·
Qj
15 I ''
\·
, l. ' ' :;' ~: :
~ 10
.. 1 .. \, ,. :;J ..
,, ..
Qj ~ ..
f2
o
a.
5
' ~
o f''.
o 10 12 14 16 18 ,2a··
~ '« . ' ' \' ~' :
Colegiaturas (en $000)
Figura 4.21
Polígono de porcentaje de colegiaturas cobradas a residentes fuera del estado en 90 escuelas de
Pennsylvania.
Fuente: Datos tomados de la tabla 4.3.
, .•·.~
, ,,· , ..
' -· .
-.... -
Cll
80
....
''· .,..,
' '
..!!!
~
u
(J)
.. 70
, :.,-:'".
,,.,
Cll
CD 60 i
'(J)
'O 50
•
CD
ae:
,,
40 I
~
o 30
o.
20
10 , ....
.... I
o ...
o 2 4 6, 8 10 12 14 16 18 20 22 24
Colegi¡¡turas (en $000)
Figura 4.22
Ojiva de porcentaje de colegiaturas cobradas a residentes fuera del estado en 90 escuelas de
Pennsylvania.
Fuente: Los datos fueron tomados de la tabla 4.3.
Q) , I
"O 50
-------------------~
.•:
Q)
~Q)
40 , 1
E:?
o 30
a.
-------------:--~:
, : , 1
1
20 • 1 1
, 1 1
10
o
,. , •' 1 1
o 2 4 6 8 10 12 14 16 18 20 22 24
0 1 Mediana ·. Oa
Colegiaturas (en $000)
Figura 4.23
Aproximación de la mediana y los cuartiles a partir de la ojiva de porcentaje.
Fuente: Figura 4.22.
Problemas de la sección 4. 9
4.49 Refiérase a Jos datos de recibos de impuestos de ventas trimestrales del
problema 4.47 de Ja página 140:
(a) Construya una distribución de frecuencia y una distribución de
porcentaje.
(b) Forme la distribución de porcentaje acumulativo.
(e) Grafique Ja ojiva (polígono de porcentaje acumulativo).
(d) Use sus tablas en (a) y (b) y el diagrama en (c):
(1) Aproxime Ja media, mediana, moda, rango medio y eje medio para
esta población.
Éstas y otras preguntas iniciales formuladas por Bud Conley (véase Proyecto
Encuesta/Base de datos al final de la sección) requieren un análisis estadístico descri~:
tivo detallado de las 400 respuestas a la encuesta. En la práctica, un estadístico p~ci'.;;
bablemente usaría uho o dos paquetes estadísticos al efectuar el análisis estadísti~q
descriptivo. Siri ell1bélrgo, aquí se presenta la sálida de computadora de varios paé¡Ü'.e-
~es para que podamos demostrar algunas .de las características de estos paquetes. ' ' :''
'· ' 1 ' • ' • ~ <
TRME,AN ·· STDEV
..... ''M!~
.. ( .. Q3
. , ,,
Figura 4.24
Mediciones de resumen de salida MINITAB.
Nota: Debemos estar familiarizados con todas las mediciones de resumen obtenidas· de la salida de MINITAB
excepto TRMEAN (que está más allá del objetivo de este texto) y SEMEAN (que se estudiará en el capítulo 9).
*
R
1 70 .. •*
*
N
Figura 4.25 e
Gráfica de caja y sesgos de salida de STATISTIX. o
Nota: Existe mucha flexibilidad entre los diversos M 40 1-
paquetes de software estadístico con respecto al diseño y
despliegue de la gráfica de caja y sesgos. Como se
E
1 1
muestra aquí, una gráfica de caja y sesgos obtenida por 1 1
STATISTIX se imprime verticalmente (con los valores
altos hasta arriba de la escala) en vez de horizontalmente
10 - 1
(con los valores altos del lado derecho de la escala).
Además. observamos que los valores extremos y las 400 casos
externas potenciales se señalan por separado fuera de los
sesgos de la gráfica.
en la parte superior de la gráfica de caja y sesgos (figura 4.25) indica que el 25%
superior de los ingresos personales de los empleados se encuentran en el amplio
alcance de 37.85 a 91.9 miles de dólares. No obstante, una mayoría sustancial de los
ingresos personales de los empleados (72.75%) cae entre 15.449 miles de dólares y
43.661 miles de dólares (es decir, el intervalo formado desde X± S). Además (del
resumen de cinco números), aunque los ingresos personales varían en valor de 10.1
a 91.9 miles de dólares, la "propagación media" o alcance intercuartil va de 18.725
a 3 7.85 miles de dólares.
Para responder la pregunta específica B de Bud Conley, se requiere una evalua-
ción de diferencias de género en los ingresos personales de los empleados de
tiempo completo, una clasificación de las respuestas numéricas en las dos cate-
gorías de género (hombre y mujer). Este proceso puede realizarse accesando uno
de los paquetes estadísticos. Una vez que se hace esto, para cada agrupamiento de
género se necesitarían tipos de salidas similares a los presentados en las figura 4.24
y 4.25. Para resaltar esto, la figura 4.26 (página 153) presenta el conjunto de
mediciones descriptivas de resumen de los ingresos personales de los empleados
de tiempo completo hombres y mujeres, y la figura 4.27 (página 154) ilustra las grá-
ficas de caja y sesgos correspondientes. La salida representada en estas figuras
respectivas se obtuvo accesando SAS y SPSS.
De las figuras 4.26 y 4.27, así como de los diagramas de tallo y hojas de la figura
3.18 de la página 87, se observa que mientras las distribuciones de los ingresos per-
sonales de los empleados basados en el género están sesgados a la derecha, los
empleados de tiempo completo, hombres, de Industrias Kalosha tienen ingresos
personales sustancialmente más altos que las mujeres. Las medias, medianas y ejes
medios correspondientes indican cada una que, en promedio, los ingresos perso-
nales de los empleados hombres son de 9 a 10 dólares más. Además, respecto a la
variación, los ingresos personales de los empleados hombres son menos homogé-
neos que los de los empleados mujeres. Como se indica en las desviaciones están-
dar, los rangos y los rangos intercuartiles obtenidos de la figura 4.26, existe
sustancialmente más variación en los ingresos personales de los empleados hom-
bres que en los de mujeres. Sin embargo, tales diferencias en los ingresos perso-
nales de los dos grupos de género se disipan un tanto cuando se hace una
comparación de los coeficientes de variación. Para los empleados hombres la dis-
persión relativa de los ingresos personales alrededor de la media es de 45.3%; para
los empleados mujeres, es de 40.9%.
Figura 4.2.6
Mediciones de resumen de salida de SAS.
Nota: Como vemos de Ja salida bajo Jos encabezados de Moments (momentos) y Quantiles (cuantiles), SAS proporciona un extenso conjunto de
mediciones de resumen, algunas de las cuales todavía no hemos aprendido y otras que no veremos (véase la referencia 8). Las mediciones de
resumen de interés para nosotros se resaltan en blanco.
-•35 320
Male oop o o
Female
smss
00
"ªo 11!16
O+
o 20 40 60 80 100
RINCOME
Figura 4.27
Gráficas múltiples de caja y sesgos de SPSS.
Nota: Observamos que las gráficas de caja y sesgos de SPSS se muestran aquí horizontalmente, con los valores
de ingresos más altos del lado derecho de la escala. Además, vemos que los valores extremos y las externas
potenciales se sei'lalan de manera separada fuera de los sesgos de la gráfica. SPSS proporciona el número del
encuestado junto a las externas sei'laladas. Aunque esto es útil a menudo para localizar un encuestado
particular, cuando hay varias externas muy juntas como en la figura 4.27, los números de encuestados
confunden y son de uso limitado. ·
World
Economies
1
~
1.5
Sept.
-2.0
Aug.
2.2
•
Germany
1e;1;;µ1;;;•u•+1•+•+1•0•1M1••
-1.2 . -2.0
Sept.
2.3
2.2
Aug.
-6.4
~1~
.~~
Brltain
0.1
Aug.
2.0
0.9
July
2.2
~ 1~1
Canada
0.6
Aug.
3.4
-1.1
July
3.5
Mexico
0.2
June
0.3
May
2.4
(qrt. % chg, annualized) 111 11 11 · 1 11 1 11 1 11 1 11 1
Current Account -26.9 -22.3 13.3 7.2. -7.4 -8.5 -2.7 -3.0 -8.8 -6.2 -1.7 -1.9
(billions, local currency) 11 1 Sept. Aug. Aug. 11 1 11 1 Aug.
..July July
Unemployment rate 6.8 6.7 2.9 2.5 ,9;9· ·8.6 10.3 10.4 11.1 11.2 3.9 3.6
. (% of work lorce) Oct. Sept. Sept. Aug, Oct.'. Sept. Sept. Aug. Oct. Sept. Aug. July
Consumar lnflatlon o.o 0.3 0.1 0.3. 0.6 0.3 0.4 0.4 0.1 0;1 0.7 0.5
(monthly % changa) Sept. Aug. Sept. Aug._ Oc). Sept, Sept. Aug. Sept. Aug. Sept. Aug. '~--
10-year Govemment 5.72 5.43 3.69 3.76 . 5.83 5.n 6.94 6.84 8.87 &.n 13.0 . 12.4
bond (weekly%)
Exchange rate 108.4 1 ;1!94 1.687 0.678 0.671 1.297 1.320 3.304 3.298
(weekly per $) •
Data are forthe most recent perlod reportad, comparad wlth the prevlous perlod. G.D.P. figures for Mexlco show growth over 12 months.
Curren! account balances are reportad monthly except for !he U.S., Brltain and Ganada, which are reportad quarterly; flgures for Japan
and Mexico are reportad In billlons of U.S. dollars. The Mexican unemployment rate Is for urban areas and may understate !he rate
nationwide. Bond ratas far Japan, Germa~y and Brltaln are adjusted to be consisten! wlth U.S. and Ganada; Mexican ratas .are lora 28·
day bill. In 1993, Mexico swltched to the new peso, whlch is the old lioso dlvided by 1,000.
Sources: Sal~mon Brothers: Mexlcan Govsmmsnt; S.G. Wattiurp & Company; J.P. ~roan Global ReslJllrch
que una tabla sea una tabla y un diagrama un diagrama. Como hemos estudiado
en el capítulo 3 (y veremos nuevamente en la sección 5.3.1), los diagramas como
éstos requieren que se indique el punto "cero" u "origen". Esto no sucede aquí y el
largo de las barras carece totalmente de significado. De hecho, las barras podrían
nublar la información que se presenta. Las calificaciones SAT se miden sobre una
escala de intervalo (véase la sección 23.2) y tanto los componentes verbales como
los matemáticos comienzan en los 200 puntos. Un lector no familiarizado con
tales pruebas no sabría esto a partir de la representación. Por tanto, el lector
obtiene una visión distorsionada de la magnitud de las diferencias en las califica-
ciones SAT totales promedio. De hecho, ¡algunas de las barras incluso parecen ser
demasiado largas! Por ejemplo, la diferencia entre las longitudes de las barras de
calificaciones SAT totales promedio para Dakota del Norte (1101) y Nuevo México
(1003) debería ser 1.5 más larga que la de Wisconsin (1036) y Wyoming (970). Tal
vez una representación más apropiada y útil de este conjunto de datos sería una
tabla con tres columnas, calificación total promedio, calificación verbal promedio
y calificación matemática promedio; las filas de la tabla (es decir, los estados más
el distrito de Columbia y el promedio nacional combinado) podrían enumerarse
en orden de rango descendiente, del más alto al más bajo, basándose en la califi-
cación total promedio (referencia 2).
\~
N.D.
Ohlo
:,~ Okla.
(f( Ore.
}~
Pe.
R.I.
;:f~~
s.c.
S.D.
Tenn.
Tex.
utah
VI.
Va.
Wash.
w.v•.
Wfs.
Tabla 4.6 i»resentación Wyo,
'inapropiada"
fo califica-
:iones SAT
>or estado.
Fuente: The New York Times, agosto 19 de 1993, pág. A16.
Juntando todo
TÉRMINOS CLAVE
análisis de datos 104 forma sin procesar 105
clase modal 146 gráfica de caja y sesgos 129
cuartiles 112 media 106
coeficiente de variación 124 media aritmética 106
coeficiente de variación de población media de población 132
134 mediana 109
datos agrupados 141 mediciones de resistencia 114
datos no agrupados 141 moda 111
desviación estándar 120 promedio 106
desviación estándar de población 133 propagación media 119
eje medio 112 propiedades de los datos numéricos 106
escala de puntos 107 Ql: primer cuartil 113
externa o valor extremo 105 Q2: sgundo cuartil 113
forma 127 Q3: tercer cuartil 113
44 3S SS S4 78 107 4S 63
4S 22 36 44 50 50 60 30
39 60 2S 2S 25 24 46 71
60 40 22 10 20 30 12 10
Fuente: Copyright 1992 por Consumers Unían of United States,
!ne., Yonkers, N.Y. 10703. Adaptado con permiso de Consumer
Reports, diciembre de 1992, págs. 780-781.
D'sequola .
111 30,000 .·111,11 St~nfqrd ·
~
~
o 20,000
10,000
N/A
o
-
D Los costos de Sequola son promedios del 50% medio de· todos los cobros
por cada operación.
k~l~~~ Los datos de Stanfor~ son el c;osto próme~i() d,~ todas las op~raciones....
Fuente: Centro Médico de Stanford, Hospital Sequoia y Hospital E! Camino.
Injerto
Los costos de El Camino son el promedio de los cobros altos y bajos de un nacimiento:
simple ron una estancia de dos dfas·y un injerto con una e5tancla de nueve días~
Consumo de energía
(BTU) Núm. de hogares
2.4 pero menos de 4.8 2
4.8 pero menos de 7.2 6
7.2 pero menos de 9.6 25
9.6 pero menos de 12.0 29
12.0 pero menos de 14.4 16
14.4 pero menos de 16.8 8
16.8 pero menos de 19.2 3
19.2 pero menos de 21.6 ...!
Total 90
Problema intercapitular
4.82 Refiérase a los datos del problema 3.8 (página 61) que representan la cantidad
de tiempo (en segundos) necesaria para llegar de O a 60 mph durante una
prueba de carretera para una muestra de 22 modelos de automóviles alemanes
y una muestra de 30 modelos de automóviles japoneses:
(a) Usando sus tablas y diagramas de los problemas 3.17 (página 66), 3.24
(página 70), 3.31 (página 73) y 3.39 (página 78):
(l)Aproxime la media, mediana, moda, rango medio y eje medio para
cada muestra.
(2)Aproxime el rango, rango intercuartil, desviación estándar y
coeficiente de variación para cada muestra.
(3)Describa la forma de cada serie de datos.
(b) Usando sus datos del problema 3.8:
(l)Calcule la media, mediana, moda, rango medio y eje medio reales para
cada muestra.
(2) Calcule el rango, rango intercuartil, desviación estándar y coeficiente
de variación reales para cada muestra.
(3) Describa la forma de cada serie de datos.
(c) f·iiiii'Jl.t f•> Compare y contraste sus aproximaciones en (a) con las
0
No tas finales
1. Aunque la palabra promedio se refiere a cualquier medición 4. La regla de Bienayrné-Chebyshev puede aplicarse sólo a distan-
de resumen de tendencia central, se usa más a menudo cias mayores de ±1 desviación estándar alrededor de la media.
corno sinónimo de la media. 5. Aquíµ ± 3cr produce el intervalo -0.96 a 22.74 miles de
2. Estas mediciones se denominan cuantiles. Algunos de los dólareS; sin embargo, una colegiatura negativa no tiene sentido
cuantiles más ampliamente usados son los deciles (que divi- y registrarnos el intervalo corno O a 22.74 miles de dólares.
den los datos ordenados en décimos) y los percentiles (que 6. Observaremos en la sección 8.3 que el alcance "práctico" de
dividen los datos ordenados en centécimos). Para mayor datos normalmente distribuidos es seis distancias de
información sobre estas mediciones, véase la referencia 1. desviación estándar. Por consiguiente, la desviación estándar
3. Usando las reglas de sumatorias del apéndice B, hacernos la es aproximadamente un sexto del rango. Además, para una
siguiente demostración: serie de datos que está normalmente distribuida, el rango
intercuartil es 1.33 distancias de desviación estándar. Por
n tanto, la desviación estándar es aproximadamente tres
L,(xi - x) = o
;= 1
cuartos del alcance intercuartil. Con una serie de datos que
está aproximadamente distribuida en forma normal, el
promedio de estas dos aproximaciones proporcionaría una
"
¿xi "
- ¿x =o estimación más cercana de la desviación estándar.
7. De la tabla 4.5, si lo deseáramos, podríamos calcular, fila
I=1 I =1 por fila de cada uno de los indicadores económicos dados,
11
Referencias
l. Croxton, F., D. Cowden, y S. Klein, Applied General Statistics, 7. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
3a. ed. (Englewood Cliffs, NJ: Prentice-Hall, 1967). Additional lnstructions for SPSS/PC+ (Chicago, IL: SPSS !ne.,
2. Ehrenberg, A. S. C., "Rudiments of Numeracy, 11 foumal of 1986).
the Royal Statistical Society, Series A, vol. 140 (1977), págs. 8. SAS User's Guide Version 6 (Raleigh, NC: SAS lnstitute, 1988).
277-297. 9. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
3. Huff, D., How to Líe with Statistics (Nueva York: W. W. Software, lnc., 1992).
Norton, 1954). 10. Tukey, J., Exploratory Data Analysis (Reading, MA:
4. Kendall, M. G., y A. Stuart, The Advanced Theory of Addison-Wesley, 1977).
Statistics, vol. I (Londres: Charles W. Griffin, 1958). 11. Velleman, P. F., y D. C. Hoaglin, Applications, Basics, and
5. Kimble, G. A., How to Use (and Misuse) Statistics Computing of Exploratory Data Analysis (Boston, MA:
(Englewood Cliffs, NJ: Prentice-Hall, 1978). Duxbury Press, 1981).
6. MINITAB Reference Manual Release 8 (State College, PA:
MINITAB, Inc., 1992).
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Mostrar cómo organizar y presentar
de manera más eficaz datos
CAPÍTULO categóricos en forma de tablas
y diagramas.
,J
169
ijl Introducción
En el capítulo 3 aprendimos que al recolectar un gran conjunto de datos numé!l'i-
cos, la mejor forma de examinarlo es primero organizarlo y presentarlo en un for-
mato gráfico y tabular apropiado. Después podemos extraer las características
importantes de los datos de estas tablas y diagramas y usar esta información junto
con nuestras mediciones descriptivas de resumen calculadas del capítulo 4 para
analizar los datos e interpretar nuestros hallazgos. A menudo, sin embargo, lias
series de datos que recolectamos son categóricas, no numéricas.
Este capítulo, como el capítulo 3, trata sobre la presentación de datos. En
particular, demostraremos cómo las series de datos categóricas pueden organizarse
y presentarse de manera más eficaz en la forma de tablas y diagramas con el fin de
ampliar el análisis e interpretación de los datos: dos aspectos clave del proceso
de toma de decisiones. Para motivar nuestro análisis de la presentación tabulan- y
diagramática de datos categóricos, vemos en el diagrama de resumen de este
capítulo, página 193, que el tipo de representación que desarrollamos depende del
número de variables categóricas que estamos interesados en estudiar. Si las obser-
vaciones en nuestra serie de datos son los resultados de una variable categóricca,
desarrollaremos una tabla de resumen y una diversidad de diagramas. Si nuesttro
interés es la clasificación cruzada de los resultados de dos variables categóricas,
desarrollaremos una tabla de contingencias. Por otra patte, si deseamos examimar
cómo se relacionan varias variables categóricas con una variable categórica particullar,
haremos una clasificación cruzada de los resultados en una supertabla.
Después de terminar este capítulo, usted debe poder:
l. Construir y usar tablas de resumen de frecuencia y de porcentaje,
gráficas de barras, gráficas de pastel, gráficas de puntos y diagramas de
Pareto.
2. Hacer una clasificación cruzada de datos con base en dos variables
categóricas en tablas de contingencias e interpretar los resultados.
3. Hacer una clasificación cruzada de datos con base en varias variables
categóricas en supertablas e interpretar los resultados.
4. Apreciar el valor de usar paquetes de software estadístico para
presentar datos categóricos en tablas y diagramas.
5. Comprender cómo distinguir entre una buena y una mala
presentación de datos categóricos y cuestiones éticas implicadas.
5. 3. 1 La gráfica de barras
La figura 5.1 de la página 172 ilustra una gráfica de barras para los datos de clasifi-
cación institucional de Carolina del Norte presentados en la tabla 5.1. En las grá-
ficas de barras, cada categoría se describe mediante una barra, cuya longitud
representa la frecuencia o porcentaje de observaciones que caen en una categoría.
Para construir una gráfica de barras se hacen las siguientes sugerencias:
l. Las barras deben construirse horizontalmente (como en la figura 5.1)
cuando las observaciones categorizadas son los resultados de una
variable categórica. Las barras deben construirse verticalmente (como en
la figura 5.1) cuando las observaciones categorizadas son los resultados
de una variable numérica.
2. Todas las barras deben tener el mismo ancho (como en la figura 5.1)
para no confundir al lector. Sólo el largo puede diferir.
Figura 5.1
Gráfica de pastel de porcentaje
que ilustra la clasificación
institucional de 45 colegios y
universidades en Carolina del
Norte. Porcentaje de escuelas
Fuente: Los datos fueron tomados de
la tabla 5. l.
Figura 5.2
Gráfica de pastel de porcentaje
que ilustra la clasificación
institucional de 45 colegios y
universidades en Carolina del
Norte.
Fuente: Los datos fueron tomados de
la tabla 5.1.
NAL --e
RAL --------"'.:.:~--;'------®
; 1,JR -------------------------0
Figura 5.3
Gráfica de puntos de porcentaje
EE •
que ilustra la claslflcaclón
institucional de 45 colegios y o 10 20 30 40 50
universidades en Carolina del
Norte. Porcentaje de escuelas
Fuente: Los datos fueron tomados de
la tabla 5.1.
5.2 Los siguientes datos de la página 175 representan las acciones de mercado
(en porcentaje) propiedad de fabricantes de teléfonos celulares portátiles,
transportables y móviles vendidos durante 1992:
Acciones
Fabricante de mercado (en%)
Aldus 4.0
Lo tus 14.6
Microsoft 60.0
Software Publishing 2.9
Wordperfect 9.6
Otros -ª'ª--
Totales 99.9'
'Debido a redondeo.
Fuente: The New York Times, 31 de octubre de 1993, pág. Dl.
100
90
80
70
"'<11
Qi 60
::J
o
"'
(])
(])
50
-o
(]) 40
g
e: 30
(])
r:
o
c.. 20 Flgul"a 5.4
Diagrama de Pareto que muestra
10 la clasificación institucional de 45
colegios y universidades de
o Carolina del Norte.
UR LAR UN LAN EE Fuente: Datos tomados de la tabla 5.1
de la página 171.
Compañía Porcentaje
Algcria 0.77
<iall<in 0.30
l 11donl'sia 1.35
1r{111 3.50
Iraq 0.55
Kuwait 1.30
Libia 1.45
Nigeria 1.90
Qatar 0.42
Saudí Arabia 8.20
Emiratos Árabes Unidos 2.25
Venezuela 3.50
Total 25.49
Tlie New York Times, 25 de enero de 1993, pág. 02 .
Número de reuniones
País efectuadas
Australia 49
Bélgica 50
Canadá 87
Inglaterra 374
Francia 72
Alemania 99
Holanda 83
Hong Kong 116
Italia 115
Japón 1,249
Suiza 61
Otro 396
Total 2,751
Fuente: The New York Times, 16 de
Julio de 1993, pág. DI.
Para construir la tabla 5.2, por ejemplo, las respuestas conjuntas para cada una
de las 45 escuelas respecto al tipo de institución y clasificación institucional se
registran en una de las 10 "celdas" posibles de la tabla. Por lo tanto, del Conjunto
de datos especiales 1 del apéndice D de la página D3, la primera escuela enumerada
(Appalachian State University) es una universidad regional pública. Estas respues-
tas conjuntas se registraron en la celda compuesta por la segunda fila y la cuarta
columna. La segunda institución (Barber Scotia College) es una escuela de artes
Con el fin de explorar cualquier patrón o relación posible entre el tipo de insti-
tución y la clasificación institucional del Consejo de Colegios, es útil convertir
primero estos resultados en porcentajes basándose en
l. El total global (es decir, los 45 colegios y universidades de Carolina del
Norte).
2. Las filas totales (es decir, privadas o públicas).
3. Los totales de columnas [es decir, escuela nacional de artes liberales
(NAL), escuela regional de artes liberales (RAL), universidad nacional
(UN), universidad regional (UR) o escuela de especialidades (EE)].
Esto se hace en las tablas 5.3, 5.4 y 5.5, respectivamente.
Resaltaremos algunos de los resultados presentes en estas tablas para los 45
colegios y universidades del estado de Carolina del Norte. De la tabla 5.3 observa-
mos que
5.5.2 La Supertabla
Una técnica útil para presentar datos que contienen varias variables categóricas es
la supertabla (referencia 9). Una supertabla es esencialmente una colección de
tablas de contingencias, cada una con las mismas variables y categorías de
columna. Sin embargo, se incluyen tantas variables de fila como se deseen para
comparaciones frente a la variable de columna. Los datos de cada celda de la tabla
siempre se dan como un porcentaje de su total de filas correspondiente. Esto per-
mite comparaciones línea por línea de las categorías dentro de una variable de fila
particular, así como para las categorías entre las diversas variables de fila. Esto per-
mite comparaciones línea por línea de las categorías dentro de una variable de fila
particular, así como para las categorías entre las diversas variables de fila.
Tabla S.6 Una supertabla para estudiar las posibles relacio.nes entre diversas carac-
terísticas y clasificación institucional para 45 colegios y universidade~ en
Carolina del Norte.
Clasificación institucional
Variables y
porcentajes de categorías NAL RAL UN UR EE
Tipo de institución:
Privada (66.7%) 6.7% 53.3% 3.3% 36.7% 0.0%
Publica (33.3%) 0.0% 0.0% 20.0% 73.3% 6.7%
Ubicación:
Rural (22.2%) 0.0% 40.0% 0.0% 60.0% 0.0%
Suburbana (24.4%) 18.2% 45.5% 0.0% 36.4% 0.0%
Urbana (53.3%) 0.0% 29.2% 16.7% 50.0% 4.2%
Calendario:
Semestre (91.1 o/o) 4.9% 36.6% 9.8% 48.8% /0.0%
Trimestre (2.2%) 0.0% 0.0% 0.0% 0.0% 100.0%
4-1-4 (6.7%) 0.0% 33.3% 0.0% 66.7% 0.0%
Colegiatura cobrada a residentes
fuera del estado:
$10000 o más (11.1%) 40.0% 20.0% 20.0% 20.0% 0.0%
Por debajo de $10000 (88.9%) 0.0% 37.5% 7.5% 52.5% 2.5%
Nota: Para clasificación institucional: NAL = Escuela nacional de artes liberales: RAL = Escuela regional de
artes liberales; UN= Universidad nacional, UR =Universidad regional; EE = Escuela de especialidades.
Fuente: Conjunto 1 de datos especiales en apéndice D, pág. D3.
Tipo de colegio
Nivel de administración Lenguaje Ivy Otro privado Públicos
Alto (Sr. o superior Vicepr) 45 62 75
Medio 231 563 962
Bajo 254 341 732
Respuesta a país
País Divertido Regular Bueno
Magnífico
Inglaterra 5 32 65 45
Italia :~ 12 32 43
Francia 8 23 28 25
Guatemala 9 12 6 2
Nivel de educación
Bachillerato Parte de Licenciatura
Condiciones financieras o inferior licenciatura o superior Totales
Muy insatisfactorio
4.3%
Un poco insatisfactorio
6.8%
Muy satisfactorio
46.3%
Modorod!lmonto
satlsfuctorlo
42.8 1Yo
Figura S.6 .
Gráfica de pastel de satisfacción con el trabajo de
salida de SPSS.
Nota: Cada uno de los porcentajes de la ¡:ráfica de pasl!•I
obtenidos usando el paquete SPSS SL' rL·dondL'<I y l'i total
suma 100.2'111 debido a tal error Lle rL·Liondeo.
100
90
__ _.
j 80
§ 70
(.)
!!! 60
~
~ 50
Q)
"' 40
Q)
~ 30
Q)
l: 20
~
10
Figura S.7 o
Ordenar el Altas utilidades Oportunidad Sin peligro Horas flexibles
Diagrama de Pareto de características trabajo para de
importantes del trabajo según salida de ascenso despidos
Microsoft EXCEL para Windows.
tante. Otras características del trabajo se citan con mucha menos frecuencia.
12.75% de los empleados afirman que las "oportunidades de avance" son lo más
importante, 6.0% establecen que la "seguridad del trabajo" es lo más importante y
sólo 4.75% dicen que las "horas de trabajo flexibles" son lo más importante.En
respuesta a la pregunta específica de Bud Conley (C), que tiene que ver con un par
de variables categóricas, es deseable una tabla de contingencias. La figura 5.8 mues-
tra la salida de computadora necesaria obtenida al accesar SAS. Observamos de esta
tabla de contingencias de 2 x 7 que, en general, parece haber una relación entre
género y agrupamiento ocupacional en Industrias Kalosha. El porcentaje de hom-
bres que trabajan en algunos marcos ocupacionales difiere sustancialmente del de sus
~------------~--=T=AB=L~E~O~F~S~E~X~B-Y~O-C~c~u=p-------------·-•«••«••'"""""""'"'""'
SEX OCCUP
Frequency
Percent
Row Pct
Col Pct MGL IPROF ITEC/SAL IADMSPT ISERV IPROD !LABOR Total
---------+--------+--------+--------+--------+--------+--------+--------+
MALES 36 33 34 14 18 51 47 :.! _I 1
9.00 8.25 8.50 3.50 4.50 12.75 11.75 58.25
15.45 14.16 14.59 6.01 7.73 21.89 20.17
55.38 50.00 59.65 21.54 62.07 94.44 73.44
---------+--------+--------+--------+--------+--------+--------+--------+
FEMALES 29 33 23 51 11 3 17 lú'/
7.25 8.25 5.75 12.75 2.75 0.75 4.25 41.75
17.37 19.76 13.77 30.54 6.59 1.80 10.18
44.62 50.00 40.35 78.46 37.93 5.56 ~6.56
---------+--------+--------+--------+--------+--------+--------+--------+
Total 65 66 57 65 29 54 64 100
16.25 16.50 14.25 16.25 7.25 13.50 1~.00 100.00
Figura S.8
Tabla de contingencias de género y ocupación; salida de SAS.
Nota: SAS le proporciona al usuario numerosas opciones al dC'sarrollar una tabla de contingencias. Al invocar tales opciones, como v1·111m tl1· la
salida de la figura 5.8, cada celda contiene cuatro piezas de información, la frecuencia o cuenta de celda (resaltada en color), l'l pmn·111;1¡1·
(es decir, la frecuencia de celda como un porcentaje del gran total), el porcentaje de fila (es decir, la frecuencia de celda como u11 p111n·11laj1·
del total de filas) y el porcentaje de columna (es decir, la frecuencia de celda como un porcentaje del total de columnas). Ohs1•rv1• q1ll', .11
invocar estas opciones, ésta tabla toma el lugar de cuatro tablas. (Véanse las tablas S.2-5.5 de las páginas 181-182.)
Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestionario de
la figura 2.6 de las páginas 28-29 y presentado en la tabla 2.3 de las páginas 33-40.
Deben resolverse con la ayuda de un paquete de computadora disponible
Suponga que usted es contratado como asistente de investigación de Bud Conley,
el vicepresidente de recursos humanos de Industrias Kalosha. Él le ha dado una
lista de preguntas (véanse los problemas 5.17 a 5.40) que necesita responder antes
de su reunión con un representante de la B&L Corporation, la compañía consul-
tora sobre beneficios a empleados que él ha contratado.
De las respuestas a las preguntas que se refieren a variables categóricas en la
Encuesta sobre la satisfacción de los empleados, en los problemas 5.17 a 5.28 a
continuación,
Reconocimiento y práctica de una adecuada presentación tabular de diagramas y exploración de cuestiones éticas l BS>
Trabajadores empleados en la agricultura de Estados Unidos y en la exportación agrícola
..---·· ~
Q. r. _,...>··--~-·· ¡
: Cq.\ . · ·r"'"' .,•...- 5.6 milloneS'··--~
,./
~[j 2.1 millones
... -·-
en
' -··~í· arafamilias
.'·.<...~ de miembros·:--
p.
de 1
/~.
-.. ; agricultura r~--~ 1 ; .. ,. agricultores j
·~r-- - ·..J_,,.._ <
. ¡
,.
~
)
Figura S.9
Representación "impropia" de trabajos respaldados a través de la agricultura y
exportaciones agrícolas de Estados Unidos.
Fuente: The New York Times, 19 de octubre de 1993, Suplemento de publicidad, pág. Dl8.
Figura s.10
Representación "impropia" del tamaflo del
departamento de policía por cada 1000
tttttt t
residentes de ciudades importantes de los
Estado Unidos.
Fuente: Extraída de Powell, R., "A Statistical Portrait of
the N. Y. P.D.", The New York Times, 10 de octubre de
1993, pág. 35.
•
Nuevamente, como se mencionó en las secciones 3.9.6 y 4.11.4, las consideraciones éti-
cas surgen cuando alguien está decidiendo qué datos presentar en formato tabular y
gráfico y cuáles no pfesentar. Es de vital importancia al conducir una investigación do- '
cumentar tanto los buenos como los malos resultados, para que aquellos que continúen
tal investigación no tengan que comenzar desde el principio. Además, al hacer pre-
sentaciones orales y presentar informes de investigación escritos, es esencial que los
resultados se den de una manera imparcial, objetiva y neutral. Por consiguiente, debe-
mos tratar de distinguir entre una mala presentación de resultados y una presentación
no ética. Una vez más, como en nuestras discusiones previas sobre consideraciones
éticas, la clave es la intención. A menudo, cuando se omite información pertinente,
simplemente se hace por ignorancia. Sin embargo, un comportamiento no ético ocurre
cuando un individuo oculta deliberadamente los hechos distorsionando una tabla o
diagrama o no reportando resultados pertinentes.
Reconocimiento y práctica de una adecuada presentación tabular de diagramas y exploración de cuestiones éticas 1V1
Problemas de la sección 5. 7
\J 5.42 Usted está planeando estudiar para su examen de estadística con un grupo de
compañeros, a uno de los cuales usted desea impresionar particularmente. Este
individuo se ha propuesto de voluntario para usar un paquete de software
estadístico y así obtener la información, tablas y diagramas de resumen nece-
sarios para un conjunto de datos que contiene varias variables numéricas y
categóricas asignadas por el profesor con propósitos de estudio. Esta persona
viene a usted con las impresiones y exclama: "Lo tengo todo: las medias,
medianas, desviaciones estándar, diagramas de tallo y hojas, gráficas de caja y
sesgos y gráficas de pastel para todas las nuestras variables. El problema es que
parte de la salida se ve extraña, como los diagramas de tallo y hojas y las gráfi-
cas de caja y sesgos para género y especialidad y las gráficas de pastel para el
índice de puntos de calificación y para la altura. Además, no entiendo por qué
el doctor Hunter dijo que no podríamos obtener las estadísticas descriptivas
para algunas de nuestras variables, ¡yo las tengo para todas! Mira, la media
para la altura es 68.23, la media para el índice de puntos de calificación es
2.76, la media para el género es 1.50, la media para la especialidad es 4.33."
Usted mira a su supuesto amigo a lo ojos, respira hondo y contesta ...
5.43 (Proyecto estudiantil) Traiga a clase un diagrama de un periódico o revista
que considere una mala representación de alguna variable categórica. Esté listo
para presentar el diagrama al profesor con comentarios respecto a por qué cree
que es inapropiado. Asimismo, esté preparado para presentarlo y comentarlo en
clase.
>2
Diagrama
Gráfica de barras Gráfica de pastel Gráfica de puntos Fiia%
de Pareto
Columna%
Juntando todo
TÉRMINOS CLAVE
"basura gráfica" 189 gráfica de puntos 173
diagrama de Pareto 176 supertabla 182
gráfica de barras 171 tabla de contingencias 180
gráfica de pastel 173 tabla de resumen 171
Acciones de
mercado
Fábrica de cerveza (en (J'i>)
Fuente Porcentaje
Papel y cartón 37.1
Basura de jardín 17.9
Vidrio 9.7
Metales 9.6
Desechos 8.1
Plástico 7.2
Madera 3.8
Caucho y piel 2.5
Textiles 2.1
Otros 2.0
Total 100.0
Causas de lesiones
espinales Porcentaje
Caídas 20.8
Vehículos de motor 47.7
Deportess 14.2
Violencia 14.6
Otro 2.7
Total TffiI()
Causas de lesiones
espinales deportivas Porcentaje
Buceo 66.0
Futbol 6.1
Gimnasia 2.2
Equitación 2.0
Deportes de invierno de no esquí 2.3
Esquí de nieve :u
Surfing :u
Clavados 2.6
Lucha 2.3
Otro 9.6
Total 100.0
F11mte:rlw Nl'w York Ti111l's, 20 dL• Novil'mhrc dr
1991, pág. 111 l.
Acciones de
Tipo de bebida mercado (en%)
Cerveza 12
Refrescos carbonatados 25
Café 11
Jugo 6
Leche 15
Agua de la llave 19
Otro 12
Total 100
Acciones de
Tipo de refresco carbonatado mercado (en%)
De cola cafeinado 48.0
De cola descafeinado 10.4
Sidra 3.4
Agua de seltz 0.4
Crema 1.4
DrPimienta 3.9
Uva 3.5
Toronja 1.2
Grapefruit 1.0
Lima-limón 9.8
Agua mineral 1.0
Naranja 3.7
Cerveza de raíz 3.7
Agua mineral endulzada 0.4
Agua tónica 0.7
Agua mineral no endulzada 2.2
Otro 5.3
Total 100.0
Fuente: The New York Times, 2 de Mayo de 1992, pág. 19.
(a) Para los datos sobre acciones del mercado de todo tipo de bebidas,
construya:
(1) una gráfica de barras.
(2) una gráfica de pastel.
(3) una gráfica de puntos.
(b) ¿Qué gráfica prefiere para propósitos de presentación? ¿Por qué?
(c) Para los datos sobre acciones del mercado de refrescos carbonatados,
desarrolle la gráfica apropiada para sefialar las "pocas vitales" de las
"muchas triviales".
(d) Analice los datos y resuma sus resultados.
(e) r.t;ijfJ/•i·i•P Escriba una carta al editor de comida de su periódico local
explicando sus resultados.
(f) (Proyecto de clase) Haga que todos los estudiantes de la clase
respondan a la pregunta: "¿Qué tipo de refresco carbonatado prefieres?",
para que el profesor pueda registrar los resultados en un tabla de resumen
en el pizarrón.
(1) Convierta los datos en porcentajes y construya un diagrama de
Pareto.
(2) Compare y contraste los resultados de la clase con los obtenidos
nacionalmente basándose en las acciones de mercado. ¿Qué puede
concluir? Analice.
Acciones de
Región mercado (en%)
Asia-Pacífico 15
Europa 21
Japón 7
EU 48
Otra 9
Total 100
(a) Para los datos sobre las ventas de mercado globales de todos los
productos, construya:
(1) una gráfica de barras.
(2) una gráfica de pastel.
(3) una gráfica de puntos.
(b) ¿Qué gráfica prefiere para propósitos de presentación? ¿Por qué?
(c) Para los datos sobre las ventas netas por segmento de negocios, desarrolle la
gráfica apropiada para señalar las "pocas vitales" de las "muchas triviales".
(d) Analice los datos y resuma sus resultados.
(e) t&iil'J!.i·i•P Escriba una carta a su profesor de comercialización
explicando sus resultados.
5.52 La siguiente tabla proporciona un desglose de porcentajes de los lugares en
que se vendieron computadoras personales en 1987 y 1993:
Porcentaje
de ventas
Tipo 1987 1993
Respuesta directa O 14
Vendedores directos 17 4
Orden por correo 4 3
Comerciantes al por mayor 3 8
Supertiendas O 6
Comerciantes 60 44
Vendedores de valor agregado 11 13
Otro 5 8
Totales 100 100
Fuente: The New Yorlc Times, 30 de Mayo de 1993
pág.FS.
Respuesta porcentual
(región de EU)
Razones principales para
renovación de hospital Oeste medio Norte Sur Oeste
Anticuado 25.2 26.0 25.8 28.5
Demasiado pequeño 20.6 21.3 23.0 23.5
Nueva tecnología 15.6 12.8 15.2 13.6
Demanda de consumidores 12.6 10.6 11.4 12.4
Nuevo servicio 11.2 10.6 11.4 8.4
Constancia de D.M. 7.7 8.9 9.2 7.5
Otra 5.8 8.0 3.2 4.9
Sin respuesta 1.3 ---1&._ ___M__ 1.2
Totales 100.0 100.0 100.0 100.0
Fuente: Reimpreso de Hospitals, vol. 64, No. 4, con Autorización, 20 de Febrero de
1990. Copyright © 1990, American Hospital Publishing, Inc.
(a) Para cada región construya una gráfica apropiada y analice los datos.
(b) t.f;dW•f·I•>- Escriba una carta a su profesor de comercialización analizando
las implicaciones de su análisis.
5.54 (Proyecto de clase) Haga que todos los estudiantes de la clase formen parte de
una clasificación cruzada basándose en género (maculino, femenino) y situación
actual de empleo (sí, no) para que los resultados se registren en el pizarrón.
(a) Construya una tabla con porcentajes de fila o columna, dependiendo de
cuál considera más informativa.
(b) ¿Qué concluiría de este estudio?
(c) ¿Qué otras variables desearía conocer respecto al empleo con el fin de
ampliar sus resultados?
5.55 Desarrolle (en forma de borrador) una supertabla correspondiente a la promo-
ción en el trabajo basándose en género, raza, grupo de edad, situación de
empleo y nivel de ocupación.
5.56 Desarrolle (en forma de borrador) una supertabla correspondiente al propósito
de graduación basándose en género, raza, grupo de edad, situación de empleo,
especialidad universitaria y promedio de calificaciones.
5.57 Desarrolle (en forma de borrador) una supertabla correspondiente al hábito de
fumar cigarros basándose en género, grupo de edad, nivel de ocupación y nivel
de educación.
Nota: La clase debe dividirse en grupos de tres o cuatro estudiantes. Inicialmente se selec-
ciona un estudiante para que sea coordinador del proyecto, otro estudiante registra el
proyecto y un tercero es el cronometrador del mismo. Para que cada estudiante gane
experiencia en el desarrollo del trabajo de equipo y en las habilidades de liderazgo,
Nota final
l. Una cuestión interesante es cómo representar una categoría observaciones? Puede argumentarse que una gráfica de pun-
para la que no hay observaciones registradas. Por ejemplo, tos sería superior a una gráfica de barras en tales circunstan-
la tabla 5.1 de la página 171 presenta cinco clasificaciones cias porque poner un gran punto en el origen refleja de
institucionales posibles. Al construir una de estas tablas de manera más precisa una categoría que no contiene observa-
resumen y registrar las observaciones en sus clasificaciones ciones, en vez de dibujar una línea vertical en el origen
institucionales apropiadas, ¿qué sucede si una de estas cate- para representar el ancho de una barra que no tiene longi-
gorías, digamos las "escuelas especiales" no contenía tud.
Referencias
l. Cleveland, W. S., "Graphs in Scientific Publications", The S. Microsoft EXCEL for Windows: Step by Step (Redmond, WA:
American Statistician, vol. 38 (noviembre de 1984), pp. 261· Microsoft Press, 1993).
269. 6. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
2. Cleveland, W. S., "Graphical Methods for Data Additional lnstructions for SPSS/PC+ (Chicago, IL: SPSS Jnc.,
Presentation: Full Scale Breaks, Dot Charts, and 1986).
Multibased Logging", The American Statistician, vol. 38 7. SAS User's Guide Version 6 (Raleigh, NC: SAS Institute, 1988).
(noviembre de 1984), pp. 270-280. 8. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
3. Cleveland, W. S. y R. McGill, "Graphical Perception: Software, !ne., 1992).
Theory, Experimentation, and Application to the 9. Tufte, E. R., The Visual Display of Quantitative lnformation
Development of Graphical Methods", Joumal ofthe (Cheshire, CT: Graphics Press, 1983).
Statistical Association, vol. 79 (septiembre de 1984), pp.
10. Tufte, E. R., Envisioning lnformation (Cheshire, CT:
531-554. Graphics Press, 1990).
4. Croxton, F., D. Cowden y S. Klein, Applied General Statistics,
3a. ed. (Englewood Cliffs, NJ: Prentice-Hall, 1967).
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVO DEL Desarrollar una comprensión de los
conceptos básicos de probabllldad que
CAPÍTULO son la base necesaria para el estudio
de distribuciones de probabilidad e
inferencia estadística.
203
,.fi i Introducción
En este capítulo estudiaremos varias reglas de probabilidad básica que pueden
usarse para evaluar la posible ocurrencia de diferentes fenómenos. Comenzaremos
por analizar tres diferentes planteamientos para determinar probabilidades que
pueden usarse en diferentes situaciones. Después veremos cómo calcular una varie-
dad de diferentes tipos de probabilidades. Completaremos el capítulo estudiando
reglas para registrar diferentes tipos de contingendas, algunas de las cuales
volveremos a ver cuando se analice la distribución binomial en el capítulo 7.
Al terminar este capítulo, usted debe ser capaz de:
l. Comprender los diferentes planteamientos de la probabilidad.
2. Usar una tabla de contingencias o un diagrama de Venn para descubrir
probabilidades.
3. Comprender las reglas para encontrar probabilidades simples, conjuntas
y condicionales y usar la regla de la adición.
4. Distinguir entre eventos mutuamente excluyentes, colectivamente
exhaustivos e independientes.
5. Usar el teorema de Bayes para revisar probabilidades a la luz de nueva
información.
6. Usar las diversas reglas para contar el número total de resultados.
donde
X;,,, número de resultados en los que ocurre el evento que buscamos
T = número total de resultados posibles ·
El complemento del evento A incluye todos los eventos que no son parte
del evento A. Está dado por el símbolo A'.
Figura 6.l
Diagrama de Venn para los eventos A y B.
y contiene todos los resultados que son parte del evento A, parte del evento B o
parte de ambos A y B. El área del diagrama fuera de A u B contiene aquellos resul-
tados que no son parte de A ni son parte de B.
Para desarrollar un diagrama 'de Venn, A y B deben estar definidos. No importa
qué evento se define como A o B, siempre y cuando seamos consistentes en eva-
luar los diversos eventos.
Para el ejemplo del juego de cartas, los eventos pueden definirse de la siguiente
manera:
A= as B =negra
A'= no as B' =roja
Al trazar el diagrama de Venn (véase la figura 6.3), el valor de la intersección
de A y B debe determinarse de manera que el espacio muestra! pueda dividirse en
sus partes. A n B consiste en todos los ases negros de la baraja (es decir, los dos
resultados as de espadas y as de tréboles).
Puesto que hay dos ases negros, lo restante del evento A (as) consiste en los ases
rojos (hay dos). Lo restante del evento B (cartas negras) consiste en todas las cartas
negras que no son ases (hay 24). Las cartas restantes son aquéllas que no son negras
ni ases (también hay 24).
Figura 6.l
Diagrama de Venn para el ejemplo de la baraja.
-~·-S·,
(a) Dé un ejemplo de un evento simple.
(b) Dé un ejemplo de un evento conjunto.
(c) ¿Cuál es el complemento de tener una tarjeta de crédito bancaria?
(d) ¿Por qué "tener una tarjeta de crédito bancaria y tener una tarjeta de
crédito de viajes y entretenimiento" es un evento conjunto?
(e) Construya un diagrama de Venn.
6.6 Se han llevado a cabo numerosos estudios intensivos de la planeación de los
consumidores para la compra de bienes duraderos como televisores,
refrigeradores, lavadoras, estufas y automóviles. En uno de estos estudios, se le
preguntó a 1,000 individuos de una muestra aleatoriamente seleccionada si
estaban planeando comprar una nueva televisión en los siguientes 12 meses.
Un año después se entrevistó a las mismas personas para ver si realmente com-
praron una nueva televisión. La respuesta a ambas entrevistas se tabula de
manera cruzada a continuación:
= 356 = 89
400 .
. . 194
P(satisfecho y ha progresado) = - = .485
. ' 400
puesto que hay 194 empleados que están satisfechos con su trabajo y han pro-
gresado dentro de la organización.
Ahora que hemos analizado el concepto de probabilidad conjunta, la
probabilidad marginal de un evento particular puede verse de una manera alter-
nativa. Ya hemos mostrado que la probabilidad marginal de un evento consiste en
un conjunto de probabilidades conjuntas. Por ejemplo, si B consiste en dos even-
tos, B 1 y B2 , entonces podemos observar
T
que P(A), la probabilidad del evento A,
consiste en la probabilidad conjunta del evento A que ocurre con el evento B , y la
probabilidad conjunta del evento A que ocurre con el evento B.2 Por lo tanfo, en
general,
Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colec-
tivamente exhaustivos. Nadie es ambos (son mutuamente excluyentes) y todos son
uno u otro (son colectivamente exhaustivos).
Probabilidad conjunta 21 3
Por consiguiente, regresando a nuestro primer ejemplo, la probabilidad de un
as puede expresarse de la siguiente manera:
2 2
== + -
52 52
4
=
52
siguiente regla
,...... .......
~-
de la
_...~ _ adición
................
_....,.,,,,,,.~ ,~ __
El cálculo de P (A u B), la probabilidad del evento A o B, puede expresarse en la
... ...general:
,,_
-
' i ·, ')¡
P(A:\..JP):::; .'f{(l o B)
:. < ·\;/ :, e ,: : . .
=, P(A) + P(B)
-.. ~ ·- . ", , .· ,· '..y : ~}·. ,.
>,.- P(A
\
\
\
Regla de la adición 215
La regla de la adición consiste en tomar la probabilidad de A y sumarla a la
probabilidad ,de B; la intersei:t:Jfui de A_X B debe restarse entonces de este total
~rr~t~!j:~É~:~t~~~<lj!:iJi~i~~i~-a~~~~~;e1ie~f~~~~~*1ts<ia~i-~~i'ifl~~
tmgéñcias. Si los resultados del evento "está satisfecho con el trabajo" se suman
a los del evento "ha progresado en la organización", entonces el evento con-
junto "está satisfecho con el trabajo y ha progresado en la organización" (la
intersección) ha sido incluido en cada uno de estos eventos simples. Por lo
tanto, puesto que ésta se ha "contado dos veces", debe restarse para propor-
cionar el resultado correcto. De hecho, en este ejemplo, si el evento conjunto no
se resta, nuestro resultado sería
Nos damos cuenta que la probabilidad que una carta sea tanto un
corazón como una espada simultáneamente es cero. puesto que en una baraja
estándar cada carta puede tener sólo un palo particular. La .intersección en
este caso es no existen te (llamado el_c.anjunto nulQ)... pQrque . no. contt~~~
resultados, puesto que una carta no puede ser un corazón y una espada
simultáneamente.
Como se mencionó previamente, siempre que la probabilidad conjunta no
contenga ningún resultado, los eventos involucrados ~éqn.std~g1_n ."Jl:!:.t:lf_'!;_f1!f:T!~e__
e~~l~J:(!!':t.~..: Esto se refiere al hecho de que la ocurrencia de un evento (un corazón)·'
significa que el otro evento (una espada) no puede ocurrir. Así, la regla de la adi-
ción para eventos mutuamente excluyentes se reduce a
(6.4)
26 26 52
= - + - = - = 1.0
52 52 52
La probabilidad de rojo o negro suma 1.0. Esto significa que la carta selec-
cionada debe ser roja o negra, puesto que éstos son los únicos colores en una baraja
estándar. Dado_9E.~_\.!no d~ es~Q~J~.v.~ntQ.~..Q~J:?~_Q<;:ll!tit..sg.rnn~ide.tan. ev.entos..cole.c.7
tivament§...~~ha1J,stivos.
Regla de la adición 21 7
6.27 Refiriéndonos al problema 6.9 de la página 210, ¿cuál es la probabilidad que
un nuevo automóvil elegido aleatoriamente
(a) necesite una reparación amparada por la garantía o haya sido fabricado
por una compañía con base en Estados Unidos?
(b) necesite una reparación amparada por la garantía o no haya sido
fabricado por una compañía con base en Estados Unidos?
(c) necesite una reparación amparada por la garantía o no necesite una
reparación amparada por la garantía?
evento A= as
evento B = negro
2/52
P( as ¡negro) = 26152
2
26
Examinemos ahora el segundo ejemplo mencionado, determinar P(está
satisfecho con el trabajo 1ha progresado en la organización). Puesto que la
información dada es que el empleado ha progresado en la organización, el
espacio muestral se reduce a esos 208 individuos. De esos 208 empleados, de
la tabla 6.2 de la página 208 podemos observar que 194 están satisfechos con
el trabajo. Por lo tanto, la probabilidad de que un empleado esté satisfecho
con el trabajo, dado que ha progresado en la organización, puede calcularse de
la siguiente manera:
número de empleados
que están satisfechos con su
P (están satisfechos 1han progresado)= _ _t_ra_b_a_jo_y_h_a_n_p_r_o_g_re_s_a_d_o_ _
número de empleados que ha
progresado con la organización
194
=--
208
Nuevamente, la ecuación (6.5) proporcionaría la misma respuesta, de la si-
guiente manera:
P(AyB)
P(B)
donde
evento A = está satisfecho con el trabajo
evento B = ha progresado en la organización
162
P(AyB')=
400
Todo el
-ªº-
400
Figura 6.4
Árbol de decisión para los datos de la
tabla 6.2
P (A y B)
P(B)
194/400
P (están satisfechos 1 han progresado)= - - -
208/400
194
208
Observe que el denominador, P(B), es la suma de las probabilidades de los dos
eventos conjuntos apropiados, P(A y B) + P(A' y B), la probabilidad de satisfecho
con el trabajo y haber progresado en la organización más la probabilidad de no
estar satisfecho con el trabajo y haber progresado en la organización.
(6.6)
Problemas de la sección 6. 7
• 6.28 Refiriéndonos al problema 6.5 de la página 209:
(a) suponga que sabemos que el estudiante tiene una tarjeta de crédito
bancaria. ¿Cuál es la probabilidad de que tenga una tarjeta de crédito de
viajes y entretenimiento?
(b) suponga que sabemos que el estudiante no tiene una tarjeta de crédito de
viajes y entretenimiento. ¿Cuál es entonces la probabilidad que tenga una
tarjeta de crédito bancaria'!
(c) ¿Son los dos eventos, tener una tarjeta de crédito bancaria y tener una
tarjeta de crédito de viajes y entretenimiento, estadísticamente
independientes? Explique.
6.29 Refiriéndonos al problema 6.6 de la página 210
(a) si el encuestado planeó comprar una nueva televisión, ¿cuál es la
probabilidad que realmente haya comprado una?
(b) si el encuestado no planeó comprar una nueva televisión, ¿cuál es la
probabilidad que no haya comprado una?
(c) ¿Planear comprar una nueva televisión y realmente comprar una son
estadísticamente independientes? Explique.
• 6.30 Refiriéndonos al problema 6.7 de la página 210,
(a) suponga que el encuestado elegido es una mujer. ¿Cuál es entonces la
probabilidad que no disfrute comprar ropa?
(b) suponga que el encuestado elegido disfruta comprar ropa. ¿Cuál es
entonces la probabilidad que sea un hombre?
(c) ¿Disfrutar comprar ropa y el género del individuo son estadísticamente
independientes? Explique.
P(AyB)
P(B)
= (2~ )(2~J
= 36 = .09
400
Este ejemplo de muestreo con reemplazo ilustra que la segunda selección es
)ndependiente de la primera, puesto que la segunda probabilidad no estuvo influi-
da por la primera selección. Así pues, la regla de la multiplicación para even-
tos independientes puede expresarse de la siguiente manera [sustituyendo P(A)
por P(A IB)]:
1,.:
::..
1'
(:6 )( ~~ ) :6 )( ~~ )
+(
2 2
-+-
52 52
4
52
pero también
( 1 )
_ P(AIB)P(B)
(6.lOc)
p BA - P(A)
P(AIB; )P(B1 )
P(B,jA) = -P(_A_IBi-)P_(_B1- )+-P-(A_i.:...._B2-)P--'-(B_2 _)+-.-
.. +-P-(A_J_Bk-)P-(B-k) (6.lOd)
Por eso, la probabilidad que la enfermedad no esté presente, dado que la prueba
fue negativa es .997.
Problemas de la sección 6. 9
6.41 En el problema de diagnóstico médico que se acaba de analizar en esta
sección, suponga que la probabilidad que la prueba de diagnóstico médico
dé un resultado positivo si la enfermedad realmente está presente se ha
incrementado de .90 a .95. Dada esta información, desearíamos saber lo
siguiente:
(a) Si la prueba de diagnóstico médico ha dado un resultado positivo
(indicando que la enfermedad está presente), ¿cuál es la probabilidad
que la enfermedad esté realmente presente?
(b) Si la prueba de diagnóstico médico ha dado un resultado negativo
(indicando que la enfermedad no está presente), ¿cuál es la
probabilidad que la enfermedad no esté presente?
6.42 En el problema de diagnóstico médico que se acaba de analizar en esta sección,
suponga que la probabilidad que la prueba de diagnóstico médico dé un
resultado positivo si la enfermedad realmente no está presente se reduce de .02 a
.01. Dada esta información, desearíamos saber lo siguiente:
(a) Si la prueba de diagnóstico médico ha dado un resultado positivo
(indicando que la enfermedad está presente), ¿cuál es la probabilidad
que la enfermedad esté realmente presente?
(b) Si la prueba de diagnóstico médico ha dado un resultado negativo
(indicando que la enfermedad no está presente), ¿cuál es la
probabilidad que la enfermedad no esté presente?
6.43 Una estación de televisión desearía medir la habilidad de su
pronosticador del clima. Se han recabado datos anteriores que indican lo
siguiente:
k" (6.11)
Regla de conteo 2: Si hay k 1 eventos del primer intento, k 2 eventos del segundo
intento, ... , y k0 eventos del n ésimo intento, entonces el número de resultados
posibles es
Por lo tanto, si una placa policiaca consistiera de tres letras seguidas de tres dígi-
tos, el número total de resultados posibles sería entonces (26)(26)(26)( 10)(1O)(10)
= 17,576,000. Tomando otro ejemplo, si un menú de restarán tuviera una cena com-
pleta de precio fijo que consistiera en un aperitivo, entrada, bebida y postre y hubiera
la opción de cinco aperitivos, diez entradas, tres bebidas y seis postres, el número total
de cenas posibles sería (5)(10)(3)(6) = 900.
La tercera regla de conteo involucra el cálculo del número de formas en que un con-
junto de objetos puede ordenarse. Si un conjunto de seis libros de texto se tiene que
colocar sobre una repisa, ¿cómo podemos determinar el número de formas en que los
seis libros pueden acomodarse? Podemos comenzar dándonos cuenta que cual-
quiera de los seis libros podría ocupar la primera posición en la repisa. Una vez que
se llena la primera posición, hay cinco libros por escoger para llenar la segunda. Este
procedimiento de asignación se continúa hasta que se ocupen todas las posiciones.
Esta situación puede generalizarse como la regla de conteo 3.
n! = 6! = (6)(5)(4)(3)(2)(1) = 720
n!
(6.14)
(n - X)!
ni 6! 6! (6)(5)(4)(3)(2)(1) = 360
(n - X)! ( 6 - 4 )! 2! (2)(1)
n! (6.15)
X!(n - X)!
n! 6! 6! ( 6)(5)( 4)(3)(2)(1) = 15
X!(n - X)! 4!(6-4)! 4!2! (4)(3)(2)(1)(2)(1)
Reglas de conteo lJ 1
Problemas de la sección 6. I O
6.48 Si hay diez preguntas de opción múltiple en un examen, cada una con tres
posibles respuestas, ¿cuántas posibilidades diferentes hay en términos de la
secuencia de respuestas correctas?
e 6.49 La cerradura de la bóveda de un banco consiste en tres discos, cada uno con 30
posiciones. Para que la bóveda se abra cuando está cerrada, cada uno de los tres
discos debe estar en la posición correcta.
(a) ¿Cuántas "combinaciones de discos" diferentes posibles existen para esta
cerradura?
(b) ¿Cuál es la probabilidad de que usted si seleccionó aleatoriamente una
posición en cada disco, sea capaz de abrir la bóveda del banco?
(c) Explique por qué las "combinaciones de discos" no son combinaciones
matemáticas expresadas por la ecuación (6.15).
6.50 (a) Si una moneda se lanza siete veces, ¿cuántos resultados diferentes son posibles?
(b) Si un dado se lanza siete veces, ¿cuántos resultados diferentes son posibles?
(c) Analice las diferencias en sus respuestas a (a) y (b).
6.51 Una marca particular de pantalones de mezclilla de mujer puede ordenarse en
siete tamaños diferentes, tres colores diferentes y tres estilos diferentes.
¿Cuántos pantalones diferentes tendrían que ordenarse si una tienda deseara
tener un par de cada tipo?
6.52 Si cada letra se usa una vez, ¿cuántas "palabras" de cuatro letras pueden hacer-
se de las letras E, L, O y V?
6.53 Existen siete equipos en la División Atlántica de la Liga Nacional de Hockey:
Florida, New Jersey, New York lslanders, New York Rangers, Philadelphia, Tampa
Bay y Washington. ¿Cuántas órdenes de anotación diferentes hay para estos siete
equipos? ¿Realmente cree que todas estas órdenes son igualmente posibles'! Analice.
6.54 Refiriéndose al problema 6.53, ¿cuántas órdenes de anotación diferentes son
posibles para las primeras cuatro posiciones?
• 6.55 Un jardinero tiene seis filas disponibles en su hortaliza para plantar tomates,
berenjenas, pimientos, pepinos, frijoles y lechugas. Cada verdura dispondrá
únicamente de una fila. ¿Cuántas formas hay de situar estas verduras en su hortaliza?
6.56 La gran triple del hipódromo local consiste en elegir el orden correcto de
terminación de los tres primeros caballos en la novena carrera. Si hay 12 caballos
inscritos en la novena carrera de hoy, ¿cuántos resultados de gran triple hay?
(1.57 La quiniela del hipódromo local consiste en elegir los caballos que quedarán
primero y segundo en una carrera sin importar el orden. Si se inscriben ocho
caballos en una carrera, ¿cuántas combinaciones de quiniela hay?
• 6.58 lJn estudiante tiene siete libros que desearía acomodar en un portafolios. Sin
embargo, sólo cuatro libros caben en el portafolios. Sin importar el arreglo,
¡_cuúntas formas hay de colocar cuatro libros en un portafolios?
6.59 Una !olería diaria debe llevarse a cabo de manera que dos números ganadores
deben seleccionarse de entre 100 números. ¿Cuántas combinaciones diferentes
de números ganadores son posibles'!
6.60 Una lista de lecturas de un curso contiene 20 artículos. ¿Cuántas formas hay
de elegir tres artículos de esta lista?
Problemas de la sección 6. I I
6.61 t·f'ldf)j.i.f·> Escriba un anuncio para la lotería estatal que describa la
probabilidad de ganar de una manera ética.
6.62 t.t;df)j.1.f.) Escriba un anuncio para el boletín de inversiones que establezca
la probabilidad de una devolución anual de 20% de una manera ética.
;, : ~· ; : ¡: ·'
',
. 1.;~ ·; '• }o
~ .'
:~ r , , ~1 :.
'•,' : ,.·
Juntando todo
Términos clave
árbol de decisión 219 probabilidad clásica empírica 205
colectivamente exhaustivo 213 probabilidad condicional 218
combinaciones 231 probabilidad conjunta 212
complemento 207 probabilidad marginal 211
conjunto nulo 216 probabilidad simple 211
diagrama de Venn 208 probabilidad subjetiva 205
evento cierto 204 regla de la adición 214
evento conjunto 207 regla de la adición general 215
evento simple 206 regla de la multiplicación general 222
espacio muestral 206 regla de la multiplicación para eventos
independencia estadística 221 independientes 223
intersección 208 reglas de conteo 229
mutuamente excluyente 213 teorema de Bayes 225
permutaciones 231 tabla de clasificaciones cruzadas 208
probabilidad 204 tabla de contingencias 208
probabilidad clásica a priori 204 unión 208
Tipo de área
Propiedad del atomóvil Ciudad grande Suburbio Rural Totales
Posee en automóvil
extranjero 90 60 25 175
No posee un automóvil
extranjero 110 90 125 325
Totales 2oO 150 150 500
Habilidad en matemáticas
Interés
en finanzas Bajo Promedio Alto Totales
Bajo 60 15 15 90
Promedio 15 45 10 70
Alto 5 10 25 40
Totales 80 70 50 200
Nota final
l. En una tabla de contingencias con R filas y C columnas, la
regla tendría que haber sido probada para (R-l)(C-1) com-
binaciones separadas de A y B.
Referencias
l. Hays, W. L., Statistics for the Social Sciences, 3a. ed. (Nueva 3:Mosteller, F. R. Rourke y G. Thomas, Probability with
York: Holt, Rinehart and Winston, 1980). Statistical Applications, 2a. ed. (Reading, MA: Addison-
2. Kirk, R. E., ed., Statistical lssues: A Reader for the Behavioral Wesley, 1970).
Sciences (Belmont, CA: Wadsworth, 1972). 4. Paulos, f. A. lnnumeracy (Nueva York: Hill and Wang, 1988).
. 11tri'· 'buc1ones
ªI. gunas d.
~ •
importantes de
probabilidad discreta
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar una comprensión del
concepto de esperanza matemática y
CAPÍTULO sus aplicaciones en la toma de
decisiones y mostrar cómo ciertos
tipos de datos discretos pueden ser
representados por tipos particulares
de modelos matemáticos.
241
111 Introducción
En el capítulo 6 establecimos varias reglas de probabilidad y examinamos algunas
técnicas de conteo. En este capítulo, utilizaremos tal información para desarrollar
el concepto de esperanza matemática y elaborar algunos modelos de distribuciones
de probabilidad que representen fenómenos discretos de interés. En particular,
comenzaremos definiendo la distribución de probabilidad y luego analizando las
dos características básicas de cualquier distribución de probabilidad, su media o
valor esperado, [E(X)], y su varianza, cr;. Después desarrollaremos dos distribu-
ciones de probabilidad discreta importantes, la binomial y la Poisson, y también
indicaremos las circunstancias en las cuales se puede usar la distribución Poisson
para aproximar la binomial.
Al terminar este capítulo, usted debe ser capaz de:
l. Calcular el valor esperado y la varianza de una distribución de
probabilidad discreta.
2. Comprender los supuestos de la distribución binomial y saber cómo
encontrar cualquier probabilidad binomial.
3. Comprender los supuestos de la distribución de Poisson y saber cómo
encontrar cualquier probabilidad de Poisson.
4. Saber cuándo y cómo puede usarse la distribución de Poisson para
aproximar la distribución binomial.
1 [] 1/6
2[] 1/6
3 IS] 1/6
4 i:;::;J 1/6
5 [Z] 1/6
..
6 !TI] 1/6
Total
zX
N.
= 21/6= 3.5
N ,.
N ,·,, '
.. ·.,,
ax= L(X, :....µ,) 2 P(X 1) (7.3) ·.•·
¡=1
N
o;= L(X¡ -µ,) 2 P(X;)
i =1
= (1- 3.5) 2 (1/6) + (2 - 3.5) 2 (1/6) + (3- 3.5) 2 (116) + (4- 3.5) 2 (1/6)
+ (5- 3.5) 2 (1/6) + (6 - 3.5) 2 (1/6)
= 2.9166
1 c:J -3 1/6
2i:::J -2 1/6
3 [S] -1 1/6
4§ o 1/6
5~ 1 1/6
6[!} 2 1/6
1
= -.50
Distribución A Distribución B
X P(X) X P(X)
o .so o .os
1 .20 1 .10
2 .15 2 .lS
3 .10 3 .20
4 .os 4 .so
Distribución e Distribución D
X P(X) X P(X)
o .20 o .10
1 .20 1 .20
2 .20 2 .40
3 .20 3 .20
4 .20 4 .10
X P(X)
2 1/36 ·L
3 2/36
4 3/36
5 4/36 -1
6 5/36
7 6/36 - '
8 5/36 ~·
9 4/36
10 3/36 \
11 2/36 \
12 1/36 -,f...
1
Selección de cartera
Evento A B e
La economía declina $500 -$2,000 -$7,000
Ningún cambio $1,000 $2,000 -$1,000
La economía se expande $2,000 $5,000 $2,0000
Di Funciones de distribución de
probabilidad discreta
La distribución de probabilidad para una variable aleatoria discreta puede ser
l. Un listado teórico de resultados y probabilidades (como en la tabla
7.1), que pueden obtenerse de un modelo matemático que represente
algún fenómeno de interés.
2. Un listado empírico de resultados y sus frecuencias relativas
observadas.
3. Un listado subjetivo de resultados asociados con sus probabilidades
subjetivas que representan el grado de convicción del tomador de
decisiones respecto a la probabilidad de los resultados posibles (como
se analiza en la sección 6.2).
En este capítulo nos interesaremos principalmente en el primer tipo de
distribución de probabilidad, el listado obtenido de un modelo matemático que
representa algunos fenómenos de interés.
Un modelo se considera una representación en miniatura de algún
fenómeno subyacente. En particular, un modelo matemático es una
expresión matemática que representa cierto fenómeno subyacente. Para
variables aleatorias discretas, esta expresión matemática se conoce como
función de distribución de probabilidad.
Cuando se dispone de tales expresiones matemáticas, puede calcularse la
probabilidad exacta de ocurrencia de cualquier resultado particular de la variable
aleatoria. En tales casos, entonces, toda la distribución de probabilidad puede
Di Distribución binomial
La distribución binomial es una distribución de probabilidad discreta que es
extremadamente útil para describir muchos fenómenos.
La distribución binomial posee cuatro propiedades esenciales:
l. Las observaciones posibles pueden obtenerse mediante dos métodos
de muestreo distintos. Cada observación puede considerarse como
seleccionada de una población infinita sin reemplazo o de una población
finita con reemplazo.
2. Cada observación puede clasificarse en una de dos categorías
mutuamente excluyentes y colectivamente exhaustivas, usualmente
denominadas éxito y fracaso.
3. La probabilidad de que una observación se clasifique como éxito, p, es
constante de observación a observación. Por tanto, la probabilidad de
que una observación se clasifique como fracaso, 1 - p, es constante
sobre todas las observaciones.
4. El resultado (es decir, el éxito o fracaso) de cualquier observación es
independiente del resultado de cualquier observación.
La variable aleatoria discreta o fenómeno de interés que sigue a la distribución.
binomial es el número de éxitos obtenidos en una muestra de n observaciones. Así
pues, la distribución binomial ha gozado de numerosas aplicaciones:
• En juegos de azar:
¿Cuál es la probabilidad de que el rojo salga 15 o más veces en 19
giros de la rueda de la ruleta?
• En el control de calidad de productos:
¿Cuál es la probabilidad de que en una muestra de 20 llantas del
mismo tipo, ninguna salga defectuosa si 8% de tales llantas
producidas en una planta particular son defectuosas?
• En educación:
¿Cuál es la probabilidad de que un.estudiante pueda pasar un examen
de diez preguntas de opción múltiple (cada pregunta conteniendo
cuatro opciones) si el estudiante adivina en cada pregunta? (Pasar se
define como obtener 60% de los puntos correctos, es decir, obtener al
menos seis de diez puntos correctos.)
• En fin_anzas:
¿Cuál es la probabilidad de que un valor particular muestre un
incremento en su precio de cierre diariamente durante las siguientes
diez sesiones de negocios (consecutivas), si el precio del mercado de
valores realmente cambia aleatoriamente?
PIGURA 7.1
Rueda de ruleta americana.
(n ) - n! - 3! - 3
X - X! (n - X)! - 2! (3 - 2)! -
Puede obtenerse una inferencia intuitiva similar para los otros tres resultados posi-
bles de la variable aleatoria, ninguna cara (3J , una cara [3J , las tres caras [3J . Sin
embargo, al crecer n, el número de observaciones, este tipo de enfoque intuitivo se
vuelve bastante laborioso, y es más apropiado un modelo matemático. En general,. el
siguiente modelo matemático representa la distribución de probabilidad binomial para
obtener el número de éxitos (X), dado un conocimiento de los parámetros n y p :
· ... ',•
px (1 _ p)"-x
nos dice la probabilidad de obtener exactamente x éxitos de n observaciones en
una secuencia particular, mientras que el término
n!
x!(n - x)!
nos dice cuántas secuencias de arreglos (es decir, combinaciones, véase la sección
6.10) de los x éxitos de n observaciones son posibles. Por tanto, dado el número de
observaciones n y la probabilidad de éxito p, podemos determinar la probabilidad
de x éxitos:
P (X =xln, p) =(número de posibles secuencias)
x (probabilidad de una secuencia particular)
n!
x!(n- x)! p
x(l -
p
r-x
sustituyendo los valores deseados para n, p y x y calculando el resultado.
Por tanto, como se mostró anteriormente, la probabilidad de obtener exacta-
mente dQS caras de IZ] de tres tiros en un dado es
2 3 2
p ( X= 2 Jn= 3 ,p=
1) = 2!(3-2)!
63! (1) 6 (
l-61) -
= ~ (.!.)2 (~)1
2!1! 6 6
Tales cálculos pueden ser bastante tediosos, especialmente al crecer n. Sin embargo,
podemos obtener las probabilidades directamente de la tabla E. 7 del apéndice E o
usar software estadístico, evitando así cualquier complicación de cálculo. La tabla
E.7 proporciona, para diversas combinaciones seleccionadas de los parámetros n y
p, las probabilidades de que la variable aleatoria binomial tome los valores de
X= O, 1, 2, ... , n. Sin embargo, el lector debe advertir que los valores para p en la
tabla E.7 se toman con sólo dos lugares decimales; por lo que, en algunas circuns-
tancias, debido a errores de redondeo, las probabilidades sólo serán aproxima-
ciones del resultado verdadero. En relación con esto, en nuestro experimento de
tiro de dados, primero encontramos en la tabla E. 7 la combinación n = 3 con p
redondeada a .17. Para obtener la probabilidad aproximada de exactamente dos
éxitos, leemos la probabilidad correspondiente a la fila X= 2, y el resultado es .0720
(como se demuestra en la tabla 7.3). 3 Por tanto, la tabla E.7 nos ha dado una
respuesta aproximada a la probabilidad real, .0694, obtenida de la ecuación (7.4)
usando la fracción 1/6 =p, en vez del valor decimal redondeado .17.
I:'1 o 0.9703 0.9412 0.9127 0.7290 0.7050 0.6815 0.6585 0.6361 0.6141 0.5927 0.5 18 0.5514
1 0.0294 0.0576 0.0847 0.2430 0.2614 0.2788 0.2952 0.3106 0.3251 0.3387 0.3 13 0.3631
:~.~ 0.0003 0.0012 0.0026 0.0270 0.0323 0.0380 0.0441 0.0506 0.0574 0.0645' r~ 0.0797
3 0.0000 0.0000 0.0000 0.0010 0.0013 0.0017 0.0022 0.0027 0.0034 0.0041 0.0049 0.0058
/!11ente: Tomado de la tabla E.7.
e Forma Observamos que una distribución binomial puede ser simétrica o ses-
gada. Siempre que p = .5, la distribución binomial será simétrica sin importar qué
tan grande o pequeño sea el valor den. Sin embargo, cuando p -:t. .5, la distribución
estará sesgada. Mientras más cercana esté p de .5 y mayor sea el número de obser-
vaciones, n, menos sesgada será la distribución.
Así, la distribución del número de ocurrencias de rojo en 19 giros de la rueda
de la ruleta sólo está ligeramente sesgada a la derecha, puesto que p = 18/38. Por
otra parte, con una p pequeña, la distribución estará ligeramente sesgada a la
derecha, como se observa en la distribución del número de llantas defectuosas en
una muestra de 20, donde p = .08. Para p muy grandes, la distribución sería alta-
mente sesgada a la izquierda.
Le dejamos al lector verificar el efecto den y p en la forma de la distribución
graficando el histograma en el problema 7.19(c) de la página 260. Sin embargo,
para resumir las anteriores características, se describen tres distribuciones bino-
miales en la figura 7 .2 de la página 258. El panel A representa la probabilidad de
obtener la cara IZJ
en tres tiros de un dado no cargado; el panel B representa la
probabilidad de obtener "caras" en tres lanzamientos de una moneda no cargada;
y el panel C representa la probabilidad de obtener "caras" en cuatro lanzamientos
de una moneda no cargada. Por tanto, una comparación del panel A con el B
demuestra el efecto en la forma cuando los tamaños de muestras son iguales pero
las probabilidades de éxito difieren. Además, una comparación del panel B con el
C muestra el efecto de la forma cuando las probabilidades de éxitos son iguales
pero los tamaños de las muestras difieren.
i.
111
,,;;n
~
i
... PBl!eiA Pan81c
Tres tirps de pn da~~ ~'<!.'Cargado.··~··· Cuatro LanzamientosJ/e una moneda cargada;
> ,. ·. ·. . .
.-
, " • X.-Numeco.de ;!.;;.~;,,
~- • • - - - • ' ·-," --. - . -- • -.
0
.0 ,,~. o',c --r· ,-
X= MJmero.de"caras"
~
::J
e¡ ~-''F )f,f'< 1 < 3l . L iº -1 3_ 1
Q. .. · ( . .·~· . . 1\ 41 (~1)º (1)4 1
!aº P!a~~~;'.R=~h=.0131 r,h) (2) -= 8 P X=O\n= 4 .P=z1=0141'."' 2 2·=1s
:l.
CT ~l y t. -.~ r ·-31 . ·.- f, 1_\2· . 3 .
e:
n .'.dx= 11.n~4.P=~)=·
5· '[~=1JA:;~a>=~~ 1121 ~(2} {~1= a 1~~1 ~{~f (~r=~ 1~
::J . . : : ···2 ·,. 2
111 . -.. ~r:"b'·~·:-~.;··t-~.~-· ~~,E-31 t(1)2 (-!)1 ~ ª-
"' !f.t ·~y·¡;tf>:\X= .?(lJ =j~· 8 """-2 7~2!11 t 2 •2 ~ 8 _f'(x~2Ín= 4.P=~).#.2i~1~~{~} (~J.~.:1~
~r
"1:1
o
a
::J !lt0,~tx~~w--j~.1F:. J{~' m'.. ~ p(x~;~1 ~.~ 4.·p=~=~3~~/s(~)~{~f ~- 1~
m :. <". >·.. 12\ ;4, 4
>(1) .(f)º· 1
Q.
111 .. "' ':é lf' (_X;: ,4ln #A;p =¿'g 41ÓI = -~ · 2 ".". 16
"1:1
a
CT
"'g
a:
[
Q.
¡;¡·
n
~ ·~
··ai
"C
·~.
;g· .4 . -Bi& -~ ~ ~ _,
:o... .
. al
' :o
ª ca
..e .·..e
·O
e~- ...
p.:. n.
o 1 •2 3 '4 -
Número de car51s:
' HISTOG~AMA
FIGURA 7.2
Comparación de tres distribuciones binomiales
Intuitivamente, esto tiene sentido. Por ejemplo, si giramos la rueda de la ruleta
l 1J veces, ¿con qué frecuencia debemos "esperar" que salga el color rojo? En prome-
dio, a la larga, teóricamente esperaríamos
11, =E(X)=np=(19{!:)=9
.. e~i..A.x
. P(X
.• . .
= xlk) ~ -·-
· '.. xi
7 .6.2 Características
• Forma Cada vez que se especifica el parámetro /.., puede generarse una dis-
tribución de probabilidad de Poisson específica. Una distribución de Poisson estará
sesgada a la derecha cuando /.. es pequeña, y se aproximará a la simetría (con un
pico en el centro) al crecer A..
.
' ~· '' '' ';;'ll
'• .(7.9)·.:~'5
' ·/:.~
Conversiones
Llegadas Llegadas Llegadas Llegadas
por segundo por minuto por hora por día
.os 3.0 180.0 4,320.0
/..,el número esperado de llegadas por minuto, es 3.0. Ahora, usando la ecuación
(7.7), tenemos, para la primera pregunta
9- - == .2240
P(X = 2j/.. = 3.0) = e-3.o ( 3 .0) 2 == - - -
2! (2.71828) 3 (2)
'
.2510 .2450 .2384 .2314
.1890 .1966 .2033 .2090 .2138 .2176 .2205 .2225 .2237
4 .0992 .1082 .1169 .1254 .1336 .1414 .1488 .1557 .1662 .1680
5 .0417 .0476 .0538 .0602 .0668 .0735 .0804 .0872 .0940 .1008
6 .0146 .0174 .0206 .0241 .0278 .0319 .0362 .0407 .0455 .0504
7 .0044 .0055 .0068 .0083 .0099 .0118 .0139 .0163 .0188 .0216
8 .0011 .0015 .0019 .0025 .0031 .0038 .0047 .0057 .0068 .0081
9 .0003 .0004 .0005 .0007 .0009 .0011 .0014 .0018 .0022 .0027
10 .0001 .0001 .0001 .0002 .0002 .0003 .0004 .0005 .0006 .0008
11 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0002
12 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
fluente: Extraída de la tabla E.6.
P(X >21/.., = 3.0) = P(X = 31/.., = 3.0)+ P(X = 41/.., = 3.0)+L + P(X = ool/.., = 3.0)
Puesto que todas las probabilidades en una distribución de probabilidad deben
sumar 1, los términos a la derecha de la ecuación pueden expresarse como
Por tanto,
P(X > 21')., = 3.0) = 1 - {P(X = OI')., = 3.0) + P(X = 11')., = 3.0) + P(X = 21')., = 3.0)}
De la tabla E.6 (o su réplica, la tabla 7.4) podemos obtener fácilmente las probabil-
idades de O, 1 o 2 éxitos, dada una media de 3.0 éxitos. Así,
Por consiguiente, vemos que existe apenas un 42.3% de probabilidad de que dos o
menos clientes lleguen al banco por minuto. Así pues, existe un 57.7% de que.-
lleguen tres o más clientes.
e-"P (npr
P(X = x¡n, p) = ----''-- (7.10)
x!
µ, = E(X) = A. = np (7.11)
(7.12)
Sin embargo, en vez de tener que usar el sistema logarítmico natural para determi-
nar esta probabilidad, pueden emplearse las tablas de la distribución de Poisson
(tabla E.6). Refiriéndonos a estas tablas, los únicos valores necesarios son el
parámetro A. y el número deseado de éxitos X. Puesto que ·en el ejemplo anterior
A.= 1.6 y X = 1, tenemos de la tabla E.6
Este cálculo, sin embargo, es tedioso. Claramente, disponiendo de la tabla E.7, uno
podría argumentar que deberíamos buscar la probabilidad binomial directamente
para n = 20, p = .08 y X = 1 y no molestarnos en calcularla o usar la aproximación
de Poisson. Por otra parte, la tabla E. 7 muestra probabilidades binomiales sólo para
una n particular de 2 a 20, así que para n > 20 ciertamente debe usarse la aproxi-
mación de Poisson si p es muy pequeña.
Para resumir nuestros hallazgos, la figura 7.3 de la página 266 compara la dis-
tribución binomial (panel A) y su aproximación de Poisson (panel B) para el
número de llantas defectuosas en una muestra de 20. Las similitudes de los dos
resultados son claramente evidentes, demostrando así la utilidad de la aproxi-
mación de Poisson aun cuando pes tan grande como .08
-
1.1
o .3329 .3012 .2725 .2466 .2231 .2di9 .1827 .1653 .1496 .1353
r::~ .3662 .3614 .3543 .3452 .3347 )
.3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 .0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 .0812 .0902
i:11ente: Extraída de la tabla E.6.
P (X= 3Ín = 2d,p= .OS)= .1414 . . P (x;,, sin= 2ó, p:;. .os)=
' .• . ''.
~"': 1 ·\L 5>3 = · 131s.
·.., ·~! '¡ ' ··....~ ' . '
..:t:e···
p= .08) ;,.· · 8 . :111•6) ··,;. ,0551
··4.
P (X= 4(n ;;, 20, p = .OS) = .05~3 P (X~ 41n= 20,
e- 1·5(1.6)i;
P (X= Sin= 20, p =.OS)= .0145 P (X= Sin= 20, P= .OS)= . SI - .0176
·' ., -16 6
P (X= · 61n= 20, p = .08) = .0032. P (X= 61n = 20, p = .OS) = 8 ~f 1.6) - .0047
. ' . 7
p.6) ;::
~,~
_.y,-_:-'. .
i
::,:." · :<<x.-,_i~
·.,,,,, . ··•1·eo
' .." ' .. '. >':.,,;)~1'~3.4!? 67S9J,o~·· .
, .:' '·,;
">-_· . . -d';f:::~~;;-:···.>· ·:-'.-·:>_,,:··.:.:. _.·- - -~:--·
NÚrnerode •. H¡¡ntai;defectuQ~~~:·'
i' .. - - '
. · · ·<~,,~·;.,™úrT1~r9·~-~U¡¡ntasde(~t,1osas·.
· , HlªT()~AAf<llA /:\/\•;>;i/4'·•:/t··· litlSTOGRAMA·
:)::)i'.Záf;,_:i\>:::'','. ·.: ~-'. · ·-J·;;. :· · ·, --·:-~ ,
Para estar seguro, usted debe poder contestar las siguientes preguntas conceptuales.
l. ¿Cuál es el significado del valor esperado de una distribución de probabilidad?
2. ¿Cuáles son las suposiciones de la distribución binomial?
3. ¿Cuáles son las suposiciones de la distribución de Poisson?
4. ¿Cuáles son las principales diferencias en las suposiciones de la
distribución binomial y de Poisson?
5. ¿Cuándo puede usarse la distribución de Poisson para aproximar la
distribución binomial?
Juntando todo
TÉRMINOS CLAVE
aproximación de Poisson a la probabilidad 251
distribución binomidal 264 proceso de Poisson 261
desviación estándar de una variable modelo 251
aleatoria discreta 245 valor esperado 243
distribución de probabilidad 242 varianza de una variable aleatoria
distribución de probabilidad binomial 252 discreta 245
distribución de probabilidad valor monetario esperado
uniforme 252 (EMV) 246
función de distribución de
µ:
N
cr: :¿x;P(X;) -
i=I
Estrategia
Evento Uso de nuevo paquete Mantener nuevo paquete
Respuesta nacional débil -$4,000,000 o
Respuesta nacional moderada +$1,000,000 o
Respuesta nacional fuerte +$5,000,000 o
Referencias
1. Derman, C., L. J. Gleser e l. Olkin, A Guide to Probability 4. Miller, l. y J. E. Freund, Probability and Statistics for
Theory and Application (Nueva York: Holt, Rinehart and Engineers, Sa ed. (Englewood Cliffs, NJ: Prentice-Hall,
Winston, 1973). 1994).
2. Eppen, G. D., F. J. Gould y C. P. Schmidt, Introductory S. Scarne, J., Scarne's New Complete Guide to Gambling (Nueva
Management Science, 4a ed. (Englewood Cliffs, NJ: Prentice- York: Simon and Schuster, 1974).
Hall, 1993). 6. Thorp, E. O., Beat the Dealer (Nueva York: Random House,
3. Larsen, R. J. y M. L. Marx, An Introduction to Mathematica/ 1962).
Statistics and Its Applications, 2a ed. (Englewood Cliffs, NJ: 7. Winkler, R. L., Introduction to Bayesian Inference and Decision
Prentice-Hall, 1986). (Nueva York: Holt, Rinehart and Winston, 1972).
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Mostrar cómo puede usarse la función
de densidad de probabilidad 'ormal
CAPÍTULO para representar ciertos tipoi de
fenómenos continuos y aproximar
varios modelos que representan
fenómenos discretos bajo condiciones
específicas.
273
l:H 1 1ntroducción
En el capítulo 7 desarrollamos el concepto de una distribución de probabilidad
para una variable aleatoria discreta y, en particular, estudiamos las distribuciones
binomial y de Poisson. En este capítulo, nuestro análisis girará sobre la distribución
de probabilidad más importante en estadística, la distribución normal. Comenza-
remos estudiando las propiedades de la distribución normal y luego desarrollare-
mos diversas aplicaciones. Después estudiaremos una herramienta gráfica simple,
la gráfica de la probabilidad normal, que puede usarse para evaluar si un conjunto
de datos se presenta normalmente distribuido. Concluiremos el capítulo mostran-
do cómo puede usarse la distribución normal para aproximar las distribuciones
binomial y de Poisson bajo ciertas circunstancias.
Figura 8.1
Histograma y polígono de frecuencia relativa
Grosor (pulgadas)
del grosor de 1O 000 lavadoras de metal.
Fuente: Los datos se tomaron de la tabla 8.1.
(8.l):
donde
e es la constante matemática aproximada por 2.71828
7r: es la constante matemática aproximada por 3.14159
µx es la media de población
- ax es la desviación estándar de población
X es cualquier valor de la variable aleatoria continua, donde
-oo <X <+oo
·''
1 IYB
f.:;,I
z = X - µ, (8.2)
(J X
Por eso, siempre podemos convertir cualquier conjunto de datos normalmente dis-
tribuidos a su forma estandarizada y después determinar cualquier probabilidad
deseada a partir de una tabla de la distribución normal estandarizada.
Para ver cómo puede aplicarse la fórmula de transformación (8.2) y cómo
podemos usar entonces los resultados para leer probabilidades de la tabla de dis-
tribución normal estandarizada (tabla E.2), consideremos el siguiente problema.
Suponga que un consultor estaba investigando el tiempo que emplearon los
obreros de una planta automotriz en montar una parte específica después de su
entrenamiento para realizar la tarea usando un enfoque de aprendizaje individual.
El consultor determinó que el tiempo en segundos invertido por los obreros entre-
nados con este método para montar la parte se distribuía normalmente con una
media µx de 75 segundos y una desviación estándar crx de 6 segundos.
z = 81 - 75 = +1
6
y un tiempo de 57 segundos requerido por un obrero para montar la parte es equi-
valente a 3 unidades estandarizadas (es decir, 3 desviaciones estándar) por debajo de
la media, puesto que
z = 57 - 75 = -3
6
µx-3crx µx- 2crx µx-1crx µX µx+ 1crx µx+ 2crx µx+ 3crx X Escala
57 63 69 75 81 87 93 (µx= 75, ax= 6)
-3 -2 -1 o +1 +2 +3 ZEscala Figura 8.l
Transformación de escalas.
z = 57 - 60 = -1
3
L11nbién podemos notar que un tiempo de 63 segundos está 1 desviación estándar
por encima del tiempo medio de montaje, ya que
z = 63 - 60 = +1
3
y un tiempo de 51 segundos está 3 desviaciones estándar por debajo de la media
dl'I grupo porque
z = 51 - 60 = -3
3
La distribución normal 2 79
Planta áutomotrii
con capacitación de equipo
1
1
1
1
1
1
1
1
1
1
1
1
1
1
. 51 57 60 66 XEscal~ (µ~ = 60, ax= 3),
Figura 8.4
Una transformación de escalas < -2 -1 o +1 +2 +3 ZEscala (µz =ó,crz =1) ·
~ ;r_
distinta. '
los datos representan a la población entera de una planta particular, y por tanto,
las probabilidades o proporción de área bajo la curva entera deben sumar l.
Por consiguiente, el área bajo la curva entre cualesquier dos valores de tiempo
reportados representa sólo una porción del área total posible.
Suponga que el consultor desea determinar la probabilidad de que un obrero
seleccionado aleatoriamente entre aquellos que participaron en el entrenamiento
individual requiera entre 75 y 81 segundos para terminar la tarea. Es decir, ¿cuál es
la probabilidad de que el tiempo del obrero esté entre la media de la planta y una
desviación estándar por encima de esta media? Esta respuesta se encuentra usando
la tabla E.2.
La tabla E.2 representa las probabilidades o áreas bajo la curva normal calcu-
ladas desde la media µx hasta los valores particulares de interés X. Usando la
ecuación (8.2), esto corresponde a las probabilidades o áreas bajo la curva normal
estandarizada desde la media (µ, = O) hasta los valores transformados de interés Z.
Sólo se enumeran entradas positivas de Z en la tabla, puesto que para una dis-
tribución simétrica de este tipo con una media de cero, el área que va desde la
media hasta +Z (es decir, Z desviaciones estándar por encima de la media) debe ser
idéntica al área que va desde la media hasta -Z (es decir, Z desviaciones estándar
por debajo de la media).
Al usar la tabla E.2 observamos que todos los valores Z deben registrarse primero
con hasta dos lugares decimales. Por tanto, nuestro valor de interés particular Z se
registra como +l.00: Para leer el área de probabilidad bajo la curva desde la media
hasta Z = +1.00, podemos recorrer hacia abajo la columna Z de la tabla E.2 hasta que
ubiquemos el valor de interés Z (en décimas). Así pues, nos detenemos en la fila Z =
1.0. A continuación, leemos esta fila hasta que intersecamos la columna que con-
tiene el lugar de centésimas del valor Z. Por tanto, en el cuerpo de la tabla, la proba-
bilidad tabulada para Z = 1.00 corresponde a la intersección de la fila Z = 1.00 con la
columna Z = .00 como se muestra en la tabla 8.2 (que es una réplica de la tabla E.2).
·- -
0.8 .28 ~1 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3IS9 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
.3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
Fuente: Extraída de la tabla E.2.
Esta probabilidad es .3413. Como se ilustra en la figura 8.5, existe una posibilidad
de 34.13% de que un obrero seleccionado aleatoriamente y que tenga un entrena-
miento individual requiera entre 75 y 81 segundos para montar la parte.
Por otro lado, sabemos de la figura 8.4 que la planta automotriz donde los
obreros recibieron un entrenamiento de equipo, un tiempo de 63 segundos está 1
unidad estandarizada por encima del tiempo medio de 60 segundos. Por tanto, la
probabilidad de que un obrero fabril seleccionado aleatoriamente que recibió un
entrenamiento de equipo complete el montaje en un tiempo de entre 60 y 63
segundos también es .3413. 1 Estos resultados se ilustran claramente en la figura 8.6
(página 282), lo que demuestra que sin importar el valor de la media µx y de la
desviación estándar ax de un conjunto particular de dátos distribuidos normal-
mente, siempre puede hacerse una transformación a una escala estandarizada par-
tiendo de la ecuación (8.2) y, usando la tabla E.2, puede obtenerse cualquier
probabilidad o porción de área bajo la curva. De la figura 8.6 vemos que la proba-
bilidad o área bajo la curva de 60 a 63 segundos para los obreros con un entre-
namiento de equipo es idéntica a la probabilidad o área bajo la curva de 75 a 81
segundos para los obreros con un entrenamiento individual.
, 1'1 1
Planta automotriz
con capacitación ,' ' \, '.¡ 1;
individual
l:i 1 Aplicaciones
Ahora que hemos aprendido a usar la tabla E.2 junto con la ecuación (8.2), pueden
resolverse muchos tipos distintos de cuestiones de probabilidad referentes a la dis-
tribución normal.
Aplicaciones 2·a· 1
·· ··capt1cita~lón
'·:··ÍI
de
,
equipe>'·
'. '· '
·
;. º,
Figura 8.6
Demostración de una transformación de
escalas por porciones correspondientes bajo •,•·.
dos curvas normales.
Para ilustrar lo anterior, supongamos que el consultor formula las siguientes pre-
guntas respecto al montaje de una parte particular por parte de obreros que tuvieron
un entrenamiento individual:
l. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en menos de 75 segundos
o en más de 81 segundos?
2. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en un tiempo de entre
68 a 81 segundos?
3. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en menos de 62 segundos?
4. ¿Cuál es la probabilidad de que un obrero fabril seleccionado
aleatoriamente pueda montar la parte en un tiempo de entre 62 a 69
seg\indos?
5. ¿Cuántos segundos deben transcurrir antes de que 50% de los obreros
fabriles monten la parte?
6. ¿Cuántos segundos deben transcurrir antes de que 10% de los obreros
fabriles monten la parte?
7. ¿Cuál es el alcance intercuartil (en segundos) esperado para que los
obreros fabriles monten la parte?
1• Planta autoJnQ'triz «1 ,, , 1
, ·. con cal)~!(?ilf1Pió!".·-0r~r,
irycjiyi~1,1~I · , • .
,¡·.L.:·:. ,,
', :;,
, _ r..:-,,,..<:
Puesto que la media y la mediana son teóricamente iguales para datos nor-
malmente distribuidos, se concluye que 50% de los obreros pueden montar la
parte en menos de 75 segundos. 2 Para mostrar esto, de la ecuación (8.2) tenemos
z =X - µ, = 75 - 75 = O.OO
ª· 6
Usando la tabla E.2, vemos ·que el área bajo la curva normal desde la media hasta
Z = 0.00 es .0000. Así pues, el área que está bajo la curva menor que Z = 0.00 debe
ser .5000 - .0000 = .5000 (que resulta ser el área para todo el lado izquierdo de la
distribución desde la media hasta Z = -oo, como se muestra en la figura 8.7).
Ahora deseamos obtener la probabilidad de montar la parte en más de 81
segundos. Pero la ecuación (8.2) sólo da las áreas que están bajo la curva desde la
media hasta Z, no desde Z hasta +oo. Por tanto, encontramos la probabilidad desde
la media hasta Z y restamos este resultado de .5000 para obtener la respuesta
deseada. Puesto que sabemos que el área o porción de la curva desde la media hasta
Z = +1.00 es .3413, el área que va desde Z =+1.00 a Z =+oo debe ser .5000 - .3413
= .1587. En consecuencia, la probabilidad de que un obrero fabril seleccionado
aleatoriamente realice la tarea en menos de 75 o más de 81 segundos, P(X < 75 o X
> 81), es .5000 + .1587 = .6587.
e Pregunta 2: Hallando P(69 :5: X :5: 81) . Suponga que ahora estamos intere-
sados en
determinar la probabilidad de que un obrero fabril seleccionado aleatoria-
mente pueda completar la parte en un tiempo de entre 69 a 81 segundos, es decir,
P(69 s; X~ 81). Observamos de la figura 8.8 de la página 284 que uno de los valores
de interés está por encima del tiempo de montaje medio de 75 segundos y que el
otro valor está por debajo de éste. Puesto que nuestra fórmula de transformación
(8.2) sólo nos permite encontrar probabilidades desde un valor particular de interés
hasta la media, podemos obtener nuestra probabilidad deseada en tres pasos:
Aplicaciories 281
l. Determine la probabilidad de la media a 81 segundos.
2. Determine la probabilidad de la media a 69 segundos. . 1
3. Sume los dos resultados mutuamente excluyentes.
Para este ejemplo, ya completamos el paso l¡ el área que está bajo la curva nornial
a partir de la media hasta 81 segundos es .3413. Para encontrar el área desdé la
media hasta 69 segundos (paso 2), tenemos
z == X - µX == 69 - 75 == -1.00 ··1:-1
"X 6
,'
J '
La tabla E.2 muestra sólo entradas positivas para Z. Debido a la simetría, es clarci>\
que el área que va de la media hasta Z == -1.00 debe ser idéntica al área que va d~'j
la media hasta Z == +l.00. Descartando el signo negativo, entonces, buscamos (e: J
la tabla E.2) el valor de Z == 1.00 y encontramos que la probabilidad es .3413. Po ~ 1
93
57
,,,. 93 x esc.at1:1
-3.00· -'-2.00 -.1.00: O · +LOO +2.00 +3.00 ZEscala Figura 8.9
Encontrando P(6l :<>X:<> 87).
57 63 6~ 75 81 87 93 X Escala
-3.oo: ':...e.oo ~1:00 o +1.00 +2.00 +3.00 iescala
,._, Figura 8.10
Encontrando P(57 :<> X:<> 93). "
segundos. Así, es claro por qué a menudo se usa 6cr, (es decir, 3 desviaciones están-
dar por arriba de la media a 3 desviaciones estándar por debajo de la media) como
una aproximación práctica del alcance de datos distribuidos normalmente.
;t:.
,,
1 Figura 8.11
Encontrando P(X < 62).
Aplicaciones 285
Para determinar el área bajo la curva desde la media hasta 62 segundos, tenemos
X - µX 62 - 75 = -13 = -2.17
Z=--~
6 6
•
2.0
2.2
2.3
2.4
.4772
.4821
.4861
.4893
.4918
.4778
.4826
.4864
.4896
.4920
.4783
.4830
.4868
.4898
.4922
.4788
.4834
.4871
.4901
.4925
.4793
.4838
.4875
.4904
.4927
.4798
.484!
.4878
.4906
.4929
.4803
.4846
.4881
.4909
.4931
)-
.4
.4884
.4911
.4932
8 .4812
.4854
.4887
.4913
.4934
.4817 1
.4857 !
.4890
.4916
.4936
Fuente: Extraída de la tabla E.2.
Figura 8.12
Encontrando P(62 ~X~ 69).
j¡.
Figura a.1 J
Encontrando X.
Aplicaciones 287
'·.
' '
.
• 'Á t >
E! ~r~a,(, ,es.. .40,00:
1 ~ 1·,
1· ,; •
El área es .1000
,'·,<·; ... ,'. t 1
. XEscala .·
Figura 8.14
Encontrando Z para -1.28 o : ::,, 1
ZEscala
determinar X.
Tabla 8.4 Obtención de un valor Z correspondiente a un área particular bajo la curva normal •
o.o
0.1
z .00
.0000
.0398
.01
.0040
.0438
.02
.0080
.0478
.03
.0120
.0517
.04
.0160
.0557
.os
.0199
.0596
.06
.0239
.0636
.07
.0279
.0675
•
.o
.o
19
14
.09
.0359
.0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1 03 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1 80 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1 44 .1879
1.0 .3621
•
1.1 .3830
.4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
Fuente: Extraída de la tabla E.2.
entonces
X = µx + Zcrx
•. •I-:; .KJ:~q~I~¡
i,.:;. r.zesé~iá\. Figura 8.1 s
Encontrando Q 1•
Aplicaciones 289
Tabla 8.5 Obtención de un valor Z correspondiente a un área particular bajo la curva normal .
z
o.o
0.1
.00 .01 .02 .03 .04 .os .06
• .08
.0319
.0714
.09
.0359
.0753
0.2 .1103 .1141
0.3 .1480 .1517
0.4 .1844 .1879
•
0.5 .2190 .2224
.2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
Fuente: Extraída de la tabla E.2.
Una vez que se obtiene Z, el paso final es usar la ecuación (8.3). Por tanto,
Q1 = X = µ x + Za•
= 75 + (-0.67)( 6)
= 75 - 4
= 71 segundos
Para encontrar el tercer cuartil, debemos determinar el tiempo (en segundos)
en el que puede esperarse que 75% de los obreros monten la parte más rápido (y
25% podrían terminar la tarea más despacio). Esto se muestra en la figura 8.16.
Fl111ra a.le
Encontrando Q,.
Q3 = X = µ • + Za•
= 75 + ( +0.67)( 6)
= 75 +4
= 79 segundos
El rango intercuartil o dispersión media de la distribución es
rango intercuartil = Q3 - Q1
= 79 - 71
= 8 segundos
Aplicaciones 291
8.6 Los gastos mensuales de comida de familias de cuatro miembros promedian
$420 con una desviación estándar de $80. Suponiendo que los gastos
mensuales de comida se distribuyen normalmente:
(a) ¿Qué porcentaje de estos gastos son inferiores a $3SO?
(b) ¿Qué porcentaje de estos gastos están entre $2SO y $3SO?
(c) ¿Qué porcentaje de estos gastos están entre $2SO y $4SO?
(d) ¿Qué porcentaje de estos gastos son inferiores a $2SO o mayores a $4SO?
(e) Determine Q1 y Q1 a partir de la curva normal.
• 8.7 Toby's Trucking Company determinó que sobre una base anual, la distancia
viajada por camión se distribuye normalmente con una media de SO.O mil
millas y una desviación estándar de 12.0 mil millas.
(a) ¿Qué proporción de camiones puede esperarse que viajen entre 34.0 y
SO.O mil millas al año?
(b) ¿Cuál es la probabilidad de que un camión seleccionado aleatoriamente
viaje entre 34.0 y 38.0 mil millas al año?
(c) ¿Qué porcentaje de camiones puede esperarse que viajen menos de 30.0 o
más de 60.0 mil millas al año?
(d) ¿Cuántos de los 1000 camiones de la flota se espera que viajen entre 30.0
y 60.0 mil millas al año?
(e) ¿Cuántas millas serán recorridas por al menos 80% de los camiones·!
8.8 Las bolsas de plástico usadas para empaque de productos se fabrican de tal
manera que la resistencia a la rotura de las bolsas se distribuye normalmente
con una media de S libras por pulgada cuadrada y una desviación estándar de
l.S libras por pulgada cuadrada.
(a) ¿Qué proporción ele las bolsas producidas tiene una resistencia de rotura de
(1) entre S y S.S libras por pulgada cuadrada?
(2) entre :~.2 y 4.2 libras por pulgada cuadrada?
(3) al menos 3.6 libras por pulgada cuadrada?
(4) menos de 3.17 libras por pulgada cuadrada?
(b) ¿Entre qué dos valores simétricamente distribuidos alrededor de la media
caerá 95'Ji• de las resistencias de rotura?
8.9 Se encontró que un conjunto de calificaciones de exámenes en un curso de
estadística introductoria se distribuía normalmente con una media de 73 y
una desviación estándar de 8.
(a) ¡Cuál es la probabilidad de obtener a lo más una calificación de 91 en este
examen?
(!>) i.<~u(· porcentaje de estudiantes sacaron una calificación de entre 6S y 89?
(1') i.C~u(· porcentaje de estudiantes sacaron una calificación de entre 81 y 89?
(!I) i.< :uiil t'S la calificación del examen final si sólo S% de los estudiantes que
hici\'ron la prueba tuvieron una calificación superior?
\/ (t·) Si d profesor califica por campana (otorga Aes al 10% superior de la clase
si11 i111portar la calilicacic"i11), ;.sl' contentaría usted con una calificación de
81 t•n este exallll'n o ron una calificación de 68 en otro examen en el que
la llll'dia t•s <>2 y la tksviacic'm estúndar es 3? Muestre estadísticamente y
explique.
8.10 En una conocida escuda comercial los índices de puntos de calificaciones de
sus 1000 estudiantes SL' distriliuyl'll aproximadamente normalmente con una
mediaµ"= 2.8:~ y una desviaci{m l'St<índar cr., = .38.
(a) ¿Cuál es la probabilidad de que un estudiante seleccionado aleatoriamente
tenga un índice de puntos de calificaciones entre 2.00 y 3.00?
(b) ¿Qué porcentaje del estudiantado está a prueba, es decir, tiene índices de
puntos de calificaciones por debajo de 2.00?
(c) ¿Cuántos estudiantes de esta escuela se espera que ingresen a la lista de
decanos, es decir, que tengan índices de puntos de calificaciones iguales o
mayores que 3.20?
(d) ¿Qué índice de puntos de calificaciones será excedido por sólo IS% del
estudiantado?
Aplicaciones 291
8.17 Los salarios de los trabajadores de una industria particular promedian $11.90
la hora y la desviación estándar es $.40. Si se supone que los salarios se
distribuyen normalmente:
(a) ¿Qué porcentaje de trabajadores reciben salarios de entre $10.90 y $11.90?
(b) ¿Qué porcentaje de trabajadores reciben salarios de entre $10.80 y $12.40?
(c) ¿Qué porcentaje de trabajadores reciben salarios de entre $12.20 y $13.10?
(d) ¿Qué porcentaje de trabajadores reciben salarios de menos de $11.00?
(e) ¿Qué porcentaje de trabajadores reciben salarios de más de $12.95?
(f) ¿Qué porcentaje de trabajadores reciben salarios de menos de $11.00 y
más de $12.95?
(g) ¿Cuál debe ser el salario si sólo 10% de todos los trabajadores de esta
industria ganan más?
(h) ¿Cuál debe ser el salario si sólo 25% de todos los trabajadores de esta
industria ganan menos?
(i) Determine el eje medio y el rango intercuartil de los salarios de esta
industria.
Estimación de la suposición de
normalidad: propiedades de evaluación y
construcción de gráficas de probabilidad
Ahora que hemos analizado la importancia de la distribución normal y descrito sus
propiedades (sección 8.3), y de haber demostrado cómo puede aplicarse (sección
8.4), debe considerarse un asunto muy práctico. Esto es, debemos ser capaces de
evaluar la probabilidad de que un conjunto de datos particular pueda suponerse
como proveniente de una distribución normal subyacente o pueda aproximarse
adecuadamente a ésta.
Como buenos analistas de datos, éste es el tipo de cosas que siempre debemos pen-
sar hacer: graficar, observar, calcular y describir. Muchas de las técnicas de estadística
descriptiva que hemos estudiado hasta ahora entran en acción aquí. Nada es
nuevo. Comparada con otras formas distribucionales, sabemos cómo se supone
que se debe ver una distribución normal [véase el panel (a) de la figura 4.8 de la
página 130 que compara el polígono con la gráfica de caja y sesgos].
Un segundo planteamiento para evaluar el supuesto de normalidad en nues-
tros datos es a través de la construcci6n de una gráfica de probabilidad normal.
tenida debajo de ese valor. Al restar, calculamos entonces el área bajo la curva
desde q hasta la media µ, de O. Después encontramos esta área en el cuerpo de la
1,
tabla E.2 y, trabajando hasta los márgenes de esa tabla, ubicamos el valor cuantil
normal estándar correspondiente.
Para demostrar esto, supongamos que deseamos obtener el conjunto de valores
cuan tites normales estándar correspondientes a una muestra de 19 observaciones. El
primer valor cuantil normal estándar, q,,, es ese valor debajo del cual la proporción
1 1 1
n+1 19+1 2 0 = .05 del área bajo la curva normal está contenida. En la figu-
ra 8.17 figura 8.17 de la página 298 vemos que el área desde q hasta la media es
1,
que del cuerpo de la tabla 8.6 de la página 298, q,, caería a la mitad entre - 1 .65 y
- 1.64. Como los valores cuan tites normales estándar generalmente se reportan
con dos lugares decimales, el valor -1.65 se elige aquí.
Continuando de una manera similar, por ejemplo, el segundo valor cuantil
normal estándar, q,,, es ese valor por debajo del cual se obtiene la proporción
- 2- = - 2- = ~ = .10 del área bajo Ja curva normal. De la figura 8.18 y de la
n+1 19 + 1 20
tabla 8.7 (véanse páginas 298 y 299), q,, caería entre -1.29 y -1.28, peromás
ce cano a este último. Por consiguiente, el valor -1.28 se elige aquí.
Continuando de una manera similar, por ejemplo, el décimo valor cuantil nor-
mal estándar, q,,.,, es ese valor por debajo del cual está contenida la proporción
10 10 10 ,
n + 1 = 19 + 1 = 20 =.SO del area bajo la curva normal. Puesto que hemos ubi-
cado la mediana, este valor cuantil normal estándar debe ser 0.00. Dejamos al lector
como ejercicio mostrar que el segundo valor cuantil normal estándar mayor, q, , es
+l.28 y que el mayor valor cuantil normal estándar, q,, es +l.65 (problema 8 '.18, 1
•
1.5 .4406 .4418 .4429 .4441
.4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
Fuente: Extraída de la tabla E.2.
Figura 8.18
Encontrando el segundo valor cuantil normal
estándar de un grupo de datos con 19 .ZEscala ·,
observaciones.
1.0 .3621
•
1.1 .38:i0
.4015
1.3 .4177
1.4 .4319
Fuente: Extraída de la tabla E.2.
'· ..
. ·.· (·; ; ~', '
. i .·¡
• ¡ • • •
··, .' 1
~· ') ,'' ..
Figura 8.19
. :(a) Distribución Normal· Gráficas de probabilidad normal
para 5 grupos de datos hipotéticos.
[Observ~ los correspondientes polígono y gráfica de caja y sesgos del panel (a)
de la figura 4.8 de la página 130.]
Por otra parte, del panel (b) observamos un patrón no lineal de la gráfica. Los
puntos parecen surgir de alguna manera más en pendiente al principio y luego
parecen incrementarse con una rapidez decreciente. Este patrón es un ejemplo de
un grupo de datos sesgados a la izquierda. La pendiente del lado izquierdo de la
gráfica es indicativo del alargamiento del extremo izquierdo de la distribución de
los resultados de la prueba de la sección de clase B. [Observe los correspondientes
polígono y gráfica de caja y sesgo del panel (b) de la figura 4.8 de la página 130.]
De modo interesante, del panel (c) observamos el patrón no lineal opuesto.
Los puntos aquí parecen surgir más lentamente al principio y luego parecen incre-
mentarse a una velocidad creciente. Este patrón es un ejemplo de un grupo de
datos sesgados a la derecha. La pendiente del lado derecho de la gráfica es indica-
tivo del alargamiento del extremo derecho de la distribución de los resultados de
la prueba de la sección de clase C. [Observe los correspondientes polígono y grá-
fica de caja y sesgo del panel (c) de la figura 4.8 de la página 130.]
Además, de los paneles (d) y (e) de la página 302 observamos gráficas simétri-
cas con patrones. El panel (d) es lineal sobre una gran porción media de la gráfica
y el panel (e) es lineal sólo sobre una pequeña porción media de la gráfica. Sin
embargo, de cada lado de estas dos gráficas, la curva parece enderezarse. Este
enderezamiento muestra el efecto opuesto a lo que se observó en las dos figuras
precedentes como resultado de un sesgo. Aquí no hay extremos alargados. De
hecho, en realidad no hay extremos, los resultados de la prueba de la sección de
clase D están distribuidos regularmente y los resultados de prueba en la sección
de clase E siguen una distribución en forma de U. [Observe los correspondientes
polígonos y gráficas de caja y sesgo de los paneles (d) y (e) de la figura 4.8 de la
página 130.]
90
ü
al
.e 80
~
Q)
-o
.!!I 70
al
al
-o 60
al
Cl
en
Q)
en
e: 50
:Q
o
::i
.o 40
·e:
~
o
30
-1.8 -1.4 -1.0 '--0.6 . '--0.2 0.2 0.6
(c) Distribución sesgada a la derecha
~
~ 70
ctl
o.
(/)
1l
Q)
60
:l
a.
Q) 50
-o
(/)
o
~ 40
"S
(/)
~ 30~~~~~~~-'---'-~-'--~~~~~~-'---'-~-'--~~~~~
-1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 z
(d) Distribución en forma rectangular
w 90
e
'O
·0
(.)
Q)
80
(/)
~
~ 70
ctl
o.
**
*
12.0+
*
*
*
12.0+
*
---------+---------+--------·-+---------+---------+----------nscores
-2.0 -1.0 -o.o 1.0 -2.0
tuition
*
*
15.0+
*
*
10.0+ *** *
* **
* ** *
** **
5.0+ * *
- * **
---------+---------+---------+---------+---------+----------nscores
-1.60 -0.80 0.00 0.80 1.60
Figura 8.20
Gráficas de probabilidad normal de las colegiaturas cobradas a residentes fuera del estado en
colegios y universidades de Texas y Carolina del Norte obtenidas con MINITAB.
Flle11te: Los datos se tomaron de las tablas 3.1 y 3.6.
$ 40 $ 50 $ 50 $ 70 $ 70 $ 80 $ 80 $ 90 $100 $100
$100 $100 $100 $100 $110 $110 $120 $120 $130 $140
$140 $150 $160 $160 $200
--+---+¡---1---t---11----+--+--·--X
3 4 5
2.5 3.5 4.5 4.5
La correción para ajuste de continuidad requiere sumar o restar 0.5 del valor o
valores de la variable aleatoria discreta X, según se requiera. Así pues, para usar la
distribución normal para aproximar la probabilidad de obtener exactamente 4 caras
(es decir, X= 4), encontraríamos el área bajo la curva normal desde X= 3.5 hasta
X= 4.5, los límites inferior y superior de 4. Para determinar la probabilidad aprox-
imada de observar al menos 4 caras, encontraríamos el área bajo la curva normal
desde X= 3.5 y arriba puesto que, en un continuo, 3.5 es el límite inferior de X. De
manera similar, para determinar la probabilidad aproximada de observar a lo más
4 C?ras, encontraríamos el área bajo la curva normal desde X= 4.5 y abajo pues, en
un continuo, 4.5 es el límite superior de X.
La distribución normal como una aproximación a las distribuciones binomial y de Poisson 305
Al usar la distribución normal para aproximar distribuciones de probabilidad
discretas, vemos que la semántica nuevamente cobra importancia. Para determi-
nar la probabilidad aproximada de observar menos de cuatro caras, encontraríamos
el área bajo la curva normal desde X= 3.5 y abajo; para determinar la probabilidad
aproximada de observar más de cuatro caras, encontraríamos el área bajo la curva
normal desde X = 4.5 y arriba; y para determinar la probabilidad aproximada de
observar de cuatro a siete caras, encontraríamos el área bajo la curva normal desde
X= 3.5 hasta X= 7.5. El lector tendrá la oportunidad de obtener estos resultados
en el problema 8.33 de la página 310.
crx = ~np(l - p)
tenemos
z = X-np
~np(l - p)
J','
·¡' ,(~.4).
·. •. .El área es
.4808 puesto .
.· ·qu~,Z= +2.07
Usando la tabla E.2, el área bajo la curva entre la media y Z = +2.07 es .4808,
de tal forma que la probabilidad aproximada está dada por .5000 + .4808 = .9808.
Bajo la distribución binomial, la probabilidad de obtener no más de 150 llan-
tas defectuosas consiste en todos los eventos incluyendo 150 defectuosas, es decir,
P(X $; 150) = P(X =O)+ P(X = 1) + ··· + P(X = 150), y la probabilidad verdadera puede
calcularse laboriosamente de
La distribución normal como una aproximación a las distribuciones binomial y de Poisson 307
Para apreciar la cantidad de trabajo ahorrado al usar la aproximación normal
al modelo binomial, en lugar de los cálculos de probabilidad exactos, simplemente
Imagine los siguientes 151 cálculos de la ecuación (7.4) antes de sumar los resultados:
( 1,8ºº ).os)º (. 92 )1,600 + ( 1,~00 )(.os)1 (. 92 )1,599 + ... + ( 1í~go ).o8 )150 (. 92 )1,4so
De la tabla E.2, observamos que el área bajo la curva normal de la media a X= 150.5
es .4808 y el área bajo la curva desde la media hasta X= 149.5 es .4761. Por con-
siguiente, como se ilustra en la figura 8.22, la probabilidad aproximada de obtener
150 llantas defectuosas es la diferencia en las dos áreas, .OÓ47.
X Escala
Figura 8.22
Aproximación de una probabilidad binomial +1.98 +2.07 zescala
exacta.
µ, = A.
tenemos
X-'A
Z=--
..fi.
así que, cuando "A es lo suficientemente grande, la variable aleatoria Z se distribuye
aproximadamente de manera normal.
Por tanto, para encontrar las probabilidades aproximadas correspondientes a
los valores de la variable aleatoria discreta X tenemos
''.:·;.~·..:/f.j
X - A
Z - a
'(8..S~k'
= ··¡-¡.··
' 1
donde
"A = número esperado de éxitos o media de la distribución de Poisson
crx = ..fi., desviación estándar de la distribución de Poisson
xª = número ajustado de éxitos, x, para la variable aleatoria discreta X, de tal
forma que x. =x - .5 o xª =x + .5, según sea lo apropiado
e Ejemplo Para ilustrar esto, suponga que en una cierta planta automotriz el
número promedio de interrupciones de trabajo al día debidas a problemas con
el equipo durante el proceso de producción es 12.0. ¿Cuál es entonces la probabil-
idad aproximada de tener 15 o menos interrupciones de trabajo debido a problemas
del equipo en cualquier día dado? De la ecuación (8.5) tenemos
La distribución normal como una aproximación a las distribuciones binomial y de Poisson 309
µX = 12.Q 15.5 X Escala
Figura 8.23
Aproximación de la distribución de µz =O +1.01 ZEscala
Po is son.
Distribución
.. ;
normal
. ' ·..
;
1 "., 1
Aproximaciones
Propiedades Aplicaciones a distribuciones
discretás
1 1
"-. 1 1
Evaluación '
·P~ra la de Poisson
~:·,
. Gráfica ·de
probabilidad normal
..
Diagrama de resumen del capítulo 8.
TÉRMINOS CLAVE
aproximación normal a la distribución distribución normal estandarizada 278
binomial 306 fórmula de transformación 278
aproximación normal a la distribución función de densidad de probabilidad
de Poisson 307 continua 274
corrección para ajuste de continuidad función de densidad de probabilidad
305 normal 274
cuantil normal estándar 297 gráfica de probabilidad normal 296
cuantiles 296 transformación normal inversa de
distribución normal 275 resultados 296
• 8.44 Sally D. tiene 67 pulgadas de altura y pesa 135 libras. Si la altura de las mujeres
tiene una distribución normal conµ,= 65 pulgadas y cr, = 2.5 pulgadas, y si el
peso de las mujeres tiene una distribución normal con µ, = 125 libras y cr, = 10
libras, determine si la característica más inusual de Sally es su altura o su peso.
Analice.
8.45 El peso neto de las cajas de cereal empacado sigue la distribución normal con
una media µ, = 368 g. Encuentre la desviación estándar o, si 98% de las cajas
tienen un peso neto de menos de 400 g.
8.46 El cobro de larga distancia por llamadas telefónicas a Centroamérica sigue la
distribución normal con una media deµ,= $21.00. Encuentre la desviación
estándar o, si 80% de las llamadas tienen un cobro de larga distancia mayor a
$17.50.
• 8.47 Se sabe que una de cada tres personas que entran a Groshen's (una gran tienda
departamental) hará al menos una compra.
(a) Si se selecciona una muestra aleatoria de n. = 5 personas, ¿cuál es la
probabilidad de que
(1) dos o más hagan al menos una compra?
(2) a lo más cuatro hagan al menos una compra?
(b) Si se selecciona una muestra aleatoria den= 81 personas, ¿cuál es la
probabilidad aproximada de que
(1) 30 o más hagan al menos una compra?
(2) a lo más 40 hagan al menos una compra?
Referencias
l. Derman, C., L. J. <llt•st•r l' l. Olkin, A Guide to Probability S. Ramsey, P. P. y P. H. Ramsey, "Simple Tests of Normality in
Theory ami Appllrnt/011 (Nueva York: Holt, Rinehart and Small Samples", foumal of Quality Technology, vol. 22, 1990,
Winston, 197:~). págs. 299-309.
2. Gunter, Jl., "Q-q l'lots", <l1111lity Progress (febrero, 1994), 6. Ryan, B. F., T. A. Ryan y B. L. Joiner, Minitab Student
págs. 81-86. Handbook, 3a ed. (North Scituate, MA: Duxbury Press,
3. Larsen, IL J. y M. 1.. Marx, 1\11 Introduction to Mathematical 1994).
Ste1tlslics 111111 lls A¡1¡1flrntl11m, 2a ed. (Englewood Cliffs, NJ: 7. Sievers, G. L., "Probability Plotting", en Kotz, S. y N. i.
Prentkt•-lfall, l l/lih). Johnson, Eds., Encyclopedía of Statistícal Sciences, vol. 7
4. Marasrnllo, l.. A. y M. McSweeney, Nonparametric and (Nueva York: Wiley, 1986), págs. 232-237.
I>istrl/111//011-/!1n• Ml'lltotls fiir the Social Sciences (Monterey,
CA: llrooks/< :oi1•, 1977).
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar el concepto de una
distribución de muestreo para
CAPÍTULO variables tanto numéricas como
categóricas y examinar el teorema del
límite central para casos en los que
una población está normalmente
distribuida o no.
319
~~~.,('~.,.;,·:~';'" -~: ..~· '
\·.J:-~
i•j 1 Introducción
Un objetivo importante del análisis de datos es el uso de estadísticas como la media
de muestra y la proporción de muestra con el fin de estimar los parámetros corres-
pondientes en las poblaciones respectivas. Debemos darnos cuenta de que en estu-
dios enumerativos, uno se interesa por extraer conclusiones respecto a una
población, no respecto a una muestra. Como ejemplo, un encuestador político
estaría interesado en los resultados de muestra sólo como una forma de estimar la
proporción real de los votos que cada candidato recibirá de la población de
votantes. De igual forma, un auditor, al seleccionar una muestra de comprobantes,
está interesado sólo en usar la media de muestra para estimar la cantidad prome-
dio de población. Además, en nuestra Encuesta sobre la satisfacción de los emplea-
dos, un estadístico utilizaría la información de muestra como una forma de extraer
inferencias respecto al ingreso personal de la población de empleados de Industrias
Kalosha. En cada una de estas situaciones, la muestra se usa para extraer conclu-
siones respecto a la población.
En la práctica, se selecciona aleatoriamente una muestra simple de tamaño
predeterminado de la población. Los elementos que se deben incluir en la muestra
se determinan mediante el uso de un generador de números aleatorios, como
podría ser una tabla de números aleatorios (véase la sección 2.7). Hipotéticamente,
con el fin de poder usar la estadística de muestra para estimar el parámetro de
población, deberíamos examinar cada muestra posible que pudiera ocurrir. Si esta
selección de todas las muestras posibles realmente se tuviera que hacer, la dis-
tribución de los resultados se denominaría distribución de muestreo. El pro-
ceso de generalizar estos resultados de muestra para la población se refiere como
una inferencia estadística.
En los tres capítulos anteriores hemos examinado reglas básicas de probabili-
dad y hemos investigado diversas distribuciones de probabilidad como la bino-
mial, de Poisson y normal. En este capítulo usaremos estas reglas de probabilidad
junto con nuestro conocimiento de las distribuciones de probabilidad para comen-
zar a enfocarnos en cómo ciertas estadísticas (como la media o proporción) pueden
utilizarse en inferencias respecto a los parámetros de población reales. Comenza-
remos analizando las propiedades de los estimadores de muestra que se usan para
estimar los parámetros de población. Después desarrollaremos el concepto de la
distribución de muestreo y estudiaremos el teorema del límite central. Las dis-
tribuciones de muestreo para la media y para la proporción se desarrollarán para
situaciones en las que el muestreo ocurre con reemplazo y sin reemplazo.
Al terminar este capítulo, usted deberá ser capaz de:
l. Comprender las propiedades de la media aritmética.
2. Estar familiarizado con el concepto de distribución de muestreo.
3. Saber por qué la distribución de muestreo de la media se aproxima a una
distribución normal al incrementarse el tamaño de muestra.
4. Comprender el efecto sobre el error estándar del muestreo de una
población finita.
Mecanógrafo Número de
errores
A 3
B 2
e 1
D 4
"· ca
:'g 2
Q)
,, ., :::i.:
' ~'
''U:'
'2: 3 4
· :. Número de érrores
¡-.·'.·•
Figura 9.1
Número de errores cometidos por una población de cuatro
mecanógrafos.
Tal vez recordemos de la sección 4.8 que cuando los datos de una población
están disponibles, la media puede calcularse a partir de
'(9.1.)
..... ,_.
!··. (~.2)
' ~ .
·'1·,'
Por tanto,
3+2+1+4
µx =- - - - - = 2.5errores
4
y
=
T:alble SJ.~ Las & muestras posibles ele n 2 mecanógrafos de una
IJOblación· ele H = 4 rneca.nQzrafos al muestrear sin
ree mplaz().
En e:ste caso, asimismo, d promeclio de t<Jdas las medias de muestra (µ:x) es igual
a la media dE pobla.ción, Z.5. Por tanto, hemos demostrado que la media aritmé-
tica de muestra es lln estimador imparcial dE la media de población. Esto nos dice
que aun cuan<lo n() sepam()s qtié tan cerca esté el promedio de cualquier muestra
particu.lar seleccionada a la media de población, al menos estamos seguros de que
el promeclio de todas las media.s de muest1a que se podrían haber seleccionado será
igual a la media de población.
La segunda prc>¡:>iedad que po:see la media, la eficiencia, se refiere a la pre-
cisión de la rnuEstra de estadística como un estimador del parámetro de población.
Para distribuciones como la normal, la media a1itmética se considera más estable
de muestra a muestra que ot1as mEdiciones de tendencia central. Para una mues-
tra de tamañ() n, la media de muestra se acercará más, en promedio, a la media de
poblacié>n que cualquie1 otro estimaclor imparcial, por lo que la media de muestra
es una mejor estimación de la media de población.
La tercera propie<lad, la c~nsistencia, se refiere al efecto del tamaño de mues-
tra sobre la utilidad dE un Estimador. Al incrementarse el tamaño de muestra, la
variación de la media de muestra de la media dE población se hace más pequeña,
de manera que la media aritmética de muestra se vuelve una mejor estimación de
la media de población.
4 -
-
~
Figura 9.2 ~
Distribución de muestreo
del número promedio de o 1 1
errores para muestras de o 2 3 4
dos mecanógrafos. Número de errores
(9.3)
11
L,x;
i= 1 X;
X= 11 1
X;
n=32l
'
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
n=16~
1
Figura 9.l
Distribución de mut•strco de la
media de 500 mu.,stras de
o z tamaño n = 1, 2, 4, 8, 16 y 3 2
seleccionadas d., una población
normal.
(9.4)
x.:..µx
Z=--=--
X-µx
O'x O' X (9.5)
{ñ
De la tabla E.2, el área bajo la curva normal desde la media hasta Z = -2.00 es
.4772. Por tanto, se esperaría que 47.72% de las muestras de tamaño 100 tuvie-
ran medias entre 365 y 368 g, comparado con sólo 34.13% para muestras de
tamaño de 25.
En lugar de determinar la proporción de medias de muestra que se espera
caigan en un cierto intervalo, podríamos estar más interesados en encontrar el
intervalo en el cual caería una proporción fija de las muestras (medias). Por ejem-
plo, suponga que deseamos encontrar un intervalo alrededor de la media de
población que incluya 95% de las medias de muestra basadas en muestras de 25
cajas. El 95% podría dividirse en dos partes iguales, la mitad por debajo de la media
y la mitad por arriba de la media (véase la figura 9.5 de la página 328). Análogo a
la sección 8.4, estamos determinando una distancia por debajo y por arriba de la
media de población que contiene un área específica de la curva normal. De
la ecuación (9.5) tenemos
donde ZL =-Z
y
donde Zu = +Z.
Por consiguiente, el valor inferior de X es
y el valor superior de X es
V' ,••./,
Nuestra conclusión sería que 95% de todas las medias de muestra basadas en mues-
tras de 25 cajas caerían entre 362.12 y 373.88 gramos.
(a)
-5crx --4crx
~"'";:'.:~ ..-
-3crx -2crx -1crx o 1crx 2crx 3crx 4crx 5ox
rlTh
n=.2
ºx-= .7071
(b)
--4ox -30x -2ox -10x o 1ox 2ox 3ox 4ox
Vn Vn Vn Vn Vn Vn Vn Vn
~
n=4
ºx= .sooo
(e)
-4crx -3crx -2crx -1ox o 1crx 2crx 3crx 4crx
Vn Vn Vn Vn Vn Vn Vn Vn
~
n=B
ªx = .3536
(d)
--4cr X -3crx -2ax -1crx o 1crx 2crx 3ox 4crx
Vn Vn Vn Vn Vn Vn Yn Vn
(e)
--4cr X -3ax
y([h
-2crx -1crx o 1crx 2crx 3ax
n= 16
ªx = .2500
4crx
Vn Vn Vn Vn Vn Vn Vn Vn
Figura 9.6
~"-~ ªx ~ .1768
Distribución normal y la
(1)
distribución de muestreo de la --4crx -3crx -2crx -1ox o 1ox 2crx 3crx 4ox
media de 500 muestras de tamaño
n = 2,4,8, 16,32. Vn Vn Vn Vn Vn Vn Vn Vn
n= 16
ªx =.0122
(e) -~~~_¡____L____t___._c::::'~!!e..----
o
rñ. n:s2
(f) _ _ _ _ _ ___......,.,~==='--·-'--~·--'---··L--_.r:::="""'""--crx_-_=_.0_5_1_0_ __
Figura 9.7
Distribución uniforme continua
(rectangular) y distribución de
o muestreo de la media de 500
muestras de tamaño n = 2, 4, 8, 16, 3 2.
1, 3, 6, 7, 7, 12
(a) Suponiendo que usted muestrea sin reemplazo
(1) Seleccione todas las muestras posibles de tamaño 2 y establezca la
distribución de muestreo de la media.
(2) Calcule la media de todas las medias de muestra y también calcule
la media de población. ¿Son iguales? ¿Cómo se llama esta propiedad?
(3) Haga las partes (1) y (2) para todas las muestras posibles de tamaño 3.
(4) Compare la forma de la distribución de muestreo de la media
obtenida en las partes (1) y (3). ¿Qué distribución de muestreo parece
tener menor variabilidad? ¿Por qué?
(b) Suponiendo que usted muestrea con reemplazo, haga las partes (1) a (4) de
(a) y compare los resultados. ¿Qué distribuciones de muestreo parecen
tener menor variabilidad, las de (a) o (b)? ¿Por qué?
9.5 Refiriéndose a la tabla 3.6 ·de la página 69 (colegiaturas cobradas a residentes
fuera del estado en colegios y universidades de Carolina del Norte), y
suponiendo que muestrea sin reemplazo
(a) Seleccione todas las muestras posibles de tamaño 2 y establezca la
distribución de muestreo de la media.
(b) Calcule la media de todas las medias de muestra y también calcule
la media de población. ¿Son iguales? ¿Cómo se llama esta propiedad?
9.6 Se espera que el diámetro de las pelotas de ping-pong manufacturadas en una
gran fábrica tengan una distribución aproximadamente normal con una
media de 1.30 pulgadas y una desviación estándar de .04 pulgadas. ¿Cuál es la
probabilidad de que una pelota de ping-pong seleccionada aleatoriamente
tenga un diámetro de
(a) Entre 1.28 y 1.30 pulgadas?
(b) Entre l.31y 1.33 pulgadas?
(e) Entré qué dos valores (simétricamente distribuidos alrededor de la media)
caerá 60% de las pelotas de ping-pong (en términos del diámetro)?
(d) Si se seleccionan muchas muestras de 16 pelotas de ping-pong
(1) ¿Cuáles se esperaría que fueran la media y el error estándar de la
media?
(2) ¿Qué distribución seguirían las medias de muestra?
(3) ¿Que proporción de las medias de muestras estaría entre 1.28 y 1.30
pulgadas?
(4) ¿Qué proporción de las medias de muestra estaría entre 1.31y1.33
pulgadas?
(5) ¿60% de las medias de muestra estarán ent!.e esos dos valores?
(e) Compare las resp.uestas de (a) con (d)(3) y (b) con (d)(4). Analice.
(f) Explique la diferencia en los resultados de (c) y (d)(S). ·
'
(g) ¿Qué es más probable que ocurra: una pelota individual mayor de
1.34 pulgadas, una media de muestra por arriba de 1.32 pulgadas en una
muestra de tamaño 4, o una media de fuuestra por arriba de 1.31 pulgadas
en una muestra de tamaño 16? Explique.
9.7 Las llamadas telefónicas de larga distancia se distribuyen normalmente con
µ, = 8 minutos y cr, = 2 minutos. Si se seleccionan muestras aleatorias de 25
llamadas
(a) (a) Calcule cr;
(b) ¿Qué proporción de las medias de muestra estaría entre 7.8 y
/ 8.2 minutos?
X número de sucesos
p, = n =tamaño de la muestra
(9.7)
sería
(j = ~ p(I - p) (9.8)
Ps n
y sustituyendo p, por X, µp_. = p porµ,;¡ y ªr, = ~ p(l - p)/n por cr:;¡, tenémos
Z: Ps - P
~ p(l: p) (9.9)
Usando la tabla E.2, el área bajo la curva normal de Z =O a Z = 0.87 es .3078. Por
tanto, la probabilidad de obtener una proporción de muestra entre .40 y .43 es
.3078. Esto significa que si la proporción verdadera de éxitos en la población fuera
.40, entonces se esperaría que 30. 78% de las muestras de tamaño 200 tuvieran pro-
porciones de muestra entre .40 y .43. (Véase la figura 9.9.)
Figura 9.9
Diagrama de la curva normal p = .40 .43 Ps
necesaria para encontrar el área o .87 z
entre las proporciones .40 y .43.
fpc /~ (9.10)
~N - 1
cr = ~ p(l - p) ~N - n (9.12)
Ps n N - 1
~~N-n
j;¡ N -1
15 2,000 - 25
-!25 2,000 - 1
3-.J.988 = 2.982
La probabilidad de obtener una muestra cuya media está entre 365 y 368 gramos
de ganancia marginal se calcula de la siguiente manera:
z = X- µX = ---2_ = -1.01
Sx 2.982
= ~ 24 ~soo = ~ 24 .J.sol
200 999 200
= (.0346)(.895) = .031
Distiibucíones
dé, mtiestreo
Con Sin
remplazo remplazo
Juntando todo
TÉRMINOS CLAVE
consistencia 323 error estándar de la media 324
distribución de muestreo 320 factor de corrección de población
distribución de muestreo de la finita 337
media 324 imparcialidad 321
distribución de muestreo de la pro- inferencia estadística 320
porción 334 ley de grandes números 323
eficiencia 323 teorema del límite central 329
Longitud de Íínea
(número de automóviles) Probabilidad
o .25
1 .40
2 .20
3 .10
4 .04
s .01
Notas fi 1111lcs
l. Debemos r1•1·mdar que se han seleccionado "sólo" 500 2. Al trabajar con la distribución de muestreo de la propor-
muestras dt• 1111 11i'111wro infinito de muestras, de manera tal ción para muestras muy grandes, el factor de correción de
que las <llslrllml'iom·s de muestreo exhibidas son sólo continuidad (véase la sección 8.6) generalmente se omite,
aproximadorn·s dl' las distribuciones reales. puesto que tendrá mínimos efectos sobre Jos resultados.
References
l. Cochran, W. G., Su111pll11s Techniques, 3a. ed. (Nueva York: 2. Larsen, R. L. y M. L. Marx, An lntroduction to Mathematical
Wiley, 1977). Statistics and lts Applications, Za ed. (Englewood Cliffs, NJ:
Prentice-Hall, 1986).
Estimación
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Utilizar la distribución de muestreo
para desarrollar una estimación del
CAPÍTULO intervalo de confianza para una media
o para una porción, y determinar el
tamaño de muestra necesario para
obtener un intervalo de confianza
deseado.
343
i (,8 j Introducción
La inferencia estadística es el proceso que consiste en utilizar los resultados de una
muestra para llegar a conclusiones acerca de las características de una población.
En el presente capítulo examinaremos los procedimientos estadísticos que nos per-
mitirán estimar ya sea la media de una población o una porción de población.
Existen dos tipos principales de estimaciones: estimaciones puntuales y esti-
maciones de intervalo. Una estimación puntual consiste en una sola estadística
de muestra que se utiliza para estimar el valor verdadero de un parámetro de po-
blación. Por ejemplo, la media de muestra, X, es una estimación puntual de la
media de población, µx, y la varianza de muestra, S2, es una estimación puntual de
la varianza de población, cr;. Recuerde, de la sección 9.2.1, que la media de mues-
tra, X, posee las mayores propiedades deseables de imparcialidad y eficiencia.
Aunque en la práctica solamente se seleccione una muestra, sabemos que el valor
promedio de todas las medias de muestra posibles es µx, el parámetro de población
verdadero 1 • Puesto que la estadística de muestra (X) varía de una muestra a otra (es
decir, depende de los elementos seleccionados en la muestra), necesitamos consi-
derar este hecho con el fin de proporcionar una estimación más significativa y ca-
racterística de la población. Para lograr lo anterior, debemos desarrollar una
estimación de intervalo de la media de población verdadera, tomando en
consideración la distribución de muestreo de la media. El intervalo que constru-
imos tendrá una confianza o probabilidad especificada de estimar correctamente
el valor verdadero del parámetro de población, µx. Desarrollaremos intervalos pare-
cidos para la porción de población, p. Luego analizaremos de qué manera podemos
determinar el tamaño de la muestra a ser seleccionada y mostraremos cómo una
población finita puede afectar el ancho del intervalo de confianza desarrollado y
el tamaño de muestra seleccionado.
Después de terminar el presente capítulo, usted deberá ser capaz de:
l. Interpretar el significado de una estimación de intervalo de confianza.
2. Establecer la estimación de intervalo de confianza de la media, cuando
se conoce crx o cuando no se conoce.
3. Establecer la estimación de intervalo de confianza de la porción.
4. Determinar el tamaño de muestra requerido para medias o para
porciones.
5. Utilizar el factor de corrección de población finita cuando se toman
las muestras de una población finita sin reemplazo.
Puesto que la media de población, µ, (igual a 368) se incluye dentro del intervalo,
observamos que esta muestra ha conducido a una afirmación correcta con respecto
a µx (véase figura 10.1).
Para continuar con nuestro hipotético ejemplo, suponga que para una mues-
tra diferente den= 25, la media fue de 369.5. El intervalo obtenido a partir de esta
muestra sería 369.5 ± (1.96)(15)/(-J2s) o 369.5 ± 5.88. Esto es, la estimación de µx
sería
363.62::::; µX::::; 375.38
Como la media de población verdadera, µx (igual a 368) también está incluida en este
intervalo, llegamos a la conclusión que esta afirmación respecto a µx es correcta.
Ahora bien, antes de empezar a pensar que siempre obtendremos afirmaciones
correctas acerca de µx a partir de la media de la muestra X, suponga que tomamos
una tercera muestra hipotética de tamaño n = 25, en la cual la media de muestra es
igual a 360 gramos. El intervalo desarrollado aquí sería de 360 ± (l.96)(15)/(-J2s)
o 360 ± 5.88. En este caso, la estimación de µx es ·
362.12
x 1 =362.3
,356.42· . 362.3 . . 36fl.18
x2 ::369.5 'I ,. ,.
363.62 1 369.5 375.38
i 3 =3&o li-'·-·_,..,.__,...............___--11 1
1
35•q2 360. 365.88 1
1
1 Figura 10.1
362.12. 3?8
.....,.._.,...-__........_____--1 Estimaciones de intervalo de
X5 =373.aa. confianza a partir de cinco mue1tra
368 · 373.as 379.76 =
diferentes de tamaño, n 25,
tomadas de una población en la que
= =
µ, 368 yª· 15.
356.24 $ µX $ 368.00
Como la media de población de 368 está en el límite superior del intervalo, la con-
clusión es correcta (véase figura 10.1).
Finalmente, si X= 373.88, el intervalo será 373.88 ± (1.96)(15)/( f2s) o 373.88
± 5.88. Es decir,
En este caso, puesto que la media de población de 368 está incluida en el límite
inferior del intervalo, la conclusión es correcta.
Por consiguiente, de estos ejemplos (véase figura 10.1) podemos determinar
que si la media de la muestra basada en una media de n = 25 cae entre 362.12 y
373.88 gramos, la media de la población estará incluida en alguna parte dentro del
intervalo. Sin embargo, del análisis que hicimos referente a la distribución de
muestreo en la sección 9.2.3, sabemos que 95% de las medias de muestra caen
entre 362.12 y 373.88 gramos. En consecuencia, 95% de todas las medias de mues-
tra incluirán a la media de población en el intervalo desarrollado. El intervalo com-
prendido entre 362.12 y 373.88 se conoce como un intervalo de confianza de 95
por ciento.
- cr
X +z-x
- Fn
o (10.1)
Figura 10.2
Curva normal para determinar el valor
de Z necesario para un nivel de
confianza de 95 por ciento.
X
Figura 10.3
Curva normal para determinar el valor
-2.58 2.58 z de Z necesario para un nivel de
confianza de 99 por ciento.
x ± z f;
1
= 10.998 ± (1.96) j~¿Ó
= 10.998 ± .00392
10.99408 ~ µy ~ 11.00192
De nueva cuenta, como 11 está incluido en este intervalo más amplio, no hay
razón para creer que haya algo mal en el proceso de producción.
1 O. 3. 1 Distribución t de Student
Al inicio del presente siglo, un estadístico llamado William S. Gosset, empleado
de la Guinness Breweries, de Irlanda (véase referencia 7), se interesó en hacer
inferencias acerca de la media cuando se desconocía a,. Como los empleados de
la Guinness no tenían permitido publicar trabajos de investigación utilizando
su verdadero nombre, Gosset adoptó el seudónimo de "Student". La distribu-
ción que desarrolló se conoce en la actualidad como distribución t de
Student. Si la variable aleatoria X está distribuida normalmente, entonces la
estadística
tiene una distribución t con n -l grados de libertad. Observe que esta expresión
tiene la misma forma que la ecuación (9.5) de la página 326, excepto que S se uti-
liza para estimar a,, que en este caso se supone desconocida.
- Normal estándar
- Distribución t para 5
grados de libertad
Figura 10.4
Distribución normal estándar y
distribución t para cinco grados
de libertad.
Tabla 10.1 Det:erminación del valor crítico a partir de la tabla t para un área de 0.025 en
cada extremo con 34 grados de libertad.
Figura 10.s
Distribución t para 34 grados de libertad.
i
j =1
(X; - X )z
n = 5 y que X= 20, nos indica también que LX; = = 100, ya que LX;
j = 1 =
/n = X
i 1
o (10.2)
1,122.7 ± 101.58
1,021.12 ~ µ, ~ 1,224.28
(a) Establezca una estimación del intervalo de confianza de 95% del tiempo
promedio de espera de la población.
(b) ¿Qué suposiciones respecto a la distribución de población deben hacerse
en el inciso (a)?
Conjunto 1: 1, 1, 1, 1,8,8,8,8
Conjunto 2: 1, 2, 3, 4, 5, 6, 7, 8
UG Capítulo 10 Estimación
tación y se seleccionaron muestras repetidas de 35 observaciones con reemplazo,
utilizando el paquete MlNITAB. La primera muestra se presenta en la tabla 10.3. La
media de ésta es 1,003.26 galones.
Tabla 10.4 Claslflcaclón ordenada de 100 medias de muestras repetidas obtenidas con el
paquete MINITAB, utilizado para formar una estimación de Intervalo de
confianza de mínimo esfuerzo de 9S% de µ,...
(10.4)
o
Problemas de la sección I O. 6
e 10.39 Al gerente de un banco de una ciudad pequeña le gustaría determinar la
porción de sus clientes que reciben su salario semanalmente. Se selecciona una
muestra aleatoria de 100 clientes y 30 de ellos informa que recibe su salario
cada semana. Establezca una estimación de intervalo de confianza de 90%
de la porción verdadera de los clientes del banco a los que se les paga
semanalmente.
Z fncr =X- - µ,
Así pues, el valor de Z será positivo o negativo, dependiendo de si X es mayor o
menC>r que µx. La diferencia ent1e la media de la muestra, X, y la media de lapo-
blación, \1,, rep1esentada por e, se llama error de muestreo. El error de muestreo,
e, se puede definir como
.·.·.·¡: 'li·: <.~>s.~;··{(~
(to~saf:.':
. i·
:·.;.
:1
·.(,
.. ; ~ '
(1.96) 2 (325) 2
( 50 ) 2
( 3.8416)(105,625)
162.31
2,500
Problemas de la sección I O. 7
10.46 Se planea hacer una investigación para determinar los gastos médicos prome-
dio anuales por familia de los empleados de una empresa grande. El gerente de
la empresa desea tener una confianza de 950!.1 de que el promedio de la mues-
tra es correcto, dentro de ±$50 de los gastos médicos promedio por familia. Un
estudio piloto indica que la desviación estándar puede estimarse en $400.
¿Qué tan grande se necesita tomar la muestra?
10.47 Si el administrador del almacén de suministro de pintura del problema 10.5 de
la página 349 deseara estimar la cantidad promedio que hay en un bote de un
galón, dentro de ±0.004 galones, con una confianza de 95%i, suponiendo que
la desviación estándar sigue siendo de 0.02 galones, ¿qué tamaño de muestra
sería necesario?
1i fi:J
1 Determinación del tamaño
de muestra para una porción
En la sección 10. 7 analizamos la determinación del tamaño de muestra necesario para
la estimación de una media de población. Ahora suponga que el gerente de produc-
ción desea determinar el tamaño de muestra necesario para estimar la porción de la
población de periódicos impresos que tienen algún defecto inaceptable, como man-
chas excesivas, paginación incorrecta, páginas faltantes, etc. Los métodos para la
determinación del tamaño de muestra que se utilizaron en la estimación de una por-
ción de población son parecidos a los empleados en la estimación de una media.
Al desarrollar una fórmula para determinar el tamaño de muestra, recuerde de
la ecuación (9.9) que
z "' P, - P
- ~ p(l .=.J)
11
Z~=p,-p
~~
El error de muestreo, e, es igual a (p, - p), la diferencia entre la porción de la
muestra (p) y el parámetro que se va a estimar (p). Este error de muestreo puede
definirse como
e = Z /p(l - p) (10.6a)
f n
n = (10.6b)
n =
(1.645)2 (.5)(.5) = 422.82
2
(.04)
X ± tn-l ~ ~N -
-vn N -
n = 1,122.7 ± (2.0322)
1
2~ 2
35
500 - 35
500 - 1
= 1,122.7 ± (101.58)(.9653)
= 1,122. 7 ± 98.05
1,024.65 ~ µ, ~ 1,220.75
·.le,
; ·)'(10: 1'0)"· :
(10.11)
11 = (162.31)(500) = 122.72
162.31 + (500 - 1)
Por tanto, n = 123.
En este caso, puesto que más de 30!Jlr> de la población fue muestreada, el factor
de corrección de población finita tuvo un efecto sustantivo sobre el tamaño de la
muestra, reduciéndolo de 163 a 123. Sin embargo, en general, éste puede no ser el
caso. Por ejemplo, recordemos que con el fin de estimar la porción verdadera de
periódicos con defectos inaceptables, el gerente de producción necesitaba un
tamaño de muestra de 423 (puesto que 110 se calculó en 422.82). Al utilizar el fac-
tor de corrección se tiene
n0 N
n = ---'---
n0 + ( N - 1)
( 422.82)(100,000) = 421.04
n =
422.82 + (100,000 - 1)
n0 N (416.57)(9,800)
n = 399.62
no + (N -1) 416.57 + (9,800 - 1)
En consecuencia, /1 = 400.
Sin embargo, antes de decidir sobre el tamaño de muestra que se necesita para
la encuesta completa, debemos evaluar el tamaño de muestra requerido para la pre-
gunta 9, la variable categórica "¿qué tan satisfecho se encuentra usted con su traba-
jo?" Éste puede hallarse utilizando las ecuaciones (10.6b) y (10.11) después de haber
determinado tres cantid.ades: el nivel de confianza deseado (Z), el error de mues-
treo (e) y una estimación de la porción verdadera de empleados que están satis-
fechos con su trabajo. De nuevo, al igual que con la variable numérica, se ha
pensado mucho para determinar los valores deseados. Bud Conley llegó a la con-
clusión de que le gustaría tener un 90% de confianza en que la estimación de la
porción verdadera de empleados que estaban satisfechos con su trabajo (pregunta
9, códigos 1 y 2) es correcta con ±0.045. Basándose en la experiencia con encues-
tas parecidas, se supone que la porción de la población de empleados que están sat-
isfechos con su trabajo es de al menos 0.80. Con esta información, el tamaño de
muestra puede determinarse de la siguiente manera, con e= 0.045, p = 0.80 y un
nivel de confianza de 90<J.'f> (Z = 1.645):
Problemas de la sección I O. 9
e 10.61 Refiérase a los problemas 10.6 y 10.48 de las páginas 349 y 365. Si el envío
contiene un total de 2,000 bombillas de luz.
(a) Establezca una estimación de intervalo de confianza de 95% del promedio
de vida verdadero de las bombillas del envío.
(b) Determine el tamaño de muestra necesario para estimar la vida promedio
con ±20 horas y un nivel de confianza de 95 por ciento.
Bel'a.s secciones 4.10'.2 y 5.6.2, poqemos recordar que Bud Conley, el vicepresidert-
.te de recursos humanos, se está preparando para una reuQióp. C()Il et .repr,es~ntaq..te .
\il~;l~J\~9~P.~~.;Jlfi~J~ ·G91¡'.P9J~~i~m,~p~rn: a1~fli~Mlgs,· cont~nido.sippte1"c~~!~.s :qe up.
p~,q9$.t~¿~!Ji' Y.~~~ ,:· c;,iQ~ ~~,:,¡l, .~l:~m:P~~aqo ,q11~:J~..~s~á. c;iesí!tre>ganqp. f;n,tr,e, ~as. :P~e" .
gl;l~\él~;i a_µ~ .1~!~P,i;,4~.:J?.~J'¡1;i,C,ttlitl1 :IIl.!~~~S .f,~~élbap;;¡ ··'.(: · ' •!. ~:<;: "!; , :e , 1!
29.555
. . ·.
± 1.382 .
(i.96) 1 m ~00
6
Por consiguiente, podemos. ~on~lttif, ~~P: un. IJ.~vel d~. confianza. de. 95%; que el;ltre
ffS ~ 9% y 92,. 1'% .de: lo~ e.~Pl~a<ló~, ~~ ~~lp,sh,lí industrie~ está,9 ~aHsíechÓs co# :¿~.t:ra:
b,a.··1·0., ·. ·· · · · ·· ....... ··· ... ' · ·· '
.• _:~, .~-,l~:l. \''~ •' ,. ' r,,·~ 1"'
Candidato
Encuesta Bush Clinton Perot
New York Times/CBS News 38'X• 46% 7%
Washington Post/ ABC News 35% 48% 9%
Opinión para CNN/USA Today 35 1X1 47% 10%
Harris 361Y.1 53% 9%
Opinión para Newsweek 36% 44% 14%
Fumte: Tl1e New York Times, 7 de octuhre de 1992, p. A.. 1.
A pesar de que hay muchas razones posibles para explicar las diferencias en los
resultados, incluyendo las analizadas en la sección 2.11, también es bastante posi-
ble que la mayoría de las diferencias se deban a errores de muestreo. Si suponemos
que los tamaños de las muestras fueron lo suficiente grandes para proporcionar un
error de muestreo de ±3.5%1 con un nivel de confianza de 95 1Yíi, se podrían obtener
intervalos de confianza para cada una de las cinco diferentes encuestas. En la tabla
10.6 se presentan los intervalos de confianza para el porcentaje de votantes en
favor de Bill Clinton.
Candidato
Encuesta Clinton Límite inferior Límite superior
New York Ti111es/CBS News 46% 42.S 49.S
Was/1i11gto11 Post/ ABC: News 48% 44.S 51.S
Opinión para CNN/USA Tuday 47°1<i 43.5 50.5
Harris 53% 49.5 56.5
Opinión para Newswffk 44% 40.5 47.5
Podemos observar, de la tabla 10.6, que todas las encuestas tienen como
resultado intervalos de confianza cuya diferencia principal parece deberse a error
de muestreo. Así pues, en resumen, con el fin de asegurar una interpretación ética de
los resultados estadísticos, deben darse los niveles de confianza, el tamaño de la
muestra y los límites del intervalo de confianza, de cualquier investigación que se
esté llevando a cabo.
Juntando todo
TÉRMINOS CLAVE
distribución de muestreo repetido estimación puntual 344
356 factor de corrección de población
distribución t de Student 350 finita 368
error de muestreo 363 grados de libertad 352
estimación de intervalo 344 intervalo de predicción 359
estimación de intervalo de nivel de confianza 347
confianza 346 valor crítico 347
estimación de mínimo esfuerzo 356
Ausentismo:
X= 9.7 días, S = 4.0 días.
12 empleados faltaron más de 10 días.
Not11 ftnale1
1, 11 por tita ru6n que el denominador de la varianza de la 2. Utilizamos Zen lugar de t porque (1) para determinar el
mu11tr1 11 n- 1 en vez de n, de modo que S2 será un esti- valor crítico de t necesitaríamos conocer el tamaño de la
mador tmparc:lal de (12x• esto es, si . muestra, que todavía no conocemos, y (2) porque para
la mayoría de los estudios el tamaño de muestra necesario
será lo suficiente grande para que la distribución normal
sea una buena aproximación de la distribución t.
~(X,-K) 2
,....~-----
11 • 1
Y cr'.=-----
N
3. El factor de corrección de población finita no se utiliza en
este caso ya que el tamaño de la muestra, 400, es menor
que el So/o de la población, 9,800.
Referencias
l. Cochran 1 W. G., Sampling Techníques, 3a. ed. (Nueva York: 6. Hahn, G. J., y W. Nelson, "A Survey of Prediction Intervals
Wlley1 1977). and Their Applications," foumal. of Quality Technology, S,
2. Dlaconls, P., y B. Efron, "Computer-Intensive Methods in 1973, pp. 178-188.
Statlstlcs", Sclentific American, 248, 1983, pp. 116-130. 7. Kirk, R. E., ed., Statístical lssues: A Reader for the Behavíoral
3. Efron, B., The fackknífe, the Bootstrap, and Other Resampling Scíences (Belmont, CA: Wadsworth, 1972).
Plans (Phlladelphia: Society for Industrial and Applied 8. Larsen, R. L., y M. L. Marx, An Introduction to Mathematical
Mathematlcs, 1982). Statistics and Its Applícatíons, 2a ed. (Englewood Cliffs, NJ:
4. Flsher, R. A., y F. Yates, Statístical Tables for Biologícal, Prentice-Hall, 1986).
Agricultura/ and Medica/ Research, Sa ed. (Edinburgh: Oliver 9. Scheuer, E.M., "Let's Teach More about Prediction",
& Boyd, 1957). Proceedíngs of the Statístical Education Section ofthe
S. Gunter, B. "Bootstrapping: How to Make Something from American Statistica/ Assocíation, 1990.
Almost Nothing and Get Statistically Valid Answers. Part 10. Snedecor, G. W., y W. G. Cochran, Statistical Methods, 7a
1: Brave New World", Quality Progress, 24 de diciembre de ed. (Ames, IA: Iowa State University Press, 1980).
1991, pp. 97-103.
Fundamentos de la
pruebadehí
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar la metodología de prueba
de hipótesis como una técnica para
CAPÍTULO analizar diferencias y tomar
decisiones; determinar los rie1101
implicados al ~ornar tales decisiones si
nos basamos únicamente en la
información de muestra; y estudiar la
interrelación de estos riesgos con el
tamaño de la muestra utilizada.
JSJ
Introducción
' ;· . .
~\i:.:·:·:
En ~1 capitulo 9 iniciamos nuestro análisis de la inferencia estadística con el desarro-
llo del concepto de distribución de muestreo. En el capítulo 10 tomamos en con-
sld~rac•6n estudios enumerativos en los que se utiliza una estadística (como la
me~lá de la muestra o la porción de la muestra) obtenida de una muestra aleatoria
para éstimar su parámetro de población correspondiente.
En el presente capítulo, empezaremos poniendo nuestra atención en otra fase
de la inferencia estadística que también se basa en la información de muestra: la
prueba de hipótesis. En particular, desarrollaremos una metodología paso a paso
que nos permitirá hacer inferencias con respecto al valor específico de un
parámetro de población, mediante el análisis de diferencias entre los resultados que
en realidad observamos (es decir, nuestra estadística de muestra) y los resultados
que esperaríamos obtener si alguna hipótesis subyacente fuera realmente verda-
dera. Además del desarrollo de la metodología de prueba de hipótesis como
una técnica para analizar diferencias y tomar decisiones, también evaluaremos los
riesgos implicados al tomar tales decisiones basándonos únicamente en la ihfor-
mación de la muestra y estudiaremos la interrelación de dichos riesgos con el
tamaño de la muestra utilizada. Aquí, el énfasis se pone en las bases conceptuales
y fundamentales de la metodología de prueba de hipótesis. En los cuatro capítulos
que siguen, se presentarán numerosos procedimientos de prueba de hipótesis que
se utilizan con frecuencia en el análisis de datos obtenidos a partir de estudios y
experimentos diseñados en una variedad de condiciones.
Al terminar el capítulo, usted será capaz de:
l. Distinguir entre las hipótesis nula (Ho) y alternativa (HJ
2. Distinguir entre los riesgos de cometer un error del tipo 1 y un error
del tipo 11.
3. Entender el concepto de potencia de una prueba.
4. Distinguir entre pruebas de un extremo y de dos extremos.
S. Entender el planteamiento de valor p de la prueba de hipótesis.
6. Apreciar la conexión entre intervalos de confianza y pruebas de
hipótesis.
7. Entender la interrelación entre a, p, n y el tipo de prueba.
8. Aplicar la metodología paso a paso de la prueba de hipótesis.
H 0 : µx = 368
Observe que a pesar de que el gerente de producción solamente tiene información
de la muestra, la hipótesis nula se escribe en términos del parámetro de la
población. Esto es así debido a que está interesado en el proceso de empaque com-
pleto, es decir, (la población de) todas las cajas de cereal que se están llenando. Las
estadísticas de muestra se utilizarán para hacer inferencias acerca de la condición
del proceso completo de llenado, De manera parecida al sistema legal norteameri-
cano, en el cual se supone la inocencia del inculpado hasta que se pruebe lo con-
trario, la base teórica de la prueba de hipótesis requiere que la hipótesis nula sea
considerada verdadera hasta que las evidencias, como los resultados observados a
partir de los datos de la muestra, indiquen que ésta es falsa. Si la hipótesis nula se
considera falsa, alguna otra cosa debe ser verdadera.
Siempre que especifiquemos una hipótesis nula, también debemos especificar
una hipótesis alternativa, o una que debe ser verdadera si se encuentra que la hi-
pótesis nula es falsa. La hipótesis alternativa (H1) es lo opuesto a la hipótesis nula
(H0 ). Para el gerente de producción, la hipótesis alternativa se puede establecer
como:
Figura 11.1
Regiones de rechazo y de no
rechazo en la prueba de
hipótesis.
(11.1)
En esta fórmula, el numerador es una medida de qué tan lejos (en un sentido
absoluto) la media de muestra observada, X, se encuentra de la media supuesta, µr
El denominador es el error estándar de la medía, de modo que Z representa cuán-
tos errores estándar X está de µx.
Si el gerente de producción decide escoger un nivel de significación de .OS, el
tamaño de la región de rechazo sería de .OS y los valores críticos de la distribución
normal podrían determinarse. Estos valores críticos se pueden expresar en unidades
de desviación estándar. Dado que la región de rechazo está dividida en los dos ex-
tremos de la distribución (se le conoce como prueba de dos extremos), el valor
de .05 está dividido en dos partes iguales, de .025 cada una. Una región de rechazo de
.025 en cada extremo de la distribución normal tiene como resultado un área de .475
entre la media supuesta y cada valor crítico. Al buscar esta área en la distribución
normal (tabla E.2), encontramos que los valores críticos que separan la región de
rechazo de la de no rechazo son (en unidades de desviación estándar) +1.96 y
-1.96. En la figura 11.2 se ilustra este caso; en ella se muestra que si la media es
realmente 368 gramos, como se afirma en H 0 , entonces los valores de la estadística
de prueba, Z, tendrán una distribución normal estándar centrada en µx = 368. Los
valores observados de Z mayores que 1. 96 o menores que -1. 96 indican que X está
tan alejada de la media hipotetizada, µx = 368, que es improbable que tal valor se
presente si H0 fuera verdadera.
rechazar
Ho
1
Z= +1.96 z Figura 11.2
Prueba de una hipótesis con
µX =368 respecto a la media (crx conocida)
al nivel de significación de O.OS.
z =
X-µ X
Fn
372.5 - 368 = 1 50
15 + .
55
Como Z = +l.50, nos damos cuenta de que -1.96 < +l.50 < +l.96. Así pues,
nuestra decisión es no rechazar H 0 • Llegaríamos a la conclusión de que la cantidad
promedio de contenido es de 368 gramos. Alternativamente, al tomar en cuenta la
posibilidad de haber cometido un error del Tipo II, podemos expresar la conclusión
como "no hay evidencia de que el contenido promedio sea diferente a 368 gramos".
Figura 11.3
Búsqueda del valor p para una
prueba de dos extremos.
A menos que estemos tratando con una estadística de prueba que siga la dis-
tribución normal, el cálculo de p es muy difícil. En consecuencia, es una suerte que
paquetes de software estadístico como MINITAB, SAS, SPSS y STATISTIX (véanse
referencias 6, 7, 9 y 10) presenten, de manera rutinaria, el valor de p como parte
del resultado de muchos procedimientos de prueba de hipótesis.
Ahora que hemos analizado el planteamiento de valor p para la prueba de
hipótesis, nos será de utilidad resumir los pasos implicados.
l. Establezca la hipótesis nula, H 0
2. Establezca la hipótesis alternativa, H 1 •
3. Seleccione el nivel de significación, a.
4. Seleccione el tamaño de la muestra, n.
5. Determine la técnica estadística apropiada y la correspondiente
estadística de prueba que va a utilizar.
6. Reúna los datos y calcule el valor de muestra de la estadística de
prueba apropiada.
7. Calcule el valor de p basándose en la estadística de prueba. Esto
implica
(a) Hacer un diagrama de la distribución bajo la hipótesis nula, H 0 •
(b) Situar la estadística de prueba en el eje horizontal
(c) Sombrear el área apropiada bajo la curva,
basándose en la hipótesis alternativa, H 1•
8. Compare el valor de p con a.
9. Tome la decisión estadística.
10. Exprese la decisión estadística en términos del problema.
Planteamiento del valor p para la prueba de hipótesis: prueba de dos extremos 395
e 11.20 Calcule el valor de p del problema 11.12 de la página 392 e interprete su
significado.
11.21 Calcule el valor de p del problema 11.13 de la página 392 e interprete su
significado.
En lugar de probar la hipótesis nula de que µx = 368 gramos, también podemos re-
solver el problema mediante la obtención de una estimación de intervalo de confian-
za de µx. Si el valor supuesto de µx = 368 se encuentra dentro del intervalo, la hipótesis
nula no deberá ser rechazada. Esto es, el valor de 368 no debería considerarse fuera de
lo normal para los datos observados. Por otro lado, si el valor supuesto no se encuen-
tra dentro del intervalo, la hipótesis nula deberá rechazarse, pues 368 gramos serían
considerados como un valor no usual. Utilizando la ecuación (10.1), la estimación de
intervalo de confianza se podría establecer a partir de los siguientes datos:
X+Z~
- Fz
15
372.S ± (1.96) ~
-v2S
372.S±S.88
11 i) Pruebas de un extremo
En la sección 11.3 utilizamos la metodología de la prueba de hipótesis para exami-
nar la pregunta de si la cantidad promedio de contenido con respecto al proceso
completo de llenado (esto es, la población) fue de 368 gramos o no. La hipótesis
*
alternativa (H1: = 368) contenía dos posibilidades: el promedio podía ser menor
que 368 gramos o podría ser mayor que 368. Por esta razón fue que dividimos la
región de rechazo en los dos extremos de la distribución de muestreo de la media.
Y, como acabamos de ver en la sección anterior, puesto que una estimación de
intervalo de confianza de la media contiene un límite inferior y uno superior
correspondientes a los valores críticos del extremo izquierdo y del extremo dere-
cho de la distribución de muestreo de la media, somos capaces de utilizar el inter-
valo de confianza para realizar una prueba de la hipótesis nula que establece que
la cantidad promedio de contenido, con respecto al proceso completo de llenado,
es de 368 gramos.
En algunas situaciones, sin embargo, la hipótesis alternativa se enfoca en una
dirección en particular. Por ejemplo, la ejecutivo de finanzas en jefe (CFO, por sus
siglas en inglés, Chief Financia! Officer) de la compañía empacadora de comida se
estaría preocupando por el exceso, pues, si realmente se empacaran más de 368
gramos de cereal por cája, y el predo al consumidor fuera por los 368 gramos que
dice el empaque, la compañía estaría perdiendo dinero de manera innecesaria. En
consecuencia, debería estar interesada en el hecho de si la cantidad promedio de
contenido, con respecto al proceso completo de llenado, está por arriba de los 368
gramos. Para ella, y desde un punto de vista estrictamente financiero con respecto
a su responsabilidad como CFO de la compañía (cuya ética se analizará en la sec-
ción 11.11), a menos que la media de la muestra estuviera significativamente por
arriba de los 368 gramos, se consideraría que el proceso funciona apropiadamente.
Para la CFO, las hipótesis nula y alternativa se plantearían de la siguiente manera:
Tabla 1 1.2 Obtención del valor crítico de la estadística de prueba Z de la distribución normal estándar para
una prueba de un extremo con a= .OS .
z
o.o
0.1
.00
.0000
.0398
.01
.0040
.0438
.02
.0080
.0478
.03
.0120
.0517
• •
.01 pO
.os ~7
.01 99
.os 96
.06
.0239
.0636
.07
.0279
.0675
.08
.0319
.0714
.09
.0359
.07S3
0.2 .0793 .0832 .0871 .0910 .09 8 .09 67 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .13 1 .13 D8 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .17 lO .17 ~6 .1772 .1808 .1844 .1879
1.0 .3413 .3438 .3461 .3485 .3S 08 .3531 .3S54 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .37 9 .37 ~9 .3770 .3790 .3810 .3830
..
1.2 .3849 .3869 .3888 .3907 .39 5 .39 ~4 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .40 9 .41 ~5 .4131 .4147 .4162 .4177
-
1.4 .4192 .4207 .4222 .4236 .42pl .42 ~5 .4279 .4292 .4306 .4319
•
1.5 .4332 .4345 .4357 .4370 .43B2 .43 ~4 .4406 .4418 .4429 .4441
. - - --
''-'
--- . - -. . - --- .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
Fuente: Tomado de la tabla E.2.
z = x - µ,
~
Fn
372.51~ 368 = +1.50
{25
Puesto que Z = +l.50 < +1.645, nuestra decisión debería ser la de no rechazar
H0 y llegaríamos a la conclusión de que no existe evidencia de que la cantidad
promedio de contenido de cereal por caja, con respecto al proceso comp!eto de
llenado, está por arriba de 368 gramos. Esto es, a pesar de que la media, X, de la
muestra es mayor a 368 gramos, el resultado obtenido de la muestra se considera
debido a la casualidad o a error de muestreo; no es significativo desde el punto de
vista estadístico.
Figura 11.5
Determinación del valor p
para una prueba de un extremo.
La regla de decisión establece que si una muestra aleatoria de 25 cajas revela una
media de muestra menor a 363.065 gramos, Ja hipótesis nula será rechazada y el
representante llegará a la conclusión de que el proceso no está funcionando apro-
piadamente. Si, de hecho, éste es el caso, la potencia de la prueba mide la probabili-
dad de llegar a la conclusión de que el proceso no está funcionando adecuadamente,
para valores que difieren de la media de población verdadera.
Suponga, por ejemplo, que nos gustaría determinar la posibilidad de rechazar
la hipótesis nula cuando la media de población es realmente de 360 gramos.
Basándonos en nuestra regla de decisión, necesitamos determinar la probabilidad
o el área bajo Ja curva normal que se encuentra por debajo de 363.065 gramos. Del
teorema del límite central y de la suposición de normalidad de la población,
podemos suponer que la distribución de muestreo de la media sigue una distribu-
ción normal. Por consiguiente, el área bajo la curva normal que se encuentra a la
izquierda de 363.065 gramos puede expresarse en unidades de desviación estándar,
puesto que estamos calculando la probabilidad de rechazar la hipótesis nula
cuando la media verdadera se ha corrido a 360 gramos. Utilizando la ecuación
(11.1), tenemos:
rzs
De la tabla E.2, existe una posibilidad de 34.61% de observar un valor de Z entre
la media y +1.02 desviaciones estándar. Como deseamos determinar el área a la
izquierda de 363.065, debemos añadir el área bajo la curva que está a la izquierda
de la media (50%) a este valor, y se tiene que la potencia de la prueba es de 84.61%
(véase figura 11.7). p, la probabilidad de que la hipótesis nula (µx = 368) no sea re-
chazada, es 1 - .8461 = .1539 (o 15.39%). Ésta es la probabilidad de cometer un
error del tipo ll.
Si la media de población se corre hacia 352 gramos (véase figura 11.8 en la página
404), entonces
fiS
•I'~= .00011
Detennlnación de la potencia de la Potencie = .99989
prueba y la probabilidad de un error
del tipo 11, cuando µ 1 = 352 gramos.
Si la media de población fuera realmente de 367 gramos (wéase figura 11.9), entonces
z = 363.065 - 367 = -1 31
15 .
Es
De la tabla E.2, podemos observar que la probabilidad (área bajo la curva) entre la
media y -1.31 unidades de desviación estándar es de .4049 (o 40.49%). Como, en este
ejemplo, la región de rechazo está en el extremo inferior de la distribución, la potencia
de la prueba es de 9.51 %, y la probabilidad de cometer un error del tipo II es de 90.49%.
En la figura 11.10 se ilustra la potencia de la prueba para varios valores posi-
bles de µ 1 (incluyendo los tres casos que hemos examinado). A la gráfica se le
conoce como curva de potencia. Los cálculos hechos en nuestros tres ejemplos
se resumen en la figura 11.11 de la página 406 .
0.80
0.70
al 0.60
'(3
ái 0.50
o
a.. 0.40
0.30
0.20
0.10
o.oo '---35.1-2-35,_3_3_5._4_3_,5_5_3_.5_6_3_.5_7_3.....5_8_3_,_5_9_3....60_3......61_3.._62-36'-3-36._4_3_,6_5_3.....6_6_3_,_6_7-.3..L.6_8-
Valores verdaderos posibles de µ 1 (gramos)
Figura 1 1.1 O
Curva de potencia del proceso de llenado de cajas de cereal para la hipótesis alternativa H 1: µx <
368.
De la figura 11.10, observamos que la potencia de esta prueba de un extremo
aumenta abruptamente (y se aproxima a 100%) conforme la media de población real
toma valores cada vez más pequeños que la media supuesta de 368 gramos. Es claro
que, para esta prueba de un extremo, cuanto más pequeña sea la media real µ 1, en
comparación con la media supuesta, mayor será la potencia para detectar esta dis-
paridad.2 Por otra parte, para valores de µ 1 cercanosa368 gramos, la potencia es bas-
tante pequeña, pues la prueba no puede detectar, de manera efectiva, las diferencias
entre la media de población real y el valor supuesto de 368 gramos. Resulta intere-
sante que si la media de población fuera realmente de 368 gramos, la potencia de la
prueba sería igual a a, el nivel de significación (que es de O.OS en el presente ejem-
plo), ya que la hipótesis nula sería, en realidad, verdadera.
Los cambios drásticos en la potencia de la prueba para diferentes valores de las
medias reales de población pueden observarse si revisamos los diferentes paneles
de la figura 11.11. De los paneles A y B, podemos ver que, cuando la media de
población no difiere grandemente de 368 gramos, la posibilidad de rechazar la
hipótesis nula, basándonos en la regla de decisión implicada, no es grande. Sin
embargo, cuando la media de población se corre sustancialmente por debajo de la
media supuesta de 368 gramos, la potencia de la prueba aumenta bastante, aproxi-
mándose a su valor máximo de 1(o100%).
PanelB 368
Dado: a=.05,ax=15,n=25
Prueba de un extremo
H0 : µx=368
Rec.hazar H0 No rechazar H0
µ 1 = 367 (la media verdadera se corre a 367 gramos)
z= x- µ 1 363.065 -367 = _ 1.31
ªx 3
Yn
Potencia= .5000 - .4049 = .0951
PanelC 367
Z=--
x-µ1 ' 363.0~ -360 = +1.02
ªx ' '3, '
..¡¡¡
Potencia = .5000 + .3461 i: .8461
Panel O
Figura 11.11
Determinación de la potencia estadística para valores variables de la media de población verdadera.
n
cr; (Z,,. - Z13 ) 2
~ ~~~~~~
(11.2)
(µo - µ1) 2
cr: (Z
n = -----'---
0 - Z~) 2
(µo - µ¡)2
crx = 15 gramos
µ0 = 368 gramos
µ 1 = 360 gramos
Utilizando un nivel de significación de a= .05, para una prueba de un extremo, la
región de rechazo puede establecerse de la siguiente manera (véase figura 11.12).
El valor Za obtenido de la tabla E.2 es igual a -1.645, porque la región de rechazo
contiene O.OS del área bajo la curva normal (de modo que el área entre el valor
crítico inferior y la media de la hipótesis nula de 368 gramos es de .45).
Figura 1 1.1 2
Determinación del valor crítico
inferior en una prueba de un
extremo para la media de la
población cuando el tamaño de la
muestra no se conoce.
' J ,.
Determinación del valor crítico
=
para µ 1 360 gramos, cuando no . -4'p.~ +.~
se conoce el tamaifo de muestra.
(225)(-2.485) 2
= """-----'-'----"'-- = 21. 71
82
1 1• 1 1• 1 Evitar riesgos
Cuando planeamos efectuar una prueba de hipótesis basados en algún experi-
mento diseñ.ado o en algún estudio de investigación, es necesario plantear varias
preguntas con el fin de asegurar el uso de la metodología apropiada:
poco apropiado informar los resultados de las pruebas de hipótesis que muestren
significación estadística y no hacerlo con aquellos para los cuales existe insuficiente
evidencia en los resultados. El informar de todos los resultados sobre una materia
en particular es de especial importancia cuando se va a efectuar un meta-análisis.
Uniéndolo todo
Términos clave
aleatorización 412 metodología de prueba de hipótesis 384
coeficiente de confianza (1 - a) 388 potencia de una prueba (1 - p) 389
curioseo de datos 413 probabilidad de un error del tipo 11 @) 388
curva de potencia 405 prueba de dos extremos 391
datos censurados 414 prueba direccional o de un extremo 398
a (nivel de significación) 388 pruebaZ 390
error del tipo 1 388 región crítica 387
error del tipo 11 388 región de no rechazo 387
estadística de prueba Z 391 región de rechazo 387
hipótesis alternativa (H1) 385 riesgo p 388
hipótesis nula (H0) 385 valor crítico 387
meta-análisis 414 valor p 394
No tas finales
l. Una forma sencilla de recordar qué probabilidad corre- 2. Para situaciones que implican pruebas de un extremo en
sponde a qué tipo de error consiste en observar que a es la las que la media real, µ1, realmente excede a la media
primera letra del alfabeto griego, y se le utiliza para repre- supuesta, lo inverso sería verdadero. Cuanto más grande
sentar la probabilidad de cometer un error del tipo I. La sea la media real, µ 1, comparada con la media supuesta,
letra f3 es la segunda letra del alfabeto griego y se le utiliza mayor será la potencia. Por el otro lado, para pruebas de
para representar la probabilidad de cometer un error del dos extremos, mientras más grande sea la distancia entre la
tipo Il. (Si tiene problemas para recordar el alfabeto griego, media real, µ 1, y la media supuesta, mayor será la potencia
observe que la palabra alfabeto indica sus dos primeras de la prueba.
letras.)
421
1111 Introducción
En el capitulo 11 se expusieron los conceptos fundamentales de la metodología de
prueba de hipótesis. Cuando tratamos con una muestra que contiene datos nu-
méricos, utilizamos una prueba Z para determinar si la media de la población, µx,
es igUal a algún valor especificado (es decir, supuesto). La prueba Z que se emplea
esté basada en la condición de que la desviación estándar real de la población, ax,
es conocida o se supone que toma un valor específico. Tales situaciones de prueba
de hipótesis, sin embargo, no son comunes. Se presentan con más frecuencia las
situaciones de prueba de hipótesis que implican la toma de decisiones basándose
solamente en la información de la muestra.
En el presente capítulo, extenderemos los principios básicos de la metodología
de la prueba de hipótesis a las pruebas, empleadas más a menudo, de hipótesis de
una sola muestra que implican datos numéricos. En particular, describiremos cua-
tro procedimientos útiles de prueba de hipótesis que pueden ser empleados.
Desarrollaremos las pruebas de hipótesis para la media, para la mediana, para la
varianza o desviación estándar y para la aleatoriedad. Se pondrá énfasis en las
suposiciones que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de
l. Saber cuándo y cómo utilizar la prueba t para la media de la población, µx.
2. Saber cuándo y cómo utilizar la prueba de rangos con signo de
Wilcoxon para la mediana de la población, Mx.
3. Entender el concepto de robustez.
4. Saber cuándo y cómo utilizar la prueba x2 para la varianza de la
población, rr;,
o para la desviación estándar ªx·
5. Entender el concepto de aleatorización y la idea de "corridas".
6. Saber cuándo y cómo utilizar la prueba de corridas de una muestra de
Wald-Wolfowitz para la aleatorización.
7. Diferenciar entre las pruebas paramétricas clásicas, las pruebas libres
de distribución y las pruebas no paramétricas, incluyendo sus ventajas
y sus desventajas.
8. Entender la importancia del escalamiento nominal, ordinal, de intervalo
y de cociente en la selección de un procedimiento de prueba estadística.
12.J. I Introducción
En la mayoría de las situaciones de prueba de hipótesis en las que se tratan datos
numéricos, se desconoce la desviación estándar, ax, de la población. Sin embargo,
la desviación estándar real de la población se estima mediante el cálculo de S, la
desviación estándar de la muestra. Si se supone que la población está normalmente
distribuida, de la sección 10.3, podemos recordar que la dishibución de muestreo
de la media seguirá una distribución t, con n - 1 grados de libertad. En la práctica,
se tiene que, siempre y cuando el tamaño de la muestra no sea muy pequeño y la
::
·'
1'.• , (12.1)
12. 3 .2 Applicación
Para ilustrar el uso de la prueba t (de una muestra), suponga que un fabricante de
baterías afirma que la capacidad promedio de un cierto tipo de batería, producida
por la compañía, es de al menos 140 amperios-hora. Una agencia independiente de
protección al consumidor desea probar la credibilidad de la afirmación del fabri-
cante y mide la capacidad de una muestra aleatoria de 20 baterías, tomadas de un
lote producido recientemente. Los resultados, en amperios-hora, son los siguientes:
137.4 140.0 138.8 139.1 144.4 139.2 141.8 137.3 133.5 138.2
141.1 139.7 136.7 136.3 135.6 138.0 140.9 140.6 136.7 134.1
Figura 12.1
Prueba de una hipótesis con
respecto a la media (a,.
desconocida) al nivel de
significación de .05, con
19 grados de libertad.
S= 2.66
t = = 138.47 - 140 = -2 57
2.66 .
5<)
m,-and-leaf of . am~.~i:s..
'~f''úrlit= 0'.10
·e~:· . .· .
~,,¡;;.4 ·:'
~kivt 1 1 133 5
i;,1t U+ , 2 134; 1
3 135 6
)!~)¡:, ' 6 136 377
~·im; "'" a· ·13 7 34
f i .- _ ,
144. o +
amphrs·-
140.0'+
2
136.Q+, * *
'- *
132. o +
Figura 12.2
Resultado obtenido con MINITAB para el estudio de las suposiciones necesarias para emplear la
prueba t.
12.4.1 Introducción
La prueba de rangos con signo de Wilcoxon puede utilizarse cuando desea-
mos probar una hipótesis con respecto a la mediana de la población, Mx. Este pro-
cedimiento libre de distribución, que no implica ninguna suposición acerca de la
12.4.2 Desarrollo
La prueba de rangos con signo de Wilcoxon puede utilizarse si estamos interesados
en probar una hipótesis con respecto a una mediana de población específica, M0,
basándonos en datos obtenidos de una sola muestra. La prueba de la hipótesis nula
puede ser de un extremo o de dos extremos:
Las suposiciones necesarias para llevar a cabo la prueba de rangos con signo de
Wilcoxon son:
l. Que los datos observados (X11 X2, ••• ,X") constituyan una muestra
aleatoria de n valores independientes de una población con una mediana
desconocida.
2. Que el fenómeno aleatorio subyacente de interés sea continuo.
3. Que los datos observados sean medidos a un nivel más alto que la
escala ordinal.
4. Que la población subyacente sea (aproximadamente) simétrica.
La última suposición representa una diferencia principal entre este procedimiento
sin distribución y su contraparte paramétrica, la prueba t. Una suposición de sime-
tría no es tan limitante como una suposición de normalidad. Deberíamos darnos
cuenta, de los polígonos de las figuras 4.19 (distribución en forma rectangular) y
4.20 (distribución en forma de U), de la página 144, que no todas las distribuciones
simétricas tienen forma de campana, aunque todas las distribuciones normales son
simétricas y con forma de campana.
1 2.4. J Procedimiento
Para llevar a cabo la prueba de rangos con signo de Wilcoxon, debe seguirse el si-
guiente procedimiento de seis pasos:
l. Obtenemos un conjunto de resultados de diferencia .Q;"entre cada uno
de los valores observados X¡ y el valor especificado de la mediana
supuesta, M0-que es, D¡ =X¡ - M0 donde i = 1, 2, ... , n.
2. Después despreciamos los signos"+" y 11 - 11 y obtenemos un conjunto de
n diferencias absolutas IDJ
3. Omitimos, en un análisis posterior, cualquier diferencia absoluta cuyo
resultado sea cero, lo cual tiene como resultado un conjunto den'
diferencias absolutas diferentes de cero, con n' ~ n.
11'
w = L R~+) (12.2)
í = l
Puesto que la suma de los primeros n' enteros (1, 2, ... , n') está dada por 11' (n'
+ 1)/2, la estadística de prueba de Wilcoxon, W, puede ir desde un mínimo de O (en
el cual todas las diferencias observadas son negativas) a un máximo den' (n' + 1)/2
(en el que todas las diferencias observadas son positivas). Si la hipótesis nula fuera
verdadera, esperaríamos que la estadística de prueba, W, tomara un valor cercano a
su media, µw = n' (n' + 1)/4. Si la hipótesis nula fuera falsa, podríamos esperar que el
valor observado de la estadística de prueba esté cercano a uno de los extremos.
En muestras con 11' ~ 20, se puede utilizar la tabla E.10 para obtener los valores
críticos de la estadística de prueba, W, en pruebas de un extremo y de dos
extremos, a varios niveles de significación. Para una prueba de dos extremos y un
nivel particular de significación, si el valor observado de W es igual o mayor que
el valor crítico superior o es igual o menor que el valor crítico inferior, la hipótesis
nula puede ser rechazada. Para una prueba de un extremo en la dirección positiva,
la regla de decisión consiste en rechazar la hipótesis nula si el valor observado de
W es igual o mayor que el valor crítico superior. Para una prueba de un extremo en
la dirección negativa, la regla de decisión consiste en rechazar la hipótesis nula si
el valor observado de W es igual o menor que el valor crítico inferior.
Para muestras con n' > 20, la estadística de prueba, W, está distribuida de ma-
nera aproximadamente normal, y puede utilizarse la siguiente fórmula de aproxi-
mación de muestra grande para probar la hipótesis nula:
(12.3)
,,.
donde W es la suma de los rangos positivos, W = L R\ +)
i =1
. n'(n' + 1)
µ 11, es el valor med10 de W; µ11 = 4
n'(n' + 1)(2n' + 1)
a"' es la desviación estándar de W; a w =
24
W _ ( n'(n: + 1))
Z= (12.4)
n'(n' + 1)(2n' + 1)
24
Rechazar
Ha
-Z o z -Z o
Panel A (prueba de dos extremos) Panel B (prueba de un extremo) Panel C (prueba de un extremo)
H0 : Mediana = M0 H0 : Mediana ?: Ma Ha: Mediana ':O. Ma
*
H1: Mediana M0 H1: Mediana < Ma H 1 : Mediana > Ma
Figura 12.3
Determinación de la región de rechazo utilizando la prueba de rangos con signo de Wilcoxon.
12.4.4 Aplicación
Para ilustrar el uso de la prueba de rangos con signo de Wilcoxon, regresemos a
los datos sobre la capacidad de las baterías (en amperios-hora) presentados en la
sección 12.3.2, en la página 425. Suponga que la agencia independiente de pro-
tección al consumidor desea utilizar la muestra aleatoria de 20 baterías, tomada
de un lote recientemente producido, para probar la credibilidad de la afirmación
del fabricante de que la capacidad promedio es de al menos 140 amperios-hora.
Sin embargo, no quiere hacer la suposición limitante de que la población subya-
cente, es decir, la capacidad en amperios-hora de todas las baterías del lote, está
normalmente distribuida. En tal situación, la prueba sin distribución de rangos
con signo de Wilcoxon puede emplearse para probar una hipótesis con respecto
a la mediana de la población, Mx. Puesto que la agencia de protección al con-
sumidor está interesada en saber si la afirmación del fabricante es exagerada o no,
la prueba es de un extremo. Se establecen las siguientes hipótesis nula y alterna-
tiva:
Los pasos restantes del procedimiento de seis pasos se desarrollan en la tabla 12.2.
W _ ( n'(n: + 1))
= 37.5 - 95 = -57.S = _2 .31
Z=
) n'(n' + 1)(2n' + 1) ~617.S 24.89
24
Como Z =-2.31 es menor que el valor crítico Z de -1.645, la hipótesis nula tam-
bién sería rechazada. Sin embargo, puesto que se tiene disponible la tabla E.10 para
n' ~ 20, resulta más sencillo y más preciso solamente tomar el valor crítico de la
tabla y evitar hacer los cálculos cuando sea posible.
Deberíamos observar, en este punto, que para estos datos la agencia indepen-
diente de protección al consumidor ha llegado a la misma conclusión, de que
existe suficiente evidencia para rechazar la afirmación del fabricante con respecto
a la capacidad de sus baterías, independientemente de si se utiliza la prueba para-
métrica, t, de la sección 12.3 o la prueba libre de distribución de rangos con signo
de Wilcoxon. En esta situación, la viabilidad de la suposición de normalidad en la
población subyacente de datos no afecta la decisión alcanzada, sin importar el pro-
cedimiento utilizado. Si, como lo sospechamos del análisis exploratorio de los
datos, dado en la figura 12.2 de la página 428, la población subyacente está apro-
ximadamente distribuida de manera normal, la prueba t de la sección 12.3 sería li-
geramente más poderosa que la prueba de rangos con signo de Wilcoxon, en la
capacidad de detectar una hipótesis nula falsa. Este fenómeno puede observarse
mediante la comparación de los valores p de ambas pruebas. El procedimiento de
prueba más poderoso tendría como resultado un valor de p más pequefio. Utili-
zando el paquete de computación MINITAB (véase figura 12.4), el valor p asociado
con la prueba tes de 0.0093, mientras que el valor p asociado con la prueba de ran-
gos con signo de Wilcoxon es de 0.011.
Figura 12.4
Comparación de los valores fJ obtenidos con la prueba t y con la prueba de rangos con signo de
Wilcoxon, utilizando MINITAB.
1.2.5.1 Introducción
Cuando se analizan datos numéricos, en ocasiones es importante llegar a conclu-
siones con respecto a la variabilidad y al promedio de una característica de interés. Por
ejemplo, recuerde que en el ejemplo del llenado de las cajas de cereal (descrito en la
sección 11.2), el gerente de producción supuso que la especificación de 15 gramos de
la compañ.ía para la desviación estándar, ªx• del proceso subyacente, era correcta, y se
utilizó este valor de parámetro para realizar una prueba Z sobre el hecho de que la
media de la población, µx, era de 368 gramos. Suponga, sin embargo, que al revisar si
el equipo utilizado (en el proceso de llenado de cereal) está funcionando apro-
piadamente o no, el gerente de producción está interesado en determinar si existe evi-
dencia de que la desviación estándar ha cambiado con respecto al nivel especificado
de 15 gramos. En tal situación, el gerente de producción estaría interesado en llegar a
conclusiones con respecto a la desviación estándar de la población, ªx·
1.2.5.2 Desarrollo
Al intentar llegar a conclusiones con respecto a la variabilidad de la población,
primero debemos determinar que estadística de prueba puede utilizarse para repre-
sentar la distribución de la variabilidad de los datos de la muestra. Si la variable
(cantidad de contenido de cereal en gramos) se supone que está distribuida nor-
malmente, entonces la estadística de prueba para probar si la varianza de la pobla-
ción es igual o no a un valor especificado es
x2 o
Panel A - Prueba de dos extremos Panel B - Prueba de un extremo Panel C - Prueba de un extremo
H0 : cr; = cr~ H0 : ifx ::: a~ H0 : cr; '.: ag
H1 : cr; ~ cr~ H1 : o; < o~ H 1: a; > a~
Figura 12.5
Prueba de una hipótesis acerca de la varianza de la población, pruebas de un extremo y de dos
extremos: Panel A, prueba de dos extremos; Panel B, prueba de un extremo; Panel C, prueba de un
extremo.
Tabla 12.4 Obtención del valor crítico de la distribución chi-cuadrada, con un grado de libertad y utilizando un
nivel de significación de a = .1 O.
Grados Área de extremo superior
de
libertad .995 .99 .975 .95 .90 .75 .25 .10 .OS .025
1 - ()_()()l (). ()()zt ().()15 ('J.t()2 1.32:1-'> 2.706 :1.841 5.024
2 O.ülO 0.020 0.051 0.103 0.211 0.575 2.773 4.605 5.991 7.:F8
3 0.072 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9348
2:1 9.260 10.196 11.689 13.091 14.848 18.137 27.141 32.007 35.172 :~8.076
24 9.886 10.856 12.401 13.848 15.659 19.037 28.241 33.196 36.415 39.364
2S 10.520 11.524 13.120 14.611 16.473 19.939 29.339 34.382 37.652 40.646
/·úm/1•: Fxl raid a de la tabla E.4.
Figura 12.6
Determinación del valor crítico de la
x
estadística de prueba 2 a partir de una
distribución chi-cuadrada, con un grado
de libertad y utilizando un nivel de
significación de 0.1 O.
1 2.S.3 Aplicación
Para aplicar la prueba de hipótesis regresemos de nuevo al ejemplo del empaque de
cajas de cereal. El gerente de producción está interesado en determinar si existe
evidencia de que la desviación estándar ha cambiado con respecto al nivel de 15
gramos, especificado con anterioridad. Así pues, tenemos una prueba de dos extre-
mos en la cual las hipótesis nula y alternativa pueden establecerse de la manera
siguiente:
Figura 12.7
Determinación de los valores
o 12.401 críticos inferior y superior de una
xi distribución chi-cuadrada con 24
grados de libertad, para una prueba
.025 .975
de dos extremos de una hipótesis
.975 .025 acerca de la desviación estándar
de población, utilizando un nivel de
significación de O.OS.
12.6. 1 Introducción
Por lo general se supone que los datos recole<tados en un estudio constituyen una
muestra aleatoria, de modo que cada obsenación o medida es tomada de la po-
blación de manera aleatoria e independientE. Tal suposición, sin embargo, puede
ser probada mediante el empleo de un procedimiento no paramétrico conocido
como prueba de corridas de una mtJestra de Wald-Wolfowitz para
aleatoriedad. Este procedimiento no paranétrico no tiene que ver con la prueba
de cualquier parámetro en particular y, por 1anto, no tiene una contraparte para-
métrica.
Para probar la aleatoriedad, la hipótesis mla sería:
12.6.2 Desarrollo
Para probar la hipótesis nula de aleatoriedad, podemos dividir el tamaño completo
de la muestra, n, en dos partes, n11 el número de éxitos, y n2, el número de fracasos.
La estadística de prueba, representada con el símbolo U, el número total de corri-
das, se obtiene, entonces, por conteo. Para una prueba de dos extremos, si U es
mayor o menor de lo que cabría esperar en una serie aleatoria de datos, rechaza-
ríamos la hipótesis nula de aleatoriedad en favor de la hipótesis alternativa que
afirma que la secuencia no es aleatoria. Si tanto n 1 como n2 son menores o iguales
a 20, en la tabla E.9, partes 1y2, se presentan los valores críticos para la estadística
de prueba U al nivel de significación de ex= .OS (dos extremos). Si, para una com-
binación dada de n1 y n2 , U es mayor o igual al vaior crítico superior, o menor o
igual al valor crítico inferior, la hipótesis nula de aleatoriedad puede ser rechazada
al nivel de significación de ex = .OS. Sin embargo, si U se encuentra entre estos
límites, la hipótesis nula de aleatoriedad no puede rechazarse.
Por otra parte, las pruebas de aleatoriedad no siempre son de dos extremos. Si
estamos interesados en probar la aleatoriedad contra una alternativa específica de
un efecto de tendencia (de que hay una tendencia de agrupamiento de los ele-
(12.6)
Esto es,
u-(~+1)
Z= (12.7)
2n 1 n 2 (2n1 n 2 - n)
n 2 (n - 1)
12.6.3 Aplicación
Para ilustrar el uso de la prueba de corridas de una muestra de Wald-Wolfowitz
para aleatoriedad, en la tabla 12.5 se presentan las tasa de desempleo (por miles)
de trabajadores de oficina en los Estados Unidos de-Norteamérica, de 1960 a
1993.
Una característica distintiva de la prueba de corridas de una muestra de Wald-
Wolfowitz para aleatoriedad es que puede utilizarse no solamente en los datos que
Figura 12.s
Determinación de la región de rechazo; Panel A, prueba de dos extremos; Panel B, prueba de un
extremo; Panel C, prueba de un extremo.
Tabla 12.s Tasas de desempleo de los trabajadores de oficina de los Estados Unidos de
Norteamérica* (1960-1993).
Tasa de Relación con Tasa de Relación con
desempleo la tasa mediana desempleo la tasa mediana
Año (por mil) de 4.6t Año (por mil) de 4.6t
1960 3.8 B 1977 5.9 A
1961 4.6 A 1978 4.9 A
1962 4.0 B 1979 4.6 A
1963 4.0 B 1980 5.3 A
1964 3.7 B 1981 5.7 A
1965 3.3 B 1982 7.0 A
1966 2.9 B 1983 6.4 A
1967 3.1 B 1984 5.1 A
1968 3.0 B 1985 4.9 A
1969 3.0 B 1986 4.7 A
1970 4.0 B 1987 4.2 B
1971 4.8 A 1988 3.9 B
1972 4.7 A 1989 3.9 B
1973 4.2 B 1990 4.1 B
1974 4.6 A 1991 5.0 A
1975 6.6 A 1992 5.7 A
1976 6.4 A 1993 5.1 A
ºEn 1983, las clasificaciones ocupacionales fueron cambiadas. Desde ese año hasta el presente, los trabajadores de oficina canfor-
man la componente principal de los servicios de apoyo administrativo.
t A, igual o mayor: B, menor.
Fuentes: Los datos fueron extraídos de la tabla 28, Handbook ofLabor Statistics Bul/etin 2175, U.S. Department of Labor, Bureau of
Labor Statistics, diciembre de 1984; y de la tabla 10, Employment & Eamings, V.S. Department of Labor, Bureau of Labor Statistics,
enero de 1986, 1988, 1990, 1992, 1994.
constituyen una escala nominal, en la que cada uno de los elementos está clasifi-
cado como éxito o fracaso, sino también en los datos medidos con base en una
escala de intervalo o de cociente. Cuando se utilizan datos escalados en intervalo
o en cociente, cada uno de los elementos es clasificado de acuerdo con su posición
con respecto a Ja mediana de la secuencia. Por ejemplo, de la tabla 12.5 podemos
desear hacer la prueba de la hipótesis nula sobre el hecho de que las tasas de desem-
pleo de Jos trabajadores de oficina están distribuidas, en el tiempo, de manera
aleatoria con respecto a la mediana, contra la alternativa de que tales tasas, en el
tiempo, no estén distribuidas de manera aleatoria con respecto a la mediana; esto es:
H 0 : Las tasas de desempleo de los trabajadores de oficina son aleatorias
en el tiempo.
H 1 : Las tasas de desempleo de los trabajadores de oficina no son aleato-
rias en el tiempo (dos extremos).
u-(~+1)
Z=
2n 1 n 2 (2n 1 n 2 - n)
n 2 (n - 1)
8 - ( (2)(1:1(15) + 1)
[(2)(19)(15)][(2)(19)(15) - 34]
(34 2 )(33)
-9.765
~8.0088
= -3.45
Como Z = -3.45 < -1.96, el valor crítico de extremo inferior de la distribución nor-
mal estándar, utilizando un nivel de significación de a= .05, la hipótesis nula de
aleatoriedad puede ser rechazada. Existe un patrón en las tasas anuales de desem-
pleo de los trabajadores de oficina. Si la hipótesis nula fuera verdadera, el valor p o
la probabilidad de obtener un resultado como éste (es decir, 3.45 desviaciones
estár.dar de µu, el número esperado de corridas) o uno más extremoso sería de
.00056 (esto es, el área total de los dos extremos de la distribución normal están-
dar, el área que se encuentra a la izquierda de Z = -3.45 desviaciones estándar y el
área que está a la derecha de Z = +4.45 desviaciones estándar).
~1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 2 2 2 ~ 2 2 2 2 2
3 2 2 2 2 2 2 2 2 2 B 3 3 3 3 :~
4 2 2 2 3 3 3 3 3 3 3 ~ 4 4 4 4 4
5 2 2 3 3 3 3 3 4 4 4 4 ~ 4 4 5 5 s
6 2 2 3 3 3 3 4 4 4 4 5 5 ~ 5 5 5 6 6
7 2 2 3 3 3 4 4 5 s s 5 5 p 6 6 6 6 6
8 2 3 3 3 4 4 s 5 5 6 6 6 I> 6 7 7 7 7
9 2 3 3 4 4 5 5 5 6 6 6 7 ~ 7 7 8 8 8
10 2 3 3 4 5 5 5 6 6 7 7 7 ~ 8 8 8 8 9
11 2 3 4 4 5 5 6 6 7 7 7 8 ~ 8 9 9 9 9
12 2 2 3 4 4 5 6 6 7 7 7 8 8 ) 9 9 9 10 10
13 2 2 3 4 5 5 6 6 7 7 8 8 9 l 9 10 10 10 10
14 2 2 3 4 5 5 6 7 7 8 8 9 9 ) 10 10 10 11 11
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
16 2 3 4 4 5 6 6 7 8 8 9 9 10 ID 11 11 11 12 12
17 2 3 4 4 5 6 7 7 8 9 9 10 10 u 11 11 12 12 13
18 2 3 4 5 5 6 7 8 8 9 9 10 10 H 11 12 12 13 13
- .
19
20
--
2
v
3
~
4
-
v
5
-
V
6
V
6
-
7
-
V
8
-
V
9
-
/
9
-
LV
10
-
LV
10
LL
11
11
12
12
12
12
13
13
13
13
13
13
14
~1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2
3
4 9 9
5 9 10 10 11 11
6 9 10 11 12 12 13 13 13 13
7 11 12 13 13 14 14 14 14 15 15 lp
8 11 12 13 14 14 15 15 16 16 16 1~ 17 17 17 17 17
9 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 13 14 15 16 16 17 17 18 18 1$ 19 19 19 20 20
11 13 14 15 16 17 17 18 19 19 1~ 20 20 20 21 21
12 13 14 16 16 17 18 19 19 20 2p 21 21 21 22 22
13 15 16 17 18 19 19 20 20 2 21 22 22 23 23
14 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 15 16 18 18 19 20 21 22 212 23 23 24 24 25
16 17 18 19 20 21 21 22 213 23 24 25 25 25
17 17 18 19 20 21 22 23 23 24 25 25 26 26
18 17 18 19 20 21 22 23 24 25 25 26 26 27
19 ·-
H ·-
LU --
-V -·
"-L
--22 -v --
.,., 24 25 26 26 27 27
20 17 18 20 21 23 24 25 25 26 27 27 28
Fuente: Extraída de la tabla E.9, partes 1 y 2.
12.32 Refiérase a los datos sobre la capacidad de las baterías de la página 42S. Las
capacidades (en amperios-hora) se presentan de izquierda a derecha en dos
hileras, esto es, en la secuencia en que se seleccionó la muestra aleatoria de 20
baterías, tomadas de un lote de reciente producción. Con respecto a las
fluctuaciones por arriba y por abajo de la mediana de la muestra de 138.5
amperios-hora, ¿existe evidencia de que la secuencia resultante no sea aleatoria?
(Utilice el nivel a= .OS.)
; ,,, '1
alrededor de .40. añ,~~ y que cre~a ·que, la median,~. qe, Jqs .i:Qgtesos fatn4liares (tota.les).
¡,•,' '· ¡li' , >.(· ;·¡ . '• • • ,,. '¡
p:.·p::~~~fl~~~f~:;;¡~~."~:":'1~·
empleados (le tH~rn:po ~céitilpletp de I<:alosha l~dustfies es ap~px~m.~~¡iµí
afios1las .hlpótE!sis:ri\l~ª.Yi!Ít~rna.tiya, s~tía*···'. . .·.·
. .. . •... ··.
·'· ' < /.~'···
n . V,1~ •• ci~~~~if •
Uso de la computadora para la prueba de hipótesis: la encuesta de satisfacción de los empleados de industrias Kalosha 44~
Puesto que estamos tratando con una muestra que contiene datos numéricos, se
empleará una prueba t y ésta se llevará a cabo con el tradicional nivel de signifi-
cación de a= .05. Se utiliza una prueba de dos extremos debido a que Bud Conley,
sencillamente, hizo la hipótesis de que la edad promedio era de aproximadamente
40 años. La alternativa es que la edad promedio no es de 40 años, ya sea significa-
tivamente menor o significativamente mayor. Como hay 400 empleados en la mues-
tra, tenemos 400 - 1 =399 grados de libertad. Debido a que el tamaño de la muestra
es muy grande, los valores críticos al nivel de significación de .05 serían aproxi-
mados por ±1.96, tomados de la parte inferior de la tabla E.3, como se muestra en
la figura 12.9. La regla de decisión sería
Figura 12.S>
Prueba de dos extremos para
hipótesis sobre la media (crx
desconocido) para una muestra de 1
Sin embargo, primero debemos determinar qué tan apropiada resulta la prueba
t llevando a cabo un análisis descriptivo exploratorio completo. Introduciendo los
datos en MINITAB, obtenemos varias estadísticas de resumen,·una representación
de tallo y hojas, un histograma, una gráfica de caja y bigotes y una de probabilidad
normal con respecto a las edades de los empleados de tiempo completo. Parte del
resultado obtenido con MINITAB se ilustra eri la figura 12.10.
Los datos de la figura 12.10 parecen estar apenas sesgados hacia la derecha
porque la media es ligeramente µlayoí ala mediana; la longitud del sesgo entre ~
y Xn:iayov en la gráfica de caja y sesgos, es mayor a la longitud del sesgo entre Xmenor y
Q11 y la gráfica de probabilidad normal tiene algo de curvatura en sus extremos. Sin
embargo, la. pruepa t Iio es robusta con respecto a estas violaciones moderadas de
la suposición de normalidad, en particular, con tamaños de muestra grandes. En
este caso, para muestras aleatorias de tamaño tan grande como 400, el teorema del
límite· central (véase sección 9 .2) tendría como resultado una distribución de
muestreo aproximadamente normal, y la prueba t parecería ser el procedimiento
apropiado que se debe utilizar.
Pero, ¿es nuestra ·muestra aleatoria? La suposición de aleatoriedad y de inde-
pendencia de las observaciones que comprenden la muestra es importante para
decidir si utilizamos la prueba, t, la de Wilcoxon o la x2 , desarrolladas en el pre-
sente capítulo. Con el paquete MINITAB, empleamos la prueba de corridas de una
muestra de Wald-Wolfowitz para aleatoriedad. Las hipótesis nula y alternativa son:
-----------I + I--------------- *
---+-------+-------+-------+-----~-+---~---+--age
20 30 40 50 60 70
age
*
54 3 2
60 + 77
486
+96
++
+++
40 + +++
+++
+9++
++++
354+
20 + * 3 4
-------+-------+-------+-------+-------+-------Normal
-2.4 -1.2 O.O 1.2 2.4 Seores
Figura 12.1 O
Parte del resultado obtenido con MINITAB en donde se muestra alguna información
descriptiva acerca de la edad de los empleados.
age
K = 38.QOOO
THE OBSERVED NO. OF.RUNS =: 201
THE EXPECTED NO. OF RUNS =: 2 O.O . 9 8 00 Figura 12.1 1
198 OBSERVATIONS ABOVE K 202 BELOW Resultado obtenido con
THE TEST IS SIGNIFICANT AT 0.9984 MINITAB en donde se
CANNOT REJECT AT ALPHA =: 0.05 muestra la prueba de corridas
para aleatoriedad.
Uso de la computadora para la prueba de hipótesis: la encuesta de satisfacción de los empleados de industrias Kalosha 4S 1
Del resultado obtenido con MINITAB, la suposición de aleatoriedad (es decir, la
hipótesis nula) no puede ser rechazada . El valor p de la prueba de corridas es de
0.9984, mucho más grande que el nivel de significación escogido, a= .05. Así pues,
podemos proceder con la prueba t.
Utilizando la ecuación 12.1 sobre la estadística sumaria tomada de la figura
12.10, tenemos
t =
X-µ X
39.41 - 40 = -111
s 10.611 .
..¡;:, _,¡ 400
Como -1.96 < t = -1.11 < + 1.96 no réchazamos la hipótesis nula, HO. Se llega a
la misma conclusión si usamos MINITAB para efectuar la prueba t (véase figura
12.12).
Figura 12. 12
Resultado obtenido con MINITAB para una prueba t.
Podemos observar, de la figura 12.12, que MINITAB presenta las hipótesis nula
y alternativa, y el nivel en que la prueba tes significativa (es decir, el valor p). Aquí
observamos que el valor pes de .27. Como éste es mayor que el nivel de signifi-
cación escogido de a= .OS, la hipótesis nula no puede ser rechazada. En consecuen-
cia, podemos concluir que, al nivel de significación de .05, no existe evidencia para
refutar la afirmación de Bud Conley con respecto a la edad promedio de los emplea-
dos de tiempo completo.
Para probar la segunda afirmación de Bud Conley, acerca de que la mediana del
ingreso familiar total de los empleados de tiempo completo de Kalosha Industries
es mayor que $39 000, las hipótesis nula y alternativa serían:
------I + !------------------*******
---+-------+-------+-------+-------+-------+-- fincome
16 32 48 64 80 96
***** *
90 + 42*
*53
fincome - 5
*86
+9·
60 + ++
7+4
6++8
+++
+++7
30 + 6++5
.4+++9
3*5454778
* 2*
------+-------+-------+-------+-----~-+------- Normal
-2.4 -1.2 O.O 1.2 2.4 Seores
Figura 12.14
Parte del resultado obtenido con MINITAB que muestra alguna información descriptiva sobre
los ingresos familiares totales de los empleados.
Uso de la computadora para la prueba de hipótesis: la encuesta de satisfacción de los empleados de industrias Kalosha 45 J
A pesar de que los datos de la figura 12.14 parecen estar sesgados a la derecha, la
prueba de Wilcoxon es robusta con respecto a violaciones a la suposición de
simetría, en particular con tamaños de muestra grandes. En este caso, para mues-
tras aleatorias de tamaños tan grandes corno 400, el teorema del límite central (sec-
dún 9.2) daría como resultado una distribución de muestreo aproximadamente
normal, y la prueba de Wilcoxon sería un procedimiento apropiado.
Usando MINITAB para efectuar la prueba de Wilcoxon (véase figura 12.15) tenernos:
De la figura 12.15, podemos observar que MINITAB muestra las hipótesis nula y
alternativa y el nivel al cual la prueba es significativa (esto es, el valor p). En este caso,
vemos que la estadística de prueba, W, es de 44 657, Jo que tiene corno resultado un
valor de p de .024. Como éste es menor que el nivel elegido de significación, ex= .05,
la hipótesis nula es rechazada. [Si se hubiera utilizado la ecuación (12.4), tendríamos
que Z = +l.97 > +l.645, el valor crítico del extremo superior, como se muestra en la
figura 12.13 de la página 453, y H 0 hubiera sido rechazada.] En consecuencia,
podemos llegar a la conclusión de que, al nivel de significación de .05, existe evi-
dencia para apoyar la afirmación de Bud Conley acerca de que la mediana del ingreso
familiar total de los empleados de tiempo completo es mayor a $39,000.
Juntando Todo
TÉRMINOS CLAVE
corrida 443 prueba de rangos con signo de
distribución chi-cuadrada 438 Wilcoxon (una muestra) 430
efecto de tendencia 443 prueba libre de distribución 423
efecto sistemático o périodico 444 prueba no paramétrica 423
prueba de corridas de una muestra de prueba paramétrica o clásica 423
Wald-Wolfowitz 442 prueba t de una muestra 425
Procedimientos de
una muestra
Cuestiones éticas
Categóricos Numéricos
Véase
capítulo 15 Variación Aleatoriedad
Sí No
Prueba de rangos
Sí No con signo de
Wilcoxon para Mx
Prueba z Prueba t
(capítulo 11) paraµx
Para cada uno de los proyectos siguientes, refiérase a las instrucciones de la página 101.
CL12.1 Refiérase al CL3.2 de la página 101 y la CL4.2 de la página 165. Su grupo, la
empresa ha sido contratada por el editor de la sección de alimentos de
una popular revista familiar para estudiar el costo y las características de nutri-
ción de los cereales que se venden listos para comerse. Armada con el
Conjunto de datos especiales 2, del apéndice D de las páginas 06 y 07, la
Empresa está lista para:
(a) Determinar sí existe evidencia de que el costo promedio de todos los
cereales listos para comer es diferente de 30 centavos.
(b) Determinar si existe evidencia de que el peso medio de los cereales ricos
en fibra es mayor a l. 7 onzas.
(c) Determinar si existe evidencia de que la mediana del contenido de
calorías de los cereales moderadamente ricos en fibra es mayor que 150.
(d) Determinar si existe evidencia de que la desviación estándar del
contenido de azúcar (en gramo por ración) de los cereales bajos en fibra es
diferente de 0.4 gramos.
RefercuccH
l. Berenson, M.l.., D.M. Levine y M. Goldstein, Intermediate 6. MINITAB Reference Manual Release 8 (State College, PA.:
Statislirnl Metlwds and Applications: A Computer Package Minitab, !ne., 1992).
Approach (Englcwood Cliffs, NJ: Prentice-Hall, 1983). 7. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
2. Bradley, j.V., JJistribution-Free Statistical Tests (Englewood Additional Instructions for SPSSIPC+ (Chicago, IL: SPSS !ne.,
Cliffs, NJ: Prenticc-Hall, 1968). 1986).
3. Conover, W.J., Practica/ Nonparametric Statistics, Za ed. 8. SAS User's Guide Version 6 (Raleigh, NC: SAS Institute, 1988).
(Nueva York: Wiley, 1980). 9. Solomon, H. y M.A. Stephens, "Sample variance", en
4. Daniel, W., Applied Nonparametric Statistics, Za ed. (Boston, Encyclopedia of Statistical Sciences, Vol. 9, Editada por Kotz,
MA: Houghton Mifflin, 1990). S. y N.L.Johnson (Nueva York: Wiley, 1988), pp. 477-480.
S. Dixon, W.J. y F.J. Massey, Jr., Introduction to Statistical 10. STATISTIX version 4.0 (Tal!ahassee, FL: Analytical
Analysis, 4a ed. (Nueva York: McGraw-Hill, 1983). Software, !ne., 1992).
461
lfHI Introducción
En el capítulo anterior enfocamos nuestra atención sobre una variedad de proce-
dimientos de prueba de hipótesis de uso común, que tenían que ver con una sola
muestra de datos numéricos tomados de una población. En el presente capítulo,
extenderemos nuestro estudio de la prueba de hipótesis al análisis de proce-
dimientos de uso común que nos permiten comparar estadísticas calculadas a par-
tir de dos muestras de datos numéricos, con el propósito de hacer inferencias con
respecto a posibles diferencias en los parámetros de las dos poblaciones respecti-
vas. En particular, como se puede ver en el diagrama resumen de este capítulo,
página 519, describiremos varios procedimientos de prueba de hipótesis útiles que
pueden ser empleados, dependiendo de la situación que se tenga. Se analizan pro-
cedimientos de muestras independientes y de muestras relacionadas. Se pone énfa-
sis en las suposiciones que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de:
l. Diferenciar entre los diferentes criterios utilizados en la selección de
un procedimiento de prueba de hipótesis en particular.
2. Saber cuándo y cómo utilizar la prueba t de varianza conjunta para
examinar diferencias posibles en las medias de dos poblaciones
independientes.
3. Saber cuándo y cómo utilizar la prueba t' de varianza independiente
para examinar diferencias posibles en las medias de dos poblaciones
independientes.
4. Saber cuándo y cómo utilizar la prueba de sumas de rangos de
Wilcoxon para examinar posibles diferencias en las medianas de dos
poblaciones independientes.
S. Saber cuándo y cómo utilizar la prueba F para examinar posibles difer-
encias en las varianzas de dos poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba t para una posible diferencia
media, µD, en dos poblaciones relacionadas.
7. Saber cuándo y cómo utilizar la prueba de rangos con signo de
Wilcoxon para una posible diferencia mediana, MD, en dos poblaciones
relacionadas.
13.3.1 Introducción
Primero extendamos los conceptos de la prueba de hipótesis desarrollados en los
capítulos 11 y 12 a situaciones en las que nos gustaría determinar si existe alguna
diferencia entre las medias de dos poblaciones independientes. Suponga que con-
sideramos dos poblaciones independientes, cada una con una media y una desvia-
ción estándar (representadas simbólicamente de la manera siguiente):
Población 1 Población 2
(13.1)
•. . •. ·~.X
t = . 1....:. . •X):-;(µ .,:_ •µ 2 )..
2.. : .... l. ·. .
; ¡
en donde
µ1 =µ2
1
1 Figura U.I
Regiones de rechazo para una
·Ó t prueba de dos extremos entre dos
media.
1 3.3.3 Aplicación
Para demostrar el uso de la prueba t de varianza conjunta, suponga que un analista
financiero desea comparar los réditos de dividendo promedio de las acciones nego-
ciadas en la Bolsa de Valores de Nueva York con los producidos por las acciones
negociadas directamente en el listado del mercado nacional NASDAQ. Se selec-
ciona una muestra aleatoria de 21 compañías de la Bolsa de Valores de Nueva York
y otra de 25 acciones del listado NASDAQ, y los resultados se presentan en la tabla
13.1 de la página 466.
Si el analista financiero desea determinar si existe evidencia de una diferencia
en los réditos de dividendo promedio entre las dos poblaciones de acciones, las
hipótesis nula y alternativa serían:
Ho: µ1 = µz o µ1 - µz = O
H1: µ1 * µz o µ1 - µz *O
Suponiendo que las muestras fueron tomadas de poblaciones normales con
varianzas iguales, se puede hacer uso de la prueba t de varianza conjunta. Si la
prueba se efectuara al nivel de significación de a = .OS, la estadística de prueba t
seguiría
1
Figura 11.2 1
1
Prueba de dos extremos entre la
1
hipótesis concerniente a la
-2.0154
diferencia entre las medias, al
nivel de significación de .05.
n 1 =21 11 2 = 25
.X 1 =3.27 x2 = 2.53
sf = 1.698 s; = 1.353
5 1 =1.30 52 = 1.16
xll/CllOr¡ = Ü.9 x111f'11orz = 0.4
Q1, = 2.65 Q¡, = 1.75
Mediana 1 = 3.0 Mediana 2 = 2.4
Q¡, = 3.55 ~-= 3.25
xll1Cl,VOf1 = 6.4
t =
en la que
(n 1 - l)S~ + (n 2 - l)S~
(n 1 - 1) + (n 2 - 1)
20(1.30) 2 + 24(1.16) 2
21 + 25 - 2
66.432
44
= 1.510
y, por consiguiente
3.27 - 2.53
t
f 510( ;1 + 2~)
0.74
,Jo.132
0.74
0.364
= 2.03
Utilizando un nivel de significación de .05, la hipótesis nula (H0) es rechazada debido
a que t = + 2.03 > t44 = +2.0154. Si la hipótesis nula fuera verdadera se tendría una
sp2 =
st + s;
--=----=-
2
13.3.4 Resumen
En la prueba de la diferencia entre las medias, hemos supuesto que estamos tomando
las muestras de poblaciones distribuidas normalmente que tienen la misma varianza.
Debemos examinar las consecuencias que tienen las violaciones a esta suposición
sobre la prueba t de varianza conjunta. En situaciones en las que no podemos o no
deseamos hacer la suposición de que las dos poblaciones con igual varianza realmente
están distribuidas de manera normal, la prueba t de varianza conjunta es robusta (es
decir, no sensible) con respecto a violaciones moderadas de la suposición de norma-
lidad, siempre y cuando el tamaño de las muestras sea grande. En tales situaciones, la
prueba t de varianza conjunta puede utilizarse sin que se vea seriamente afectada en
su potencia. Por otro lado, si el tamaño de las muestras es pequeño y no podemos o
no deseamos hacer la suposición de que los datos de cada grupo fueron tomados de
una población normalmente distribuida, se tienen dos alternativas. Ya sea que se lleve
a cabo, en cada uno de los resultados, alguna transformación normalizante (véase refe-
rencia 11), y después se utilice la prueba t de varianza conjunta, o que se siga un pro-
cedimiento libre de distribución, como la prueba de suma de rangos de Wilcoxon (que
se estudiará en la sección 13.5), que no depende de la suposición de normalidad de
las dos poblaciones.
En situaciones en las que no podamos o no deseemos hacer la suposición de
que las dos poblaciones, normalmente distribuidas, de las cuales se tomaron las
muestras tienen varianzas iguales, se dice que se tiene un problema de Behrens-Fisher
(véase referencia 9), y se puede utilizar la prueba t de varianza separada, desarrollada
por Satterthwaite (véase referencia 8) y que describiremos en la siguiente sección.
Almacén A Almacén B
X 34.3 días 43.7 días
s 2.4 días 3.1 días
n 41 31
13.4.1 Introducción
En nuestro análisis de la prueba de la diferencia entre medias de dos poblaciones
independientes, hecho en la sección anterior, juntamos las varianzas de muestra
en una sola estimación, s}, porque supusimos que las varianzas de población eran
iguales (es decir, crf = cr~). Esta situación se presenta en el panel A de la figura 13.3,
para el caso en el cual la población 1, normalmente distribuida, tiene una media
mayor que la de la población 2, también distribuida de manera normal. Sin
embargo, si, como se muestra en el panel B de la figura 13.3, no estamos dispuestos
a suponer que las dos poblaciones, distribuidas normalmente, tienen varianzas
iguales, o si tenemos evidencia de que éstas en realidad no lo son, entonces se pre-
senta el problema de Fisher-Behrens (véase referencia 9) y la prueba tde varianza
conjunta resulta inapropiada en este caso; por consiguiente, podemos emplear una
prueba t' de varianzas independientes, desarrollada por Satterthwaite (véase
referencia 8). En el procedimiento de aproximación de Satterthwaite, se incluyen
las dos varianzas de muestra independientes en el cálculo de la estadística de
prueba t' de ahí el nombre de prueba t' de varianzas independientes.
13.4.2 Desarrollo
Para probar la hipótesis nula de no diferencias en las medias de dos poblaciones in-
dependientes
Ha: µ1 = µz o µ1 - µz = O
contra la hipótesis alternativa de que las medias no son iguales
H1: µ1 * µz o µ1 - µz *O
se puede calcular la siguiente estadística de prueba t' de varianzas independientes:
µ2 µ1
Panel A: µ 1 > µ2 y crf =cr/
Figura IJ.J
Panel B: µ 1 > ~ y cr 2 > crl Comparación de las medias
de dos poblaciones
distribuidas normalmente
(13.3)
en la que
X_r media de la muestra tomada de la población 1
s¡ varianza de la muestra tomada de la población 1
n1 = tamañ.o de la muestra tomada de la población 1
X2 media de la muestra tomada de la población 2
s; = varianza de la muestra tomada de la población 2
n2 = tamaño de la muestra tomada de la población 2
( _s~ + _s; J
n¡ nz
2
(!: r (!: r
V: ~~~~~~~
(13.4)
---+--·-
nl - 1 n2 - 1
Rechazar H0 si t > tv
1 1
1 1
1
Figura 1 l.4 1
1 1
Regiones de rechazo de una
-!,, +!,,
prueba de dos extremos para la
diferencia entre dos medias.
1 3 .4. 3 Aplicación
La prueba t' de varianzas independientes puede mostrarse refiriéndonos al pro-
blema de interés para el analista financiero (véase la página 465). Recordamos que
el analista financiero desea determinar si existe cualquier diferencia en los réditos
de dividendo medios de las acciones negociadas en la Bolsa de Valores de Nueva
York en comparación con los valores negociados" al contado" en el listado del mer-
cado nacional NASDAQ. Para comparar las diferencias en los réditos de dividendo
promedio entre las dos poblaciones de listas de acciones, las hipótesis nula y alter-
nativa serían:
Ho: µ¡ = µz o µ¡ - µz = O
H 1:µ 1 7'µ 2 oµ 1 -µ 2 7'0
.018219
.006538 .002929
20 + 24
.018219
.000449
40.58
De la tabla E.3 del apéndice E, los valores críticos superior e inferior para esta
prueba de dos extremos son, respectivamente, +2.0211 y-2.0211, y, como se mues-
tra en la figura 13.5, la regla de decisión es
1 1
1 1
1 1 Figura 13.S
1 1 Prueba de dos extremos de la
-2.0211 +2.0211 hipótesis concerniente a la
diferencia entre las medias, al
nivel de significación de .05.
MIN M1\X Ql 03
NYSE 0.900 6.400 2.650 3.550
NJ\SDAQ 0.400 5.100 l.750 3.250
Stem-and-leaf of NYSE N = 21
Leaf Unit = 0.10
1 o 9
1 l
2 1 6
4 2 12
B 2 6799
(7) 3 0000114
6 3 56
4 4
4 4
4 5 034
1 5
1 6 4
Stem-and-leaf of NASDJ\Q N = 25
Leaf Unit = 0.10
1 o 4
2 O B
4 1 23
B l 5798
(5) 2 11224
12 2 6788
B 3 023
5 3 68
3 4 3
2 4 6
l 5 1
* -----------! + I- * ** o
+---------+---------+---------+---------+---------+---------+------Dyielde
O.O l.O 2.0 3.0 4.0 5.0 6.0
4,,0+
-. 2
* 2 '
. ·' :·;,
* *
*
*
..
- - - - -•- ~+- - ~ -- -- - -+• -- ~--e-·-+- -- · • -~~ .:::.,- - -·~· ~ ~ --~~- • • - - • - -No~ 'acélres
·. ,L4.0 · •0.10 Q.oo . 0.10. . l.~4..ó .. •. .
·•
4.5+
' - '•
... *
·- * *'
Figure 13.6
(Continuacl6n)
sesgos y gráficas de probabilidad normal para los dos grupos. De este análisis de
datos exploratorio, podemos cuestionar la validez de la suposición de normalidad
de la primera población: los réditos de dividendo de las compañ.ías inscritas en la
Bolsa de Valores de Nueva York. La muestra tomada de este grupo solamente es de
21, y puede ser que sea demasiado pequeña para suponer que el teorema del límite
central (véase sección 9.2) se puede aplicar. Si este es el caso, debería utilizarse la
prueba de suma de rangos de Wilcoxon.
Farmingdale Levittown
x 191.33 172.34
s 32.60 16.92
n 60 99
Línea A Línea B
x 8.005 7.997
s 0.012 0.005
n 11 16
Hospitales Hospitales
urbanos suburbanos
76.5 73.3 71.5 63.0
75.9 77.4 73.4 76.0
79.6 79.0 74.6 75.5
77.5 79.9 74.3 70.7
79.4 70.4 71.2 67.4
78.7 77.7 67.8 62.6
78.6 78.1 76.9 73.0
79.3 75.9 60.0 76.5
(a) Suponga que las varianzas en la población de los dos tipos de hospital (es
decir, urbanos y suburbanos) no son iguales. Utilizando el nivel de .05 1
¿existe evidencia de una diferencia en las tasas promedio de ocupación
entre hospitales urbanos y suburbanos en el estado?
(b) ¿Qué otras suposiciones deben hacerse con el fin de realizar el inciso (a)
de este problema?
13.21 La directora de entrenamiento de una compañía fabricante de equipo
electrónico está interesada en determinar si diferentes métodos de
entrenamiento tienen un efecto sobre la productividad de Jos empleados de la
línea de ensamblaje. La directora asignó aleatoriamente 42 empleados recién
contratados en dos grupos de 21, de Jos cuales los primeros siguieron un
programa de entrenamiento basado en el trabajo individual y asistido por
computadora, y los otros 21 siguieron un programa basado en el trabajo de
equipo. Después de terminar el entrenamiento, los empleados fueron
evaluados con respecto al tiempo (en segundos) que les llevó ensamblar un
componente. Los resultados son los siguientes:
13.5.1 Introducción
Si los tamaños de las muestras son pequeños y no podemos o no deseamos hacer
la suposición de que los datos de cada grupo son tomados de poblaciones dis-
tribuidas normalmente, entonces tenemos dos alternativas. Se puede utilizar la
prueba t de varianzas conjuntas o la prueba t' de varianzas independientes, la que
sea más apropiada, después de realizar alguna transformación nonnalizante sobre los
datos (véase referencia 11), o se puede seguir algún procedimiento libre de dis-
tribución, que no depende de la suposición de normalidad para las dos pobla-
ciones. En la presente sección introduciremos la prueba de suma de rangos de
Wilcoxon, un procedimiento libre de distribución poderoso, muy sencillo y
ampliamente utilizado, para probar las diferencias entre las medianas de dos
poblaciones. La prueba de suma de rangos de Wílcoxon ha resultado ser casi tan
poderosa como su contraparte paramétrica (las pruebas t y t') en condiciones
apropiadas para esta última, y es probable que sea más poderosa cuando las suposi-
ciones limitantes de tales pruebas no se cumplen.
Además, la prueba de suma de rangos de Wilcoxon es un procedimiento exce-
lente a escoger cuando solamente se pueden obtener datos de tipo ordinal, como
sucede a menudo cuando tratamos con estudios' sobre comportamientos de con-
sumo, investigaciones de mercado y psicología experimental. Las pruebas paramétri-
cas t y t' no deberían utilizarse en tales situaciones ya que estos procedimientos
requieren que los datos obtenidos sean medidos en al menos una escala de intervalo.
Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 481
1 J.S.2 Procedimiento
Para efectuar la prueba de suma de rangos de Wilcoxon debemos sustituir las obser-
vaciones de las dos muestras de tamaños n 1 y n2 por sus rangos combinados (a
menos que los datos obtenidos, inicialmente, incluyan a los rangos). Los rangos
son asignados de tal manera que el rango 1 se asigna a la más pequeña de las
n = n 1 + n2 observaciones combinadas, el rango 2 se le asigna a la siguiente más alta
y así sucesivamente, de modo que el rango n queda asignado a la observación más
grande. Si varias observaciones tienen el mismo valor, asignamos a cada una de
éstas el promedio de los rangos que, en otra circunstancia, se les habría asignado.
Por cuestiones de comodidad, siempre que los dos tamaños de muestra sean
distintos, haremos que n 1 represente el de la muestra más pequeña y que n2 corres-
ponda al de la más grande. La estadística de prueba de suma de rangos de Wilcoxon,
T1, es simplemente la suma de los rangos asignados a las n 1 observaciones de la
muestra más pequeña. (En el caso de muestras de igual tamaño, cualquiera de los
grupos puede elegirse para determinar T1.)
Para cualquier valor entero n, la suma de los n primeros enteros consecutivos
puede calcularse fácilmente como n(n + 1)/2. La estadística de prueba, T1, más la
suma de los rangos asignados a los n2 elementos de la segunda muestra, T2 , por
consiguiente, debe ser igual a este valor; es decir,
n(n + 1)
(13.5)
2
de modo que la ecuación (13.5) puede servir como una verificación del proce-
dimiento de asignación de rangos.
La prueba de la hipótesis nula puede ser de dos extremos o de un extremo,
dependiendo de si estamos probando si las dos medianas de población son exclu-
sivamente diferentes o si una de ellas es mayor que la otra.
Cuando los tamaños de ambas muestras n 1 y n2 son s; 10, se puede usar la tabla
E.11 para obtener los valores críticos de la estadística de prueba T1 para pruebas de
uno y dos extremos, a varios niveles de significación. Para una prueba de dos
extremos y para un nivel particular de significación, a., si el valor calculado de T1
es igual o mayor que el valor crítico superior o si es menor o igual que el valor
crítico inferior, la hipótesis nula puede ser rechazada. Para pruebas de un extremo
que tienen la hipótesis alternativa H 1: M1 < M2, la regla de decisión consiste en re-
chazar la hipótesis nula si el valor observado de T1 es menor o igual que el valor
crítico inferior. Para las pruebas de un extremo cuya hipótesis alternativa sea H1:
M1 > M2 , la regla de decisión consiste en rechazar la hipótesis nula si el valor obser-
vado de T1 es igual o mayor que el valor crítico superior.
A fin de mostrar cómo utilizar la tabla E.11 para obtener los valores críticos de
la estadística de prueba Tv supongamos que los tamaños de muestra de nuestros
dos grupos son 8 y 10, y que deseamos escoger un nivel de significación de a.= .05.
De la tabla 13.3, que es una réplica de la tabla E.11, si n 1 = 8, n2 = 10 y a.= .05, obser-
vamos que los valores críticos inferior y superior para una prueba de dos extremos
son 53 y 99, respectivamente. Si el valor calculado de la estadística de prueba T1
cae entre estos valores críticos, la hipótesis nula podría no ser rechazada. Sin
embargo, si el valor calculado de la estadística de prueba es igual o mayor que 99
o es igual o menor que 53, la hipótesis nula sería rechazada.
Para tamaños de muestra grandes, la estadística de prueba, T1, está distribuida
de manera aproximadamente normal. Se puede emplear la siguiente fórmula de
aproximación de muestra grande para probar la hipótesis nula cuando los tamaños
de muestra se encuentran fuera del alcance de la tabla E.11:
T¡ - µT¡
z = ---- (13.6)
donde
suma de los rangos asignados para las observaciones n, en la muestra 1
valor medio de T1
cry1 desviación estándar de T1
n1 (n + 1)
µT1 =
2
Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 483
(13.7)
Rechazar
Ho
-Z o z -Z. o
Panel A PanelB PanelC
Figura 1J.7
Determinación de la región de rechazo: panel A prueba de dos extremos (M 1 ""'M 2); panel B, prueba de un extremo
(M 1 < M 2); panel C, prueba de un extremo (M 1 > M 2).
1 J.5.3 Aplicación
Para mostrar el uso de la prueba de suma de rangos de Wilcoxon, refirámonos de
nuevo al problema que tiene que enfrentar nuestro analista financiero (véase
página 465) quien desea determinar si existe alguna diferencia en los réditos de
dividendo promedio de valores comercializados en la Bolsa de Valores de Nueva
York con respecto a las negociadas directamente en el listado de mercado nacional
NASDAQ. En la tabla 13.1 se muestran los réditos de dividendo de una muestra
aleatoria de 21 acciones de la Bolsa de Valores de Nueva York y de otra muestra alea-
toria de 25 acciones del listado de mercado nacional NASDAQ (página 466), y en
la tabla 13.2 se presentan las estadísticas sumarias (página 467).
Si, como resultado de un análisis de datos exploratorio (véase figura 13.6 en las
páginas 477-478), el analista financiero no desea hacer la suposición limitante de
que las muestras fueron tomadas de poblaciones que están distribuidas normal-
mente, se puede utilizar la prueba de suma de rangos de Wilcoxon para evaluar
posibles diferencias en las medianas de los réditos de dividendo. 1 Puesto que el
analista financiero no especifica cuál de los dos grupos es más probable que posea
una mediana de réditos de dividendo mayor, la prueba es de dos extremos, y se
establecen las siguientes hipótesis nula y alternativa:
n(n + 1)
T1 + Tz = 2
Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas ~; 481
tra grande [ecuación (13.7)]. Escogiendo el nivel de significación de O.OS, los va-
lores críticos de la distribución normal estándar (tabla E.2) son ±1.96 (véase figura
13.8). La regla de decisión sería
1
Figura 13.8 1
Prueba de dos extremos de la 1
.1
hipótesis concerniente a la
diferencia de medianas, al nivel
+1.96 z
de significación de .05.
T _ n 1 (n + 1)
1 2
z= ---,,=====-
n¡ nz (n + 1)
12
585.5 - 21 ~ 7 )
=·-=====-
21(25)(47)
12
585.5 - 493.5
= 45.35
= 2.03
Puesto que Z = +2.03 > +l.96, la decisión es rechazar H 0 • El valor p, o la probabili-
dad de obtener una estadística de prueba W incluso mayor que el valor observado
de 585.5, que se traduce en una estadística de prueba Z con una distancia todavía
más grande, medida del centro de la distribución normal estándar, que ±2.03
desviaciones estándar, es de .0424, si la hipótesis nula de no diferencia en las media-
nas fuera verdadera. Como el valor de p es menor que a. = .05, no creemos que la
hipótesis nula sea verdadera y la rechazamos.
La hipótesis nula es rechazada porque la estadística de prueba Z ha caído en la
región, de rechazo. Así pues, sin tener que hacer la suposición limitante de nor-
malidad en las poblaciones originales, el analista financiero puede llegar a la con-
clusión de que existe evidencia de una diferencia en las medianas de los réditos de
dividendo de los dos grupos. Las compañías que se comercializan en la Bolsa de
Valores de Nueva York parecen tener réditos de dividendo ligeramente mayores
1 3.S.4 Reflexiones
Esta conclusión concuerda con el resultado obtenido con la prueba t de varianzas con-
juntas, no con la prueba t' de varianzas separadas. Si ahora podemos demostrar que no
hay evidencia de una diferencia en la variabilidad de los dos grupos, podríamos tener
razones suficientes para llegar a la conclusión de que los resultados de la prueba t y de
la prueba de suma de rangos de Wilcoxon son plausibles. La prueba de la diferencia
entre dos varianzas de población será el tema a tratar en la sección 13.6.
Candidatos MC Candidatos MF
1 2 3 6
4 5 7 10
8 9 13 14
11 12 16 18
15 17 19 20
21 22
¿Existe evidencia de que los candidatos con maestría en ciencias sean más
idóneos que los candidatos con maestría en filosofía? (Utilice el nivel a= O.OS.)
13.27 La directiva de una estación televisiva de Nueva York decidió realizar una
historia en la que se compararan dos rutas de trenes del área: el Long Island
Rail Road (LIRR) y el New Jersey Transit (NJT). Los investigadores tomaron una
muestra en la estación del funcionamiento de varias de las corridas programadas
de los trenes de cada línea, 10 de la LIRR y 12 de la NJT. Los datos con respecto
al tiempo (en minutos) adelantado (números negativos) o atrasado (números
positivos) de cada tren se presentan a continuación:
LIRR: S -1 39 9 12 21 lS S2 18 23
NJT: 8 4 10 4 12 s 4 9 lS 33 14 7
Prueba de sumas de rangos de Witcoxon para diferencias entre dos medianas 487
(a) ¿Existe evidencia de que las líneas difieren en sus medianas de la tendencia
a llegar tarde (Utilice el nivel a= .01.)
(b) ¿A qué conclusiones con respecto a los retrasos de las dos líneas se pueden
llegar?
13.28 Refiérase a los datos del problema 13.7 de la página 470. Utilizando un nivel
de 0.01 de significación, ¿existe evidencia de que los incentivos salariales (a
través de comisiones) produzcan una mediana mayor en el volumen de
ventas?
• 13.29 Refiérase a los datos del problema 13.8 de la página 470.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer-
encia en los dos tipos de baterías con respecto a la mediana del tiempo de
comunicación (en minutos) antes de necesitar recargárselas?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.8 de la página 470 y con los obtenidos en el problema 13.18
de la página 479. Discuta el resultado.
13.30 Refiérase al problema 13.9 de la página 471.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer-
encia en la mediana de los réditos efectivos sobre las cuentas de
mercado de dinero en los dos tipos de bancos del área de Nueva York?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.9 de la página 471 y con los obtenidos en el problema 13.19
de la página 479. Discuta el resultado.
13.31 Refiérase al problema 13.20 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer-
encia en la mediana de las tasas de ocupación entre hospitales urbanos y
suburbanos del estado?
(b) ¿Qué otras suposiciones deben hacerse con el fin de llevar a cabo el inciso
(a) de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.20. Discuta el resultado.
13.32 Refiérase al problema 13.21 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una
diferencia en la mediana de los tiempos de ensamblado (en segundos)
entre los empledos entrenados con un programa asistido por computadora
y de índole individual y los entrenados en un programa basado en el
trabajo en equipo?
(b) ¿Qué otras suposiciones deben hacerse con el fin de llevar a cabo el inciso
(a) de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.21. Discuta el resultado.
1 3 .6. 1 Introducción
En las tres secciones anteriores, examinamos algunos procedimientos para probar
las diferencias en la tendencia central (es decir, diferencias en las medias o en las
medianas) entre dos poblaciones independientes. En muchas situaciones, sin
embargo, podemos estar interesados también en probar si dos poblaciones inde-
pendientes tienen la misma variabilidad. Podemos estar interesados en estudiar las
varianzas je dos poblaciones como un "medio para llegar a un fin", es decir, pro-
bar la suposición de varianzas iguales con el propósito de determinar si la prueba t
de variamas conjuntas o la prueba t' de varianzas independientes es la más
apropiada para utilizarse en la comparación de dos medias (secciones 13.3 y 13.4);
o podemos estar realmente interesados en el estudio de las varianzas de dos pobla-
ciones como un "fin en sí mismo".
1 3 .6.l Desarrollo
Con el fin de probar la igualdad de las varianzas de dos poblaciones indepen-
dientes, S( ha diseñado un procedimiento estadístico basado en el cociente de dos
varianzas de muestra. Si se supone que los datos obtenidos de cada población están
distribuidos normalmente, entonces el cociente SifS~ sigue una distribución cono-
cida como distribución F (véase la tabla E.5), llamada así en honor al famoso
estadístico R. A. Fisher. De la tabla E.5 (una réplica de la cual, la tabla 13.5, aparece
en la página 491), podemos ver que los valores críticos de la distribución F depen-
den de dm conjuntos de grados de libertad. Los grados de libertad que aparecen en
el numerador del cociente se refieren a la primera muestra, y los del denominador
pertenecen a la segunda muestra. La estadística de prueba F para probar la igual-
dad entre dos varianzas sería
'' ¡
~í, .
(1,3.8)
o F ;O ..
Panel A: de dos-extremos . ,P~n~I ~: de un-E!xtrf¡lrno . . PaneLC: de un-extremo>;
H0: sf= cr~ 'Ho:sf:i:..cr[ Ho: sf :s.cr[ •
H1 : sf;t cr~ ·i','
·'H1:·sf< a: : ; '~
H1: sf >·a~
Figura 1 J.9
Determinación de la región de rechazo de la prueba de hipótesis con respecto a la igualdad de dos varianzas de población:
panel A, prueba de dos extremos, panel B, prueba de un extremo; panel C, prueba de un extremo
1 3 .6. 3 Aplicación
Con el propósito de mostrar cómo probaremos la igualdad de dos varianzas, po-
demos regresar al estudio del analista financiero de los réditos de dividendo de dos
grupos de acciones. Los datos del ejemplo se muestran en la tabla 13.1 de la página
466, y las medidas sumarias de las dos muestras se presentan en la tabla 13.2 de la
página 467.
Tabla 13.5 Obtención del valor crítico de F con 20 y 24 grados, para un área de extremo superior de 0.025.
Numerador df1
Denominador
dfz 1 2 3 15 I& 24 30
1 647.8 799.5 864.2 984.9 99 .1 997.2 1001
2 38.51 39.00 39.17 39.43 3 .45 39.46 39.46
3 17.44 16.04 15.44 14.25 1 .17 14.12 14.08
4 12.22 10.65 9.98 8.66 .56 8.51 8.46
•
23 5.75 4.35 3.75 2.47 .36 2.30 2.24
s.;z:a 4.32! 3.n 2!.44 2.27 2.21
Fuente: Tomado de la tabla E.5.
"ªll
1
.. F_L{n1 -1),(nz~l)
. = ·'""t,.-··-.,.,-,-.-,-... · ' (13.9)
,U(~;~l),(~¡-,1):: ,
1
F1.t20, z41
-- -
F ---
U!24, 20)
1 1
FL{ZO, 24) = F = 0.415
U(24, 201 2.41
df1 = 21 - 1 = 20
df2 = 25 - 1 = 24
Rechazar
rechazar Ho
Figura 1 3. 1O Ho
Regiones de rechazar y de no
rechazar de una prueba de dos
extremos para la igualdad de dos
varianzas, al nivel de significación FL (20, 24) = 0.415 Fu(20,24) = 2.33
de .05 y con 20 y 24 grados de
libertad.
Utilizando la ecuación ( 13.8) para los datos del analista financiero (véase la
tabla 13.2 página 467), calculamos la siguiente estadística de prueba F:
sz
F = 521
2
1.698
1.25
1.353
Por consiguiente, puesto que FL< 20, 24 ¡ = 0.415 < F = 1.25 < Fu 120 , 24 ¡ = 2.33, no
rechazamos la hipótesis nula, H 0 . El analista financiero llegaría a la conclusión de
que no hay evidencia de una diferencia en la variabilidad de los réditos de divi-
dendo de las dos poblaciones. Así pues, si podemos suponer que las dos pobla-
ciones están distribuidas de manera normal, la prueba t de varianzas conjuntas
sería más apropiada que la prueba t' de varianzas independientes, para la com-
paración de diferencias entre los réditos de dividendo promedios, debido a que no
1 3 .6.4 Precaución
Al probar la igualdad de dos varianzas de población, debernos tener en cuenta que
la prueba supone que cada una de las dos distribuciones están distribuidas de ma-
nera normal. Esto es, si se cumple con la suposición de normalidad para cada·
población, la estadística de prueba F sigue una distribución F con 11 1 - 1 y 11 2 - 1
grados de libertad. Desafortunadamente, esta estadística de prueba F no es robusta
con respecto a violaciones a esta suposición (referencia 2), en particular cuando los
tamaños de muestra de los dos grupos no son iguales. Por tanto, si las poblaciones
no están, por lo menos, distribuidas de manera aproximadamente normal, la pre-
cisión del procedimiento puede verse afectada seriamente (las referencias 2 a 4
presentan otros procedimientos para probar la igualdad de dos varianzas).
e 1:136 Suponga que se tiene disponible la siguiente información para dos grupos:
(a) /\1 nivel de significación de O.OS, ¿_existe evidencia de una diferencia entre
0~ y a~?
(bJ ¿Cuál es la relación en el inciso (a) entre el valor crítico inferior y el valor
crítico superior? ¿En qué condiciones será válida esta relación? Explique
su respuesta.
(c) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de O.OS, ¿cuál es el valor crítico de extremo superior de la
estadística de prueba F para determinar si hay evidencia de que 0~ > 0~?
(d) Suponga que deseáramos llevar a cabo una prueba de un extremo. Al
nivel de significación de .OS, ¿cuál es el valor crítico de extremo
inferior de la estadística de prueba F para determinar si hay evidencia de
que<>~ > 0~?
133 7 Suponga que se tiene disponible la siguiente información correspondiente a
dos grupos:
sf = 473 11 2 = 13 s~ = 36.4
·= .
.,, .l.'67 ' 7.812 05;000•· 7·,¡95 •.• 7~Íl7 . 0.55l.
•.J".. ·.·.o·.~.··
o.i6o
F.
~·.· · s~. ..
30.000'
L.<'Qj_>
... ,;;l~Q40.
. 2;330
Q3,.
13;000. ,•
ll~OOÓ
Figura 1 J.11
Resultado obtenido con MINITAB de las medidas sumarias.
Nota: Deberíamos estar familiarizados con todas las medidas sumarias obtenidas con el programa MlNITAB,
excepto TRMEAN (que está más allá del propósito del presente extremo).
Uso de la computadora para la prueba de hipótesis con dos muestras independientes 491
bajadores, hombres y mujeres. Este resultado fue obtenido mediante el uso de
MINITAB (véase referencia 5). Además, la figura 13.12 representa las gráficas de ca-
ja y sesgos de la antigüedad, basadas en el sexo de los empleados, e ilustra las corres-
pondientes gráficas de probabilidad normal, todo esto obtenido con el paquete de
computación STATISTIX (véase referencia 10).
....................
••
¡
•
~· :::~:
20 ......
1) •..•.
1
MALBS •
FEMALBS
Sl!lC
fOO ~UH
MALES
.......... ]
......i ..
-3 ·2 ·1
Naokits
Approúaat• W11k·Shapbo 0.8''1 231 Cll.H•
FEKALES
••
i 18
l 12
-i
..¡........... ;.:.~ ................
,..:-
¡
!. . . ..
•..¡..... ······t.--Yt·· ¡
'
.. J .................. ,. ..................
i
i'''''''"'''''"'''"~ ················+····"··-··-·····!·.,·
......... -~ ..
i
·····-~--
·3 ·2 ·1
RaDldta
Figura U.12
Resultado obtenido con STATISTIX de las gráficas de caja y sesgo y las gráficas de probabilidad
normal.
Nota: Los externos y los posibles externos están representados separadamente fuera de los sesgos de la gráfica
de caja y sesgo. El símbolo "o" se utiliza para externo; el símbolo "*" se utiliza para posibles externos.
TTEST PROCEDURE
Variable: EMPYEARS
SEX N Mean Std Dev Std Error
MALES 233 9.27781116 9.14078799 0.59883293
FEMALES 167 7.81191617 7.11661961 0.55070056
Uso de la computadora para la prueba de hipótesis con dos muestras independientes 407
referencia 7). Además, en la figura 13.14 se muestra el resultado parcial, obtenido
con el paquete de computación SPSS; en el que se ilustra la prueba de suma de ran-
gos de Wilcoxon para posibles diferenc:ias en las medianas (véase referencia 6). Aún
más, en la figura 13.15 se presenta el result<ctdo obtenido con el paquete STATISTIX
donde se muestran las gráficas de caja y sesgos y las gráficas de probabilidad nor-
mal para demostrar los- ~fectos de una transformación normalizan te con logari'tmos
naturales sobre los dos grupos de muestra original. Y en la figura 13.16 se muestra
el resultado obtenido con el paquete MINITAB donde se ilustran las pruebas t y t'
para posibles diferencias en las medias transformadas, basadas en el sexo de los
empleados. ·
De las figuras 13.11y13.13 observamos que, con respecto a la antigüedad de
los trabajadores, la muestra de 233 hombres tuvo una media de 9.28 años, con una
·l -a -1 o
Ronlllb
Awrodat:• W11k-sb.Q1.zo o .nH au cu••
PllmUI
Figura 13.1 S
Resultado obtenido con
STATISTIX en el que se
ilustran las gráficas de caja
y sesgo y las gráficas de
probabilidad normal,
correspondientes a los
datos sobre antigüedad en
el trabajo de los dos· -· ·• ·l
Figura 13. 16
Resultado obtenido con MINITAB para las pruebas t y t' para investigar diferencias en la
"antigüedad transformada" promedio, basados en el sexo de los trabajadores, después de una
transformación de logaritmo natural.
desviación estándar de 9.14 años, mientras que la muestra de 167 mujeres tuvo
una media de 7.81 años con una desviación estándar de 7.12 años.
Antes de probar las diferencias entre las medias de los dos grupos, resulta apro-
piado que la suposición de igualdad de varianzas sea evaluada mediante el uso de
la prueba F analizada en la sección anterior. Nuestras hipótesis nula y alternativa
serían
2 2
U)J=<J'F
2 2
<J'M:F<J'p
De la figlira 13.13, observamos que la estadística de prueba Fes 1.65 y, con 232
y 166 grados de libertad, el valor p está dado como .0007. Si se seleccionara un
nivel de significación de a= .05, la hipótesis nula sería rechazada, ya que 0.0007 <
O.OS. Por consiguiente, llegaríamos a la conclusión de que existe evidencia de una
diferencia entre las varianzas de los dos grupos. 2 Desafortunadamente, nuestro
resultado, que indica una falta de homogeneidad de varianza, podría ser confun-
dido con el hecho de que hay una falta de normalidad. Así pues, la precisión de
nuestro resultado puede verse afectada por el hecho de que las dos poblaciones
muestreadas parecen estar sesgadas hacia la derecha, y entonces, para comparar la
variabilidad de los dos grupos, sería más apropiado utilizar otros procedimientos
libres .de distribución cuyo estudio está más allá de nivel del presente texto (véanse·.
referencias 2 a 4).
Sin embargo, si asumimos la posición de que las dos varianzas de la.s pobla~
dones subyacentes no son iguales, pero sentimos que los tamaños de las muestras
son lo suficientemente grandes para que el efecto de limitación central normalice
las dos distribuciones de muestreo respectivas de las medias, podemos utilizar el
resultado obtenido con SAS, presentado en la figura 13.13, para obten~r la estadís-
tica de prueba t' de varianzas separadas para probar la hipótesis nula. ·
Uso de la computadora para la prueba de hipótesis con dos muestras independientes 499
contra la. hipótesis alternativa
Observamos que la estadística t' es igual a +1.80 y, con 39S grados de libertad, el co-
rrespondiente valor p de dos extremos es .0723. Para una prueba de dos extremos
con un nivel seleccionado de a.= .OS, como .0723 > .05, no estaríamos en disposi-
ción de rechazar la hipótesis nula. La estadística de prueba t' de + 1.80 cae dentro
de la región de no rechazo, entre los valores críticos inferior y superior de ±1.96, de
la distribución t, con 395 grados de libertad. Llegaríamos a la conclusión de que no
hay evidencia de que la antigüedad promedio en el trabajo en Kalosha Industries
sea diferente entre los hombres y mujeres que laboran de tiempo completo.
Los investigadores que no deseen efectuar la prueba t', debido a la aparente
falta de normalidad de las poblaciones subyacentes, podrían escoger la prueba de
suma de rangos de Wilcoxon en lugar de la primera. En la figura 13.14 se presenta
el resultado obtenido con el paquete SPSS, y se ilustra la prueba de suma de rangos
de Wilcoxon utilizada para investigar diferencias en la mediana de la antigüedad
basándose en el sexo de los trabajadores. Para probar la hipótesis nula
F = S~ = (0.9250) 2 = 1.Z8
s; (0.8172) 2
13.7.3 Resumen
Independientemente de qué procedimiento de prueba se seleccione, podemos in-
formar a Bud Conley que no hay evidencia de una diferencia en la cantidad prome-
dio de tiempo que llevan trabajando en Kalosha Industries los empleados de
tiempo completo, hombres y mujeres. Por otro lado, al examinar los diferentes va-
lores p, podemos ver qué tan importante es explorar los datos mediante un análisis
descriptivo completo, con el propósito de evaluar las suposiciones de los procedi-
mientos de prueba que tenemos en mente emplear. Muchos investigadores hu-
bieran escogido, inicialmente, la prueba t'. Algunos hubieran elegido la prueba de
suma de rangos de Wilcoxon. Otros más hubieran preferido transformar los datos,
siguiendo un análisis descriptivo, y después hubieran seleccionado una prueba t. A
pesar de que las soluciones a las que se llegaron fueron las mismas en todas las si-
tuaciones, es un poco perturbador darse cuenta de la falta de estabilidad de las
pruebas t y t', incluso cuando los tamaños de muestra en este caso (233 y 167) no
son pequeñqs. Observe, de las figuras 13.13 y 13.16, qué tan variados fueron los
respectivos valores p para las pruebas efectuadas sobre los datos originales, en con-
traste con los valores obtenidos en pruebas sobre los datos transformados. Por el
otro lado, la prueba de suma de rangos de Wilcoxon, que sencillamente transforma
las mediciones en rangos, no se ve afectada en lo absoluto por tales transforma-
ciones de datos.
Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestionario de
la figura 2.6, páginas 28 y 29, y presentados en la tabla 2.3 de las páginas 33 a 40.
Deben resolverse con la ayuda de algún paquete de computación que se tenga disponible.
Suponga que usted fue contratado corno asistente de investigación de Bud
Conley, el vicepresidente de recursos humanos de Kalosha Industries. Éste le ha
dado una lista de preguntas (véanse problemas 13.48 a 13.60) cuya respuesta
necesita tener antes de la reunión con el representante de la empresa B&L
Corporation, la firma asesora sobre prestaciones laborales que él ha
contratado. Un análisis estadístico confirmatorio, basado en las respuestas a las
preguntas relativas a las variables numéricas de la Encuesta de Satisfacción de
los Empleados, le proporcionará un mejor entendimiento de la composición de
la fuerza de trabajo de tiempo completo de Kalosha Industries, y le será de
utilidad en sus deliberaciones con el representante de la B&L Corporation
orientadas a la obtención de un paquete de prestaciones para los empleados.
De las respuestas a las preguntas que tratan sobre variables numéricas de la
Encuesta de Satisfacción de los Empleados (véanse páginas 33 a 40), en los
problemas 13.48 a 13.60 que se presentan a continuación,
Elección del procedimiento de prueba apropiado al comparar dos muestras relacionadas SOJ
un experimento en el que proyectos de aplicación financiera particulares deben ser
tratados con el nuevo paquete así como por el paquete líder actual. Mediante el uso
de un conjunto particular de proyectos de aplicación financiera en ambos paquetes,
de hecho estamos utilizando cada proyecto como su propio control. Por consi-
guiente, sencillamente podemos evaluar diferencias en los tiempos requeridos para
lograr los resultados deseados mediante la compara(ión de la media (o de la me-
diamtl de las diferencias delos dos n~gi~tr_os de tiempo, en vez de comparar la dife-
r~~ii!Tüii~Q_l~_i9.e11 la mediana)_ de los ti~ropos~dg_t~-ññinación de dos muestras
i11-~--P-~D-~fü~I1!~~--c:l.~- los P!<J.yect_ps de -ªpEg¡,__Q.Q_f.!._fin.ªns:iera, .YD-ª--.Q~)as _c_uales debe
acc:_e_~a,r~e en_ ~l nuevo~_paql!ete de softw:'l..-!!. l'J~~!ª- ~p_el_pag:µ~!~l_~eLEste último
planteamiento de comparación de dos muestras independientes fue visto en nuestro
análisis de las secciones 13.3 a 13.6. En este caso, sin embargo, debernos observar
que la obtención de los dos registros de tiempo (uno para el nuevo paquete de compu-
tación y otro para el paquete líder) para cada proyecto de aplicación financiera sirve
para reducir la variabilidad en las lecturas de tiempo comparada con la que se pre-
sentaría si se utilizaran dos conjuntos independientes de proyectos de aplicación
financiera. También nos permite enfocar nuestra atención en las diferencias entre los
dos registros de tiempo para cada proyecto de aplicación financiera con el propósito
de medir la efeetividad del nuevo paquete de software.
Independientemente de si se emplean muestras equilibradas (apareadas) o me-
diciones repetidas, tlOOjetivo es estudiarla difer~n5ia entre_dQ~ffie_dkiones me_dian-
te la reducción del efecto ~-lª-Y_arial!ilid~d _debido a los elementos o individuos
En
mismos. Tas dos secciones siguientes, desarrollaremos dos procedimientos amplia-
mente utilizados: la prueba t para la diferencia media en muestras relacionadas y la
prueba de rangos con signo de Wilcoxon para la diferencia mediana en muestras rela-
cionadas. Como se estudió en la sección 13.2, se pueden emplear varios criterios para
la selección de un procedimiento en particular. Parte de un buen análisis de datos
consiste en entender las suposiciones que subyacen en cada una de las técnicas de
prueba de hipótesis y en seleccionar la más apropiada para un conjunto dado de con-
diciones. Otros criterios para la elección de la prueba tienen que ver con la sencillez
del procedimiento, la capacidad de generalización de las conclusiones a las que se
llegue, la accesibilidad de las tablas de valores críticos para la estadística de prueba,
la disponibilidad de paquetes de software de computación que contengan el pro-
cedimiento de prueba, y la potencia estadística del procedimiento.
15-µD
Z=--- (13.10)
ªn
..rn
i=l
i5
n
µD =diferencia media supuesta
cr D = desviación estándar de población de los resultados de diferencia
n = tamaño de la muestra
Table 13.6 Determinación de la diferencia
entre dos grupos relacionados
Grupo
Observación 1 2 Diferencia
1 X¡¡ D 1 =X 11 - X 21
2 X12 D2=X12 -Xzz
X¡; D;=X 1; -X 2 ;
contra la alternativa de que las medias no son iguales (es decir, la diferencia media
de población, µD, no es O)
en donde
n
n
LD;z -nf>z
i ~ 1
n-1
Figura 1 J.17
Prueba de la diferencia entre las medias de muestras relacionadas: panel A, prueba de dos
extremos; panel B, prueba de un extremo; panel C, prueba de un extremo.
Así pues
-15.60 = -1.56
n 10
de modo que
s/) = i.24
Figura 1 l.18
Prueba de un extremo para la
diferencia apareada, al nivel de
significación de .O 1, con nueve
grados de libertad.
de modo que
t
-1.56 - o -3.978
1.24
Fo
Como t = -3.978 < t9 = -2.8214, rechazamos H 0 •
13.62 Suponga que una compañía fabricante de zapatos desea probar el material que
se destina a la suela de los zapatos. En cuanto a cada par de zapatos, el material
nuevo fue colocado en un zapato y el material viejo en el otro. Después de un
periodo dado, se seleccionó una muestra aleatoria de 10 pares de zapatos y se
les midió el desgaste con una escala de 10 puntos (el más alto es mejor) con
los siguientes resultados
Número de par
Material II III IV V VI VII VIII IX X
Nuevo 2 4 5 7 7 s 9 8 8 7
Viejo 4 5 3 8 9 4 7 8 s 6
Diferencias -2 -1 +2 -1 -2 +1 +2 o +3 +1
Automóvil
Tipo de
gasolina #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Regular 15 23 21 35 42 28 19 32 31 24
Alto octanaje 18 21 25 34 47 30 19 27 34 20
1 67.2 65.3
2 59.4 54.7
3 80.1 81.3
4 47.6 39.8
5 97.8 92.5
6 38.4 37.9
7 57.3 52.4
8 75.2 69.9
9 94.7 89.0
10 64.3 58.4
11 31.7 33.0
12 49.3 41.7
13 54.0 53.6
1J.I0.1 Introducción
En situaciones que implican elementos pareados o mediciones repetidas del mis-
mo elemento, se puede utilizar la prueba de rangos con signo de Wilcoxon
para la diferencia mediana, cuando su respectiva contraparte paramétrica, la
prueba t para la diferencia media, que fue descrita en la sección anterior, no es
apropiada. Esto es, la prueba de rangos con signo de Wilcoxon puede elegirse sobre
la prueba t cuando somos capaces de obtener datos medidos a un nivel superior
que la escala ordinal, pero no creemos que las suposiciones del procedimiento pa-
ramétrico sean lo suficientemente verdaderas. Cuando las suposiciones de la prue-
ba t son violadas, es probable que el procedimiento de Wilcoxon (que hace pocas
y menos suposiciones limitantes que la prueba t) sea más poderoso en detectar la
existencia de diferencias significativas que su contraparte paramétrica. Aún más,
incluso en condiciones apropiadas para la prueba paramétrica, la prueba de rangos
con signo de Wilcoxon ha probado ser casi tan poderosa que la prueba t.
1 J. 10.2 Desarrollo
La prueba de la hipótesis nula con respecto a que la diferencia mediana de la
población, Mv, es cero, puede ser de dos extremos o de un extremo:
n'
w = LR~+) (13.12)
i =1
Puesto que la suma de los primeros n' enteros (1, 2, ... , n') está dada por n'(n' +
1)/2, Ja estadística de prueba de Wilcoxon, W, puede tener un valor que va desde
un mínimo de cero (en el que todos los resultados de diferencia observados son
negativos) hasta un máximo de n'(n' + 1)/2 (en el cual todos los resultados de dife-
rencia observados son positivos). Si la hipótesis nula fuera verdadera, esperaríamos
que la estadística de prueba, W, tomara un valor cercano a su media, µw = n'(n' +
1)/4. Si Ja hipótesis nula fuera falsa, esperaríamos que el valor observado de la
estadística de prueba estuviera cercano a uno de los extremos.
Del mismo modo que con la prueba de rangos con signo de Wilcoxon (de una
muestra), analizada en Ja sección 12.4, se puede utilizar la tabla E.10 para obtener
los valores críticos de la estadística de prueba, W, para pruebas de un extremo y
para pruebas de dos extremos a varios niveles de significación, para muestras con
n' ~ 20. Para una prueba de dos extremos y un nivel de significación particular, si
el valor observado de W es igual o mayor que el valor crítico superior o es igual o
Z =W - µw (13.13)
cr w
en la que
,,.
W es la suma de los rangos positivos; W== L, R~' 1
i '::; 1
. n'(n' + 1)
µ w es el valor medio de W; µ w = 4
. .,
o es la desv1ac10n
\\'
,
estandar W; a
w
= J·---
(
---··---- --··
n' n' + 1 2n' + 1
)( 24
)
n' es el tamaño real después de eliminar las observaciones que tienen resultados
de diferencia absolutos de cero
que es,
W _ ( n'(n~ + 1) J
Z= (13.14)
n' (n' + 1)(2n' + 1)
24
H0 : Mv~O
H 1: Mv >0
y la prueba es de un extremo.
Para llevar a cabo la prueba de muestra apareada, el primer paso del procedi-
miento de seis consiste en obtener un conjunto de resultados de diferencia, D 1,
entre cada una de las n observaciones apareadas:
D¡=Xli - X 2¡
en donde i = 1, 2, ... , n
n'
W = :2i Ri + l = 7 + 2 + 6 + 8 + 4.5 + 9 + 4.5 +3 = 44
i =1
Preparación de
devolución de impuestos
Contribuyente Despacho Por el
con tribuyen te
José 1,4S9 1,910
Marcia 3,2SO 2,900
Alexis 1,190 1,200
Harry 8,100 7,6SO
Jean 13,200 lS,390
Marc 9,120 9,100
JR 25S,970 33,120
Billy 210 140
Richard 1,290 1,320
Ted 130 o
Bruce S,190 6,123
(a) ¿Existe evidencia de que la afirmación del despacho es válida? (Utilice ex=
O.OS.)
~ (b) Analice las implicaciones de sus resultados.
13.67 El reportero del tiempo de un canal de televisión estadounidense local
informó, el miércoles lo. de junio de 1994, por la mañana, que se esperaba
que en aquel país, ese día, el clima estuviera más cálido que el martes 31 de
(a) ¿Existe evidencia que apoye la afirmación hecha por el reportero del
tiempo el miércoles primero de junio, acerca de que ese día estaría más
caliente?
(b) Analice las implicaciones de sus resultados.
13.68 Los siguientes datos representan las calificaciones obtenidas en los exámenes
de medio semestre y de finales de semestre tomados de una muestra aleatoria
de los exámenes de 11 estudiantes del curso Introducción a la Economía.
Ambos exámenes tuvieron una duración de dos horas y el examen final cubría
el material visto después de la aplicación del examen de medio semestre.
Estudiante
N.A. A.B. L.B. M.B. W.B. S.D. T.J. L.K. J.M. H.R. D.R.
Examen de
medio semestre 80 82 47 75 80 69 83 73 55 70 81
Examen de
final de semestre 81 85 40 75 83 79 91 72 66 76 79
Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias 517
l f H11 Trampas potenciales de la prueba de
hipótesis y cuestiones éticas
1 3. 1 1 • 1 Trampas potenciales
En el presente capítulo, introdujimos cuatro procedimientos de prueba estadística
que pueden ser empleados cuando se analizan posibles diferencias entre los pará-
metros de dos poblaciones independientes, basándonos en muestras que con-
tienen datos numéricos. Además, desarrollamos dos procedimientos de prueba que
pueden utilizarse cuando analizamos posibles diferencias entre los parámetros de
dos poblaciones relacionadas, basándonos en muestras que contienen datos nu-
méricos. De nuevo, parte de un buen análisis de datos consiste en entender las
suposiciones que subyacen en cada uno de los procedimientos de prueba de
hipótesis, y utilizándolas, así como otros criterios, seleccionar el procedimiento
más apropiado para un conjunto dado de condiciones. Como se observa en el dia-
grama resumen del capítulo, la principal distinción en la comparación de dos gru-
pos que contienen datos numéricos está basada en el hecho de si las poblaciones
de donde se tomaron las muestras son independientes o están relacionadas. No
deberíamos utilizar procedimientos de prueba diseñados para poblaciones inde-
pendientes cuando tratamos con datos apareados, y no deberíamos utilizar pro-
cedimientos de prueba diseñados para poblaciones relacionadas cuando tratamos
con dos muestras independientes. Después de centrar nuestra atención en agrupa-
mientos apropiados de procedimientos de prueba parecidos, necesitamos exami-
nar con cuidado las suposiciones y los otros criterios antes de seleccionar un
procedimiento en particular.
Una selección de la prueba y/o el modelo adecuados es de suma importancia
para un buen investigador, y es un asunto bastante serio. Hace poco (véase refe-
rencia 1), dos profesores de diferentes universidades levantaron cargos por mala
conducta científica ante los Institutos Nacionales de Salud (estadounidenses), en
contra de un profesor de una tercera universidad por haber escogido un modelo
estadístico en un artículo que había escrito sobre envenenamiento con plomo.
1 3. 1 1 .2 Cuestiones éticas
Consideraciones éticas surgen cuando un investigador manipula el proceso de
prueba de hipótesis en cierto modo que le permita obtener una ganancia personal.
Resulta interesante saber que el investigador acusado de mala conducta científica
no fue acusado de fraude, plagio, alteración de datos o falsificación de resultados.
Los cargos se derivaron a partir de su elección del modelo estadístico y de los pro-
cedimientos de prueba, así como del análisis de datos resultante que presentaba un
punto de vista divergente. Para que la ética llegue a ser algo de consideración, se
debe tener en cuenta si ese aspecto en el comportamiento del investigador fue con
conocimiento de causa o no. Para un mayor análisis sobre las cuestiones éticas y la
prueba de hipótesis, refiérase a la sección 11.11.2 (páginas 412 a 415) y a la sección
12.8.2 (páginas 455 a 456).
. ;v~~~e>•
capí,tuJ~ 15 ' Sí No
No
f>rue6a· de stima de
rarig!lli d6;W.iléoxor¡ Sí
.• ~~~ª"11:'":~
Juntando todo
TÉRMINOS CLAVE
diferencia media 504 prueba de suma de rangos de Wilcoxon
elementos aparedos o balanceados 503 para diferencias en dos medianas 481
mediciones repetidas 503 prueba t de varianza combinadas para
muestras relacionadas 503 diferencias en dos medias 464
poblaciones Independientes 463 prueba t' de varianza separadas pa
poblaciones relacionadas 503 diferencias en dos medias 472
problemas de B_ehrens-Fisher 472 prueba Z para diferencias en dos medias
prueba F para diferencias en dos 463
varianzas 489 prueba Z para la diferencia media 504
prueba de rangos con signo de Wilcoxon resultado de diferencia, D 1 504
para la diferencia mediana 511 robusta 468
Condado 1 Condado II
X $115 $98
s $30 $18
n 25 21
10 13 9 15 12 13 11 13 12
1 89 80 12 56 71 23 63 43
2 80 68 13 67 55 24 89 80
3 86 76 14 99 95 25 62 23
4 68 77 15 82 45 26 74 91
5 88 95 16 75 71 27 62 S7
6 89 66 17 58 44 28 70 Sl
7 82 83 18 56 so 29 65 78
8 89 86 19 55 14 30 82 S3
9 42 58 20 72 S9 31 91 90
10 61 54 21 73 80 32 84 83
11 84 84 22 79 68 33 95 88
Notas finales
l. Para probar las diferencias en los réditos de dividendo 3. Las mediciones originales (es decir, la antigüedad de los
medianos, se debe suponer que las distribuciones de réditos empleados en años) son reemplazadas por el correspondiente
de dividendo de ambas poblaciones de las cuales se logaritmo natural de la "medición más uno", de modo que,
tomaron las muestras aleatorias son idénticas, excepto, por ejemplo, un empleado de tiempo completo con cuatro
posiblemente, en cuanto a diferencias en la localización (es años de servicio en Industrias Kalosha tendría una
decir,,fas medianas). "medición" transformada de 1.61, el logaritmo natural de 5.
2. Puesto que los 232 y 166 grados de libertad no se muestran 4. La fórmula de aproximación de muestra grande [ecuación
en la tabla E.5, redondeando a los valores tabulares más (13.14)] tendría como resultado un valor de Z de +Z.55,
cercanos de 120 y 120 grados de libertad, el valor crítico de que es mayor que +1.645, el valor crítico de extremo
extremo superior, Fu, es 1.43 y el valor crítico de extremo superior de la distribución normal estándar con un nivel de
inferior, Fv es 1/1.43 = 0.699. Puesto que F = 1.65 >Fu= 1.43, significación de Ó de O.OS. En consecuencia, la hipótesis
la hipótesis nula es rechazada. nula sería rechazada.
Referencias
l. Begley, S., "Lead, Lies and Data Tape", Newsweek, 16 de 7. SAS User's Manual Version 6 (Raleigh, NC: SAS lnstitute,
marzo, 199Z, p. 62. 1988).
Z. Bradley, ].V., Distribution-Free Statistical Tests (Englewood 8. Satterthwaite, F.E., "An Approximate Distribution of
Cliffs, NJ: Prentice-Hall, 1968). Estimates of Variance Cornponents", Biometrics Bulletin,
3. Conover, W.J., Practical Nonparametric Statistics, Za. ed. 1946, vol. 2, pp. 110-114.
(Nueva York: Wiley, 1980). 9. Snedecor, G.W. y W.G. Cochran, Statistical Methods, 7a.
4. Daniel, W., Applied Nonparametric Statistics, Za. ed. ed. (Ames, IA: lowa State University Press, 1980).
(Boston, MA: Houghton Mifflin, 1990). 10. STATISTIX Versíon 4.0 (Tallahassee, FL: Analytical
5. MINITAB Reference Manual Release 8 (State College, PA: Software, Inc., 1992).
MINITAB, !ne., 1992). 11. Winer, B.J., Statistical Principies in Experimental Design, Za.
6. Norusis, M., SPSS Cuide to Data Analysis for SPSS-X with ed. (Nueva York: McGraw-Hill, 1971).
Additional Instructions for SPSS/PC+ (Chicago, IL: SPSS lnc.,
1986).
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Introducir los conceptos de diseño
experimental a través del desarrollo
CAPÍTULO del modelo de diseño completamente
aleatorizado y del procedimiento
ANOVA de una dirección, utilizado
para probar las diferencias entre las
medias de e grupos, y extender este
análisis hasta incluir los modelos de
diseño (con interacción) de bloque y
factorial aleatorizados.
525
1111 Introducción
En el capítulo 13 utilizamos la metodología de la prueba de hipótesis para llegar a
conclusiones acerca de posibles diferencias entre los parámetros de dos grupos,
cuando tratamos con datos numéricos. A menudo, sin embargo, es necesario eva-
luar las diferencias entre los parámetros de varios (c) grupos. Podríamos desear
comparar métodos alternativos, tratamientos o materiales de acuerdo con algún
criterio predeterminado. Una organización de consumidores, por ejemplo, puede
desear determinar qué tipo de llantas duran más en condiciones de carretera; a un
investigador agrícola le gustaría saber qué variedad de ejotes dará la mayor pro-
ducción; un investigador médico desearía evaluar el efecto de las diferentes marcas
de un tipo de medicina para la reducción de la presión diastólica de la sangre. En
cada uno de los ejemplos anteriores se comparan varios grupos y los datos de cada
grupo son numéricos.
Empezaremos el presente capítulo con el examen del modelo de diseño comple-
tamente aleatorizado en el que tendremos solamente un factor con varios grupos
(como el tipo de llantas, la variedad de ejote o la marca de medicina), desarrollan-
do procedimientos para analizar los datos numéricos y ampliando éstos con la
descripción del modelo de diseño de bloque aleatorizado y el más sofisticado modelo
de diseño factorial (en el que es estudiado más de un factor a la vez en un experi-
mento), y desarrollando procedimientos para el análisis de datos numéricos. A
través de todo el capítulo, se pondrá énfasis en las suposiciones que se encuentran
detrás del uso de los diferentes procedimientos de prueba:
Al terminar el capítulo, usted deberá ser capaz de:
l. Comparar y contrastar las características que diferencian a los mode-
los de diseño completamente aleatorizado, de diseño de bloque
aleatorizado y de diseño factorial.
2. Entender los conceptos que se encuentran detrás de la división de la
variación total en sus diferentes fuentes de variación en los tres modelos
3. Entender las premisas de ANOVA.
4. Saber cuándo y cómo utilizar la prueba de Hartley para varianzas
homogéneas.
S. Saber cuándo y cómo conocer la prueba F ANOVA de una
dirección para examinar posibles diferencias en las medias de c
poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba de rangos de Kruskal-Wallis
para examinar posibles diferencias en las medianas de c poblaciones
independientes.
7. Saber cuándo y cómo utilizar los procedimientos de compara-
ción múltiples para evaluar combinaciones por parejas de
medias o de medianas de grupo.
8. Saber cuándo y cómo utilizar la prueba F de bloque aleatorizado para
examinar posibles diferencias en las medias de c poblaciones rela-
cionadas.
9. Saber cuándo y cómo utilizar la prueba de rangos de Friedman para
examinar posibles diferencias en las medianas de c poblaciones rela-
cionadas.
10. Saber cuándo y cómo utilizar la prueba F ANOVA para examinar
posibles diferencias en las medias de cada factor de un diseño
factorial.
11. Saber cuándo y cómo utilizar la prueba F ANOVA para examinar
posibles interacciones en los niveles de los factores en un diseño
factorial.
12. Describir el concepto de interacción en un diseño factorial.
14.4.1 Introducción
Cuando las mediciones resultantes en los e grupos son continuas y se cumplen
ciertas suposiciones, se puede emplear una metodología conocida como análisis
de varianza (o ANOVA; por su nombre: ANalysis Of VAriance) para comparar las
medias de los grupos. En un cierto sentido, el término "análisis de varianza" parece
no ser el correcto, pues el objetivo consiste en analizar diferencias entre las medias
Figura 14.1
v";";óo '°"' (SST) ~
División de la variación
-~
total en un modelo
completamente Variación dentro de grupos (SSW)
aleatorizado.
14.4.l Desarrollo
Bajo las premisas de que los e grupos o niveles del factor que se van a estudiar repre-
sentan poblaciones cuyas mediciones resultantes son tomadas de manera aleatoria
e independiente, que siguen una distribución normal y tienen varianzas iguales, la
hipótesis nula de no diferencias en las medias de población
Ho: µ1 = µz = ··· =µe
En la figura 14.2 se representa una gráfica de la forma en que se vería una hipóte-
sis nula verdadera cuando se comparan cinco grupos, y son válidas las suposiciones
de normalidad y de igualdad de varianzas.
Figura 14.2
Las cinco poblaciones tienen la
misma media:µ¡= µz = µ3 = µ4 =µs.
Figura 14.3
Un efecto de tratamiento se
encuentra presente: µ 4 > µ 1 >
IJ2 =IJ3 =IJs·
Observamos que, excepto para diferencias en la tendencia central (es decir, µ 4 > ~1 1
> µ2 = µ:~ = µ 5 ) las cinco poblaciones tienen la misma apariencia.
Para llevar a cabo una prueba ANOVA de la igualdad de las medias de población,
subdividimos la variación total en las mediciones resultantes en dos partes, la que
se puede atribuir a las diferencias entre los grupos y la que se debe a variaciones inhe-
rentes dentro de los grupos. La variación total generalmente se representa con la
suma del total de cuadrados (o SST, por sus siglas Sum of Squares Total). Puesto
que bajo la hipótesis nula las medias de población de los e grupos se suponen iguales,
se puede obtener una medición de la variación total entre todas las observaciones,
mediante la suma de las diferencias aj cuadrado entre cada observación individual y
la gran media o media general, X, que está basada en las observaciones de todos
los grupos combinados. La variación total se calcularía como
r "i
e n¡
en la que
X;¡ es la i-ésima observación del grupo o nivel j
X¡ es la media de muestra del grupo j
Puesto que e niveles del factor están siendo comparados, existen e - 1 grados
de libertad asociados con la suma de cuadrados entre grupos. Como cada uno de
los e niveles contribuye con n¡ - 1 grados de libertad y
e
I, (n¡ - 1) =n- e
i = 1
F = MSA (14.5)
MSW
Figura 14.4
o Fu(c-1, n-c) Regiones de rechazo y de no
rechazo cuando se utiliza
ANOVA para probar H 0 •
e n¡
14.4. J Aplicación
Para ilustrar la prueba F ANOVA de una dirección, suponga que el gerente de
producción de la planta en que se está empacando cereal en cajas de 368 gramos
está considerando la sustitución de una vieja máquina que afecta directamente el
resultado del proceso de producción. Tres proveedores, competidores entre sí, han
permitido que el gerente de producción utilice su equipo a modo de prueba. Los
precios de adquisición y de los contratos por servicio de las tres marcas de equipo
son esencialmente iguales. Con el propósito de tomar una decisión de compra, el
gerente de producción decide efectuar un experimento para determinar si existen
diferencias significativas entre los tres tipos de máquinas respecto al tiempo prome-
dio (en segundos) que les lleva a los trabajadores de la planta terminar el proceso
de llenado, utilizando cada uno de los equipos. Quince trabajadores de la planta,
con experiencia, habilidad y edad semejantes, fueron asignados para recibir entre-
namiento para operar uno de los tres tipos de equipo, de tal modo que se tienen
cinco obreros por cada máquina. Después de un tiempo adecuado de entre-
namiento y práctica, el gerente de producción mide el tiempo (en segundos) que
les lleva a los trabajadores de la planta efectuar completamente el proceso de lle-
nado, utilizando su respectivo equipo. Los resultados de este experimento se mues-
tran en la tabla 14.2, junto con algunos cálculos sumarios. En la figura 14.5 se
presenta una gráfica de dispersión, de manera que se puedan inspeccionar visual-
mente los datos y ver cómo se distribuyen las mediciones (en segundos) alreded<2_r
de su propia media de grupo, así como alrededor de la media general de grupo X.
26. •
1
X2 .. x
~·-
...
1.: i .· 1
T~
:, '' ~ .
' , ,'.
Figur-a 14.S
.
o~.'-,-,....,...,.~,~...,....,-.~11-+-"--'-1~11~·--
.. ·~ Gráfica de dispersión del tiempo (en
'',''I
.. Máquin~· segundos) para completar una tarea
utilizando diferentes máquinas.
Fuente: Tabla 14.2
= 340.65 = 22.71
15
SSA = Í n; (.X;- x) 2
= (5)(24.93 - 22.71) 2 + (5)(22.61 - 22.71) 2 + (5)(20.59- 22.71) 2
i=l =.(5)(2.22) 2 +(5)(-.10) 2 +(5)(-2.12) 2 .
Los respectivos términos cuadráticos medios se obtienen dividiendo estas sumas de cuadrados
entre sus correspondientes grados de libertad. Como e= 3 y n = 15, tenemos
Figura 14.6
Regiones de rechazo y de no rechazo
para el análisis de varianza al nivel de
significación de O.OS, con 2 y 12 grados
de libertad.
5 6.61 5. 9 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68
6 5.99 5. 4 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00
7 5.59 4. 4 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57
8 5.32 4. 6 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28
9 5.12 4. 6 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07
10 4.96 4. o 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91
11 4.84 3. 8 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79
)
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53
Fuente: Tornado de la tabla E.5.
.
T a bl a 14 4 Tia bl a d e anaT.
1s1s d e varianza para e estu d"10 de pro d uct1v1
. "d a d .
Grados de Cuadrado medio
Fuente libertad Sumas de cuadros (varianza) F Valor p
Entre grupos (máquina) 3 - 1= 2 47.1640 23.5820 25.60 .ooo·
Dentro grupos (máquina) 15 - 3 = 12 11.0532 .9211
Total 15 - 1=14 58.2172
14.4.4 Reflexión
Revisemos lo que acabamos de desarrollar. De la tabla 14.2 y de la figura 14.5 obser-
vamos que había diferencias entre las tres medias de muestra. Bajo la hipótesis nula
de que las medias de población de los tres grupos se suponen iguales, se obtuvo una
medida de la variación total (o SIT) entre todos los trabajadores sumando las
diferencias al cuadrado entre cada observación y la media general, 22.71, basán-
donos en todas las observaciones. La variación total se subdividió entonces en dos
componentes separadas (véase figura 14.1 de la página 528), una parte consistente
en la variación entre los grupos y la otra en la variación dentro de los grupos.
Si los tamaños de muestra difieren, se calcularía un alcance crítico para cada com-
paración por pareja de las medias de muestra. El paso final consiste en comparar
cada uno de los c(c - 1)/2 pares de medias respecto a su correspondiente alcance
crítico. Un par específico sería declarado significativamente diferente, si la diferen-
cia absoluta en las medias de muestra 1X¡ - Xr 1 es mayor que el alcance crítico.
Para aplicar el procedimiento de Tukey-Kramer, regresemos al estudio sobre
productividad. Utilizando el procedimiento ANOVA, llegamos a la conclusión de
que había una diferencia en el tiempo promedio necesario para terminar una tarea
con el uso de tres máquinas diferentes. Puesto que existen tres grupos, hay
(3)(3 -1)/2 = 3 posibles comparaciones de pareja que se tienen que tomar en cuenta.
De la tabla 14.2 de la página 533 las diferencias medias absolutas son
1. lx1 -x 2 1=124.93 - 22.611=2.32.
2. lx 1 - x 3 1= 124.93 - 20.591 = 4.34.
3. IX 2 - x 3 1=122.61 - 20.591=2.02.
En este caso, solamente se necesita obtener un alcance crítico porque los tres gru-
pos tienen muestras del mismo tamaño. Para determinar el alcance crítico, de la
tabla 14.4 de la página 536, tenemos MSW = 0.9211 y n¡ =S. De la tabla E.12, para
a= O.OS, e= 3 y n - e= 15 - 3 = 12, el valor crítico de extremo superior de Qu(3, 12)
es 3.77 (véase la tabla 14.5). De la ecuación (14.6), tenemos
Puesto que 2.32 > 1.618, 4.34 > 1.618 y 2.02 > 1.618, podemos concluir que ésta es
una diferencia importante entre cada par de medias. De aquí que la producción
representó utilidades para la máquina III, porque el tiempo promedio para com-
pletar la tarea fue el más breve.
Tabla 14. S Obtención de la estadística Q de alcance estudentizado para a = .OS, con 3 y 12 grados de libertad.
Grados de Grados de libertad del numerador
libertad del
denominador 2 • 4 5 6 7 8 9 10 11 12 13 14 15 16
1 18.0 32.8 37.1 40.4 43.1 45.4 47.4 49.1 50.6 52.0 53.2 54.3 55.4 56.3
2 6.09 9.8 10.9 11.7 12.4 13.0 13.5 14.0 14.4 14.7 15.1 15.4 15.7 15.9
3 4.50 6.82 7.50 8.04 8.48 8.85 9.18 9.46 9.72 9.95 10.15 10.35 10.52 10.69
•
11 3.11 .82 4.26 4.57 4.82 5.03 5.20 5.35 5.49 5.61 5.71 5.81 5.90 5.99 6.06
3.08) - 4.20 4.51 4.75 4.95 5.12 5.27 5.40 5.51 5.62 5.71 5.80 5.88 5.95
13 3.06 3.73 4.15 4.45 4.69 4.88 5.05 5.19 5.32 5.43 5.53 5.63 5.71 5.79 5.86
14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 5.13 5.25 5.36 5.46 5.55 5.64 5.72 5.79
Fuente: Tomada de la tabla E.12.
f
H 1: No todas las cr son iguales (j = 1, 2, ... , e)
s;uh (14.7)
S,~í11
F = 1.065 = 1.369
llllÍX .778
Tabla 14.6 Obtención del valor crítico de Fmáx con 3 y 4 grados de libertad, al
nivel de significación de .05.
2
3
39.0
15.4
87~
27.
142
39.2
202
50.7
266
62.0
333
72.9
403
83.5
475
93.9
4 9.60 -7 15.5 20.6 25.2 29.5 33.6 37.5 41.1
5 7.15 10.8 13.7 16.3 18.7 20.8 22.9 24.7
6 5.82 8.38 10.4 12.1 13.7 15.0 16.3 17.5
Fuente: Tomada de la tabla E.8.
Programas
A B e D
66 72 61 63
74 51 60 61
82 59 57 76
75 62 60 84
73 74 81 58
97 64 55 65
87 78 70 69
78 63 71 80
Conjunto de materiales
II III
87 58 81
80 63 62
74 64 70
82 75 64
74 70 70
81 73 72
97 80 92
62 63
71
Estrategia
Cuenta diez Cuenta diez
Repartidor Cuenta cinco básica avanzada
- $56 - $26 + $16 + $60
- $78 - $12 +$20 + $40
- $20 + $18 - $14 - $16
- $46 - $ 8 +$ 6 + $12
- $60 - $16 - $25 +$ 4
El profesor desea saber si existe evidencia de una diferencia entre las cuatro
estrategias y, si esto es así, qué estrategias son superiores respecto a su rentabi-
lidad potencial.
(a) Analice completamente los datos. (Utilice el nivel a= .01.)
(b) f.fiJd'Ji•i·f•> Escriba una carta al profesor en la que explique sus hallazgos.
14.S. I Introducción
La prueba de rangos de Kruskal-Wallis para la diferencias en e medianas (en
la que e > 2) puede ser considerada como una extensión de la suma de rangos de
Wilcoxon para dos muestras independientes analizadas en la sección 13.5. Así pues
la prueba de Kruskal-Wallis posee las mismas propiedades de potencia con relación
a la prueba F ANOVA de una dirección que la prueba de suma de rangos de Wilcoxon
respecto a la prueba t para dos variables independientes (sección 13.3). Esto significa
que, el procedimiento de Kruskal-Wallis ha resultado ser casi tan poderoso que la
prueba F en condiciones apropiadas a esta última, e incluso más poderoso que el
procedimiento clásico cuando sus premisas (véase sección 14.4.6) son violadas.
1 4. S •.2 Desarrollo
La prueba de rangos de Kruskal-Wallis se utiliza más a menudo para probar e gru-
pos de muestra independientes que han sido tomados de poblaciones que poseen
medianas iguales. Esto es, podemos probar
H0 : M1 = M2 = · · · = M,
contra la hipótesis alternativa
H 1: No todas las M¡ son iguales (donde j = 1, 2, ... ,e).
H =[
12
I-'
e
n(n + 1) ¡ ~ 1 n¡
l
r: - 3(n + 1) (14.8)
en la que
n es el número total de observaciones sobre las muestras combinadas, es
decir, n = n 1 + n2 + ... + n,
n¡ es el número de observaciones de la j-ésima muestra; j = 1, 2, ... , e
T¡ es la suma de los rangos asignados a la j-ésima muestra
T¡2 es el cuadrado de la suma de los rangos asignados a la j-ésima muestra
A medida que los tamaños de muestra de cada grupo se hacen grandes (mayo-
res que cinco), la estadística de prueba H puede ser aproximada por la distribución
chi-cuadrada con e - 1 grados de libertad. Así pues, para cualquier nivel elegido de
significación a, la regla de decisión sería rechazar la hipótesis nula si el valor calcu-
lado de Hes mayor que el valor crítico, X2, y no rechazar la hipótesis nula si Hes
menor o igual que el valor crítico X2 (véase figura 14.7). Es decir de extremo supe-
rior (véase figura 14.7). Esto es
o x~c-1)
Figura 14.7
Determinación de la región de
rechazo.
14 9 2
15 6 7
12 10 1
11 8 4
13 5 3
F!lente:Datos tomados de la tabla 14.2
de la página 533.
n(n + 1)
T1 + T2 + T3 = --'----
2
65 + 38 + 17 = (l 5 )(l 6 )
2
120 = 120
= (_g__)[1,
240
191.6] - 48
= 59.58 - 48 = 11.58
Tabla 14.8 Obtención del valor crítico aproximado x2 para la prueba de Kruskal-Wallis, al nivel de significación
de .OS con dos grados de libertad.
- T.
R¡ = __!_ (donde j = 1, ... , e)
n¡
Entonces calculamos las diferencias R¡ - R¡', (en la que j -:t- j') entre todos los
c(c - 1)/2 pares de rangos promedio. El alcance crítico para el procedimiento de
Dunn se obtiene de
Puesto que cada uno de los tres grupos tienen el mismo tamaño de muestra, sola-
mente hay un alcance crítico que sería utilizado en todas las comparaciones posi-
bles. Escogiendo un nivel de significación general de O.OS, determinamos el
alcance crítico con la ecuación (14.9) obteniendo primero Zu =+2.39 (puesto que
el área del extremo superior bajo la curva es 0.05/6 o 0.0083, como se muestra en
la figura 14.8) de modo que
= 2.39 (15)(16)
12
(.!5 + .!.)5
= 6.76
Observamos que solamente la segunda comparación (es decir, 1R1 - R3 I = l 13.0 -
3.4 I = 9.6) es mayor que el alcance crítico de 6.76, así que el gerente de producción
llega a la conclusión de que la máquina III es significativamente más rápida que
la máquina I, pero no existe evidencia de una diferencia significativa entre las
máquinas I y II, así como entre las máquinas 11 y Ill. Podemos recordar que si el
gerente de producción hubiera u.tilizado el procedimiento paramétrico de Tukey-
Kramer, descrito en la sección 14.4.5,'hubiera llegado a la conclusión de que exis-
ten diferencias significativas entre todos los pares de máquinas y, en consecuencia,
hubiera adquirido la máquina III debido a que el tiempo promedio para llevar a
cabo el proceso de llenado con tal equipo es el menor.
Debido a nuestros resultados incompatibles, el procedimiento de Tukey-
Kramer debería utilizarse después de efectuar una prueba F ANOVA de una direc-
ción, si la suposición de normalidad en las tres poblaciones subyacentes es viable.
Si no, debería emplearse el procedimiento de Dunn como el paso siguiente a la
prueba de rangos de Kruskal-Wallis.
Presión
Baja Normal Alta Muy alta
8.0 7.6 6.0 5.1
8.1 8.2 6.3 5.6
9.2 9.8 7.1 5.9
9.4 10.9 7.7 6.7
11.7 12.3 8.9 7.8
4 2 1
7 8 3
10 11 5
13 12 6
18 17 9
21 19 14
22 20 15
24 23 16
Figura 14.9
Resultado obtenido con el paquete Microsoft Excel para Windows, donde se muestran las
estadísticas sumarias.
(12.51) 2
Fmáx = (8.00) 2 = 2.45 > Fmáx [757]
.'
:= 2.26,
Uso de paquetes estadísticos para la evaluación de diferencias entre los e grupos 55J
Con el propósito de utilizar la prueba F ANOVA de una dirección, se debe encon-
trar una transformación adecuada que normalice los datos y estabilice las varianzas
entre los grupos. Después de utilizar una transformación de logaritmo natural sobre la
variable original (tiempo de trabajo en horas), en la figura 14.10 se muestra el resultado
obtenido con el paquete MINITAB (referencia 10) para la prueba F ANOVA de una direc-
ción. Una verificación de la suposición de homogeneidad de varianzas nos indica que
la variabilidad de los datos transformados se ha estabilizado. Esto es, usando un nivel
de significación de O.OS, como
F - (0.2283) 2
máx· - (0.1629)2 = 1.97 < Fmáx [7,57] := 2.26,
Ho: µ¡ =µz =· · ·= µ7
Figura 14. 1O
Resultado obtenido con MINITAB de la prueba FANOVA de una dirección, después de una
transformación de datos de logaritmo natural.
*
*J o
70 ......................................................................................................................................
*
*t
40 ................................................................................................................................
10
l
ID~E
400 cases
Figura 14. 1 1
Resultado obtenido con el paquete STATISTIX donde se muestran las gráficas de caja y sesgos
del ingreso personal, basándose en el nivel de participación percibido en las decisiones
relacionadas con el trabajo.
Para probar las posibles diferencias entre las cuatro medianas de población, se
utilizó el paquete SAS (referencia 12) para efectuar la prueba de rangos de Kruskal-
Wallis. En la figura 14.12 de la página 556 se presenta una parte de lo obtenido con
el paquete, en donde se ilustran los resultados de la prueba. Utilizando un nivel de
significación de O.OS, para probar la hipótesis nula de igualdad en la mediana del
ingreso personal para los cuatro niveles de participación en la toma de decisiones:
Uso de paquetes estadísticos para la evaluación de diferencias entre los e grupos 111
'rhe SAS Bystll!I
11 P A R i WA Y ·P R O C E D ll R 1!
IR1 - Rzl = 1220.9 - 209.ol = 11.9 2.64 (400)(401) (-1- + _1_) = 35.6 No significativo
12 138 157
IR1 - R31 = ¡220.9 - 179.81 = 41.1 2.64 (400)(401) (-1- + __!_) = 47.2 No significativo
12 138 60
IRz - R3 I = 1209.o - 179.s¡ = 29.2 2.64 (400)(401) (-1- + __!_) = 46.3 No significativo
12 157 60
¡.R3 - R4I = ¡179.8 - 135.SI = 44.o 2.64 ( 400)(401) ( __!_ + __!_) = 60.2 No significativo
12 60 45
Los siguientes problemas se refieren a los datos de muestra obtenidos del cues-
tionario de la figura 2.6 de las páginas 28-29 y presentados en la tabla 2.3 de las
páginas 33-40. Deberán ser resueltos con la ayuda de un paquete de computación.
Suponga que usted ha sido contratado como asistente de investigación de Bud
Conley, el vicepresidente de recursos humanos de Industrias Kalosha. Éste le
ha dado una lista de preguntas (véanse problemas 14.18 a 14.30) que él nece-
sita responder antes de su reunión con el representante de B & L Corporation,
la empresa que da asesorías sobre paquetes de prestaciones para los traba-
jadores que ha contratado. Un análisis estadístico confirmatorio, basado en las
respuestas a estas preguntas pertenecientes a las variables numéricas de la
Encuesta de satisfacción de los empleados, le proporcionará un mejor
entendimiento de la composición de la fuerza de trabajo de tiempo completo
de Industrias Kalosha, y le será de utilidad en sus deliberaciones con el repre-
sentante de B & L Corporation con el propósito de desarrollar un paquete de
prestaciones para los empleados.
A partir de las respuestas a las preguntas que tratan sobre variables numéricas
de la Encuesta de satisfacción de los empleados (véanse páginas 33-40) en los
problemas 14.18 a 14.30, y que se dan a continuación,
(a) Obtenga un conjunto de estadísticas descriptivas para cada grupo.
(b) Desarrolle una representación de tallo y hojas para cada grupo.
(c) Trace la gráfica de caja y bigotes para cada grupo.
(d) Desarrolle la gráfica de probabilidad normal para cada grupo.
(e) Basándose en un análisis descriptivo de los resultados del inciso (a) al (d),
respecto a las suposiciones de la prueba F ANOVA de una dirección y a la
prueba de rangos de Kruskal-Wallis, seleccione un procedimiento ade-
cuado y efectúe la prueba de hipótesis al nivel de significación de a = .OS.
(f) r·iiiii'Jl•f·f•P Escriba un memorándum a Bud Conley donde explique su
elección del procedimiento de prueba y los resultados.
14.18 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de trabajo
semanal de los empleados de tiempo completo de Industrias Kalosha (véase pre-
gunta 1), basándose en las características importantes de trabajo (véase pregunta 11)?
14.19 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de trabajo
semanal de los empleados de tiempo completo de Industrias Kalosha (véase pre-
gunta 1), basándose en las percepciones por seguir adelante (véase pregunta 12)?
14.20 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de tra-
bajo semanal de los empleados de tiempo completo de Industrias Kalosha
(véase pregunta 1), basándose en la participación conocida en las decisiones
relacionadas con el trabajo (véase pregunta 21)?
14.21 ¿Existe evidencia de una diferencia en el tiempo promedio (en horas) de tra-
bajo semanal de los empleados de tiempo completo de Industrias Kalosha
(véase pregunta 1), basándose en qué tan orgullosos se sienten por ser parte de
la organización (véase pregunta 23)?
14.22 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en la agrupación ocupacional (véase pregunta 2)?
Uso de paquetes estadísticos para la evaluación de diferencias entre los e grupos 557
14.23 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en las características de trabajo importante (véase pregunta 11)?
14.24 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en las percepciones por ir a la cabeza (véase pregunta 12)?
14.25 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en el avance dentro de la organización (véase pregunta 20)?
14.26 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en la participación conocida en las decisiones relacionadas con el
trabajo (véase pregunta 21)?
14.27 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7),
basándose en qué tan orgulloso se sienten por ser parte de la organización
(véase pregunta 23)?
14.28 ¿Existe evidencia de una diferencia en el ingreso personal promedio de los
empleados de tiempo completo de Industrias Kalosha (véase pregunta 7), basán-
dose en la percepción de la importancia de la escolaridad (véase pregunta 27)?
14.29 ¿Existe evidencia de que hay una diferencia en la antigüedad (es decir, el
tiempo promedio que tienen los trabajadores de tiempo completo de
Industrias Kalosha en el empleo, véase pregunta 16), basándose en la satisfac-
ción con el trabajo (véase pregunta 9)?
14.30 ¿Existe evidencia de una diferencia en la antigüedad en el trabajo (es decir, el
tiempo promedio que tienen los trabajadores de tiempo completo de
Industrias Kalosha en el empleo, véase pregunta 16), basándose en qué tan
orgullosos se sienten por ser parte de la organización (véase pregunta 23)?
14.8. 1 Introducción
Como en la sección 14.4, cuando las mediciones resultantes a través de los e gru-
pos son continuas y se cumplen ciertas suposiciones, puede utilizarse una meto-
dología conocida como análisis de varianza (o ANOVA,) para comparar las medias
de los grupos. En la presente sección ampliaremos nuestro análisis anterior de
ANOVA y el desarrollo de la prueba F de bloque aleatorizado con el fin de eva-
luar las difereneias entre las medias de e grupos.
Recordamos de la figura 14.1 de la página 528, que en el modelo completa-
mente aleatorizado o análisis de varianza de una dirección, la variación total de las
mediciones resultantes (SST) se divide en la variación que es atribuible a las dife-
rencias entre los e grupos (SSA) y la que se debe al azar o se puede atribuir a la
variación inherente dentro de los grupos (SSW). La variación dentro de los grupos
se considera como error experimental, y la variación entre grupos se atribuye a
efectos de tratamiento.
Para el modelo de diseño de bloque aleatorizado, con el objeto de filtrar los
efectos de conformar bloques, necesitamos dividir aún más la variación dentro de
los grupos (SSW) en la variación atribuible a diferencias entre los bloques (SSBL) y
la que se puede atribuir a error aleatorio inherente (SSE). Por consiguiente, como
se presenta en la figura 14.13, en el modelo de diseño de bloque aleatorizado, la
variación total de las mediciones resultantes es la suma de tres componentes: la va-
riación entre grupos (SSA), la variación entre bloques (SSBL) y el error aleatorio
inherente (SSE). ·
Figura 14.1 3
División de la variación
total en un modelo de
Variación aleatoria (SSE) diseño de bloques
aleatorizados.
14.8.l. Desarrollo
Para desarrollar el procedimiento ANOVA respecto al modelo de diseño de bloques
aleatorizados, necesitamos definir los términos que se presentan a continuación:
e r ··
SST=LL(X;¡-x( (14.10)
i=lf=l
e r
LLX;¡
donde.X i = i; = 1 (esto es, la gran gran media o media general)
re
¿x;;
donde x. = .!...:2._(esto
I r
es, el tratamiento de las medias de grupo)
·"-.' ··:..'.
. -~{- =)z
:SSBt..:::,fk .X;./-X, ... · .. J~4;.l2). '
' ¡=1
,,;·,»
(14.13)
Puesto que existen e niveles de tratamiento del factor que está siendo com-
parado, hay e- 1 grados de libertad asociados con la suma de cuadrados entre gru-
pos (SSA). De forma parecida, como se tienen r bloques, hay r - 1 grados de
libertad asociados con la suma de cuadrados entre bloques (SSBL). Además, exis-
ten n - 1 grados de libertad asociados con la suma del total de cuadrados (SST)
porque ~ada observación, X¡¡, se está comparando con la media general o gran
media, X, basándonos en las n observaciones. Por consiguiente, como se deben
sumar los grados de libertad de cada una de las fuentes de variación a los grados
de libertad de la variación total, podemos obtener los correspondientes a la com-
ponente del error de la suma de cuadrados (SSE) mediante sustracción y manipu-
lación algebraica. 4 Los grados de libertad están dados por (r- l)(c - 1)
si cada uno de los componentes de la suma de cuadrados se divide entre los corres-
pondientes grados de libertad asociados, obtendremos los tres términos de varianza o
cuadráticos medios (MSA, MSBL y MSE) necesarios para llevar a cabo el ANOVA:
MSA = SSA .·
· c-1 (l4.14a)
Ho: µ¡ =µ.z = · · · = µe
puede ser probada contra la hipótesis alternativa de que no todas las e medias de
población son iguales:
H 1 : No todas las µ¡ son iguales (con j = 1, 2, ... , e)
mediante el cálculo de la estadística de prueba F:
contra la alternativa:
H 1 : No todas las µ¡. son iguales
F = MSBL (14.16)
MSE
F = MSBL > F
MSE U[r-1,(r-l )(c-1 )]
14.8. 3 Aplicación
Para ilustrar la prueba F de bloques aleatorizados, suponga que la administración
de una cadena de restaurantes de comida rápida que tienen cuatro sucursales en una
cierta área geográfica desea evaluar el servicio en esos restaurantes. El director de
investigación de la cadena contrata a 24 investigadores (estimadores) con experien-
cia variada en evaluaciones en servicio de comida. Después de realizar consultas pre-
liminares, los 24 investigadores son clasificados en seis bloques de cuatro elementos,
basándose en su experiencia sobre evaluación de servicios de comida, de modo que
los cuatro investigadores con mayor experiencia quedan asignados al bloque 1, los
i=lí=d
r = 6, e = 4, n = re = 24
y, según lo establecido
= l, 887 = 78.625
24
Aunque se sugiere con insistencia que se utilice algún paquete de software estadís-
tico (veánse referencias 10, 12 y 13) para determinar los resultados de un experi-
90 +X.s
•
(/)
CI>
e
o
80 •
x fx.1
•
..•
....t....X.4
·oal 70 •
::;:¡
+x.2
~
60
50
Figul"a 14.14
Gráfica de dispersión de las o A B e o
evaluaciones de los servicios prestados
en cuatro restaurantes. Restaurantes
Fuente: Tabla 14.10.
mento de diseño de bloques aleatorizados, con fines ilustrativos, haremos los si-
guientes cálculos:
Utilizando la ecuación (14.10),
e r
SST = L L (X;¡-X) 2 = (70- 78.625)2 + (77 - 78.625) 2 + ... + (86- 78.625) 2
/=li=l
= 2, 295.63
SSA=r t
i = 1
(X,; - X) 2 = 6[ (77.50-78.625) 2 +(66.67 -78.625) 2 + .. ·+(79.33-78.625) 2 ]
= 1,787.46
SSBL=c i
i = 1
(X;.- X) 2 = 4[ (71.75-78.625) 2 +(79.00-78.625) 2 + ... + (82.50-78.625) 2 ]
= 283.38
Utilizando la ecuación (14.13),
e r
SSE = L L (X¡¡ - x.j - xi.+ X) 2 = (70 - 77.50 - 71.75 + 78.625) 2
i = li = 1
+ (77 - 77.50 - 79.00 + 78.625) 2
+
1,787.46 595.820
Entre grupos 4-1= 3 1,787.46 MSA = F=
3 14.986
= 595.820 =-
Figura 14.16
'Regiones de rechazo y de no rechazo para
el,estudio sobre la cadena de restaurantes
d~, comida rápida, al nivel de significación
de 0.05, con 5 y 15 grados de libertad.
' . ·~ ,<!'
} ":' i"
¡? ,,;··;·-·,
'.
' (l~.17)
\ ~. ;, '
Observamos que todos los contrastes, excepto 1X. 1 - X. 4 1, son mayores que el
alcance crítico. Por consiguiente, podemos llegar a la conclusión de que existe evi-
dencia de una diferencia significativa en la asistencia promedio de todas las pare-
jas de restaurantes, excepto para las sucursales A y D. Además, la sucursal C tiene
la mayor asistencia (es decir, es el más preferido) y la sucursal Bes la de menor asis-
tencia (es decir, es la menos preferida).
Así pues, de la tabla 14.11 de la página 565, para el estudio de la cadena de res-
taurantes de comida rápida, tenemos
Esto significa que se necesitarían 1.6 veces más observaciones en cada grupo de
tratamiento en un diseño ANOVA de una dirección para obtener la misma pre-
cisión en la comparación de las medias de los grupos de tratamiento que en el caso
de nuestro diseño de bloques aleatorizados.
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, analice completamente los datos para
determinar si existe evidencia de una diferencia en las estimaciones con-
juntas de las cuatro marcas de café colombiano y, si ése es el caso, cuáles
de las marcas tienen los mayores resultados (es decir, son las mejores).
(c) t·f4ijil"1·1•> Basándose en sus resultados, escriba un borrador para un artículo
que pueda ser enviado al editor de la sección de alimentos del periódico local.
e 14.33 Un investigador médico desea efectuar un experimento para determinar si la
elección de la sustancia de tratamiento afecta el tiempo de coagulación de
plasma (en minutos). Se van a comparar cinco diferentes sustancias que mejo-
ran la coagulación (es decir, tratamientos) y se estudiarán siete pacientes
mujeres que se encuentran en la primera etapa del embarazo. Se tornaron
cinco muestras de sangre a cada paciente y cada una de éstas se asigna
aleatoriamente a cada uno de los cinco tratamientos. Los datos correspondien-
tes al tiempo de coagulación se muestran en la siguiente tabla:
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia en el
tiempo promedio de coagulación de plasma entre las cinco sustancias de
tratamiento?
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar la
sustancia de tratamiento que difiere respecto al tiempo promedio de
coagulación.
(d) Determine la eficiencia relativa del diseño de bloques aleatorizado
respecto al diseñ.o completamente aleatorizado.
(e) f.Aj119!.f.¡,, Escriba un informe para el investigador médico basándose en
los resultados anteriores.
14.34 Una nutrióloga desea comparar tres productos dietéticos bien conocidos.
Basándose en datos correspondientes a gordura (es decir, una función de la
altura y el peso), edad y metabolismo, clasifica a 18 de sus clientes hombres en
seis grupos de tres cada -uno y asigna aleatoriamente a un miembro de cada
grupo a uno de los tres tratamientos dietéticos. Los siguientes datos represen-
tan la cantidad de peso (en libras) perdido por los 18 clientes después de seis
semanas de tratamiento:
Tratamiento dietético
Grupos de clientes 1 2 3
1 10.4 12.1 9.0
2 9.8 14.5 9.6
3 7.3 10.0 9.8
4 7.5 9.9 10.7
5 8.6 14.2 11.1
6 10.7 10.5 10.5
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la
cantidad promedio de peso (en libras) perdido entre los tres tratamientos
dietéticos?
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar los
tratamientos dietéticos que difieren respecto a la pérdida promedio de
peso. (Utilice el nivel a = .OS)
(d) Determine la eficiencia relativa del diseñ.o de bloques aleatorizados
respecto al diseñ.o completamente aleatorizado.
(e) r.r;¡nq¡,z,f,) Escriba un informe que la nutrióloga pueda utilizar en futuras
recomendaciones dietéticas a sus clientes, basándose en los hallazgos de
este estudio.
l·\to significa que se necesitarían 1.6 veces más observaciones en cada grupo de
tratamiento en un diseño ANOVA de una dirección para obtener la misma pre-
cisiún en la comparación de las medias de los grupos de tratamiento que en el caso
dl' nuestro diseño de bloques aleatorizados.
E.B 24 26 25 22
N.B. 27 27 26 24
M.D. 19 22 20 16
M.H. 24 27 25 23
B.]. 22 25 22 21
R.J. 26 27 24 24
B.K. 27 26 22 23
B.M. 25 27 24 21
].S. 22 23 20 19
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, analice completamente los datos para
determinar si existe evidencia de una diferencia en las estimaciones con-
juntas de las cuatro marcas de café colombiano y, si ése es el caso, cuáles
de las marcas tienen los mayores resultados (es decir, son las mejores).
(c) M4il?"1·f•J> Basándose en sus resultados, escriba un borrador para un artículo
que pueda ser enviado al editor de la sección de alimentos del periódico local.
e 14.33 Un investigador médico desea efectuar un experimento para determinar si la
elección de la sustancia de tratamiento afecta el tiempo de coagulación de
plasma (en minutos). Se van a comparar cinco diferentes sustancias que mejo-
ran la coagulación (es decir, tratamientos) y se estudiarán siete pacientes
mujeres que se encuentran en la primera etapa del embarazo. Se tomaron
cinco muestras de sangre a cada paciente y cada una de éstas se asigna
aleatoriamente a cada uno de los cinco tratamientos. Los datos correspondien-
tes al tiempo de coagulación se muestran en la siguiente tabla:
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia en el
tiempo promedio de coagulación de plasma entre las cinco sustancias de
tratamiento?
(e) Si es adecuado, utilice el procedimiento de Tukey para determinar la
sustancia de tratamiento que difiere respecto al tiempo promedio de
coagulación.
(d) Determine la eficiencia relativa del diseño de bloques aleatorizado
respecto al diseño completamente aleatorizado.
(e) t.t;il'J"1·1» Escriba un informe para el investigador médico basándose en
los resultados anteriores.
14.:=!4 Una nutrióloga desea comparar tres productos dietéticos bien conocidos.
Basándose en datos correspondientes a gordura (es decir, una función de la
altura y el peso), edad y metabolismo, clasifica a 18 de sus clientes hombres en
seis grupos de tres cada uno y asigna aleatoriamente a un miembro de cada
grupo a uno de los tres tratamientos dietéticos. Los siguientes datos represen-
tan la cantidad de peso (en libras) perdido por los 18 clientes después de seis
semanas de tratamiento:
Tratamiento dietético
Grupos de clientes 1 2 3
1 10.4 12.1 9.0
2 9.8 14.5 9.6
3 7.3 10.0 9.8
4 7.S 9.9 10.7
5 8.6 14.2 11. l
6 10.7 10.5 10.S
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la
cantidad promedio de peso (en libras) perdido entre los tres tratamientos
dietéticos?
(c) Si es adecuado, utilice el procedimiento de Tukey para determinar los
tratamientos dietéticos que difieren respecto a la pérdida promedio de
peso. (Utilice el nivel a= .OS)
(d) Determine la eficiencia relativa del diseño de bloques aleatorizados
respecto al diseño completamente aleatorizado.
(e) t.f;ii'Jl·t.I» Escriba un informe que la nutrióloga pueda utilizar en futuras
recomendaciones dietéticas a sus clientes, basándose en los hallazgos de
este estudio.
Nivel de Estudio
Miembro Curso de Hachillerato
docente bachillerato avanzado Requisitos
(a) Construya una gráfica o un diagrama apropiado con los datos y describa
cualquier tendencia o relación que se haga evidente entre los grupos de
tratamiento y entre los bloques
(b) Utilizando un nivel de significación ex= .05, ¿Existe alguna evidencia de
una diferencia en las evaluaciones, basándose en el tipo de clase?
(e) Si es apropiado, utilice el procedimiento de Tukey para determinar 4ué
tipos de clases difieren en sus evaluaciones (Utilice el nivel ex= .OS.)
(d) Determine la eficiencia relativa del diseño de bloques aleatorizados con
respecto al diseño completamente aleatorizado.
(e) r·Ai!IJM·f•> Escriba un memorándum que el decano pueda enviar a sus jefes
de departamento tomando en cuenta los resultados de los incisos (b) y (c), y
que les sea de ayuda en la toma de decisiones respecto a reasignación, pro-
moción y/o inamovilidad, basándose en las evaluaciones de la enseñanza.
14.9.1 Introducción
A menudo sucede que, a pesar de que el modelo de diseño de bloques aleatoriza-
dos se considera apropiado para un experimento particular, podemos preferir
alguna alternativa libre de distribución a la prueba F de bloques aleatorizados, para
analizar los datos. Si los datos recolectados se encuentran solamente en forma de
rango dentro de cada bloque o si no se puede suponer la normalidad, se puede uti-
lizar un procedimiento sencillo pero bastante poderoso conocido como prueba
de rango de Friedman.
14.9.2 Desarrollo
La prueba de rangos de Friedman se utiliza principalmente para probar si e grupos
de muestra han sido tomados de poblaciones que tienen medianas iguales. Es
decir, podemos probar la hipótesis
Para desarrollar la prueba, primero sustituimos los datos por sus rangos, en
cada uno de los bloques. Esto es, en cada uno de los r bloques independientes susti-
tuimos las e observaciones por sus correspondientes rangos, de modo que el rango
l es asignado a la observación más pequeña y el rango e a la observación más
grande. Si algunos de los valores del bloque son iguales, se les asigna el promedio
de los rangos que les serían asignados si no hubiera habido empates. Así pues, R;¡
es el rango (de 1 a e) asociado con el j-ésimo grupo (en el que j = 1, 2, ... , e) en el
i-ésimo bloque (con i = 1, 2, ... , r).
Bajo la hipótesis nula de no diferencias en los e grupos, cada asignación de ran-
gos dentro de un bloque es igualmente probable. Así pues, existen e! formas posibles
de asignar rangos dentro de un bloque particular y (e!)' posibles ordenamientos de
rangos sobre los r bloques independientes. Además, si la hipótesis nula es verdadera,
no habría diferencias reales entre los rangos promedio de cada grupo (tomados sobre
los r bloques).
De lo anterior se puede derivar la siguiente estadística de prueba FR:
12 e
---.LR~ - 3r(c + 1) (14.19)
rc(c + 1) i=I ·
en la que
R.f es el cuadrado del total de los rangos para el grupo j (j = 1,
2, ... ,e).
r es el número de bloques independientes.
e es el número de grupos.
A medida que el número de bloques del experimento se hace grande (mayor
que 5), la estadística de prueba FR puede ser aproximada por la distribución chi-
cuadrada, con e - 1 grados de libertad. Así pues, para cualquier nivel elegido de sig-
14.9.3 Aplicación
Para ilustrar la prueba de rangos de Friedman para diferencias en e medianas, regre-
semos a nuestro estudio sobre la cadena de restaurantes de comida rápida de la sec-
ción anterior. Podemos recordar que el director de investigaciones de la cadena
diseñó un experimento de bloques aleatorizados en el cual 24 investigadores fueron
estratificados en seis bloques de cuatro, basándose en la experiencia en evaluación
de servicio de comida, y los cuatro miembros de cada bloque fueron asignados
aleatoriamente para evaluar el servicio en uno de los cuatro restaurantes que posee
la cadena. Los resultados del experimento se presentan en la tabla 14.1 Ode la página
563, junto con algunos cálculos sumarios y una gráfica de dispersión que se mues-
tra en la figura 14.14 de la página 564, de modo que se pueda realizar una evalua-
ción exploratoria visual de las tendencias y las relaciones potenciales, así como de
las violaciones en las suposiciones de los procedimientos de prueba particulares. Si
el director de investigación no desea ha.cer la suposición de que las evaluaciones de
servicio se encuentran distribuidas normalmente en cada restaurante, se puede em-
plear la prueba de rangos de Friedman, libre de distribución, para diferencias en las
cuatro medianas de población.
La hipótesis nula que se va a probar es que las medianas de las evaluaciones de
servicio de los cuatro restaurantes son iguales; la hipótesis alternativa es que al
menos una de las medianas de los restaurantes difiere de las otras. Así pues, susti-
tuyendo 1, 2, 3, 4 por A, B, C, D, tenemos:
H0 : M. 1 = M. 2 = M. 3 = M.4.
H1: No todas las medianas son iguales
.(Í~.20)
•
14.5 + 6 + 24 + 15.5 = ( 6 )( 4 )( 5 )
2
60 = 60
12
FR = (
re e+ 1
) L' R.
1=1
2
1 - 3r(c + 1)
= ( 1~~ ]<1,062.5) - 90
= 106.25 - 90 = 16.25
Puesto que la estadística de prueba FR calculada es mayor que 7.815, el valor crítico
de extremo superior de la distribución chi-cuadrada, con e -1 = 3 grados de liber-
tad (véase tabla E.4), la hipótesis nula puede ser rechazada al nivel de significación
de a= .05. Podemos llegar a la conclusión de que existen diferencias significativas
(percibidas por los estimadores) respecto al servicio prestado en los cuatro restau-
rantes.
Podemos observar que éstos son los mismos resultados que se obtuvieron para
los datos utilizando la prueba F de bloques aleatorizados de la sección 14.8.
Luego calculamos las diferencias R.¡ - R.¡' (en la que j ;t: j') entre todas las
c(c - 1)/2 parejas de rangos promedio. El alcance crítico para el procedimiento de
Nemenyi se obtiene de
(14.21)
en la que, para un nivel seleccionado de significación ex, Qu [e, ooJ es el valor crítico
de extremo superior de una distribución de rangos studentizada (tabla E.12),
con e e = grados de libertad. Podemos recordar que la estadística Q se utilizó tam-
bién en la obtención de los alcances críticos de las comparaciones múltiples que se
realizaron después del rechazo de la hipótesis nula acerca de la igualdad de e
medias tanto en la prueba F ANOVA clásica de una dirección y la prueba F de blo-
ques aleatorizados.
El paso final consiste en comparar cada uno de los c(c - 1)/2 pares de rangos
promedio obtenidos con la ecuación (14.21). Una pareja específica de grupos sería
declarada significativamente diferente si la diferencia absoluta en sus correspon-
dientes rangos promedio es mayor que el alcance crítico.
Para aplicar el procedimiento de Nemenyi a nuestro estu_<;l.io de la cadena de
restaurantes de comida rápida, primero obtenemos los rangos promedio sobre los
cuatro grupos de las correspondientes sumas de rangos dadas en la página 5 72:
Existen (4)(4 -1)/2 = 6 comparaciones por pareja que se deben realizar porque exis-
ten cuatro restaurantes. Las diferencias absolutas de los rangos promedio son
l. IR.1 - R.21 = 12.42 - l.OOI = 1.42
2. IR.1 - R.31 = J2.42 - 4.00J = 1.58
3. JR".1 - R.41 = \2.42 - 2.58\ = 0.16
,. Q c(c + 1)
a1canee cnhco = U[4.-l 12 r
= 3.63
= 1.91
Ejercicio
Característica Ciclismo Calistenia Trote Natación Tenis
Equilibrio 5.0 2.0 4.0 1.0 3.0
Digestión 2.5 1.0 4.5 4.5 2.5
Flexibilidad 1.5 5.0 1.5 4.0 3.0
Definición muscular 4.0 5.0 2.5 2.5 1.0
Resistencia muscular 3.0 1.0 4.5 4.5 2.0
Fortaleza muscular 3.5 3.5 5.0 1.5 1.5
Sueño 3.0 2.0 4.5 4.5 1.0
Estamina 3.0 1.0 4.5 4.5 2.0
Control de peso 4.0 1.0 5.0 2.0 3.0
Equipo
Braves de Cowboys de Bulls de Penguins
Experto Beisbol futbol americano basquetbol de hockey
B.M. 3 2 1 4
L.D. 2 1 3 4
H.C. 1 3 4 2
F.C. 4 1 2 3
T.J. 2 3 1 4
T.A. 1 2 3 4
H.B. 3 1 2 4
H.D. 3 2 1 4
T.D. 3 1 2 4
S.D. 4 2 3 1
Nivel de observación
Conjunto de tercias
(sujetos) Mínimo Moderado Alto
I SS 68 67
II 78 83 84
III 34 53 54
IV 56 67 65
V 79 78 85
VI 20 29 30
VII 68 88 92
VIII 59 58 72
14.1 O. 1 Introducción
En las secciones 14.3 a 14.6 estudiamos el análisis de varianza de una dirección o el
modelo de diseño completamente aleatorizado, y en las secciones 14.7 a 14.9 intro-
dujimos el modelo de diseño de bloques aleatorizados. En la presente sección exten-
deremos nuestro análisis al estudio de un modelo de diseño experimental en el cual
dos factores son de interés. Los dos factores pueden ser diferentes con respecto al nú-
mero de niveles (o grupos) que contengan. Sin embargo, centraremos nuestra aten-
ción solamente en situaciones en las que se tienen tamaños de muestra iguales, n',
para cada combinación de los niveles del factor A con los del factor B. (Véase refe-
rencia 1 para un análisis de los modelos ANOVA con tamaños de muestra diferentes.)
; ,_1.'
.:····· .· '
, .. ·
"
Figura 14.18
División de la variación total de un modelo de diseño factorial
de dos factores.
Í Í fxijk
donde j( = ; = 1 ; = 1 k= 1 (esto es, la gran media o media general
rcn'
e n'
.L _Lxijk
donde X;,.= 1 = 1 k= 1 (esto es, la media de cada nivel del factor A)
en'
' . . e . X} (GT)2
SSFB = rn, '.~
k
(x:, . - X) 2
1=1
-
- Ik=1
"" - -
rn' , rcn'----'"- (14.24)
r n'
I,I,xi,k
-
donde X. 1. = i=lk=I (esto es, la media de cada nivel del factor B)
rn'
· r e . . ..
. St!AB = n~;L _¿ (X1w7.X:1::·-(X:~1.;¡t¡tXJ2 r .• ,
•" 1. =:.l ¡.,,,,, 1 ' . . . ·.
(14~25) •'
: 1:·.1
.·::.:> .·
n' X
donde X11 . = L ~ (esto es, la media de cada celda)
k =1 n
(14,26)
MSAB = SSAB
(r - l)(c - 1) (14.27c)
. MSE
··
=· rc(n'SSE-1) (14.27d).
En el modelo ANOVA de dos factores existen tres pruebas distintas que pueden
llevarse a cabo. Si suponemos que los niveles del factor A y los del factor B fueron
específicamente seleccionados para el análisis (en lugar de ser seleccionados aleato-
riamente de una población de niveles posibles), entonces hubiéramos tenido las
siguientes tres pruebas de hipótesis:
Para probar la hipótesis de no diferencia debida al factor A
F = MSFA , (14.28)
MSE
F _ MSFA F,
- MSE > U[(r-1 ),rc(n'-1)]
formamos la estadística F
F = MSFB (14.29)
· MSE
F _ MSFB R
- MSE > U[(c-1),rc(n'-1)]
H 1 : AB¡¡ ~O
formamos la estadística F
F=•.-·-.
MSÁB (14.30)
. ..MSE
F _ MSAB F:
- MSE > U[(r-l)(c-1),rc(n'-1)]
14. 1 O. 3 Aplicación
Para ilustrar el modelo de diseño factorial de dos factores, suponga que el director
de investigaciones de mercado de una cadena de supermercados está interesado en
el estudio del efecto de la colocación de los estantes sobre la venta de un producto.
Se estudiarían cuatro lugares distintos donde colocar los estantes: colocación nor-
mal (A), colocación adicional en la tienda (B), nueva colocación solamente y un
' X~ (GT) 2
B c-1 L rn' -
i= 1
rcn'
MSFB = SSFB
c-1
F = MSFB
MSE
r e X2 r 2 e XZ 2
~ ~ .......!!:.. _ ~ ~ _ ~ _;. + (GT) MSAB = SSAB F = MSAB
AB (r - l)(c - 1) H~ n' H en' ~ rn' rcn' (r - l)(c - 1) MSE
.
T a bl a 14 14 Vientas semana es por tamano ., d e estantes.
- d e t1en d a y co ocac1on
Tamaño de tienda
Colocación A B e D Totales Medias
de estante
Pequeña 45 56 65 48
so 63 71 53 451 56.375
Mediana 57 69 73 60
65 78 80 57 539 67.375
Grande 70 75 82 71
78 82 89 75 622 77.750
Totales 365 423 460 364 1,612
Medias 60.83 70.50 76.67 60.67 67.167
X2 +
451 2 539 2 622 2 +
;=1
¿
r
i..
en'
- ------
(4)(2)
= 110,100.7s
SSFA = i
; = 1
x¡. -
en'
(GT)z
ren'
= 110,100.75 - 108,272.66 = 1,828.09
Para calcular las varianzas utilizamos las ecuaciones (14.27a) hasta (14.27d).
De la ecuación (14.27a):
De la ecuación (14.27b):
De la ecuación (14.27c):
De la ecuación (14.27d):
Figura 14.10
o 3.49 Fu(3, 12¡ Regiones de rechazo y de no rechazo,
al nivel de significación de .05, con 3 y
12 grados de libertad.
Figura 14.l I
o 3.00 Fu(6.12) Regiones de rechazo y de no rechazo,
al nivel de significación de .OS, con 6 y
12 grados de libertad.
80
70
"'
Q)
Cii 60
e
C1l
E
Q)
"'o 50
'6
Q)
E 40
ee_
$"' 30
e
Q)
>
20
10
o
Pequeño Mediano Grande
Figura 14.22
Ventas promedio semanales, basadas en el tamaño de tienda para
diferentes colocaciones de estantes.
, .
a1canee cntico = Q u 1, 1ri11'-1 JI )MSE
-- (14.31)
, en'
alcance
,.
CflhCO = Qu¡c
. '
rc(n'-1 JI
{··-·-·
MSE
--
r11'
(14.32)
Al igual que en las secciones 14.4.5 y 14.8.4, cada una de las c(c - 1)/2 o r(r - 1)/2
parejas de medias se comparan respecto el alcance crítico apropiado. Una pareja
específica de medias sería declarada significativamente diferente si la diferencia
absoluta en las medias de muestra ( 1X;. - X;' .. 1) para el factor A o 1X.;. - X.¡'. 1 para
el factor B) es mayor a su respectivo alcance crítico.
Para aplicar el procedimiento de Tukey, regresemos a nuestro ejemplo del
supermercado. Respecto al factor/\, puesto que tenemos tres grupos, existen (3)(3
-1)/2 = 3 posibles comparaciones por pares que se deben realizar. De la tabla 14.14
de la página 582, las diferencias medias absolutas son:
l. IX1 .. - X2 I = 156.375 - 67.:usi = 1i.000
2. lx1 .. - x3. I = 156.375 - 77.7so1=21.375
Observamos que todos los contrastes son mayores que el alcance crítico. Por con-
siguiente, podemos llegar a la conclusión de que las tiendas pequeñas, medianas y
grandes difieren entre sí respecto a sus ventas semanales.
En lo que concierne al factor B, puesto que se tienen cuatro grupos, existen
(4)(4 - 1)/2 = 6 posibles comparaciones por parejas que se deben realizar. De la
tabla 14.14 de la página 582, las diferencias medias absolutas son
t. lx 1 - x 2 .I = 160.83 - 70.so1 = 9.67
x.
Observamos que X.i. es diferente de X. 2. (9.67 > 7.95) y 3 . (15.84> 7.95), y X.4 . es
diferente de X. 2. (9.83 > 7.95) y .X. 3.(16 > 7.95). Así pues, podemos llegar a la conclusión
de que la colocación de estantes A (normal) y D (normal más "listones de propaganda")
son, cada uno, diferentes de las colocaciones B (colocación adicional en la tienda) y C
(nueva colocación con "anunciante"). Sin embargo, no existe evidencia de que haya
una dife-rencia entre las colocaciones A y D o entre las colocaciones B y C.
Como observamos en la tabla 14.16, las pruebas para los efectos principales son
distintas, dependiendo del tipo de modelo elegido. Para el modelo de efectos fijos,
las pruebas F implican el cociente de MSFA o MSFB entre MSE. Para el modelo de
efectos aleatorios, las pruebas F (para los efectos principales) implican el cociente
MSFA o MSFB entre MSAB. Para el modelo de efectos mezclados con el factor A fijo
y el factor B aleatorio, la prueba F para el factor A implica el cociente de MSFA entre
MSAB, y la prueba para el factor B implica el cociente de MSFB entre MSE. Para
el modelo fijo con el factor A aleatorio y el factor B fijo, la prueba F para el factor
A implica el cociente de MSFA entre MSE, mientras que la prueba para el factor B
implica el cociente de MSFB entre MSAB.
Marcas de VCR
Centros de servicio A B e
1 52 48 59
57 39 67
2 51 61 58
43 52 64
3 37 44 65
46 50 69
Amplificadores
Receptor A B e D
9 8 8 10
Ri 4 11 7 15
12 16 1 9
7 s o 6
Rz 1 9 1 7
4 6 7 s
Grupo de edad
Tipo de cirugía de rodilla Menos de 30 De 30 a 50 Más de 50
1 4 3
3 3 s
Artroscopía 2 2 2
6 3 3
2 2 3
3 4 4
10 s 8
Artrotomía 6 11 12
7 s 10
8 6 3
Máquina
Operador 11 III
llS 111 109
A 115 108 110
119 114 107
117 105 110
B 114 102 113
114 106 114
109 100 103
e 110 103 102
106 101 105
112 105 108
D 115 107 111
111 107 110
DI
,,:;;n
Procedimientos de
5. e muestras
o
.¡:.
)>
z
o po Cuestiones
~ de éticas
'<
o datas.
....
Ol Véase
-o
"'..., capítulo 15
e:
<1)
o-
"'"'
o._
<1)
('\
1 ~ 1
3
e:
m Diseño Diseño Diseño
...,
'"' ctimpletamente de bloques ·factorial
"'"' aleatorio aleatorio
"o
:i
o._ ; ;
~
o
"'
:i 1 \ 1 1 l 1 \ 1
e:
3<1) • Prueba de Prueba de Prueba Prueba de Modelos fijos,
..., Prueba Sumas
¡:;· 1 •
Hartley para rangos de rangos de Interacción aleatorios y
o FANOVA FANOVA de cuadrados
:homoscedasticidad Kruskal-Wallis Friedman mezclados
"'
1 1
1 1 1 1 1
Comparaciones
múltiples
Juntando todo
TÉRMINOS CLAVE
alcance crítico 537 distribución F 531
aleatoriedad 539 distribución Fmáx 540
análisis de varianza (ANOVA) 527 distribución (Q) de rangos
ANOVA de dos direcciones 577 studentizados 574
a posteriori 537 efectos de interacción 586
bloques 558 efectos principales 586
comparaciones múltiples 537 eficiencia relativa (RE) 567
cuadrados medios 530 error aleatorio inherente (SSE) 561
diseño completamente aleatorizado 527 error experimental 528
diseño de bloques aleatorizados 558 grupos de tratamiento 558
diseño factorial 577 homogeneidad de varianza 539
14.50 f.14ii!li•f·f•J> Escriba una carta a un amigo que no ha tomado ningún curso de
estadística y explíquele de que se trata el presente capítulo. Para resaltar el
contenido del mismo, asegúrese de incorporar sus respuestas a las once pre-
guntas de repaso de la página 595.
14.51 El gerente de ventas al detalle de una cadena de supermercados desea determi-
nar si la colocación de juguetes para mascotas tiene algún efecto sobre la venta
del producto. Se van a considerar tres lugares en pasillo: anterior, en medio y
posterior. Se seleccionó una muestra aleatoria de 18 tiendas y en seis de ellas
fueron asignadas aleatoriamente un lugar en pasillo. El tamaño del área de
exhibición y el precio del producto fueron constantes en todas las tiendas. Al
final de un periodo de prueba de una semana, el volumen de ventas (en miles
de dólares) del producto en cada tienda fue el siguiente:
Colocación en pasillo
Anterior En medio Posterior
8.6 2.0 4.6
7.2 3.2 2.8
5.4 2.4 6.0
4.0 1.8 2.2
5.0 1.4 2.8
6.2 1.6 4.0
Altura en estante
Colocación Superior En medio Inferior
en pasillo
Anterior 8.6 6.2 s.o
7.2 5.4 4.0
En medio 3.2 2.0 1.8
2.4 1.4 1.6
Posterior 6.0 4.0 2.8
4.6 2.8 2.2
Vino
Catador 1 2 3 4 5 6 7 8
A 10 17 15 '9 12 6 15 9
B 9 14 11 s 16 2 15 7
e 10 18 10 5 18 5 10 10
D 9 11 13 10 17 11 14 9
E 10 16 12 8 18 8 10 10
F 6 16 3 8 4 2 2 5
G 9 12 14 9 9 6 6 5
H 7 12 11 8 15 9 12 8
1 10 18 12 12 16 10 10 16
J 16 9 10 13 18 11 15 14
K 14 16 13 12 15 15 17 11
L 15 17 10 13 15 16 16 13
'
(d) Basándose en los resultados obtenidos en el inciso (c)
(1) ¿Piensa usted que el país de origen ha tenido un efecto sobre los resul
tactos?
(2) ¿Piensa que el tipo de vino (tinto contra blanco) ha tenido algún
efecto sobre los resultados? Explique ampliamente su respuesta.
(e) Determine la eficiencia relativa del diseño de bloques aleatorizados en
comparación con el diseño completamente aleatorizado.
Proyectos de minicasos de
aprendizaje colaborativo
Para cada uno de los siguientes, refiérase a las instrucciones de.la página 101 .
CL 14.1 Refiérase al CL 3.2 de la página 101, CL 4.2 de la página 165 y al CLS.2 de la
página 199. Su grupo la empresa ha sido contratada por el edi-
tor de la sección de alimentos de una popular revista familiar para estudiar el
costo y las características de los cereales listos para comer. Armados con el
Conjunto especial de datos 2 del apéndice D de las páginas D-6 y D-7, la
empresa desea determinar si existe evidencia de una diferen-
cia en el costo promedio por ración de cereales listos para servirse, basándose
en la clasificación en alto contenido de fibra o bajo contenido de fibra.
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el cual se especifiquen clara-
mente todas las hipótesis, niveles elegidos de significación y las suposi-
ciones de los procedimientos de prueba escogidos.
(c) Prepare y realice una presentación oral de cinco minutos al editor de la
sección de alimentos de la revista.
CL 14.2 Refiérase al CL 3.3 de la página 102, CL 4.3 de la página 165 y al CL 5.3 de la
página 199. Su grupo, la empresa , ha sido contratada por el direc-
tor de comercialización de una fábrica de fragancias bien conocidas para hom-
bre y mujer, para estudiar las características de las fragancia actualmente
disponibles. Armados con el Conjunto especial de datos 3 del apéndice D de
las páginas D8 y D9, la empresa desea determinar si existe evi-
dencia de una diferencia en el costo promedio por onza, basándose en la
intensidad (muy fuerte, fuerte, medio, ligero).
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el cual se especifiquen clara-
mente todas las hipótesis, niveles elegidos de significación y las suposi-
ciones de los procedimientos de prueba escogidos.
(c) Prepare y realice una presentación oral de cinco minutos al director de
comercialización.
CL 14.3 Refiérase al CL 3.4 de la página 102, al CL 4.4 de la página 166 y al CL 5.4 de la
página 200. Su grupo, la empresa ha sido contratada por el editor
de la sección de viajes de un famoso periódico, quien está preparando un
artículo principal sobre cámaras compactas de 35 mm. Armados con el
Conjunto especial de datos 4 del apéndice D de las páginas D-10 y D-11, la
empresa desea determinar si existe evidencia de una diferencia en
la precisión promedio de encuadre basándose en el tipo de cámara de 35 mm.
(a) Analice completamente los datos.
(b) Escriba y entregue un resumen ejecutivo en el cual se especifiquen clara-
mente todas las hipótesis, niveles elegidos de significación y las suposi-
ciones de los procedimientos de prueba escogidos.
(c) Prepare y realice una presentación oral de cinco minutos al editor de la
sección de viajes.
Extremadamente Extremadamente
mala Neutral buena
Apariencia 2 3 4 5 6 7
Durabilidad 1 2 3 4 5 6 7
Desempeño en escritura 1 2 3 4 5 6 7
No tas finales
l. En algunas ocasiones la variación entre grupos se conoce y como n = re, haciendo un poco de álgebra tenemos:
como variación entre dos grupos. En tales situaciones, la n - 1 - (e - 1) - (r - 1) = re - 1 - e+ 1 - r + 1
suma de los términos cuadráticos se conoce como suma
de cuadrados entre grupos o SSB (por sus siglas Sum of =rc-c-r+l
Squares Between). = (r - l)(c - 1)
2. Además de este análisis exploratorio de datos, se debería 5. En esencia, en un modelo de diseño de bloques aleatori-
contemplar un planteamiento más confirmativo para zado, los bloques no tienen la misma posición que un fac-
examinar las suposiciones de un procedimiento de prueba tor. En la sección 14.10 veremos que cuando los bloques
particular, antes de decidir si el procedimiento es viable son considerados con la importancia suficiente para cons-
para un conjunto de datos dado. Para la prueba F ANOVA tituir un segundo factor, el diseño se conoce como mode-
de una dirección, las principales suposiciones son que los lo factorial de dos factores, y la prueba del efecto de cada
datos de muestra de cada grupo son tomados de maneras factor sería, potencialmente, importante.
aleatoria e independiente de una población subyacente 6. Tomaremos en consideración el caso general en el que se
normal, y que estas poblaciones tienen igual variabilidad tienen n' observaciones para cada combinación del factor
(véanse figuras 14.2 y 14.3 de las páginas 528 y 529). Para A y el factor B (es decir, cada celda). Si hay sólo una obser-
probar la condición de normalidad véase la referencia 2. vación por celda, la notación del modelo de diseño de
Para probar la igualdad de las varianzas de las pobla- bloques aleatorizados puede utilizarse con los bloques
ciones, en la sección 14.4.7 se presenta un procedimiento considerados como un segundo factor de interés.
desarrollado por H. O. Hartley.
7. Los grados de libertad asociados con la componente de
3. Puesto que c(c - 1)/2 combinaciones por parejas se reali- interacción (SSAB) se encuentran mediante sustracción:
zan de manera simultánea, es necesario ajustar el área de
extremo superior bajo la curva de distribución normal n - 1 - (e - 1) - (r - 1) - rc(n' - 1)
estándar con el fin de obtener el valor crítico Zu adecuado y, como n = rcn', haciendo un poco de álgebra tenernos
que permita que el alcance crítico calculado mantenga un n-l-(c-1)-(r-l)-rc(n' - l)=rcn'-1-c+l-r+l-rcn'+rc
nivel general de significación a, a través del experimento
(véanse referencias 3 y 6). =rc-c-r+l
4. Los grados de libertad asociados con la componente de = (r - l)(c - 1)
suma de errores cuadrados (SSE) se encuentran mediante
sustracción:
n - 1 - (e - 1) - (r- 1)
Notas finales 60 3
Referencias
l. Berenson, M. L., D. M. Levine y M. Golsdstein, 8. Microsoft Exce/ for Windows: Step by Step (Redmond, WA:
Intermediate Statistica/ Metlwds a11d Applications: A Microsoft Press, 1993).
Computer Package Approach (Englcwood Cliffs, NJ: 9. Miller, R. G., Simultaneous Statistical Inference, Za. ed.
Prentice Hall, 1983). (Nueva York: Springer-Verlag, 1980).
Z. Conover, W.]., Practica/ Nonparametric Statistics, Za. ed. 10. MINITAB Reference Manual Release 8 (State College, PA:
(Nueva York: Wiley, 1980). Minitab, Inc., 1992).
3. Daniel, W. W., Applic'cl No11pamrnetric Statistics, Za. ed. 11. Nieter, ]., W. Wasserman y M.H. Kutner, Applied Linear
(Boston, MA: PWS Kl•nt, 1990). Statistical Model, 3a. ed. (Homewood, IL: Richard D.
4. Dunn, O.]., "Multiple Comparisons Using Rank Sums", Irwin, 1990).
Technometrics, 1964, vol. 6, págs. 241-ZSZ. IZ. SAS User's Cuide Version 6 (Raleigh, NC: SAS Institute,
S. Hicks, C. R., P1111tl11111,•11tal Concepts in the Design of 1988).
Experiments, :fa. l'd. (Nueva York: Holt, Rinehart and 13. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
Winston, 198Z). Software, !ne., 1992).
6. Kirk, R. E. Exp!'ri111m/a/ Vesign, Za. ed. (Belmont, CA: 14. Tukey,]. W., "Comparing Individual Meaos in the
Brooks-( :oll', 1982). Analysis of Variance", Biometrics, 1949, vol. 5, págs. 99-
7. Kraml'I', C. Y., "Exlcnsion of Multiple Range Tests to 114.
Group Ml•ans wilh Unequal Numbers of Replications",
Bio111C'lrics, 1'JS<i, vol. lZ, págs. 307-310.
605
1ij1 Introducción
El análisis de datos categóricos con propósitos de toma de decisiones es de vital
importancia en la investigación financiera, médica y de las ciencias sociales. Al efec-
tuar una encuesta, por ejemplo, las preguntas se redactan, a menudo, de manera
que se den respuestas categóricas, en lugar de respuestas numéricas. En los cuatro
capítulos anteriores nos interesamos por los procedimientos de prueba de hipótesis
que se utilizan cuando se analizan datos numéricos. En los capítulos 11 y 12 se pre-
sentan varias pruebas de una muestra, en el capítulo 13 se describieron varias prue-
bas de dos muestras y en el capítulo 14 se desarrollaron algunas pruebas de e
muestras. En el presente capítulo ampliaremos nuestro estudio de la metodología
de prueba de hipótesis con el propósito de considerar procedimientos que se uti-
lizan cuando se analizan datos categóricos. Empezaremos por enfocar nuestra aten-
ción a situaciones en las que se toma una sola muestra que contiene datos
categóricos, y centraremos nuestro interés en la prueba de una hipótesis con-
cerniente a un valor específico de una porción de población. A esto le seguirán situa-
ciones descriptivas respecto al análisis de diferencias en porciones de población,
basadas en dos muestras independientes, dos muestras relacionadas y en e muestras
independientes. Además, extenderemos nuestros análisis anteriores sobre teoría de
probabilidad, dados en las secciones 6. 7 y 6.8, mediante la presentación de un análi-
sis confirmatorio más formal de la hipótesis de independencia en las respuestas con-
juntas de dos variables categóricas. De nuevo, en el presente capítulo pondremos
énfasis en las premisas que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de:
l. Saber cuándo y cómo utilizar la prueba Z para la porción de población p.
2. Saber cuándo y cómo utilizar la prueba Z para examinar posibles
diferencias en las porciones de dos poblaciones independientes.
3. Saber cuándo y cómo utilizar la prueba x 2 para examinar posibles
diferencias en las porciones de dos poblaciones independientes.
4. Entender las similitudes y las diferencias entre las pruebas Z y x2 para
diferencias en porciones de población.
5. Saber cuándo y cómo utilizar la prueba x 2 para examinar posibles
diferencias en las porciones de e poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba x 2 para la independencia de
las respuestas conjuntas de dos variables categóricas.
7. Saber cuándo y cómo utilizar la prueba de McNemar para una posible
diferencia en las porciones de dos poblaciones relacionadas.
.z ~ . Ps - P
··~p(l;p)
en la que
X número de sucesos en la muestra
Ps = - = _ d = proporción de sucesos observados
n tamano e 1a muestra
p = proporción de sucesos de la hipótesis nula
La estadística de prueba Z, está distribuida de manera aproximadamente normal.
Alternativamente, en lugar de examinar la proporción de éxitos de una muestra,
como en la ecuación (15.1), podemos tener la intención de estudiar el número de
éxitos de una muestra. La estadística de prueba Z para determinar la magnitud de
la diferencia entre el número de éxitos de una muestra y el número supuesto o
esperado de éxitos de una población se presenta en la ecuación (15.2)
z - .X - np
.= "'~n=p=(l=-==p=) (15.2)
15.2.2 Aplicación
Para ilustrar el uso de la prueba Z (de una muestra) para una porción supuesta,
regresemos al ejemplo de llenado de cajas de cereal analizado en los capítulos 9 a
11. El gerente de producción también está preocupado por el proceso de sellado de
las cajas llenas. Cuando el paquete que se coloca dentro de la caja está lleno, se
supone que éste se sella de modo que queda hermético. Basándose en experiencias
anteriores, sin embargo, se sabe que uno de cada diez paquetes (es decir el 10 % o
0.10) no cumplen con las normas del sellado y deben "volverse a trabajar" para que
puedan pasar la inspección. Para modificar esta situación, suponga que el gerente
de producción instrumenta, de manera tentativa, un sistema de empacado que se
acaba de desarrollar. Después de un periodo de prueba de un día, el gerente toma
H 1: p < .10
Figura 15.1
Prueba de un extremo de la
hipótesis de una porción al nivel
de significación de O.OS.
11
Ps = - = .oss
200
Figura 1S.2
determinación del valor de fl
para una prueba de un extremo.
15.J. I Introducción
A menudo, un investigador está preocupado por hacer comparaciones y analizar
diferencias entre dos poblaciones en términos de alguna característica categórica.
Se puede llevar a cabo una prueba de la diferencia entre dos porciones basándose
en muestras independientes utilizando dos métodos diferentes. En la presente sec-
ción presentamos un procedimiento cuya estadística de prueba Z, es aproximada
por una distribución normal estándar. En la sección 15.4 desarrollaremos un pro-
cedimiento cuya estadística de prueba x2, es aproximada por una distribución chi-
cuadrada con un grado de libertad. Los resultados serán equivalentes.
1 5.J.2 Desarrollo
Cuando se evalúan diferencias entre dos porciones basándose en muestras inde-
pendientes, se puede emplear una prueba Z. La estadística de prueba Z utilizada
para determinar la diferencia entre dos porciones de población está basada en la
diferencia entre las dos porciones de muestra <Psi - p52 ). Debido al teorema del lí-
mite central analizado en la sección 9.2, esta estadística de prueba puede ser
aproximada por una distribución normal estándar para muestras de tamaño sufi-
ciente grande. Como se muestra en la ecuación (15.3), la estadística de prueba Z es
con
H1: P1 * Pz
podemos utilizar la estadística de prueba Z, dada por la ecuación (15.3) y, para un
nivel dado de significación, ex, rechazaríamos la hipótesis nula si la estadística de
prueba Z calculada es mayor que el valor crítico de extremo superior de la distribu-
ción normal estándar o si la estadística de prueba calculada es menor que el valor
crítico de extremo inferior de la distribución normal estándar.
15.3.3 Aplicación
Para ilustrar el uso de la prueba Z en cuanto a la homogeneidad de dos porciones,
suponga que un director de personal se encuentra investigando la consideración de
los empleados sobre la justicia de dos diferentes métodos de evaluación de su
desempeño en el trabajo. Para probar las diferencias entre los dos métodos se asig-
naron, de manera aleatoria, 160 empleados para ser evaluados con uno de los mé-
todos. Un total de 78 empleados fueron asignados para ser evaluados con el método
1, que permite a los sujetos proporcionar una retroalimentación a los requerimien-
Psi = ~
n = 63 = .808
78 Ps 2 =
X2
-¡¡-- =
49
82 = .598
1 2
63 + 49 = 112 = .70
78 + 82 160
de modo que
z = -;:::==·=80=8=-=·5=9=8==
1 1 )
(.70)(. 30) ( 78 + 82
.210
(.2100)( 160 )
6,396
.210
'1.005253
= ·210 = +2.90
.0725
i 11 i x
Prueba 2 para diferencias entre dos
porciones (muestras independientes)
1 5 .4. 1 Introducción
En la sección anterior describimos la prueba Z para la diferencia entre dos por-
ciones basada en muestras independientes. En lugar de comparar directamente
porciones de éxitos, en la presente sección observaremos los datos en términos de
la frecuencia de éxitos en dos grupos. Desarrollaremos un procedimiento cuya
estadística de prueba x2 es aproximada por una distribución chi-cuadrada con un
grado de libertad. Los resultados obtenidos al emplear la prueba x2 son, a excep-
ción de posibles errores de redondeo, equivalentes a los obtenidos al utilizar la
prueba Z de la sección 15.3.
1 5 .4 • .2 Desarrollo
Si se tiene el interés de comparar los registros o cuentas de respuestas categóricas
entre dos grupos independientes, se puede desarrollar una tabla de clasifica-
ciones cruzadas de dos direcciones (véase sección 5.5) para mostrar la frecuen-
cia de presentación de éxitos y fracasos para cada grupo. A esta tabla también se le
conoce como tabla de contingencias, que, como podemos recordar, fue uti-
Ho: P1 =Pz
contra la hipótesis alternativa de que las dos porciones de población son di-
ferentes:
H¡: P1 *-Pz
•
1
'(15.4).
(lS.5).,
'i , ,.J.,
',,·i·I
Figura 15.4
Prueba de una hipótesis para la
diferencia entre dos porciones,
utilizando la prueba x2 •
15.4.3 Aplicación
A fin de ilustrar el uso de la prueba x2 para la homogeneidad de dos porciones,
volvamos de nuevo nuestra atención al estudio de la evaluación del desempeño
efectuado por el director de personal. Los resultados se presentaron en la tabla 15.3
de la página 617.
La hipótesis nula (H0 : p1 = p2) establece que, cuando se comparan dos métodos
de evaluación de desempeño en el trabajo, no existe diferencia en la porción de
empleados con respecto a su percepción de justicia del método. Utilizando la
ecuación (15.5) de la página 618, podemos estimar el parámetro común p, la por-
ción verdadera de empleados que creen que tales métodos de evaluación son jus-
tos. Esto es, p, la porción general o promedio de empleados que piensan que los
métodos son justos, se calcula como
(X1 + X2) X
p=
(n1 + nz) n
(63 + 49) 112
(78 + 82)
= 160
= .70
La porción estimada de empleados que no creen que los métodos de evaluación
sean justos es el complemento, (1-p), o .30. Al multiplicar estas dos porciones por
el tamaño de muestra utilizado para el método de evaluación de desempeño 1, se
obtiene el número esperado de empleados que perciben sus evaluaciones como jus-
tas y el número esperado de los que no las consideran justas. De manera parecida,
al multiplicar las dos porciones respectivas por el tamaño de muestra utilizado para
el método de evaluación 2, se obtienen las correspondientes frecuencias esperadas
para ese grupo. Todas estas frecuencias esperadas se presentan en la t.abla 15.4,
junto a las correspondientes frecuencias observadas que presentamos anterior-
mente en la tabla 15.3.
Ho: P1 =P2
utilizamos los datos reales y los esperados de la tabla 15.4 para calcular la estadística
de prueba x2 dada por la ecuación (15.4). Los cálculos se presentan en la tabla 15.5.
Tabla 15.6 Obtención del valor crítico de la distribución chi-cuadrada con un grado de libertad, utilizando el
nivel de significación de .O 1.
Grados Área de extremo superior (a)
de
Libertad .995 .99 .975 .95 .os .025 .01 .005
1
2 0.010 0.020
0.001
0.051
O.Mi:t
0.103
3.841
5.991
5.0221:
7.378
" 6.635
9.210
7.879
10.597
3 0.072 0.115 0.216 0.352 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 11.071 12.833 15.086 16.750
más extremoso si la hipótesis nula fuera verdadera. Siempre que tengamos pre-
sente tal valor p en el resultado de computadora no necesitaremos el valor crítico
de la estadística de prueba para tomar nuestra decisión. Simplemente podemos
comparar el valor de p obtenido con nuestro nivel seleccionado de significación,
a. Si el valor p es menor que a, la hipótesis nula es rechazada; si el valor p es mayor
que a, entonces la H 0 no es rechazada. En nuestro estudio de evaluación de desem-
peño en el trabajo, puesto que el valor de pes de .0038 (obtenido con el paquete
de software estadístico STATISTIX), y es menor que a= .01, la hipótesis nula es rec-
hazada. Existe evidencia de una diferencia en las dos porciones. Los empleados
encuentran el método 1 (retroalimentación de los empleados) más justo que el
método 2 (consideraciones propias).
• Advertencia Para que la prueba arroje resultados precisos, la prueba x2
para tablas 2 x 2 supone que cada frecuencia esperada es al menos cinco. Si no se
satisface tal suposición, se pueden utilizar otros procedimientos, como la prueba
exacta de Fisher (véase referencia 2).
Ho: P1 = Pz
Ho: P1 = Pz = · · · =Pe
x2 = I <to - r.>2
todas las celdas fe
en la que fo es la frecuencia observada o registro real que se encuentra en una celda
particular de una tabla de contingencias de 2 x e, y fe es el registro teórico o frecuen-
cia esperada en una celda en particular si la hipótesis nula fuera verdadera.
Para calcular la frecuencia esperada (fe) en una celda, debemos darnos cuenta de
que si la hipótesis nula fuera verdadera y las porciones iguales en las e poblaciones,
entonces las e porciones de muestra deberían diferir entre sí sólo por casualidad, ya
que cada una estaría proporcionando estimaciones del parámetro de población
común p. En tal situación, una estadística que agrupara o combinara estas e estima-
ciones separadas en uha estimación general o promedio del parámetro de población
p proporcionaría más información que cualquiera de las e estimaciones separadas por
sí sola. Desarrollando la ecuación (15.5) de la página 618, la estadística p representa
la porción global o promedio sobre los e grupos combinados:
Para obtener la frecuencia esperada lfe) en cada celda del primer renglón de la
tabla de contingencias, multiplicamos cada tamaño de muestra respectivo (o total de
columna) por p. Para obtener la frecuencia esperada lfe) en cada celda del segundo
renglón de la tabla de contingencias, multiplicamos cada tamaño de muestra respec-
tivo (o total de columna) por (1 - p). La estadística de prueba presentada en la
ecuación (15.4) sigue aproximadamente una distribución chi-cuadrada con los gra-
dos de libertad igual al número de renglones de la tabla de contingencias menos uno
por el número de columnas de la tabla de contingencias menos uno. Para una tabla
de contingencias de 2 x e se tienen e - 1 grados de libertad; esto es
Figura 15.G
o x~c-1) Prueba de las diferencias entre e
porciones utilizando la prueba x2 •
Para que la prueba x2 arroje resultados precisos cuando se tiene una tabla de
contingencia de 2 x e, todas las frecuencias esperadas deben ser grandes. En tales
situaciones, se ha dado bastante discusión entre los estadísticos acerca de la defini-
ción de "grande". Algunos investigadores en estadística (véase referencia 4) han
encontrado que la prueba da resultados precisos siempre y cuando todas las fre-
cuencias esperadas sean mayores o iguales a .5. Otros estadísticos, más conser-
vadores en sus planteamientos, pondrían como requisito que no más de 20% de
las celdas contengan frecuencias esperadas menores que 5 y que ninguna celda
tenga frecuencias esperadas menores que uno (véase referencia 3). Nosotros suge-
rimos que un compromiso razonable entre estos dos puntos de vista consiste en
asegurarse que todas las frecuencias esperadas son de al menos uno. Para llevar a
cabo esto, puede ser necesario unificar dos o más categorías de frecuentia baja en
nuestra tabla de contingencias, antes de efectuar la prueba. Tal fusión de categorías
por lo general trae como resultado frecuencias esperadas lo suficientemente gran-
des como para realizar la prueba x2 de manera precisa. Si la combinación o agru-
1 S.5.1 Aplicación
Para ilustrar la prueba x2 considerando la igualdad o la homogeneidad de porciones
cuando existen más de dos grupos, supongamos que una compañía constructora de
bienes raíces acaba de recibir la aprobación del ayuntamiento para fraccionar un
terreno que tendrá 40,000 departamentos destinados a vivienda. Entre los numerosos
elementos que se necesitan instalar en cada departamento es una caja interruptora de
electricidad que debe colocarse en la cocina. Varios fabricantes producen tales cir-
cuitos y la compañía constructora desea contratar solamente a uno de estos provee-
dores. De las especificaciones arquitectónicas y de ingeniería del diseño del
fraccionamiento aprobadas para este proyecto, es necesario que la caja interruptora
sea capaz de tolerar un nivel estipulado de corriente sin que funcione mal, con el fin
de que pueda ser considerada para su instalación. Cinco proveedores de cajas
interruptoras de circuito eléctrico que han hecho la solicitud para obtener el contrato
afirman que sus productos cumplirán con el requerimiento actual estipulado y han
pasado la primera etapa de la competencia por el contrato. Sin embargo, como la caja
interruptora es un producto relativamente barato y los precios ofrecidos por los cinco
proveedores al solicitar el contrato son muy parecidos, el director de la compañía
constructora decide diseñar un experimento para evaluar la capacidad de cada una de
las cajas competidoras. Se obtuvieron muestras aleatorias de 400 cajas de cada provee-
dor y se les sujetó a una prueba de corriente de pico (esto es, una corriente mayor del
nivel estipulado). En la tabla 15.7 se presenta, para cada uno de los productos de los
cinco proveedores, el número de cajas que funcionaron mal (es decir, al menos uno
de los interruptores no fue capaz de regresar a un funcionamiento adecuado) durante
la prueba y el número de cajas que siguieron funcionando adecuadamente bajo la
condición de corriente de pico.
Bajo la hipótesis nula de no diferencias entre los productos de los cinco pro-
veedores respecto a la porción de cajas que funcionan mal o que no cumplen con
el requisito, podemos utilizar la ecuación 15.Sa para calcular una estimación del
parámetro común p, la porción de población de cajas interruptoras que funcionan
mal. Esto es, p, la porción general o promedio de cajas que funcionan mal tomada
respecto a los cinco proveedores competidores, se calcula como:
- (X + X +···+X,) X
p = ~~~~~~~~-
1 2
=
(n 1 +n 2 +··· +n,) n
contra la hipótesis alternativa de que no todas las cinco porciones son iguales
utilizamos los datos observados y los esperados de las tablas 15.7 y 15.8 para cal-
cular la estadística de prueba x2 dada por la ecuación (15.4). Los cálculos se pre-
sentan en la tabla 15.9.
Figura IS.7
Prueba de la igualdad de cinco 2 .·.
porciones, al nivel de significación de XU(4) .
O.O 1 y con 4 grados de libertad.
(15.6)
X1 92 = .230
Ps, =
400
ni
pSz - Xz - 66
- -
n - 400 = .167
2
X3 94 = .235
Ps 3 = - .=
n3 400
X4
pS4 -
-
-
n -- 144 400
= .360
4
Xs
Pss = n 5
=
104 = .260
400
.40
.9
e:
Q)
·e
«!
e: .30
o
·a
.e:
.a P.
(ij
E.•
e: .20
8 :
:a
-~
Q)
'.O ,10
e: '
..,. .. .,
:Q '
!:? Figura IS.8
o
o.. Comparación de la
o porción de cajas
1 2 3 4 ·5 interruptoras de circuito
Diversos tipos de cajas de interruptores'ae c!rc'\liM$ ·· eléctrico que funcionan
mal proporcionadas por
cinco productores.
x
Prueba 2 para diferencias entre e porciones (muestras independientes) 629
diferencias absolutas de las porciones y sus correspondientes alcances críti-
cos:
(.230)(.770) + (.167)(.833)
1Ps, - Ps, 1=1.230 - .1671 = .063 3.644 = .102
400 400
(.230)(.770) + (.23S)(.76S)
1p,1 - p,, 1=1.230 - .2351 = .005 3.644 = .109
400 400
(.235)(.765) + (.360)(.640)
1 P,, - p,. 1= l.235 - .3601 = .125 3.644 = .117
400 400
(.235)(.765) (.260)(.740)
1p,, - P,, 1= l.23S - .2601 = .025 3.644 = .111
400 + 400
Régimen de medicina
Resultado A B e D Totales
Medios
Habilidad recordada Revista TV Radio Totales
Número de personas que recuerdan el anuncio 25 10 7 42
Número de personas que no recuerdan el anuncio 73 93 108 274
Totales 98 103 115 316
Tipo de residencia
¿Contratará servicio Una sola De dos a cuatro Edificio de
de TV por cable? Familia Familias departamentos Totales
Si 94 39 77 210
No 56 36 98 190
Totales ~ 75 175 450
1 S .6. 1 Introducción
Acabamos de ver cómo la prueba x2 puede ser utilizada para evaluar diferencias
potenciales entre la porción de éxitos en cualquier número de poblaciones. Para
una tabla de contingencias que tiene r renglones y e columnas, la prueba x2 puede
generalizarse como una prueba de independencia. En estas situaciones, deberemos
ser capaces de extender nuestros análisis anteriores sobre las reglas de probabi!i-
15.6.2 Desarrollo
Como prueba de independencia, las hipótesis nula y alternativa serían:
H0 : Las dos variables categóricas son independientes
(es decir, no hay relación entre ellas).
H1 : Las dos variables categóricas están relacionadas
(es decir, son dependientes).
Y de nueva cuenta utilizamos la ecuación (15.4) y calculamos la estadística de
prueba
Xz = L (fo - fe) 2
todas las celdas fe
Prueba x2 de independencia 63 3
1 5 .6. J Aplicación
Para ilustrar la prueba x2 de independencia, supongamos que se ha realizado una
encuesta por parte de una sucursal, situada en el Condado de Nassau (en Nueva
York, Estados Unidos), de una cadena que opera a nivel nacional oficinas de corre-
taje inmobiliario, con el propósito de conseguir un perfil de las casas de una sola
familia en algunas comunidades vecinas. Una cuestión de interés para el gerente
de la sucursal y que surge al hacer el perfil de las casas situadas en el centro del
Condado de Nassau es la determinación de si existe alguna relación entre el estilo
arquitectónico (casa de campo, rancho ampliado, casa colonial, rancho, casa con
niveles divididos) y la localización geográfica (East Meadow, Farmingdale y
Levittown). Utilizando los archivos de la Oficina Estadounidense de Censo,
Encuesta de casas actuales, se selecciona una muestra aleatoria de n = 233 casas de
una sola familia y se obtiene un registro de una dirección para cada combinación
de estilo arquitectónico y localización geográfica. La tabla de contingencias de 5 x
3 se presenta en la tabla 15 .1 O.
xz = :L <rº - t.)2
todas las celdas f.
x
Prueba 2 de independencia 63 5
Una forma más sencilla de calcular las frecuencias esperadas y que no
requiere el cálculo de probabilidades es
Los demás valores de fe pueden obtenerse de manera parecida (véase la tabla 15.11
en la página 635).
La estadística de prueba mostrada en la ecuación (15.4) sigue, aproximada-
mente, una distribución chi-cuadrada con los grados de libertad igual al número
de renglones de la tabla de contingencia menos uno por el número de columnas
de la tabla de contingencias menos uno. Para una tabla de contingencias de r x e
se tienen (r - l)(c - 1) grados de libertad; esto es:
Figura 15.1 O
Prueba de independencia entre el
estilo de casa y la localización
o 15.507 X~e) geográfica, al nivel de significación
de .OS y con 8 grados de libertad.
Prueba x2 de Independencia 6 37
das esperadas sean "grandes". Se pueden utilizar las mismas reglas sugeridas para
el empleo de la prueba x2 en el caso de las tablas de contingencias de 2 x e de la
página 625. De nuevo, sugerimos que todas las frecuencias esperadas sean de al
menos uno. En casos en los que una o más frecuencias esperadas sean menores que
uno, la prueba puede llevarse a cabo después de unificar dos o más categorías de
renglón de baja frecuencia o después de combinar dos o más categorías de columna
de baja frecuencia. Esta fusión de categorías de renglón o de columna, por lo gene-
ral, tendrá como resultado frecuencias esperadas lo suficiente grandes para poder
realizar la prueba x2 con precisión.
Deporte
Grupo de edad Beisbol Futbol Basquetbol Hockey Totales
Menor 20 26 47 41 36 150
20-29 38 84 80 48 250
30-39 72 68 38 22 200
40-49 96 48 30 26 200
50 y mayores 134 44 18 4 200
Totales 366 291 207 Llr- 1,000
Preferencia de automóvil
Residencia GM Ford Chrysler Europeo Asiático Totales
Ciudad grande 64 40 26 8 62 200
Suburbio 53 35 24 6 32 150
Rural 53 45 30 6 16 150
Totales 170 120 80 20 ~ 500
(a) ¿Existe evidencia de que los números tomados estaban relacionados con
el tiempo del añ.o? (Utilice el nivel a= .05.)
'
(b) ¿Llegaría usted a la conclusión que la selecdón mediante la lotería parece
ser aleatoria?
(c) Calcule el valor de p del inciso (a) e interprete su significado .
• 15.40 La directiva de una corporación grande está interesada en determinar si existe
una asociación entre el tiempo de cambio de turno de sus empleados y el nivel
de estrés relacionado con problemas observados en el trabajo. En un estudio
de 116 obreros de línea de ensamblaje se reveló lo siguiente:
Estrés
Tiempo de cambio Alto Moderado Bajo Totales
Menor 15 min. 9 5 18 32
15 a 45 min. 17 8 28 53
Más de 45 min. 18 6 7 31
Totales 44 19 53 TI6
lil!~!iiA\tl:~~r
Uso de la computadora para la prueba de hipótesis con datos categóricos ~H9
r4t$t)l;i)TI:ible para ayudarse a realizar un análi:siS exploratorio descriptivo. En la pre•
sente .sección enfo¿aremos nuestra 'ateneión en er u'so de diferentes paquetes
.de software· es'tadísti:co (referencfas 8 a 11) párá apoyo' de.un ánálisis inferencial de
rtuestros. datoS: Para hacer lo anterior;' regresemos la encuesta de satisfacción . a
de iós empleados de Iry.dustrias Kalóshá( qu~ .ctescribhnos e:q él capítulo 2.
'. ' ,·., .. . . . ' .· ',, ' . ..: . '.'·',
SEX OCCUP
Frequencyj
Expected 1MGL 1.PROF 1TEC/SA:L 1ADMSPT. 1SERV 1PROI;l 1LABOR 1 Total
---------+---'-·----+-.:.------+--------+--------'+~-------+--------+--------+
MALES 1. 36 I 33 I 34 1 14 1 16 1 5'l 1 47 1 . 233 "
1.31.a63 1 38,4.45 1 3.3.203 1 37,.863 .1 l.6.893 .1 31.45'5 1 n.2a 1 ...
..:--:------':'"+-.-'------~~--~-----+--------+--·--;-o----+-----~--+~--:~'.'~--~- ~.~--"."'-+
FEMALES 1 29 f 33 ] · 23 1 ·. 51 j · l,l i·· '.:.: :·· . 3. 17· I•
..
J ··
161;
f 27.13!1 1 .21,555 1 ~3.798 1 27:P8 ¡ 12.1oa 1 22.fi~\l.,,k ?6.72. I
---------+--------+--------+------.,.-+--------+,------.,.-+-----.....
Total ·6s 66 57 . '· 6S. ,. 29
-+....,------+
54 · '.\'> .64.: · 400
1'_: .. :·"
. · i;
Figura u.11
ST~TIS:;rtcs .· ~R 'T:ui'i.E oF six BY oceuii. Tabla de contingencias de sexo y
ocupación del empleado
~=!==~==~:..;. ___________. . .;______~:~---..:~==~t _______.::~~ ¡ ..
obtenida con el paquete SAS.
Nota: SAS proporciona al usuario
Chi-Square . . . .· 6 73.467 o.ooo numerosas opciones cuando
Likelihood Ratio Chi-squara .6 8.2.353 · .. o•.900,,: .. desarrolla una tabla de contingencias.
Mantel-Haellezel Chi-square l .17.250 0.000: .
Phi coatficie11t ..:. ·· ·, · . · • o.4~9 (Véase figura 5.8 de la página 187, en
continganc:y·coefficient 0.394 donde se presenta una tabla de
cram~r•a v 0.4~9 -,j >' contingencias utlllzada en un análisis
' .. ' estadístico descriptivo de los datos
sample Biza ~ 400
sexo-ocupación.)
JOBCHAR by SATJOB
SATJOB Page 1 of 1
count
Exp Val
Row
vs MS LD VD Total
JOBCllAR
Hi Inc Olle 46 43 10 4 103
47.6 44.0 7.0 4.4 25.a%
Not Fi red 11 11 1 1 24
11.1 10.3 1.6 1.0 6. º'
Flexible HRS 7 10 1 1 19
a.e a.1 1.3 .a 4.8%
Ad.va ne ement 23 22 6 o 51
23.6 21.8 3.4 2.2 12.8%
Enjoyi ng 98 a5 9 11 203
93.9 86.8 13.7 8.6 SO.a%
JOBCllAR by SATJOBR
SATJOBR Page 1 of l
Count
Exp Val
Row
VS MS DIS Total
JOBCllAR
Hi Inc ame 46 43 14 103
47.6 44.0 ll.3 25. 8%
Not Fi red 11 11 2 24
11.1 10.3 2.6 6.0%
Flexib le HRS 7 10 2 19
a.a 8.1 2.1 4.8%
Advanc ement 23 22 6 51
23.6 21.8 5.6 12.8%
Enjoyi ng 98 85 20 203
93.9 86.8 22.3 50.8%
1 5 .8.1 Introducción
En las secciones 15.3 y 15.4 nos interesamos por situaciones que implican un análi-
sis de diferencias en porciones de población, basándonos en dos muestras inde-
pendientes. Sin embargo, como en las secciones 13.9 (la prueba t para la diferencia
media) y 13.10 (la prueba de rangos con signo de Wilcoxon) cuando tratamos con
datos numéricos, a menudo se está en la situación en que deseamos evaluar dife-
rencias en porciones de población basándonos en muestras relacionadas. Muchas
de estas aplicaciones que implican datos categóricos y porciones se dan en los
ámbitos de las relaciones públicas, la publicidad, el procesamiento de alimentos, la
investigación farmacéutica, las ciencias sociales y la investigación médica:
• Comparación de un nuevo producto con un producto estándar.
• Medición del valor de un anuncio publicitario.
• Estudio de los patrones de cambio de marca y de lealtad a una marca.
• Evaluación de experimentos de prueba de sabor.
• Investigación de la eficiencia de un medicamento.
• Examen de los resultados de un debate político.
En algunas situaciones podemos diseñar un experimento que consista en parejas
equilibradas de individuos. Por ejemplo, podríamos desear determinar si existe evi-
dencia de que haya una diferencia entre dos grupos que han sido apareados de
acuerdo con alguna característica de control. En otras situaciones, sin embargo,
puede resultar más apropiado diseñ.ar un experimento que trate con las respuestas
repetidas por parte de los mismos individuos. Así, podríamos desear determinar si
ha habido un cambio en la percepción, la actitud, la creencia o el comportamiento
en un periodo en comparación con otro. Para analizar las diferencias entre dos por-
ciones en situaciones como las que acabamos de describir, se puede emplear una
prueba desarrollada por McNemar (referencias 2 y 7).
15.8.2 Desarrollo
La prueba de McNemar puede utilizarse para determinar si existe evidencia de una
diferencia entre las dos porciones relacionadas (es decir, una prueba de dos extre-
mos) o para determinar si existe evidencia de un cambio direccional significativo
de modo que un grupo tiene una mayor porción que el otro (es decir, una prueba
de un extremo).
A+-
Ps = - " d e muestra d e entrevista
B = proporc10n . d os que respon d'1eron s1, a
1
n la condición 1
, d
A+C
p52 = - - = proporcion e muestra de entrevistados que respond ieron s1, a
n la condición 2
z = B-C.· (15.8)
. -../B+C ·;··,
'.·1,
15.8.3 Aplicación
Para ilustrar la prueba de McNemar, refirámonos de nuevo a la encuesta sobre
bienes raíces, analizada en la sección 15.6.3, que fue realizada, en un año reciente,
por una sucursal, situada en el Condado de Nassau (en Nueva York, Estados
Unidos), de una cadena que opera a nivel nacional oficinas de corretaje inmobi-
liario, con el fin de caracterizar las casas de una sola familia en algunas comu-
La prueba de McNemar resulta adecuada en este caso porque existen dos respues-
tas categóricas por cada dueño de casa de la muestra, y esto constituye la base de
un experimento de respuestas repetidas como el descrito en la sección 15.8.1.
Puesto que el gerente de la sucursal desea determinar si la porción de casas que
se pretendía vender es diferente de la porción que realmente se puso a la venta en
las tres comunidades del condado (es decir, East Meadow, Farmingdale y Levittown),
las hipótesis nula y alternativa serían:
Ho: P1 =P2
A = 23 B = 3 C = 11 D = 196
de manera que:
De la ecuación (15.8)
z = _B=-=C= 3 - 11 = ~ = -2.14
- ~B + C -J3+1i -114
Como Z = -2.14 < -1.96, la hipótesis nula puede ser rechazada. Utilizando el
planteamiento del valor p, la probabilidad de obtener una estadística de prueba por
debajo de -2.14 es .5000- .4838 = .0162. Puesto que se está utilizando una prueba
de dos extremos, éste valor debe hacerse del doble para tomar en cuenta el área de
los dos extremos. Ya que .0324 <.OS, la hipótesis nula puede ser rechazada. El geren-
te de la sucursal puede llegar a la conclusión que existe evidencia de que la porción
de casas que se pretendía poner en venta es diferente de la porción de casas que
realmente fueron puestas en venta un año después. Se pusieron más casas en venta
de las que se tenían pensadas.
Intención de avanzar
después de tomar el
curso de computación
Intención de avanzar antes de
tomar el curso de computación Sí No Total
Sí 52 32 84
No 13 230 243
Total 65 262 327
Año2
Año 1 < 5 días de ~ 5 días de
ausentismo ausentismo Total
< 5 días de ausentismo 32 4 36
días de ausentismo
;e: 5 ~ 39 64
Total 57 43 100
•
Como se estableció en la sección 14.11.2, las consideraciones éticas surgen cuando
un investigador manipula el procedimiento de prueba de hipótesis de manera que
le permita obtener ganancias personales. Al coordinar y administrar un proyecto
que trate sobre un experimento a largo plazo o una encuesta a gran escala, es
imperativo que el investigador principal desarrolle un plan operacional o un pro-
tocolo que aborde el proceso de la recolección de datos, la evaluación y el análisis.
En particular, cuando están implicadas muchas personas en el proceso, debe
establecerse un sistema de verificaciones y balances para evitar fraudes, plagios,
falseo de datos o de resultados.
3 o más independientes
'
,1 • . •
~; ' ..: :. ~-
: : ' ~·. : ' ' . ~.! ' .
•• ·1
J,.,,
Revise la lista de preguntas para ver si, en efecto, usted conoce las respuestas y
puede (1) explicar la respuesta a alguien que no haya leído el capítulo y (2) dar re-
ferencia de lecturas específicas que apoyen su respuesta. También relea cualquier
sección que le haya parecido confusa para ver si ahora tiene sentido.
Juntando todo
TÉRMINOS CLAVE
datos categóricos 606 homogeneidad de porciones 618
distribución chi-cuadrada 619 igualdad de porciones 622
estimación combinada (p) de la independencia 633
porción de población común muestras independientes 624
624-625 muestras relacionadas 644
frecuencias esperadas <fe) 618 porción de muestra Ps 606
frecuencias observadas (/0 ) 618 porción de población p 607
frecuencias teóricas o esperadas <fe) procedimiento de Marascuilo 628
618
prueba de McNemar 644
grados de libertad 619
15.61 Se llevó a cabo una encuesta sobre vivienda de ca!\as de una sola familia en dos
condados suburbanos de la ciudad de Nueva York para determinar la porción de
casas que se calientan con gas doméstico. Una muestra de 300 casas de una
familia del condado A tuvo un resultado de 185 casas calentadas con gas, y
una muestra 200 casas de una familia del condado B tuvo como resultado 75
casas calentadas con gas.
Nota: Utilice un nivel de significación de .01 en todo el problema.
(a) Use dos pruebas estadísticas diferentes para determinar si existe evidencia
de una diferencia entre los dos condados respecto a las casas de una
familia que se calientan con gas.
(b) Calcule el valor de p del inciso (a) e interprete su significado.
(c) Compare los resultados obtenidos con los dos métodos en el inciso (a).
¿Sus conclusiones son las mismas?
(d) Si usted deseara saber si existe evidencia de que el condado A tuvo una
porción mayor de casas de una familia calentadas con gas, ¿qué métodb
utilizaría para efectuar la prueba estadística?
• 15.62 En 1982 se inició un "estudio sobre la salud de los médicos" para saber la efec-
tividad de la aspirina en la reducción de infartos, el estudio se concluyó en
1987 (véase C. Hennekens y col. "Findings from the Aspirin Component of
the Ongoing Physician's Health Study", The New England fournal of Medicine,
28 de enero de 1988, vol. 318, pp. 262-264). De 11,037 médicos hombres de
Estados Unidos que tomaron una tableta de aspirina de 325 mg
diariamente, 104 sufrieron un infarto en el periodo de cinco años que duró el
estudio. De 11,037 médicos hombres en Estados Unidos que tomaron una sus-
tancia inocua (esto es, una píldora que, sin que los
participantes en el estudio lo supieran, no contenía ingredientes activos), 189
sufrieron un infarto en el periodo de cinco años que duró el estudio.
(a) Al nivel de significación de .01, ¿existe evidencia de que la porción de per-
sonas que sufrieron infartos es más pequeña para los médicos hombres de
Estados Unidos de que tomaron aspirina cada dos días que para los que
tomaron la sustancia inocua?
(b) Calcule el valor p del inciso (a). ¿Le lleva a creer que tomar una aspirina
cada dos días fue un remedio efectivo para reducir la incidencia de infartos?
Explique su respuesta.
(c) ¿Por qué no es adecuado el uso de la prueba ·x.,2 en el inciso (a)?
15.63 Un estadístico desea estudiar la distribución de tres tipos de automóviles
(subcompactos, compactos y no compactos) vendidos en las cuatro regiones
geográficas de Estados Unidos (noreste, sur, medio oeste y occidente). Se selec-
Preferencia después
de los anuncios
Preferencia
antes de los
anuncios Toy o ta GM Total
Toyota 97 3 100
GM 11 89 100
Total 108 92 200
~. (c) Explique de qué manera esta última tabla se obtiene de la tabla del
inciso (a).
(d) Utilizando la tabla del inciso (c), ¿existe evidencia de que haya alguna
diferencia en la preferencia por autos Toyota antes y después de ver los
anuncios? (Utilice el nivel ex= .OS.)
(e) Calcule el valor p del inciso (d) y explique su significado.
~ (f) Explique la diferencia que existe entre los resultados del inciso (a) y los del
(d) en el presente problema. ¿Cuál método de análisis de datos cree usted
que es correcto y cuál no? ¿Por qué?
Preferencia
Educación Toyo ta GM Total
Sin universidad 26 49 75
Universitario sin graduar 34 16 50
Graduado universitario 27
-48- 75
Total 108 92 200
l. ¿Cual es su sexo?
Masculino ... 960 Femenino ... 640
2. ¿Antes de viajar con nosotros consideraba que Ber Lev podría ser su
aerolínea favorita?
Sí...816 No ... 784
3. Ahora que ha hecho este viaje con nosotros, ¿considera que Ber Leves su
aerolínea favorita?
Sí...832 No ... 768
4. ¿Cuál es la razón principal para hacer el presente viaje?
Negocios ... 880
Emergencia ... 64
Mudanza/de paso ... 96
Placer. .. 560
S. ¿Qué hizo con su equipaje en este viaje?
Lo llevó todo consigo ... 768
Lo registró todo en la recepción ... 592.
Llevó consigo una parte y registró la otra ... 192
No lleva equipaje .. .48
Tablas cruzadas
Notas finales
1 Si la diferencia hipotetizada es O (es decir, p1 - Pz =O o de rechazo del extremo superior de una distribución chi-
p 1 =p2), el numerador de la ecuación (15.3) se vuelve cuadrada, con un grado de libertad. El extremo superior de
ps¡ = psz. esta distribución chi-cuadrada contiene un área de a.
2. Examine las figuras 15.3 y 15.5. Observe que en una prueba Puesto que la estadística de prueba Z de la distribución nor-
de dos extremos, los dos valores críticos, +Z y -Z, represen- mal estándar va de -oo hasta +oo, y la estadística de prueba
tan las regiones de rechazo de los extremos de la distribu- x2 de la distribución chi-cuadrada va desde O hasta +oo,
ción normal estándar. Cada uno contiene un área de a/2. vemos que al elevar al cuadrado el valor de Z obtenemos el
Observe también que el valor crítico x2u(l) denota la región valor de x2u( 1).
References
l. Cohen, J., "An Alternative to Marascui!o's 'Large-Sample 7. McNemar, Q., "Note on the Sampling Error of the
Multiple Comparisons' for Proportions", Psychological Difference Between Correlated Proportions or
Bulletin, 1967, vol. 67, pp. 199-201. Percentages", Psychometrika, 1947, vol. 12, pp. 153-157.
2. Daniel, W. W., Applied Nonparametric Statistics Za. ed. 8. MINITAB Reference Manual Release 8 (State College, PA:
(Boston, MA: PWS Kent, 1990). Minitab Inc., 1992).
3. Dixon, W.J. y F. J. Massey, Jr., lntroduction to Statistical 9. Norusis, M., SPSS Guide to Data Analysis for SPSS-X with
Analysis, 4a. ed. (Nueva York: McGraw-Hill, 1983). Additional Instructions far SPSSIPC+ (Chicago IL: SPSS Inc.,
4. Lewontin, R. C., y J. Felsestein, "Robustness of 1986).
Homogeneity Tests in 2 x n Tables", marzo de 1965, vol. 10. SAS User's Guide Versíon 6 (Raleigh, NC: SAS lnstitute,
21, pp. 19-33. 1988).
5. Marascuilo, L. A., "Large-Sample Multiple Comparisons", 11. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
Psychological Bulletin, 1966, vol. 65, pp. 280-290. Software, Inc., 1992).
6. Marasculino, L. A. y M. McSweeney, Nonparametric and
Distribution-Free Methods for the Social Sciences (Monterey,
CA: Brooks/Cole, 1977).
Aplicadones estadísticas
en administración de la
calidad y productividad
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Proporcionar una introducción a la
historia de la calidad y a los catorce
CAPÍTULO puntos administrativos de Deming;
ilustrar el uso de un cierto número de
diagramas de control, y mostrar la
interrelación de la administración y las
herramientas estadísticas.
659
1,.91 Introducción
En el presente capítulo centraremos nuestra atención en las aplicaciones estadísticas
en la administración de la calidad y de la productividad. El pionero de tal meto-
dología, W. A. Shewhart, expresó, hace ya más de medio siglo (véase referencia 21) que
La contribución tan amplia de la estadística no depende tanto de la
inclusión en la industria de un gran número de estadísticos altamente
entrenados como de la creación de una generación de físicos, químicos,
ingenieros y otros profesionales con un pensamiento estadístico, quienes,
de muchas maneras, pueden ser de utilidad en el desarrollo y en la direc-
ción de los procesos de producción del mañana.
En este capítulo iniciaremos con una perspectiva histórica sobre la calidad y la pro-
ductividad, y estudiaremos la evolución de los estilos administrativos. Luego
desarrollaremos la teoría que subyace en el tema de diagramas de control. Veremos
también dos herramientas de planificación administrativa que son de utilidad en
la mejora de procesos: el diagrama de flujo de proceso y el diagrama de esqueleto de
pescado. El análisis que sigue después sobre los catorce puntos de Deming acerca
de la administración establece el escenario del posterior desarrollo de un cierto
número de diagramas de control utilizados para el tratamiento de diferentes datos.
Además, desarrollaremos un curioso experimento, conocido como "parábola de las
cuentas rojas", para resaltar los distintos tipos de variación inherentes a un con-
junto de datos y reforzar la importancia de la responsabilidad de un administrador
en el mejoramiento de sistemas.
Después de terminar el capítulo, usted deberá ser capaz de:
l. Entender las diferencias entre las cuatro generaciones de la
administración.
2. Diferenciar entre causas especiales y comunes de la variación.
3. Desarrollar diagramas de flujo de proceso y de esqueleto de pescado.
4. Apreciar los elementos especiales de los catorce puntos de Deming sobre
administración mediante proceso y ser capaz de indicar de qué manera este
planteamiento difiere del de administración mediante control.
5. Desarrollar diagramas de control tanto para variables categóricas como
para variables numéricas.
6. Entender las circunstancias en las que debe utilizarse cada diagrama
de control. '
de modo que
Una vez que se establecen los límites de control, el diagrama de· control se
evalúa desde la perspectiva de (1) la percepción de cualquier patrón que pueda
existir en los valores a través del tiempo y (2) de la determinación de qué puntos
se encuentran fuera de los límites de control. En la figura 16.1 se ilustran tres situa-
ciones diferentes.
linea
Central
. Ti~!l:IPO .
PáhelB · ·
' 1 ~· ;'·¡·\i:.;:¡_,
Figura 1e.1
Tres patrones de diagrama de control.
16.4. 1 Introducción
Antes que podamos determinar cuáles son los diagramas de control adecuados que
se deben utilizar para un conjunto de datos, necesitamos definir con más detalle
qué es lo que entendemos por proceso.
Un proceso es una secuencia de pasos que describen una actividad
desde el inicio hasta su terminación.
El concepto de proceso puede verse de manera esquemática en la figura 16.2.
Utilizando este planteamiento, todo trabajo se puede considerar como un con-
junto de procesos. Tales procesos necesitan ser analizados con el propósito de
desarrollar un conocimiento del proceso global, de modo que se pueda reducir la
variación. Esta variación en el proceso puede reducirse si eliminamos primero las
causas especiales. Después se pueden reducir las causas comunes cambiando el pro-
ceso. Lo anterior conducirá a una mejora de la calidad y a una satisfacción más
grande de los clientes. Así pues, el análisis de la variación del proceso y las herra-
mientas para adquirir conocimiento sobre el mismo son el objeto de estudio de la
presente sección, mientras que los catorce puntos del planteamiento administra-
tivo de Deming para el mejoramiento de los procesos será el objeto de estudio de
la sección siguiente.
Figura 1CS.2
El concepto de proceso.
Fuente: Reimpreso de R. Snee, "Statistical Thinking and Its Contributions to Total Quality"
American Statistician, 1990, Vol. 44, pp. 116-121.
Figura US.J
Diagrama de esqueleto de pescado.
Fuente: Reimpreso de The Memory Jogger, p. 24, Fig. 19.4. ©copyright 1989 GOAL QPC, 13 Branch
Street, Methuen, MA 01844, Tel. 508-685-3900. Impreso bajo licencia.
Algunas herramientas para estudiar un proceso: diagramas d'e esqueleto de pescado (lshikawa) y de flujo de procesos 66S
., :I·'
Otréls corni~as.""i- - - - - -
Batería
Clima
Automóvitm-_.._ _ _ _ _ _,,
Estufa---.,
1-.--- .Horno de microondas· ·
Camión
escÓlar _ _ _ _ _....,,_._, .,_ '
~-_,..-·.,.·.Glii?.
'.', :,,.;;.'','
Figura 16.4
Diagrama de esqueleto de pescado para el proceso de llegada al trabajo de Marilyn Levine.
.
'. '.
. ..
.
~---.... Consentimiento . · •· ·. . ..
. . . · 1íltonnado di. f;'·:.·;D;. si~{
· Planes dé · ·
. comerclalizacíóh ·. < ; < :
Figura 1es.s
Diagrama de esqueleto de pescado para ·la sala de operaciones de un hospital durante un sábado.
Figura 1es.es
Símbolos de un diagrama de flujo de proceso.
Algunas herramientas para estudiar un proceso: diagramas de esqueleto de pescado (lshikawa) y de flujo de procesos es67
Sí
SI
Figura 1CS.7
Diagrama de flujo de proceso para el proceso de llegar al trabajo de Marllyn Levine.
Ahora que hemos definido algunos de los símbolos que se utilizan, podemos
ilustrar el diagrama de flujo de proceso con dos ejemplos.
La primera situación se refiere al problema de llegar al trabajo a tiempo que fue
representado en el diagrama de esqueleto de pescado de la figura 16.4 de la página
666. En la figura 16.7 se representa el diagrama de flujo de proceso para esta cir-
cunstancia. Observamos que el diagrama inicia con una preocupación acerca de si
el despertador funcionó y continúa con el hecho de si el baño está disponible, si la
asignación de tareas a los estudiantes está lista, si hay que llevar a su hija a
la escuela y si tiene que recoger a uno de sus compañeros de trabajo en su camino
a la escuela. En resumen, el diagrama de flujo de proceso, al hacer que docu-
Algunas herramientas para estudiar un proceso: diagramas de esqueleto de pescado (lshikawa) y de flujo de procesos 669
16.2 Construya los diagramas de esqueleto de pescado y de flujo de proceso para su
proceso personal de llegar a la escuela o al trabajo en la mañana.
16.3 (a) Construya los diagramas de esqueleto de pescado y de flujo de proceso
para el proceso de registro de su escuela.
(b) Sobre Ja base de Jos diagramas construidos en el inciso (a), ¿qué mejoras
puede sugerir usted en el proceso de registro?
16.4 (a) Construya los diagramas de esqueleto de pescado y de flujo de proceso
para su proceso personal de estudiar para un examen de estadística.
(b) Sobre la base de los diagramas desarrollados en el inciso (a), ¿qué mejoras
puede llevar a cabo en la forma en que usted estudia para el examen de
estadística?
16.5 Usted está planeando tener una comida para ocho personas en su casa. La
comida consistirá en cocteles de aperitivo y un entremés, sopa, ensalada,
platillo principal y postre.
(a) Construya los diagramas de esqueleto de pescado y de flujo de proceso
para el proceso de preparar y servir la comida y las bebidas para la comida.
(b) Sobre la base de Jos diagramas desarrollados en el inciso (a), ¿qué mejoras
puede usted efectuar en Ja forma en que está planeando preparar Ja
reunión?
EL CICLO DE SHEWHART
Planeación de
un cambio.
Los catorce puntos de Deming: una teoría de la administración por proceso 671
El punto 2, adoptar la filosofía, se refiere a la urgencia con que las compañías esta-
dounidenses necesitaban darse cuenta de que estamos en una nueva era económica
que difiere drásticamente del periodo posterior a la Segunda guerra mundial en el que
había un dominio estadounidense (véase referencia 9). Es un hecho aceptado común-
mente, como parte de la naturaleza humana, que las personas no actúan hasta que se
tiene una crisis, debido a que prefieren continuar haciendo cosas de la manera en que
piensan que han tenido resultados exitosos en el pasado. Sin embargo, en esta nueva
era económica, la administración estadounidense a menudo se ve afligida por lo que
Deming llamó un conjunto de "enfermedades mortales", entre las que se encuentra
la falta de constancia de propósitos, énfasis en las ganancias a corto plazo, temor a
una toma de poder no amistosa, evaluación de sistemas de resultados de desempeño
y de mérito y una excesiva rotación de la administración. Finalmente, la filosofía de
la administración necesita aceptar la idea de que la calidad cuesta menos, no más. Sin
embargo, se requiere una inversión inicial para lograr la calidad. Tal inversión da div-
idendos bastante grandes.
El punto 3, dejar de ser dependientes de la inspección en masa para lograr la cali-
dad, implica que cualquier inspección cuyo propósito sea mejorar la calidad viene
demasiado tarde, pues la calidad ya está construida en el producto. Sería mejor enfocar
la atención en hacer las cosas bien la primera vez. Entre las dificultades que se tienen
con una inspección en masa (además del alto costo) están el fracaso de los inspectores
para llegar a un acuerdo sobre los elementos que no cumplen con lo especificado y el
problema de la separación de los productos buenos de los malos. Tales dificultades
pueden ilustrarse con un ejemplo tomado de Scherkenbach (véase referencia 20) y rep-
resentado en la figura 16.10. Suponga que su tarea, en este caso, consiste en leer la
oración mostrada en la figura 16.10. El proceso implica la revisión de la oración con el
fin de determinar el número de veces que aparece la letra "F". Lea la oración y anote el
número de veces que se presenta la letra F en ella.
Figura 16. 1o
Un ejemplo del proceso de revisión.
Fuente: W. W. Scherkenbach, The Deming Route to
Quality and Productivity: Road Maps and Roadblocks
(Washington, D.C.: CEEPress, 1986).
Por lo general las personas cuentan tres o seis efes. El número correcto es seis.
El número de letras contado depende del método que se haya utilizado para revisar
la oración. Es posible que se cuenten tres efes si el párrafo se lee de manera fonética
y seis efes si uno se fuerza a contar el número de efes con cuidado.* La cuestión del
ejercicio es mostrar que, si tenemos un proceso tan sencillo de conteo de las letras
que nos lleva a una inconsistencia en los resultados de los "inspectores", ¿qué
sucederá cuando un proceso no contiene una definición operacional de lo que es
no cumplir con lo especificado? Ciertamente, en tales situaciones se presentará
mucha más variabilidad de un inspector a otro.
El punto 4, terminar con la práctica de otorgar contratos sobre la única base
del precio, representa la antítesis de las concesiones al peor postor. Se centra en el
hecho de que no puede haber un significado real a largo plazo del precio sin tener
un conocimiento de la calidad del producto. Un planteamiento del peor postor
ignora las ventajas de la variación reducida de un solo proveedor y no puede con-
siderar las ventajas del desarrollo de una relación a largo plazo entre comprador y
proveedor. Tal relación permitiría al proveedor ser innovador y tendería a hacer
que éste y el comprador sean copartícipes en el logro del éxito.
El punto 5, mejorar constantemente y para siempre el sistema de producción y de
servicios, refuerza la importancia del centro continuo del ciclo de Shewhart y la creen-
• N. del R.T. (Esta parte se refiere a que en inglés la palabra of, que contiene una efe, se pronuncia
como "ob", lo cual haría contar sólo las efes que se encuentran en las demás palabras).
Los catorce puntos de Deming: una teoría de la administración por proceso 57:1
Ahora que hemos presentado una breve introducción a la filosofía de Deming
y hemos vincularl0 !:l administración por proceso con las ideas fundamentales de
los diagramas de control, en las siguientes secciones desarrollaremos varios dia-
gramas de control que se utilizan en la industria.
16.6. 1 Introducción
Pongamos nuestra atención en diferentes tipos de diagramas de control que se uti-
lizan para revisar los procesos y determinar si se encuentran presentes causas espe-
ciales o comunes de la variación. Un tipo de diagrama de control utilizado
comúnmente es el diagrama de atributos, que se emplea cuando los elemen-
tos que son muestreados están clasificados según cumplan o no con requisitos
definidos operacionalmente. Los diagramas p y np que se analizarán en esta sección
están basados en la porción de elementos que no cumplen (diagrama p) o en el
número de elementos que no cumplen (diagrama np) de una muestra. El diagrama
e que será analizado en la sección 16.8) está basado en una cuenta del número de
elementos que no cumplen por unidad.
16.6.2 El diagrama p
Usted puede recordar que estudiamos las porciones en los capítulos 5 a 9.
Analizamos la distribución binomial en la sección 7.5 y la aproximación normal a
distribución binomial en la sección 8.6.2. Además, en la ecuación (9. 7) de la sec-
ción 9.3, definimos la porción como X/n y en la ecuación (9.8) definimos la
desviación estándar de la porción como
CTp = ~p(l - p)
' n
Utilizando la ecuación (16.1) de la página 663, podemos establecer los límites de
control para la porción de elementos que no cumplen 4 de los datos de muestra o
de subgrupo como
P ± 3 ~P(l; P) (16.2)
de modo que
•
674 Capítulo 16 Aplicaciones estadísticas en administración de la calidad y productividad
en la que
X¡= número de elementos que no cumplen del subgrupo i
n¡ = tamaño de muestra o de subgrupo para el subgrupo i
Ps-=
1
X¡/n¡
k = número del subgrupo tomado
ñ = tamaño promedio del subgrupo
p = porción promedio de elementos que no cumplen
Para n;, iguales
n = n; y
o, en general,
k
Ln;
i =1
n =-- y
k
Cualquier valor negativo del límite de control inferior significará que el límite de
control inferior no existe.
Podemos observar una aplicación del diagrama p si nos referimos al plan de un
hotel grande, situado en una ciudad de descanso, para mejorar la calidad de sus ser-
vicios. Un aspecto de sus servicios a los huéspedes está representado por la buena
disposición del cuarto cuando el cliente entra por primera vez al que le fue asig-
nado. Desde el punto de vista de la impresión inicial es de particular importancia
que todas las comodidades que se supone posee el cuarto (jabón, toallas, canasto
de basura complementario, etcétera) se encuentren realmente disponibles en el
cuarto; y es igualmente importante que todos los aparatos electrónicos como el
radio, el televisor y el teléfono estén trabajando apropiadamente. La adminis-
tración del hotel ha decidido estudiar este proceso durante un periodo de cuatro
semanas, tomando una muestra diaria de 200 cuartos para los cuales ya se tienen
reservaciones. Así pues, se determinaría, antes de la llegada de los huéspedes, si los
cuartos tienen algún incumplimiento en cuanto a la disponibilidad de las como-
didades y al funcionamiento adecuado de todos los aparatos electrónicos. En la
tabla 16.1 de la página 676 se presenta el número y la porción de cuartos que
fueron considerados como no adecuados, que no cumplen para cada día del perio-
do de cuatro semanas.
k
Para esos datos, k = 28, L Ps; = 2.315, Y n; = 200
i=-1
Así pues
p= 2.315 = .0827
28
de modo que utilizando la ecuación (16.2) tenemos
.0827 ± 3 (.0827)(.9173)
200
.0827 ± .0584
Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np 67S
Tabla 16.1
Cuartos que no cumplen con las especificaciones al momento del registro en un periodo de cuatro semanas.
Así pues,
.04
.03
.02 ------------------------------------------ LCL
.01
o
2 4 6 8 10 12 14 16 18 20 22 24 26 28
Días
Figura 16. 1 1
Diagrama p para la proporción de cuartos que no cumplen con las especificaciones a la llegada
de los huéspedes.
F11e11te: ·nihla 16.1.
------·----
J
.033 ± 3 (.033 )(1 - .033)
622.69
.033 ± .021
Tabla 16.l
Esponjas que no cumplen con las especificaciones producidas diariamente durante un periodo de 32 días.
Cantidad Cantidad de esponjas Cantidad Cantidad de esponjas
Día producida que no cumplen Porción Día producida que no cumplen Porción
1 690 21 .030 17 575 20 .035
2 580 22 .038 18 610 16 .026
3 685 20 .029 19 596 15 .025
4 595 21 .035 20 630 24 .038
5 665 23 .035 21 625 25 .040
6 596 19 .032 22 615 21 .034
7 600 18 .030 23 575 23 .040
8 620 24 .039 24 572 20 .035
9 610 20 .033 25 645 24 .037
10 595 22 .037 26 651 25 .038
11 645 19 .029 27 660 21 .032
12 675 23 .034 28 685 19 .028
13 670 22 .033 29 671 17 .025
14 590 26 .044 30 660 22 .033
15 585 17 .029 31 595 24 .040
16 560 16 .029 32 600 16 .027
Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np 677
Por consiguiente,
,·
. <::· ;Q6
.'':.·: ............ ·..,_ .... _..;:. ___ ....._ ..... ;._.-~ ... --.;..- ... _-_;,·------·..; ___ ..., .. __ _.\:!.d.!::
j),'<·,_, ,:"'
i:t• ;Op
-~t:.•
e: ,04
!!! ..:, "
C1'
"''
·~ .03 -
~
.g .02
e:
:~
&. .01
--- - - -·--- - -- - - - - --- - --- - --- - - - - - - - - -- - --- ~C,h
f' '
Figura 16. 12
Diagrama p para la porción de esponjas que no cumplen.
16.6. 3 El diagrama np
Cuando los subgrupos son del mismo tamaño, una alternativa deseable del dia-
grama p es el diagrama np. Puede recordar de la aproximación normal a la dis-
tribución binomial en la sección 8.6.2, que definimos el error estándar del número
de "éxitos" o elementos que no cumplen como
crx = ~np(l - p)
(16.4f,··
'',' '-.·.;
.· ·~·~;5~)
G,. ·'.:·r'·,
_.,'J
en la que
n = tamaño de subgrupo
k = número de subgrupos
Para ilustrar el diagrama np, regresemos a los datos de la tabla 16.1 de la página
676 que fueron utilizados anteriormente para el diagrama p.
k
Para estos datos tenemos, k = 28, n = 200, y L X, = 463
1~1
Por tanto,
X- = 463
28
= 16.536 . y p-
463 = .0827
(200)28
Así pues,
Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np 679
30
26 ---------------------------------------~Cl-
26
24;
22
.ae
.!!!: 20 '
.5
i i 16
E
:;:¡
16
"
.s
Q)
"O
14
E?
Q) 1?
E
•::J
z 10
e
6 ________________________________________ !::.,C!
4
2
º""-L-L-.._.._.._.._.._..._...._....__,__,__.__._......................._...._...._...........................................
2 4 6 6 10 12 14 1,6, ,, 16 '20 22 24 26 26
Oía
Figura 1&. 13
Diagrama np para el número de cuartos que no cumplen a la llegada de los huéspedes.
Fuente: Los datos fueron tomados de la tabla 16.1 de la página 676.
Número de Número de
Día llegadas tarde Día llegadas tarde
'1 17 11 21
2 25 12 23
3 22 13 67
4 27 14 24
5 32 15 35
6 23 16 18
7 16 17 23
8 24 18 24
9 20 19 26
10 36 20 35
Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np &81
Números de Número de paquetes Número de Número de paquetes
paquetes que no llegan antes paquetes que no llegan antes
Día entregados de las 10:30 horas Día entregados de las 10:30 horas
1 136 4 11 157 6
2 153 6 12 lSO 9
3 127 2 13 142 8
4 157 7 14 137 10
5 144 5 15 147 8
6 122 5 16 132 7
7 1S4 6 17 136 6
8 132 3 18 137 7
9 160 8 19 153 11
10 142 7 20 141 7
Número de Número de
Día estudiantes ausentes Día estudiantes ausentes
1 39 19 54
2 46 20 52
3 38 21 46
4 46 22 45
s S3 23 42
6 S2 24 44
7 S6 2S 49
8 61 26 39
9 Sl 27 72
10 SS 28 SS
11 S2 29 so
12 49 30 42
13 44 31 48
14 39 32 46
15 53 33 45
16 68 34 49
17 101 35 41
18 70 36 47
Nota: Los primeros 17 días corresponden a diciembre y los últimos 19 a enero.
Número de Número de
Día elementos que no cumplen Día elementos que no cumplen
1 3 21 13
2 5 22 5
3 2 23 2
4 11 24 o
5 6 25 14
6 15 26 10
7 8 27 9
8 1 28 7
9 25 29 6
10 4 30 1
11 o 31 21
12 6 32 2
13 9 33 4
14 2 34 2
15 8 35 8
16 28 36 30
17 16 37 o
18 5 38 o
19 10 39 1
20 30
Diagramas de control para la proporción y el número de elementos que no se ajustan: los diagramas p y np
(a) Construya un diagrama p para los números que no están correctos. ¿El
proceso muestra alguna sefial de que esté fuera de control?
(b) Construya un diagrama np correspondiente al número de cuentas que no
están correctas e indique si el proceso está bajo control estadístico durante
el periodo del estudio.
(c) Compare los resultados del diagrama p obtenido en el inciso (a) con los
resultados del diagrama np del inciso (b).
(d) Sobre la base de los resultados de los incisos (a) o (b), ¿qué haría ahora
como administrador para mejorar el proceso de registro de los números de
cuenta?
16.12 La gerente de una oficina regional de una compafüa telefónica local tiene
como una de sus responsabilidades la tarea de procesar las peticiones de
instalación del servicio, de cambio o de cancelaciones del mismo. Un equipo
de mejora del servicio decidió revisar las correcciones hechas a los pedidos en
términos del equipo de la oficina central y las instalaciones requeridas para
procesar los pedidos que fueron hechos para la solicitud de servicio. Los datos
recabados durante un periodo de 30 días se presentan a continuación:
De la tabla 16.3 podemos observar varios fenómenos. En cada día, algunos de los
trabajadores estuvieron por arriba del promedio de cuentas rojas y otros por debajo.
En el primer día Sharyn fue la mejor, pero en el segundo día Peter (quien tuvo el peor
desempeño el día anterior) fue el mejor, y Alyson fue la mejor el tercer día.
¿De qué manera podemos explicar toda esta variación? Se puede obtener una
respuesta si utilizamos la ecuación (16.4) para desarrollar un diagrama np. Para
estos datos tenemos
k
k = 4 trabajadores x 3 días = 12, n = SO y LX;
i=l
113
x= 113 = 9.42 Y p =
12
113
(50)(12)
= .1883
X ± 3~X(l -P)
9.42 ± 3~(9.42)(1 - .1883)
9.42 ± 8.30
Así pues,
UCL = 9.42 + 8.30 = 17.72
y
LCL = 9.42 - 8.30 = 1.12
··'.·
o..._~ ......
_.,.--~.,,-~--.,._--.,.___.~__,...___, __ ~..._~--~--~_._~
Figura 1CS.14
Diagrama np para el experimento de las cuentas rojas.
de modo que
k
con e = número promedio de casos
k = número de unidades muestreadas
e¡ = número de presentaciones en la unidad i
Como aplicación del diagrama e, suponga que el gerente de producción de una
pastelería grande que hace pastelillos con chispas de chocolate en forma de cala-
baza para la temporada de Halloween, necesita estudiar el proceso de horneado
para determinar el número de chispas de chocolate que se encuentran en los
pastelillos que se están horneando. Se seleccionó un subgrupo de 50 pastelillos de
la línea de producción. Los resultados, enumerados según el orden en que fueron
seleccionados, se resumen en la tabla 16.4.
k = 50 y L
·i= 1
C¡ = 312
Así pues,
e = 312
50
= 6.24
Por consiguiente,
14 UCL
-~----------~-~~---~~~------~7~-------~-~~
iá
12 1., ' . . ~~ ·.. \: 1 1. ,
dl
11
1
ti
10
9
Q)
'C B
"'"'
Q.
7 't,. J
.!!!
.&:.
o 6
dl
'C
5
e
Q)
E 4
-::i
z 3
2
o 10 45
5 15 20 25 30·•;:,:· 35 40 50
Orden cronológico :t
Figura 16.15
Diagrama e para el número de chispas de chocolate por pastelillo.
(a) Construya un diagrama e para el número de prendas por día que son
regresadas para volverse a limpiar. ¿Usted cree que el proceso se encuentra
en un estado de control estadístico?
(b) Debería el dueño de la tintorería tomar medidas para investigar por qué
doce prendas fueron regresadas para volverse a lavar el día 12? Explique su
respuesta. ¿Su respuesta sería la misma si se hubieran devuelto 20 prendas el
día 12?
ff (c) Sobre la base de los resultados del inciso (a), ¿qué debería hacer el dueño
de la tintorería para establec;:er un proceso que redujera el número de
prendas diarias que son regresadas para volverse a lavar?
16.16 El gerente de una sucursal de un banco de ahorro ha registrado el número de
errores de un tipo en particular que cometieron cada uno de los doce cajeros
durante el año pasado. Los resultados son los siguientes:
(a) ¿Cree usted que el gerente del banco deberá elegir a Gina para tomar con
ella alguna medida disciplinaria debido a su desempeño durante el año
anterior?
(b) Construya un diagrama e para el número de errores cometidos por los
doce cajeros. ¿Se encuentra el número de errores en un estado de control
estadístico?
(c) Basándose en el diagrama e construido en el inciso (b), ¿cree usted que
Gina debería ser llamada para tomar con ella alguna medida disciplinaria
debido a su desempeño? ¿Su conclusión ahora concuerda con lo que
usted esperaba que hiciera el gerente?
16.9. 1 Introducción
Siempre que una característica de interés es medida en una escala de intervalo o de
cociente, se pueden utilizar diagramas de control de variables para revisar un
proceso. Debido a que las mediciones provenientes de estas escalas más poderosas
proporcionan más información que la porción o el número de elementos que no
cumplen con cierta especificación, estos diagramas son más sensibles para la detec-
ción de la variación por causas especiales que los diagramas p, np o c. Típicamente,
los diagramas de variables son utilizados en parejas. Un diagrama revisa la
variación de un proceso, mientras que el otro revisa el promedio del proceso. El
diagrama que revisa la variabilidad debe ser examinado primero, debido a que si
indica la presencia de condiciones fuera de control, la interpretación del diagrama
correspondiente al promedio estará falseada. A pesar que varias parejas alternati-
vas de diagramas pueden tomarse en cuenta (véanse referencias 8, 13, 17 y 19) en
el presente texto, estudiaremos el diagrama de control para el alcance y el diagrama
de control para el promedio~
de modo que
'·"\} .
.., ·: .· (16.9a)
¡',l ,·
en las que
i=l
Tabla 1e.s Promedio y alcance de subgrupo para los tiempos de entrega durante
un periodo de cuatro semanas.
Promedio de Alcance de Promedio de Alcance de
subgrupo, X1 subgrupoR; subgrupo, X; subgrupoR1
Día (en minutos) (en minutos) Día (en minutos) (en minutos)
1 5.32 3.85 15 5.21 3.26
2 6.59 4.27 16 4.68 2.92
3 4.88 3.28 17 5.32 3.37
4 5.70 2.99 18 4.90 3.55
5 4.07 3.61 19 4.44 3.73
6 7.34 5.04 20 5.80 3.86
7 6.79 4.22 21 5.61 3.65
8 4.93 3.69 22 4.77 3.38
9 5.01 3.33 23 4.37 3.02
10 3.92 2.96 24 4.79 3.80
11 5.66 3.77 25 5.03 4.11
12 4.98 3.09 26 5.11 3.75
13 6.83 5.21 27 6.94 4.57
14 5.27 3.84 28 5.71 4.29
Por lo tanto,
ii = 104.41 = 3.729
28
de modo que
LCL no existe.
Observamos que el límite de control inferior (LCL) para R no existe puesto que
es imposible tener un alcance negativo. El diagrama R se muestra en la figura 16.16.
Un examen de esta figura no indica que haya ningún alcance individual fuera de
los límites de control.
a ------~-~-----------------------------~~~--v~
7
6.
Figura 16. 16
Diagrama R para los tiempos de entrega del equipaje.
Fuente: Tabla 16.S.
16.9.3 El diagrama X
Ahora que hemos determinado que el diagrama de control para el alcance está bajo
control, podemos continuar examinando el diagrama de control del promedio del
proceso.
(16.11)
en la que
LCL =X - A 2 R (16.13a)
UCL ;, X + A 2 R \_(1~.l~l>)
de modo que
5.356 ± 3 3 · 729
(2.326).[5
5.356 ± 2.151
Por lo tanto
LCL = 5.356 - 2.151=3.205
y
UCL = 5.356 + 2.151 = 7.507
Alternativamente, usando la ecuación (16.13), de la tabla E.13, A 2 = .557 y
::",:
.
4 ,.,; 'f'',;"
24 26 28
) ·.\
Figura 1!-17
Diagrama X para el tiempo promedio de entrega de equipaje. Fuente: Tabla 16.5.
Empleado
Día 1 2 3 4 5
1 114 499 106 342 55
2 219 319 162 44 87
3 64 302 38 83 93
4 258 110 98 78 154
5 127 140 298 518 275
6 151 176 188 268 77
7 24 183 202 81 104
8 41 249 342 338 69
9 93 189 209 444 151
10 111 207 143 318 129
11 205 281 250 468 79
12 121 261 183 606 287
13 225 83 198 223 180
14 235 439 102 330 190
15 91 32 190 70 150
(Continúa en la página siguiente)
'
'l ,.
''',, (16.14)
Esto produce (k - 1) alcances móviles de los cuales el alcance móvil promedio (MR)
se calcula con la ecuación (16.15)
k-1
,¿MR¡
i=l (16.15)
MR=.k-1
X ±J~R .. . ,;··
(16d6)
2
de modo que
• • t •
~ .1
.. ,, .. ,. ''.::·. . . : . ·.· . MR .
...UCL
·. : ...... + 3-.:
=X ······ , dz ..,•:.. : ,·!··:
, . •, i.;
.~
: .
. , 1·
' ;(i6.l,8)
',' 1¡·' 1 '''
Así pues,
x= 650.3 = 21.677
30
MR = 22º· 5 = 7.603
29
:Lx1
i•l
= 650.3 LMR¡ = 220.5
f=l
21.677 ± 3( 7.603)
1.128
21.677 ± 20.221
Por lo tanto,
21.677 ± (2.66)(7.603)
21.677 ± 20.22
de modo que
45
UCL
..
e
.,m,
'()
35
. :•'
40 ------------------------------------~--
'• ' ' -
"D
CD
.,
"O, 30
..!!!
·e 25
.!.
~
I!! 20
.e
oo
15
&:
.;e
CD 10
::>
()
o
_ora
Figura 16. 18
Diagrama de control de variable individual para la cantidad de cuentas por cobrar.
739 745 741 749 746 754 748 745 746 740
738 735 733 734 729 725 726 721 726 732
734 733 736 740 742 741 745 748 749 751
750 748 745 746 741 740 739 737 736 732
729 730 725 720 730 732 735 738 740 744
Problemas intercapítulo
16.29 Refiérase a los datos sobre el largo de los pantalones vaqueros del problema
3.41 de la página 82
(a) Construya un diagrama de control para el largo de los pantalones.
(b) ¿Existe evidencia de que el largo de los pantalones esté fuera de control?
16.30 Refiérase a los datos del problema 3.42 de la página 82.
(a) Construya un diagrama de control para las pruebas de tiempo de Victor
Sternberg.
(b) ¿Piensa usted que las pruebas de tiempo están bajo control?
(c) Compare el diagrama de control obtenido en el inciso (a) con la gráfica
digipunto del problema 3.42. Explique sus hallazgos.
16.31 Refiérase a los datos del problema 3.43 de la página 82.
(a) Construya un diagrama de control de los recibos de ventas diarias.
(b) ¿Qué patrones, si existen, puede usted observar en el diagrama de
control?
Juntando todo
TÉRMINOS CLAVE
administración de calidad total (fQM) 661 administración por proceso 661
administración por acción 661 alcance móvil 701
administración por control 661 área de oportunidad 687
administración por dirección 661 causas especiales de variación 662
Usted va a hacer una presentación al adicionales para las cuales se deben cons-
director ejecutivo del hospital y al truir diagramas de control. Finalmente,
Consejo de directores. Necesita preparar tiene la intención de explicar cómo la
un informe que resuma las conclusiones filosofía de Deming sobre la adminis-
obtenidas de los análisis de los diagramas tración por proceso puede ser instrumen-
de control de estas variables. Además, se tada en el contexto de su ambiente
espera que usted recomiende variables hospitalario.
Referencias
1. Aguayo, R., Dr. Deming The American Who Taught the 17. Montgomery, D. C. Jntroductia11 to Statistical Q11ality
fapanese about Q11a/íty (New York: Lyle Stuart, 1990). Control, Za ed.(Nueva York: John Wiley, 1991).
Z. Brassard, M., The Memory fogger Plus (Methuen, MA: 18. Port. O., "The push for quality", Bussines Week, 8 de
GOAL/QPC, 1989). junio, 1987, pp. 130-135.
3. Cryer, J. D., y T. P. Ryan, "The estimation of sigma for an 19. Ryan, T. P., Statistical Methods far Quality lmprovement
X chart: MR/d2 or S/c 4 ?", en foumal of Quality Technology, (Nueva York: John Wiley, 1989).
1990, Vol. 2Z, pp. 187-192. 20. Scherkenbach, W. W., The Deming Route tu Quality and
4. Deming, W. E., Out of the Crisis (Cambridge, MA: Centro Praductivity: Road Maps and Roadb/ocks (Washington,
de Estudios Avanzados en Ingeniería del MIT, 1986). D.C.: CEEP Press, 1986).
5. Deming, W. E., The New Economics far Business, lndustry, 21. Shewhart, W. A., "The applications of statistics asan
and Gavernment (Cambridge, MA: Centro de Estudios aid in maintainig quality of manufactured products",
Avanzados en Ingeniería del MIT, 1993). faurnal of the American Statistical Association, 1925,
6. Dobson, J. M., A History of American Enterprise (Englewood vol. 20, pp. 546-548.
Cliffs, NJ: Prentice-Hall, 1988). 22. Shewhart, W. A., Econumic Control of Quality of
7. Gabor, A., The Man Who Discovered Quality (New York: Manufactured Products (Nueva York: Van Nostrand
Time Books, 1990). Reinhard, 1931, reimpreso por la Sociedad
Estadounidense para el Control de la Calidad,
8. Gitlow, H., A. Oppenheim, y R. Oppenheim, Tools and Milwaukee, 1980).
Methads far the lmprovement of Qua/ity, Za ed. (Homewood,
Ill.: Richard D. Irwin, 1994). 23. Shewhart, W. A. y W. E. Deming, Statistical Metlwds
from the Viewpoint uf Quality Control (Washington,
9. Halberstam, D., The Reckoning (New York: William D.C.: Graduate School, Departamento de Agricultura,
Morrow, 1986). 1939, Dover Press, 1986).
10. Holusha, J., "The Baldridge badge of courage-and qual- 24. Sholtes, P. R., An Elaboration 011 Deming's Teaching a11
ity", New York Times, 21 de octubre, 1990, p. FlZ. Performance Appraisal (Madison, Wl: Joiner Associates,
11. Joiner, B. J., "The key role of statisticians in the transfor- 1987).
mation of North American lndustry", American 25. Skrebec, Q. R., "Ancient process control and its mod-
Statistícia11, 1985, vol. 39, pp ZZ4-234. ern implications", Quality Progress, 1990, vol. Z3, pp.
lZ. Joiner, D. J., Fourth Generation Manageme11t (Nueva York: 49-52.
McGraw-Hill, 1994) 26. Wallis, W. A., "The statistical research group 194Z-
13. Levine, D.M., P. P. Ramsey, y M. L. Berenson, Business l 945" , fournal uf the American Statistical Association,
Statistics far Quality and Productivity (Englewood Cliffs, 1980, vol 75, pp. 320-335.
N J: Prentice-Hall, 1995). 27. Walton, M., The Deming Management Method (Nueva
14. Main, J., "The curmudgeon who talks tough on quality", York: Perigee Books, Putnam Publishing Group,
Fortune, Z5 de junio, 1984, pp. 118-122. 1986).
15. Mann, N. R., The Keys to Excel/ence: The Story afthe Deming 28. Walton, M., Deming Management at Work (Nueva York:
Philosophy (Los Ángeles: Prestwick Books, 1987). G.P. Putnam, 1990).
16. The Memory fagger JI: A Pocket Cuide of Tools far Continuous
Improveme11t and Eftectíve Planning (Methuen, MA:
GOAL/QPC, 1994).
Referencias 71 1
capítulo
7U
1Q l 1ntroducción
En los capítulos anteriores hemos centrado nuestra atención principalmente en
una sola variable de respuesta numérica como el ingreso personal. Estudiamos
varias medidas de descripción estadística (véase capítulo 4) y diferentes técnicas
aplicadas de inferencia estadística para hacer estimaciones y llegar a conclu-
siones acerca de nuestra variable de respuesta numérica (véanse capítulos 10 a
14). En el presente capítulo y en el siguiente nos ocuparemos de problemas que
implican dos o más variables numéricas como un medio de considerar las rela-
ciones que existen entre ellas. Se analizarán dos técnicas, la regresión y la corre-
lación.
El análisis de regresión se utiliza principalmente con el propósito de hacer
predicciones. Nuestro objetivo en el análisis de regresión lineal es el desarrollo de
un modelo estadístico que puede ser utilizado para predecir los valores de una va-
riable de respuesta o dependiente basados en los valores de al menos una
variable independiente o explicatoria. En el presente capítulo enfocaremos
nuestra atención en un modelo de regresión simple: uno que utiliza una sola varia-
ble numérica independiente X para predecir la variable numérica dependiente Y.
En el capítulo 18 desarrollaremos un modelo de regresión múltiple: uno que uti-
. liza varias variables explicatorias (X 11 X 2 , • . • , Xp) para predecir una variable
numérica dependiente Y. 1
Refiriéndonos a nuestra Encuesta de Satisfacción de los Empleados, por ejem-
plo, suponga que a Bud Conley le gustaría desarrollar un modelo estadístico que le
pueda ayudar en la predicción del ingreso personal de los empleados de tiempo
completo de Industrias Kalosha. A pesar de que en la práctica realmente se
tomarían en consideración varias variables, parecería que el número de años de
antigüedad de los empleados de tiempo completo de la fuerza de trabajo podría ser
un pronosticador útil del ingreso personal. Para este modelo, la variable depen-
diente o de respuesta, Y (la cual se va a predecir), sería el ingreso personal, y la
variable explicatoria o independiente, X, utilizada para obtener la predicción, es el
número de años de antigüedad de los empleados de tiempo completo de la fuerza
de trabajo.
El análisis de correlación, al contrario del de regresión, se utiliza para
medir laintensidad de la asociación entre las variables numéricas. Por ejemplo, en
la sección 17.7 determinaremos la correlación entre el precio de un paquete de seis
latas de refresco y el precio del pollo en diferentes ciudades de varios países. En este
ejemplo, el objetivo no consiste en utilizar una variable para predecir otra, sino
que se trata de medir la intensidad de la asociación o de la covariación que existe
entre dos variables numéricas. Después de terminar el presente capítulo, el lector
será capaz de:
l. Interpretar los coeficientes de regresión obtenidos mediante el uso del
método de mínimos cuadrados de la regresión.
2. Interpretar los coeficientes de determinación y de correlación.
3. Diferenciar entre varias medidas de variación en el análisis de
regresión.
4. Familiarizarse con las suposiciones del análisis de regresión.
5. Utilizar el análisis residual para determinar si el modelo adecuado
ha sido ajustado a los datos.
6. Utilizar el análisis de influencia para determinar si algunas
observaciones están influyendo indebidamente el modelo de
regresión.
7. Hacer inferencias acerca de los coeficientes de regresión.
8. Hacer inferencias acerca del valor predicho de una variable de
respuesta.
El diagrama de dispersión 71 5
12
, 1'.·
. ,,.
,.,.!.1.·' !
.•
· •. ·: ,,,1 '.,·•
••• ,, '; , -~
'"•>
'"
·•• • ; ; ·,1 ,: .)¡
Figura 17.1
Diagrama de dispersión de las ventas semanales y el número de clientes.
Fuente: Los datos fueron tomados de la tabla 17.1, 715.
estimar las ventas semanales para un número dado de clientes será examinada en
secciones posteriores de este capítulo.
1 1,726 3,681
2 1,642 3,89S
3 2,816 6,6S3
4 S,SSS 9,S43
s 1,292 3,418
6 2,208 S,S63
7 1,313 3,660
8 1,102 2,694
9 3,lSl S,468
10 1,S16 2,898
11 S,161 10,674
12 4,S67 7,S8S
13 S,841 11,760
14 3,008 4,08S
20 so
20 SS
30 73
30 67
40 87
40 9S
so 108
so 112
60 128
60 13S
70 148
70 160
80 170
80 162
15 4
41 9
58 12
18 6
37 8
52 10
28 6
24 5
45 10
33 7
Figura 17.2
Relación de línea recta positiva.
y y .,
·.·
••
X X
Panel A PanelB
Relación lineal positiva Relaci.ón lineal.negativa
y y
••• ••••• • • •• .• • •
••• • • ... ·
... • • • • •
•
X X
Panel C PanelD
Ninguna relación entre Xy Y Relación curyiHnea positiva
. ,, ·.:I . : : ·... ;·· 1
y y
Figura 17.3
Ejemplos de tipos de relación Panel E , .. PimelF
encontrados en los diagramas de Relación curvilínea ~n forma de U Relación curvilínea negativa
dispersión.
(17.la)
A .
en la que Y¡ es el valor predicho de Y para la observación i, y X¡ es el valor de X para
la observación i.
Con el propósito de predecir valores de Y, esta ecuación requiere la determi-
nación de dos coeficientes: b0 (la intercección Y) y b1 (la pendiente). Cuando ya se
han obtenido b0 y b 11 se conoce la línea recta y puede ser graficada en el diagrama
I<Y1 - Y¡)z
i=l
.. í
·.. l, · , 'kY¡;= .. nko,+·"~Xx~·
r·: : ,.. ' ·· ,;·J;=l 1
•1 '·' , '-:f,=,1~· · ···>;·'< .
·
«In·/· , ' .-· .' .:~-~~¡,.~-L
+ b12: xt
.n · .
,(17;~) ..
.;·:·
(17.4) . '
en la que
n n
LY¡ :¿xi
y =--
i=I
n
y x = -n -
i=I
i=I
n
:¿x~ - nJ(_Z
i=I
en la que
n
LY¡
y = .!...:2__ = 176 ·11 = 8.8055
n 20
"
:¿x.
X = ~ = 14,623 = 731.15
n 20
de modo que
134,127.90 - (20)(731.15)(8.8055)
11,306,209 - 20(731.15) 2
5,365.08 = +.00873
614,603
h0 = f - b1X.
b0 = 8.8055 - (.00873)(731.15) = +2.423
Por consiguiente, la ecuación para la mejor línea recta que se ajusta a estos datos es
/\
Y; = 2.423 + .00873X;
La pendiente b 1 fue calculada como +.873. Esto significa que para cada incremento
de una unidad en X se estima que el valor de Y aumenta en un promedio de .00873
unidades. Es decir, por cada aumento de un cliente, el modelo ajustado predice una
estimación de un aumento de las ventas semanales de .00873 miles de dólares o
$8.73 (o podemos decir que por cada aumento de 100 clientes, se espera que las
ventas semanales aumenten en $873). En consecuencia, la pendiente puede con-
siderarse como la representación de la porción de ventas semanales que se estiman
variarán con respecto al número de clientes.
La intersección Y, b0 se calculó en +2.423 (miles de dólares); ésta representa el
valor promedio de Y cuando X es igual a cero. Puesto que es improbable que
el número de clientes sea cero, este valor puede verse como la expresión de la por-
ción de las ventas semanales que varían con respecto a factores diferentes al
número de clientes.
El modelo de regresión que ha sido ajustado a los datos puede utilizarse ahora
para predecir las ventas semanales. Por ejemplo, digamos que nos gustaría utilizar
el modelo ajustado para predecir las ventas semanales de una tienda con 600
clientes.
Podemos determinar el valor predicho si hacemos X= 600 en nuestra ecuación
de regresión,
Así pues, las ventas semanales promedio predichas para una tienda de 600 clientes
es de 7.661 miles de dólares o $7661.
·(1'.1.s)
"".·¡
11
j
.!!!
:g 10
""..
ID "
•
f:!! 9
o
400 5.00 700 800 900 1.000'
Número de clientes
Figura 17.4
Diagrama de dispersión y línea de regresión para el problema de los almacenes
departamentales.
n n n
Ly~
1=1 ... '
- b 0 LY; -b 4,.X¡Y
l=l"'
1
. 1·=1 '
1
.(17.6)
n72
n n n
:¿ v~ = 1,602.0971 LY¡ 176.11 LX;Y¡ 134,127.90
i = 1 j = 1 i =1
b0 = 2.423 b¡ = +.00873
n-2
1,602.0971 - (2.423)(176.11) - (.00873)(134,127 .90)
20 - 2
.497
Este error estándar de la estimación, igual a 0.497 (es decir, $497) representa
una medida de la variación alrededor de la línea de regresión ajustada. Se mide en
unidades de la variable dependiente Y. La interpretación del error estándar de la
estimación, entonces, es análogo a la de desviación estándar. Al igual que
la desviación estándar mide la variabilidad alrededor de la media aritmética, el
error estándar de la estimación mide la variabilidad alrededor de la línea de regre-
sión ajustada. Además, como veremos en las secciones 17.11 a 17.13, el error
estándar de la estimación puede utilizarse para hacer inferencias acerca de un valor
predicho de Y, y para determinar si existe una relación estadísticamente significa-
tiva entre las dos variables.
en la que
(17.9)
n n n
SSE = LY;
l=l
2 - h0 LY
i=l
1 - b1 LX Y
i=1
1 1
Además,
= 1,602.0971 - 20(8.8055) 2
1,602.0971 - 1,550.7366
51.3605
y
,z = 46.9145 = .913
51.3605
Por tanto, 91.3% de la variación de las ventas semanales puede explicarse mediante
la variabilidad en el número de clientes de una tienda a otra. Éste es un ejemplo en
el que existe una fuerte relación lineal entre dos variables, puesto que el uso de un
modelo de regresión ha reducido la variabilidad en la predicción de las ventas se-
manales en 91.3%. Solamente 8.7% de la variabilidad de la muestra de las ventas
semanales puede explicarse mediante factores difereqtes a los del modelo de regre-
sión lineal.
Para interpretar el coeficiente de determinación, en particular cuando se trata
con modelos de regresión múltiple, algunos investigadores sugieren que se calcule
r
un coeficiente ajustado para reflejar tanto el número de variables explicatorias
del modelo como el tamaño de la muestra. En la regresión lineal simple, sin em-
bargo, representamos el coeficiente ,:1- ajustado como
Así pues, para los datos de la tienda departamental, como r = 0.913 y n = 20,
ra¡u = 1 _ [ (1 _ rz) 20 - 1]
2
20 - 2
= 1 - [ (1 -0.913) !: ]
= 1 - .092
= .908
Figura 17.CS
Tipos de asociación entre varli\lbles.
de modo que
(17.12)
n
L(X¡. -X )(Y, -Y)
i=l . 1
r = --;============---;::::::========= (17.13a)
n
LX 1Y1 .:... nXY
1=1 : ' (:;'
.T = -;::::=========~-=========
n n
(l7.13b)
L x;·.:... nX 2 ' I'y~ ::e nY 2
i=l ' 1=1
De éstos obtenemos
28.65
9
x - - = 3.183
y - 23.00
- = 2.5556
9
de modo que con la ecuación (17 .13b)
n
:¿x;Y; - nXY
i=I
r = n n
:¿x~ - nX 2 Ly~ - nYz
i=I i=I
81.854 - 9(3.183)(2.5556)
=
~102.66 - 9(3.183) 2 ~67.132 - 9(2.5556) 2
81.8540 - 73.2172
..Jn.4594 ..J8.3522
r = +.883
Ftpara 17.7
Suposiciones de la
regresión.
17.9.1 Introducción
En nuestro análisis concerniente a los datos de la tienda departamental que hemos
vistó en todo lo que va del capítulo, hemos dependido de un modelo de regresión
simple en el cual la variable dependiente es predicha basándose en una relación de
línea recta con una sola variable independiente. En la presente sección utilizare-
mos un enfoque gráfico conocido como análisis residual para evaluar lo ade-
cuado del modelo de regresión que ha sido ajustado a los datos. Además, este
planteamiento nos permitirá también estudiar las violaciones potenciales de las
suposiciones de nuestro modelo de regresión (véase sección 17.8).
1,:<,«'
(t7;}4)
':J.
•
. ...... .
• • ••••
~
º"""""'"""'•~""':".~.!'--.~~~~~~~-
• •• ••• •
• • • •
••
•
(a) {b)
Figura 17.8
Estudio de lo adecuado del modelo de regresión lineal simple.
Residuos estandarizados
(17.15)
en la que
1 (X; - X)z
h¡ -+
n "
L,x; - nx 2
i=1
Los valores estandarizados nos permiten tomar en cuenta la magnitud de los resi-
duos en unidades que reflejen la variación estandarizada alrededor de la línea de
regresión. En la figura 17.9, los residuos estandarizados fueron graficados en fun-
ción de la variable independiente (número de clientes). De ésta podemos observar
que, a pesar de que existe una dispersión amplia en la gráfica de residuos, no existe
un patrón evidente o una relación entre los residuos estandarizados y X¡. Los resi-
duos parecen estar equitativamente distribuidos por arriba y por abajo de O, para
diferentes valores de X. Así pues, podemos llegar a la conclusión, con respecto a los
datos de la tienda departamental, que el modelo ajustado parece ser adecuado.
2 -
•
1 - • • •
(/)
•
o
'O •
al • • •
N
·e:
o •
"'e:
'O • • •
~Cl>
•
(/)
o -1 - •
"
'
'O
·¡¡;
Cl>
a:
•
-2 -
•
-3 A 1 1 1 1 1 1 1
y
o 400 500 600 700 800 900 1000
Número de clientes
Figura 17.9
Gráfica de los residuos estandarizados frente al número de clientes.
homoscedasticidad.
6
.¡i¡ 5
,e
:ep,
:::J
'o 4
·~
3
Figura 17.11
Gráfica de los residuos estandarizados para los datos de los
almacenes departamentales.
1 7 .1 O. 1 Introducción
Una de las suposiciones del modelo de regresión básico que hemos tomado en
cuenta es la independencia de los residuos. Esta suposición es violada a menudo
cuando los datos se recaban en periodos secuenciales, debido a que un residuo en
cualquier punto del tiempo puede tender a ser parecido a los residuos que se
encuentran en puntos de tiempo adyacentes. Así pues, es más probable que los
residuos positivos estén seguidos de residuos positivos, y los residuos negativos
vengan seguidos de residuos negativos. A este patrón que aparece en los residuos
se le conoce como autocorrelación. Cuando se tiene presente una autocorrelación
sustantiva en un conjunto de datos, la validez de un modelo de regresión ajustado
puede ponerse seriamente en dudas.
J;)rE!dictOX" ¡:< .·• ... ' eo~·f·' Stdev ' ·t;.ratio ·" p
Constant. ·· -16. 032 · 5·,.310 · '-3 .:02! 0.010
· · Cuetom·er ' ·o. 030760 ·:" o; o·ó6159 ·•· · ·s. o.o·,> O'~'OQO
'1i':
Figure 17.11
Resultados obtenidos con MINITAB para los datos de la tabla 17 .6.
Observamos de la figura 17.12 que res 0.657, lo cual indica que 65.7% de la
variación de las ventas puede explicarse por la variación en el número de clientes.
Además, la intersección con el eje Y, b0 , es-16.032, mientras que la pendiente, b 1 ,
es de 0.03076. Sin embargo, antes de que podamos aceptar la validez de este mode-
lo, debemos efectuar análisis adecuados de los residuos. Puesto que los datos han
sido recabados en un periodo de 15 semanas consecutivas, los residuos deben grafi-
carse con respecto al tiempo para ver si existe algún patrón. En la figura 17.13 se
representa la gráfica para los datos de la tabla 17.6.
', j .
. ',:'·
.. l'. 2·+ *
Figura 17.13
Gráfica obtenida con MINITAB de los residuos estandarizados con respecto al tiempo para los
datos de la tabla 17.6.
(17.16)
D = 10.058 = .883
11.39
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 90 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78 95 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 100 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65
Nota: n =número de observaciones; p = número de variables independientes.
Fuente: Tabla E.14.
Periodo Residuo
1 -5
2 -4
3 -3
4 -2
5 -1
6 +1
7 +2
8 +3
9 +4
10 +5
(a) Grafique los residuos con respecto al tiempo. ¿A qué conclusiones puede
llegar con respecto al patrón de los residuos en el tiempo?
(b) Calcule la estadística de Durbin-Watson.
(c) Basándose en los resultados obtenidos en los incisos (a) y (b), ¿a qué
conclusión podría usted llegar con respecto a la autocorrelación de los
residuos?
17.46 Suponga que los residuos correspondientes a un conjunto de datos recolectados
durante 15 periodos consecutivos son los siguientes:
Periodo Residuo
1 +4
2 -6
3 -1
4 -5
5 +2
6 +5
7 -2
8 +7
9 +6
10 -3
11 +l
12 +3
13 o
14 -4
15 -7
(a) Grafique los residuos con respecto al tiempo. ¿A qué conclusiones puede
usted llegar con respecto al patrón de los r~siduos en el tiempo?
i' .. ,
: (17.17)
en la que2
1
h, -+ n
n
¿x¡ - nX 2
i=l
Figura 17.14
Estimaciones de
intervalo de IJrx
para diferentes
valores de X.
en la que
1
h¡ =- + n
n
:¿x; - ¿z
i=l
(-131.15) 2
= 7.661 ± (1.044) -1+
20 11,306, 209 - 10,691, 606
Problemas de la sección I 7. I I
e 17.4 7 Refiérase al problema de las ventas de alimento para mascotas (páginas 716,
725 y 728), establezca una estimación de intervalo de confianza del 90% de las
ventas semanales promedio para todas las tiendas que poseen ocho pies de
espacio en estante por alimento para mascotas.
17.48 Refiérase al problema de elección de lugar (páginas 716, 725 y 728), establezca
una estimación de intervalo de confianza del 95% de las ventas promedio para
tiendas con 4,000 pies cuadrados.
e 17.49 Refiérase al problema de la producción horas-trabajador (páginas 717, 725 y
728), establezca una estimación de intervalo de confianza del 90% de las
horas-trabajador promedio para todas las corridas de producción con un
tamaño de lote de 45.
17.50 Refiérase al problema de la producción de tomates (páginas 718, 725 y 728),
establezca una estimación de intervalo de confianza del 90% de la producción
promedio para todos los tomates que han sido fertílízados con 15 libras por
cada 100 pies cuadrados de fertilizante orgánico natural.
17.51 Refiérase al problema sobre la productividad de encuestadores (páginas 718,
726 y 728), establezca una estimación de intervalo de confianza del 95% del
número promedio de entrevistas llevadas a efecto por todos los encuestadores
que tienen 20 semanas de experiencia.
17.52 Refiérase al problema de transporte desde el aeropuerto (páginas 718, 726 y
728), establezca una estimación de intervalo de confianza del 95% del tiempo
promedio de transporte para todas las distancias de 21 millas.
(17.18)
/\
en la h;, Y;, Syx, n, y X; que se definen del mismo modo que para la ecuación
(17.17) de la página 747.
Suponga que deseamos una estimación de intervalo de predicción del 95% de
las ventas semanales para una tienda individual con 600 clientes. Calculamos lo
siguiente:
/\
Y; = 2.423.+ .00873X;
/\
y para X;= 600, Y;= 7.661.
También
de modo que
1
l+-+------
(X; - X )2
n
- nx
11
:¿x~ 2
; = 1
1 (600 - 731.15) 2
7.661 ± (2.1009)(.497) 1 + - + - - - - - - - - -
20 11,306,209 - 20(731.15 )2
= 7.661 ± (1.044)~1.078
= 7.661 ± 1.084
así
Por consiguiente, con una confianza del 95%, nuestra estimación es que las ventas
semanales para una sola tienda que tiene 600 clientes están entre 6.577 (es decir
$6,577) y 8.745 (esto es, $8,745). Observamos que este intervalo de predicción es
t (17.19)
11
L x¡ - n5U
i =1
.497
.4 97 = .000634
ji 1, 306, 209 - 20(731.15) 2 j614,603
b¡
t =
.00873 = 13.77
.000634
Figura 17.15
Prueba de una hipótesis acerca de
la pendiente de población al nivel de
significación de 0.05, con 18 grados
de libertad.
r-p
t = (17.21)
fl=__C_
~n-2
r
t
/i7
f~
r
=
t
g
= -==.8=8=3== = .883 = +4.98
1 - (.883)2 .1774
9-2
Figura 17. us
Prueba de la existencia de correlación
al nivel de significación de .05, con
siete grados de libertad.
Problemas de la sección I 7. I 3
e 17.S9 Refiérase al problema sobre las ventas de alimento para mascotas (páginas 716,
72S y 728), al nivel de significación de .10, ¿existe evidencia de una relación
lineal entre el espacio en estantes y las ventas?
17.60 Refiérase al problema sobre la selección de lugar (páginas 716, 725 y 728), al
nivel de significación de .05, ¿existe evidencia de que haya una relación
lineal entre las ventas anuales y la superficie de la tienda?
e 17.61 Refiérase el problema sobre la producción horas-trabajador (páginas 717, 72S y
728), al nivel de significación de .10, ¿existe evidencia de que haya una
relación lineal entre el tamaño de lote y las horas-trabajador?
17.62 Refiérase el problema correspondiente a la producción de tomates (páginas
718, 72S y 728), al nivel de significación de .10, ¿existe evidencia de que haya
una relación lineal entre la cantidad de fertilizante utilizado y la
producción de tomates?
17.63 Refiérase al problema sobre la productividad de encuestadores (páginas 718,
726 y 728), al nivel de significación de .OS, ¿existe evidencia de que haya una
relación lineal entre el tiempo de experiencia en semanas y el número de
entrevistas llevadas a cabo?
17.64 Refiérase al problema concerniente al transporte desde el aeropuerto (páginas
718, 726 y 728), al nivel de significación de .OS, ¿existe evidencia de que haya
una relación entre la distancia y el tiempo de recorrido?
17.6S Refiérase al problema 17.34 de la página 73S, al nivel de significación de .01,
¿existe evidencia de que haya una relación lineal entre el precio de un paquete
de seis envases de refresco de cola y el precio del paquete de cien tabletas del
analgésico?
17.66 Refiérase al problema 17.3S de la página 73S, al nivel de significación de 0.10,
¿existe evidencia de que haya una relación lineal entre el precio que cobra un
estilista para damas y el de una camisa de vestir para caballero?
17.14.1 Introducción
El diagnóstico de regresión tiene que ver tanto con la evaluación de lo adecuado
de un modelo particular como con el efecto o influenda potenciales de cada punto
particular de dicho modelo ajustado. En la sección 17.19 hemos utilizado métodos
de análisis de residuos para estudiar lo adecuado de nuestro modelo ajustado. En
la presente sección tomaremos en consideración varios métodos para medir la
influencia de puntos de datos particulares. Entre una variedad de criterios de
reciente desarrollo (véanse referencias 1, 4, 6, 9, 20) estudiaremos los siguientes:
l. Los elementos de la matriz sombrero, h¡.
2. Los residuos de la t de Student eliminados, t~.
3. Estadística de distancia de Cook, D 1•
En la tabla 17 .9 de la página 756 se representan los valores de estas estadísticas para
los datos de los almacenes departamentales de la tabla 17.1, estos valores fueron
obtenidos con el paquete MINITAB. En la tabla 17.9 observamos que ciertos pun-
tos de datos han sido resaltados para hacerles un análisis más detallado.
1
h¡ =- + n
n
L X¡z - nxz
(17.22)
i =1
Cada h; refleja la influencia que tiene cada X; sobre el modelo de regresión ajus-
tado. Si tales puntos de influencia están presentes, tal vez sea necesario volver a
evaluar la necesidad de mantenerlos en el modelo. Para la regresión lineal simple 3
Hoaglin y Welsch (véase referencia 9) sugieren la siguiente regla de decisión:
Para nuestros datos sobre las tiendas departamentales, como n = 20, nuestro
criterio sería señalar cualquier valor h; mayor que 2/20 = 0.200. Refiriéndose a la
tabla 17.9, observamos que el décimo valor de h¡ (X_ 10) es de 0.2075. Esta décima
observación X es entonces un candidato potencial para su eliminación del modelo
correspondiente a los almacenes departamentales. Sin embargo, deben tomarse en
cuenta otros criterios para la medición de la influencia antes de tornar dicha
decisión.
e1
(17.23)
/\
en donde e1;1 = la diferencia entre el valor observado, Y;, y Y;, basada en un
modelo que incluye a todas las observaciones excepto a la i.
S(i) = el error estándar de la estimación para un modelo que incluye a
todas las observaciones menos a la i.
entonces esto significaría que los valores observado y predicho de Y son tan dife-
rentes que X; es un punto de influencia que afecta negativamente al modelo y
puede ser considerado como candidato para su eliminación.
Para los datos sobre las tiendas departamentales, como n = 20, nuestro criterio
sería indicar cualquier valor de tJ que sea mayor que l. 7396 (véase tabla E.3).
Refiriéndose a la tabla 17 .9, observamos que t j = 1.941 y t{3 = -2.463. Por con-
siguiente, las tiendas primera y decimotercera pueden, cada una, tener un efecto
adverso sobre el modelo. Notamos también que la décima observación fue señala-
da según el criterio h¡, pero la primera y le décimotercera no. En consecuencia, con
esta falta de consistencia deberíamos tomar en consideración otro criterio, el cri-
terio D; de Cook, que está basado en las estadísticas h; y en los residuos estandariza-
dos.
D; > F.so,2,n - 2
esto significaría que la observación podría tener un impacto sobre los resultados de
ajuste del modelo de regresión lineal.
Para los datos de las tiendas departamentales, como n = 20, nuestro criterio
consistiría en señ.alar cualquier D¡ > F.so, 2, 18 = 0.720 (véase tabla E.Sa). Refiriéndose
a la tabla 17.9 de la página 756, observamos que no existen valores D¡ que cum-
plan con este criterio. Puesto que estos resultados no son consistentes con los
obtenidos según los criterios h¡ y tt no existe una clara base para eliminar
cualquiera de las observaciones del modelo de regresión ajustado.
17.14.5 Resumen
En la presente sección hemos analizado varios criterios para evaluar la influencia
de cada observación sobre el modelo de regresión. Como hemos observado, las
diferentes estadísticas a menudo no producen resultados consistentes. En tales cir-
cunstancias, la mayoría de los estadísticos llegarían a la conclusión de que hay evi-
dencias insuficientes para la eliminación de tales observaciones del modelo.
Además de los tres criterios presentados aquí, se han desarrollado otras medidas
de la influencia (véanse referencias 1 y 10). Mientras que diferentes investigadores
parecen preferir medidas particulares, actualmente no existe consenso con respecto
a las "mejores" medidas. En consecuencia, solamente cuando se tiene consistencia
en un conjunto seleccionado de medidas resulta apropiado tomar en con-
sideración la eliminación de observaciones particulares.
En conclusión, deberíamos, también, darnos cuenta de que, debido a los cálcu-
los impJicados tanto en el análisis de residuos como en el análisis de influencia, no
es práctico efectuar una evaluación de diagnóstico sin la ayuda de un paquete de
co,mputación. Sin embargo, como ha observado Tukey (véase referencia 18), es
mejor dejar la decisión real concerniente a la eliminación de cualquier observación
en manos del usuario, antes que delegar tal decisión en el paquete de computación
mismo.
17.1 S. I Introducción
Cuando estudiamos i.a estadística descriptiva y la prueba de hipótesis utilizá!IlOS la
Encuestá de Satisfacción de Emplea,dos. para ilustrar ,el papel de. la corripufad9ra
com,o una. ayuclá pai:a realizar elanáliSis de los datos; El papel de 'los paquet~s de
software de compu.tación se vuelve todavía más importante cuando s~ aplican al
análisis de regresión y de correlación,. y, en particular, a los problemas de i:egr~sión
múltiple que esttidiarem9s en el capítulo 18. Resµlta razonable establecer que c:on
el desarrollo de las técnicas de análisis de residuos y de influencia, el pa,pel que
desempefta la cómputé,ldora se ha convertido en algo decisivo, incluso enl(Js easos
en que se está considerando un mo.delo de regresión simple. ' ·
Figura 17.17
Resultado obtenido con SAS para el problema de los almacenes departamentales.
·z
D>·::_ SR¡h¡
(17.24)
. ¡ 2(1::.. h,)
D ¡ > F'.so,2,n - 2
esto significaría que la observación podría tener un impacto sobre los resultados de
ajuste del modelo de regresión lineal.
Para los datos de las tiendas departamentales, como n = 20, nuestro criterio
consistiría en señalar cualquier D¡ > F.so, 2, 18 = 0.720 (véase tabla E.5a). Refiriéndose
a la tabla 17.9 de la página 756, observamos que no existen valores D¡ que cum-
plan con este criterio. Puesto que estos resultados no son consistentes con los
obtenidos según los criterios h¡ y tf, no existe una clara base para eliminar
cualquiera de las observaciones del modelo de regresión ajustado.
17.14.5 Resumen
En la presente sección hemos analizado varios criterios para evaluar la influencia
de cada observación sobre el modelo de regresión. Como hemos observado, las
diferentes estadísticas a menudo no producen resultados consistentes. En tales cir-
cunstancias, la mayoría de los estadísticos llegarían a la conclusión de que hay evi-
dencias insuficientes para la eliminación de tales observaciones del modelo.
Además de los tres criterios presentados aquí, se han desarrollado otras medidas
de la influencia (véanse referencias 1 y 10). Mientras que diferentes investigadores
parecen preferir medidas particulares, actualmente no existe consenso con respecto
a las "mejores" medidas. En consecuencia, solamente cuando se tiene consistencia
en un conjunto seleccionado de medidas resulta apropiado tomar en con-
sideración la eliminación de observaciones particulares.
En conclusión, deberíamos, también, darnos cuenta de que, debido a los cálcu-
los impJicados tanto en el análisis de residuos como en el análisis de influencia, no
es práctico efectuar una evaluación de diagnóstico sin la ayuda de un paquete de
computación. Sin embargo, como ha observado Tukey (véase referencia 18), es
mejor dejar la decisión real concerniente a la eliminación de cualquier observación
en manos del usuario, antes que delegar tal decisión en el paquete de computación
mismo.
Problemas de la sección I 7. I 4
17.67 ¿Cuál es la diferencia entre el análisis de residuos y el análisis de influencia?
17.68 Explique la diferencia que existe entre la medida h¡ y r¡.
Para los datos de los problemas 17.69 a 17.74 lleve a cabo un análisis de influencia
y determine si alguna observación puede ser eliminada del modelo. Si esto es neesario,
vuelva a analizar el modelo de regresión después de haber eliminado tales observaciones y
compare los resultados que obtenga con los del modelo original.
17.IS.I Introducción
Cuando estudiamos la estadística descriptiva y la prueba de hipótesis utilizamos la
Encuesta de Satisfacción de Empleados para ilustrar el papel de la computadora
como una ayuda para realizar el análisis de los datos. El papel de los paquét~s de
software de computación se vuelve todavía más importante cuando se aplican al
análisis de regresión y de correlación, y, en particular, a los problemas de regresión
múltiple que estudiaremos ert el capítulo 18. Resulta razonable establecer que con
el desarrollo de las técnicas de análisis de residuos y de influencia, el papel que
desempeña la computadora se ha convertido en algo decisivo, incluso éll los casos
en que se está considerando un modelo de regresión simple. ··
Figura 17.17
Resultado obtenido con SAS para el problema de los almacenes departamentales.
STATISTIX 4.0
PREDICTOR
VARIABLES COEFFICIENT STD ERROR STUDENT'S T p
SOURCE DF SS MS F p
Figura 17.18 Resultado obtenido con STATISTIX para el problema de los almacenes departamentales.
Ana:.lysie of Variance
SO URCE DF· SS MS F p
Regreeeion l SSR 46. 834 46.834 186.22 o··ººº
Error 18 SSE 4.527 0.251.
Total 19 SST 51. 360
Figura 17.19
Resultado obtenido con MINITAB para el problema de los almacenes departamentales.
·, ...
... .
*
7 s+
'.Cn:célme . -. ·"'
•
50+ • ... *
...,.,
*
*
2
... ** * ..
**t: ** * *
.. ** 2*'2. ,·,,
25+ ·~ 2*' 2* * ..
* ::•.• *. .. ! *: • *·
* * '2.2 * •
. .i
* *
..... ··,.+.-. "·; e - • - • - + - - ~ "·- - - ·- - ·+ ·- - • -·-e • "·-.;. ~ ·- - ~· -. -· - - ;; + - - " - • ~ . ccc· - +-. -·· '" - - FTféars
o ·~º 20 30 40 ~?
Figura 17.10 Diagrama de dispersión obtenido con MINITAB para los 57 empleados cuya
ocupación se clasifica como técnica de ventas.
Analyeis of Variance
SOURCE DF SS MS F p
Regreeaion l 2639.2 2639.2 15.86 o.ooo
Error 55 9151.7 166.4
Total 56 11791.0
Figura 17.l I
Resultado obtenido con MINITAB para los 57 empleados cuya ocupación está clasificada
como técnica/de ventas.
Std.Res.-
2.0+
* *2 *
o.o+ •* 2 2 • *2
2•
-2.0+
+ - - - - - - - - - + - - - - - - - - - + - - - - - - - - - + - - - - - - - - - + - - - - - - - - - + - - - - - - FTY ear e
10 20 30 40 50
Figura 17.22
Resultado obtenido con MINITAB para los 57 empleados cuya ocupación está clasificada
como técnica/de ventas.
Hietogram of Std.Ree. N = 57
Midpoint Count
-2. o l *
-l. 5 2
-l. o 11 ***********
-o.s 7 *******
o.o 19 *******************
0.5 10 **********
l. o
l.5
2. o
l
2
2
..
*
** Figura l 7.2J
2.5 o Gráfica de residuos obtenida con MINITAB
3. o l * para el modelo de regresión de la figura
3,5 1 17.21.
Anscombe (referencia 2) mostró que para los cuatro conjuntos de datos dados en
la tabla 17 .10, se pueden obtener los resultados siguientes:
Y¡ 3.0 + .SX;
Syx 1.236
sb¡ .118
,2 .667
n
SSR =variación explicada = L (Y; - Y; )2 = 27.50
i=l
~ -2
SST = variación total = .4J (Y; - Y ) = 41.25
i=l
Cuando se grafican los residuos estandarizados, Y5, observamos qué tan dife-
rentes son los conjuntos de datos. En los paneles A, B, C y D de la figura 17 .25 de
la página 768 se presenta, para cada conjunto de dato~ una gráfica de los residuos
estandarizados en función de los valores ajustados de Y. Mientras que la gráfica co-
rrespondiente al conjunto de datos A no muestra ninguna anomalía evidente, no
es lo mismo para los conjuntos de datos B, C y D. La forma parabólica de la gráfica
de residuos correspondiente al conjunto de datos B probablemente indica que el
modelo básico de regresión lineal simple debería aumentarse para que pueda
incluir un término curvilíneo, de la forma en que se hará en la sección 18.10. La
gráfica correspondiente al conjunto de datos C muestra claramente lo que muy
bien podría ser una observación externa. Si éste es el caso, podemos considerar
apropiado eliminar la observación externa y reestimar el modelo básico. El resul-
tado de este ejercicio probablemente sería una relación mucho muy diferente de lo
obtenido originalmente. Similarmente, la gráfica correspondiente al conjunto de
datos D se debería evaluar con cuidado, pues el modelo ajustado depende mucho
del resultado de una sola respuesta (X8 = 19 y Y8 = 12.50).
En resumen, las gráficas de residuos son de vital importancia para efectuar un
análisis de regresión completo. La información que arrojan es tan básica para
obtener un análisis fidedigno que tales gráficas deberían incluirse siempre como
parte de un análisis de regresión. ·
Así pues, una estrategia que podría emplearse para evitar las tres primeras difi-
cultades de la regresión implicaría el siguiente planteamiento:
l. Empiece siempre con un diagrama de dispersión para observar la posible
relación entre X y Y.
2. Verifique las suposiciones de la regresión después de que el modelo de
regresión haya sido ajustado, antes de proceder con el uso de los
resultados del modelo.
3. Grafique los residuos (o los residuos estandarizados) en función de la
variable independiente. Esto le permitirá determinar si el modelo que
se ajusta a los datos es apropiado y le permitirá, también, verificar
visualmente si hay violaciones de la suposición de homoscedasticidad.
• .•.;i\()
,,·~lí
• •
•••••
'l
' •.:¡, 1:t~~
~ ~ ·:!ii:
~ o ~
Cll
o ¡,
,...,,,,
-1
·• -1
• • ·'''º'
',:-r
• • • •
-2 -2
'-3 ·y
A
·-3 "y
o 5 10 15 o 5 10 15
Panel.A PanelB
3 3
2
• 2
••..
·~
~.
o •• ~
¡;)'
o
..
•
•••• ~
•
••
Figura 1t.25
' .,.1 -1
••
Gráfica de Y 1 con respecto a los -2 -2
residuos estandarizados. A
;·-30 y" ~3 y
Fuente: F.]. Anscombe, "Graphs in statistical 5 10 15 o 5 10 15
analysis", American Statistician, vol. 27
Pa~elC
. : T.
1 7. 1 6. J Consideraciones éticas
Las consideraciones éticas surgen cuando un usuario que desea efectuar prediccio-
nes manipula el proceso de desarrollo del modelo de regresión. La clave, en este
caso, es la intención. El comportamiento no ético se presenta cuando alguien uti-
liza el análisis de regresión para:
•
l. Predecir una variable de respuesta de interés con la intención voluntaria
de posiblemente excluir ciertas variables del modelo.
2. Eliminar observaciones del modelo con el fin de obtener un mejor
modelo sin dar razones del porqué se eliminaron las observaciones.
3. Hacer predicciones sin proporcionar una evaluación de las supo:siciones
cuando se sabe que las suposiciones de la regresión de mínimos
cuadrados han sido violadas.
Todas estas situaciones nos deberían hacer más conscientes de la importancia de
seguir los pasos presentados en la sección 17.16.2 y de conocer las suposiciones
de la regresión, cómo evaluarlas y qué hacer cuando alguna de ellas es violada.
1 3 25 9 12 44
2 4 32 10 12 51
3 4 26 11 14 53
4 7 38 12 16 58
5 7 34 13 17 61
6 8 41 14 20 64
7 9 39 15 23 66
8 11 46 16 25 70
(a) Construya un diagrama de dispersión.
(b) Utilice el método de mínimos cuadrados para encontrar los coeficientes
de regresión b0 y b 1•
(c) Interprete el significado de la intersección con el eje Y, b0 , y la pendiente,
b 11 de este problema.
(d) Si se tiene un pedido de un automóvil con 16 opciones, ¿cuántos días
predecirá usted que tardará la entrega?
Circulación
(en miles de ejemplares)
Periódico Domingo Diaria
Notas finales
l. En la sección 18.12 investigaremos los modelos de regresión 3. El criterio más general para la regresión múltiple será
múltiple en los que al menos una de las variables analizado en la sección 18. 16.
independientes es categórica (véase modelos de variable 4. Consulte nota anterior (3).
ficticia), mientras que en la sección 18.17 desarrollaremos
un modelo para predecir una variable de respuesta 5. Es interesante e instructivo observar que si hubiéramos
categórica utilizando regresión logística. construido las gráficas de residuos utilizando la variable
independiente en el eje X (en lugar de los valores estimados
2. Las h; son los "elementos diagonales de la matriz Y) hubiéramos llegado a las mismas conclusiones.
sombrero", que reflejan la influencia (véase sección 17.14)
de cada X; en el modelo de regresión lineal simple.
Referencias
l. Andrews, D.F. y D. Pregibon, "Finding the Outliers that 11. MINITAB Reference Manual Re/ease 8 (State College, PA.:
Matter" (Búsqueda de los externos que importan), fvurnal of MINITAB, !ne., 1992).
the Royal Statislical Society, Ser. B., 1978, vol. 40, pp. 85-93. 12. Neter, J., W. Wasserman y M.H. Kutner, Applied Linear
2. Anscombe, F.J., "Graphs in Statistical Analysis" (Gráficas Statistical Models, 3a. ed. (Homewood, IL: Richard D.
en análisis estadístico), American Statistician, 1973, vol 27, Irwin, 1990).
pp. 17-21. 13. Pregibon, D. "Logistic Regression Diagnostics"
3. Atkinson, A.C., "Robust and Diagnostic Regression Analysis" (Diagnósticos de regresión logística), Annals uf Statistics,
(Análisis robusto y diagnóstico de regresión), 1981, vol. 9, pp. 705-724.
Cvmmunicativns in Statislics, 1982, vol. 11, pp. 2559-2572. 14. Ramsey, P.P. y P.H. Ramsey, "Simple Tests of Normality in
4. Belsley, O.A., E. Kuh y R. Welsch, Regressivn Diagnvstics: Small Samples" (Pruebas simples de normalidad en mues-
Ide11tifying Influential Data allll Sources oc Collinearily tras pequeñas), foumal of Quality Tec/1110/ugy, 1990, vol. 22,
(Nueva York: John Wiley, 1980). pp. 299-309.
5. Berenson, M.L., D.M. Levine y M.Goldstein, Intermediate 15. Ryan, B.F. y B.L. joiner, Minitab Student Hmufbvok, 3a. ed.
Statisical Methods ami Applications: A Co111p11ter Package (North Scituate, MA: Duxbury Press, 1994).
Appruacl1 (Englewood Cliffs, N]: Prentice-Hall, 1983). 16. SAS Language and Proced11res Usage, Versión 6 (Cary, NC:
6. Cook, R.O. y S. Weisberg, Residuals and lnfluence in SAS lnstitute, 1988).
Regression (Nueva York: Chapman and Hall, 1982). 17. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
7. Conover, W.J., Practica! Nonparametric Statistics, Za. ed. Software, 1992).
(Nueva York: john Wiley, 1980). 18. Tukey, ]. W., "Data Analysis, Computation and
8. Draper, N.R. y H. Smith, Applied Regression Analysis, 2a. ed. Mathematics" (Análisis de Datos, Computación y
(Nueva York: John Wiley, 1981). Matemáticas), Quaterly foumal uf Applied Mat/zematics,
9. Hoaglin, D.C. y R. Welsch, "The Hat Matrix in Regression 1972, vol. 30, pp. 51-65.
and ANOVA" (La matriz sombrero en regresión y ANOVA), 19. Velleman, P.F. y R. Welsch, "Efficient Computing of
Tile American Statistician, 1978, vol. 32, pp. 17-22. Regression Diagnostics" (Cálculo efectivo de diagnósticos
10. Hocking, R.R., "Developments in Linear Regression de regresión), The American Statislician, 1981, vol. 35, pp.
Methodology: 1959-1982" (Desarrollos en metodología de 234-242.
regresión lineal: 1959-1982), Technometrics, 1983, vol. 25, 20. Weisberg, S., Applied Linear Regression (Nueva York: John
pp. 219-250. Wiley, 1980).
Modelos de regresión
múltiple
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Desarrollar el modelo de regresión
múltiple como una extensión del
CAPÍTULO modelo de regresión lineal simple y
evaluar la contribución de cada
variable independiente al modelo de
regresión. Además, extender los
procedimientos de inferencia para
predecir el valor promedio de Y; medir
el coeficiente de determinación
parcial; desarrollar y probar el modelo
de regresión curvilínea; introducir las
variables ficticias en el análisis de
regresión; ilustrar el proceso de
construcción de modelos; e introducir
el modelo de regresión logística.
781
1l:H1 Introducción
En nuestro análisis del modelo de regresión simple que realizamos en el capítulo
anteri<?r, enfocamos nuestra atención en un modelo en el que una variable inde-
pendiente o explicatoria, X, es utilizada para predecir el valor de una variable
dependiente o de respuesta, Y. Podemos recordar que desarrollamos el modelo de
regresión simple con el fin de predecir las ventas de una cadena de tiendas depar-
tamentales, basándonos en el número de clientes. A menudo se da el caso de que
se puede desarrollar un modelo que se ajusta mejor si se toma en cuenta más de
una variable explicatoria. Así pues, en el presente capítulo extenderemos nuestro
análisis a los modelos de regresión múltiple en los que se pueden utilizar varias
variables explicatorias para predecir el valor de una variable dependiente.
Después de terminar el capítulo, usted deberá ser capaz de:
l. Interpretar los coeficientes de regresión.
2. Utilizar el modelo de regresión múltiple para predecir la variable de
~espuesta.
3. Determinar si existe una relación entre la variable de respuesta y las
variables independientes incluidas en el modelo.
4. Determinar cuáles variables independientes hacen una contribución
significativa al modelo de regresión.
5. Interpretar el coeficiente de determinación múltiple.
6. Interpretar los coeficientes de determinación parcial.
7. Tomar en cuenta la posibilidad de inclusión de términos curvilíneos
en el modelo de regresión.
8. Entender de qué manera se pueden incluir variables independientes
categóricas en el modelo de regresión.
9. Entender los modelos de regresión que incluyen términos de interacción
y modelos de regresión que implican variables transformadas.
10. Entender el problema de la multicolinealidad y cómo puede medírsele.
11. Utilizar los análisis de residuos y de influencias en la regresión múltiple.
12. Utilizar los planteamientos por pasos y de mejor subconjunto para
construir un modelo de regresión múltiple.
13. Utilizar la regresión logística para predecir una variable de respuesta
categórica.
1 275.3 40 3
2 363.8 27 3
3 164.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323.0 38 3
15 52.5 58 10
Superficie de Regresión
9¡ =562.1508 - 5.436579 X1¡-20.1231 X21
Figura 18.1
Diagrama de dispersión de la temperatura
atmosférica diaria promedio, X 1, cantidad de
aislamiento en el ático, X2, y consumo mensual
de petróleo para calefacción, Y, con el plano de
regresión señalado, ajustado mediante el
método de mínimos cuadrados.
(18.lá.)
(18.lb)
Este modelo de regresión lineal múltiple puede ser comparado con el modelo de regre-
sión lineal simple [ecuación (17.1)] que se expresa como
(18.2)
.T f<?R HO:.
VARIABLE DF.
i : . ! ' ~' PARAME~~~~.9 PRO~' :> : ~ t;,
·INTERCEP. 1 bo 562.151 121.093104 Sb · 26.651 . o.:0·0·1D·;1:··,
T.EMPF ... 1 b.1 -5.436581, .O.H6216,Sbª· -16.170 :' , • o.:000.1>,
IN;SU 1 ti2,-20.012321 ~-~4~?05S~:;. -8.543:1
....
, p.oHAt
VARIABLE DF TYPE I SS TYPE II SS
Figura 18.2
Resultado parcial obtenido con el procedimiento REG del paquete SAS para los
datos de la tabla 18.1
b0 = 562.151 b1 = -5.43658
/\
en la que Y; = cantidad promedio predicha de petróleo para calefacción
que se consume durante el mes de enero para la observación i
X¡¡= temperatura atmosférica promedio diaria (ºF) durante enero para
la observación i
X 2 ; = cantidad de aislamiento en el ático (pulgadas) para la observación i
973 o 40 12 1,577 45 45
2 1,119 o 40 13 1,044 50 o
3 875 25 25 14 914 50 o
4 625 25 25 15 1,329 55 25
5 910 30 30 16 1,330 55 25
6 971 30 30 17 1,405 60 30
7 931 35 35 18 1,436 60 30
8 1,177 35 35 19 1,521 65 35
9 882 40 25 20 1,741 65 35
10 982 40 25 21 1,866 70 40
11 1,628 45 45 22 1,717 70 40
Predicción de la variable dependiente Y para valores dados de las variables explicativas 789
Suponga que deseamos predecir el número de galones de petróleo para cale-
facción consumidos en una casa que posee 6 pulgadas de aislamiento en el ático,
durante un mes en el cual la temperatura atmosférica diaria promedio fue de 30ºF.
Utilizando nuestra ecuación de regresión múltiple
/\
Y¡ = 562.151 - 5.43658Xli - 20.0123X 2 ;
y, por consiguiente,
/\
y i = 278.9798
En consecuencia estimaríamos que un promedio de 278.98 galones de petróleo
para calefacción se utilizarían en casas con 6 pulgadas de aislamiento en el ático,
cuando la temperatura promedio fuera de 30ºF.
,!._ .•
rz =
aju
1_[(l _,2 r.12
)(15(15- -2 1)- 1) ]
= 1 - [ (1 - .9656) ~~ J
= 1 - .04
= .96
En consecuencia, 96% de la variación en el uso de petróleo para calefacción domés-
tica puede ser explicada por nuestro modelo de regresión múltiple: ajustado para
el número de variables de predicción y el tamaño de muestra.
Con el propósito de hacer un estudio más profundo de la relación entre las
variables, a menudo resulta de utilidad examinar la correlación entre cada pareja
de variables incluidas en el modelo. Esta matriz de correlación, que indica el coefi-
ciente de correlación entre cada pareja de variables, se muestra en la tabla 18.2 en
la página 792.
¡----
----------------------1
. ··~; :
:;'. :•·
- . ':U.
Figura 18.3
Gráficas de residuos para el
modelo de consumo de
•P! f.~d¡ petróleo para calefacción,
.co ! Ct). 00 200.0~) 3Cü.OO 0 IOC1. Ot.l 'iüD. 00 obtenidas con el paquete
MINITAB.
Esta hipótesis nula puede probarse utilizando una prueba F, como se indica en
la tabla 18.3. Podemos recordar de las secciones 13.6 y 14.4 que la prueba F se utiliza
cuando probamos el cociente de dos varianzas. Cuando probamos la significación de
n
LX Y + b LX Y
11 11
n n 11 11
los coeficientes de regresión, la medida del error aleatorio se conoce como varianza
de error, de modo que la prueba F es el cociente de la varianza debida a la regresión
dividida entre la varianza de error, como se muestra en la ecuación (18.5):
'•' ·•
.. 1 •:,'·
·"'
en la que P es el número de variables explicatorias del modelo de regresión, y F
sigue una distribución F con P y n - P - 1 grados de libertad.
La regla de decisión es:
Tabla 18.4 Tabla de análisis de varianza para probar la significación de un conjunto de coeficientes de regresión
para el problema sobre el consumo de petróleo para calefacción.
Cuadrado medio
Fuente df Suma de cuadrados (varianza) F
Regresión 2 (562.151)(3,247 .4) + (-5.43658)(98,060.1) 228, 014.6263 114, 007.31315
+ (-20.0123)(18,057) - 15(216.493) 2 2 676.71692
= 228,014.6263 =114,007.31315 = 168.47
= 8,120.6030 = 676.71692
Total 15 - 1=14 939,175.68 - 15(216.443)2 = 236,135.2293
Fuente: Formato de la tabla 18.3.
Prueba de la importancia de la relación entre la variable dependiente y las variables explicativas 795
Si se elige un nivel de significación de .05, de la tabla E.5 determinamos que el
valor crítico en la distribución F (con dos y 12 grados de libertad) es 3.89, como se
muestra en la figura 18.4. De la ecuación (18.5), puesto que F = 168.47 > Fu(z, 12) =
3.89, podemos rechazar H0 y llegar a la conclusión de que al menos una de las varia-
bles explicativas (temperatura y/o aislamiento) está relacionada con el consumo de
petróleo para calefacción.
Figura 18.4
Prueba de la significación de
un conjunto de coeficientes de regresión
al nivel de significación de .05, con 2 y o 3.89 FU(2,12)
12 grados de libertad.
tenemos
{x~lJ g} { 51,076 }
176,939
51,076
176,939 261.47
F = 176,939 = 26 1. 47
676.717
Puesto que se tienen, respectivamente, uno y doce grados de libertad, si se selec-
ciona un nivel de significación de .05, de la tabla E.S podemos observar que el valor
crítico es de 4.75 (véase figura 18.7). Como el valor de F calculado es mayor que
este valor de F crítico (261.47 > 4.75), nuestra decisión sería rechazar H0 y llegar a
la conclusión de que la adición de la variable X1 (temperatura atmosférica diaria
promedio) mejora significativamente el modelo de regresión múltiple que ya tiene
incluida la variable X 2 (aislamiento en el ático).
Figura 18.7
Prueba de la contribución de un
coeficiente de regresión a un modelo de
o 4.75 FU(1.12¡ regresión múltiple al nivel de significación
de .OS, con 1 y 12 grados de libertad.
SSR(X 1 ) = 178,624
Por consiguiente,
{xJ~J {1l
lj
{178,624}
49,391
178,624
49,391 72.99
F = 49,391 = 72 _99
676.717
como se indica en la tabla 18.6. Puesto que se tienen uno y 12 grados de libertad,
respectivamente, si se elige un nivel de significación de .05, de nuevo observamos
en la figura 18.7 que el valor crítico de Fes 4.75. Ya que el valor calculado de Fes
mayor que este valor crítico (72.99 > 4.75), nuestra decisión es rechazar la hipóte-
sis nula y llegar a la conclusión de que la adición de la variable X 2 (aislamiento en
el ático) mejora significativamente el modelo de regresión múltiple que ya con-
tiene a la variable X 1 (temperatura atmosférica diaria promedio).
Así pues, al probar la contribución de cada variable explicativa después de que
la otra ya ha sido incluida en el modelo, determinamos que cada una de las dos
variables independientes contribuye mejorando significativamente el modelo. Por
consiguiente, nuestro modelo de regresión múltiple debería incluir tanto la tem-
Sin embargo, esta ecuación puede ser generalizada para la regresión múltiple de la
forma siguiente:
(18.8)
Ha: Pz =O
Hi: Pz ;;t O
De la ecuación (18.8) tenemos
t = - 20 ·0123 = -8.5431
2.3425
Figura 18.8
Prueba de la significación de un
coeficiente de regresión al nivel
de significación de .05, con 12
grados de libertad.
·::,;: :1l";';l.
Como el valor crítico de tal nivel de confianza de 95%, con 12 grados de libertad,
es 2.1788 (véase tabla E.3), tenemos
-5.43658 ± (2.1788)(.33622)
-5.43658 ± .732556
-6.169136 : :; 131 : :; -4.704024
Figura 18.9
Intervalos de confianza obtenidos cDn el procedimiento REG de SAS
para el modelo de consumo de petróleo para calefacción.
(18.1 la)
y también
2
Trz.1 (18.llb)
mientras que en un modelo de regresión múltiple que contiene varias (P) variables
explicativas, tenemos
2 49,391
Ty2.1 = -----------
236,135 - 228,015 + 49,391
= 0.8588
Capitulo 18
ªºª Modelos de regresión múltiple
(18.13)
en la que ~o =intersección Y
~1= efecto lineal en Y
~ 11 = efecto curvilíneo en Y
E.; = error aleatorio en Y para la observación i
P, -:¡::; ho
' '
+h1'X11 +h11~:,
':!
Ú8.13a)
. . •. ., . "''' ·' -~ '•
(18.14)
El centrado de uno de tales modelos puede hacerse tanto por razqnes numéricas
como por razones estadísticas. Primero, desde una perspectiva computacional,
puede lograrse más precisión si la media se resta de cada valor antes de que el
modelo de regresión se resuelva de manera numérica. Segundo, y quizá lo más
importante, la varianza de la variable explicativa puede aumentar grandemente
debido a que X1 y x;
están correlacionadas de manera positiva. Como X 1 y x; lle-
van esencialmente la misma información, en ocasiones resulta difícil determinar
si el término X1 es realmente significativo desde el punto de vista estadístico.
También es posible que la pendiente del término X1 tenga un signo opuesto a la
tendencia indicada por el diagrama de dispersión. Para evitar estos problemas,
algunos investigadores (véase referencia 10) recomiendan centrar la variable X1 en
un modelo de regresión curvilíneo.
Matemáticamente hablando, la ecuaci~n (18.13a) y la ecuación (18.14) son
equivalentes. Dan los mismos valores para Y¡ y para b 11 , y explican la misma can-
tidad de la variación total. La diferencia entre los dos modelos se presenta en los
términos correspondientes a la intersección (b 0 en función de hó) y al efecto lineal (b 1
en función de bí).
y
180
170 ••
160 •
150
140
130
..••
...,..•..
1?0
"'
.l!l
e
Q)
>
110
100
90
80
, .•
70 •
60
50
40 '
30
20
10
o ~-"""""'_,....,_...._,.__._,ao._,.__,,.90~-1_.o,..o~,-1..1... 2-.p,.-, X: ' .,
0--.1....
,Precio (cent~v~$) '' ,·,,
, ' ' ' ::_l-,'
Figura 18. 1O
Diagrama de dispersión del precio (X) y las ventas (Y).
SOURCE o:F SS , MS
R~gression 2 12442.8 6221.4
Error 12 1987.6 165.6 , 1: . 1, 1·1
Total 14 14430.4
.,.
SOuRcE· DF •sEQ sis
pricecen 1 11289.6
" p:i;-c~ns,c;i:· . 1 :.1~5~.2 .•. , ·' . .: .. '.i·
!· '·'"
Figura 18.1 1
Resultado parcial obtenido con MINITAB para los datos de la tabla 18.7.
en la que X1 = 99,
para X1 ; = 79 tenemos
Así pues, observamos que se espera que una tienda que vende las rasuradoras en 79 cen-
tavos venda 52.2 paquetes más que una tienda que vende las rasuradoras en 99
centavos, pero se espera que una tienda que las venda a 99 centavos venda sola-
mente 15 paquetes más que una tienda que las venda a $1.19.
La hipótesis nula puede ser probada utilizando una prueba F [ecuación (18.5)]
como se indica en la tabla 18.8.
Total 11 - 1 SST = ! Y/ - 11 f2
i=l
Para los datos de la tabla 18. 7, la tabla ANOVA se presenta como parte del resul-
tado de computación de la figura 18.11 de la página 809.
Si se selecciona un nivel de significación de .05, de Ja tabla E.5 tenemos que,
para dos y 12 grados de libertad, el valor crítico de la distribución F es de 3.89
(véase figura 18.13). Utilizando la ecuación (18.5), puesto que
F = MSR 6 ' 22 1. 4
MSE 165.6
= 37.57 > F U(Z,12) = 3.89
podemos rechazar la hipótesis nula (H0 ) y llegar a la conclusión de que existe una
relación curvilínea significativa entre las ventas y el precio de las rasuradoras.
Figura 18. 1 3
Prueba de la existencia de una relación
o 3.89 Fu(2,12¡ curvilínea al nivel de significación de .OS,
con 2 y 12 grados de libertad.
SSR
ri.12
SST
r,.,2,. l, = 1 - [ ( 1 - ,. z )
\'.\Z
( 1 5 - 1)
(15 - 2 - 1)
l
= 1 - [ (1 - .862) ~~]
=1-.161
= .839
y el modelo lineal
Estos dos modelos pueden ser comparados mediante la determinación del efecto
de regresión que se tiene al agregar el término curvilíneo, dado que el término lineal
ya ha sido incluido, esto es, SSR(X~IX 1 ).
Podemos recordar que en la sección 18.8.l utilizamos la prueba t para el coefi-
ciente de regresión con el fin de determinar si cada variable particular hizo una
contribución significativa al modelo de regresión. En la figura 18.11 de la página
809, observamos que el error estándar de cada coeficiente de regresión y su corres-
pondiente estadística t están disponibles como parte del resultado obtenido con el
paquete MINITAB. Así pues, podemos probar la significación de la contribución del
efecto curvilíneo con las siguientes hipótesis nula y alternativa:
de modo que
t = .0465 = 2.64
.01762
Si se selecciona un nivel de significación de .OS, de la tabla E.3 encontramos,
con doce grados de libertad, que los valores críticos son -2.1788 y + 2.1788 (véase
figura 18.14). Puesto que t = 2.64 > t 12 = 2.1788, nuestra decisión sería rechazar H0
y llegar a la conclusión de que el modelo curvilíneo es significativamente mejor
que el modelo lineal en la representación de la relación entre las ventas y los precios.
Figura 18. 14
Prueba de la contribución del
efecto curvilíneo a un modelo de
regresión, al nivel de significación
de .05, con 12 grados de libertad.
Y¡ = ~ ;) + ~; ( X 1 i - X1) + ~ 1 1 (X 1 i - X1)2 + Ei
Como en el caso del efecto curvilíneo, podemos utilizar la prueba t para deter-
minar la contribución del efecto lineal dado que el efecto curvilíneo ya se encuen-
tra incluido en el modelo.
Para nuestros datos,
de modo que
-1.68
-8.26
.2035
Velocidad Velocidad
Millas por (millas Millas por (millas
Observación galón por hora) Observación galón por hora)
1 4.8 10 15 21.3 45
2 S.7 10 16 22.0 45
3 8.6 15 17 20.5 so
4 7.3 15 18 19.7 so
s 9.8 20 19 18.6 SS
6 11.2 20 20 19.3 55
7 13.7 25 21 14.4 60
8 12.4 25 22 13.7 60
9 18.2 30 23 12.1 65
10 16.8 30 24 13.0 6S
11 19.9 35 25 10.1 70
12 19.0 3S 26 9.4 70
13 22.4 40 27 8:4 7S
14 23.S 40 28 7.6 7S
X
consumo de alcohol y
Mecanógrafo (onzas) número de errores
1 o 2
2 o 6
3 o 3
4 7
5 5
6 1 9
7 2 12
8 2 7
9 2 9
10 3 13
11 3 18
12 3 16
13 4 24
14 4 30
15 4 22
1 o 6
2 o 9
3 20 19
4 20 24
5 40 32
6 40 38
7 60 46
8 60 50
9 80 48
10 80 54
11 100 52
12 100 58
(18.15)
puesto que X 2 = O.
Para empleados que sí participan en decisiones presupuestales el modelo se
reduce a
/\
Y 21.963 + 0.7314Xu
puesto que X 2 = l.
Los modelos ajustados para los dos tipos de empleados se presentan en la
figura 18.15.
80
• Aquellos que no participan en
decisiones presupuestales
70
• Aquellos que sí participan en
decisiones presupuestales
60
50 • >':•
o •
E
"'~
Cl
40
30 •
. •
•,, ..
.e,.
•
••
20
.W'' • •
10
• ••
o
10 20 30 40 50
Años trabajados
Figura 18. 1 5
Modelos de regresión para los empleados que participan en decisiones presupuestales y
para los que no.
1 120 22S 1
2 99 170 o
3 91 1S3 1
4 82 132 o
5 124 237 1
6 104 187 1
7 127 245 1
8 80 125 1
9 115 215 1
10 97 170 o
11 117 223 o
12 86 147 o
13 109 197 1
14 94 167 o
15 112 210 o
en la que Y¡ = ingreso
~o = intersección con Y
~ 1 = pendiente del ingreso con la antigüedad en la fuerza de trabajo,
manteniendo constante si el individuo participa o no en
decisiones presupuestales
~ 2 = efecto de aumento de la participación individual en decisiones
presupuestales, manteniendo constante la antigüedad en la
fuerza de trabajo
~ 3 = pendiente que representa la interacción de la antigüedad en la
fuerza de trabajo y la participación en las decisiones presupuestales
E¡ = error aleatorio en Y correspondiente al empleado i
(18.19)
Yi --Ax~1x~z
1-'0 1i 2i E¡ (18.20)
puede ser transformado, también, a una forma lineal (tomando el logaritmo natu-
ral tanto en la variable dependiente como en las explicativas). El modelo resultante
es
In Y; (18.23)
e
l l:H 1 Multicolinealidad
Un problema importante en la aplicación del análisis de regresión múltiple implica
la posible multicolinealidad de las variables explicativas. Esta condición se
refiere a situaciones en las que algunas de las variables independientes están alta-
mente correlacionadas entre sí. En tales situaciones, las variables colineales no pro-
porcionan información nueva, y se vuelve difícil separar el efecto de tales variables
sobre las variables dependiente o de respuesta. En estos casos, los valores de los
coeficientes de regresión para las variables correlacionadas pueden fluctuar drásti-
camente, dependiendo de qué variables estén incluidas en el modelo.
Un método para me<fir la colinealidad utiliza el factor inflacionario de
varianza (VIF) (por sus siglas: Variance Inflationary Factor) para cada variable
independiente. Este VIF se define en la ecuación (18.24):
1
VIF¡ (18.24)
1 - RI2
1
1 - (.00892) 2
VIF1 = VIF2 =: 1.00
Así pues, podemos llegar a la conclusión de que no existe razón para sospechar la
presencia de multicolinealidad para los datos correspondientes al petróleo para
calefacción.
Regresaremos a este tema de la multicolinealidad en la sección 18.16, en Ja cual
estudiaremos la construcción de modelos.
1 8. 1 5. 1 Introducción
Ahora que ya hemos tomado en consideración Ja cuestión de si existe
multicolinealidad entre las variables explicativas, y hemos evaluado lo adecuado
del modelo ajustado a través del uso del análisis de residuos, estamos listos para
utilizar las técnicas del análisis de influencia, estudiadas en la sección 17 .14,
para determinar si alguna observación individual tiene alguna influencia negativa
sobre el modelo ajustado.
Podemos recordar que en la sección 17 .14 tomamos en consideración tres
observaciones:
l. Los elementos de la matriz sombrero, h¡
2. Los residuos de la t de Student eliminados, t~
3. La estadística de distancia de Cook, D¡
,····- '"'·
. :R6w • 1 i:it:ng:<:Ai · ':,:: pred.~
Figura 18.16
Estadística de influencia obtenida con el paquete MINITAB para los daóM sobre el consumo de
petróleo para calefacción.
rnc;o . • = º.··'. ~ ,+' 4 .•~ 3 óR.G?10NEY. • + o •. 7·6. s.. WRKYEA!ls . ~...1. '. o1 Enu'é
. . ·. · + ·3 ;25 SEX :.: O. 2j}5 EMPYEAR:S + O. 31 NUMPROMO + 5 .38 !ilEcrn:E:
1~75 PROUDORtf+ 2.13 SCH00LNG - 6.78 TRAINING
Figura 18. 17
Resultado obtenido con MINITAB para el modelo de regresión completo con diez variables
explicativas.
.~:~~ .>t"'<'ti~'·
0
WRKYEARS
T-:-RATIO '·,.'.! . .
~. ;:<~r:'j:~.::~/·?·;
g .... ; ' .... ,,12.,9,,, ¡,.1:;¡.4.,.\;;:.:
·.AJf~;s~',/::·/,;·_/:;?_:!,:.'3'.~ ;', . ~9:8,~;;;· · ·
Figura 18. 18
Resultado parcial obtenido con el paquete MINITAB para el modelo que predice el
ingreso utilizand<' la regresión por pasos.
Figura 18. u~
Resultado parcial del modelo de interacción, obtenido con el paquete MINITAB.
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 3523.3 1761. 7 11. 51 0.000
Error 54 8267.7 153.1
Total 56 11791. o
SOURCE DF SEQ SS
WRKYEARS 1 2639.2
ORGMONEY 1 884.1
Histogram of STRES N 57
Midpoint Count
-2.0 2 **
-l. 5 3 ***
-l. o 5 *****
-0.5 12 ************
o.o 19 *******************
0.5 5 *****
l. o 5 *****
l. 5 3 ***
2.0 o
2.5 1
3.0 2 **
Figura 18.20
Resultado obtenido con MINITAB para un modelo que incluye los años de trabajo y
la participación en decisiones presupuestales.
ajustado. En la figura 18.21 observamos que ciertos puntos de datos han sido seña-
lados para su posterior análisis.
Para nuestro modelo ajustado, como n = S7 y P = 2, utilizando la regla de
decisión sugerida por Hoaglin y Welsch (véase sección 18.15.2), nuestro criterio
sería señalar cualquier valor de h¡ mayor que 2(2 + 1)/57 = .1053. Refiriéndonos a
la figura 18.21, observamos que las observaciones 2 (h 2 = .1249), 19 (h 19 = .1074),
y 43 (h 43 = .2081) tienen valores de h¡ que exceden a .1053 y, por consiguiente, se
les considera como candidatos para su eliminación del modelo.
Regresando a la medida de los residuos de la t de Student eliminados, t;', para
nuestro modelo, como P == 2 y n = 5 7, y utilizando la regla de decisión sugerida por
Hoaglin y Welsch (véase sección 18.15.3), nuestro criterio sería señalar cualquier
valor de jt'¡j mayor que 1.6741 (véase tabla E.3). Refiriéndonos a la figura 18.21,
t; t;
observamos que t*13 = 3.58772, 9 = 3.07302, 1 == 1.73938, t~ 5 = 2.49158,
t~ 0 = -1.84229, y t~ 5 = -2.03612. Así pues, estas observaciones pueden tener un
efecto negativo sobre el modelo. Notamos que la observación 19 también fue se-
ñalada de acuerdo con el criterio h¡, pero las observaciones 13, 31, 45, SO y SS no.
*
STRES *
*
2.0+
* *
* *
*** * *
* * *
o.o+ ***2* *3* * ** * *
*** **
* 2* * * *
***
-2.0+ * *
+---------+---------+---------+---------+---------+-----WRKYEARS
o 10 20 30 40 50
4.0+
*
STRES *
*
2.0+
* *
* *
5
4
O.O+ 9 7
2 8
8 *
2 2
-2.0+ * *
--+---------+---------+---------+---------+---------+---ORGMONEY
o 0.20 0.40 0.60 0.80 1.00
Figura 18.21
Estadisticas de influencia obtenidas con MINITAB para el modelo de la
figura 18.20.
_ (1 - R:. )( n - T) _ ( _ •) (18.25)
cP. - 2 n 2p
1- RT
ADJUSTED
p CP R SQUARE R SQUARE RESID SS MODEL VARIABLES
Figura 18.22
Resultado de la regresión de mejor subconjunto, obtenido con el paquete STATISTIX.
en la que
p* = P + 1, número de parámetros incluidos en un modelo de regresión
con P variables independientes
T = número total de parámetros a ser considerados para su inclusión en el
modelo de regresión
R~. = coeficiente de determinación múltiple para un modelo de regresión
que tiene p* parámetros
R~ = coeficiente de determinación múltiple para un modelo de regresión
que contiene a todos los T parámetros
Utilizando la ecuación (18.25) para calcular CP. para el modelo que contiene cinco
variables independientes (WRKYEARS, ORGMONEY, EDUC, IDECIDE y TRAIN-
ING) tendríamos
n = 57 p* 6 T 10 + 1 = 11 R;. = .3882
e.p =
( 1 - .3882 )( 5 7 - 11) -
[57 - 2 (6 )]
1 - .4096
el'. = 2.667
Cuando un modelo de regresión con P variables independientes solamente con-
tiene diferencias aleatorias respecto a un modelo real, el valor promedio de Cp* es
p', el número de parámetros. Por lo tanto, al evaluar muchos modelos de regresión
alternativos, nuestro objetivo es encontrar modelos cuya Cp• esté cerca de p* o por
debajo de ésta.
En la figura 18.22 observamos que muchos modelos contienen valores de Cp•
C\ue se encuentran por debajo de p*. Como fue el caso con el criterio del coeficiente
r ajustado, Cp* nos ha proporcionado varios modelos alternativos para que los
podamos evaluar con más profundidad utilizando otros criterios, como el de par-
simonia, el de interpretabilidad, el de desviaciones de las suposiciones del modelo
(evaluadas mediante un análisis de residuos) y el de influencia de las observaciones
individuales.
Regresión logística
. . .. probabilidad de un éxito
Cociente de pos1b1hdades = 1 - b b·i·d· d d , . (18.26)
- pro a i i a e un exito
.75
Cociente de posibilidades 1 __ 75 =3.0 o 3 a 1
18.17.2 Aplicación
Para ilustrar el modelo de regresión logística, supongamos que el departamento de
comercialización de una compañía de viajes y de entretenimiento que opera
mediante tarjetas de crédito está a punto de iniciar una campaña periódica para
convencer a los actuales clientes que poseen una tarjeta de crédito estándar de la
compañía para que la cambien por una de sus tarjetas premium, por un cargo
nominal anual. La principal decisión que enfrenta el departamento de comerciali-
zación tiene que ver con la cuestión de saber a cuáles de los clientes con tarjeta
Tabla 18.10 Comportamiento de adquisición, gastos anuales con tarjeta de crédito y posesión de tarjetas de
crédito adicionales para una muestra de 30 tarjetahabientes.
Posesión de Posesión de
Comportamiento Gastos tarjeta de Comportamiento Gastos tarjeta de
Observación de adquisición anuales credito adicional Observación de adquisición anuales credito adicional
1 o 32.1007 o 16 o 23.7609 o
2 34.3706 1 17 o 35.0388 1
3 o 4.8749 o 18 1 49.7388 1
4 o 8.1263 o 19 o 24.7372 o
5 o 12.9783 o 20 1 26.1315
6 o 16.0471 o 21 o 31.3220
7 o 20.6648 o 22 40.1967 1
8 1 42.0483 23 o 35.3899 o
9 o 42.2264 24 o 30.2280 o
10 37.9900 1 25 1 50.3778 o
11 1 53.6063 1 26 o 52.7713 o
12 o 38.7936 o 27 o 27.3728 o
13 o 27.9999 o 28 59.2146 1
14 42.1694 o 29 50.0686
15 56.1997 30 35.4234
DEVIANCE :rn. oB
P-V~LUÉ . . o. s:~? s
DEGREES··•OF
.
FRÉEOoM:
. .
Figura 18.21
Resultado parcial de la regresión logística para los datos de la tabla 18.1 O, obtenido con
el paquete STATISTIX.
Esto se puede interpretar como que las posibilidades de que un cliente que gastó
$36,000 el año anterior y posee tarjetas adicionales adquiera la tarjeta premium
durante la campaña en vez de no adquirirla son de 2.3513 a l. Esto puede conver-
tirse a una probabilidad si utilizamos la ecuación (18.30), de modo que
2.3513
Probabilidad estimada de adquirir la tarjeta premium
1 + 2.3513
.7016
Así pues, estimaríamos que la probabilidad de que un cliente que gastó $36,000 el
año anterior y tenga tarjetas adicionales adquiera la tarjeta premium durante la
campaña es de. 7016. En otras palabras, se podría esperar que 70.16% de tales indi-
viduos adquieran la tarjeta premium.
Ahora que ya hemos usado el modelo de regresión logística para hacer una
predicción, tomaremos en consideración otros dos aspectos del proceso de ajuste
de modelos: el hecho de si el modelo ajustado es un modelo que ajusta bien, y el
hecho de si cada una de las variables independientes incluidas en el modelo hace
una contribución significativa al mismo. Una estadística que se utiliza en oca-
siones para evaluar la cuestión de si el ajuste del modelo es un buen ajuste es la
estadística de desviación. Ésta mide el ajuste del modelo actual en compara-
ción con un modelo que tiene tantos parámetros como puntos de datos (a lo que
se le conoce como modelo saturado). La estadística de desviación sigue una <lis-
Regresión logística 84 1
Éxito en la Promedio puntual de Resultado
licenciatura calificaciones en el último año GMAT
o 2.93 617
o 3.05 557
o 3.11 599
o 3.24 616
o 3.36 594
o 3.41 567
o 3.45 542
o 3.60 551
o 3.64 573
o 3.57 536
1 2.75 688
1 2.81 647
1 3.03 652
1 3.10 608
1 3.06 680
1 3.17 639
1 3.24 632
1 3.41 639
1 3.37 619
1 3.46 665
1 3.57 694
1 3.62 641
1 3.66 594
1 3.69 678
1 3.70 624
1 3.78 654
1 3.84 718
1 3.77 692
1 3.79 632
1 3.97 784
o 24.3 3.0 o 2 38
o 2S.6 4.3 1 45
o 61.7 1.9 2 47
o 34.9 4.5 1 o 37
o 37.2 1.7 o 1 39
o 27.5 3.2 o 2 37
o 40.0 4.6 45
o 33.1 7.9 1 46
o 35.3 5.6 3 37
o 44.8 6.0 2 39
o 27.9 4.S 2 47
o 54.6 9.1 3 36
o 32.3 4.2 1 38
o 40.6 9.4 2 44
o 48.9 2.3 o o 32
1 57.3 6.9 1 43
1 74.1 8.3 1 39
1 44.6 10.8 o 2 40
1 70.1 10.1 o 1 SS
1 71.4 10.3 1 49
1 63.1 6.8 1 2 53
1 84.1 7.2 o o Sl
1 44.7 3.3 1 3 48
1 36.2 4.7 o 2 41
1 S2.9 5.7 o 45
1 39.S 10.9 o 2 43
1 84.6 8.3 o o 62
1 67.4 7.8 o 3 sz
51.6 6.3 o o 34
S6.4 7.2 4S
PREDICTOR
VARIABLES COEFFICIENT STO ERROR STUDENT'S T p
SOURCE DF SS MS F p
Figura 18.24
Resultado parcial obtenido con STATISTIX para los datos sobre el consumo de petróleo para
calefacción.
s = 26.01
ANALYSIS OF VARIANCE
DUE TO DF SS MS=SS/DF
REGRESSION 2 228015 114007
RESIDUAL 12 8121 677
TOTAL 14 236135
Figura l 8.2S
Resultado parcial obtenido con MINITAB para los datos correspondientes al consumo de
petróleo para calefacción.
Jos de regresión, tenemos dificultades adicionales relacionadas con el uso del análi-
sis de regresión de las cuales necesitamos preocuparnos. i~stas son:
1. La necesidad de entender que el coeficiente de regresión para una variable
independiente particular es interpretado desde una perspectiva en la
cual los valores de todas las demás variables independientes se
mantienen constantes.
2. La necesidad de utilizar gráficas de residuos para cada variable inde-
pendiente incluida en el modelo.
3. La necesidad de evaluar los términos de interacción para determinar si
la pendiente de otras variables independientes con la variable de
respuesta es la misma en cada nivel de la variable ficticia.
4. La necesidad de obtener el factor inflacionario de varianza (VIF) para
cada variable independiente antes de determinar cuáles de éstas se
deben incluir en el modelo.
S. La necesidad de examinar varios modelos alternativos utilizando la
regresión de mejor subconjunto además de cualquier procedimiento
de regresión por pasos.
6. La necesidad de emplear la regresión logística en lugar de la regresión
de mínimos cuadrados cuando la variable de respuesta es categórica.
Juntando todo
TÉRMINOS CLAVE
cociente de posibilidades 837 estadística c/I" 835
coeficiente de determinación estadística de desviación 840
múltiple 790 estadística de Wald 841
coeficiente de determinación factor inflacionario de varianza (VIF) 824
parcial 805
modelo curvilíneo centrado 807
coeficiente de regresión neta 784
modelo de regresión curvilíneo 806
criterio de prueba F parcial 797
Ajuste de
un modelo
Regresión
Regresión
de mejor
por pasos
subconjunto Determinación e
interpretación de los
oeficlentes de regresió
Ajustado
i2
Si
Utilice el modelo
para predicción
y estimación
Total de Total
Horas horas de Horas Horas de
Semana Dubner trabajo Semana Dubner trabajo
1 323 2,001 14 207 1,720
2 340 2,030 15 287 2,056
3 340 2,226 16 290 1,890,
4 352 2,154 17 355 2, 187,
5 380 2,078 18 300 2,032
6 339 2,080 19 284 1,856
7 331 2,073 20 337 2,068
8 311 1,758 21 279 1,813
9 328 1,624 22 244 1,808
10 353 1,889 23 253 1,834
11 518 1,988 24 272 1,973
12 440 2,049 25 223 1,839
13 276 1,796 26 272 1,935
Parte JI
Suponga que nos gustaría desarrollar un modelo para predecir el número de
juegos ganados. Evalúe las otras seis variables proporcionadas (carreras, E.R.A.,
salvamentos, hits permitidos, bases por bola concedidas y errores) como posi-
bles variables explicativa a ser incluidas en el modelo. Asegúrese de llevar a
cabo un análisis de residuos completo y de evaluar las medidas de influencia.
Además, proporcione una explicación detallada de los resultados obtenidos.
Distancia recorrida en
Automóvil entrega (cientos de millas)
1 7.5
2 13.3
3 4.7
4 14.6
5 8.4
6 12.6
7 6.2
8 16.4
9 9.7
10 17.2
11 10.6
12 11.3
13 9.0
14 12.3
15 8.2
16 11.5
Referencias
l. Andrews, D. F. y D. Pregibon, "Finding the Outliers That 11. Marquardt, D. W. y R. D. Sncc, "Ridge Regression in
Matter", fu11mal uf t/Je Royal Statistical Society, Ser. B., 1978, Practice", T/1e American St11tisticia11, 1975, vol. 29, pp. 3-
vol. 40, pp. 85-93. 19.
2. Atkinson, A. C., "Robust and Diagnostic Regression 12. Norusis, M. J. SPSS fin Wi11dows Base Systems User\ Cuide
Analysis", Cu1111111111irntions in Statistics, 1982, vol. 11, pp. Rr:lease 5.0 (Chicago, IL: SPSS, lnc., 1992).
2559-2572. 13. Pregibon, D., "Logistic Regression Diagnostics" , A111wls of
3. Belsley, D. A., E. Kuh y R. Welsch, Regression Diagnustics: Statistics, 1981, vol. 9, pp. 705-724.
Identifying Influentiol Data al/(/ Somas of Col/inearity 14. Ryan, B. F. y B. L. Joiner, Mi11itab St11de11t Handbook, 3a. ed.
(Nutva York: John Wiley, 1980). (North Scituate, MA: Duxbury Press, 1994).
4. Berenson, M. L., D.M. Levine y M. Goldstein, lntermediate 15. SAS Language allll Procrdures Usagr, Versión 6 (Cary, NC:
Statistical Metlwds al1{f Applirntions: A Computer Package SAS lnstitute, 1988).
Approach, (Englewood Cliffs, NJ: Prentice-Hall, 1983).
16. Snee, R. D., "Sorne Aspects of Nonorthogonal Data
5. Cook, R. D. y S. Weisberg, Residuals and I11(111e11ce in Analysis, Part l. Developing Prediction Equations", founwl
Regressiu11 (Nueva York: Chapman and Hall, 1982). of Quality Tec/1110/ogy, 1973, vol. 5, pp. 67-79.
6. Dillon, W.R. y M. Goldstein, Multivariate Anolysis: Methods 17. STATISTIX Usa\ G11idr (Tallahassee, FL: Analytical
and Applications, Za. ed. (Nueva York: John Wiley, 1988). Software, 1992).
7. Hoaglin, D. C. y R. Welsch, "The Hat Matrix in Regression 18. Tukey, J. W. "Data Analysis, Computation and
and ANOVA", The American Statisticia11, 1978, vol. 32, pp. Mathematics", Quaterly foumal of Applird Mat/Jrmatics,
17-22. 1972, vol. :rn, pp. 51-65.
8. Hocking, R. R., "Developments in Linear Regression 19. Tukey, J. W., Explomtory Data Analysis (Reading, MA:
Methodology: 1959-1982" Tecl1110111etrics, 1983, vol. 25, Addison-Wesley, 1977).
219-250.
20. Velleman, P. F y R. Welsch, "Efficient Computing of
9. Hosmer, D., y S. Lemeshow, Applied Logistic Regressiu11 Regression Diagnostics" , The American Statistida11, 1981,
(Nueva York: john Wiley, 1989). vol. 35, pp. 234-242.
10. Marquardt, D. W., "You Should Standardize the Predictor 21. Weisberg, S., Applied Linear Regressiu11 (Nueva York: John
Variables in Your Regression Models", análisis de "A Wiley, 1980).
Critique of Sorne Ridge Regression Methods" por G. Smith
y F. Campbell, fournal uf t/1e American Stotistical Associatiun,
1980, vol. 75, pp. 87-91.
Pronóstico de series
de tiempo
••••••••••••••••••••••••••• • •••••••••••••••••••••••••••••
OBJETIVOS DEL Introducir una variedad de modelos
de series de tiempo para fines de
CAPÍTULO pronóstico.
857
j C·JI 1 Introducción
En los dos capítulos anteriores estudiamos el tema del análisis de regresión como
una herramienta para la construcción de modelos y la predicción. A este respecto,
el análisis de regresión brinda una útil guía para la toma de decisiones adminis-
trativas. En el presente capítulo desarrollaremos otros métodos de predicción
empresarial. Al término de este capítulo, el lector deberá ser capaz de:
l. Entender los componentes del modelo clásico de series temporales.
2. Predecir el valor futuro de una serie de tiempo utilizando los métodos
de mínimos cuadrados.
3. Utilizar los métodos del suavizado exponencial y de los promedios
móviles.
4. Utilizar los modelos de predicción de Holt-Winters y el autorregresivo
S. Utilizar la desviación absoluta media (MAD, por sus siglas:
mean absolute deviation) para predecir errores.
6. Utilizar, con datos mensuales, la proyección de la tendencia de mínimos
cuadrados y los índices estacionales con fines de predicción.
19.J. 1 Introducción
Para lograr los objetivos del análisis de series de tiempo, se han diseñado muchos
modelos matemáticos para explorar la fluctuación entre los factores componentes
de una serie de tiempo. Tal vez el más esencial es el modelo multiplicativo
clásico para los datos registrados anual, trimestral o mensualmente. En el pre-
sente texto será este método el que estudiaremos.
Figura 1SI. I
Ventas netas (en miles de millones de dólares) de la Compañía Eastman Kodak ( 1970-1992).
Fuente: Moody's Handbook o(Common Stocks, 1980, 1989, 1993.
(19.1)
en la que, en el año i,
T¡ = valor del componente de tendencia
C¡ = valor del componente cíclico
I¡ = valor del componente irregular
Por otra parte, cuando los datos se obtienen de manera trimestral o mensual,
una observación Y¡ registrada en el periodo i puede estar dada como
(19.2)
al
"O
·e:
::::1
Q)
"O
(/)
Q)
e:
~
.E
e:
~
~
:§
~
Q)
"O
(/)
~Q)
>
ro n ~ m ~ oo ~ M ~ ~ oo ~
Año
Figura 19.2
Ventas de fábrica (en millones de unidades) de la General Motors Corp. (1970-1992).
Fuente: Los datos fueron tomado de la tabla 19.2.
serie compuesta den años, un promedio móvil de longitud L (dado por el símbolo
MA;(L) puede calcularse al año i de la forma siguiente:
l (L-1)/ 2
.= (L-1)
1 - + (L-1) +
2- 1, - 2- 2, .. . ,n - (L-1)
-2-
Para ilustrar el uso de la ecuación (19.3), suponga que deseamos calcular los
promedios móviles de cinco años de una serie que contienen= años. Puesto que
L = 5, entonces i = 3, 4, 5, 6, 7, 8, 9. Por consiguiente tenemos
11
MA 3 (5) = (1/5) (Y1 + Y2 + Y3 + Y4 + Y5 )
MA 4 (5) = (1/5) (Y2 + Y3 + Y4 + Y5 + Y6 )
MA 5 (5) = (1/5) (Y3 + Y4 + Y5 + Y6 + Y7)
MA 6 (5) = (1/5) (Y4 + Y5 + Y6 + Y7 + Y8)
MA 7 (5) = (1/5) (Y5 + Y 6 + Y 7 + Y8 + Y 9 )
MA 8 (5) = (1/5) (Y6 + Y7 + Y8 + Y9 + Y10)
MA9(5) = (1/5) (Y7 + Ys + Y9 + Y10 + Y11 )
Tabla 19.l Promedios móviles de tres años y de siete años de las ventas de fábrica en
la General Motors Corp. ( 1970-1992).
(2) (3) (4) (5) (6)
(1) Venta de fábrica Total móvil Promedio móvil Total móvil Promedio móvil
Año (en millones) de 3 años de 3 años de 7 años de 7 años
1970 5.3
1971 7.8 20.9 7.0
1972 7.8 24.3 8.1
1973 8.7 23.2 7.7 51.5 7.4
1974 6.7 22.0 7.3 55.3 7.9
1975 6.6 21.9 7.3 57.0 8.1
1976 8.6 24.3 8.1 58.2 8.3
1977 9.1 27.2 9.1 56.6 8.1
1978 9.5 27.6 9.2 56.7 8.1
1979 9.0 25.6 8.5 56.3 8.0
1980 7.1 22.9 7.6 55.5 7.9
1981 6.8 20.l 6.7 54.7 7.8
1982 6.2 20.8 6.9 54.5 7.8
1983 7.8 22.3 7.4 54.1 7.7
1984 8.3 25.4 8.5 54.8 7.8
1985 9.3 26.2 8.7 56.l 8.0
1986 8.6 25.7 8.6 57.8 8.3
1987 7.8 24.5 8.2 57.5 8.2
1988 8.1 23.8 7.9 56.2 8.0
1989 7.9 23.5 7.8 54.1 7.7
1990 7.5 22.4 7.5
1991 7.0 21.7 7.2
1992 7.2
Fuente: Los datos fueron tomados de la tabla 19 .2.
Datos originales
promedio móvil de tres años
promedio móvil de siete años
70 72 74 76 78 80 82 84 86 88 90 92
Año
Figura 19.l
Gráfica de los promedios móviles de tres y siete años.
Fuente: Los datos fueron tomados de la tabla 19.3.
total móvil anterior y luego se resta el primer valor (el más antiguo) de la serie. Este
proceso continúa de manera que el total móvil de tres años para cualquier año en
particular i de la serie representa la suma del valor observado para el año i, junto
con los valores observados correspondientes al año que le precede y al año que le
sigue. Por otro lado, con totales móviles de siete años, el resultado calculado y re-
gistrado para el año i consiste en el valor observado en la serie de tiempo corres-
pondiente al año i más los tres valores observados que le preceden y los tres valores
observados que le siguen. Para "mover" el total de siete años de un año al siguiente,
agregamos al total anterior el siguiente valor observado en la serie de tiempo y
eliminamos el valor más antiguo que hubiera aparecido en el total anterior. Este
proceso continúa a través de la serie. Los promedios móviles de siete años se
obtienen, entonces, dividiendo la serie de totales móviles entre siete.
Observamos en las columnas (3) y (4) de la tabla 19.3 que, al obtener los
promedios móviles de tres años, no se puede calcular ningún resultado para el
primer y último valores observados en la serie de tiempo. Además, como se ve en
las columnas (5) y (6), cuando calculamos los promedios móviles de siete años no
se tienen resultados para los tres primeros valores observados ni para los tres últi-
mos. Esto es así porque el primer promedio móvil de siete años para los datos que
se tienen consiste en las ventas de fábrica durante los años de 1970 a 1976, y está
centrado en 1973, y el último total móvil consiste en las ventas de fábrica regis-
tradas desde 1986 hasta 1992, y está centrado en 1989.
En la figura 19 .3 podemos ver que los promedios móviles de siete años sua-
vizan la serie mucho más que los promedios móviles de tres años, ya que el periodo
de los primeros tiene una mayor duración. Desafortunadamente, sin embargo,
como ya lo hicimos notar, cuanto más largo sea el periodo, menor será el número
de valores de promedio móvil que se pueden calcular y graficar. Por consiguiente,
la selección de promedios móviles con periodos de longitud mayores a siete años
es, por lo general, no deseable puesto que habrá demasiados puntos de datos que
faltan al inicio y al final de la serie, haciendo que sea más dificil de obtener una
impresión global de la serie completa.
L = -2 -1 (19.6)
w
10
Cñ
Q)
1'
«l
9
1'
·e:
:;;¡
Q) 8
1'
"'
Q)
e:
g 7
.E
e:
~ 6
«l
t.)
~ 5 Datos originales
~ W=.50
Q)
1' W=.25
~"'
4
Q)
> o
70 72 74 76 78 80 82 84 86 88 90 92
Año
Figura 19.4
Gráfica de la serie suavizada exponencialmente (W = .50 y W = .25).
Fuente: Los datos fueron tomados de la tabla 19.4.
A
Y¡+1 =E; (19.7)
Por ejemplo, para predecir el número de unidades vendidas en las plantas de la Ge-
neral Motors Corporation durante el año 1993, utilizaríamos el valor suavizado
correspondiente al año 1992 como su estimación. De la tabla 19.4, para un coefi-
ciente de suavizado de W =.SO, esa proyección es de 7.3 millones de unidades.
Cuando ya se tienen disponibles los datos observados correspondientes al año
1993, podemos utilizar la ecuación (19.4) para hacer la predicción correspondiente
al año 1994, obteniendo el valor suavizado para 1993 de la siguiente manera:
o, en términos de la predicción:
A A
Y1994 = WY1993 + (1 - W)Y1993
predicción nueva = (W)(valor observado actual)
+ (1 - W)(predicción actual)
19.2 Los datos de la siguiente tabla representan las ganancias anuales por acción de
la empresa TRW !ne. durante el periodo de 23 años comprendido entre 1970 y
1992.
(19.8)
tal que los valores que calculamos para los dos coeficientes, la intersección b0 y la
pendiente b 1 , tienen como resultado la minimización de la suma de las diferencias
al cuadrado entre cada valor observado, Y¡, en los datos y cada valor predicho, Y¡,
a lo largo de la línea de tendencia; esto es
L (Y; -
11 /\
Y;) 2 = mínimo
i=l
Para obtener esta línea, recordamos que en el análisis de regresión lineal calcu-
lamos la pendiente con la ecuación:
i=l (19.9)
b¡= ~n~~~~~
:¿x;- nX 2
i=l
(19.10)
~22
"' 20
!!!
.!!!
:g 18
Q)
"O 16
"'
~ 14
e-º 12
~ 10
"'
_g¡ 8
1 6
~e: 4
2
~Q) o
> 70 72 74 76 78 80 82 84 86 88 90 92
Año
Figura 19.6
Ajuste de la línea de tendencia de mínimos cuadrados.
(19.11)
Figura 19.7
Resultado parcial obtenido con MINITAB para el ajuste de un modelo
de regresión cuadrático a fin de predecir las ventas netas anuales en la
Compañía Eastman Kodak.
~ 22
(/) A 2
~ 20
Y;= 2.9217 + 0.3087X¡+ 0.0223X¡
:g18 O<lgoo = 1970; ~ = 1 afio
~ 16
(/)
~ 14
o
~ 12
~ 10
(/)
.9'1 8
I 6
~e: 4
la 2
e: o ........
>
~ ~.__..._....._ ......_.__....__,..__.__.._....._......._._.................__.._....__._...............................__..._.....__
m n ~ m n M ~ M M M oo ~
Año
Figura 19.8
Ajuste de la ecuación de tendencia cuadrática.
(19.12)
/\
log Y;= log b 0 + X; log b 1 (19.13)
Puesto que la ecuación (19.13) tiene forma lineal, podemos utilizar el método de
mínimos cuadrados si trabajamos con el logaritmo de los valores de Y; en lugar
de hacerlo con los valores de Y¡, y obtener la pendiente (log b 1) y la intersección
(log b0 ). De nueva cuenta, podemos utilizar un paquete de software estadístico para
llevar a cabo los cálculos necesarios.
En la figura 19.9 se presenta el resultado obtenido con MINlTAB para un mo-
delo exponencial de las ventas netas anuales de la Eastman Kodak. De ésta deter-
minamos que:
/\
log Y; = 0.49949 + 0.0389X;
Figura 19.9
Resultado parcial obtenido con MINITAB para el ajuste de un modelo
de regresión exponencial para predecir las ventas netas anuales en la
Compañía Eastman Kodak.
A X
Y¡ = (3. lSS )(1.093 7)' ¡
28
26
w 24 •
ro
:o 22 •
""()
~ 20
Y¡= (3.155)(1.0937)X; •
(/) Origen = 1970; X unidades = 1 año
e 18
~
Q)
g 16
.E
Q)
""()
14
_9l 12
I10
(/)
ro
Q)
8 •
e
(f) 6
ro
e:
Q)
4
> 2
o
70 72 74 76 78 80 82 84 86 88 90 92
Año
Figura 19. 1O
Ajuste de la ecuación de tendencia exponencial.
Ahora hemos visto los datos sobre las ventas netas anuales de la Eastman
Kodak ajustados por tres modelos diferentes: lineal, cuadrático y exponencial. En
la sección 19 .8 compararemos los resultados de éstos y de otros modelos de predic-
ción para determinar, a posteriori, el mejor ajuste. En los problemas 19.5 J y 19.52
de las páginas 914 y 915 el estudiante tendrá la oportunidad de utilizar métodos
a priori a fin de determinar el !fiOdelo apropiado para una serie dada de datos.
Hombres Mujeres
Año Oral Matemáticas Oral Matemáticas Total
Para cada una de las cinco variables (resultado promedio SAT en oral y
matemáticas para hombres y mujeres paralelamente con e resultado total
promedio):
(a) Grafique los datos en un diagrama.
(b) Ajuste una ecuación de tendencia cuadrática a los datos y grafique la
curva en su diagrama.
(c) ¿Cuáles son sus predicciones acerca de la tendencia para los años 1992,
1993 y 1994?
19.11 Los siguientes datos representan las recaudaciones y los gastos correspondientes
a los gobiernos estatal y local para un periodo de 22 años, desde 1970 hasta
1991.
Superávit
Año Recaudación Gastos o déficit
Por cada una de las tres variables (recaudación, gastos y superávit o déficit):
(a) Grafique un diagrama con los datos.
(b) Ajuste a los datos una ecuación de tendencia lineal.
(c) Ajuste a los datos una ecuación de tendencia cuadrática.
(d) Utilizando los modelos ajustados en los incisos (b) y (c), haga predicciones
anuales para 1992, 1993 y 1994.
..
.....
Figura 19.11
Suavizado exponencial y método de Holt-Winters.
Tabla 19.6 Uso del método de Holt-Winters respecto a las ventas netas anuales (en miles de millones de
dólares) de la Compañía Eastman Kodak (1970-1992).
Ventas
Año Netas Y; (U)(E¡ -1 + T¡ _ 1) + (1 - U)(Y;) =E¡ (V)(T¡ _ 1) + (1 - V)(E; - E;_ 1) = T;
E2 = Y2 = 3.0
y
T; = (.3)(T; _ 1) + (.7)(E; - E; - 1)
(19.15)
= 21 2 miles de millones de
· dólares
1995: a 3 años = 20.2 + (3)(0.5)
= 21. 7 m}lesde millones de
dolares
1996: a 4 años = 20.2 + (4)(0.5)
= 22.2 miles de millones de
dólares
28
U)"
26
~ 24
<ti
:o
u 22
Q) Método Holt-Winters
u 20
(J)
Q)
e: 18
g
.E 16 Datos originales " '
Q)
u 14
(J)
~ 12
§_ 10
(J)
~e: 8
V)
6
.l!!
e:
Q) 4
>
2
o
70 72 74 76 78 80 82 84 86 88 90 92 94 96
Año
Figura 19.12
Uso del método de Holt-Winters para los datos de la Compañía Eastman Kodak.
Fuente: Los datos fueron tomados de las tablas 19.5 y 19.6.:
e 19.15 Dada una serie de tiempo anual con 20 observaciones consecutivas, si el nivel
de suavizado para el valor más reciente es de 34.2 y el correspondiente
nivel de tendencia está calculado en 5.6:
(a) ¿Cuál es su predicción para el año entrante?
(b) ¿Cuál es su predicción para cinco años a partir de ahora?
Otro planteamiento útil para hacer predicciones con datos de series de tiempo
anuales está basado en el modelado autorregresivo. 2 A menudo, encontramos
que los valores de una serie de datos en puntos particulares del tiempo están alta-
mente correlacionados con los valores que les anteceden y que les siguen. Una
autocorrelación de primer orden se refiere a la magnitud de la asociación entre va-
lores consecutivos de una serie de tiempo. Una autocorrelación de segundo orden
se refiere a la magnitud de la relación entre valores que están separados dos perio-
dos. Además, una autocorrelación de orden p se refiere a la magnitud de la corre-
lación entre valores de una serie de tiempo que están separados p periodos. Para
obtener un mejor ajuste histórico de nuestros datos y, al mismo tiempo, ser capaces
de hacer predicciones útiles de su comportamiento futuro, podemos aprovechar-
nos de las características potenciales de autocorrelación inherentes a los datos,
mediante la consideración de métodos de modelado autorregresivo.
Un conjunto de modelos autorregresivos se presentan en las ecuaciones (19.16),
(19.17) y (19.18).
31 34 37 35 36 43 40
1 31H··· 31 H· ··y 31 H · · ·
2 34H31 34H31 y 34H· · •
3 37 H34 37 H 34 y 37 H 31
4 35 H 37 35 H 3 7 y 35 H 34
5 36H35 36 H 35 y 36 H 37
6 43 H36 43 H 36 y 43 H 35
7 40H43 40 H 43 y 40 H 36
(se pierde una comparación en el (se pierden dos comparaciones en
análisis de regresión) el análisis de regresión)
(19.19)
f\ A Ay Ay Ay
Y¡ = CO + 'l'1 i-1 + 'l'2 i-2 + ··· + 'Jlp i-p (19.20)
A
en la que Y¡ = valor ajustado de la serie al tiempo í
Y¡ _ 1 = valor observado de la serie al tiempo í - 1
Y; _ 2 = valor observado de la serie al tiempo i - 2
Y¡ _ P = valor observado de la serie al tiempo í - p
d ., d ,
co, 'l'v 'Jfz, ... , 'Jfp = est1mac1ones e regres10n e 1os parametros ro, '!'¡, 'l'z, ... , 'l'p
A A A A • •
Para predecir j años hacia el futuro a partir del n-ésimo periodo actual, tenemos
(19.21)
en la que <1, -o/ 11 -o/2 , ••. , -o/p son las estimaciones de regresión d~ los parámetros co, 'lfl,
'Jf2, ... , 'Jfp; j es el número de años en el futuro; y, para k > Q, Yn+k es la predicción de
Yn+k a partir del periodo actual, mientras que para k ~O, Yn+k es el valor observado
de Yn+k·
Así pues, para hacer predicciones j años hacia el futuro a partir de, digamos, un
modelo autorregresivo de tercer orden (p = 3), únicamente necesitamos los valores
de datos observados de p = 3, Yn, Yn-l y Yn_ 2 , y las estimaciones de los parámetros
ro, 'l'v 'Jf2 y 'Jf3 obtenidos con un programa de regresión múltiple. Para predecir un
año en el futuro, la ecuación (19.21) se vuelve:
y así sucesivamente.
Para mostrar la técnica del modelado autorregresivo, regresemos de nueva
cuenta a la serie de tiempo presentada en la tabla 19.5 (de la página 873) y grafi-
cada en la figura 19.1 (en la página 860), que representa las ventas netas (en miles
de millones de dólares) de la Compañía Eastman Kodak durante un periodo de 23
años, comprendido entre 1970 y 1992. En la tabla 19.7 se presenta la estructura de
los modelos autorregresivos de primero, segundo y tercer orden. Todas las coluro-
Variables de predicción
Variable
Año dependiente Y¡ Y¡_ 1 Y¡_z Y¡_3
1970 1 2.8 *
1971 2 3.0 2.8
1972 3 3.5 3.0 2.8 *
1973 4 4.0 3.5 3.0 2.8
1974 5 4.6 4.0 3.5 3.0
1975 6 5.0 4.6 4.0 3.5
1976 7 5.4 5.0 4.6 4.0
1977 8 6.0 5.4 5.0 4.6
1978 9 7.0 6.0 5.4 5.0
1979 10 8.0 7.0 6.0 5.4
1980 11 9.7 8.0 7.0 6.0
1981 12 10.3 9.7 8.0 7.0
1982 13 10.8 10.3 9.7 8.0
1983 14 10.2 10.8 10.3 9.7
1984 15 10.6 10.2 10.8 10.3
1985 16 10.6 10.6 10.2 10.8
1986 17 11.5 10.6 10.6 10.2
1987 18 13.3 11.5 10.6 10.6
1988 19 17.0 13.3 11.5 10.6
1989 20 18.4 17.0 13.3 11.5
1990 21 18.9 18.4 17.0 13.3
1991 22 19.4 18.9 18.4 17.0
1992 23 20.1 19.4 18.9 18.4
Figura 19.1 J
Resultado parcial obtenido con MINITAB para el modelo autorregresivo de tercer orden.
Yz 1 =18.9, Y 22 = 19.4,
Nuestra predicción de las ventas netas en la Compañía Eastman Kodak para los
años 1993 a 1996 se obtienen con la ecuación (19.21) de la manera siguiente:
/\ /\ /\ /\
Y 11 +¡=0.446+1.534Y ,,+;-i - 0.739Y 11 +;- 2 + 0.218Y n+¡- 3
1993: 1 año y24 = 0.446 + (1.534)(20.1)- (0.739)(19.4) + (0.218)(18.9)
adelante = 21.0 miles de millones de dólares
Ho: '1'3 =O
contra
Figura 19.14
Resultado parcial obtenido con MINITAB para el modelo regresivo de
segundo orden.
Ho: 'l'z =O
contra
Al hacer la prueba con un nivel de significación de .05, puesto que Z = -2.02 <
-1.96, podemos rechazar H0 y llegaríamos a la conclusión de que el parámetro de
segundo orden del modelo autorregresivo es significativamente importante y
debería ser incluido en el modelo.
Nuestro planteamiento de construcción de modelos nos ha conducido a la se-
lección del modelo autorregresivo de segundo orden como el más apropiado para
los datos dados. Utilizando las estimaciones ci> = 0.473, "11 = 1.453, y 'Ífz = -0.455,
así como los dos valores de datos más recientes, Y22 = 19.4 y Y23 = 20.1, nuestras
A
1994: 2 años adelante Y 25 = 0.4 73 + (1.453)(20.8) - 0.455(20.1)
= 21.4 miles de millones de dólares
A
1995: 3 años adelante Y 26 = 0.473 + (l.453)(21.4) - 0.455(20.8)
= 22.1 miles de millones de dólares
A
1996: 4 años adelante Y27 = 0.473 + (l.453)(22.1) - 0.455(21.4)
= 22. 7 miles de millones de dólares
Los datos y el pronóstico están en el trazo de la figura 19.15.
Ci)
~
<G
22
20
\
Modelo autorregresivo de segundo orden ______ .. ......
........
:g 18
~ 16 Datos originales -.._
U)
~ 14
o
~ 12
~ 10
~ 8
§. 6
~e 4
l3 2
~ o "-'~~.._...._......._.___..__.~~..._...._......._.___..__..__.__............_......_.___.__..__..__..............._.___..~
> 70 72 74 76 78 80 82 84 86 88 90 92 94 96
Año
Figura 19.15
Uso de un modelo autorregresivo de segundo orden para las ventas
netas anuales en la Compañía Eastman Kodak.
e 19.27 Dada una serie de tiempo anual con 40 observaciones consecutivas, si usted
fuera a ajustar un modelo autorregresivo de quinto orden:
(a) ¿Cuántas observaciones se perderían en el desarrollo del modelo
autorregresivo?
(b) ¿Cuántos parámetros necesitaría estimar?
(c) ¿Cuáles de los 40 valores originales necesitaría para hacer predicciones?
(d) Exprese el modelo.
(e) Escriba una ecuación general en la que se indique cómo haría la predicción
a j años en el futuro.
s.\ji¡
.50, s.\ji 2
.30, S,¡¡ 3 = .10
s.
'l'z
= .15
(19.22)
Una vez que un modelo particular ha sido ajustado a una serie de tiempo dada, po-
demos graficar los residuos en los n periodos. Como se muestra en la figura 19.16(a)
de la página 898, si el modelo particular se ajusta adecuadamente, los residuos re-
presentan el componente irregular de la serie de tiempo y, por consiguiente, deben
estar distribuidos aleatoriamente a través de toda la serie. Por otro lado, como se
ilustra en los tres paneles restantes de la figura 19.16, si el modelo particular no
se ajusta adecuadamente, los residuos pueden estar señalando algún patrón sis-
temático como podría ser la incapacidad de explicar la tendencia [panel (b)], un fra-
caso para explicar la variación cíclica [panel (c)] o, con datos mensuales, una
incapacidad de explicar la variación estacional [panel (d)].
1 2 3 4 5 6 7 8 9 10
,:1:
• 11
Q¡-
l
<~~ 01-----.---------
• ••
o
•
••••
,__T..__.1_._1_._1......._1_,_1_..1_..1__.1__,1
. 2 3 4 5 6 7 8 9 10
Tiempo (años) Tiempo (años)
(a) Errores de predicción distribuidos aleatoriamente (b) Tendencia no explicada
<:,;,~ ot-·-~-·_·_•_·_.
<::.:.-
'
::.:,-
11 o
Q¡- • 1 •• <i>-
1 - . I• 1 1 1 1
o 1 2 3 4 5 6 7 8 9 10 o 1 2 3 4 5 6 7 8 9. 10
Tiempo (años) Tiempo (años)
(c) Efectos cíclicos no explicados (d) Efectos estacionales no explicados
Figura 19.16
Análisis de residuos para el estudio de patrones de error.
Para un modelo en particular, esta medida está basada en la suma de las diferen-
cias al cuadrado entre los valores reales y observados en una serie de tiempo dada.
Si un modelo ajustara los datos pasados de una serie de tiempo perfectamente, la
variación no explicada sería de cero. Por otro lado, si el modelo ajustara los datos
pasados de una serie de tiempo pobremente, la variación no explicada sería grande.
Así pues, cuando comparamos lo adecuado de dos o más modelos de predicción,
se puede seleccionar aquel que tenga la mínima variación no explicada como el
más apropiado, basándose en ajustes pasados de la serie de tiempo dada.
Sin embargo, una desventaja importante que se tiene al utilizar la medida de
variación no explicada cuando se comparan modelos de predicción es que se
penaliza demasiado a un modelo por tener errores grandes de predicción indivi-
dual. Esto es, siempre que se tenga una discrepancia grande entre Y¡ y Y¡, el cálculo
n A
¿¡vi - v,¡ (19.24)
MAD = _;=--
1 ---
n
Para un modelo particular, la MAD es una medida del promedio de las discrepan-
cias absolutas entre los valores reales y ajustados de una serie de tiempo dada. Si se
fuera a ajustar un modelo a los datos pasados de la serie de tiempo perfectamente,
la MAD sería de cero; mientras que si el modelo ajustara pobremente a los datos
pasados de una serie de tiempo, la MAD sería grande. En consecuencia, cuando se
comparan los méritos de dos o más modelos de predicción, aquel con la MAD mí-
nima puede ser elegido como el más apropiado sobre la base de los ajustes pasados
a la serie de tiempo dada.
3
(J)
o 2
• • • •
"l:l
ctS
N
·e:
ctS • •
• •
"l:l
e:
t1l<ll o
•
(J)
• • • • • • •
g -1 •
"l:l
·¡¡; •
<ll
a: -2 • •
-3
70 72 74 76 78 80 82 84 86 88 90 92
Año
3
(J)
o
"O
2 • •
ctS
N
-~ • •
"O
e: • • •
t1l<ll o
• • •
(J)
o -1
:;:¡
• •
"O
·¡¡;
<ll
• • • • •
a: -2
-3
Figura 19.17 70 72 74 76 78 80 82 84 86 88 90 92
Gráficas de residuos para cinco Año
métodos de predicción.
Fuente: Los datos fueron tomados de (c) Modelo de tendencia exponencial
la tabla 19 .8 en la página 902.
-3
70 72 74 76 78 80 82 84 86 88 90 92
Año
3 •
(/)
o 2
"O
<11
N
'f¿ • •
"O
e:
19 • • •
o
• • • • •
(/)
• •
Q)
(/)
g -1 • •
"O
·¡¡¡ • •
~ -2
-3
70 72 74 76 78 80 82 84 86 88 90 92
Año
En los paneles (a), (b) y (c) observamos que los efectos cíclicos no quedaron de-
tallados en cada uno de los modelos de mínimos cuadrados. Sin embargo, las grá-
ficas de residuos para los modelos cuadrático y exponencial parecen sugerir que
estos modelos proporcionan un mejor ajuste a la serie que el modelo lineal, debido
a que los paneles (b) y (c) muestran una mayor aleatoriedad (esto es, un patrón
menos sistemático) en los residuos en los primeros ocho años de la serie. Por otro
lado, la creciente amplitud (más ancha) observada en los últimos años de las cinco
gráficas de residuos puede sugerir que ninguno de los modelos examinados aquí se
desempeña sobresalientemente bien respecto a la captura de los grandes movimien-
tos de ventas netas que se han presentado en los años más recientes. Sin embargo,
en los paneles (d) y (e) observamos que el método de Holt-Winters parece propor-
cionar el ajuste más cercano, pero el método autorregresivo de segundo orden
muestra una estructura sistemática más pequeña.
Para resumir, sobre la base de los análisis de residuos de los cinco modelos de
predicción, parecería que el modelo de Holt-Winters y el autorregresivo de se-
gundo orden pueden ser los más apropiados y que el modelo lineal es el menos
adecuado. Para verificar lo anterior, comparemos los cinco modelos respecto a la
magnitud de sus errores residuales.
Tabla 19.8 Comparación de cinco métodos de predicción utilizando la desviación absoluta media (MAD).
Método de predicción
Ventas Holt- Autorregresivo
netas Lineal Cuadrático
/\
Exponencial
/\ /\
Winters de segundo
/\
orden
/\
Año Y¡ Y¡ e¡ Y¡ e1 Y¡ e; Y¡ e¡ Y; e¡
• 19.39 Refiérase a los problemas 19.5 (página 878), 19.20 (página 888) y 19.31
(página 896), correspondientes a los ingresos netos por operación en la com-
pañía Upjohn.
19.40 Refiérase a los problemas 19.6 (página 878), 19.21 (página 888) y 19.32
(página 896), correspondientes a las ventas netas en la compañía Coca-Cola.
19.41 Refiérase a los problemas 19.7 (página 879), 19.22 (página 888) y 19.33
(página 896), correspondientes a las ventas netas en la compañía Gillette, lnc.
19.42 Refiérase a los problemas 19.8 (página 879), 19.23 (página 888) y 19.34
(página 896), correspondientes a las ventas netas en la empresa Georgia-Pacific
Corp.
19.43 Refiérase a los problemas 19.9 (página 880), 19.24 (página 888) y 19.35
(página 896), correspondientes al ingreso total en la compañía Boeing.
19.44 Refiérase a los problemas 19.12 (página 882), 19.25 (página 888) y 19.36
(página 896), correspondientes a los ingresos por operación en la empresa
Philip Morris, Inc.
• 19.45 Refiérase a los problemas 19.13 (página 882), 19.26 (página 888) y 19.37
(página 896), correspondientes a las ventas netas en la empresa Black &
Decker Corp.
Y¡ = T¡ · S¡ · C¡ · l¡
Figura 19.18
Construcción de residencias privadas (en millones de dólares) en una cuidad pequeña de Estados Unidos
(desde enero de 1988 hasta diciembre de 1993).
Fuente: Los datos fueron tomados de la tabla 19.9.
Figura 19.19
Resultado parcial obtenido con MINITAB para el ajuste del modelo de regresión lineal a los
datos de la serie de tiempo mensual sobre los gastos en construcción residencial privada.
U> 21 11
!!! Y;= 14.033 + 0.043X;
~ 20
Origen = enero de 1988
~ 19 Unidades X= 1 mes
"O
"'e:<1> 18
,g 17
.E
<1>
16
"O
15
"'
..!!?
14
:§.
(ij
-¡::;
13
e: 12
<1>
"O
·¡¡;
11
!!!
e: 10
•O
·¡;;
o 9
2
¡¡¡
e:
o
u o
EFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASONDEFMAMJJASOND
1988 1989 1990 1991 1992 1993 1994
Mes y año
(2)
Gastos de (3) (4)
(1) construcción Totales Promedios (5)
Año residencial móviles móviles Cocientes , (6) (7)
y privada pesados pesados de promedios Indice Datos
mes (millones de dólares) de 13 meses (de 13 meses) móviles estacional desestacionarios
1988 Ene. 10.2 * * 0.78228 13.0388
Feb. 9.7 * * 0.75287 12.8841
Mar. 11.3 0.86680 13.0364
Abr. 12.4 0.95242 13.0194
May. 13.6 * 1.04975 12.9555
Jun. 14.5 * 1.12183 12.9253
Jul. 14.8 317.8 13.2417 1.11768 1.14530 12.9223
Ago. 15.3 320.l 13.3375 1.14714 1.16050 13.1840
Sep. 15.0 322.8 13.4500 1.11524 1.12460 13.3381
Oct. . 15.0 326.1 13.5875 1.10396 1.11809 13.4157
Nov. 14.2 330.6 13.7750 1.03085 1.04196 13.6282
Dic. 12.4 336.4 14.0167 0.88466 0.88360 14.0334
1989 Ene. 11.2 343.2 14.3000 0.78322 0.78228 14.3171
Feb. 11.0 350.1 14.5875 0.75407 0.75287 14.6108
Mar. 12.7 356.5 14.8542 0.85498 0.86680 14.6516
Abr. 14.3 362.6 15.1083 0.94650 0.95242 15.0144
May. 16.2 368.1 15.3375 1.05623 1.04975 15.4323
Jun. 17.7 372.4 15.5167 1.14071 1.12183 15.7778
Jul. 18.4 375.5 15.6458 1.17603 1.14530 16.0656
Ago. 18.6 377.8 15.7417 1.18158 1.16050 16.0276
Sep. 18.1 380.0 15.8333 1.14316 1.12460 16.0947
Oct. 18.0 382.3 15.9292 1.13000 1.11809 16.0989
Nov. 16.7 384.2 16.0083 1.04321 1.04196 16.0275
Dic. 14.2 385.5 16.0625 0.88405 0.88360 16.0705
1990 Ene. 12.5 386.2 16.0917 0.77680 0.78228 15.9789
Feb. 12.0 386.6 16.1083 0.74496 0.75287 15.9390
Mar. 13.9 387.1 16.1292 0.86179 0.86680 16.0360
Abr. 15.4 387.6 16.1500 0.95356 0.95242 16.1693
May. 17.0 388.2 16.1750 1.05100 1.04975 16.1943
Jun. 18.2 388.9 16.2042 1.12317 1.12183 16.2235
Jul. 18.6 389.3 16.2208 1.14667 1.14530 16.2402
Ago. 18.8 389.4 16.2250 1.15871 1.16050 16.1999
Sep. 18.4 389.7 16.2375 1.13318 i.12460 16.3614
Oct. 18.2 390.2 16.2583 1.11943 1.11809 16.2778
Nov. 17.1 390.5 16.2708 1.05096 1.04196 16.4114
Dic. 14.5 390.7 16.2792 0.89071 0.88360 16.4101
1991 Ene. 12.6 391.1 16.2958 0.77320 0.78228 16.1067
Feb. 12.0 391.9 16.3292 0.73488 0.75287 15.9390
Mar. 14.2 392.7 16.3625 0.86784 0.86680 16.3821
Abr. 15.6 393.5 16.3958 0.95146 0.95242 16.3793
May. 17.l 394.6 16.4417 1.04004 1.04975 16.2896
Jun. 18.3 395.7 16.4875 1.10993 1.12183 16.3127
(2)
Gastos de (3) (4)
(1) construcción Totales Promedios (5)
Año residencial móviles móviles Cocientes , (6) (7)
y privada pesados pesados de promedios Indice Datos
mes (millones de dólares) de 13 meses (de 13 meses) móviles estacional desestacionarios
Jul. 18.9 396.8 16.5333 1.14315 1.14530 16.5022
Ago. 19.3 397.9 16.5792 1.16411 1.16050 16.6308
Sep. 18.7 398.6 16.6083 1.12594 1.12460 16.6282
Oct 18.7 399.0 16.6250 1.12481 1.11809 16.7250
Nov. 17.7 399.2 16.6333 1.06413 1.04196 16.9872
Dic. 15.0 399.0 16.6250 0.90226 0.88360 16.9759
1992 Ene. 13.2 398.6 16.6083 0.79478 0.78228 16.8737
Feb. 12.5 398.0 16.5833 0.75377 0.75287 16.6032
Mar. 14.4 397.0 16.5417 0.87053 0.86680 16.6128
Abr. 15.8 395.5 16.4792 0.95879 0.95242 16.5893
May. 17.1 393.6 16.4000 1.04268 1.04975 16.2896
Jun. 18.1 391.6 16.3167 1.10930 1.12183 16.1344
Jul. 18.7 390.4 16.2667 1.14959 1.14530 16.3275
Ago. 18.9 390.4 16.2667 1.16189 1.16050 16.2861
Sep. 18.1 391.0 16.2917 1.11100 1.12460 16.0947
Oct. 17.8 391.5 16.3125 1.09119 1.11809 15.9200
Nov. 16.7 391.6 16.3167 1.02349 1.04196 16.0275
Dic. 14.0 391.2 16.3000 0.85890 0.88360 15.8442
1993 Ene. 13.0 390.0 16.2500 0.80000 0.78228 16.6181
Feb. 12.7 388.3 16.1792 0.78496 0.75287 16.8688
Mar. 14.8 386.l 16.0875 0.91997 0.86680 17.0743
Abr. 15.9 383.3 15.9708 0.99556 0.95242 16.6943
May. 17.1 379.8 15.8250 1.08057 1.04975 16.2896
Jun. 17.7 376.0 15.6667 1.12979 1.12183 15.7778
Jul. 17.9 * * 1.14530 15.6290
Ago. 18.0 * * * 1.16050 15.5106
Sep. 16.8 1.12460 14.9387
Oct. 16.3 * * 1.11809 14.5784
Nov. 14.7 * * 1.04196 14.1080
Dic. 12.2 * * 0.88360 13.8071
Nota: Se escribió un macro en MINITAB (referencia 8) para producir las columnas (3) a (7).
Fuente: Los datos fueron tomados de la tabla 19.9.
Para empezar, se obtiene una serie de totales móviles pesados de 13 meses. Para
calcular un total móvil pesado de 13 meses, el primero y el último mes reciben un
peso de uno y los meses que están en medio reciben un peso de dos. Así pues, por
ejemplo, el primer total móvil pesado de 13 meses se obtiene sumando los valores
de gastos de construcción de residencias privadas correspondientes a enero de
1988 y enero de 1989 al doble de los valores de los gastos dados para los 11 meses
de enmedio (febrero de 1988 a diciembre de 1988).
Esto es:
(l)(Ene. 88) + (2)(Feb. 88) + (2)(Mar. 88) + · · · + (2)(Dic. 88) + (l)(Ene. 89)
(l)(Feb. 88) + (2)(Mar. 88) + (2)(Abr. 88) + · · · + (2)(Ene. 89) + (l)(Feb. 89)
T 1 • S; · C 1 • I 1
- - - - - - = S1 • I1 (19.25)
Promedio móvil pesado¡ T; ·C;
Tabla 19.11 Cálculo del índice estacional a partir de la mediana de los cocientes de promedios móviles mensuales.
Año
Índice
Mes 1988 1989 1990 1991 1992 1993 Mediana estacional
Enero 0.78322 0.77680 0.77320 0.79478 0.80000 0.78322 0.78228
Febrero 0.75407 0.74496 0.73488 0.75377 0.78496 0.75377 0.75287
Marzo 0.85498 0.86179 0.86784 0.87053 0.91997 0.86784 0.86680
Abril 0.94650 0.95356 0.95146 0.95879 0.99556 0.95356 0.95242
Mayo 1.05623 1.05100 1.04004 1.04268 1.08057 1.05100 1.04975
Junio 1.14071 1.12317 1.10993 1.10930 1.12979 1.12317 1.12183
Julio 1.11768 1.17603 1.14667 1.14315 1.14959 1.14667 1.14530
Agosto 1.14714 1.18158 1.15871 1.16411 1.16189 1.16189 1.16050
Septiembre 1.11524 1.14316 1.13318 1.12594 1.11100 1.12594 1.12460
Octubre 1.10396 1.13000 1.11943 1.12481 1.09119 * 1.11943 1.11809
Noviembre 1.03085 1.04321 1.05096 1.06413 1.02349 1.04321 1.04196
Diciembre 0.88466 0.88405 0.89071 0.90226 0.85890 0.88466 0.88360
12.01436 12.00000
índice estacional = (l 2 .0)(mediana)
12.01436
Fuente: Los datos fueron tomados de la tabla 19 .1 O.
Año
Mes 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Enero 262 259 271 251 298 260 275 315 354 417
Febrero 295 276 241 231 283 291 321 342 365 408
Marzo 333 310 301 252 315 307 352 370 389 416
Abril 252 238 265 293 287 293 322 316 198 398
Mayo 274 270 255 278 301 279 309 361 366 397
Junio 245 292 301 447 185 287 314 320 389 452
Julio 377 289 278 216 368 344 299 324 341 423
Agosto 291 289 262 247 310 359 355 320 413 456
Septiembre 273 273 246 267 313 250 324 344 387 356
Octubre 266 271 249 281 312 368 310 300 384 479
Noviembre 286 272 246 297 325 359 339 350 415 425
Diciembre 285 284 221 288 326 345 320 333 328 499
Año
19.49 Los datos de la tabla siguiente representan los precios mensuales promedio de
gasolina al menudeo (en centavos por galón) en Estados Unidos desde enero
de 1989 hasta diciembre de 1993.
Año
sr
sr
Juntando todo
TÉRMINOS CLAVE
cociente de promedios móviles 908 modelo de tendencia lineal 872
componente cíclico 860 modelo multiplicativo clásico 859
componente estacional 903 predicción 858
componente irregular 860 principio de parsimonia 899
desviación absoluta media (MAD) 899 promedios móviles 863
índice estacional 905 promedios móviles pesados 908
método de Holt-Winters 884 series de tiempo 859
modelado autorregresivo 888 suavizado exponencial 866
modelo de tendencia cuadrática 874 tendencia 859
modelo de tendencia exponencial 876
Términos clave 91 J
Problemas de repaso del capítulo
19.50 Los datos dados a continuación representan las tasas de incidencia anual (por
100,000 personas) de casos de poliomielitis aguda reportados y que fueron
registrados en periodos de cinco años, desde 1915 hasta 1955.
Y2 - Y1 = Y 3 - Y2 = · · · = Y¡+ 1 - Y¡= · · · = Yn - Yn _ 1
(
y
2
-
yl
y)
1 X 100% = ( y 3 ~ Y, ) x 100%
( Y;+i y~ Y; ) x 100%
y n - y n-I ) 100%
( X
Yn-1
Año
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Serie de tiempo 1 10.0 15.l 24.0 36.7 53.8 74.8 100.0 129.2 162.4 199.0
Serie de tiempo 11 30.0 33.1 36.4 39.9 43.9 48.2 53.2 58.2 64.5 70.7
Serie de tiempo III 60.0 67.9 76.1 84.0 92.2 100.0 108.0 115.8 124.l 132.0
Año
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Serie de tiempo 1 100.0 115.2 130.1 144.9 160.0 175.0 189.8 204.9 219.8 235.0
Serie de tiempo 11 100.0 115.2 131.7 150.8 174.1 200.0 230.8 266.1 305.5 351.8
19.53 Los datos que se presentan en la siguiente tabla representan los ingresos brutos
anuales (en millones de dólares) obtenidos por una compañía de servicio
público durante el período comprendido entre 1981y1994.
Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Ingresos
brutos 13.0 14.1 15.7 17.0 18.4 20.9 23.5 26.2 29.0 32.8 36.5 41.0 45.4 50.8
(a) Compare las primeras diferencias, las segundas diferencias y las diferen-
cias porcentuales (véase problema 19.51) para determinar el modelo más
apropiado que se deba ajustar.
(b) Desarrolle la ecuación de tendencia.
(c) ¿Cuál ha sido el aumento anual en los ingresos brutos durante los 14 años
del periodo?
(d) Prediga el valor de tendencia para el año 1999.
(a) Grafique los datos respecto al tiempo, así como también el logaritmo de
los datos respecto al tiempo para determinar si un modelo de tendencia
lineal o uno de tendencia exponencial es el ajuste más apropiado (véase
problema 19.52).
(b) Desarrolle la ecuación de tendencia.
(c) ¿Cuál ha sido el crecimiento anual en los ingresos por publicidad durante
los 20 afios del periodo?
(d) Prediga el valor de tendencia para el año 1998.
19 .56 Los datos de la tabla siguiente representan los ingresos anuales totales (en
miles de millones de dólares) de la empresa McDonald's Corp. durante el
periodo de 22 años comprendido entre 1971y1992.
19.57 Los datos de la tabla siguiente corresponden a los ingresos anuales totales (en
miles de millones de dólares) de la empresa Sears, Roebuck & Co. durante el
periodo de 23 años comprendido entre 1970 y 1992.
19.58 Los datos que se presentan en la tabla siguiente corresponden a las ventas
netas anuales (en miles de millones de dólares) de la empresa Xerox
Corporation, durante el periodo de 23 años comprendido entre 1970 y
1992.
No tas Finales
l. El hecho de que todos los valores observados en la serie de · En general, en el periodo i,
tiempo están incluidos en el cálculo del valor suavizado
exponencialmente en el periodo i se puede ver si observa- E;= WY; + (1 - W)E;_ 1 = WY; + W(l - W)Y;_ 1
mos que el valor suavizado presente es calculado utilizando + W(l - W)ZY¡_z + ... + (1- W)(i-lly¡
el valor suavizado del periodo anterior, y ese valor, a su vez,
fue calculado utilizando el valor suavizado del periodo ante- Así pues, vemos que con el tiempo, conforme el valor de i
rior y así sucesivamente. Algebraicamente hablando, lo se hace más grande, los pesos asignados a los primeros
anterior puede establecerse de la siguiente manera: valores (los más viejos) de la serie de tiempo pueden
En el periodo 1, volverse tan pequeños que son despreciables.
2. Debería advertirse que el modelo de suavizado exponencial
de la sección 19.4.2, el modelo de Holt-Winters de la
En el periodo 2, sección 19.6 y los modelos autorregresivos de la sección
19. 7 son todos casos especiales de los modelos
autorregresivos de promedios móviles integrados (ARIMA, por
E2 = WY2 + (1 - W)E1 = WY2 + (1 - W)Y 1
sus siglas: AutoRegressive Integrated Moving Average) desarrol-
lados por Box y Jenkins (referencia 3). El planteamiento de
En el periodo 3, Box y jenkins, sin embargo, está más allá del objetivo de
este texto.
E3 = WY3 + (1 - W)Ez = WY3 + (1 - W)[WY2 + (1 - W)Y1] 3. Los datos mensuales, por lo general, son registrados y
graficados a mitad de mes. Por consiguiente, el origen en
=WY3 + W(l - W)Yz + (1 - W) 2 Y1 este caso se presenta como el 15 de enero de 1988.
Referencias
l. Bails, D.G. y L.C. Peppers, Business Fluctuations: 6. Mahmoud, E., "Accuracy in Forecasting: A Survey",
Forecasting Techniques and Applications (Englewood Cliffs, foumal of Forecasting, vol. 3, 1984, pp. 139-159.
NJ: Prentice-Hall, 1982). 7. Newbold, P., Statistics for Business and Economics, 4a. ed.
2. Bowerman, B.L. y R.T. O'Connel, Forecasting and Time- (Englewood Cliffs, NJ: Prentice-Hall, 1994).
Series, 3a. ed. (North Scituate, MA: Duxbury Press, 1990). 8. Ryan B.F. y B.L. Joiner, MINITAB Student Handbook,
3. Box, G.E.P y G.M. Jenkins, Time Series Analysis: 3a. ed. (North Scituate, MA: Duxbury Press, 1994).
Forecasting and Control, Za. ed. (San Francisco, CA: 9. SAS-ETS User's Guide (Cary, NC: SAS Institute, 1988).
Holden-Day, 1977).
10. STATISTIX 4.0 (Tallahassee, FL: Analytical Software,
4. Brown, R.G., Smoothing, Forecasting and Prediction 1992).
(Englewood Cliffs, NJ: Prentice-Hall, 1963).
11. Wilson, J.H. y B. Keating, Business Forecasting
5. Chambers, J.C., S.K. Mullick y D.D. Smith, "How to (Homewood, IL: Richard D. Irwin, 1990).
Choose the Right Forecasting Technique", Harvard
Business Review, vol. 49, Núm. 4, julio-agosto de 1971,
pp. 45-74.
Referencias 919
Respuestas a los problemas seleccionados ( •)
Capítulo 2
2.4 (a) numérica discreta, razón
(b) categórica, nominal
(c) numérica discreta, razón
(d) numérica continua, razón
(e) categórica, nominal
(f) numérica continua, razón
(g) categórica, nominal
(h) numérica discreta, razón
(i) numérica continua, razón
(j) categórica, nominal
(k) categórica, nominal
2.32 (a) numérica continua, razón
(b) numérica discreta, razón
(c) categórica, nominal
(d) . numérica continua, razón
(e) categórica, nominal
(f) numérica discreta, razón
(g) categórica, nominal
2.33 (a) categórica, nominal
(b) categórica, nominal
(c) numérica continua, razón
(d) numérica continua, razón
(e) categórica, nominal
(f) categórica, nominal
(g) numérica discreta, razón
(h) numérica discreta, razón
(i) numérica continua, razón
(j) numérica continua, razón
(k) categórica, nominal
(1) numérica discreta, razón
(m) numérica continua, razón
(n) numérica continua, razón
(o) categórica, nominal
(p) numérica continua, razón
2.37 N =93 n =15 Muestra sin reemplazo
Renglón 29: 12 47 83 76 22 65 93 10 61 36 89 58 86 92 71
2.42 línea 401-EDUC 41
línea 402_RICHWORK 4
Capítulo 3
3.1 (a) 9 147
10 02238
11 135566777
12 223489
13 02
Capítulo 4
4.2 (a) Lote 1 Lote 2
media 4 14
mediana 3 13
moda 2 12
alcance medio 6 16
eje medio 3.5 13.5
(b) Cada una de las observaciones del Lote 1 son diez unidades
menores que las observaciones del Lote 2.
2 8
3 458
4 1
5 01157
6 28
7 16
8 5
9
10
11 9
12
13 12
14 19
15 9
(b) media= 7.78; mediana= 6.20; moda= 5.10
rango medio= 9.35; eje medio= 8.53
(c) El rango medio y el eje medio son los más grandes.
4.15 (a) media= 147.1; mediana= 148.5; bimodal;
rango miedo= 147.5; eje medio= 147.5
4.17 (a) Lote 1 Lote 2
rango 8 8
IQR 3 3
varianza 8.33 8.33
s 2.89 2.89
cv 72.2% 20.6%
4.22 (a) rango= 13.10; rango intercuartil = 7.95;
varianza= 17.95; S = 4.24; CV = 54.5%
(b) La mayoría de los datos caen dentro de ±4.24 de la media.
4.27 (a) rango= 131; rango intercuartil = 41;
s = 31.7; cv = 21.5%
4.28 (a) y (b) Para cada lote los datos son positivos o sesgados a la
derecha, ya que la media es mayor que la mediana.
4.31 Los datos son positivos o sesgados a la derecha, ya que la media
es mayor que la mediana.
4.36 Los datos son aproximadamente simétricos.
4.39 (a) Resumen de cinco números (MINITAB):
2.80 4.55 6.20 12.50 15.90
(b) y (c) Los datos están sesgados a la derecha.
4.44 (a) Resumen de cinco números:
82 127 148.5 168 213
(b) y (c) Los datos son aproximadamente simétricos.
4.45 (a) media= 6.0; mediana= 6.5; moda= 8.0;
rango medio= 6.0; eje medio= 5.5
(b) rango= 10.0; rango intercuartil = 5.0;
varianza= 9.40; ax= 3.07; CVpob = 51.1%
(c) Los datos son aproximadamente simétricos.
4.50 (d) (1) media= 7.7; mediana= 4.2; moda= 5.0;
rango medio= 9.0; eje medio= 5.8
(d) (2) rango= 14.0; intercuartil
rango= 6.8; S = 4.3; CV = 55.8%
(d) (3) Los datos están sesgados a la derecha.
Capítulo 5
5.15 (a)
Nivel educativo
Grado H.S. Universitario Universitario
Condición financiera o menor sin grado con nivel superior Totales
Peor ahora que antes 60) 30.0 18.1 43.4
Sin diferencias 24.2 45.6 19.5 27.2
Mejor antes que ahora ....1ll 24.4 62.4 29.4
Totales 100.0 100.0 100.0 100.0
Capítulo 6
6.5 (a) Con una tarjeta de crédito bancaria, puesto que solamente se
satisface un criterio.
(b) Con una tarjeta de crédito bancaria y una de crédito para
viaje y entretenimiento, puesto que están implicados dos
criterios.
(c) El no tener tarjeta de crédito bancaria es el complemento de
tener tarjeta de crédito bancaria, puesto que implica a todos
los eventos distintos de tener una tarjeta de crédito bancaria.
(d) Satisface dos criterios, tener una tarjeta de crédito bancaria y
tener una tarjeta de crédito para viajes y entretenimiento.
6.7 (b) Disfrutar el ir de compras para adquirir ropa es un evento
sencillo pues satisface un criterio.
(c) Un hombre que disfruta el ir de compras para adquirir ropa
es un evento conjunto, ya que satisface dos criterios.
(d) El no disfrutar ir de compras para adquirir ropa es el
complemento.
6.10 (a) P(B) = 120/200
(b) P(B') = 80/200
(c) P(1) = 75/200
(d) P(T) = 125/200
Capítulo 7
7.1 (a) A: 1.00; B: 3.00
(b) A: 1.22; B: 1.22
(c) A: sesgado a la derecha; B: sesgado a la izquierda
2.42
<Jx =
(d) -.056
(e) Pierde 5.6 centavos por apuesta.
(f) Gana 5.6 centavos por apuesta.
7.10 E(500) = $500; E(l,000) = $800; E(2,000) = $600
Adquiera 1,000 libras.
7.19 (a) .0778
(b) .6826
(c) P(X =O)= .0102 P(X = 1) = .0768 P(X = 2) = .2304.
La distribución está ligeramente sesgada a la izquierda.
7.23 (a) .2851
(b) .1606
(c) .7149
(d) .2945
7.35 (a) (1) .6496
(2) .1503
(3) .1493
(c) 7; P(X = 7) = .2668
(d) 1.449
7 ± 2(1.449)¡ P(4 <X< 10) = .9244
7.36 (a) (1) .8171
(2) .1667
(3) .0162
(b) (1) .8187
(2) .1637
(3) .0176
(c) (1) .3679
(2) .3679
(3) .2642
Capítulo 8
8.3 (a) (1) .3599
(2) .6401
(3) .0832
(4) .9168
(5) .8599
(6) .5832
(7) .4431
(8) .5569
(b) (1) .1401
(2) .4168
(3) .3918
(4) .8349
(5) .1151
(c) o
(d) -1.00
(e) +l.00
Capítulo 9
9.6 µX = 1.30; <JX = Ü.Ü4
.1915
(a)
(b) .1747
( c) 1.2664 a 1.3336
(d) (1) µX= 1.30; ax= 0.01
(2) normal
(3) .4772
(4) .15735
(5) 1.2916 a 1.3084
(e) y (f) Como se están tomando muestras de tamaño 16, en
lugar de valores individuales (muestras den= 1), porque
ax= oxl ¡n, más valores se encuentran cercanos a la media
con el tamaño de muestra aumentado, y menos valores
están más alejados de la media.
(g) Tienen la misma posibilidad de ocurrir (probabilidad
= .1587) puesto que, a medida que n aumenta, más medias
de muestra estarán más cerca de la media de la población.
9.9 (a) .2486
(b) .0918
(c) .1293 y .2514
(d) Es más probable que se presente un porcentaje de defectos
por arriba de 10.5%, puesto que es sólo una desviación
estándar de .33 sobre el valor de población de 10%.
9.14 . 14833
9.16 .2549 y .0823
Capítulo 10
10.5 (a) .9877 $ µx $ 1.0023
(b) Puesto que el valor de 1.0 está incluido en el intervalo, no
hay razón para creer que el promedio está por debajo de 1.0.
ºx
(c) No, ya que se conoce y n = 50 del teorema del límite
central podemos suponer que X está normalmente
distribuida.
(d) Un valor individual de .98 está únicamente a .75
desviaciones estándar por debajo de la media de la muestra
de .995. El intervalo de confianza representa la estimación
del promedio de una muestra de SO, no un valor individual.
10.9 $1,067.40 $µX$ $1,332.60
10.13 (a) 87.769 $µX$ 109.964
10.29 (a) $653.37 < Xr< $1,746.73
10.32 (a) 34.477 < Xr< 143.255
10.39 .2246 :<:::p $ .3754
10.41 .342 $ p $ .478
Capítulo 11
11.12 -1.96<Z==-0.80<+1.96. No rechazar H0 . No hay evidencia de
que la cantidad promedio dispensada sea diferente de ocho onzas.
11.16 (a) H0 : µx = 375
H1: µX* 375
(b) -1.96<Z=-1.768<+1.96. No rechazar H0 . No existe eviden-
cia de que la media sea diferente de 375 horas (a== .05).
11.20 valor de p == .4238
11.24 valor de p == .0768
11.29 (a) H0 : µx:::: 2.8; H 1: µx < 2.8
(b) Z = -1.75 < -1.645. Rechazar H 0 • El promedio es
significativamente menor que 2.8 y, por consiguiente, no
podemos llegar a la conclusión de que hay evidencia que el
proceso no está funcionando adecuadamente.
11.36 Z= -1.75; el valor dep == .5000 - .4599 == .0401, que es menor
que a= .05. Existe evidencia de que el proceso no está
funcionando adecuadamente.
11.42 (a) Potencia== .6387; J3 == .3613
(b) Potencia== .9908; J3 = .0092
11.43 (a) Potencia== .3707; J3 = .6293
(b) Potencia= .9525; J3 = .0475
(c) La disminución en a ha provocado un aumento en J3 y una
disminución en la potencia.
11.44 (a) Potencia== .8037; J3 = .1963
(b) Potencia== .9996; J3 = .0004
(c) El aumento en el tamaño de la muestra ha aumentado la
potencia.
11.49 n == 64
11.52 n = 17
11.55 (a) n = 19 familias
(b) Potencia== .3707
(c) Potencia== .99988
(d) Al ser casi doble el tamaño de la muestra (de 19 a 36), la
potencia aumentó de .975 a .99988.
(e) Potencia== .6387; J3 = .3613
(f) Potencia == 1.0; J3 = O
(g) El aumento en a ha reducido J3 y aumentado la potencia.
(h) Potencia= .6331; J3 = .3669
(i) Potencia == 1.0; J3 == O
Capítulo 12
12.l (a) t = 3.30 > t35 = 2.0301. Rechazar H0 . Existe evidencia de que
el EER es diferente de 9.0.
(b) Los datos están distribuidos de manera aproximada normal.
(c) Utilizando el paquete SAS, el valor de pes de .0022
12.3 (a) t = 3.552 > t99 = 1.9842. Rechazar H 0 • Existe evidencia de que
el saldo promedio es diferente de $75.
(b) valor de p < .005
12.10 (a) t= 1.714 < t 14 = 1.7613. No rechazar H0 • No existe evidencia
de que el tiempo promedio de espera es mayor a los 90 días.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente está distribuida de
manera aproximada normal.
(c) .05< valor de p < .10
12.12 -2.58 < Z = -0.35 < 2.58. No rechazar H0 . No existe evidencia
de que el contenido medio de alquitrán de esta nueva marca es
diferente de 17 miligramos.
12.14 (a) W = 471 de esta manera Z = 2.96 > 1.96. Rechazar H 0 • Existe
evidencia de que la mediana del EER de los
acondicionadores de aire es diferente de 9.0.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente es aproximadamente
simétrica.
(c) Los resultados son los mismos. El valor p aquí es de .0030.
12.19 (a) W= 87 < Wu= 95. No rechazar H 0 . No existe evidencia de
que la mediana del tiempo de espera sea mayor de 90 días.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente es aproximadamente
simétrica.
(c) Los resultados son los mismos.
12.21 (a) x2 = 88.81>xtc29)=42.557. Rechazar H0 • Existe evidencia de
que la desviación estándar de la población ha aumentado
por arriba de 1.2º.
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente está distribuida de
manera aproximada normal.
(c) valor de p < .005 en el extremo superior.
2 2 2
12.27 (a) Xrci 9) = 8.907 < x = 22.29 < Xuc 19¡ = 32.852. No rechazar H0 .
(b) Los datos están medidos en una escala de cociente o de
intervalo y la población subyacente está distribuida
de manera aproximada normal.
(e) .1 O < valor de p < .25 en el extremo superior.
12.28 (a) x2 = 24.8004 > xh9¡ == 21.666. Rechazar H0 . Existe evidencia
de que la desviación estándar del proceso ha aumentado.
(b) Los datos están medidos en una escala de cociente o
de intervalo y la población subyacente está distribuida
aproximada normal.
(c) valor de p < .005.
Capítulo 13
13.1 (a) Z = +0.39<+1.96. No rechazar H 0 . No existe evidencia de
que haya alguna diferencia en la vida útil promedio de las
bombillas eléctricas producidas por las dos máquinas.
(b) valor de p = .6966
13.3 (a) t= + 1.91>ti 98 =+1.645. Rechazar H0 . Existe evidencia de
que hay alguna diferencia entre los dos turnos.
(b) .OS <valor de p < .10 (o .OS62 estimado a partir de una
distribución normal).
13.8 (a) t= -2.19 < t48 = -2.0106. Rechazar H0 . Existe evidencia de
que hay una diferencia en el tiempo promedio de
comunicación antes de la recarga. La batería desarrollada
recientemente dura más.
(b) Normalidad en cada población e igualdad de varianzas.
(c) .02 <valor de p <.OS
13.11 (a) t= +2.948 > t28 = +2.7633. Rechazar H0 . Existe evidencia de
que el promedio de gastos escolares es mayor en las escuelas
preparatorias del noreste que las del medio oeste.
(b) valor de p < .01
13.13 Si. t' = +4.18 > + l.990S. Rechazar H 0 • Los valores estimados son
mayores en Farmingdale.
13.18 (a) t' = -2.19 < t'47 = -2.0117. Rechazar H 0 . Existe evidencia de
que hay una diferencia en el tiempo promedio de
comunicación antes de la recarga. El valor de p está entre
.02y .os.
(b) Normalidad en cada población.
(c) Los resultados son muy parecidos.
13.23 (a) Si. t' = +2.948 > +2.624S. Rechazar H0 .
(b) Los resultados de los problemas 13.11y13.23 (a) son muy
parecidos.
13.25 No. Puesto que 78 < Ti = 84 < 132, no rechazar H0 .
13.29 (a) Sí. Hagamos que la muestra de níquel-cadmio sea el grupo l.
Así pues, Ti= S02.S; puesto que Z =-2.62 <-1.96, rechazar H 0 •
(b) Igual variabilidad en las dos poblaciones.
(c) Todos los resultados son parecidos.
13.34 (a) Sí, rechazar H 0 . Ti= 292.5 de modo que Z = +2.49 > +2.33.
El valor de p es .0064.
(b) Todos los resultados son parecidos.
Capítulo 14
14.5 (d) Fmáx = 1.184 < Fmáx{4, 7) = 8.44. No rechazar Ho.
(e) Si, podemos seguir adelante.
(f) F = 4.22 > Fu(3,28) = 2.95. Rechazar H0 . Existe evidencia de que
hay diferencia.
(g) El programa A es superior al B y al C.
14.8 (a) Fmáx = 7.22 <Fmáx(S, 3) = 50.7. No rechazar Ho. F= 10.30 > Fu(4,l7)
= 2.96. Rechazar H0 . La aleación 2 es más débil.
14.12 H = 0.635 < ¡, 2U(Z) = 9.210. No rechazar H 0 •
14.15 H = 9.51 > x v( 3) = 7.815. Rechazar H 0 . Utilizando el procedimiento
de Dunn, el alcance crítico es de 12.38. El programa A es superior
al Programa C.
14.33 (b) F = 7.02 > Fuc 4,24) = 2.78. Rechazar H0 • Existe evidencia de
que hay diferencia.
(c) Alcance crítico= 0.472. La sustancia de tratamiento 2 tuvo como
resultado un tiempo de coagulación significativamente más corto
que las sustancias 3, 4 o 5. La sustancia de tratamiento 1
también es significativamente más rápida que la 4. Otras
diferencias de parejas no son significativa.
(d) RE= 15.9.
14.37 (a) F = 0.21 </uci, 9) = 5.12. No rechazar H0 .
(b) Fu(l,df> = t df
F = 472.9 . db"'hb
90 .3 = 5.24 < Fucz. 4 ¡ = 6.94, y no e 10 a erse
realizado el procedimiento de Tukey para comparaciones por
parejas.
14.48 (a) (1) F = 26.57 > Fu(3,24) = 3.01. Rechazar H0 . Existe evidencia
de un efecto del operador.
(2) F= 43.60 > Fu(z, 24) = 3.40. Rechazar H 0 • Existe evidencia
de un efecto de la máquina.
(3) F= 3.81>Fu(6,24)=2.51. Rechazar H 0 • Existe evidencia de
una interacción significativa entre operador y máquina.
(c) No se utiliza el procedimiento de Tukey para comparaciones
por parejas. La interacción significativa hace difícil el estudio
de los efectos principales.
Capítulo 15
15.4 (a) Z = -1.60 > -2.33. No rechazar H0 . No existe evidencia de
que la porción sea menor que .25.
(b) valor de p = .0548.
15.5 (a) Z = +2.93 > +1.645. Rechazar Ha. Existe evidencia de que la
porción es diferente de 0.30.
(b) valor de p = .0034.
15.12 (a) Z = +2.37>+1.96. Rechazar Ha. Existe evidencia de que hay una
diferencia en la porción de mujeres de los dos grupos que hacen
la comida en un restaurante durante la semana de trabajo.
(b) valor de p = .0178.
15.14 (a) Z = +2.58 > + 1.645. Rechazar Ha. Existe
evidencia de que se prefiere el ciclo de alta temperatura.
(b) valor de p = .005.
15.17 (a) Z= +7.34 > +1.96. Rechazar Ha.
(b) valor de p = .0000.
(ci Z = +7.3\> + 1.645. Rechazar Ha.
15.22 x =5.617>Xu(i)=3.841.RechazarH0 .
15.27 (a) x2 = 53.826 > xt(l) = 3.841. Rechazar Ha.
(b) valor de p = .0000.
(d) Se puede utilizar la prueba x 2 únicamente para probar una
diferencia entre dos porciones.
Capítulo 16
16.6 (a) p = .1145; LCL = .0522; UCL = .1768. La porción de llegadas tarde
durante el día 13 está, sustancialmente, fuera de control. Las
posibles causas especiales de este valor deben ser investigadas.
Además, los siguientes puntos más altos se presentan en viernes.
(b) X =26.9; UCL = 41.54, y LCL = 12.26.
(c) Los resultados son exactamente los mismos. El diagrama p
expresa los resultados en términos de la porción y el diagrama
np expresa los resultados en término del número de éxitos.
(d) La tormenta de nieve podría explicar porqué la porción de
llegadas tarde es tan alta durante el día 13.
16.10 (a) p = .01288; UCL = .01753; LCL = .00823. Aunque ninguno de
los puntos está fuera de los límites de control, existe evidencia
de la presencia de un patrón en el tiempo, ya que los últimos
ocho puntos se encuentran todos por encima de la media y la
mayoría de los puntos primeros están por debajo de ésta. Así
pues, las causas especiales que podrían estar contribuyendo a
la formación de este patrón deben ser investigadas antes de
realizar cualquier cambio en el sistema de operación.
Capítulo 17
17.7 (a) b0 = 1.45; b 1 = .074.
(b) Por cada aumento de 1 pie de espacio en estante, las ventas
'\umentarán en $7.40 a la semana.
(c) Y¡= 2.042 o $204.20.
17.9 (a) b0 = 12.6786; b 1 = 1.9607.
A
(b) La intersección con Y, b0 (igual a 12.6786) representa la porción
de las horas del trabajador que no se ven afectadas por la
variación en el tamaño del lote. La pendiente b1 (igual a 1.96),
significa que por cada aumento de una unidad en el tamaño del
l9te, se predice que las horas del trabajador aumentarán en 1.96.
(c) Y¡= 100.91.
(d) El tamaño de lote tuvo una variación de 20 a 80, de modo
que la predicción de un tamaño de lote de 100 sería una
extrapolación más allá del rango de la variable X.
Capítulo 18
18.2 (a) Y;=
-.02686 + .79116 X 1 ; + .60484 X2r
(b) Para un impacto dado en la suela media, cada aumento de una
unidad en la capacidad de absorbencia de impacto en la parte
delantera del pie tiene como resultado un aumento en la
habilidad a largo plazo para absorber los golpes en .79116 unidades.
Para una capacidad dada de absorbencia de impacto en la parte
delantera del pie, cada aumento de una unidad en el impacto en
la suela media tiene como resultado un aumento en la habilidad
a largo plazo para absorber los golpes en .60484 unidades.
Capítulo 19
19.3 (b) y (c)
/\
(d) ~1994 = E1993
= 1.94.
19.5 (b) Y¡= 0.216 + .139 X¡, en la que el origen es= 1970 y las
unidades de X son años.
(c) 1993: 3.413
1994: 3.552
1995: 3.691
1996: 3.830
Total móvil
Año Mes Y¡ S¡ T¡C¡I¡ f; C¡I¡ pesado C¡
1993 Ene. 354.00 0.941 376.39 359.35 1.047 4.055 1.014
Feb. 365.00 0.985 370.71 360.55 1.028 4.107 1.027
Mar. 389.00 1.072 362.93 361.74 1.003 3.601 0.900
Abr. 198.00 0.964 205.43 362.93 0.566 3.178 0.794
May 366.00 0.964 379.64 364.12 1.043 3.670 0.918
Jun. 389.00 1.045 372.26 365.32 1.019 3.982 0.995
Jul. 341.00 1.033 330.26 366.51 0.901 3.915 0.979
Ago. 413.00 1.027 402.02 367.70 1.093 4.153 1.038
Sep. 387.00 0.985 392.78 368.89 1.065 4.299 1.075
Oct. 384.00 0.964 398.19 370.08 1.076 4.309 1.077
Nov. 415.00 1.024 405.43 371.28 1.092 4.143 1.036
Dic. 328.00 0.997 328.95 372.47 0.883 4.045 1.011
1994 Ene. 417.00 0.941 443.38 373.66 1.187 4.362 1.090
Feb. 408.00 0.985 414.38 374.85 1.105 4.430 1.107
Mar. 416.00 1.072 388.12 376.04 1.032 4.264 1.066
Abr. 398.00 0.964 412.93 377.24 1.095 4.310 1.077
May 397.00 0.964 411.80 378.43 1.088 4.410 1.103
Jun. 452.00 1.045 432.55 379.62 1.139 4.443 1.111
Jul. 423.00 1.033 409.68 380.81 1.076 4.453 1.113
Ago. 456.00 1.027 443.88 382.01 1.162 4.343 1.086
Sep. 356.00 0.985 361.32 383.20 0.943 4.340 1.085
Oct. 479.00 0.964 496.71 384.39 1.292 4.604 1.151
Nov. 425.00 1.024 415.20 385.58 1.077 4.740 1.185
Dic. 499.00 0.997 500.44 386.77 1.294 ** **
A
Repaso de aritmética y álgebra
A-1
t¡lj Reglas del. álgebra: exponentes
y raíces cuadradas
Lo que sigue es un resumen de varias reglas para llevar a cabo operaciones arit-
méticas; cada regla está ilustrada con un ejemplo numérico:
Regla Ejem~lo
l. Xª·Xb=Xª+b 42. 43 = 45
2. (Xª)b =Xªb - (Z2)3 = z6
3. (Xª/Xb) =Xª - b r_
33
= 32
4. -Xª =X=
Xª
o
1 r_
34
= 3º =1
6.
#=!; f& = ..fi6 = .40
-J100
Notación de sumatorias
B
Puesto que la operación de adición se presenta con mucha frecuencia en la estadís-
tica, se utiliza el símbolo especial L (sigma) para denotar "tomar la suma de".
Suponga, por ejemplo, que tenemos un conjunto de n valores para alguna
n
variable X. La expresión LX; significa que estos n valores deben sumarse. Por
consiguiente ;= 1
n
LX¡= X1 + X2 + X3 + ... + xn
i =1
Eh estadística nos vemos involucrados muy a menudo con la suma de los valores
al cuadrado de una variable. Por tanto:
n
L x¡ = x; + x; + x; + ... + x;
1=1
s
L x¡ = x; + x; + x; + x¡ + x~
l=l =22+02+(-1)2+52+72
= 4+ o + 1 + 25 + 49
= 79
n
Debemos observar, aquí que L Xf, la sumatoria de los cuadrados no es
1=1
igual a (t. J.
X, el cuadrado de la suma, esto es
t. Xi * (t. X, J
En nuestro ejemplo, la sumatoria de los cuadrados es igual a 79. Esto no es igual
al cuadrado de la suma, cuyo resultado es 13 2 = 169.
Continuando con nuestro ejemplo anterior, suponga que también se tiene una
segunda variable Y cuyos valores son Y1 = 1, Y2 = 3, Y 3 = -2, Y4 = 4, y Y5 = 3.
Entonces,
s
L X¡Y¡ = X 1 Y1 + X 2 Y2 + X 3 Y3 + X 4 Y4 + X 5 Y5
j =1
= (2)(1) + (0)(3) + (-1)(-2) + (5)(4) + (7)(3)
= 2 + o + 2 + 20 + 21
= 45
n
Al calcular L X¡Y¡ debemos tomar en consideración que el primer valor de X
j =1
el segundo valor de X por el segundo de Y, y así sucesivamente. Estos productos
cruzados luego se suman con el propósito de obtener el resultado deseado. Sin
embargo, debemos observar en este punto que la sumatoria de productos cruzados
no es igual al producto de las sumas individuales, es decir,
5 5
En nuestro ejemplo, LX¡ = 13 y L Y¡ = 1 + 3 + (-2) + 4 + 3 = 9 de modo
que i =r ; =r
(~X¡)(¡~ Y¡) = (13)(9) = 117. Esto no es lo mismo que ~ X Y¡, que es igual
1
a 45.
Antes de estudiar las cuatro reglas básicas para efectuar operaciones con
notación sigma, será de ayuda presentar los valores de cada una de las cinco obser-
vaciones de X y de Y en forma de tabla:
Observación X¡ Y¡
1 2 1
2 o 3
3 -1 -2
5 4
5 7 3
5 5
¿xi= 13
i=l
¿v,= 9
i=l
5
L (X; + Y1) = (2 + 1) +(o+ 3) + (-1 + (-2)) + (s + 4) + (7 + 3)
i =1
= 3 + 3 + (-3) + 9 + 10
5 5
= 22 = L Xi + L Y¡
i = 1 j = 1
= 13 + 9 = 22
Regla 2: La sumatoria de una diferencia entre los valores de dos variables es igual
a la diferencia entre los valores sumados de las variables. 1
•'·,•;.
5
L (x 1 - Y1 ) = (2 - 1) +(o - 3) + (-1 - (-2)) + (s - 4) + (7 - 3)
i =1
= 1 + ( -3) + 1 + 1 + 4
5 5
=4 = LX¡ - LY;
i =1 j =1
= 13 - 9 =4
=4+0+(-2)+10+14
5
= 26 = 2:¿x = (2)(13) = 26
i =1
Regla 4: Una constante sumada n veces será igual a n veces al valor de la cons-
tante.
Esta propiedad establece que la sumatoria de las diferencias entre cada obser-
vación y la media aritmética es cero. Esto se puede probar matemáticamente de la
siguiente manera:
l. De la ecuación (4.1),
x=--
n
j = 1
i =1 i=1 i =1
2. Puesto que, para cualquier conjunto fijo de datos, X puede ser consi-
derada como una constante, de la regla 4 de la sumatoria tenemos:
n
Lix =nx
i =l
n
después nX = L X¡
i = 1
Por consiguiente,
n n n
L(X¡ - X)= LX¡ - LX¡
j =1 j =1 j =1
Problema
Suponga que se tienen seis observaciones de las variables X y Y tales que X 1 = 2, X 2 = 1, X 3
= 5, X 4 = - 3, X 5 = 1, X 6 = - 2, y Y1 = 4, Y2 =O, Y3 = - 1, Y4 = 2, Y5 = 7, y Y6 = - 3. Calcule
cada una de las siguientes sumatorias:
6 6
(a) LX¡ (b) LY¡
; = 1 i = 1
6 6
(e) LX¡2 (d) LY/
t =1 i =l
6 6
(e) LX;Y¡ (f) L(X; +Y;)
i =1 i = 1
6 6
(g) L(X; - Y;) (h) L(X¡ - 3Y¡ + 2xn
i = 1 j =1
6 6
(i)
i =1
L(cX;), cuando e = -1 (j) L(X; - 3Y; +e), cuando e= +3
I = 1
Referencias
l. Bashaw, W. L., Mathematics for Statistics (Nueva York: Wiley, 1969).
2. Lanzer, P. Video Review of Arithmetic (Roslyn Heights, NY: Video Aided Instruction, 1990).
3. Levine, D. Video Review of Statistics (Roslyn Heights, NY: Video Aided Instruction, 1989).
4. Shane, H., Video Review of Elementary Algebra (Roslyn Heights, NY: Video Aided Instruction,
1990).
e
Símbolos estadísticos
y alfabeto griego
i j1 Símbolos estadísticos
+ suma x multiplicación
- resta división
= igual =t- diferente
= aproximadamente igual
> mayor que < menor que
;::::: o ~ mayor o igual que o ~ menor o igual que
=::;
C-1
APÉNDICE
D
Conjuntos especiales de datos
(.para los .proyectos de minicasos
de aprendizaje colectivo)
Gastos de matrícula
Escuela (en $000) Tipo Localización Calendario Clase
Texas
Abilene Christian Univ. 7.2 Privada Suburbana Sem. RU
Angelo State Univ. 4.9 Pública Ciudad Sem. RU
Austin College 10.7 Privada Ciudad 414 NLA
Baylor Univ. 10.4 Privada Ciudad Sem. NU
Concordia Lutheran College 6.4 Privada Ciudad Sem. RLA
Dallas Baptist Univ. 4.8 Privada Ciudad 414 RLA
East Texas Baptist Univ. 4.7 Privada Ciudad 414 RLA
East Texas State Univ. 4.6 Privada Ciudad Qtr. RU
Hardin Simmons Univ. 6.0 Privada Ciudad Sem. RU
Houston Baptist Univ. 5.4 Privada Ciudad Qtr. RU
Howard Payne Univ. 4.8 Privada Campo Sem. RLA
Huston-Tillotson College 4.7 Privada Ciudad Sem. RLA
D·I
Gastos en matrícula
Escuela (en $000) Tipo Localización Calendario Clase
Texas (contlnuadón)
Incarnate Word College 8.3 Privado Ciudad Sem. RLA
Jarvis Christian College 3.8 Privado Campo Sem. RLA
LamarUniv. 4.8 Pública Ciudad Sem. RU
LeTourneau Univ. 8.3 Privada Ciudad Sem. RLA
Lubbock Christian Univ. 6.4 Privada Ciudad Sem. RLA
McMurry Univ. 6.6 Privada Ciudad 414 RLA
Midwestern State Univ. 4.5 Pública Ciudad Sem. RU
Our Lady of the Lake 8.0 Privada Ciudad Sem. RU
Paul Quinn College 3.6 Privada ·Ciudad Sem. RLA
Prairie View A&M Univ. 2.4 Póblica Campo Sem. RU
Rice Univ. 8.5 Privada Ciudad Sem. NU
St. Edward's Univ. 8.8 Privada Campo Sem. RU
St. Mary's Univ. 7.7 Privada Ciudad Sem. RU
Sam Houston State Univ. 4.9 Pública Campo Sem. RU
Schreiner College 8.6 Privada Campo 414 RLA
Southern Methodist Univ. 12.0 Privada Suburbana Sem. NU
Southwest Texas State Univ. 4.9 Pública Ciudad Sem. RU
Southwestern Adventist 7.0 Privada Campo Sem. RLA
Southwestern Univ. ll.O Privada Suburbana Sem. RLA
Stephen F. Austin State U. 4.9 Pública Campo Sem. RU
Sul Ross State Univ. 3.9 Pública Campo Sem. RU
Tarleton State Univ. 4.9 Pública Campo Sem. RU
Texas A&I Univ. 4.4 Pública Campo Sem. RU
Texas A&M Univ. 4,9 Pública Ciudad Sem. NU
Texas A&M at Galveston 4.9 Pública Ciudad Sem. RU
Texas Christian Univ. 8.0 Privada Ciudad Sem. NC
Texas College 3.6 Privada Ciudad Sem. RLA
Texas Lutheran College 7.4 Privada Ciudad Sem. RLA
Texas Southern Univ. 7.9 Pública Ciudad Sem. RU
Texas Tech Univ. 4.9 Pública Ciudad Sem. RU
Texas Wesleyan Univ. 5.8 Privada Ciudad Sem. RU
Texas Woman's Univ. 3.9 Pública Ciudad Sem. RU
Trinity Univ. ll.6 Privada Ciudad Sem. RU
U. of Dallas 10.3 Privada Suburbana Sem. NLA
U. of Houston 3.4 Pública Ciudad Sem. NU
U. of Houston-Downtown 3.9 Pública Ciudad Sem. RU
U. of Mary Hardin-Baylor 5.0 Privada Suburbana Sem. RLA
U. of North Texas 3.9 Pública Ciudad Sem. RU
U. of St. Thomas 8.0 Privada Ciudad Sem. RU
U. of Texas at Arlington 3.5 Pública Suburbana Sem. NU
U. of Texas at Austin 4.9 Pública Ciudad Sem. NU
U. of Texas at Dallas 5.8 Pública Suburbana Sem. RU
U. of Texas at El Paso 4.1 Pública Ciudad Sem. RU
U. of Texas-Pan American 3.5 Pública Ciudad Sem. RU
U. ofTexas, San Antonio 3.9 Pública Ciudad Sem. RU
Wayland Baptist Univ. 4.8 Privada Ciudad 414 RU
West Texas State Univ. 5.9 Pública Campo Sem. RU
Wiley College 3.6 Privada Ciudad Sem. RLA
E
Tablas
Tabla Página
E.l Tabla de números aleatorios E-2
E.2 La distribución normal estándar E-4
E.3 Valores críticos de t E-5
E.4 Valores críticos de x2 E-7
E.5 Valores críticos de F E-8
E.Sa Valores críticos selectos de los va:lóres F para estadística D; de Cook's E-12
E.6 Tabla de probabilidades de Poisson E-13
E.7 Tabla de probabilidades binominales E-17
E.8 Valores críticos de la prueba Fmáx Hartley E-26
E.9 Valores ctíticos inferiores y superiores U para la prueba de aleatoriedad
en corridas E-27
E.10 Valores críticos inferiores y superiores W de la prueba de rangos con
signo de Wilcoxon E-28
E.11 Valores críticos inferiores y superiores T1 de la prueba de suma de
rangos de Wilcoxon E-29
E.12 Valores críticos del alcance Q estudentizado E-30
E.13 Factores de diagrama de control E-32
E.14 Valores críticos dL y dude la estadística D de Durbin-Watson E-33
-=-·
TABLA E. 1 Tabla de números aleatorios
Columna
00000 00001 11111 11112 22222 22223 33333 33334
Renglón 12345 67890 12345 67890 12345 67890 12345 67890
01 49280 88924 35779 00283 81163 07275 89863 02348
02 61870 41657 07468 08612 98083 97349 20775 45091
03 43898 65923 25078 86129 78496 97653 91550 08078
04 62993 93912 30454 84598 56095 20664 12872 64647
05 33850 58555 51438 85507 71865 79488 76783 31708
06 97340 03364 88472 04334 63919 36394 11095 92470
07 70543 29776 10087 10072 55980 64688 68239 20461
08 89382 93809 00796 95945 34101 81277 66090 88872
09 37818 72142 67140 50785 22380 16703 53362 44940
10 ' 60430 22834 14130 96593 23298 56203 92671 ·15925
11 82975 66158 84731 19436 55790 69229 28661 13675
12 39087 71938 40355 54324 08401 26299 49420 59208
13 55700 24586 93247 32596 11865 63397 44251 43189
14 14756 23997 78643 75912 83832 32768 18928 57070
15 32166· 53251 70654 92827 63491 04233 33825 69662
16 23236 73751 31888 81718 06546 83246 47651 04877
17 45794 26926 15130 82455 78305 55058 52551 47182
18 09893 20505 14225 68514 46427 56788 96297 78822
19 54382 74598 91499 14523 68479 27686 46162 83554
20 94750 89923 37089 20048 80336 94598 26940 36858
21 70297 34135 53140 33340 42050 82341 44104 82949
22 85157 47954 32979 26575 57600 40881 12250 73742
23 11100 02340 12860 74697 96644 89439 28707 25815
24 36871 50775 30592 57143 17381 68856 25853 35041
25 23913 48357 63308 16090 51690 54607 72407 55538
26 79348 36085 27973 65157 07456 22255 25626 57054
27 92074 54641 53673 54421 18130 60103 69593 49464
28 06873 21440 75593 41373 49502 17972 82578 16364
29 12478 37622 99659 31065 83613 69889 58869 29571
30 57175 55564 65411 42547 70457 03426 72937 83792
31 91616 11075 80103 07831 59309 13276 26710 73000
32 78025 73539 14621 39044 47450 03197 12787 47709
33 27587 67228 80145 10175 12822 86687 65530 49325
34 16690 20427 04251 64477 73709 73945 92396 68263
35 70183 58065 65489 31833 82093 16747 10386 59293
36 90730. 35385 15679 99742 50866 78028 75573 67257
37 10934 93242 13431 24590 02770 48582 00906 58595
38 82462 30166 79613 47416 13389 80268 05085 96666
39 27463 10433 07606 16285 93699 60912 94532 95632
40 02979 52997 09079 92709 90110 47506 53693 49892
41 46888 69929 75233 52507 32097 37594 10067 67327
42 53638 83161 08289 12639 08141 12640 28437 09268
43 82433 61427 17239 89160 19666 08814 37841 12847
44 35766 31672 50082 22795 66948 65581 84393 15890
45 10853 42581 08792 13257 61973 24450 52351 16602
46 20341 27398 72906 63955 17276 10646 74692 48438
47 64458 90542 77563 51839 52901 53355 83281 19177
48 ' 28337 66530 16687 35179 46560 00123 44546 79896
49 34314 23729 85264 05575 96855 23820 11091 ' 79821
50 28603 10708 68933 34189 92166 15181 66628 58599
,I
Columna
00000 00001 11111 11112 22222 22223 33333 33334
Renglón 12345 67890 12345 67890 12345 67890 12345 67890
Fuente: Extraído de una parte de The Rand Corporation, A Mil/ion Random Digits with 100,000 Normal
Deviates (Glencoe, Ill.: The Free Press, 1995).
Apéndice E Tablas
TABLA E.2 La distribución normal estandarizada
o z
Cada entrada representa el área bajo la distribución normal estandarizada desde la media hasta Z
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
o.o .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 . .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2~9' .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
i
1.0 .3413 .3438 ".3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6,. .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4~73 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4760 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4860 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4986 .4986 .4986
3.0 .49865 .49869 .49874 .49878 .49882 .49886 .49889 .49893 .49897 .49900
3.1 .49903 .49906 .49910 .49913 .49916 .49918 .49921 .49924 .49926 .49929
3.2 .49931 .49934 .49936 .49938 .49940 .49942 .49944 .49946 .49948 .49950
3.3 .49952 .49953 .49955 .49957 .49958 .49960 .49961 .49962 .49964 .49966
3.4 .49966 .49968 .49969 .49970 .49971 .49972 .49973 .49974 .49975 .49976
3.5 .49977 .49978 .49978 .49979 .49980 .49981 .49981 .49982 .49983 .49983
3.6 .49984 .49986 .49985 .49986 .49986 .49987 .49987 .49988 .49988 .49989
3.7 .49989 .49990 .49990 .49990 .49991 .49991 .49992 .49992 .49992 .49992
3.8 .49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995
3.9 .49995 .49995 .49996 .49996 .49996 .49996 .49996 .49996 .49997 .49997
~
Para un número particular de grados de libertad, las
entradas representan el valor crítico de t correspondiente
a un área de extremo superior especificada (o;)
o f(cx,gl)
¡¡!
CT
Pi"
Grados
de
Áreas de extremos superior {a}
'
"' libertad .995 .99 .975 .95 .90 .75 .25 .10 .05 .025 .01 .005
1 0.001 0.004 0.016 0.102 1.323 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 0.575 2.n3 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 1.213 4.108 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 1.923 5.385 1.n9 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 2.675 6.626 9.236 11.071 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 3.455 7.841 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 4.255 9.037 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 5.071 10.219 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 5.899 11.389 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 6.737 12.549 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 7.584 13.701 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 8.438 14.845 18.549 21.026 23.337 26.217 28.299
13 3.565 4.107 5.009 5.892 7.042 9.299 15.984 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 10.165 17.117 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 11.037 18.245 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 11.912 19.369 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.385 12.792 20.489 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 13.675 21.605 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 -14.562 22.718 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 15.452 23.828 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 16.344 24.935 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.042 17.240 26.039 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 18.137 27.141 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 19.037 28.241 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 19.939 29.339 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 20.843 30.435 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 21.749 31.528 36.741 40.113 43.194 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 22.657 32.620 37.916 41.337 44.461 48.278 50.993
29 13.121 14.257 16.047 17.708 19.768 23.567 33.711 39.087 42.557 45.722 49.588 52.336
30 13.787 14.954 16.791 18.493 20.599 24.478 34.800 40.256 43.773 46.979 50.892 53.672
Para un número mayor de grados de libertad (gl) se puede utilizar la expresión Z = W -~~df)-1 y se puede obtener el área de extremo superior resultante a partir
de la tabla correspondiente a la distribución normal estandarizada (tabla E.2)
TABLA E.5 Valor crítico de F
Para una combinación particular de
grados de libertad en el numerador y
en el denominador, las entradas
representan los valores críticos de F
correspondientes a un área de
extremo superior especificada (a). ~"!°'.
o FU(a:,g1,,g1.¡
Numerador gl,
Denominador~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~ 2 3 4 5 6 7 B 9 10 12 15 20 24 30 40 60 120
1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.311 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.n 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.n 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 ·3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 4.87 3.81 3.41 3.18 3.03 2.92 2.83 2.n 2.71 2.87 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2. 11 2.(11
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 un
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1..9&
18 4.41 3.55 3.16 2.93 2.n 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1..SZ
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.M
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.M
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1J!7 1.B1
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1..!M .. 1.18
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1..96 1.91 ... 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.91 1.73
f• u.
::u.
25 4.24 3.39 2.99 2-15 .uo 2M 2119 _J.m 137 1.71
~ ~ ~ ··~ .a4!' -~-·.-·1'tJll. ·Hi'
26 4.23 3.37 ·2.98 2.74 2.59 2Jrl 2.39 2:32 'U'I 2.22 1.99 1Jiis , .. 1.80
1r , 1.75 1.69
27 4.21 3.35 2.96 2.73
28 4.20 3.34 2.95 2.71
2.57
2.56
2.46
2.45
2.37
2.36
2.31
2.29
2.25
2.24
2.20
2.19
2.13
2.12
2.06
2.04
1.97
1.96
1.93
1.91
1.88
1.87
..
1.84
1.82
1.79
1.n
1.73
1.71
1.87
1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10
f 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
A 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53
s 120 3.92 3.07 2.68 2.45
2.37
2.29
2.25
2.17
2.17
2.09
2.10
2.02
2.04 1.99 1.92 1.84 1.75. 1.70 1.65 1.59 1.53 1.47 1.39
"' 1.96 1.91 1.63 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
¡;!
~
'1'co
111 TABLA E.S (continuación)
1
10
.,,J>
ID• ~:>'.~.:~:~·-,;-,·
:::1
A o Fu(a,gl,,gl,)
ñ"
ID
111
g/2 del numerador
gl1 del
numerador 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120
~ 647.8 799.5 864.2 899.6 921.8 937.1 948.2 956.7 963.3 968.6 976.7 984.9 993.1 997.2 1001 1006 1010 1014 1018
e-
¡¡;- 2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
"' 3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14. 12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 10:01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14
8 7.'S1 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4;24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08
11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 6.56 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 6.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2JI7 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
TABLA E.S (continuación)
~,!:º'
o FU(a,91,.91,¡
1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.86 14.55 . 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.116 3.78 3.69 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.86 3.51 3.43 3.35 3.27 3.18 3.09 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 299 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17
26. 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 296 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13
:J:io 27 7.68 5.49 4.60 4.11 3,78 3.56 3.39 3.26 3.15 3.06 2~ 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10
"a
ID• 28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2~ 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06
::::1 29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 287 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03
A
;:;· 30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 284 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
ID 40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2~ 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 250 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
"' 120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47. 2~ 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.IB 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
¡;;I
O"
&"
"'
--!.
o
m
1 TABLA E.S (continuación)
)> ~ ""ºº'
'a ¡g~,fum1
ID-
:::11 o Fu(a,gl"gl,)
A
ft gl1 del glz del numerador
tD
m numerador 1 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 720
2
1 16211 20000 21615 22500 23056 23437 23715 23925 24091 24224 24426 24630 24836 24940 25044 25148 25253 25359 25465
2 198.5 199.0 199.2 199.2 199.3 199.3 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.5 199.5 199.5 199.5 199.5 199.5
¡;;! 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83
CT 3 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69
¡;- 4 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.44 20.17 20.03 19.89 19.75 19.61 19.47 19.32
"' 5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.38 13.15 12.90 12.78 12.66 12.53 12.40 12.27 12.14
6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.03. 9.81 9.59 9.47 9.36 9.24 9.12 9.00 8.88
7 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97 7.75 7.65 7.53 7.42 7.31 7.19 7.08
8 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21 7.01 6.81 6.61 6.50 6.40 6.29 6.18 6.06 5.95
9 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42 6.23 6.03 5.83 5.73 5.62 5.52 5.41 5.30 5.19
10 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47 5.27 5.17 5.07 4.97 4.86 4.75 4.64
11 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42 5.24 5.05 4.86 4.76 4.65 4.55 4.44 4.34 4.23
12 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72 4.53 4.43 4.33 4.23 4.12 4.01 3.90
13 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82 4.64 4.46 4.27 4.17 ll:07 3.97 3.87 3.76 3.65
14 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60 4.43 4.25 4.06 3.96 3.86 3.76 3.66 3.55 3.44
15 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07 3.88 3.79 3.69 3.58 3.48 3.37 3.26
16 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 4.27 4.10 3.92 3.73 3.64 3.54 3.44 3.33 3.22 3.11
17 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.3~ 4.25 4.14 3.97 3.79 3.61 3.51 3.41 3.31 3.21 3.10 2.98
18 10.22 7.21 6.03 5.37 4.96 4:66 4.44 4.28 4.14 4.03 3.86 3.68 3.50 3.40 3.30 3.20 3.10 2.99 2.87
19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.76 3.59 3.40 3.31 3.21 3.11 3.00 2.89 2.78
20 9.94 6.99 5.92 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50 3.32 3.22 3.12 3.02 2.92 2.81 2.69
21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.60 3.43 3.24 3.15 3.05 2.95 2.84 2.73 2.61
22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.54 3.36 3.18 3.08 2.98 2.88 2.77 2.66 2.55
23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.47 3.30 3.12 3.02 2.92 2.82 2.71 2.60 2.48
24 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59 3.42 3.25 3.06 2.97 2.87 2.77 2.66 2.55 2.43
25 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 3.54 3.37 3.20 3.01 2.92 2.82 2.72 2.61 2.50 2.38
26 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60 3.49 3.33 3.15 2.97 2.87 2.77 2.67 2.56 2.45 2.33
27 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56 3.45 3.28 3.11 2.93 2.83 2.73 2.63 2.52 2.41 2.29
28 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52 3.41 3.25 3.07 2.89 2.79 2.69 2.59 2.48 2.37 2.25
29 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48 3.38 3.21 3.04 2.86 2.76 2.66 2.56 2.45 2.33 2.21
30 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01 2.82 2.73 2.63 2.52 2.42 2.30 2.18
40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 2.95 2.78 2.60 2.50 2.40 2.30 2. 18 2.06 1.93
60 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57 2.39 2.29 2.19 2.08 1.96 1.83 1.69
120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37 2.19 2.09 1.98 1.87 1.75 1.61 1.43
7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62 2.52 2.36 2.19 2.00 1.90 1.79 1.67 1.53 1.36 1.00
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables far Statisticians, 3a. ed., 1966. Con licencia de The Biometrika Trustees.
TABLA E.Sa Valores críticos selectos de F para la estadística D, de Cook
a= .50
gl en el numerador = p + 1
gl en el denominador= n - p - 1 2 3 4 5 6 7 8 9 10 12 15 20
10 .743 .845 .899 .932 .954 .971 .983 .992 1.00 1.01 1.02 1.03
11 .739 .840 .893 .926 .948 .964 .977 .986 .994 1.01 1.02 1.03
12 .735 .835 .888 .921 ;943 .959 .972 .981 .989 1.00 1.01 1.02
15 .726 .826 .878 .911 .933 .949 .960 .970 .977 .989 1.00 1.01
20 .718 .816 .868 .900 .922 .938 .950 .959 .966 .977 .989 1.00
24 .714 .812 .863 .895 .917 .932 .944 .953 .961 .972 .983 .994
30 .709 .807 .858 .890 .912 .927 .939 .948 .955 .966 .978 .989
40 .705 .802 .854 .885 .907 .922 .934 .943 .950 .961 .972 .983
60 .701 .798 .849 .880 .901 .917 .928 .937 .945 .956 .967 .978
120 .697 .793 .844 .875 .896 .912 .923 .932 .939 .950 .961 .972
00 .693 .789 .839 .870 .891 .907 .918 .927 .934 .945 .956 .967
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables for Statisticians, 3a. ed., 1966. Con licencia de The
Biometrika Trustees.
Para un valor dado de A., las entradas indican la probabilidad de obtener un valor especificado de X
;\.
X 0.1 0.2 0.3 0.4 0.5 0.6 0.7 o.e 0.9 1.0
o .9048 .8187 .7408 .6703 . .6065 .5488 .4966 .4493 .4066 .3679
1 .0905 .1637 .2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679
2 .0045 .0164 .0333 .0536 .0758 .0988 .1217 .1438 .1647 .1839
3 .0002 .0011 .0033 .0072 .0126 .0198 .0284 .0383 .0494 .0613
4 .0000 .0001 .0003 .0007 .0016 .0030 .0050 .0077 .0111 .0153
5 .0000 .0000 .0000 .0001 .0002 .0004 .0007 .0012 .0020 .0031
6 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0003 .0005
7 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
;\.
X 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
o .3329 .3012 .2725 .2466 .2231 .2019 .1827 .1653 .1496 .1353
1 .3662 .3614 .3543 .3452 .3347 .3230 .3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 .0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 0812 .0902
5 .0045 .0062 .0084 .0111 .0141 .0176 .0216 .0260 .0309 .0361
6 .0008 .0012 .0018 .0026 .0035 .0047 .0061 .0078 .0098 .0120
7 .0001 .0002 .0003 .0005 .0008 .0011 .0015 .0020 .0027 .0034
8 .0000 .0000 .0001 .0001 .0001 .0002 .0003 .0005 .0006 .0009
9 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002
;\.
X 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
o .1225 .1108 .1003 .0907 .0821 .0743 .0672 .0608 .0550 .0498
1 .2572 .2438 .2306 .2177 .2052 .1931 .1815 .1703 .1596 .1494
2 .2700 .2681 .2652 .2613 .2565 .2510 .2450 .2384 .2314 .2240
3 .1890 .1966 .2033 .2090 .2138 .2176 .2205 .2225 .2237 .2240
4 .0992 .1082 .1169 .1254 .1336 .1414 .1488 .1557 .1622 .1680
5 .0417 .0476 .0538 .0602 .0668 .0735 .0804 .0872 .0940 .1008
6 .0146 .0174 .0206 .0241 .0278 .0319 .0362 .0407 .0455 .0504
7 .0044 .0055 .0068 .0083 .0099 .0118 .0139 .0163 .0188 .0216
8 .0011 .0015 .0019 .0025 .0031 .0038 .0047 .0057 .0068 .0081
9 .0003 .0004 .0005 .0007 .0009 .0011 .0014 .0018 .0022 .0027
10 .0001 .0001 .0001 .0002 .0002 .0003 .0004 .0005 .0006 .0008
11 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0002
.0000 .0000 .0000 .0000 .0001
12 .0000 .0000 .0000 .0000
·ºººº
;\.
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
o .0450 .0408 .0369 .0334 .0302 .0273 .0247 .0224 .0202 .0183
1 .1397 .1304 .1217 .1135 .1057 .0984 .0915 .0850 ,0789 .0733
2 .2165 .2087 .2008 .1929 .1850 .1771 .1692 .1615 .1539 .1465
3 .2237 .2226 .2209 .2186 .2158 .2125 .2087 .2046 .2001 .1954
4 .1734 .1781 .1823 .1858 .1888 .1912 .1931 .1944 .1951 .1954
5 .1075 .1140 .1203 .1264 .1322 .1377 .1429 .1477 .1522 .1563
6 .0555 .0608 .0662 .0716 .0771 .0826 .0881 .0936 .0989 .1042
7 .0246 .0278 .0312 .0348 .0385 .0425 .0466 .0508 .0551 .0595
B .0095 .0111 .0129 .0148 .0169 .0191 .0215 .0241 .0269 .0298
9 .0033 .0040 .0047 .0056 .0066 .0076 .0089 .0102 .0116 .0132
,\
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
10 .0010 .0013 .0016 .0019 .0023 .0028 .0033 .0039 .0045 .0053
11 .0003 .0004 .0005 .0006 .0007 .0009 .0011 .0013 .0016 .0019
12 .0001 .0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005 .0006
13 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0002 .0002
14 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
,\
X 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0
o .0166 .0150 .0136 .0123 .0111 .0101 .0091 .0082 .0074 .0067
1 .0679 .0630 .0583 .0540 .0500 .0462 .0427 .0395 .0365 .0337
2 .1393 .1323 .1254 .1188 .1125 .1063 .1005 .0948 .0894 .0842
3 .1904 .1852 .1798 .1743 .1687 .1631 .1574 .1517 .1460 .1404
4 .1951 .1944 .1933 .1917 .1898 .1875 .1849 .1820 .1789 .1755
5 .1600 .1633 .1662 .1687 .1708 .1725 .1738 .1747 .1753 .1755
6 .1093 .1143 . 1191 .1237 .1281 .1323 .1362 .1398 .1432 .1462
7 .0640 .0686 .0732 .0778 .0824 .0869 .0914 .0959 .. 1002 .1044
8 .0328 .0360 .0393 .0428 .0463 .0500 .0537 .0575 .0614 .0653
9 .0150 .0168 .0188 .0209 .0232 .0255 .0280 .0307 .0334 .0363
10 .0061 .0071 .0081 .0092 .0104 .0118 .0132 .0147 .0164 .0181
11 .0023 .0027 .0032 .0037 .0043 .0049 .0056 .0064 .0073 .0082
12 .0008 .0009 .0011 .0014 .0016 .0019 .0022 .0026 .0030 .0034
13 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0011 .0013
14 .0001 .0001 .0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005
15 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0002
,\
X 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
o .0061 .0055 .0050 .0045 .0041 .0037 .0033 .0030 .0027 .0025
1 .0311 .0287 .0265 .0244 .0225 .0207 .0191 .0176 .0162 .0149
2 .0793 .0746 .0701 .0659 .0618 .0580 .0544 .0509 .0477 .0446
3 .1348 .1293 .1239 .1185 .1133 .1082 .1033 .0985 .0938 .0892
4 .1719 .1681 .1641 .1600 .1558 .1515 .1472 .1428 .1383 .1339
5 .1753 .1748 .1740 .1728 .1714 .1697 .1678 .1656 .1632 .1606
6 .1490 .1515 .1537 .1555 .1571 .1584 .1594 .1601 .1605 .1606
7 .1086 .1125 .1163 .1200 .1234 .1267 .1298 .1326 .1353 .1377
8 .0692 .0731 .0771 .0810 .0849 .0887 .0925 .0962 .0998 .1033
9 .0392 .0423 .0454 .0486 .0519 .0552 .0586 .0620 .0654 .0688
10 .0200 .0220 .0241 .0262 . .0285 .0309 .0334 .0359 .0386 .0413
11 .0093 .0104 .0116 .0129 .0143 .0157 .0173 .0190 .0207 .0225
12 .0039 .0045 .0051 .0058 .0065 .0073 .0082 .0092 .0102 .0113
13 .0015 .0018 .0021 .0024 .0028 .0032 .0036 .0041 .0046 .0052
14 .0006 .0007 .0008 .0009 .0011 .0013 .0015 .0017 .0019 .0022
15 .0002 .0002 .0003 .0003 .0004 .0005 .0006 .0007 .0008 .0009
16 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002 .0003 .0003
17 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001
.A.
X 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
o .0022 .0020 .0018 .0017 .0015 .0014 .0012 .0011 .0010 .0009
1 .0137 .0126 .0116 .0106 .0098 .0090 .0082 .0076 .0070 .0064
2 .0417 .0390 .0364 .0340 .0318 .0296 .0276 .0258 .0240 .0223
3 .0848 .0806 .0765 .0726 .0688 .0652 .0617 .0584 .0552 .0521
4 .1294 .1249 .1205 . 1162 . 1118 .1076 .1034 .0992 .0952 .0912
A.
X 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
5 .1579 .1549 .1519 .1487 .1454 .1420 .1385 .1349 .1314 .1277
6 .1605 .1601 .1595 .1586 .1575 .1562 .1546 .1529 .1511 .1490
7 .1399 .1418 .1435 .1450 .1462 .1472 .1480 .1486 .1489 .1490
8 .1066 .1099 .1130 .1160 .1188 .1215 .1240 .1263 .1284 .1304
9 .0723 .0757 .0791 .0825 .0858 .0891 .0923 .0954 .0985 .1014
10 .0441 .0469 .0498 .0528 .0558 .0588 .0618 .0649 .0679 .0710
11 .0245 .0265 .0285 .0307 .0330 .0353 .0377 .0401 .0426 .0452
12 .0124 .0137 .0150 .0164 .0179 .0194 .0210 .0227 .0245 .0264
13 .0058 .0065 .0073 .0081 .0089 .0098 .0108 .0119 .0130 .0142
14 .0025 .0029 .0033 .0037 .0041 .0046 .0052 .0058 .0064 .0071
15 .0010 .0012 .0014 .0016 .0018 .0020 .0023 .0026 .0029 .0033
16 .0004 .0005 .0005 .0006 .0007 .0008 .0010 .0011 .0013 .0014
17 .0001 .0002 .0002 .0002 .0003 .0003 .0004 .0004 .0005 .0006
18 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002
19 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001
A.
X 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
o .0008 .0007 .0007 .0006 .0006 .0005 .0005 .0004 .0004 .0003
1 .0059 .0054 .0049 .0045 .0041 .0038 .0035 .0032 :-0029 .0027
2 .0208 .0194 .D180 .0167 .0156 .0145 .0134 .0125 .0116 .0107
3 .0492 .0464 .0438 .0413 .0389 .0366 .0345 .0324 .0305 .0286
4 .0874 .0836 .0799 .0764 .0729 .0696 .0663 .0632 .0602 .0573
5 .1241 .1204 .1167 .1130 .1094 .1057 .1021 .0986 .0951 .0916
6 .1468 .1445 .1420 .1394 .1367 .1339 .1311 .1282 .1252 .1221
7 .1489 .1486 .1481 .1474 .1465 .1454 .1442 .1428 .1413 .1396
8 .1321 .1337 .1351 .1363 .1373 .1382 .1388 .1392 .1395 .1396
9 .1042 .1070 .1096 .1121 .1144 .1167 .1187 .1207 .1224 .1241
10 .0740 .0770 .0800 .0829 .0858 .0887 .0914 .0941 .0967 .0993
11 .0478 .0504 .0531 .0558 .0585 .0613 .0640 .0667 .0695 .0722
12 .0283 .0303 .0323 .0344 .0366 .0388 .0411 .0434 .0457 .0481
13 .0154 .D168 .0181 .0196 .0211 .0227 .0243 .0260 .0278 .0296
14 .0078 .0086 .0095 .0104 .0113 .0123 .0134 .0145 .0157 .D169
15 .0037 .0041 .0046 .0051 .0057 .0062 .0069 .0075 .0083 .0090
16 .0016 .0019 .0021 .0024 .0026 .0030 .0033 .0037 .0041 .0045
17 .0007 .0008 .0009 .0010 .0012 .0013 .0015 .0017 .0019 .0021
18 .0003 .0003 .0004 .0004 .0005 .0006 .0006 .0007 .0008 .0009
19 .0001 .0001 .0001 .0002 .0002 .0002 .0003 .0003 .0003 .0004
20 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002
21 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001
A.
X 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0
o .0003 .0003 .0002 .0002 .0002 .0002 .0002 .0002 .0001 .0001
1 .0025 .0023 .0021 .0019 .0017 .0016 .0014 .0013 .0012 .0011
2 .0100 .0092 .0086 .0079 .0074 .0068 .0063 .0058 .0054 .0050
3 .0269 .0252 .0237 .0222 .0208 .0195 .0183 .0171 .0160 .0150
4 .0544 .0517 .0491 .0466 .0443 .0420 .0398 .0377 .0357 .0337
5 .0882 .0849 .0816 .0784 .0752 .0722 .0692 .0663 .0635 .0607
6 .1191 .1160 .1128 .1097 .1066 .1034 .1003 .0972 .0941 .0911
7 .1378 .1358 .1338 .1317 .1294 .1271 .1247 .1222 .1197 .1171
8 .1395 .1392 .1388 .1382 .1375 .1366 .1356 .1344 .1332 .1318
9 .1256 .1269 .1280 .1290 .1299 .1306 .1311 .1315 .1317 .1318
10 .1017 .1040 .1063 .1084 .1104 .1123 .1140 .1157 .1172 .1186
11 .0749 .0776 .0802 .0828 .0853 .0878 .0902 .0925 .0948 .0970
12 .0606 .0530 .0555 .0579 .0604 .0629 .0664 .0679 .0703 .0728
13 .0315 .0334 .0354 .0374 .0395 .0416 .0438 .0459 .0481 .0504
14 .0182 .0196 .0210 .0225 .0240 .0256 .0272 .0289 .0306 .0324
15 .0098 .0107 .0116 .0126 .0136 .0147 .0158 .0169 .0182 .0194
16 .0050 .0055 .0060 .0066 .0072 .0079 .0086 .0093 .0101 .0109
17 .0024 .0026 .0029 .0033 .0036 .0040 .0044 .0048 .0053 .0058
18 .0011 .0012 .0014 .0015 .0017 .0019 .0021 .0024 .0026 .0029
19 .0005 .0005 .0006 .0007 .0008 .0009 .0010 .0011 .0012 .0014
20 .0002 .0002 .0002 .0003 .0003 .0004 .0004 .0005 .0005 .0006
21 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002 .0002 .0003
22 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0001
).
X 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10
o .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0000
1 .0010 .0009 .0009 .0008 .0007 .0007 .0006 .0005 .0005 .0005
2 .0046 .0043 .0040 .0037 .0034 .0031 .0029 .0027 .0025 .0023
3 .0140 .0131 .0123 .0115 .0107 .0100 .0093 .0087 .0081 .0076
4 .0319 .0302 .0285 .0269 .0254 .0240 .0226 .0213 .0201 .0189
5 .0581 .0555 .0530 .0506 .0483 .0460 .0439 .0418 .0398 .0378
:i~~-
6 .0881 .0851 .0822 .0793 .0764 .0736 .0709 .0682 .0656
7 .1145 .1118 .1091 .1064 .1037 .1010 .0982 .0955 .0928
8 .1302 .1286 .1269 .1251 .1232 .1~12 .1191 .1170 .1148 .1126
9 .1317 .1315 .1311 .1306 .1300 .1293 .1284 .1274 .1263 .1251
10 .1198 .1210 .1219 .1228 .1235 .1241 .1245 .1249 .1250 .1251
11 .0991 .1012 .1031 .1049 .1067 .1083 .1098 .1112 .1125 .1137
12 .0752 .0776 .0799 .0822 .0844 .0866 .0888 .0908 .0928 .0948
13 .0526 .0549 .0572 .0594 .0617 .0640 .0662 .0685 .0707 .0729
14 .0342 .0361 .0380 .0399 .0419 .0439 .0459 .0479 .0500 .0521
15 .0208 .0221 .0235 .0250 .0265 .0281 .0297 .0313 .0330 .0347
16 .0118 .0127 .0137 .0147 .0157 .0168 ,0180 .0192 .0204 .0217
17 .0063 .0069 .0075 .0081 .0088 .0095 .0103 .0111 .0119 .0128
18 .0032 .0035 .0039 .0042 .0046 .0051 .0055 .0060 .0065 .0071
19 .0015 .0017 .0019 .0021 .0023 .0026 .0028 .0031 .0034 .0037
20 .0007 .0008 .0009 .0010 .0011 ·.0012 .0014 .0015 .0017 .0019
21 .0003 .0003 .0004 .0004 .0005 .0006 .0006 .0007 .0008 .0009
22 .0001 .0001 .0002 .0002 .0002 .0002 .0003 .0003 .0004 .0004
23 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002
24 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001
X 'J..=20 X 'J..=20
o .0000 20 .0888
1 .0000 21 .0846
2 .0000 22 .0769
3 .0000 23 .0669
4 .0000 24 .0557
5 .0001 25 .0446
6 .0002 26 .0343
7 .00015 27 .0254
8 .0013 28 .0181
9 .0029 29 .0125
10 .0058 30 .0083
11 .0108 31 .0054
12 .0178 32 .0034
13 .0271 33 .0020
14 .0387 34 .0012
15 .01118 35 .0007
16 .0848 36 .0004
17 .0180 37 .0002
18 .01144 38 .0001
19 .oeu 39 .0001
Fuentl: Tomado di Wllllam H. Beyer, ed., CRC Basic Statistical Tables (Cleveland, Ohio: The Chemical Rubber
Co., 1971), Rllmpnao con licencia. <C1 The Chemical Rubber Co., CRC Press, Inc.
Apéndice E Tablas E· I es
111
1
...
)>
'V
fD.,
:::1
a.
ñ
ID
111
¡;;I
CT
¡¡;-
"'
TABLA E.7Tabla de probabilidades de binomial
Para una combinación dada de n y p, las entradas indican la probabilidad de obtener un valor específico de X. Para localizar la entrada: mando
p :<> O.SO, lea p a lo largo del primer renglón y tanto n y X en el margen izquierdo; cuando p ;:: O.SO, lea p en el último renglón de la tabla y
tanto n y X en el margen derecho.
p
n X 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 X n
2 o 0.9801 0.9604 0.9409 0.9216 0.9025 0.8836 0.8649 0.8464 0.8281 0.8100 0.7921 0.7744 0.7569 0.7396 0.7225 0.7056 0.6889 0.6724 2
1 0.0198 0.0392 0.0582 0.0768 0.0950 0.1128 0.1302 0.1472 0.1638 0.1800 0.1958 0.2112 0.2262 0.2408 0.2550 0.2688 0.2822 0.2952 1
2 0.0001 0.0004 0.0009 0.0016 0.0025 0.0036 0.0049 0.0064 0.0081 0.0100 0.0121 0.0144 0.0169 0.0196 0.0225 0.0256 0.0289 0.0324 o 2
3 o 0.9703 0.9412 0.9127 0.8847 0.8574 0.8306 0.8044 0.7787 0.7536 0.7290 0.7050 0.6815 0.6585 0.6361 0.6141 0.5927 0.5718 0.5514 ·3
1 0.0294 0.0576 0.0847 0.1106 0.1354 0.1590 0.1816 0.2031 0.2236 0.2430 0.2614 0.2788 0.2952 0.3106 0.3251 0.3387 0.3513 0.3631 2
2 0.0003 0.0012 0.0026 0.0046 0.0071 0.0102 0.0137 0.0177 0.0221 0.0270 0.0323 0.0380 0.0441 0.0506 0.0574 0.0645 0.0720 0.0797 1
3 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0005 0.0007 0.0010 0.0013 0.0017 0.0022 0.0027 0.0034 0.0041 0.0049 0.0058 o 3
4 o 0.9606 0.9224 0.8853 0.8493 0.8145 0.7807 0.7481 0.7164 0.6857 0.6561 0.6274 0.5997 0.5729 0.5470 0.5220 0.4979 0.4746 0.4521 4
1 0.0388 0.0753 0.1095 0.1416 0.1715 0.1993 0.2252 0.2492 0.2713 0.2916 0.3102 0.3271 0.3424 0.3562 0.3685 0.3793 0.3888 0.3970 3
2 0.0006 0.0023 0.0051 0.0088 0.0135 0.0191 0.0254 0.0325 0.0402 0.0486 0.0575 0.0669 0.0767 0.0870 0.0975 0.1084 0.1195 0.1307 2
3 0.0000 0.0000 0.0001 0.0002 0.0005 0.0008 0.0013 0.0019 0.0027 0.0036 0.0047 0.0061 0.0076 0.0094 0.0115 0.0138 0.0163 0.0191 1
4 - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0008 0.0010 o 4
5 o 0.9510 0.9039 0.8587 0.8154 0.7738 0.7339 0.6957 0.6591 0.6240 0.5905 0.5584 0.5277 0.4984 0.4704 0.4437 0.4182 0.3939 0.3707 . 5
1 0.0480 0.0922 0.1328 0.1699 0.2036 0.2342 0.2618 0.2866 0.3086 0.3280 0.3451 0.3598 0.3724 0.3829 0.3915 0.3983 0.4034 0.4069 4
2 0.0010 0.0038 0.0082 0.0142 0.0214 0.0299 0.0394 0.0498 0.0610 0.0729 0.0853 0.0981 0.1113 0.1247 0.1382 0.1517 0.1652 0.1786 3
3 0.0000 0.0001 0.0003 0.0006 0.0011 0.0019 0.0030 0.0043 0.0060 0.0081 0.0105 0.0134 0.0166 0.0203 0.0244 0.0289 0.0338 0.0392 2
4 - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 0.0007 0.0009 0.0012 0.0017 0.0022 0.0028 0.0035 0.0043 1
5 - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 o 5
6 o 0.9415 0.8858 0.8330 0.7828 0.7351 0.6899 0.6470 0.6064 0.5679 0.5314 0.4970 0.4644 0.4336 0.4046 0.3771 0.3513 0.3269 0.3040 6
1 0.0571 0.1085 o. 1546 0.1957 0.2321 0.2642 0.2922 0.3164 0.3370 0.3543 0.3685 0.3800 0.3888 0.3952 0.3993 0.4015 0.4018 0.4004 5
2 0.0014 0.0055 0.0120 0.0204 0.0305 0.0422 0.0550 0.0688 0.0833 0.0984 0.1139 0.1295 0.1452 0.1608 0.1762 0.1912 0.2057 0.2197 4
3 0.0000 0.0002 0.0005 0.0011 0.0021 0.0036 0.0055 0.0080 0.0110 0.0146 0.0188 0.0236 0.0289 0.0349 0.0415 0.0486 0.0562 0.0643 3
4 - 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005 0.0008 0.0012 0.0017 0.0024 0.0032 0.0043 0.0055 0.0069 0.0086 0.0106 2
5 - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 1
6 - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 o 6
7 o 0.9321 0.8681 0.8080 0.7514 0.6983 0.6485 0.6017 0.5578 0.5168 0.4783 0.4423 0.4087 0.3773 0.3479 0.3206 0.2951 0.2714 0.2493 7
1 0.0659 0.1240 0.1749 0.2192 0.2573 O.rl897 0.3170 0.3396 0.3578 0.3720 0.3827 0.3901 0.3946 0.3965 0.3960 0.3935 0.3891 0.3830 6
2 0.0020 0.0076 0.0162 0.0274 0.0406 0.0555 0.0716 0.0886 0.1061 0.1240 0.1419 0.1596 0.1769 0.1936 0.2097 0.2248 0.2391 0.2523 5
3 0.0000 0.0003 0.0008 0.0019 0.0036 0.()059 0.0090 0.0128 0.0175 0.0230 0.0292 0.0363 0.0441 0.0525 0.0617 0.0714 0.0816 0.0923 4
4 - 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0011 0.0017 0.0026 0.0036 0.0049 0.0066 O.ooS6 0.0109 0.0136 0.0167 0.0203 3
5 - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 0.0006 0.0008 0.0012 0.0016 0.0021 0.0027 2
6 - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 1
7 - - - - - - 0.0000 0.0000 0.0000 0.0000 o 7
-- - - - - - - -
8 O 0.9227 0.8508 0.7837 0.7214 0.6634 0.6096 0.5596 0.5132 0.4703 0.4305 0.3937 0.3596 0.3282 0.2992 0.2725 0.2479 0.2252 0.2044 8
1 0.0746 0.1389 0.1939 0.2405 0.2793 0.3113 0.3370 0.3570 0.3721 0.3826 0.3892 0.3923 0.3923 0.3897 0.3847 0.3777 0.3691 0.3590 7
2 0.0026 0.0099 0.0210 0.0351 0.0515 0.0695 0.0888 0.1087 0.1288 0.1488 0.1684 0.1872 0.2052 0.2220 0.2376 0.2518 0.2646 0.2758 6
3 0.0001 0.0004 0.0013 0.0029 0.0054 0.0089 0.0134 0.0189 0.0255 0.0331 0.0416 0.0511 0.0613 0.0723 0.0839 0.0959 0.1084 0.1211 5
4 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0013 0.0021 0.0031 0.0046 0.0064 0.0087 0.0115 0.0147 0.0185 0.0228 0.0277 0.0332 4
5 - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0006 0.0009 0.0014 0.0019 0.0026 0.0035 0.0045 0.0058 3
6 - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0006 2
7 - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1
8 - - - - - - - - - - - - - - o 8
-- - -
-
9 o 0.9135 0.8337 0.7602 0.6925 0.6302 0.5730 0.5204 0.4722 0.4279 0.3874 0.3504 0.3165 0.2855 0.2573 0.2316 0.2082 0.1869 0.1676 9
1 0.0830 0.1531 0.2116 0.2597 0.2985 0.3292 0.3525 0.3695 0.3809 0.3874 0.3897 0.3884 0.3840 0.3770 0.3679 0.3569 0.3446 0.3312 8
2 0.0034 0.0125 0.0262 0.0433 0.0629 0.0840 0.1061 0.1285 0.1507 0.1122. 0.1927 0.2119 0.2295 0.2455 0.2597 0.2720 0.2823 0.2908 7
3 0.0001 0.0006 0.0019 0.0042 0.0077 0.0125 0.0186 0.0261 o.0348 o.0446 o.0556 o.0674 o.oaoo o.0933 0.1069 0.1209 o. 1349 0.1489 6
4 0.0000 0.0000 0.0001 0.0003 0.0006 0.0012 0.0021 0.0034 0.0052 0.0074 0.0103 0.0138 0.0179 0.0228 0.0283 0.0345 0.0415 0.0490 5
5 - - 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005 0.0008 0.0013 0.0019 0.0027 0.0037 0.0050 0.0066 0.0085 0.0108 4
6 - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 0.0006 0.0008 0.0012 0.0016 3
7 - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 2
-- -
8 - - - - - - - - - - - - - - 0.0000 0.0000 0.0000 1
9 - -- - - - - - - - - - - - - - - - - o 9
10 o 0.9044 0.8171 0.7374 0.6648 0.5987 0.5386 0.4840 0.4344 0.3894 0.3487 0.3118 0.2785 0.2484 0.2213 0.1969 0.1749 0.1552 0.1374 10
1 0.0914 0.1667 0.2281 0.2770 0.3151 0.3438 0.3643 0.3777 0.31!51 0.3874 0.3854 0.3798 0.3712 0.3603 0.3474 0.3331 0.3178 0.3017 9
2 0.0042 0.0153 0.0317 0.0519 0.0746 0.0988 0.1234 0.1478 0.1714 0.1937 0.2143 0.2330 0.2496 0.2639 0.2759 0.2856 0.2929 0.2980 8
3 0.0001 0.0008 0.0026 0.0058 0.0105 0.0168 0.0248 0.0343 0.0452 0.0574 0.0706 0.0847 0.0995 0.1146 0.1298 0.1450 0.1600 0.1745 7
4 0.0000 0.0000 0.0001 0.0004 0.0010 0.0019 0.0033 0.0052 0.0078 0.0112 0.0153 0.0202 0.0260 0.0326 0.0401 0.0483 0.0573 0.0670 6
5 - - 0.0000 0.0000 0.0001 0.0001 0.0003 0.0005 0.0009 0.0015 0.0023 0.0033 0.0047 0.0064 0.0085 0.0111 0.0141 0.0177 5
6 - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0006 0.0009 0.0012 0.0018 0.0024 0.0032 4
7 - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0004 3
8 - - - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 2
9 - - - - - - 1
-- - - - - - -
10
- - -
- -
- - o 10
- - - - - - - - - - -
- - - --
..
J> n X 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 0.90 0.89 0.88 0.87 0.86 0.85 0.84 0.83 0.82 X n
l p
A
;;·
CD
"'
¡¡¡!
c:r
¡¡;
.,,
1
"'
CI)
111
1
J>
'V
CD•
:a
A
ft
CD
111
¡¡;!
fJ"
¡¡;-
"'
p
n X 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 X n
2 o 0.6561 0.6400 0.6241 0.6084 0.5929 0.5776 0.5625 0.5476 0.5329 0.5184 0.5041 0.4900 0.4761 0.4624 0.4489 0.4356 0.4225 0.4096 2
1 0.3078 0.3200 0.3318 0.3432 0.3542 0.3648 0.3750 0.3848 0.3942 0.4032 0.4118 0.4200 0.4278 0.4352 0.4422 0.4488 0.4550 0.4608 1
2 0.0361 0.0400 0.0441 0.0484 0.0529 0.0576 0.0625 0.0676 0.0729 0.0784 0.0841 0.0900 0.0961 0.1024 0.1089 0.1156 0.1225 0.1296 o 2
3 o 0.5314 0.5120 0.4930 0.4746 0.4565 0.4390 0.4219 0.4052 0.3890 0.3732 0.3579 0.3430 0.3285 0.3144 0.3008 0.2875 0.2746 0.2621 3
1 0.3740 0.3840 0.3932 0.4015 0.4091 0.4159 0.4219 0.4271 0.4316 0.4355 0.4386 0.4410 0.4428 0.4439 0.4444 0.4443 0.4436 0.4424 2
2 o.osn 0.0960 0.1045 0.1133 0.1222 0.1313 0.1406 o.1so1 0.1597 0.1693 0.1791 0.1890 0.1989 0.2089 0.2189 0.2289 0.2389 0.2488 1
3 0.0069 0.0080 0.0093 O.o106 0.0122 0.0138 0.0156 0.0176 0.0197 0.0220 0.0244 0.0270 0.0298 0.0328 O.Ol59 0.0393 0.0429 0.0467 o 3
4 o 0.4305 0.4096 0.3895 0.3702 0_.3515 0.3336 0.3164 0.2999 0.2840 0.2687 0.2541 0.2401 0.2267 0.2138 0.2015 0.1897 0.1785 0.1678 4
1 0.4039 0.4096 0.4142 0.4176 0.4200 0.4214 0.4219 0.4214 0.4201 0.4180 0.4152 0.4116 0.4074 0.4025 0.3970 0.3910 0.3845 0.3775 3
2 0.1421 0.1536 0.1651 0.1767 0.1882 0.1996 0.2109 0.2221 0.2331 0.2439 0.2544 0.2646 0.2745 0.2841 0.2933 0.3021 0.3105 0.3185 2
3 0.0222 0.0256 0.0293 0.0332 0.0375 0.0420 0.0469 0.0520 0.0575 0.0632 0.0693 0.0756 0.0822 0.0891 0.0963 0.1038 0.1115 0.1194 1
4 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0046 0.0053 0.0061 0.0071 0.0081 0.0092 0.0105 0.0119 0.0134 0.0150 0.0168 o 4
5 o 0.3487 0.3277 0.3077 0.2887 0.2707 0.2536 0.2373 0.2219 0.2073 0.1935 0.1804 0.1681 0.1564 0.1454 0.1350 0.1252 0.1160 0.1074 5
1 0.4089 0.4096 0.4090 0.4072 0.4043 0.4003 0.3955 0.3898 0.3834 0.3762 0.3685 0.3601 0.3513 0.3421 0.3325 0.3226 0.3124 0.3020 4
2 0.1919 0.2048 0.2174 0.2297 0.2415 0.2529 0.2637 0.2739 0.2836 0.2926 0.3010 0.3087 0.3157 0.3220 0.3275 0.3323 0.3364 0.3397 3
3 0.0450 0.0512 0.0578 0.0648 0.0721 0.0798 0.0879 0.0962 0.1049 0.1138 0.1229 0.1323 0.1418 0.1515 0.1613 0.1712 0.1811 0.1911 2
4 0.0053 0.0064 0.0077 0.0091 O.D108 0.0126 0.0146 0.0169 0.0194 0.0221 0.0251 0.0283 0.0319 0.0357 0.0397 0.0441 0.0488 0.0537 1
5 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 0.0012 0.0014 0.0017 0.0021 0.0024 0.0029 0.0034 0.0039 0.0045 0.0053 0.0060 o 5
6 o 0.2824 0.2621 0.2431 0.2252 0.2084 0.1927 0.1780 0.1642 0.1513 0.1393 0.1281 0.1176 0.1079 0.0989 0.0905 0.0827 0.0754 0.0687 6
1 0.3975 0.3932 0.3877 0.3811 0.3735 0.3651 0.3560 0.3462 0.3358 0.3251 0.3139 0.3025 0.2909 0.2792 0.2673 0.2555 0.2437 0.2319 5
2 0.2331 0.2458 0.2577 0.2687 0.2789 0.2882 0.2966 0.3041 0.3105 0.3160 0.3206 0.3241 0.3267 0.3284 0.3292 0.3290 0.3280 0.3261 4
3 0.0729 0.0819 0.0913 0.1011 0.1111 0.1214 0.1318 0.1424 0.1531 0.1639 0.1746 0.1852 0.1957 0.2061 0.2162 0.2260 0.2355 0.2446 3
4 0.0128 0.0154 0.0182 0.0214 0.0249 0.0287 0.0330 0.0375 0.0425 0.0478 0.0535 0.0595 0.0660 0.0727 0.0799 0.0873 0.0951 0.1032 2
5 0.0012 0.0015 0.0019 0.0024 0.0030 0.0036 0.0044 0.0053 0.0063 0.0074 0.0087 0.0102 0.0119 0.0137 0.0157 0.0180 0.0205 0.0232 1
6 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0015 0.0018 0.0022 o 6
1 o CLZZ88 o.2097 0.1920 0.1757 0.1605 0.1465 0.1335 0.1215 0.1105 0.1003 0.0910 0.0824 0.0745 0.0672 0.0606 0.0546 0.0490 0.0440 7
1 a3P.ill G.3610 G.3573 G.3468 0.3356 0.3237 0.3115 0.2989 0.2860 0.2731 0.2600 0.2471 0.2342 0.2215 0.2090 0.1967 0.1848 0.1732 6
2 a2llG G.2153 o.2850 0.2935 0.3007 0.3067 0.3115 0.3150 0.3174 0.3186 0.3186 0.3177 0.3156 0.3127 0.3088 0.3040 0.2985 0.2922 5
3 a1E3 0.1147 0.1263 0.1379 0.1497 0.1514 0.1130 0.1845 0.1956 0.2065 0.2159 0.2269 0.2363 0.2452 0.2535 0.2610 o.2679 0.2140 4
• OJIM2 Q.0287 0.0336 0.0389 0.0447 0.0510 0.0577 0.0648 0.0724 0.0803 0.0886 0.0972 0.1062 0.1154 0.1248 0.1345 0.1442 0.1541 3
5 Ct.0034 0.0043 0.0054 0.0066 0.0080 0.0097 0.0115 0.0137 0.0161 0.0187 0.0217 0.0250 0.0286 0.0326 0.0369 0.0416 0.0466 0.0520 2
6 ! 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 0.0013 0.0016 0.0020 0.0024 0.0030 0.0036 0.0043 0.0051 0.0061 0.0071 0.0084 0.0098 1
71 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0008 o 7
8 o 0.1853 0.1678 0.1517 0.1370 0.1236 0.1113 0.1001 0.0899 0.0806 0.0722 0.0646 0.0576 0.0514 0.0457 0.0406 0.0360 0.0319 0.0281 8
1 0.3477 0.3355 0.3226 0.3092 0.2953 0.2812 0.2670 0.2527 0.2386 0.2247 0.2110 0.1977 0.1847 0.1721 0.1600 0.1484 0.1373 0.1267 7
2 0.2855 0.2936 0.3002 0.3052 0.3087 0.3108 0.3115 0.3108 0.3089 0.3058 0.3017 0.2965 0.2904 0.2835 0.2758 0.2675 0.2587 0.2494 6
3 0.1339 0.1468 0.1596 0.1722 0.1844 0.1963 0.2076 0.2184 0.2285 0.2379 0.2464 0.2541 0.2609 0.2668 0.2717 0.2756 0.2786 0.2805 5
4 0.0393 0.0459 0.0530 0.0607 0.0689 0.0775 0.0865 0.0959 0.1056 0.1156 0.1258 0.1361 0.1465 0.1569 0.1673 0.1775 0.1875 0.1973 4
5 0.0074 0.0092 0.0113 0.0137 0.0165 0.0196 0.0231 0.0270 0.0313 0.0360 0.0411 0.0467 0.0527 0.0591 0.0659 0.0732 0.0808 0.0888 3
6 0.0009 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0058 0.0070 0.0084 0.0100 0.0118 0.0139 0.0162 0.0188 0.0217 0.0250 2
7 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 0.0012 0.0015 0.0019 0.0023 0.0028 0.0033 0.0040 1
8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 o 8
9 o 0.1501 0.1342 0.1199 0.1069 0.0952 0.0846 0.0751 0.0665 0.0589 0.0520 0.0458 0.0404 0.0355 0.0311 0.0272 0.0238 0.0207 0.0180 9
1 0.3169 0.3020 0.2867 0.2713 0.2558 0.2404 0.2253 0.2104 0.1960 0.1820 0.1685 0.1556 0.1433 0.1317 0.1206 0.1102 0.1004 0.0912 8
2 0.2973 0.3020 0.3049 0.3061 0.3056 0.3037 0.3003 0.2957 0.2899 0.2831 0.2754 0.2668 0.2576 0.2478 0.2376 0.2270 0.2162 0.2052 7
3 0.1627 0.1762 0.1891 0.2014 0.2130 0.2238 0.2336 0.2424 0.2502 0.2569 0.2624 0.2668 0.2701 0.2721 0.2731 0.2729 0.2716 0.2693 6
4 0.0573 0.0661 0.0754 0.0852 0.0954 0.1060 0.1168 0.1278 0.1388 0.1499 0.1608 0.1715 0.1820 0.1921 0.2017 0.2109 0.2194 0.2272 5
5 0.0134 0.0165 0.0200 0.0240 0.0285 0.0335 0.0389 0.0449 0.0513 0.0583 0.0657 0.0735 0.0818 0.0904 0.0994 0.1086 0.1181 0.1278 4
6 0.0021 0.0028 0.0036 0.0045 0.0057 0.0070 0.0087 0.0105 0.0127 0.0151 0.0179 0.0210 0.0245 0.0284 0.0326 0.0373 0.0424 0.0479 3
7 0.0002 0.0003 0.0004 0.0005 0.0007 0.0010 0.0012 0.0016 0.0020 0.0025 0.0031 0.0039 0.0047 0.0057 0.0069 0.0082 0.0098 0.0116 2
8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0007 0.0008 0.0011 0.0013 0.0016 1
9 - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.00<?1 o 9
10 o 0.1216 0.1074 0.0947 0.0834 0.0733 0.0643 0.0563 0.0492 0.0430 0.0374 0.0326 0.0282 0.0245 0.0211 0.0182 0.0157 0.0135 0.0115 10
1 0.2852 0.2684 0.2517 0.2351 0.2188 0.2030 0.1877 0.1730 0.1590 0.1456 0.1330 0.1211 0.1099 0.0995 0.0898 0.0808 0.0725 0.0649 9
2 0.3010 0.3020 0.3011 0.2984 0.2942 0.2885 0.2816 0.2735 0.2646 0.2548 0.2444 0.2335 0.2222 0.2107 0.1990 0.1873 0.1757 0.1642 8
3 0.1883 0.2013 0.2134 0.2244 0.2343 0.2429 0.2503 0.2563 0.2609 0.2642 0.2662 0.2668 0.2662 0.2644 0.2614 0.2573 0.2522 0.2462 7
4 0.0773 0.0881 0.0993 0.1108 0.1225 0.1343 0.1460 0.1576 0.1689 0.1798 0.1903 0.2001 0.2093 0.2177 0.2253 0.2320 0.2377 0.2424 6
5 0.0218 0.0264 0.0317 0.0375 0.0439 0.0509 0.0584 0.0664 0.0750 0.0839 0.0933 0.1029 0.1128 0.1229 0.1332 0.1434 0.1536 0.1636 5
6 0.0043 0.0055 0.0070 0.0088 0.0109 0.0134 0.0162 0.0195 0.0231 0.0272 0.0317 0.0368 0.0422 0.0482 0.0547 0.0616 0.0689 0.0767 4
7 0.0006 0.0008 0.0011 0.0014 0.0019 0.0024 0.0031 0.0039 0.0049 0.0060 0.0074 0.0090 0.0108 0.0130 0.0154 0.0181 0.0212 0.0247 3
8 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0023 0.0028 0.0035 0.0043 0.0052 2
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 1
10 - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 o 10
2> n X 0.81 0.80 0.79 0.78 0.77 0.76 0.75 0.74 0.73 0.72 0.71 0.70 0.69 0.68 0.67 0.66 0.65 0.64 X n
1:::s p
A.
.,.ñ
rn
¡;;-!
CT
~
.
w
o
1
~
'"
.,,J>
ID•
:::1
a.
¡;·
CD
'"
p;I
CT
~
p
n X 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 X n
2 o 0.3969 0.3844 0.3721 0.3600 0.3481 0.3364 0.3249 0.3136 0.3025 0.2916 0.2809 0.2704 0.2601 0.2500 2
1 0.4662 0.4712 0.4758 0.4800 0.4838 0.4872 0.4902 0.4928 0.4950 0.4968 0.4982 0.4992 0.4998 0.5000 1
2 0.1369 0.1444 0.1521 0.1600 0.1681 0.1764 0.1849 0.1936 0.2025 0.2116 0.2209 0.2304 0.2401 0.2500 o 2
3 o 0.2500 0.2383 0.2270 0.2160 0.2054 0.1951 0.1852 0.1756 0.1664 0.1575 0.1489 0.1406 0.1327 0.1250 3
1 0.4406 0.4382 0.4354 0.4320 0.4282 0.4239 0.4191 0.4140 0.4084 0.4024 0.3961 0.3894 0.3823 0.3750 2
2 0.2587 0.2686 0.2783 0.2880 0.2975 0.3069 0.3162 0.3252 0.3341 0.3428 0.3512 0.3594 0.3674 0.3750 1
3 0.0507 0.0549 0.0593 0.0640 0.0689 0.0741 0.0795 0.0852 0.0911 0.0973 0.1038 0.1106 0.1176 o. 1250 o 3
4 o 0.1575 0.1478 0.1385 0.1296 0.1212 0.1132 0.1056 0.0983 0.0915 0.0850 0.0789 0.0731 0.0677 0.0625 4
1 0.3701 0.3623 0.3541 0.3456 0.3368 0.3278 0.3185 0.3091 0.2995 0.2897 0.2799 0.2700 0.2600 0.2500 3
2' 0.3260 0.3330 0.3396 0.3456 0.3511 0.3560 0.3604 0.3643 0.3675 0.3702 0.3723 0.3738 0.3747 0.3750 2
3 0.1276 0.1361 0.1447 0.)536 0.1627 0.1719 0.1813 0.1908 Q.2005 0.2102 0.2201 0.2300 0.2400 0.2500 1
4 0.0187 0.0209 0.0231 0.0256 0.0283 0.0311 0.0342 0.0375 0.0410 0.0448 0.0488 0.0531 0.0576 0.0625 o 4
5 o 0.0992 0.0916 0.0845 0.0778 0.0715 0.0656 0.0602 0.0551 0.0503 0.0459 0.0418 0.0380 0.0345 0.0312 5
1 0.2914 0.2808 0.2700 0.2592 0.2484 0.2376 0.2270 0.2164 0.2059 0.1956 0.1854 0.1755 0.1657 0.1562 4
2 0.3423 0.3441 0.3452 0.3456 0.3452 0.3442 0.3424 0.3400 0.3369 0.3332 0.3289 0.3240 0.3185 0.3125 3
3 0.2010 0.2109 0.2207 0.2304 0.239!1 0.2492 0.2583 0.2671 0.2757 0.2838 0.2916 0.2990 0.3060 0.3125 2
4 0.0590 0.0646 O.Q706 0.0768 0.0834 0.0902 0.0974 0.1049 0.1128 0.1209 0.1293 0.1380 0.1470 0.1562 1
5 0.0069 0.0079 0.0090 0.0102 0.0116 0.0131 0.0147 0.0165 0.0185 0.0206 0.0229 0.0255 0.0282 0.0312 o 5
6 o 0.0625 0.0568 0.0515 0.0467 0.0422 0.0381 0.0343 0.0308 0.0277 0.0248 0.0222 0.0198 0.0176 0.0156 6
1 0.2203 0.2089 0.1976 0.1866 0.1759 0.1654 0.1552 0.1454 0.1359 0.1267 0.1179 0.1095 0.1014 0.0937 5
2 0.3235 0.3201 0.3159 0.3110 0.3055 0.2994 0.2928 0.2856 0.2780 0.2699 0.2615 0.2527 0.2436 0.2344 4
3 0.2533 0.2616 0.2693 0.2765 0.2831 0.2891 0.2945 0.2992 0.3032 0.3065 0.3091 0.3110 0.3121 0.3125 3
4 0.1116 0.1202 0.1291 0.1382 0.1475 0.1570 0.1666 0.1763 0.1861 0.1958 0.2056 0.2153 0.2249 0.2344 2
5 0.0262 0.0295 0.0330 0.0369 0.0410 0.0455 0.0503 0.0554 0.0609 0.0667 0.0729 0.0795 0.0864 0.093711
6 0.0026 0.0030 0.0035 0.0041 0.0048 0.0055 0.0063 0.0073 0.0083 0.0095 0.0108 0.0122 0.0138 0.0156 o 6
7 o 0.0394 0.0352 0.0314 0.0280 0.0249 0.0221 0.0195 0.0173 0.0152 0.0134 0.0117 0.0103 0.0090 0.0078 7
1 0.1619 0.1511 0.1407 0.1306 0.1211 0.1119 0.1032 0.0950 0.0872 0.0798 0.0729 0.0664 0.0604 0.0547 6
2 0.2853 0.2778 0.2698 0.2613 0.2524 0.2431 0.2336 0.2239 0.2140 0.2040 0.1940 0.1840 0.1740 0.1641 5
3 0.2793 0.2838 0.2875 0.2903 0.2923 0.2934 0.2937 0.2932 0.2918 0.2897 0.2867 0.2830 0.2786 0.2734 4
4 0.1640 0.1739 0.1838 0.1935 0.2031 0.2125 0.2216 0.2304 0.2388 0.2468 0.2543 0.2612 0.2676 0.2734 3
5 0.0578 0.0640 0.o705 0.0774 0.0847 0.0923 0.1003 0.1086 0.1172 0.1261 0.1353 0.1447 0.1543 0.1641 2
6 0.0113 0.0131 0.0150 0.0172 0.0196 0.0223 0.0252 0.0284 0.0320 0.0358 0.0400 0.0445 0.0494 0.0547 1
7 0.0009 0.0011 0.0014 0.0016 0.0019 0.0023 0.0027 0.0032 0.0037 0.0044 0.0051 0.0059 0.0068 0.0078 o 7
8 o 0.0248 0.0218 0.0192 0.0168 0.0147 0.0128 0.0111 0.0097 0.0084 0.0072 0.0062 0.0053 0.0046 0.0039 8
1 0.1166 0.1071 0.0981 0.0896 0.0816 0.0742 0.0672 0.0608 0.0548 0.0493 0.0442 0.0395 0.0352 0.0312 7
2 0.2397 0.2297 0.2194 0.2090 0.1985 0.1880 0.1776 0.1672 0.1569 0.1469 0.1371 0.1275 0.1183 0.1094 6
3 0.2815 0.2815 0.2806' 0.2787 0.2759 0.2723 0.2679 0.2627 0.2568 0.2503 0.2431 0.2355 0.2273 0.2187 5
4 0.2067 0.2157 0.2242 0.2322 0.2397 0.2465 0.2526 0.2580 0.2627 0.2665 0.2695 0.2717 0.2730 0.2734 4
5 0.0971 0.1058 0.1147 0.1239 0.1332 0.1428 0.1525 0.1622 0.1719 0.1816 0.1912 0.2006 0.2098 0.2187 3
6 0.0285 0.0324 0.0367 0.0413 0.0463 0.0517 0.0575 0.0637 0.0703 0.0774 0.0848 0.0926 0.1008 0.1094 2
7 0.0048 0.0057 0.0067 0.0079 0.0092 0.0107 0.0124 0.0143 0.0164 0.0188 0.0215 0.0244 0.0277 0.0312 1
8 0.0004 0.0004 0.0005 0.0007 0.0008 0.0010 0.0012 0.0014 0.0017 0.0020 0.0024 0.0028 0.0033 0.0039 o 8
9 o 0.0156 0.0135 0.0117 0.0101 0.0087 0.0074 0.0064 0.0054 0.0046 0.0039 0.0033 0.0028 0.0023 0.0020 9
1 0.0826 0.0747 0.0673 0.0605 0.0542 0.0484 0.0431 0.0383 0.0339 0.0299 0.0263 0.0231 0.0202 0.0176 8
2 0.1941 0.1831 0.1721 0.1612 0.1506 0.1402 0.1301 0.1204 0.111 o 0.1020 0.0934 0.0853 0.0776 0.0703 7
3 0.2660 0.2618 0.2567 0.2508 0.2442 0.2369 0.2291 0.2207 0.2119 0.2027 0.1933 0.1837 0.1739 0.1641 6
4 0.2344 0.2407 0.2462 0.2508 0.2545 0.2573 0.2592 0.2601 0.2600 0.2590 0.2571 0.2543 0.2506 0.2461 5
5 0.1376 0.1475 0.1574 0.1672 0.1769 0.1863 0.1955 0.2044 0.2128 0.2207 0.2280 0.2347 0.2408 0.2461 4
6 0.0539 0.0603 0.0671 0.0743 0.0819 0.0900 0.0983 0.1070 0.1160 0.1253 0.1348 0.1445 0.1542 0.1641 3
7 0.0136 0.0158 0.0184 0.0212 0.0244 0.0279 0.0318 0.0360 0.0407 0.0458 0.0512 0.0571 0.0635 0.0703 2
8 0.0020 0.0024 0.0029 0.0035 0.0042 0.0051 0:0060 0.0071 0.0083 0.0097 0.0114 0.0132 0.0153 0.0176 1
9 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0008 0.0009 0.0011 0.0014 0.0016 0.0020 o 9
10 o 0.0098 0.0084 0.0071 0.0060 0.0051 0.0043 0.0036 0.0030 0.0025 0.0021 0.0017 0.0014 0.0012 0.0010 10
1 0.0578 0.0514 0.0456 0.0403 0.0355 0.0312 0.0273 0.0238 0.0207 0.0180 0.0155 0.0133 0.0114 0.0098 9
2 0.1529 0.1419 0.1312 0.1209 0.1111 0.1017 0.0927 0.0843 0.0763 0.0688 0.0619 0.0554 0.0494 0.0439 8
3 0.2394 0.2319 0.2237 0.2150 0.2058 0.1963 0.1865 0.1765 0.1665 0.1564 0.1464 0.1364 0.1267 0.1172 7
4 0.2461 0.2487 0.2503 0.2508 0.2503 0.2488 0.2462 0.2427 0.2384 0.2331 0.2271 0.2204 0.2130 0.2051 6
5 0.1734 0.1829 0.1920 0.2007 0.2087 0.2162 0.2229 0.2289 0.2340 0.2383 0.2417 0.2441 0.2456 0.2461 5
6 0.0849 0.0934 0.1023 0.1115 0.1209 0.1304 0.1401 0.1499 o. 1596 0.1692 o. 1786 0.1878 0.1966 0.2051 4
7 0.0285 0.0327 0.0374 0.0425 0.0480 0.0540 0.0604 0.0673 0.0746 0.0824 0.0905 0.0991 0.1080 0.1172 3
8 0.0063 O.OQ75 0.0090 0.0106 0.0125 0.0147 0.0171 0.0198 0.0229 0.0263 0.0301 0.0343 0.0389 0.0439 2
9 0.0008 0.0010 0.0013 0.0016 0.0019 0.0024 0.0029 0.0035 0.0042 0.0050 0.0059 0.0070 0.0083 0.0098 1
10 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0008 0.0010 o 10
n X 0.63 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.50 X n
~
,,
CD- p
:::1
D.
i
111
p;I
cr
PI
111
1
..,,
..,,
.1
~
"'
w
,,.,,l>
:s
a.
;:¡·
m
"'
¡¡;!
C"
¡¡j'
"'
p
n X 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.18 0.17 0.18 X n
20 o 0.8179 0.6676 0.5438 0.4420 0.3585 0.2901 0.2342 0.1887 0.1516 0.1216 0.0972 0.0776 0.0617 0.0490 0.0388 0.0306 0.0241 0.0189 20
1 0.1652 0.2725 0.3364 0.3683 0.3774 0.3703 0.3526 0.3282 0.3000 0.2702 0.2403 0.2115 0.1844 0.1595 0.1368 0.1165 0.0986 0.0829 19
2 0.0159 0.0528 0.0988 0.1458 0.1887 0.2246 0.2521 o.2111 0.2818 0.2852 0.2822 0.2740 0.2618 0.2466 0.2293 0.2109 0.1919 0.1730 18
3 0.0010 0.0065 0.0183 0.0364 0.0596 0.0860 0.1139 0.1414 0.1672 0.1901 0.2093 0.2242 0.2347 0.2409 0.2428 0.2410 0.2358 0.2278 17
4 0.0000 0.0006 0.0024 0.0065 0.0133 0.0233 0.0364 0.0523 0.0703 0.0898 0.1099 0.1299 0.1491 0.1666 0.1821 0.1951 0.2053 0.2125 16
5 - 0.0000 0.0002 0.0009 0.0022 0.0048 0.0088 0.0145 0.0222 0.0319 0.0435 0.0567 0.0713 0.0868 0.1028 0.1189 0.1345 0.1493 15
6 - - 0.0000 0.0001 0.0003 0.0008 0.0017 0.0032 0.0055 0.0089 0.0134 0.0193 0.0266 0.0353 0.0454 0.0566 0.0689 0.0819 14
7 - - - 0.0000 0.0000 0.0001 0.0002 0.0005 0.0011 0.0020 0.0033 0.0053 0.0080 0.0115 0.0160 0.0216 0.0282 0.0360 13
8 - - - - - 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0019 0.0030 0.0046 0.0067 0.0094 0.0128 12
9 - - - - - - - 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0007 0.0011 0.0017 0.0026 0.0038 11
10 - - - - - - - - - 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0004 0.0006 0.0009 10
11 - - - - - - - - - - - - 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 9
12 - - - - - - - - - - - - - - - 0.0000 0.0000 0.0000 8
13 - - - - - - - - - - - - - - - - - - 7
14 - - - - - - - - - - - - - - - - - - 6
15 - - - - - - - - - - - - - - - - - - 5
16 - - - - - - - - - - - - - - - - - - 4
17 - - - - - - - - - - - - - - - - - - 3
18 - - - - - - - - - - - - - - - - - - 2
19 - - - - - - - - - - - - - - - - - - 1
20 - - - - - - - - - - - - - - - - - - o 20
n X 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 0.90 0.89 0.88 0.87 0.86 0.85 0.84 0.83 0.82 X n
p
p
n X 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 X n
20 o 0.0148 0.0115 0.0090 0.0069 0.0054 0.0041 0.0032 0.0024 0.0018 0.0014 0.0011 0.0008 0.0006 0.0004 0.0003 0.0002 0.0002 0.0001 20
1 0.0693 0.0576 0.0477 0.0392 0.0321 0.0261 0.0211 0.0170 0.0137 0.0109 0.0087 0.0068 0.0054 0.0042 0.0033 0.0025 0.0020 0.0015 19
2 0.1545 0.1369 0.1204 0.1050 0.0910 0.0783 0.0669 0.0569 0.0480 0.0403 0.0336 0.0278 0.0229 0.0188 0.0153 0.0124 0.0100 0.0080 18
3 0.2175 0.2054 0.1920 0.1777 0.1631 0.1484 0.1339 0.1199 0.1065 0.0940 0.0823 0.0716 0.0619 0.0531 0.0453 0.0383 0.0323 0.0270 17
4 0.2168 0.2182 0.2169 0.2131 0.2070 0.1991 0.1897 0.1790 0.1675 0.1553 0.1429 0.1304 0.1181 0.1062 0.0947 0.0839 0.0738 0.0645·16
5 0.1627 0.1746 0.1845 0.1923 0.1979 0.2012 0.2023 0.2013 0.1982 0.1933 0.1868 0.1789 0.1698 0.1599 0.1493 0.1384 0.1272 0.1161 15
6 0.0954 0.1091 0.1226 0.1356 0.1478 0.1589 0.1686 0.1768 0.1833 0.1879 0.1907 0.1916 0.1907 0.1881 0.1839 0.1782 0.1712 0.1632 14
7 0.0448 0.0545 0.0652 0.0765 0.0883 0.1003 0.1124 0.1242 0.1356 0.1462 0.1558 0.1643 0.1714 0.1770 0.1811 0.1836 0.1844 0.1836 13
8 0.0171 0.0222 0.0282 0.0351 0.0429 0.0515 0.0609 0.0709 0.0815 0.0924 0.1034 0.1144 0.1251 0.1354 0.1450 0.1537 0.1614 0.1678 12
9 0.0053 0.0074 0.0100 0.0132 0.0171 0.0217 0.0271 0.0332 0.0402 0.0479 0.0563 0.0654 0.0750 0.0849 0.0952 0.1056 0.1158 0.1259 11
10 0.0014 0.0020 0.0029 0.0041 0.0056 0.0075 0.0099 0.0128 0.0163 0.0205 0.0253 0.0308 0.0370 0.0440 0.0516 0.0598 0.0686 0.0779 10
11 0.0003 0.0005 0.0007 0.0010 0.0015 0.0022 0.0030 0.0041 0.0055 0.0072 0.0094 0.0120 0.0151 0.0188 0.0231 0.0280 0.0336 0.0398 9
12 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0021 0.0029 0.0039 0.0051 0.0066 0.0085 0.0108 0.0136 0.01f8 8
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0007 0.0010 0.0014 0.0019 0.0026 0.0034 0.0045 0.0058 7
14 - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009 0.0012 0.0016 6
15 - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 5
16 - - - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 4
17 - - - - - - - - - - - - - - 0.0000 3
18 - - - - - - - - 2
-
-- -
-- - - - - -
--
19 - - - - - - - - - - - - - - - - 1
20 - - - - - - - - o 20
-- - - -
- -
--
- - -
n X 0.81 0.80 0.79 0.78 0.77 0.76 0.75 0.74 0.73 0.72 0.71 0.70 0.69 0.68 0.67 0.66 0.65 0.64 X n
p
)>
"a ·:.~;·
fD.,
:::s
A
ñ
CD
m
¡¡;l
c:r
¡;;-
"'
1
..,m
~
1
..,.,."'
,,>
CD>
:s
A
ft
111
"'
¡;l
CT
~
p
n X 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 X n
;¿u
u U.uuu1 U.uuu1 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 20
1 0.0011 0.0009 0.0007 0.0005 0.0004 0.0003 0.0002 0.0001 0.0001 0.0001 0.0001 0.0000 0.0000 0.0000 19
2 0.0064 0.0050 0.0040 0.0031 0.0024 0.0018 0.0014 0.0011 0.0008 0.0006 0.0005 0.0003 0.0002 0.0002 18
3 0.0224 0.0185 0.0152 0.0123 0.0100 0.0080 0.0064 0.0051 0.0040 0.0031 0.0024 0.0019 0.0014 0.0011 17
4 0.0559 0.0482 0.0412 0.0350 0.0295 0.0247 0.0206 0.0170 0.0139 0.0113 0.0092 0.0074 0.0059 0.0046 16
5 0.1051 0.0945 0.0843 0.0746 0.0656 0.0573 0.0496 0.0427 0.0365 0.0309 0.0260 0.0217 0.0180 0.0148 15
6 0.1543 0.1447 0.1347 0.1244 0.1140 0.1037 0.0936 0.0839 0.0746 0.0658 0.0577 0.0501 0.0432 0.0370 14
7 0.1812 0.1774 0.1722 0.1659 0.1585 0.1502 0.1413 0.1318 0.1221 0.1122 0.1023 0.0925 0.0830 0.0739 13
8 0.1730 0.1767 0.1790 0.1797 0.1790 0.1768 0.1732 0.1683 0.1623 0.1553 0.1474 0.1388 0.1296 0.1201 12
9 0.1354 0.1444 0.1526 0.1597 0.1658 0.1707 0.1742 0.1763 0.1771 0.1763 0.1742 0.1708 0.1661 0.1602 11
10 0.0875 0.0974 0.1073 0.1171 0.1268 0.1359 0.1446 0.1524 0.1593 0.1652 0.1700 0.1734 0.1755 0.1762 10
11 0.0467 0.0542 0.0624 0.0710 0.0801 0.0895 0.0991 0.1089 0.1185 0.1280 0.1370 0.1455 0.1533 0.1602 9
12 0.0206 0.0249 0.0299 0.0355 0.0417 0.0486 0.0561 0.0642 0.0727 0.0818 0.0911 0.1007 0.1105 0.1201 8
13 0.0074 0.0094 0.0118 0.0146 0.0178 0.0217 0.0260 0.0310 0.0366 0.0429 0.0497 0.0572 0.0653 0.0739 7
14 0.0022 0.0029 0.0038 0.0049 0.0062 0.0078 0.0098 0.0122 0.0150 0.0183 0.0221 0.0264 0.0314 0.0370 6
15 0.0005 0.0007 0.0010 0.0013 0.0017 0.0023 0.0030 0.0038 0.0049 0.0062 0.0078 0.0098 0.0121 0.0148 5
16 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 0.0013 0.0017 0.0022 0.0028 0.0036 0.0046 4
17 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0006 0.0008 0.0011 3
18 - - - - 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 2
19 - - - - - - - - - - 0.0000 0.0000 0.0000 0.0000 1
20 - - - - - - - - - - - - - - o 20
n X 0.63 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.50 X n
p
TABLA E.8 Valores críticos de la prueba Fm.vc de Hartley
S~ayor
[Foo = S~enor _, l moxl-o:(c,v)
2 3 4 5 6 7 8 9 10 11 12
2 39.0 87.5 142 202 266 333 403 475 550 626 704
3 15.4 27.8 39.2 50.7 62.0 72.9 83.5 93.9 104 114 124
4 9.60 15.5 20.6 25.2 29.5 33.6 37.5 41.1 44.6 48.0 51.4
5 7.15 10.8 13.7 16.3 18.7 20.8 22.9 24.7 26.5 28.2 29.9
6 5.82 8.38 10.4 12.1 13.7 15.0 16.3 17.5 18.6 19.7 20.7
7 4.99 6.94 8.44 9.70 10.8 11.8 12.7 13.5 14.3 15.1 15.8
8 4.43 6.00 7.18 8.12 9.03 9.78 10.5 11.1 11.7 12.2 12.7
9 4.03 5.34 6.31 7.11 7.80 8.41 8.95 9.45 9.91 10.3 10.7
10 3.72 4.85 5.67 6.34 6.92 7.42 7.87 8.28 8.66 9.01 9.34
12 3.28 4.16 4.79 5.30 5.72 6.09 6.42 6.72 7.00 7.25 7.48
15 2.86 3.54 4.01 4.37 4.68 4.95 5.19 5.40 5.59 5.77 5.93
20 2.46 2.95 3.29 3.54 3.76 3.94 4.10 4.24 4.37 4.49 4.59
30 2.07 2.40 2.61 2.78 2.91 3.02 3.12 3.21 3.29 3.36 3.39
60 1.67 1.85 1.96 2.04 2.11 2.17 2.22 2.26 2.30 2.33 2.36
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
"'
Puntos I % superior (a = O.O I)
2 3 4 5 6 7 8 9 10 11 12
2 199 448 729 1036 1362 1705 2063 2432 2813 3204 3605
3 47.5 85 120 151 184 21(6) 24(9) 28(1) 31(0) 33(7) 36(1)
4 23.2 37 49 59 69 79 89 97 106 113 120
5 14.9 22 28 33 38 42 46 50 54 57 60
6 11.1 15.5 19.1 22 25 27 30 32 34 36 37
7 8.89 12.1 14.5 16.5 18.4 20 22 23 24 26 27
8 7.50 9.9 11.7 13.2 14.5 15.8 16.9 17.9 18.9 19.8 21
9 6.54 8.5 9.9 11 .1 12.1 13.1 13.9 14.7 15.3 16.0 16.6
10 5.85 7.4 8.6 9.6 10.4 11.1 11.8 12.4 12.9 13.4 13.9
12 4.91 6.1 6.9 7.6 8.2 8.7 9.1 9.5 9.9 10.2 10.6
15 4.07 4.9 5.5 6.0 6.4 6.7 7.1 7.3 7.5 7.8 e.o
20 3.32 3.8 4.3 4.6 4.9 5.1 5.3 5.5 5.6 5.8 5.9
30 2.63 3.0 3.3 3.4 3.6 3.7 3.8 3.9 4.0 4.1 4.2
60 1.96 2.2 2.3 2.4 2.4 2.5 2.5 2.6 2.6 2.7 2.7
1.00 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
"'
S2m1, 0 ,es el más grande y S2m'"º' es el más pequeño en un conjunto de e cuadrados medios independientes,
cada uno basado en v (ni) grados de libertad.
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables for Statisticians, 3a. ed., 1966.
Con lic.encia de The Biometrika Trustees.
"'
¡;;!
o-
~
TABLA E.9 Valores críticos inferiores y superiores U para la prueba de aleatoriedad en corridas
23456789 10 11 12 13 14 15 16 17 18 19 20 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
~• ~.
2 2 2 2 2 2 2 2 2 2 2
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 9 9
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 9 10 10 11 11
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6 6 9 10 11 12 12 13 13 13 13
7 .2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6 7 11 12 13 13 14 14 14 14 15 15 15
8 2333445 5 5 6 6 6 6 6 7 7 7 7 8 11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8 9 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9 10 13 14 15 16 16 17 17 18 18 18 19 19 20 20
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9 11 13 14 15 16 17 17 18 19 19 19 20 ~~ 20 21 21
12 22344566 7 7 7 8 8 8 9 9 9 10 10 12 13 14 16 16 17 w 19 19 20 20 21 21 21 22 22
13 22345566 7 7 8 8 9 9 9 10 10 10 10 13 15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11 14 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12 15 15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12 16 17 18 19 20 21 21 22 23 23 24 25 25 25
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13 17 17 18 19 20 21 22 23 23 24 25 25 26 26
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13 18 17 18 19 20 21 22 23 24 25 25 26 26 27
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13 19 17 18 20 21 22 23 23 24 25 26 26 27 27
20 2 3 4 5 6 6 7 B 9 9 10 10 11 12 12 13 13 13 14 20 17 18 20 21 22 23 24 25 25 26 27 27 28
Fuente: Adaptado de F. S. Swed y C. Eisenhart, Ann. Math. Statist., vol. 14, 1943, pp. 83-86.
TABLA E. I O Valores críticos inferiores y superiores W de la prueba de rangos
con signo de Wilcoxon
5
6
0,15
2,19 0,21
-.-
-.- -.-
-.-
7
8
3,25
5,31
2,26
3,33
0,28
1,35
-.-
0,36
9 8,37 5.40 3,42 1,44
10 10.45 8.47 5,50 3,52
11 13,53 10,56 7,59 5,61
12 17,61 13,65 10,68 7,71
13 21,70 17,74 12,79 10,81
14 25,80 21,84 16,89 13,92
15 30,90 25,95 19,101 16,104
16 35,101 29, 107 23,113 19,117
17 41,112 34,119 27,126 23,130
18 47,124 40,131 32,139 27,144
19 53,137 46,144 37,153 32,158
20 60, 150 52,158 43,167 37,173
Fuente: Adaptado de la tabla 2 de F. Wilcoxon y R. A. Wilcoxon, Sorne Rapíd Approxímate Statistical Procedures
(Pearl River, NY: Lederle Laboratories, 1964), con licencia de la American Cyanamid Company.
na n,
°'
De un extremo De dos extremos 4 5 6 7 8 9 10
Fuente: Adaptado de F. Wilcoxon y R. A. Wilcoxon, Sorne Rapid Approximate Statistical Procedures (Pearl River,
NY: Lederie Laboratories, 1964), con licencia de la American Cyanamid Company.
,, 2 3 4 6 7 8 10 11 12 13 14 IS 16 17
s 9 18 19 20
"
1 18.0 27.0 32.8 37.1 40.4 43.t 4S.4 47.4 49.1 S0.6 52.0 53.2 S4.3 SS.4 56.3 .57.2 .58.0 58.8 59.6
2 6.09 8.3 9.8 10.9 11.7 12.4 13.0 13.S 14.0 14.4 14.7 15.1 IS.4 15.7 IS.9 16.1 16.4 16.6 16.8
3 4.50 5.91 6.82 7.50 8.04 8.48 8.85 9.18 9.46 9.72 9.95 10.15 10.35 10.52 10.69 10.84 10.98 11.11 11.24
4 3.93 5.04 S.76 6.29 6.71 1.0S 7.35 7.60 7.83 8.03 8.21 8.37 8.52 8.66 8.79 8.91 9.03 9.13 9.23
s 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.17 7.32 7.47 7.60 7.72 7.83 7.93 8.03 8.12 8:21
6 3.46 4.34 4.90 5.31 5.63 5.a9 6.12 6.32 6.49 6.65 6.79 6.92 7.03 7.14 7.24 7.34 7.43 7.51 7.59
7 3.34 4.16 4.68 5.06 5.36 5.61 S.82 6.00 6.16 ·6.30 6.43 6.55 6.66 6.76 6.8S 6.94 7.02 7.09 7.17
8 3.26 4.04 4.SJ 4.89 5.17 S.40 S.60 5.77 S.92 6.05 6.18 6.29 6.39 6.48 6.57 6.65 6.73 6.80 6.87
9 3.20 3.95 4.42 4.76 S.02 5.24 5.43 S.60 S.74 S.87 5.98 6.09 6.19 6.28 6.36 6.44 6.SI 6. .58 6.64
10 3.IS 3.88 4.33 4.6.5 4.91 s.12 5.30 5.46 5.60 5.72 5.83 5.93 6.03 6.11 6.20 6.27 6.34 6.40 6.47
11 3.11 3.82 4.26 4.57 4.82 5.03 S.20 5.35 S.49 S.61 5.71 5.81 5.90 5.99 6.06 6.14 6.20 6.26 6.33
12 3.08 3.77 4.20 4.51 4.75 4.95 S.12 S.27 S.40 5.51 S.62 5.71 5.80 S.88 S.95 6.03 6.09 6.1s 6.21
13 3.06 3.73 4.IS 4.4.5 4.69 4.88 5.05 S.19 5.32 5.43 5.53 5.63 5.71 5.79 S.86 S.93 6.00 6.0S 6.11
14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 S.13 S.2S 5.36 S.46 5.'5 5.64 5.72 S.19 5.8.5 5.92 S.91 6.03
IS 3.01 3.67 4.08 4.37 4.60 4.78 4.94 5.08 5.20 5.31 S.40 S.49 S.58 S.6S 5.12 5.79 S.8S S.90 S.96
16 3.00 3.65 4.0.5 4.33 4 ..56 4.74 4.90 S.03 . 5.IS 5.26 5.35 5.44 5.52 S.S9 S.66 5.72 5.19 5.84 5.90
17 2.98 3.63 4.02 4.30 4.S2 4.71 4.86 4.99 s.11 S.21 S.31 S.39 5.47 s.ss 5.61 S.68 S.74 S.79 5.84
18 2.97 3.61 4.00 4.28 4.49 4.67 4.82 4.96 5.07 5.17 5.27 S.35 S.43 s.so S.57 5.63 5.69 5.74 S.79
19 2.96 3.59 3.98 4.25 4.47 4.6S 4.79 4.92 S.04 5.14 S.23 5.32 S.39 S.46 S.53 5.59 5.65 S.70 5.75
20 2.95 3.58 3.96 4.23 4.4.5 4.62 4.77 4.90 S.01 5.11 S.20 5.28 5.36 5.43 5.49 5.55 5.61 5.66 5.71
24 2.92 3.S3 3.90 4.17 4.37 4.54 4.68 4.81 4.92 5.01 5.10 5.18 5.2S 5.32 S.38 5.44 S.50 5. .54 5.59
30 2.89 3.49 3.84 4.10 4.30 4.46 4.60 4.72 4.83 4.92 S.00 S.08 S.-15 5.21 S.27 5.33 S.38 S.43 5.48
40 2.86 3.44 3.79 4.04 4.23 4.39 4.52 4.63 4.74 4.82 4.91 4.98 5.0S 5.11 S.16 5.22 5.27 5.31 5.36
60 2.83 3.40 3.74 3.98 4.16 4.31 4.44 4.55 4.65 4.73 4.81 4.88 4.94 5.00 5.06 S.11 5.16 S.20 5.24
120 2.80 3.36 3.69 3.92 4.10 4.24 4.36 4.48 4.56 4.64 4.72 4.78 4.84 4.90 4.95 5.00 S.05 S.09 5.13
00 2.77 3.31 3.63 3.86 4.03 4.17 4.29 4.39 4.47 4.55 4.62 4.68 4.74 4.80 4.85 4.89 4.93 4.97 5.01
l>
"a
111•
:::1
A.
ft
•111
~
u-
=
1
•
·w
'°
111
1
w
-
)>
'V
ID'I
:::11
A
ft
ID
111
¡;;t
~
¡;-
"'
TABLA E. 12 (continuación)
Puntos I % superior (a =O.O I)
., 2 3 4 s 6 7 8 9 10 11 12 13 14 u 16 17 18 19 20
"
1 90.0 135 164 186 202 216 227 237 246 253 260 266 272 277 282 286 290 294 2911
2 14.0 19.0 22.3 2A.1 26.6 28.2 29.5 30.7 31.7 32.6 33.• 34.1 34.8 35.4 36.0 36.5 37.0 37.5 37.9
3 8.26 10.6 12.2 13.3 l•.2 15.0 U.6 16.2 16.7 17.1 17.S 17.9 18.2 18.5 18.8 19.1 19.3 19.5 19.8
4 6.51 8.12 9.17 9.96 10.6 11.1 l.., 11.9 12.3 12.6 12.8 13.1 13.3 13.5 13.7 13.9 14.1 14.2 14.4
5 S.70 6.97 7.80 8.42 8.91 9.32 9.67 9.97 10.24 l0.48 10.70 10.89 11.08 11.24 11.40 11.55 11.68 11.81 11.93
6 5.24 6.33 7.03 7.56 1.91 8.12 8.61 1.17 9.10 9.30 9.49 9.65 9.11 9.95 10.08 10.21 10.32 10.43 10.54
7 4.95 5.92 6.54 7.01 7.37 7.68 7.94 8.17 8.37 8.55 8.71 8.86 9.00 9.12 9.24 9.35 9.46 9.55 9.65
8 4.74 5.63 6.20 6.63 6.96 7.24 7.47 7.68 7.87 8.03 8.18 8.31 U4 8.SS 8.66 8.76 8.8S 8.94 9.03
9 4.60 MJ S.96 6.35 6.66 6.91 7.13 7.32 7.49 7.6S 7.78 7.91 8.03 8.13 8.23 8.32 8.41 8.49 8.$7
10 4.48 S.27 S.77 6.14 6.43 6.67 6.17 7.05 7.21 7.36 7.48 7.60 7.71 7.81 7.91 7.99 8.07 8.15 8.22
ll 4.39 S.14 5.62 5.97 6.25 6.48 6.67 6.84 6.99 7.13 7.25 7.36 7.46 7.56 7.65 7.73 7.81 7.88 7.95
12 4.32 5.04 5.SO 5.84 6.10 6.32 6.51 6.67 6.81 6.94 7.06 7.17 7.26 7.36 7.44 7.S2 7.59 7.66 7.73
13 4.26 4.96 5.40 5.73 5.98 6.19 6.37 6.53 6.67 6.79 6.90 7.01 7.10 7.19 7.27 7.34 7.42 7.48 7.55
l• 4.21 4.89 5.32 5.63 S.8& 6.08 6.26 6.41 6.54 6.66 6.77 6.87 6.96 7.05 7.12 7.20 7.27 7.33 7.39
u 4.17 4.83 S.2S 5.56 5.80 S.99 6.16 6.31 6.44 6.S5 6.66 6.76 6.84 6.93 7.00 7.07 7.14 7.20 7.26
16 4.13 4.78 5.19 S.49 5.72 5.92 6.08 6.22 6.35 6.46 6.56 6.66 6.74 6.82 6.90 6.97 7.03 7.09 7.IS
17 4.10 4.74 s.1• s.•3 5.66 S.8S 6.01 6.IS 6.27 6.38 6.48 6.57 6.66 6.73 6.80 6.87 6.94 7.00 7.0S
18 4.07 4.70 5.09 5.38 5.60 5.79 S.94 6.08 6.20 6.31 6.41 6.50 6.58 6.65 6.72 6.79 6.8' 6.91 6.96
19 4.0S 4.67 S.05 5.33 S.5S S.73 S.89 6.02 6.14 6.2S 6.34 6.43 6.Sl 6.S8 6.~ 6.72 6.78 6.84 6.89
20 4.02 •.64 5.02 S..29 5.51 5.69 S.84 S.97 6.09 6.19 6.29 6.37 6.4S 6.S2 6.59 6.6S 6.71 6.76 6.82
24 3.96 4.5'4 ••91 S.17 5.37 s.s. S.69 HI S.92 6.02 6.11 6.19 6.26 6.33 6.39 6.45 6.51 6.56 6.61
30 3.89 4.45 4.80 5.05 S.24 5.40 5.54 5.65 S.76 S.8S 5.93 6.01 6.08 6.14 6.20 6.26 6.31 6.36 6.41
40 3.82 4.37 4.70 4.93 5.11 5.27 5.39 s.so S.60 5.69 S.77 S.84 5.90 5.96 6.02 6.07 6.12 6.17 6.21
60 3.76 4.28 4.60 •.12 4.99 5.13 5.25 5.36 5.45 S.53 S.60 5.67 S.73 S.19 S.84 5.89 S.93 S.98 6.02
120 3.70 4.20 4.SO 4.71 4.87 S.01 S.12 S.21 S.30 S.38 S.44 S.SI S.S6 S.61 S.66 S.11 s.1s S.79 S.83
3.64 4.12 4.40 4.60 4.76 4.8& 4.99 S.08 S.16 S.23 S.29 S.35 5.40 S.45 S.49 S.54 5.57 5.61 5.6'
ªAlcance/Sy- (súnbolo "parecido a") Q1_a;o;v. r¡ es el tamaño de la muestra de la cual se obtiene el alcance, y ves el número de grados de libertad de Sv.
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, editores. Biometrika Tables for Statisticians, vol. 1, 3a. ed., 1966. Con licencia de The Biometrika Trustees, Londres.
TABLA E. 1 3 Factores de diagrama de control
Número de observaciones
en la muestra dz d3 D3 D4 Az E2
2 1.128 0.853 o 3.267 1.880 2.659
3 1.693 0.888 o 2.575 1.023 1.772
4 2.059 0.880 o 2.282 0.729 1.457
5 2.326 0.864 o 2.114 0.577 1.290
6 2.534 0.848 o 2.004 0.483 1.184
7 2.704 0.833 0.076 1.924 0.419 1.109
8 2.847 0.820 0.136 1.864 0.373 1.054
9 2.970 0.808 0.184 1.816 0.337 1.010
10 3.078 0.797 0.223 1.777 0.308 0.975
11 3.173 0.787 0.256 1.744 0.285 0.946
12 3.258 0.778 0.283 1.717 0.266 0.921
13 3.336 0.770 0.307 1.693 0.249 0.899
14 3.407 0.763 0.328 1.672 0.235 0.881
15 3.472 0.756 0.347 1.653 0.223 0.864
16 3.532 0.750 0.363 1.637 0.212 0.849
17 3.588 0.744 0.378 1.622 0.203 0.836
18 3.640 0.739 0.391 1.609 0.194 0.824
19 3.689 0.733 0.404 1.596 0.187 0.813
20 3.735 0.729 0.415 1.585 0.180 0.803
21 3.778 0.724 0.425 1.575 0.173 0.794
22 3.819 0.720 0.435 1.565 0.167 0.785
23 3.858 0.716 0.443 1.557 0.162 0.778
24 3.895 0.712 0.452 1.548 0.157 0.770
25 3.931 0.708 0.459 1.541 0.153 0.763
Fuente: Reimpreso de ASTM-STP 15D con licencia de la American Soclety for Testing and Materlals.
31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83 1.15 1.27 1.08 1.34 1.02 1.42 .96 1.51 .90 1.60
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82 1.16 1.28 1.10 1.35 1.04 1.43 .98 1.51 .92 1.60
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81 1.17 1.29 1.11 1.36 1.05 1.43 1.00 1.51 .94 1.59
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81 1.18 1.30 1.13 1.36 1.07 1.43 1.01 1.51 .95 1.59
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80 1.19 1.31 1.14 1.37 1.08 1.44 1.03 1.51 .97 1.59
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80 1.21 1.32 1.15 1.38 1.10 1.44 1.04 1.51 .99 1.59
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80 1.22 1.32 1.16 1.38 1.11 1.45 1.06 1.51 1.00 1.59
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79 1.23 1.33 1.18 1.39 1.12 1.45 1.07 1.52 1.02 1.58
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79 1.24 1.34 1.19 1.39 1.14 1.45 1.09 1.52 1.03 1.58
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79 1.25 1.34 1.20 1.40 1.15 1.46 1.10 1.52 1.05 1.58
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78 1.29 1.38 1.24 1.42 1.20 1.48 1.16 1.53 1.11 1.58
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77 1.32 1.40 1.28 1.45 1.24 1.49 1.20 1.54 1.16 1.59
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77 1.36 1.43 1.32 1.47 1.28 1.51 1.25 1.55 1.21 1.59
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77 1.38 1.45 1.35 1.48 1.32 1.52 1.28 1.56 1.25 1.60
65 1.57 1.63 1.54 1.66 1.50 l. 70 1.47 1.73 1.44 1.77 1.41 1.47 1.38 1.50 1.35 1.53 1.31 1.57 1.28 1.61
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77 1.43 1.49 1.40 1.52 1.37 1.55 1.34 1.58 1.31 1.61
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77 1.45 1.50 1.42 1.53 1.39 1.56 1.37 1.59 1.34 1.62
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77 1.47 1.52 1.44 1.54 1.42 1.57 1.39 1.60 1.36 1.62
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77 1.48 1.53 1.46 1.55 1.43 1.58 1.41 1.60 1.39 1.63
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65
'n = número de observaciones; P = número de variables independientes.
Fuente: Esta tabla es reproducida de Biometrika, vol. 41 (1951), pp. 175, con licencia de The Biometrika Trustees.
Índice
Índice 1-1
MSAB, 580 para una secuencia de valores indi- media, 257
MSBL, 561 viduales (diagrama de corri- - parámetros, 254
MSE, 561, 580 da), 701-705 propiedades, 252
MSFA, 580 tabla de factores, E-32 tabla de la, E-17 - E-25
MSFB, 580 teoría de, 662 Distribución de frecuencias, 62
MSR, 795 Diagrama de dispersión, 715 establecimiento de los límites de la
MST, 530 Diagrama de esqueleto de pescado clase, 64
MSW (dentro), 530 (Ishikawa), 665 obtención de Jos intervalos de
Cuantiles normales estándar, 296-297 Diagrama de pastel, 172-173 clase, 63
Cuartiles, 112 Diagrama de tallo y hojas, 55 selección del número de clases, 63
Cuestionario Diagrama de tallo y hojas revisado, 57 subjetividad en la selección de las
diseño de, 20 Diagrama de Venn, 208 clases, 65
longitud de, 21 Diagrama np, 678 Distribución de frecuencias relativas,
modo de respuesta, 21 Diagrama p, 674 67-68
prueba (piloto), 22 Diagrama R, 693 Distribución de muestreo, 320
redacción, 21 Diagrama X, 701 de la media, 320-332
Cuestiones éticas, 45, 92, 159, 191, Diagrama X, 692 de la porción, :n4-336
232, 374, 412, 455, 518,593, Diagramas para poblaciones no normales, 329
650, 769,845 para datos categóricos para poblaciones normales, 324
Curioseo de datos, 413 gráfica de barras, 171-172 Distribución de muestreo de la
Curva de potencia, 405 gráfica de Pareto, 17 6-1 77 estadística de prueba, 320,
Curva menor que (véase Ojiva) gráfica de pastel, 1 72-173 334, 391,425,437, 489
gráfica de puntos, 172-17:{ Distribución de muestreo repetido,
D para datos numéricos 356
diagrama de dispersión, 715 Distribución de porcentaje acumulati-
Datos agrupados, 141 gráfica de caja y sesgos, 128-129 vo, 74
Datos categóricos, 15, 170, 606 gráfica digi punto, 78-81 Distribución de porcentajes, 67-68
Datos censurados, 414 histograma, 70 Distribución de probabilidad unifor-
Datos continuos, 15 ojiva (polígono acumulativo), me, 252
Datos de código, 31 75 Distribución en forma de U, 130, 144
Datos discretos, 15 polígono, 71 Distribución en forma rectangular,
Datos no agrupados, 141 para estudiar un proceso 144, :Bl
Datos numéricos, 12 diagramas de control, 622 Distribución exponencial, :n2
Datos numéricos continuos, 15-16 diagramas de esqueleto de Distribución F, 489, s:~ 1, 795
Datos numéricos discretos, 15 pescado, 665 Distribución F11,.;_,, 540
Datos, 12 diagrama de flujo de proceso, Distribución gaussiana (véase
Datos, agrupados y no agrupados, 141 666 Distribución normal)
Deciles, 168 Diagramas de atributos, 671 Distribución normal, 275
Definición operacional, 18 Diagramas de variables, 692 aplicaciones, 281-290
Deming, W. Edwards, 4, 661, 670 Diferencia media, 504 aproximación a la distribución bi-
Depresión, 860 Dificultades nomial, 306-308
Descomposición de SST, 528, 559, en ANOVA, 592 aproximación a la distribución de
578, 728 en el análisis de regresión, 765- Poisson, 308-310
Desestacionalización, 905-908 769, 844-845 bondad de ajuste, 294
Desviación estándar en el análisis de series temporales, evaluación de las propiedades,
fórmula definitoria, 121 911-912 294-295
fórmula de "calculadora de bolsi- en el análisis y en la inter- expresión matemática de, 277
llo", 123 pretación, importancia de, 275
de una variable aleatoria discreta, 155-159 parámetros de, 277
245 en investigación de encuesta, 41- propiedades de, 275-276
Desviación estándar de muestra (S), 121 45 tabla de, E-4
Diagrama e, 687 en presentación tabular y de dia- uso de la tabla de, 279-281
Diagrama de alcance, 693 gramas, 88-92, 189-191, 844- Distribución t de Student (véase t dis-
Diagrama de barras, 171-172 845 tribución)
Diagrama de causa y efecto (véase en prueba de hipótesis, 411-412, Distribución (Z) normal
Diagrama de esqueleto de 455, 518, 649-650 estandarizada, 278
pescado) Dispersión Distribución uniforme (con forma de
Diagrama de control de valor indivi- (Véanse Medidas de dispersión) rectángulo), 331
dual, 701 Dispersión media, 119 Distribuciones discretas, 251
Diagrama de control, 662 Distribución acumulativa, 74
para el alcance, 693-695 Distribución binomial, 252 E
para el número de presentaciones aproximación de Poisson a, 264
por unidad, 687-689 aproximación normal a, 306 Ecuaciones normales, 722
para Ja media, 695-698 características, 25 7 Ecuaciones simultáneas, 722
para la porcion y para el número desarrollo, 254 Edición de datos, 31
de elementos que no se ajus- desviación estándar, 259 Efecto curvilineal, 807
tan, 674-680 expresión matemática para, 255 Efecto de banda de confianza, 748
1-1 Índice
l·ln·to de tendencia, 443 de la media (µx conocida), 344 Función de densidad de probabilidad
l·kl'lo lineal, 807 de la media (µx desconocida), 349, normal, 274
l·kcto periódico, 443 352 Función de distribución de probabili-
Fkcto sistemático (periódico), 443 de la respuesta media en regresión, dad, 251
l·Jectos de interacción, 586 747,864 Funciones de densidad de probabili-
FJectos de tratamiento, 534 de la pendiente de población, 753, dad continuas, 274
Efectos principales, 586 803
Eficiencia, 323 de la porción, 360 G
Eficiencia relativa (RE), 567 Estimación de mínimo esfuerzo, 356-
Eje medio (midhinge), 112 358 GIGO, 15
Elementos diagonales (h;) de la matriz Estimaciones de intervalo, 344, 346 Gosset, W. S., 3, 350
de sombrero, 739, 756, 826 Estimaciones puntuales, 344 Grados de libertad, 352, 619
Elementos equilibrados o apareados, Estudio observacional, 14 Gráfica de caja y sesgo, 128-129
503 Estudio piloto, 364 Gráfica de dispersión, 532-533, 563-
Encuesta por teléfono, 21 Estudios analíticos, 5 564
Encuesta sobre la Satisfacción de los Estudios enumerativos, 5 Gráfica de probabilidad normal, 296-
Empleados, 25-29, 83-86, Evento, 204 302
150-153, 184-187, 370-373, Evento cierto, 204 Gráfica digipunto, 78-81
449-454, 495-501, 552-557, Evento conjunto, 207 Gran media (véase Media general)
639-643, 759-765, 828-836 Evento sencillo, 206 Gran total, 5 77
Encuestas, 4-5, 41-45, 3 74-3 75 Eventos independiente, 223, 255, Grupo (clase) modal, 146
Encuestas de opinión (véase Encuestas) 632-633 Grupos de tratamiento, 526-527, 558
Entrada de datos, 31 Eventos nulos, 204 Grupos o niveles, 577
Entrevistas personales, 21 Experimento de la cuenta roja, 684-687
Error aleatorio inherente (SSE), 561 Experimento diseñado, 14 H
Error de cobertura, 42 Externos, 105
Error de medición, 44 Extrapolación, 725 Hartley, prueba F111ax de, 540-541
Error de muestreo, 43, 363, 366 tabla de, E-26
Error de no respuesta, 43 F Herramientas de comportamiento, 4
Error del tipo 1, 388 Herramientas de planeación adminis-
Error del tipo 11, 388 Factor, 527 trativa
Error estándar Factor A2 , 696 diagrama de esqueleto de pescado
de una estimación, 726 Factor d 2, 693 (de lshikawa), 665
de la media, 323-324 Factor d 3 , 693 diagrama de flujo de proceso, 666
de la porción, 335 Factor 0 3 , 693 Hipótesis alternativa, 385
del coeficiente de regresión, 751- Factor 0 4, 693 Hipótesis nula, 385
752, 801 Factor de corrección ele población Histograma, 70
Error experimental, 528 finita, 337, :{68 Histograma de frecuencias (véase His-
Error residual, 898 Factor Ev 702 tograma)
Errores de encuesta, 41 Factor inflacionario de varianza Histograma de frecuencias relativas,
Escala de cociente, 17 (VIF), 824 70
Escala de puntos, 107 Factorial, 231 Homogeneidad de porciones, 611,
Escala nominal, 16 Fases del ciclo de negocios, 860-861 616, 618, 624
Escala ordinal, 16 Fisher, R. A., 3, 489 Homogeneidad de varianza (véase
Escalamiento de intervalo, 17 Ford, Henry, 661 Homoscedasticidad)
Escalas de medición Forma, 127, 136 Homoscedasticidad, 489, 539, 737,
intervalo y cociente, 17 Forma sin procesar, 54, 105 739
nominal y ordinal, 16 Fórmula de transformación, 278 Hunter, J. S., 80
Espacio muestra!, 206 Fórmulas de colocación de punto
Esperanza matemática, 243 (para Q,, Mediana, Q1), 113
Estadística, 3 Fórmulas de definición, 120-121
Estadística C/, 835 Frecuencia esperada (fe), 618 Igualdad de porciones, 611, 616, 622,
Estadística de desviación, 840 Frecuencia observada (f,,), 618 624
Estadística de prueba, 391 Frecuencia teórica [véase Frecuencia Igualdad de varianzas, 48'J-490, 539-
Estadística de Wald, 841 esperada (f..)] 541, 737, 739
Estadística descriptiva, 3 Fuente principal, 13 Imparcialidad, 321
Estadística D; de Cook, 757, 827 Fuente secundaria, 13 Independencia, 220, 6:U
Estadística inferencia!, 3 Fuentes de datos Independencia de error, f'i:l9, 737,
Estadística moderna, 2 conducción de una investigación, 740
Estadística, sujeto de la, 2 14, 41 Independencia estadíst Ira, 220-221
Estandarización de la distribución diseño de un experimento, 14 Indicador guía, 859
normal, 278-279 estudio observacional, 14-15 Índice estacional, 90.S
Estimación combinada (p) de porción material publicado, 14 cálculo del, 905
de población común, 612, Fuentes de variación, 528, 559, 578, 728 desestacionalización, '>O.S
624-625 Fuentes publicadas de datos, 13-14 uso de la predicción, '>09
Estimación de intervalo de confianza Función de densidad de probabilidad, Inferencia estadística, :120
para una población finita, 368-369 274 Interacción, 566, 585
Indice 1-J
Interpolación, 725 alcance, 118 aleatorias simple, 23
Interpretación de datos, 104-105 alcance intercuartil (dispersión de agrupación, 23
Interrelación entre t y F, 802-803 media), 119 estratificadas, 23
Interrelación entre Z y x2 , 622-623 coeficiente de variación, 124 sistemáticas, 23
Intersección, 208 desviación estándar, 120 Muestras apareadas (véase Muestras
Intersección (véase Intersección Y) varianza, 120 relacionadas)
Intersección Y, 720-721 Meta-análisis, 414-415 Muestras equilibradas (véase Muestras
Intervalo de confianza, 346 Método de centrado, 807 relacionadas)
Intervalo de predicción para un valor Método de grupo nominal, 4 Muestras relacionadas, 503, 644
futuro individual, 358-359 Método de mínimos cuadrados, 721- Muestreo con y sin sustituciones, 24
Intervalo de predicción para una res- 722, 872 Multicolinealidad, 824
puesta individual, 749, 804 Método de predicción de Holt-Win- Mutuamente excluyentes, 213, 216
Intervalos de clase, 63 ters, 884
Investigación de correo, 21 Metodología de prueba de hipótesis, N
Investigación de encuestas, 14-15 384
Investigación de muestra, 41, 374-375 planteamiento valor p, 394-395, Nemenyi, procedimiento de, 5 74
lshikawa, Kaoru, 661, 665 400 tabla para, E-30 - E31
pasos, 393-394 Nivel de confianza, 347
J Mínimos cuadrados pesados, 737 Nivel de medición, 16
MINITAB (véase Paquetes de compu- Nivel de significación, 388
Juran, Joseph, 4, 661 tación, uso de) Niveles (véanse Grupos)
JUSE, 670 Moda, 111 Notación algebraica, 106, A-2
Modelado autorregresivo, 888 Números aleatorios, tabla de, 25, E-2 -
K Modelo, 251 E-3
Modelo de diseño completamente
Kruskal-Wallis, prueba de rango para aleatorizado [véase Análisis de o
muestras e independientes, varianza (ANOVAJI
545 Modelo de diseño de bloque aleatori- Observaciones restringidas, 16
procedimiento de Dunn, 549 zado (véase Análisis de Ojiva (polígono acumulativo), 75
varianza) Olkin, lngram, 415
L Modelo de diseño factorial, 577 Organización de datos, 54
Modelo de efectos aleatorios, 588
Ladera de potencias, 822 Modelo de efectos fijos, 588 p
Ley de grandes números, 923 Modelo de efectos mezclados, 588
Límite de control inferior (LCL), 663 Modelo de regresión curvilineal, 806 Paquetes de computación
Límite de control superior (UCL), 663 Modelo de regresión lineal múltiple, características comparativas en re-
Límites de clase, 64 782 gresión, 759
Linealidad, 737 Modelo de regresión lineal simple, en ANOVA, 553-557
Lluvia de ideas, 4 719, 721 en estadística descriptiva, 83-87,
Logaritmo del cociente de posibilida- Modelo de regresión logística, 83 7 151-154, 185-187
des, 838 estadística de desviación, 840 en prueba de hipótesis, 449-454,
estadística de Wald, 841 495-501, 640-643
M Modelo de tendencia cuadrática, 874 en regresión, 759-765
Modelo de tendencia exponencial, uso de Microsoft EXCEL para Win-
MAD (desviación absoluta media), 899 876 dows, 186, 553
Marco de población (listado), 5, 24 Modelo (de tendencia) lineal, 872 uso de MINITAB, 87, 151, 357,
Marco [véase Marco de población (lis- Modelo de tiempo multiplicativas 428,
tado)] clásicas, 859-861 435, 451-554, 477-478, 495,
Matriz de correlación, 791-792 Modelo saturado, 840 499, 554, 742-743, 760-764,
Media, 106 Modelos ARIMA, 919 793, 809, 826, 830-834, 845,
Media aritmética (véase Media) Modelos de variable ficticia, 816 873, 875-87~ 893-894, 905
Media de muestra (X), 106 Muestra, 3 uso de SAS, 153, 187, 497, 557,
Media general, 529 Muestra aleatoria simple, 23 641, 759, 785, 798,804
Mediana Muestra de agrupación, 23 uso de SPSS, 84, 154, 186, 497, 642
de datos agrupados, 145-147 Muestra de cuota, 23 uso de STATISTIX, 85-86, 152, 186,
de datos no agrupados, 109 Muestra de juicio, 23 496,498, 555, 760,836,839,
Mediciones repetidas (véase Muestras Muestra de parte grande, 23 844
relacionadas) Muestra de probabilidad, 22-23 Parabólica, 721
Medidas de resumen descriptivas, 106 Muestra estratificada, 23 Parámetro, 3
Medidas de tendencia central, 106 Muestra no probabilística, 22 Pareto, diagrama de, 176-177
alcance medio, 111 Muestra sistemática, 23 Parsimonia, principio de, 829, 897,
eje medio, 112 Muestras 899
media aritmética, 106 no probabilísticas, 23 Pendiente, 720-721
mediana, 109 de parte grande, 23 Pensamiento estadístico, 4
moda, 111 - muestra de cuota, 23 Percentiles, 168
Medidas de variación o de dispersión, muestra de juicio, 23 Permutaciones, 231
118 probabilísticas Pico, 860
1-4 Índice
'" •l>l<1ción1 3 Probabilidad, distribución de, para la porción de población, 606
desviación estándar dt•, 1:u de una variable aleatoria discreta, para la significación de un modelo
finita, 24, 337, :~68 242 de regresión, 794
infinita, 52 Probabilidad empírica clásica, 205 para la varianza de población, 437
media de, 132 Probabilidad estimada de éxito, 838 para las diferencias entre dos
varianza de, 1:n Probabilidad marginal, 211 medias, 463-464, 472-473
Población normal, 324 Probabilidad simple, 211 para las diferencias entre dos
Población objetivo (véase Marco de Probabilidad subjetiva, 205 medianas, 481
población) Problema de Behrens-Fisher, 468, 472 para las diferencias entre dos por-
Poblaciones independientes, 463, Procedimiento de Dunn, 549 ciones, 611, 616
472, 481, 489 Procedimiento de Marascuilo, 628 para las diferencias entre
Poblaciones relacionadas, 503, 644 Procedimientos clásicos (véanse Méto- medianas e, 545, 571
Poisson, distribución de, 260 dos paramétricos) para las diferencias entre medias e,
aproximación a la distribución Procedimientos de muestra e, 527, 624 527, 529
binomial, 264 Procedimientos de predicción de para las diferencias entre por-
aproximación normal a, 308 control adaptable, 903 ciones e, 624
características, 264 Procedimientos de prueba libres de para muestras relacionadas, 504,
desviación estándar, 262 distribución, 423 511, 644
expresión matemática de, 261 desventajas de los, 424 para porciones del modelo de
media, 262 ventajas de los, 423 regresión múltiple, 796, 801
tabla de, E-13 - E-16 Procedimientos de prueba no pa- para un coeficiente de regresión
Polígono de frecuencias relativas, 71 ramétricos, 423 en regresión múltiple, 796,
Polígono de porcentaje acumulativo, desventaja de, 423 801
75 ventajas de, 423 Prueba de McNemar, 644
Polígono de porcentajes, 71 Procedimientos de prueba paramétri- Prueba de rango de Friedman para
Polígonos, 71 cos, 422-423 muestras e relacionadas, 5 71
Polinomial, 807 Proceso, 664 procedimiento de Nemenyi, 574
Porción de éxitos, 334 Proceso de Poisson, 261 Prueba de significación (véase Prueba
Porción de muestra (p), :B4, 606 Proceso, diagrama de flujo de, 666 de hipótesis)
Porción de población p, 607 Promedio, 106 Prueba exacta de Fisher, 622
Potencia de una prueba estadística Promedio móvil pesado, 908 Prueba F
(1-~), 389, 401-407 Promedios móviles, 862-866 para efectos de bloqueo, 562
determinación del tamaño de Propiedad de mínimos cuadrados, para efectos de interacción, 581
muestra basado en errores a y 722 para la contribución de una
~/ 408-410 Propiedades de la media, 320-323 variable predictor, 799
efecto del nivel de significación, 407 Propiedades de los datos numéricos, para la igualdad de dos varianzas,
efecto del tamaño de muestra, 407 106 489
efecto del tipo de prueba, 407 Prueba de Durbin-Watson, 742-745 para la significación de un modelo
efecto del valor del parámetro ver- tabla para la, E-33 de regresión múltiple, 794-
dadero, 407 Prueba de hipótesis 795
Precisión, 43 para aleatoriedad, 442 para las diferencias entre medias e,
Predicción, 714 para autocorrelación positiva, 531
Predicción, 858, 869, 897, 903 744-745 Prueba F ANOVA de bloque aleatori-
modelos para efectos de bloqueo, 562 zado, 562
cualitativos, 858 para efectos de interacción, 581 Prueba F ANOVA de una dirección,
listado de factores, 858 para el efecto curvilíneo, 812 527
opinión experta, 858 para el efecto lineal en un modelo Prueba piloto, 22
técnica de Delphi, 858 curvilineal, 813 Prueba t
cuantitativos, 858 para el modelo de regresión para el coeficiente de correlación,
causales, 859 curvilínea, 810 753
series temporales, 859 para el parámetro autorregresivo para la diferencia entre dos
selección de modelo, 899, 903 de mayor orden, 890 medias, 464
Predicción de negocios, importancia para independencia, 632 para la diferencia media, 504-506
dela, 858 para independencia en la tabla, para la media, 424
Premio Malcolm Baldrige, 661 632 para la pendiente, 751, 801
Preparación de datos, 31 para la existencia de correlación, Prueba t de diferencias apareadas, 504
Presentación de datos (véanse Diagra- 753 Prueba t de varianza aunada para
mas; Tablas) para la igualdad de dos varianzas, diferencias; entre dos medias,
Primer cuartil, 113 489 464
Probabilidad, 204 para la igualdad de varianzas e, Prueba t' de varianza separada para
Probabilidad clásica, 204-205 540 diferencias de dos medias, 472
Probabilidad condicional, 218 para la media de población Prueba t' para la diferencia entre dos
Probabilidad conjunta, 212 crx conocida, 390 medias, 472
Probabilidad de un error del tipo 1 crx desconocida, 424 Prueba X 2
(a), 388 para la mediana de población, 430 para independencia, 632
Probabilidad de un error del tipo II para la pendiente de población, para la diferencia entre dos por-
(~), 388 751 ciones, 616
Índice 1-S
para la diferencia entre porciones Reglas del álgebra, A-2 Suma de Cuadrados Bloques (SSBL),
e, 624 Regresión, análisis de, 714 560
para la varianza de población, 437 Regresión, coeficientes de, 721, 784 Suma de Cuadrados debida a la Inter-
procedimiento de Marascuilo, 628 Regresión de mejores subconjuntos, acción (SSAB), 579
Prueba Z 835 Suma de Cuadrados debida a la Regre-
para diferencias en dos medias, Cp"• 835 sión (SSR), 728, 730, 795, 811
463 r ajustada, 835 Suma de Cuadrados debida al Factor A
para diferencias en dos porciones, Regresión, diagnóstico de, 737, 755 (SSFA), 578
611 Regresión, modelos de, 715 Suma de Cuadrados debida al Factor B
para la diferencia media, 504 · Regresión por pasos, 829 (SSFB), 579
para la media, 390 Relación lineal, 715 Suma de Cuadrados Dentro (SSW),
para la porción, 606 Residuos, 737 530
Pruebas de dos extremos, 391 Residuos de la t de Student elimina- Suma de Cuadrados Entre (SSA), 530,
Pruebas de dos muestras, 462, 503, dos, 757, 826 560
611, 616, 644 Residuos estandarizados, 739 Suma de Cuadrados Error (SSE), 561,
Pruebas de un extremo, 397-399 Resistencia, propiedad de, 114 579, 728-729, 795, 811
Pruebas de un extremo contra prue- Respuesta categórica, 15 Suma de cuadrados tipo ll, 798
bas de dos extremos, 413 Respuesta numérica, 15 Suma de Cuadrados Total (SST), 529,
Pruebas de una muestra, 422 Respuestas a problemas seleccionados, 560, 578, 728-729, 795, 811
Pruebas direccionales, (véanse Pruebas 921 Suma de regresión de medidas cua-
de un extremo) Resultado de diferencia (D¡), 431, 504, dradas de variación
Pruebas libres de distribución 512 SSE, 728-729, 795, 811
para muestras e relacionadas, 571 Resumen de cinco números, 128-129 SSR, 728, 730, 795, 811
prueba de McNemar, 644 Resumen de datos, 104 SST, 728-729, 795,811
prueba de rango de Friedman Riesgo ~, 388 Suma errónea de cuadrados, 728-729
prueba de rango de Kruskal-Wallis Robusto, 424, 440, 443 Sumatoria, notación de, 106, B-1-B-5
para muestras e independientes, Supertabla, 182-183
545 5 Suposición de normalidad, 539, 736,
prueba de rangos con signo de 740
Wilcoxon para la diferencia SAS (véanse Paquetes de compu- Suposiciones,
de medianas, 511 tación, uso de) de análisis de varianza, 537
prueba de rangos con signo de Satterthwaite, F. E., 472 de la estimación del intervalo de
Wilcoxon para la mediana, 430 Scherkenbach, W. W., 672 confianza, 350, 356, 360
prueba de suma de rangos de Selección de muestra, 23-25 de la prueba Xz para independen-
Wilcoxon, 4 72 Selección del modelo de predicción, cia, 633
prueba de Wald-Wolfowitz para 897 de la prueba Xz para la igualdad de
aleatoriedad, 442 análisis residual, 897-898 porciones, 618-619, 624-625
Punto medio de clase, 65 error de predicción (MAD), 898- de la prueba Xz para la varianza,
Puntos, diagrama de, 172-173 899 440
principio de parsimonia, 897, 899 de la prueba de McNemar, 644-645
Q Series temporales, 859 de la prueba de rango de Friedman,
datos anuales, 862 571
Q1 : primer cuartil, 113 datos mensuales, 903 de la prueba de rango de Kruskal-
Q¡: tercer cuartil, 113 objetivos, 859 Wallis, 545
Sesgo de la prueba de rangos con signo
R sesgado a la derecha (positivo), de Wilcoxon para la mediana,
127 431
Rangos, 432,482, 512,546, 571 sesgado a la izquierda (negativo), de la prueba de rangos con signo
Recolección de datos, 13-15, 30, 412 127 de Wilcoxon para la diferencia
carta explicatoria, 30 sesgo cero (simetría), 127 media, 511
consentimiento informado, 413 Sesgo derecho, 127, 129 de la prueba de suma de rangos de
Región crítica, 387 Sesgo izquierdo, 127, 129 Wilcoxon, 481
Región de no rechazo, 387 Shewhart, ciclo de, 671 de la prueba de Wald-Wolfowitz
Región de rechazo, 387 actuación, 671 para aleatoriedad, 492
Registros de etiqueta, 64 estudio, 671 de la prueba Durbin-Watson, 742
Regla de adición general, 215 planeación, 671 de la prueba F de bloque aleato-
Regla de Bienaymé-Chebyshev, 138- realización, 671 rizado, 559, 566
139 Shewhart, W.A., 660, 662, 670-671 de la prueba F de una dirección, 53 7
Regla de la adición, 214 Símbolos estadísticos, C-1 de la prueba F para la igualdad de
Regla de multiplicación, 222 Simetría, 127-129 varianzas, 493
Regla de multiplicación general, 222 Sistema logarítmico Napieriano (na- de la prueba Fmáx de Hartley, 540
Regla de multiplicación para eventos tural), 264 de la prueba t para la diferencia de
independientes, 223 SPSS (véase, Paquetes de compu- dos medias, 464
Regla empírica, 138 tación, uso de) de la prueba t para la diferencia
Reglas de conteo, 229-231 Suavizado exponencial, 866-869 media, 505
Reglas de las operaciones aritméticas, Suavizado exponencial doble, 872 de la prueba t para la media (crx no
A-7 Suavizado exponencial triple, 872 conocida), 427
1-e indice
de la prueba t' para la diferencia Tipos de datos Varianza,
de dos medias, 472 datos _categóricos, 15 de una variable aleatoria discreta,
de la prueba Z para la diferencia datos numéricos, 15 245
de dos medias, 463 TQM (véase Administración para la dentro de grupos (véase Cuadrado
de la prueba Z para la diferencia calidad total) medio)
media, 504 Transcripción de datos, 31 entre grupos (véase Cuadrado me-
de la prueba Z para la media (cr, Transformación de resultados normal dio)
no conocida), 423-424 inversa, 296 fórmula definitoria, 120
de la prueba Z para la porción, Transformación logarítmica, 822 fórmula de "calculadora de bolsi-
606-607 Transformación recíproca, 822 llo", 123
de procedimientos libres de dis- Transformaciones, para modelos de VIF (véase Factor inflacionario de va-
tribución, 424 regresión exponenciales, 822- rianza)
de procedimientos no paramétri- 823 Varianza aunada, 464
cos, 424 logarítmicas, 822 Varianza de error, 795
de procedimientos paramétricos raíz cuadrada, 822 Varianza de muestra (52), 120, 123
clásicos, 424 recíprocas, 822
de regresión y de correlación, 736 Tratamientos, 526-527 w
del análisis de series temporales, 859 Tukey, John W., 3, 586, 822
Tukey-Kramer, procedimiento de, 537 Wald-Wolfowitz, prueba de corridas
T tabla para, E-30-E-31 de una muestra para aleato-
Tukey, procedimiento de, 566, 586 riedad, 442
t, distribución tabla para el, E-30-E-31 tabla de, E-27
aproximación normal, 350 Wilcoxon, prueba de rangos con
propiedades de, 350-351 u signo para la diferencia
tabla t, E-5 - E-6 mediana, 5 11
Tabla de números aleatorios, 25, E-2- Unidades experimentales, 558 para la mediana, 430
E-3 Uniformidad, 867 tabla de, E-28
Tabla sumaria, 170-171 Unión, 208 Wilcoxon, prueba de suma de rangos
Tablas de clasificación cruzada (véase Universo (véase Población) de, 481
Tablas de contingencia) tabla de, E-29
Tablas de contingencia, 180-182, 208, V
616
Tablas de datos categóricos Valor crítico, 347, 386-387
supertabla, 182-183 Valor esperado de una variable
de datos numéricos, distribu- aleatoria, 243-244
ción acumulativa, 74-75 Valor monetario esperado, 246
distribución de frecuencias, 62 Valor p, 394, 400, 427
distribución de frecuencias rela- Valores extremos (véase Externos)
tivas, 67-68 Valores faltantes, 31
distribución de porcentajes, 67- Variable aleatoria, categórica, 15
68 ficticia, 817
tabla de contingencias, 180- Variable aleatoria, numérica, 15
182, 208 616 continua, 15
tabla sumaria, 170-171 discreta, 15
Tablas F, E-8-E- l 1 Variable categórica, 15, 170
obtención de un valor crítico más Variable de respuesta, 714
bajo, 491-492 Variable dependiente (véase Variable
Tallo dividido, 5 7-58 de respuesta)
Tamafio de muestra Variable explicatoria, 714
determinación, 22 Variable independiente (véase Varia-
para controlar los riesgos a y ~. ble explicatoria)
408 Variable numérica continua, 15-16
para la media, 362 Variable numérica discreta, 15, 242
para una población finita, 368-371 Variable predictor (véase Variable
para una porción, 365 explicatoria)
Tasa de crecimiento compuesto, 876 Variables, 15
Taylor, Frederick W., 661 Variables ficticias, 817
Técnica de Delphi, 858 Variables numéricas, 15-16
Tendencia central (véase Medidas de Variación dentro de grupos (SSW),
tendencia central) 530
Tendencia de no respuesta, 43 Variación entre bloques (SSBL), 560
Tendencia de selección, 42 Variación entre grupos (SSA), 530
Tendencia (o locación) no central, 112 Variación explicada, 728
Teorema de Bayes, 225 Variación no explicada, 728
Teorema del límite central, 329 Variación total (SST), 529, 728
Tercer cuartil, 113 Variación (véanse Medidas de
Términos de interacción, 821 variación o de dispersión)
fndice 1-7